#  > > >  >  > Форум >  > > >  >  > Лингвистический форум >  > > >  >  > Лингвистический форум >  > > >  >  > Пали >  > > >  >  >  HTML коды для пали и санскрита

## Ассаджи

Для всех тех энтузиастов, которые размещают палийские тексты в инете, привожу НТМL-коды букв с диакритическими знаками:

AA - Ā - & # 256;
                    aa - ā - & # 257;
II - Ī - & # 298;
                    ii - ī - & # 299;
UU - Ū - & # 362;
                    uu - ū- & # 363;
.M - Ṃ - & # 803; 
                   .m - ṃ - & # 803;
'N - Ń - & # 323;
                    'n - ń - & # 324;
~N - Ñ - & Ntilde;
                   ~n - ñ - & ntilde;
.T - Ṭ - T & # 803;
                   .t - tฺ - t & # 3642;
.D - Ḍ - D & # 803;
                   .d - ḍ - d & # 803;
.N - Ṇ - N & # 803;
                   .n - ṇ - n & # 803;
.L - Ḷ - L & # 803;
                   .l - lฺ - l & # 3642;

И дополнение для любителей санскрита:

.R - Ṛ - R & # 803;
            .r - rฺ - r & # 3642;
.C - Ç - & Ccedil;
           .c - ç - & ccedil;
'S - Ś - & # 346;
             's - ś - & # 347;
.S - Ṣ - & # 803;
            .s - ṣ - & # 803;

----------


## Huandi

Преогромнейшее спасибо!

----------


## sergey

Есть программка узкого назначения. Один архив Типитаки на пали в сети (он, кажется, есть среди ссылок  на "Колесе дхармы") содержит zip-архивы doc-файлов со шрифтом Times-Norman (однобайтовым). Файлы большие, медленно открываются. Мне было удобно сохранять куски из них (например - сутру или несколько) в формате html с одновременной перекодировкой в unicode (под шрифт CN-Times).  Если кого заинтересует программка, которая это делает, можете сообщить здесь, я могу разместить ее в сети и дать ссылку.

И еще, подскажите, кто знает, пожалуйста. В Unicode номер символа однозначно определяет символ? 
При однобайтовой кодировке есть много наборов символов (charset) и кодовые страницы, так что одному номеру в них могут соответствовать разные буковки, а в уникоде - при любом шрифте все одинаково? Какой-нибудь & #8888; всегда будет одним и тем же?

----------


## Буль

_уникоде - при любом шрифте все одинаково? Какой-нибудь & #8888; всегда будет одним и тем же?_

Юникодов вообще-то несколько. UTF-8, UTF-16 и UTF-32. Обычно сейчас используют UTF-8, в ней используется столько байтов, сколько определяется кодом символа (но не больше 6). UTF-16 использует полные два байта или 4 в суррогатной паре. UTF-32 всегда имеет 4 байта.

----------


## sergey

Спасибо.
Если говорить про UTF-16, вот я определил коды палийских букв для шрифта CN-Times. В другом уникодовском шрифте будет ли все выглядеть так же? Или вообще вопрос поставлен некорректно?

----------


## Ассаджи

Если говорить конкретно о шрифте CN-Times, то в "больших" Уникод-шрифтах типа Cyberbit его ретрофлексивные буквы не отображаются. Там вообще нет ретрофлексивных букв.

----------


## Aleksey

Ещё один вопрос по поводу упомянутого архива Типитаки. В Word 97 поиск в нём не работает, хотя в Word 95 работал. Можно ли предпринять какие-то меры, чтобы поиск заработал?
Всех благ

----------


## sergey

Алексею:
У меня (на Word 2000) эти файлы при открытии почему-то фонт себе определяли courier. Если не менять на Norman, то по тем буквам, которые выглядят нормально, поиск идет, после установки  шрифта в Times Norman - поиска нет. Так что, похоже, что это связано со шрифтом. Я ничего сделать не смог.

----------


## Ассаджи

> Ещё один вопрос по поводу упомянутого архива Типитаки. В Word 97 поиск в нём не работает, хотя в Word 95 работал. Можно ли предпринять какие-то меры, чтобы поиск заработал?


Можно с помощью макросов (см. соответствующий тред) или других методов заменить шрифт на CN-Times или на безшрифтовое отображение с помощью расширенного набора символов и точек снизу, по аналогии с HTML-кодами.

----------

