#  > > >  >  > Форум >  > > >  >  > Лингвистический форум >  > > >  >  > Лингвистический форум >  > > >  >  > Тибетский >  > > >  >  >  Тибетский Софт - набираю инициативную группу разработчиков

## Dorje Dugarov

Возвращаясь к теме тибетского софта (читайте - Прошу помощь - Буддийский (Тибетский) софт http://buddhist.ru/board/showthread....&threadid=4697). 

Мною была предложенна идея создать полноценный тибетский офисный пакет.
Кодовое имя проекта - FreeTibet Office

Приглашаю всех кому интересно присоединиться к проекту и есть свободное время.
Если есть хорошие идеи пишите -
freetibetoffice@yandex.ru

Проект будет осуществляться по лицензии GNU/Gpl
За основу предлагаю взять
1. Исходники OpenOffice.org1.1.0
2. TibetanMachineWeb
3. Исходники программы Jskad
4. Платформа Linux (Unix, FreeBSD, Solaris)


Ваш Доржо

----------


## sergey

Доржо, а Вы знаете, что есть проект локализации и интернационализации (ну и словечко!) Open Office?
На их сайте есть страницы. Есть и средства для этого, там описаны. Это не сгодится?

----------


## Ондрий

> _Первоначальное сообщение от sergey_ 
> *Доржо, а Вы знаете, что есть проект локализации и интернационализации (ну и словечко!) Open Office?
> На их сайте есть страницы. Есть и средства для этого, там описаны. Это не сгодится?*


не сгодится ИМХО. Под MS и Unicode тоже есть саппорт тиб. шрифтов, однако набор текста на тиб. это в первую очередь не отображение букв, а особая обработка клавиатуры.
Динамическое изменение слога при его "доборе" до конца.
Посмотрите как работает JsKad или WhyleWorld - сразу станет понятно что именно нужно для алгоритма обработки.

Просто "открыть текст" с тиб. шрифтом - это не то, это в любой системе без проблем.

P.S. А версия сырцов OO старовата 1.1.0 = уже 2.0 в разработке

----------


## Dorje Dugarov

Любой совет, идея важны.




> не сгодится ИМХО. Под MS и Unicode тоже есть саппорт тиб. шрифтов, однако набор текста на тиб. это в первую очередь не отображение букв, а особая обработка клавиатуры.
> Динамическое изменение слога при его "доборе" до конца.
> Посмотрите как работает JsKad или WhyleWorld - сразу станет понятно что именно нужно для алгоритма обработки.
> 
> Просто "открыть текст" с тиб. шрифтом - это не то, это в любой системе без проблем.


Я сейчас над этим думаю.
Считаю здесь нужны НОВЫЕ ПОДХОДЫ И МЕТОДЫ в решении этих задач. Кардинальный пересмотр имеющихся способов обработки (отображение и набор) не стандартных (не латинских) символов.




> P.S. А версия сырцов OO старовата 1.1.0 = уже 2.0 в разработке


Да я знаю, и давно слежу за этим проектом.
Мне же хочется сделать новую ветку ОО серии 1.1..., стабильная, жалко что SDK немного кривая и Sun закрыла поддержку JDK под эту SDK для OO...
Но к чему рука привыкла с тем и работем.

Если есть предложения лучше, пишите... любой совет важен !!!

----------


## Dorje Dugarov

> Доржо, а Вы знаете, что есть проект локализации и интернационализации (ну и словечко!) Open Office?
> На их сайте есть страницы. Есть и средства для этого, там описаны. Это не сгодится?


Link если можно?
А то я что то не видел там поддержки тибетского я зыка и  старо-монгольского.

----------


## Ондрий

> _Первоначальное сообщение от Dorje Dugarov_ 
> *Если есть предложения лучше, пишите... любой совет важен !!!*


сугубо ИМХО  :Smilie: 

думаю малой кровью обойдясь, можно сделать аналог WhyleWorld под ОО.
Берем ОО Sun VBA - его возможности теже, что и у MS VBA. Малость синтаксис другой. Это мелочи. Преимущества - наш будущий "тиб. оффис" в виде макросов не будет зависить от версий ОО!!! ОО будет дальше развиваться, а этот тиб. форк мы не сможем так же подтягивать.
Можно идеи понадергать из сорцев JsKad и макросов WhyleWorld. Или просто переточИть WhyleWorld под ОО. Там немного по иному строятся интефесы к объектам, но это оборимо.

В Ворде это прекрасно работает.. система обработки клавиш - таже что и у JsKad - одна контора делает. Если затачиваться под переделку ОО - имхо, это плохо по причине дальнейшей невозможности использовать реальный ОО и тиб. форк на него. У нас на работе вот пошли по такому порочному пути - для временных целей переделали "под себя" GTK. Теперь все слишком далеко зашло - пожинаем "плоды".

Уверен - что right way это VBA for OO.

----------


## Dorje Dugarov

Кто нибудь что нибудь слышали про OCR для тибетского языка?
Вчера поискал по Google... Есть что то для MAC OS... но страница закрыта, вроде как проект закрыт.

----------


## Dorje Dugarov

> думаю малой кровью обойдясь, можно сделать аналог WhyleWorld под ОО.
> Берем ОО Sun VBA - его возможности теже, что и у MS VBA. Малость синтаксис другой. Это мелочи. Преимущества - наш будущий "тиб. оффис" в виде макросов не будет зависить от версий ОО!!! ОО будет дальше развиваться, а этот тиб. форк мы не сможем так же подтягивать.
> Можно идеи понадергать из сорцев JsKad и макросов WhyleWorld. Или просто переточИть WhyleWorld под ОО. Там немного по иному строятся интефесы к объектам, но это оборимо.
> 
> В Ворде это прекрасно работает.. система обработки клавиш - таже что и у JsKad - одна контора делает. Если затачиваться под переделку ОО - имхо, это плохо по причине дальнейшей невозможности использовать реальный ОО и тиб. форк на него. У нас на работе вот пошли по такому порочному пути - для временных целей переделали "под себя" GTK. Теперь все слишком далеко зашло - пожинаем "плоды".


Я подумаю... возможно это и так, но нужно стараться сделать полноценный комплексный продукт - вкл. текст. редактор, систему OCR, графический пакет, систему полноценной поддержки web для тиб. языка, да и что бы эл. таблицы были и базу данных под тиб. язык. - например пригодится крупным собраниям тибетских книг.

----------


## Ондрий

> _Первоначальное сообщение от Dorje Dugarov_ 
> *
> 
> Я подумаю... возможно это и так, но нужно стараться сделать полноценный комплексный продукт - вкл. текст. редактор, систему OCR, графический пакет, систему полноценной поддержки web для тиб. языка, да и что бы эл. таблицы были и базу данных под тиб. язык. - например пригодится крупным собраниям тибетских книг.*


Понимаете, разработка такого серьезного проекта требует просто коллосальных ресурсов, доступных лишь корпорациям типа MS & Sun & Novell ... etc. либо безмерного Community of OpenSource. Не реально.... не первый случай на деревне, когда умирало хорошее дело в комьюнити.

1. Полноценный текст. ред. УЖЕ есть - ОО, при всех его недостатках.
2. Система ввода тиб. текста вполне решается через Sun VBA. Как в MS Word. В этом случае  нет зависимости от версий ОО.
3. Что значит "поддержка WEB" - при наличии у клиента фонтов все и так видиться нормально, причем html можно делать и с помощью того же ОО.
4. Таблицы и бд... хм... ну опять тот же ОО  :Smilie: 
там все есть. только менюшки на англ./рус. Ну так это не проблема - локализация....
Проблема во вводе текста в ОО. Тут подойдет VBA.

Преимущества и причины такого подхода:
При разработке нового проекта всегда легче по затратам и итоговому КПД заиспользовать УЖЕ имеющиеся решения. Почему умерли WorldPerfect & BorlandOffcie? Не хватило понимания целей заказчиков и опыта.

ИМХО_№1 данный грандиозный проект, я просто уверен, умрет не успев родиться.

ИМХО_№2 если уж и начинать, то уж сразу с драйвера клавиатуры Xorg и патчей для freetype, т.к. просто переписать Xmodmap недостаточно - тиб. письменность - слоговая, результирующий вид слога зависит от окружающих букв, но это вам известно  :Smilie: . Т.о. локализуется вся система сразу + обретается возможность работы с тиб. локалью во всех приложениях, использующих стандартную подсистему I/O. Т.е. пользовательские приложения кривить не нужно.

----------


## Dorje Dugarov

Спасибо...

1. На днях я закончу переделку сайт общины..., поэтому ближайшие дни я занят.
2. Затем (после ЛоСар), выработаю более чёткий план и задачи, общую концепцию.
3. Начну работать над самим кодом думаю к середине марта.

Все предложения пожалуйста печатайте здесь или (и)отправляйте по адресу freetibetoffice@yandex.ru

На счёт финансирования, я тут в свое время говорил с СО РАН -взять такой проект под опеку, обещали денюжку.
Подтяну команду программёров,  многие из Юкосовских коллег щас в свободном полёте как я, - займемся делом.

Ваш Доржо

----------


## До

> _Первоначальное сообщение от Dorje Dugarov_ 
> *Кто нибудь что нибудь слышали про OCR для тибетского языка?
> Вчера поискал по Google... Есть что то для MAC OS... но страница закрыта, вроде как проект закрыт.*


Я более полу года назад искал, и кроме слухов ничего работающего небыло. Всетаки тибетский язык не самый удобный для OCR. Современные OCR системы, насколько я понимаю, сначала выделяют квадратик буквы, а потом пытаются её распознать. В тибетском же буквы могут налазить друг на друга как во вертикали так и по горизонтали, поэтому зачастую не получается даже адаптировать существующую систему (например распознования китайского) на тибетский.

----------


## До

Я искал для оцифвровки Ланкаватары. И искал так же и OCR санскрита. Там подобные проблемы, все буквы соеденены (отдельностоящую букву не выделить). И тоже не нашел ничего работающего. Но было упоминание, что индийское правительство спонсирует разработку OCR для деванагари.

----------


## Ersh

\\\результирующий вид слога зависит от окружающих букв\\\\
Такая (или схожая) технология применяется и для ввода китайских иероглифов.

----------


## Dorje Dugarov

> Современные OCR системы, насколько я понимаю, сначала выделяют квадратик буквы, а потом пытаются её распознать.


Потому то нам и нужно выработать новые подходы и стратегии в решении этих задачь. По другому ни как.

----------


## До

Был некий "Tibetan OCR Project". Вот что мне от него удалось найти:

ftp://storm.ptc.spbu.ru/pub/human-la...ibetan/tibocr/
ftp://storm.ptc.spbu.ru/pub/human-la...cr/index00.txt
http://list.mail.virginia.edu/piperm...st/000224.html

Не густо.


А вот еще упоминание о каком-то японском Tibetan OCR Project

----------


## sergey

> Link если можно?
> А то я что то не видел там поддержки тибетского я зыка и старо-монгольского.


http://l10n.openoffice.org
Там дальше можно найти детали. Но это, как я понял - локализация, т.е. отображение текстов, меню и т.д. на разных языках; и интернационализация - формат дат и т.п. Насчет ввода текстов, наверное shubhar прав, это не входит, и я думаю, что через Vb для openoffice это можно сделать. Вообще, поскольку проект открытый, на сайте много разной информации об API, средствах разработки и т.д. Имхо было бы продуктивным максимально всем этим пользоваться, чтобы не повторять уже сделанное.
Тибетского я тоже там не увидел.
Вот оттуда же
http://native-lang.openoffice.org/

----------


## pnkv

А что за файлы лежат в папке Tibetan_for_FineReader на 
http://magus.cpms.ru/user/RIME/Tibet/

неужели появилась возможность тибетский текст распознавать? Правда не понял, что с ними делать. Никакой инструкции там нет.

----------


## Dorje Dugarov

> А что за файлы лежат в папке Tibetan_for_FineReader на 
> http://magus.cpms.ru/user/RIME/Tibet/
> 
> неужели появилась возможность тибетский текст распознавать? Правда не понял, что с ними делать. Никакой инструкции там нет.


Цены бы им не было если инструкция была. Судя по всему файлы предназначаются для седьмой версии Fine Reader. Моя попытка установить этот пакет в пятую версию ни к чему хорошему ни привела  :Smilie:  Сканер вошёл в бесконечный цикл сканирования одной и той же страницы. Пришлось переустановить Fine Reader. Но спасибо за то что создали такой пакет, сколько работы с плечь свалилось (видимо  :Wink:  ).

----------


## Dorje Dugarov

Я защёл на сайт http://magus.cpms.ru/ , но не нашёл как с ними связаться. Кто знает киньте е-майл этого ресурса Риме?

----------


## Карма Палджор

> Я защёл на сайт http://magus.cpms.ru/ , но не нашёл как с ними связаться. Кто знает киньте е-майл этого ресурса Риме?


Насколько слышал, их сейчас нет в городе. Куда-то выехали. И работы они прекратили по обработке текстов. Причины этого были не совсем понятны.

----------


## Карма Палджор

> Цены бы им не было если инструкция была. Судя по всему файлы предназначаются для седьмой версии Fine Reader. Моя попытка установить этот пакет в пятую версию ни к чему хорошему ни привела  Сканер вошёл в бесконечный цикл сканирования одной и той же страницы. Пришлось переустановить Fine Reader. Но спасибо за то что создали такой пакет, сколько работы с плечь свалилось (видимо  ).


Рано радуетесь. У них там были еще и свои шрифты. Да и распознает эта штука довольно плохо. Попытался поработать с ней, FineReader не зависал, но ничего хорошего не вышло. Они и сами сейчас мало чего делают. В центре многие тексты лежат мёртвым грузом.

----------


## pnkv

> Рано радуетесь.


Да мы радуемся уже тому, что кто-то хоть наметил решение проблемы и не стал делать из этого вселенскую тайну.   :Big Grin:  




> У них там были еще и свои шрифты.


Почему были, шрифты там и сейчас есть. 




> Да и распознает эта штука довольно плохо. Попытался поработать с ней, FineReader не зависал, но ничего хорошего не вышло.


Понятное дело, ведь распознавание основано на обучении по шаблонам. А этот процесс весьма чувствителен к качеству сканирования и различию в шрифтах, которым набран текст. 




> Они и сами сейчас мало чего делают. В центре многие тексты лежат мёртвым грузом.


А как они еще должны лежать? 
Кому нужны, тот протянет руку и возьмет, а кому не нужны насильно не всучишь.   :Big Grin:  
Другое дело, что дизайн и навигацию у них там совершенно чудовищные. Но это уже дело вкуса или его отсутствия.

----------

