#  > > >  >  > Форум >  > > >  >  > Лингвистический форум >  > > >  >  > Лингвистический форум >  > > >  >  > Пали >  > > >  >  >  Консолидированный словарь

## Андрей П.

Всем привет!
Сделал программный модуль с консолидированной базой данных словарей (пали-русский/английский), обработав три источника:
1. ru.wiktionary.org
2. CPED A.P. Buddhadatta Mahāthera
3. The Pali Text Society's PED
Всего получилось чуть больше 32 тыс. слов.

Вопросы:
1. Могу ли я поделиться этим модулем на безвозмездной основе? Не нарушу/нарушил ли я чьи-либо авторские права и т.п?
2. Интересен ли вам такой модуль?
3. Есть ли у вас (или знаете где найти) в цифровом виде (БД, таблицы) словари, которыми я мог бы обогатить базу слов своего модуля?

Если на вопросы 1 и 2 будут положительные ответы, выложу ссылку на модуль.
Спасибо!

----------


## Жан-Батист

1. ru.wiktionary.org - под лицензией GNU Free Documentation License (GFDL) (https://ru.wikipedia.org/wiki/GNU_FDL)
2. CPED A.P. Buddhadatta Mahāthera и 3. The Pali Text Society's PED - приведите хотя бы один источник в интернете, тогда будет понятно. И на чем написан модуль?

----------


## Ассаджи

1. Насколько мне известно, более-менее свежие издания словаря "Общества палийских текстов" защищены авторскими правами.

2. Неинтересен, потому что эти три источника очень разные по качеству, предназначению и стилю, и их смешение понижает качество и снижает удобство.

3. А смысл? Проблема не в доступе к словарям. В советское время изучение пали было заморожено, и над переводом палийских терминов очень мало кто работал. Санскритская филология активно развивалась, и был создан санскритско-русский словарь Кочергиной. В идеале нужен подобный качественный словарь для языка пали.
Сборная солянка из словарных статей разнообразного происхождения может запутывать, и усугублять ошибки толкования.

----------

Владимир Николаевич (25.02.2017)

----------


## Андрей П.

> 1. ru.wiktionary.org - под лицензией GNU Free Documentation License (GFDL) (https://ru.wikipedia.org/wiki/GNU_FDL)


В «подвале» ru.wiktionary.org указана лицензия Creative Commons Attribution-ShareAlike.
Это тоже самое, что и GNU FDL? В рамках этой лицензии я должен выкладывать исходники с проделанными изменениями, но как это может быть применимо в отношении файла базы данных, не понимаю? Он и так идет отдельным файлом в комплекте модуля.




> 2. CPED A.P. Buddhadatta Mahāthera и 3. The Pali Text Society's PED - приведите хотя бы один источник в интернете, тогда будет понятно.


Вот, например, в сети можно найти такие цифровые PDF-версии:
1. CPED A.P. Buddhadatta Mahāthera
2. The Pali Text Society's PED (It is prepared for non-profit personal scientific use only.)




> И на чем написан модуль?


Модуль состоит из двух частей:
1. Интерфейс написан на AutoIT (свободно распространяемый язык для автоматизации выполнения задач в Microsoft Windows).
2. База данных на SQLite (компактная встраиваемая реляционная база данных. Исходный код библиотеки передан в общественное достояние).

----------


## Андрей П.

> 1. Насколько мне известно, более-менее свежие издания словаря "Общества палийских текстов" защищены авторскими правами.


Я не большой знаток в юридических вопросах, но разве, сам факт создания чего-либо в процессе интеллектуальной деятельности, уже не наделяет создателя авторскими правами автоматически? Мой вопрос не в том, могу ли я присвоить чужое авторство на словари, а в том, можно ли без нарушения авторских прав использовать и/или бесплатно распространять словари (приведенные выше)? Достаточно ли для этого в явном виде указать авторство или нет?




> 2. Неинтересен, потому что эти три источника очень разные по качеству, предназначению и стилю, и их смешение понижает качество и снижает удобство.


Под консолидацией, я имею в виду не простой микс текстов из разных источников. В интерфейсе модуля каждый источник выводит информацию под своей меткой, есть возможность настройки вывода источников, что-то типа этого, см. вкладку Settings. (согласно Вашим критериям оценки, данный словарь тоже не удобен и низкого качества?).
Пожалуйста, не сочтите за навязывание, просто вношу ясность.




> 3. А смысл? Проблема не в доступе к словарям. В советское время изучение пали было заморожено, и над переводом палийских терминов очень мало кто работал. Санскритская филология активно развивалась, и был создан санскритско-русский словарь Кочергиной. В идеале нужен подобный качественный словарь для языка пали.
> Сборная солянка из словарных статей разнообразного происхождения может запутывать, и усугублять ошибки толкования.


Если только поиск смысла удерживает Вас от того, чтобы поделиться нужной мне информацией, то спешу Вас обрадовать, смысл для меня есть.  :Smilie: 
Модуль призван решить не проблему обеспечения доступа, а проблему быстродействия. Для сравнения: чтобы считать информацию c ru.wikipedia.org (~14000 страниц) мне потребовалось около 4-5 часов, а из локальной базы модуля я считываю тот же объем данных за 6 секунд.
Такое быстродействие мне нужно для другого модуля, выполняющего морфологический анализ текстов.

----------


## Жан-Батист

Все приведенные вами источники находятся в открытом доступе, поэтому лично я не вижу никаких препятствий для распространения вашего модуля, а во избежание каких-либо недоразумений - разместите вместе с модулем и ссылки в сети, как например сделано в "The Pali Text Society's PED". Если он (модуль) кого-то заинтересует, а так скорей всего и произойдет, то ваш проект получит и дальнейшее развитие и принесет кому-то пользу - не все же могут создавать удобные оболочки для словарей. Это мое мнение.

----------

Андрей П. (26.02.2017)

----------


## Ассаджи

> Я не большой знаток в юридических вопросах, но разве, сам факт создания чего-либо в процессе интеллектуальной деятельности, уже не наделяет создателя авторскими правами автоматически?


В общем случае - далеко не всегда наделяет. Кроме того, срок охраны авторских прав со временем истекает.




> Мой вопрос не в том, могу ли я присвоить чужое авторство на словари, а в том, можно ли без нарушения авторских прав использовать и/или бесплатно распространять словари (приведенные выше)? Достаточно ли для этого в явном виде указать авторство или нет?


Для распространения - недостаточно. Не знаю как насчет Вики-словаря, а два печатных словаря защищены авторскими правами. 
С другой стороны, если Вы используете словари как часть программной оболочки, то это совсем другое дело. Хотя и в этом случае весьма желательно договориться с правообладателями.




> Под консолидацией, я имею в виду не простой микс текстов из разных источников. В интерфейсе модуля каждый источник выводит информацию под своей меткой, есть возможность настройки вывода источников, что-то типа этого, см. вкладку Settings. (согласно Вашим критериям оценки, данный словарь тоже не удобен и низкого качества?).
> Пожалуйста, не сочтите за навязывание, просто вношу ясность.


С настройкой, конечно, удобнее.




> Если только поиск смысла удерживает Вас от того, чтобы поделиться нужной мне информацией, то спешу Вас обрадовать, смысл для меня есть.


Если Вы так спешите меня обрадовать, то позаботьтесь, пожалуйста, и о смысле для меня. 




> Модуль призван решить не проблему обеспечения доступа, а проблему быстродействия. Для сравнения: чтобы считать информацию c ru.wikipedia.org (~14000 страниц) мне потребовалось около 4-5 часов, а из локальной базы модуля я считываю тот же объем данных за 6 секунд.
> Такое быстродействие мне нужно для другого модуля, выполняющего морфологический анализ текстов.


А для чего морофологический анализ, для машинного перевода?

----------

Андрей П. (26.02.2017)

----------


## Андрей П.

> Если Вы так спешите меня обрадовать, то позаботьтесь, пожалуйста, и о смысле для меня.


Как насчет такого смысла:



> «Даяние предписано хорошими людьми –
> Безвредными, обузданными, сдержанными – 
> А также услужение матери, отцу,
> И тем, кто безмятежен и ведёт святую жизнь.
> 
> Вот каковы хорошие дела,
> К которым мудрый себя должен устремлять.
> Он обладает видением и благороден он,
> В счастливый мир он [после смерти] попадёт». (АН 3.45)


 :Smilie: 




> А для чего морофологический анализ, для машинного перевода?


Нет, не для перевода.
Моя цель: разбить тексты ПК на базовые словоформы (с выделением ключевых слов) и связать их линейными двухсторонними связями с идентификаторами текстов, тем самым, построив ментальную карту (mind map) ПК.

----------

Ассаджи (26.02.2017), Владимир Николаевич (26.02.2017)

----------


## Ассаджи

> Как насчет такого смысла:


Звучит как музыка  :Smilie: 




> Моя цель: разбить тексты ПК на базовые словоформы (с выделением ключевых слов) и связать их линейными двухсторонними связями с идентификаторами текстов, тем самым, построив ментальную карту (mind map) ПК.


Выделение словоформ - штука очень нужная, для многих целей. Девид Альфтер сделал первый прототип:

https://arxiv.org/pdf/1510.01570.pdf
http://github.com/daalft/PaliNLP2

https://github.com/daalft/PaliLemmatizingServer
https://github.com/SeNeReKo/LibPali_Java

Для проекта они сделали специальную маркировку в словаре "Общества палийских текстов". Потом при сбое у них полетел словарь, и проект застрял. 

Я Вам перешлю в ЛС его письмо.

----------

Андрей П. (01.03.2017)

----------

