Jump to content
Свободная Калмыкия
Sign in to follow this  
Эрдни

Калмыцко-русский и русско-калмыцкий словарь

Recommended Posts

Эрдни    2

Значится так. Получил в эти выходные от Димы Бормангнаева отсканнированный калмыцко-русский и русско-калмыцкий словарь. Начинаю копошиться и мучаться.

 

Установил на свой компьютер FineReader 8.0 и попробовал отсканнировать пару страниц. За исключением некоторых мелочей попытка распознавания текста прошла успешно. Думаю, что для нормального сканнирования нужно будет отключить словарную поддержку русского языка (у калмыцкого языка поддержка отсутствует, что есть хорошо на данном этапе), поскольку мне нужен чистый набор символов, а распознавалка иногда начинает распознавать калмыцкие слова как неправильно написанные русские.

 

Теперь передо мной встал вопрос сохранения отсканнированных данных. Попытки вставить скопированный текст в MS Word не увенчались успехом. При копировании из буфера памяти в текстовый редактор нормально отображаются только калмыцкие буквы. Вся кириллица превращается в абракадабру.

 

Что посоветуете?

Share this post


Link to post
Share on other sites
calmouk    3

Нужна поддержка Юникода.

 

Кстати, вместо Ворда ты можешь использовать свой аккаунт в Википедии - есть такой фолдер User Talk. Там полная поддержка Юникода. User Talk сохраняет историю всех исправлений - всегда можно сделать откат к старой версии

Share this post


Link to post
Share on other sites
Эрдни    2

Посмотри здесь

 

Там есть описание процесса перевода словарной базы данных в язык DSL. Вот только пока что не знаю, поддерживается-ли калмыцкий язык...

Share this post


Link to post
Share on other sites
Эрдни    2

Пробовал. Не знаю почему, но при копировании в любой формат и даже через буфер обмена в результате имею только несколько калмыцких букв, а вся кириллица превращается в квадратики. Буду гуглить.

Share this post


Link to post
Share on other sites
batrun    0

у меня есть дома в Элисте словарь не знаю сколько слов но очень толстый, но только вот до дома не скоро доберусь. Есть ли у элистинских юзеров этот словарь под рукой?

я помню там в конце был еще краткий справочник по грамматике.

 

А у левстона я так понял - разговорник т.е. меньше слов да и слова какие-то интересные, калмыцкий словарный запас у меня не очень большой но некоторые слова в разговорнике ну очень странные.

Share this post


Link to post
Share on other sites
Эрдни    2

Позвонил в офис ABBYY в Москве и оне мне объяснили, что на Trial версии FineReader-а сохранение результатов невозможно. :D

Буду покуплять лицензионную версию. Может быть, сразу и Лингво прикуплю до кучи.

 

Интересно, для некоммерческого использования они скидку дадут? :huh:

Share this post


Link to post
Share on other sites
Эрдни    2

Итак, сначала сумбур:

 

Если просто загнать словарную базу в Лингво, то её потом практически невозможно поправлять и редактировать, так как для этого нет соответствующих инструментов. Некоторое время тусовался на сайте Lingvoda.ru, спонсируемом фирмой ABBYY. Так вот там люди плачутся, что фирма уже несколько лет обещает им инструментарий для работы со словарной базой, но реальных дел пока не видно. Насколько я понимаю, после конвертации словарной базы в любой из словарных форматов сразу же встанет вопрос о корректировании и пополнении словаря, что в случае с Лингво попросту не представляется возможным.

 

Wiktionary для этих целей тоже не подходит, поскольку не русифицировано и не рассчитано на большие словари.

 

Очень удобный движок у Мултитрана (multitran.ru). Он даёт возможность дополнять словарь, а также работает в режиме онлайн. Сегодня послал письмо владельцу сайта Мултитран. Буду ждать от него ответа.

 

Очень хорошие словари выпускает фирма Globus Software House. В последствии можно попробовать договориться с ними. Тем более, что у них открыто опубликован их формат словарной разметки DML. Читайте здесь Продукты этой фирмы называются MEGA Dictionaries и продаются по смешной цене (примерно 15 долларов, если не ошибаюсь). Одна из интересных возможностей этого словаря - экспорт словаря в формат .rtf и .html, т.е. можно будет печатать отдельные страницы или статьи или же пересылать их по почте как документы.

 

 

 

 

А теперь подведу промежуточный итог (вероятно, несколько преждевременный):

 

1. FineReader вполне сносно сканнирует калмыцко-русский словарь. Не удаётся сохранить результаты и потому сейчас пытаюсь крякнуть FineReader - пока что безуспешно. Надеюсь в скором времени заполучить лицензионную версию продукта из России.

2. Поскольку возникли проблемы с первым пунктом, решил не терять время и прозондировать ситуацию со стандартами словарной разметки и возможностями конвертации нашей словарной базы в один из работающих ныне словарных форматов, пусть даже и не бесплатный. Узнал много нового.

3. Наметил некое подобие roadmap-а для правильного развития ситуации:

 

а) Буду тупо пробовать конвертировать результаты сканирования в Лингво.

б) Если получится договориться с Мультитраном на приемлемых условиях, то надо будет провести конвертацию в их формат и опубликовать словари на их сайте для того, чтобы наши языковеды могли потихоньку исправлять ошибки и пополнять словарь. Главным условием для меня является возможность впоследствии заполучить словарную базу обратно, чтобы её можно было втиснуть в любой словарный продукт.

в) Пока что лучшим претендентом на публикацию исправленного и дополненного словаря являются словари MEGA Dictionaries от Globus Software House.

 

Пока что всё.

Share this post


Link to post
Share on other sites
Эрдни    2

Сегодня утром получил обнадёживающий ответ от владельца словаря Мультитран

 

Добрый день, Эрдни

 

Калмыцкий язык можно встроить в Мультитран, для этого понадобится алфавит и

описание морфологии (если есть). Для эстонского и латышского морфологии не

было, получилось менее корректно, но словари работают.

 

Вид статей простой - либо двухколоночный текст, из которого я сам извлеку

значения, либо следующий вид (на примере английского):

code <-> тех. код (компьютерный)

PC -> вчт. personal computer

...

 

<-> ставится между оригиналом и переводом для статей, которые могут

переводиться в обе стороны.

-> ставится для статей, существующих только в одном направлении - ткаих, как

сокращения

 

Между оригиналом и переводом можно указывать тематику в виде краткого

названия с точкой, а также в любых местах статьи - комментарии в скобках.

 

Пришлите взглянуть, что у Вас уже есть.

 

Вы получите возможность скачивать текущую версию словарной базы с сайта.

 

С уважением,

Андрей Поминов

www.multitran.ru

 

Правильной дорогой идём, товарищи! ;)

Share this post


Link to post
Share on other sites
Эрдни    2

FineReader заработал!

 

Работа началась! От владельца получено согласие разместить словарь на multitran.ru, где знатоки калмыцкого языка смогут дополнить и откорректировать словарь.

 

Словарного материала на 650 страниц. Нахожусь в самом начале и всё идёт не так быстро как хотелось бы, но надеюсь, что в конце февраля уже смогу передать словарь для опубликования.

 

Кстати, если здесь есть таганрогские программеры, вопрос:

не могли бы вы написать программку для сортировки словарных статей в базу данных?

Share this post


Link to post
Share on other sites
batrun    0
FineReader заработал!

 

Работа началась! От владельца получено согласие разместить словарь на multitran.ru, где знатоки калмыцкого языка смогут дополнить и откорректировать словарь.

 

Словарного материала на 650 страниц. Нахожусь в самом начале и всё идёт не так быстро как хотелось бы, но надеюсь, что в конце февраля уже смогу передать словарь для опубликования.

 

Кстати, если здесь есть таганрогские программеры, вопрос:

не могли бы вы написать программку для сортировки словарных статей в базу данных?

присылай отсканированные страницы и FineReader - помогу.

Share this post


Link to post
Share on other sites
Эрдни    2

Погоди. Есть ещё русско-калмыцкий словарь такого же объёма.

Мож тебе его прислать? Хотя там проблемка может быть в том, что надо сначала распознавалку научить всякие ударения над гласными рспознавать как просто гласные плюс ещё спец. знаки.

 

Слушай, может пока тему с калмыцким дубляжом разовьёшь? Я там все ссылки на теорию выложил уже. Надо только изучить и начинать планирование.

Share this post


Link to post
Share on other sites
Jeka    3

Ну как идет работа Эрдни? Ждем с нетерпением появления словаря! Может помощь еще какая нужна для ускорения процесса?

Share this post


Link to post
Share on other sites
Эрдни    2

работа невчк заглохла, поскольку времени хронически не хватает... :(

 

Но думаю, что добью. Это дело принципа.

Share this post


Link to post
Share on other sites
san    0

по сведениям из компетентных источников димитрий отсканировал и распознал калмыцко-русский (или наоборот) словарь (зеленый кирпич). поэтому советую связаться с ним, чтоб не делать лишнюю работу, учитывая что времени не хватат у всех.

Share this post


Link to post
Share on other sites
Эрдни    2

Отсканнированные изображения Дима прислал мне. Я распознал и отредактировал пока только 1/10 часть калмыцко-русского словаря.

Share this post


Link to post
Share on other sites
KYN    1
Эрдни Дата Apr 7 2006, 01:07 PM

Отсканнированные изображения Дима прислал мне. Я распознал и отредактировал пока только 1/10 часть калмыцко-русского словаря.

Там же есть краткий грамматический очерк. Выложите здесь, а то в теме про калмыцкую грамматику- только монгольская:P. В пору переименовывать тему:).

Share this post


Link to post
Share on other sites

народ как проект движется ? ?

Я реально ощутил потребность в электроном калмыцком переводчике ..

 

КОГДА МОЖНО БУДЕТ ЕГО ПОЮЗИТЬ ??

Share this post


Link to post
Share on other sites
nasna_erkt    0

Я вспомнил, что вроде недавно словарь Муниева был переиздан. Может легче связаться с издателями и договориться с ними на предмет передачи набранного словаря для создания электронной версии?

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this  

×