Перейти к содержимому


Фото

Калмыцко-русский и русско-калмыцкий словарь


  • Please log in to reply
95 replies to this topic

#1 Эрдни

Эрдни

    Хун-тайджи

  • Участник
  • PipPipPipPipPipPipPipPipPipPipPip
  • 578 Сообщений:
  • Gender:Male
  • Location:Прага

Отправлено 18 January 2006 - 08:09 PM

Значится так. Получил в эти выходные от Димы Бормангнаева отсканнированный калмыцко-русский и русско-калмыцкий словарь. Начинаю копошиться и мучаться.

Установил на свой компьютер FineReader 8.0 и попробовал отсканнировать пару страниц. За исключением некоторых мелочей попытка распознавания текста прошла успешно. Думаю, что для нормального сканнирования нужно будет отключить словарную поддержку русского языка (у калмыцкого языка поддержка отсутствует, что есть хорошо на данном этапе), поскольку мне нужен чистый набор символов, а распознавалка иногда начинает распознавать калмыцкие слова как неправильно написанные русские.

Теперь передо мной встал вопрос сохранения отсканнированных данных. Попытки вставить скопированный текст в MS Word не увенчались успехом. При копировании из буфера памяти в текстовый редактор нормально отображаются только калмыцкие буквы. Вся кириллица превращается в абракадабру.

Что посоветуете?

#2 calmouk

calmouk

    Хан

  • Участник
  • PipPipPipPipPipPipPipPipPipPipPipPip
  • 1846 Сообщений:

Отправлено 18 January 2006 - 08:19 PM

Нужна поддержка Юникода.

Кстати, вместо Ворда ты можешь использовать свой аккаунт в Википедии - есть такой фолдер User Talk. Там полная поддержка Юникода. User Talk сохраняет историю всех исправлений - всегда можно сделать откат к старой версии
Be Realistic, Demand the Impossible!
(Author: unknown, Paris, 1968)

#3 calmouk

calmouk

    Хан

  • Участник
  • PipPipPipPipPipPipPipPipPipPipPipPip
  • 1846 Сообщений:

Отправлено 18 January 2006 - 08:48 PM

И нельзя ли попросить словарь (т.е. базу данных) у Левстона?
Be Realistic, Demand the Impossible!
(Author: unknown, Paris, 1968)

#4 Эрдни

Эрдни

    Хун-тайджи

  • Участник
  • PipPipPipPipPipPipPipPipPipPipPip
  • 578 Сообщений:
  • Gender:Male
  • Location:Прага

Отправлено 18 January 2006 - 08:50 PM

Посмотри здесь

Там есть описание процесса перевода словарной базы данных в язык DSL. Вот только пока что не знаю, поддерживается-ли калмыцкий язык...

#5 calmouk

calmouk

    Хан

  • Участник
  • PipPipPipPipPipPipPipPipPipPipPipPip
  • 1846 Сообщений:

Отправлено 18 January 2006 - 09:00 PM

Так ты пробовал пастировать в окно Википедии?
Be Realistic, Demand the Impossible!
(Author: unknown, Paris, 1968)

#6 Эрдни

Эрдни

    Хун-тайджи

  • Участник
  • PipPipPipPipPipPipPipPipPipPipPip
  • 578 Сообщений:
  • Gender:Male
  • Location:Прага

Отправлено 18 January 2006 - 09:03 PM

Пробовал. Не знаю почему, но при копировании в любой формат и даже через буфер обмена в результате имею только несколько калмыцких букв, а вся кириллица превращается в квадратики. Буду гуглить.

#7 Эрдни

Эрдни

    Хун-тайджи

  • Участник
  • PipPipPipPipPipPipPipPipPipPipPip
  • 578 Сообщений:
  • Gender:Male
  • Location:Прага

Отправлено 19 January 2006 - 01:07 AM

Нашёл описание уже реализованного проекта шорского языка

здесь

#8 batrun

batrun

    Хальмг Дяяч

  • Ööрд
  • PipPipPipPipPipPipPipPipPipPip
  • 527 Сообщений:

Отправлено 19 January 2006 - 01:32 PM

у меня есть дома в Элисте словарь не знаю сколько слов но очень толстый, но только вот до дома не скоро доберусь. Есть ли у элистинских юзеров этот словарь под рукой?
я помню там в конце был еще краткий справочник по грамматике.

А у левстона я так понял - разговорник т.е. меньше слов да и слова какие-то интересные, калмыцкий словарный запас у меня не очень большой но некоторые слова в разговорнике ну очень странные.
"There are more things in Heaven and Earth, Horatio, than are dreamt of in your philosophy."

#9 Эрдни

Эрдни

    Хун-тайджи

  • Участник
  • PipPipPipPipPipPipPipPipPipPipPip
  • 578 Сообщений:
  • Gender:Male
  • Location:Прага

Отправлено 19 January 2006 - 02:51 PM

Позвонил в офис ABBYY в Москве и оне мне объяснили, что на Trial версии FineReader-а сохранение результатов невозможно. :D
Буду покуплять лицензионную версию. Может быть, сразу и Лингво прикуплю до кучи.

Интересно, для некоммерческого использования они скидку дадут? :huh:

#10 Эрдни

Эрдни

    Хун-тайджи

  • Участник
  • PipPipPipPipPipPipPipPipPipPipPip
  • 578 Сообщений:
  • Gender:Male
  • Location:Прага

Отправлено 23 January 2006 - 03:49 AM

Итак, сначала сумбур:

Если просто загнать словарную базу в Лингво, то её потом практически невозможно поправлять и редактировать, так как для этого нет соответствующих инструментов. Некоторое время тусовался на сайте Lingvoda.ru, спонсируемом фирмой ABBYY. Так вот там люди плачутся, что фирма уже несколько лет обещает им инструментарий для работы со словарной базой, но реальных дел пока не видно. Насколько я понимаю, после конвертации словарной базы в любой из словарных форматов сразу же встанет вопрос о корректировании и пополнении словаря, что в случае с Лингво попросту не представляется возможным.

Wiktionary для этих целей тоже не подходит, поскольку не русифицировано и не рассчитано на большие словари.

Очень удобный движок у Мултитрана (multitran.ru). Он даёт возможность дополнять словарь, а также работает в режиме онлайн. Сегодня послал письмо владельцу сайта Мултитран. Буду ждать от него ответа.

Очень хорошие словари выпускает фирма Globus Software House. В последствии можно попробовать договориться с ними. Тем более, что у них открыто опубликован их формат словарной разметки DML. Читайте здесь Продукты этой фирмы называются MEGA Dictionaries и продаются по смешной цене (примерно 15 долларов, если не ошибаюсь). Одна из интересных возможностей этого словаря - экспорт словаря в формат .rtf и .html, т.е. можно будет печатать отдельные страницы или статьи или же пересылать их по почте как документы.




А теперь подведу промежуточный итог (вероятно, несколько преждевременный):

1. FineReader вполне сносно сканнирует калмыцко-русский словарь. Не удаётся сохранить результаты и потому сейчас пытаюсь крякнуть FineReader - пока что безуспешно. Надеюсь в скором времени заполучить лицензионную версию продукта из России.
2. Поскольку возникли проблемы с первым пунктом, решил не терять время и прозондировать ситуацию со стандартами словарной разметки и возможностями конвертации нашей словарной базы в один из работающих ныне словарных форматов, пусть даже и не бесплатный. Узнал много нового.
3. Наметил некое подобие roadmap-а для правильного развития ситуации:

а) Буду тупо пробовать конвертировать результаты сканирования в Лингво.
б) Если получится договориться с Мультитраном на приемлемых условиях, то надо будет провести конвертацию в их формат и опубликовать словари на их сайте для того, чтобы наши языковеды могли потихоньку исправлять ошибки и пополнять словарь. Главным условием для меня является возможность впоследствии заполучить словарную базу обратно, чтобы её можно было втиснуть в любой словарный продукт.
в) Пока что лучшим претендентом на публикацию исправленного и дополненного словаря являются словари MEGA Dictionaries от Globus Software House.

Пока что всё.

#11 Эрдни

Эрдни

    Хун-тайджи

  • Участник
  • PipPipPipPipPipPipPipPipPipPipPip
  • 578 Сообщений:
  • Gender:Male
  • Location:Прага

Отправлено 23 January 2006 - 10:35 AM

Сегодня утром получил обнадёживающий ответ от владельца словаря Мультитран

Добрый день, Эрдни

Калмыцкий язык можно встроить в Мультитран, для этого понадобится алфавит и
описание морфологии (если есть). Для эстонского и латышского морфологии не
было, получилось менее корректно, но словари работают.

Вид статей простой - либо двухколоночный текст, из которого я сам извлеку
значения, либо следующий вид (на примере английского):
code <-> тех. код (компьютерный)
PC -> вчт. personal computer
...

<-> ставится между оригиналом и переводом для статей, которые могут
переводиться в обе стороны.
-> ставится для статей, существующих только в одном направлении - ткаих, как
сокращения

Между оригиналом и переводом можно указывать тематику в виде краткого
названия с точкой, а также в любых местах статьи - комментарии в скобках.

Пришлите взглянуть, что у Вас уже есть.

Вы получите возможность скачивать текущую версию словарной базы с сайта.

С уважением,
Андрей Поминов
www.multitran.ru


Правильной дорогой идём, товарищи! ;)

#12 Эрдни

Эрдни

    Хун-тайджи

  • Участник
  • PipPipPipPipPipPipPipPipPipPipPip
  • 578 Сообщений:
  • Gender:Male
  • Location:Прага

Отправлено 30 January 2006 - 04:08 PM

FineReader заработал!

Работа началась! От владельца получено согласие разместить словарь на multitran.ru, где знатоки калмыцкого языка смогут дополнить и откорректировать словарь.

Словарного материала на 650 страниц. Нахожусь в самом начале и всё идёт не так быстро как хотелось бы, но надеюсь, что в конце февраля уже смогу передать словарь для опубликования.

Кстати, если здесь есть таганрогские программеры, вопрос:
не могли бы вы написать программку для сортировки словарных статей в базу данных?

#13 batrun

batrun

    Хальмг Дяяч

  • Ööрд
  • PipPipPipPipPipPipPipPipPipPip
  • 527 Сообщений:

Отправлено 30 January 2006 - 04:21 PM

FineReader заработал!

Работа началась! От владельца получено согласие разместить словарь на multitran.ru, где знатоки калмыцкого языка смогут дополнить и откорректировать словарь.

Словарного материала на 650 страниц. Нахожусь в самом начале и всё идёт не так быстро как хотелось бы, но надеюсь, что в конце февраля уже смогу передать словарь для опубликования.

Кстати, если здесь есть таганрогские программеры, вопрос:
не могли бы вы написать программку для сортировки словарных статей в базу данных?

присылай отсканированные страницы и FineReader - помогу.
"There are more things in Heaven and Earth, Horatio, than are dreamt of in your philosophy."

#14 Эрдни

Эрдни

    Хун-тайджи

  • Участник
  • PipPipPipPipPipPipPipPipPipPipPip
  • 578 Сообщений:
  • Gender:Male
  • Location:Прага

Отправлено 30 January 2006 - 07:50 PM

Погоди. Есть ещё русско-калмыцкий словарь такого же объёма.
Мож тебе его прислать? Хотя там проблемка может быть в том, что надо сначала распознавалку научить всякие ударения над гласными рспознавать как просто гласные плюс ещё спец. знаки.

Слушай, может пока тему с калмыцким дубляжом разовьёшь? Я там все ссылки на теорию выложил уже. Надо только изучить и начинать планирование.

#15 Jeka

Jeka

    Нойон

  • Администратор
  • PipPipPipPipPipPipPipPipPip
  • 465 Сообщений:
  • Gender:Male

Отправлено 10 March 2006 - 07:37 PM

Ну как идет работа Эрдни? Ждем с нетерпением появления словаря! Может помощь еще какая нужна для ускорения процесса?
"ҮЗҮРИНЬ ХАЗСН КҮН, ЙОЗУРИНЬ ЧИГН ХАЗДГ"

#16 Эрдни

Эрдни

    Хун-тайджи

  • Участник
  • PipPipPipPipPipPipPipPipPipPipPip
  • 578 Сообщений:
  • Gender:Male
  • Location:Прага

Отправлено 20 March 2006 - 06:50 PM

работа невчк заглохла, поскольку времени хронически не хватает... :(

Но думаю, что добью. Это дело принципа.

#17 Эрдни

Эрдни

    Хун-тайджи

  • Участник
  • PipPipPipPipPipPipPipPipPipPipPip
  • 578 Сообщений:
  • Gender:Male
  • Location:Прага

Отправлено 06 April 2006 - 09:27 PM

Продолжил распознавание небольшими порциями.

#18 san

san

    Зайсанг

  • Изгой
  • PipPipPipPipPipPipPip
  • 388 Сообщений:

Отправлено 07 April 2006 - 12:48 PM

по сведениям из компетентных источников димитрий отсканировал и распознал калмыцко-русский (или наоборот) словарь (зеленый кирпич). поэтому советую связаться с ним, чтоб не делать лишнюю работу, учитывая что времени не хватат у всех.

#19 Эрдни

Эрдни

    Хун-тайджи

  • Участник
  • PipPipPipPipPipPipPipPipPipPipPip
  • 578 Сообщений:
  • Gender:Male
  • Location:Прага

Отправлено 07 April 2006 - 01:07 PM

Отсканнированные изображения Дима прислал мне. Я распознал и отредактировал пока только 1/10 часть калмыцко-русского словаря.

#20 KYN

KYN

    Хан

  • Moderator
  • PipPipPipPipPipPipPipPipPipPipPipPip
  • 826 Сообщений:
  • Gender:Male
  • Location:bumbin orn

Отправлено 15 June 2006 - 03:11 PM

Эрдни Дата Apr 7 2006, 01:07 PM
Отсканнированные изображения Дима прислал мне. Я распознал и отредактировал пока только 1/10 часть калмыцко-русского словаря.

Там же есть краткий грамматический очерк. Выложите здесь, а то в теме про калмыцкую грамматику- только монгольская:P. В пору переименовывать тему:).
«Над усією Іспанією безхмарне небо»




1 пользователей читают эту тему

0 members, 1 guests, 0 anonymous users