2. Разработка и адаптация информационных технологий для татарского языка
В рамках второго направления «ИТ для татарского языка» разработаны пакеты
прикладных программ для работы с татарским языком, программные средства, позволяющие
компьютеризировать делопроизводство, издание газет и журналов, проверять корректность
25
татарских текстов, автоматизировать рабочие места специалистов. Осуществляются
исследования теоретических и прикладных проблем компьютерной лингвистики
применительно к татарскому языку, к его грамматике, лексикологии и лексикографии, к
различным проявлениям в речи, с целью построения прагматически-ориентированных
лингвистических моделей и создания на их базе систем автоматизированной обработки
татарского языка. Важными и активно разрабатываемыми и, очевидно, судьбоносными
являются вопросы татарской терминологии в киберпространстве.
В настоящее время создана полнофункциональная компьютерная модель морфологии
татарского языка, причем, учитывая структурную специфику татарского языка и исходя из
прикладных задач, разработаны три различные модели морфологии. Генеративная модель
морфологии, основанная на правилах словоизменения, хотя и уступает другим моделям по
быстродействию, обеспечивает полноту анализа словоформы, позволяя в полной мере
учитывать агглютинативный характер языка, распознавая словоформы потенциально
неограниченной длины. Парадигматическая модель татарской морфологии обеспечивает
быстрое распознавание словоформ и анализ корректности татарских словоформ с точностью
до 95 %, используется в поисковой системе УИС «Россия» (ЦИТ МГУ, г. Москва) и в среде
MS Windows и ее офисных приложениях. Причем, скорость распознавания составляет до 100
слов в 0.014 секунд, что перекрывает требования заказчика на целый порядок. Кроме того, в
рамках совместного проекта с Белкентским университетом (Турция) разработана
двухуровневая модель морфологии татарского языка, реализованная в среде известной
программной оболочки РС KIMMO и используемая в составе татарско-турецкого машинного
переводчика. Создана также структурно-функциональная модель татарских аффиксальных
морфем, являющаяся «инвентарной базой» для построения различных прагматически-
ориентированных морфологических моделей и на ее базе построен интегрированный
программно-информационный комплекс «Татарская морфема». Данный комплекс
практически является автоматизированным рабочим местом (АРМом) для разработчиков
различных лингвопроцессоров, а также для осуществления учебно-исследовательской
деятельности в татарском языкознании, может быть успешно использован как
исследовательский инструмент и для других языков.
Еще одна полезная программа - татарско-русский машинный переводчик татарских
фамильно-именных групп, созданная на основе словаря компонент и правил, учитывающих
специфику образования татарских собственных имен, является незаменимым инструментом
в автоматизированных системах ЗАГС и Паспортно-визовой службы, а также для
автоматической генерации татарских имен и фамилий на основе модели компонент
татарского имени. Специалистами института осуществлена татарская локализация
оптического распознавателя текстов FineReader московской фирмы ABBYY. Данная
программа, благодаря встроенной морфологии татарского языка, распознает татарские
тексты с такой же точностью и быстротой, как и русские и английские.
Важной задачей, которая выполняется институтом, является создание и поддержка
электронного корпуса татарского языка, практически представляющего собой машинный
фонд татарского языка (МФТЯ) в сети Интернет со следующими корпусами: а) электронные
неформатированные тексты (газеты, журналы, книги, документы и др.); б) размеченные
тексты, словари, тезаурусы; в) программные модули: лингвопроцессоры (машинные
переводчики, синтезатор речи, распознаватель текста и речи и др.), АРМы специалиста
(учителя, редактора, лингвиста и др.), интеллектуальная многоязычная машина поиска.
Задача создания электронного корпуса татарского языка является фундаментальной научно-
практической проблемой, решение которой даст возможность быстрого и удобного доступа к
различным лингвистическом ресурсам большого объема посредством использования
вычислительных машин. Очевидно, наличие богатой лингвистической базы, отображающей
татарский язык практически во всех его проявлениях в речи и тексте, включая диалекты,
позволит
проводить
достоверные
научные
исследования
на
основе
данного
фактографического материала, а не только на основе лингвистической интуиции самого
26
исследователя и ряда примеров из доступных источников, как это делается, как правило, в
настоящее время. Реализация данного проекта приведет к формированию соответствующей
инфраструктуры (татарский контент и средства работы с татарским контентом) для
полноценного представления татарского языка в сети Интернет.
Одним из интересных и полезных продуктов, разработанных институтом совместно с
фирмой ABBYY и ИЯЛИ АН РТ, являются Многоязычные электронные словари Lingvo’x3 с
татарским языком, представляющий собой практически настольную библиотеку из 154
различных словарей на 12 языках мира, в числе которых имеется и татарский язык. Ценность
данного электронного словаря для татаро-язычного пользователя, кроме многих других
возможностей, заключается в том, что через татарско-русскую языковую пару доступны
переводы во всех 154 словарях на 11 языках мира (то есть, включив татарско-русский
словарь объемом порядка 60000 словарных статей, потенциально мы получили татарско-
английский, татарско-французский, татарско-испанский, татарско-немецкий, татарско-
китайский, татарско-турецкий и др. двуязычные словари). Линейка словарей, включенных в
Лингво-оболочку, с выходом новых версий, постоянно расширяется. Уже появилась новая
версия Lingvo’x5, в которой через татарско-русский словарь доступны переводы слов на 20
языках народов мира.
Незаменимым инструментом в делопроизводстве и издательском деле является программа
WordСorr – морфологический корректор татарских текстов для Microsoft Word, который
позволяет находить и исправлять ошибки в татарских текстах, при этом предлагая
возможные корректные варианты. Функционирует во всех операционных системах
Windows’95 ’98 ’2000 ’XP, Vista, Win 7, Win 8 и приложениях.
Практически с 1990-х годов осуществляется активная работа по разработке электронных
обучающих программ татарскому языку, а также программ обучения предметов на татарском
языке. Ряд последних разработок доступны в Интернете, среди них: Татар Телле Заман (ТТЗ)
– мультимедийный электронный учебник по татарскому языку, Татар-онлайн –
мультимедийный Интернет-учебник по татарскому языку, мультимедийный учебник 5
класса для дистанционного Интернет-обучения татарскому языку.
Программа «Татар Телле Заман» содержит более 2000 татарских слов, более 2500
рисунков и фотографий, озвученные диалоги на различные темы и 11 увлекательных
лингвистических игр, три типа различных упражнений, позволяющих тестировать знания
обучаемого, возможности для совершенствования татарского произношения вслед за
диктором. Многоязычный интерфейс (русский, татарский (кириллица, латиница),
английский) системы позволяет изучать татарский язык как в русскоязычной, так и
англоязычной среде. Татарские версии электронных мультимедийных учебных пособий
Химия-8 и Физика-7, разработанные совместно с московской фирмой «Просвещение-Медиа»
при содействии Министерства образования и науки РТ и Издательства «Магариф»,
благодаря комплексу разнообразных мультимедийных возможностей (видеосюжеты,
анимация, звук, качественные иллюстрации, сотни интерактивных заданий и т.д.)
обеспечивают увлекательный и эффективный процесс обучения. Разработано и передано в
школы республики электронное мультимедийное учебно-методическое пособие «Татар теле-
5». Электронное пособие содержит учебный материал по 6 темам, 123 упражнения,
разделенных на 27 типов; включает гипертекстовый справочный материал по татарскому
языкознанию, руководство пользователя и анимационную контекст-подсказку по запросу
пользователя в он-лайн режиме. Программное обеспечение и технологии разработки и
реализации мультимедийных учебных пособий, разработанные с ориентацией на татаро-
язычную среду, в основе своей являются универсальными, независимыми от языка и
успешно могут быть использованы также при создании электронных учебных пособий для
других проблемных областей и для других языков.
В институте активно разрабатываются прагматически-ориентированные речевые
технологии. В настоящее время синтезатор татарской речи и распознаватель корректности
произнесенного татарского предложения внедряются в состав лингвистического пакета EF
27
(Education First) для использования в уникальной дистанционной системе обучения “Ана
теле”, инициированного Президентом Республики Татарстан и обеспечивающего обучение
татарскому языку 24 часа в сутки в течение 7 дней в неделю.
Среди перспективных работ института можно выделить следующие проекты.
1. Разработка Интеллектуальной многоязычной поисковой машины (ИМПМ).
Актуальность работ по созданию ИМПМ связана с необходимостью создания машинного
фонда (ресурса электронных коллекций) татарского языка, сложившейся языковой
ситуацией в республике Татарстан, появлением новых лингвистических и интеллектуальных
технологий многоязыкового поиска, основанных на глубоком разрешении лексической
многозначности. Кроме того, потребность в многоязыковых поисковых технологиях
обусловлена тем фактом, что ряд развитых государств имеют несколько официальных
языков, что дает проекту перспективу дальнейшего коммерческого использования.
2. Разработка программы распознавания татарской речи. Как прогнозируется
специалистами, одним из основных направлений развития в сфере высоких технологий в
ближайшие годы будут речевые технологии, особенно, автоматическое распознавание речи
(АРР). Ожидается широкое внедрение технологий АРР в ведущие сектора экономики. По
оценкам аналитиков, объём рынка продукции, использующей АРР, будет сравним с рынками
таких высокотехнологичных товаров как микропроцессоры, персональные компьютеры,
программное обеспечение.
3. Разработка татарско-русского машинного переводчика, а также машинных
тюркоязычных переводчиков в паре с татарским языком. Если особая актуальность
машинных переводчиков первой группы объясняется необходимостью доступа к
англоязычным базам знаний в Интернете через русский язык (априори предполагается, что
русско-английский переводчик имеется) и необходимостью поддерживать равное
функционирование татарского и русского языков как государственных в Республике
Татарстан, то вторая группа - среди родственных языков, эта работа привлекательна в силу
относительной простоты и малой затратности решения этой задачи (в некоторых случаях
практически это простая конвертация текстов, например, для татарско-башкирской пары
языков), а также в силу культурологической функции такого переводчика, помогающего
сближению родственных народов.
Достарыңызбен бөлісу: |