Атты І халықаралық конференция ЕҢбектері

Внедрение татарского языка в информационные технологии

жүктеу/скачать 8,57 Mb.

Pdf көрінісі

бет	3/39
Дата	25.12.2016
өлшемі	8,57 Mb.
	#403

1 2 3 4 5 6 7 8 9 ... 39

2. Разработка и адаптация информационных технологий для татарского языка
3. Использование когнитивных возможностей татарского языка для создания новых информационных технологий

1. Внедрение татарского языка в информационные технологии
Первое направление исследований и разработок «Татарский язык в ИТ» непосредственно
связано с проблемой сохранения языка, повышения его активности в мировом
инфокоммуникационном
пространстве,
использования
татарского
языка
в
киберпространстве как когнитивного и как коммуникативного средства, т.е. средства

24

представления,  накопления  и  передачи  информации,  обеспечения  паритетного
функционирования  татарского  и  русского  языков  как  государственных  в  Республике
Татарстан,  а  также  предоставления  возможности  носителям  языка  прямого  общения  с
компьютерными  системами  без  языка  посредника.  Данное  направление  работ  включает
базовую и полную локализации компьютерных систем, то есть адаптацию их под татарский
язык.
В  настоящее  время  эта  задача  решена  в  полном  объеме  для  татарского  языка  на  основе
кириллической  графики.  Учеными  Академии  наук  РТ  и  КФУ  разработаны  экранные  и
клавиатурные драйверы, драйверы печати и шрифтовое обеспечение для татарского языка на
кириллической  основе  и  предложены  в  качестве  стандарта  для  применения  в
информационных  технологиях    в  Республике  Татарстан.  На  их  основе  принято
Постановление  КМ  РТ  «О    стандартах  кодировки  символов  татарского  алфавита  для
компьютерных применений» (N  1026 от 9 декабря 1996 года).
Данное  Постановление  помогло  унифицировать  драйверы  устройств,  которые  в  первое
время  создавались  различными  группами  и  отдельными  специалистами  по  своему
усмотрению,  и  практически  как  вирус  распространились  по  различным  компьютерам,
закрепляя разную раскладку одних и тех же татарских букв на кодовых страницах, создавая
«разночтение».  Унификация  кодовой  страницы,  соответственно,  и  драйверов  устройств,
помогла  ликвидировать  начавшийся  хаос  в  делопроизводстве,  когда  татарские  тексты,
набранные на одной машине, не читались на другой или отображались некорректно.
На  базе  принятых  стандартов  по  соглашению  с  фирмой  Майкрософт  были  разработаны
соответствующие  драйверы  устройств  и  внедрены  в  операционную  среду  Windows  NT  и
Office-2000.  В  настоящее  время  пакет  драйверов  TATWIN,  включенный  в  программный
комплекс  поддержки  татарского  языка  TatSoft  2,  позволяет  вести  делопроизводство  на
татарском языке на кириллической основе во всех приложениях операционной системы  MS
Wındows’95,  ’98,  ’2000,  ’XP,  Vista,  Wındows’7,  Wındows’8,  а  также  работать  в  Интернете.
Соответствующая  информация  имеется  на  web-сайте  фирмы  Майкрософт.  Таким  образом,
татарский язык стал вторым тюркским языком (после турецкого языка), подготовленным для
реализации специалистами самой республики (а не разработчиками фирмы), и  доступным в
среде Windows при ее инсталляции на любом рабочем месте.
Сотрудничество Академии наук РТ с Московским бюро фирмы Майкрософт, начавшееся
уже  в  95-е  годы  с  татарской  локализации  ОС  Windows’95,  нашло  перспективное
продолжение.  В  2005-2010  годах  осуществлена  полная  татарская  локализация  основных
продуктов  фирмы  Майкрософт.  Научно-исследовательским  институтом  «Прикладная
семиотика» Академии наук РТ и лабораторией «Проблемы ИИ» КФУ разработан татарский
интерфейс  операционной  системы  и,  таким  образом,  татарский  язык,  наряду  с  такими
мировыми  языками  как  английский  и  русский,  стал  родным  языком  для  операционной
системы  Windows  и  таких  активно  используемых  пользовательских  программ  как  Word,
Exel, Power Point.
Татарская  локализация  операционной  среды  MS  Windows  и  ее  приложений  ведет  к
активному  внедрению  татарского  языка  в  инфокоммуникационные  технологии,  развитию
татарского  языка  и  распространению  его  в  мировом  информационном  пространстве.
Очевидно,  что  только  становясь  языком  компьютерных  технологий,  языком  накопления,
обработки, передачи информации, языком общения с компьютерными системами, татарский
язык,  впрочем,  также  и    языки  других  народов,  имеет  возможность  стать  полнокровным
государственным языком в республике, языком культуры, языком науки, языком общения в
киберпространстве.

2. Разработка и адаптация информационных технологий для татарского языка
В  рамках  второго  направления  «ИТ  для  татарского  языка»  разработаны  пакеты
прикладных программ для работы с татарским языком, программные средства, позволяющие
компьютеризировать  делопроизводство,  издание  газет  и  журналов,  проверять  корректность

25

татарских  текстов,  автоматизировать  рабочие  места  специалистов.  Осуществляются
исследования  теоретических  и  прикладных  проблем  компьютерной  лингвистики
применительно  к  татарскому  языку,  к  его  грамматике,  лексикологии  и  лексикографии,  к
различным  проявлениям  в  речи,   с  целью  построения  прагматически-ориентированных
лингвистических  моделей  и  создания  на  их  базе  систем  автоматизированной  обработки
татарского  языка.  Важными  и  активно  разрабатываемыми  и,  очевидно,  судьбоносными
являются вопросы татарской терминологии в киберпространстве.
В  настоящее  время  создана  полнофункциональная  компьютерная  модель  морфологии
татарского  языка,  причем,  учитывая  структурную  специфику  татарского  языка  и  исходя из
прикладных  задач,  разработаны  три  различные  модели  морфологии.  Генеративная  модель
морфологии, основанная на правилах словоизменения,  хотя и уступает другим моделям по
быстродействию,  обеспечивает  полноту  анализа  словоформы,  позволяя  в  полной  мере
учитывать  агглютинативный  характер  языка,  распознавая  словоформы  потенциально
неограниченной  длины.  Парадигматическая  модель  татарской  морфологии  обеспечивает
быстрое распознавание словоформ и анализ корректности татарских словоформ с точностью
до 95 %, используется в поисковой системе УИС «Россия» (ЦИТ МГУ, г. Москва) и в среде
MS Windows и ее офисных приложениях. Причем, скорость распознавания составляет до 100
слов в 0.014 секунд, что перекрывает требования заказчика на целый порядок.  Кроме того, в
рамках  совместного  проекта  с  Белкентским  университетом  (Турция)  разработана
двухуровневая  модель  морфологии  татарского  языка,  реализованная  в  среде  известной
программной оболочки РС KIMMO и используемая в составе татарско-турецкого машинного
переводчика.  Создана  также  структурно-функциональная  модель  татарских  аффиксальных
морфем,  являющаяся  «инвентарной  базой»  для  построения  различных  прагматически-
ориентированных  морфологических  моделей  и  на  ее  базе  построен  интегрированный
программно-информационный  комплекс  «Татарская  морфема».  Данный  комплекс
практически  является  автоматизированным  рабочим  местом  (АРМом)  для  разработчиков
различных  лингвопроцессоров,  а  также  для  осуществления  учебно-исследовательской
деятельности  в  татарском  языкознании,  может  быть  успешно  использован  как
исследовательский инструмент и для других языков.
Еще  одна  полезная  программа  -  татарско-русский  машинный  переводчик  татарских
фамильно-именных групп, созданная на основе словаря компонент и правил, учитывающих
специфику образования татарских собственных имен, является незаменимым инструментом
в  автоматизированных  системах  ЗАГС  и  Паспортно-визовой  службы,  а  также  для
автоматической  генерации  татарских  имен  и  фамилий  на  основе  модели  компонент
татарского  имени.  Специалистами  института  осуществлена  татарская  локализация
оптического  распознавателя  текстов  FineReader  московской  фирмы  ABBYY.  Данная
программа,  благодаря  встроенной  морфологии  татарского  языка,  распознает  татарские
тексты с такой же точностью и быстротой, как и русские и английские.
Важной  задачей,  которая  выполняется  институтом,  является  создание  и  поддержка
электронного  корпуса  татарского  языка,  практически  представляющего  собой  машинный
фонд татарского языка (МФТЯ) в сети Интернет со следующими корпусами: а) электронные
неформатированные  тексты  (газеты,  журналы,  книги,  документы  и  др.);  б)  размеченные
тексты,  словари,  тезаурусы;  в)  программные  модули:  лингвопроцессоры  (машинные
переводчики,  синтезатор  речи,  распознаватель  текста  и  речи  и  др.),  АРМы  специалиста
(учителя,  редактора,  лингвиста  и  др.),  интеллектуальная  многоязычная  машина  поиска.
Задача создания электронного корпуса татарского языка является фундаментальной научно-
практической проблемой, решение которой даст возможность быстрого и удобного доступа к
различным  лингвистическом  ресурсам  большого  объема  посредством  использования
вычислительных машин. Очевидно, наличие богатой лингвистической базы, отображающей
татарский  язык  практически  во  всех  его  проявлениях  в  речи  и  тексте,  включая  диалекты,
позволит
проводить
достоверные
научные
исследования
на
основе
данного
фактографического  материала,  а  не  только  на  основе  лингвистической  интуиции  самого

26

исследователя и ряда примеров из доступных источников, как это делается, как правило, в
настоящее время. Реализация данного проекта приведет к формированию соответствующей
инфраструктуры  (татарский  контент  и  средства  работы  с  татарским  контентом)  для
полноценного представления татарского языка в сети Интернет.
Одним  из  интересных  и  полезных  продуктов,  разработанных  институтом  совместно  с
фирмой ABBYY и ИЯЛИ АН РТ, являются Многоязычные электронные словари Lingvo’x3 с
татарским  языком,  представляющий  собой  практически  настольную  библиотеку  из  154
различных словарей на 12 языках мира, в числе которых имеется и татарский язык. Ценность
данного  электронного  словаря  для  татаро-язычного  пользователя,  кроме  многих  других
возможностей,  заключается  в  том,  что  через  татарско-русскую  языковую  пару  доступны
переводы  во  всех  154  словарях  на  11  языках  мира  (то  есть,  включив  татарско-русский
словарь  объемом  порядка  60000  словарных  статей,  потенциально  мы  получили  татарско-
английский,  татарско-французский,  татарско-испанский,  татарско-немецкий,  татарско-
китайский, татарско-турецкий и др. двуязычные словари).  Линейка словарей, включенных в
Лингво-оболочку,  с  выходом  новых  версий,  постоянно  расширяется.  Уже  появилась  новая
версия Lingvo’x5, в которой через татарско-русский словарь доступны переводы слов на 20
языках народов мира.
Незаменимым инструментом в делопроизводстве и издательском деле является программа
WordСorr  –  морфологический  корректор  татарских  текстов  для  Microsoft  Word,  который
позволяет  находить  и  исправлять  ошибки  в  татарских  текстах,  при  этом  предлагая
возможные  корректные  варианты.  Функционирует  во  всех  операционных  системах
Windows’95 ’98 ’2000 ’XP, Vista, Win 7, Win 8 и приложениях.
Практически с 1990-х годов осуществляется активная работа по разработке электронных
обучающих программ татарскому языку, а также программ обучения предметов на татарском
языке. Ряд последних разработок доступны в Интернете, среди них: Татар Телле Заман (ТТЗ)
–  мультимедийный  электронный  учебник  по  татарскому  языку,  Татар-онлайн  –
мультимедийный  Интернет-учебник  по  татарскому  языку,  мультимедийный  учебник  5
класса для дистанционного Интернет-обучения татарскому языку.
Программа  «Татар  Телле  Заман»  содержит  более  2000  татарских  слов,  более  2500
рисунков  и  фотографий,  озвученные  диалоги  на  различные  темы  и  11  увлекательных
лингвистических  игр,  три  типа  различных  упражнений,  позволяющих  тестировать  знания
обучаемого,  возможности  для  совершенствования  татарского  произношения  вслед  за
диктором.  Многоязычный  интерфейс  (русский,  татарский  (кириллица,  латиница),
английский)  системы  позволяет  изучать  татарский  язык  как  в  русскоязычной,  так  и
англоязычной  среде.  Татарские  версии электронных  мультимедийных  учебных  пособий
Химия-8 и Физика-7, разработанные совместно с московской фирмой «Просвещение-Медиа»
при  содействии  Министерства  образования  и  науки  РТ  и  Издательства  «Магариф»,
благодаря  комплексу  разнообразных  мультимедийных  возможностей  (видеосюжеты,
анимация,  звук,  качественные  иллюстрации,  сотни  интерактивных  заданий  и  т.д.)
обеспечивают  увлекательный  и  эффективный  процесс  обучения.  Разработано  и  передано  в
школы республики электронное мультимедийное учебно-методическое пособие «Татар теле-
5».  Электронное  пособие  содержит  учебный  материал  по  6  темам,  123  упражнения,
разделенных  на  27  типов;  включает  гипертекстовый  справочный  материал  по  татарскому
языкознанию,  руководство  пользователя  и  анимационную  контекст-подсказку  по  запросу
пользователя  в  он-лайн  режиме.  Программное  обеспечение  и  технологии  разработки  и
реализации  мультимедийных  учебных  пособий,  разработанные  с  ориентацией  на  татаро-
язычную  среду,  в  основе  своей  являются  универсальными,  независимыми  от  языка  и
успешно  могут  быть  использованы  также  при  создании  электронных  учебных  пособий  для
других проблемных областей и для других языков.
В  институте  активно  разрабатываются  прагматически-ориентированные  речевые
технологии.  В  настоящее  время  синтезатор  татарской  речи  и  распознаватель  корректности
произнесенного  татарского  предложения  внедряются  в  состав  лингвистического  пакета  EF

27

(Education  First)  для  использования  в  уникальной  дистанционной  системе  обучения  “Ана
теле”,  инициированного  Президентом  Республики  Татарстан  и  обеспечивающего  обучение
татарскому языку 24 часа в сутки в течение 7 дней в неделю.
Среди перспективных работ института можно выделить следующие проекты.
  1.  Разработка  Интеллектуальной  многоязычной  поисковой  машины  (ИМПМ).
Актуальность  работ  по  созданию  ИМПМ  связана  с  необходимостью  создания  машинного
фонда  (ресурса  электронных  коллекций)  татарского  языка,  сложившейся  языковой
ситуацией в республике Татарстан, появлением новых лингвистических и интеллектуальных
технологий  многоязыкового  поиска,  основанных  на  глубоком  разрешении  лексической
многозначности.  Кроме  того,  потребность  в  многоязыковых  поисковых  технологиях
обусловлена  тем  фактом,  что  ряд  развитых  государств  имеют  несколько  официальных
языков, что дает проекту перспективу дальнейшего коммерческого использования.
2.  Разработка  программы  распознавания  татарской  речи.  Как  прогнозируется
специалистами,  одним  из  основных  направлений  развития  в  сфере  высоких  технологий  в
ближайшие годы будут речевые технологии, особенно, автоматическое распознавание речи
(АРР).  Ожидается  широкое  внедрение  технологий  АРР  в  ведущие  сектора  экономики.  По
оценкам аналитиков, объём рынка продукции, использующей АРР, будет сравним с рынками
таких  высокотехнологичных  товаров  как  микропроцессоры,  персональные  компьютеры,
программное обеспечение.
3.  Разработка  татарско-русского  машинного  переводчика,  а  также  машинных
тюркоязычных  переводчиков  в  паре  с  татарским  языком.  Если  особая  актуальность
машинных  переводчиков  первой  группы  объясняется  необходимостью  доступа  к
англоязычным базам знаний в Интернете через русский язык  (априори предполагается, что
русско-английский  переводчик  имеется)  и  необходимостью  поддерживать  равное
функционирование  татарского  и  русского  языков  как  государственных  в  Республике
Татарстан, то вторая группа  - среди родственных языков, эта работа привлекательна в силу
относительной  простоты  и  малой  затратности  решения  этой  задачи  (в  некоторых  случаях
практически  это  простая  конвертация  текстов,  например,  для  татарско-башкирской  пары
языков),  а  также  в  силу  культурологической  функции  такого  переводчика,  помогающего
сближению родственных народов.

3. Использование когнитивных возможностей татарского языка для создания новых
информационных технологий
Третье направление исследований «Татарский язык для ИТ» связано с актуальной задачей
создания  интеллектуальных  операционных  систем  и  интеллектуального  программного
инструментария  на  основе  использования  потенциала  естественных  языков,  их
семантических и синтаксических конструкций, а также лексического корпуса. Очевидно, что
естественный  язык  является  основой  для  любой  символической  системы,  определенным
образом организованной, имеющей свой синтаксис и свою семантику (сюда же включается
любая  логика,  математика  и  др.).  Соответственно,  вместе  с  языком  в  этих  системах
реализуется и ментальность языка (точнее, ментальность этноса, передаваемая через язык).
Что  является  важным  для  компьютерных  технологий?  Известно,  что  критичными,
соответственно,  важными  для  компьютерных  технологий  являются  такие  показатели  как
время  обработки  информации,  объем  памяти  для  хранения  информации  (сжатие
информации),  активность  знаний  и  возможность  задания  нечетких  команд  (однозначно
воспринимаемых  в  определенном  контексте).  Последние  два  свойства  являются
необходимыми  характеристиками  для  интеллектуальных  систем  и  технологий.
Соответственно,  весьма  актуальными  и  перспективными  являются  когнитивные
исследования  в  языке  с  целью  определения  таких  структур,  схем,  формул,  которые  в
естественном языке реализуют указанные свойства и могут быть эффективно использованы
при  создании  искусственных  языков  и  систем  программирования,  а  также  любых  других
средств описания, хранения и обработки информации.

28

Как  известно,  операционные  системы,  языки  программирования,  средства  обработки
информации, практически все программное обеспечение, используемое сегодня, разработаны
на  основе  английского  языка  и,  соответственно,  на  основе  менталитета  английского  языка
(менталитета,  отражаемого  через  английский  язык  -  западного  менталитета).  Английский
язык  является  языком  флективно-аналитического  типа  (флексия  –  когда  допускается  и
префиксное,  и  инфиксное,  и  постфиксное  изменение  формы  слова;  аналитический  тип  –
когда новое значение образуется сочетанием слов), практически с нулевой морфологией (по
сравнению с агглютинативными языками). Отсюда следует, что сложный смысл образуется
словосочетаниями  и  это  приводит  к  большой  комбинаторике  при  анализе.  А  это,  в  свою
очередь,  ведет  к  увеличению  самых  критичных  показателей  в  вычислительных  системах  -
объема требуемой памяти и времени при обработке информации. Выход из такой ситуации –
исключение  большого  контекста,    глубины  конструкций,  в  итоге  -  упрощение  смысла,
семантики,  соответственно  и  «интеллектуальных  показателей».  Таким  образом,  в  основе
самого английского языка заложен «интеллектуальный» тупик для вычислительных машин,
заставляющий их не “умнеть”, а искать выход через повышение быстродействия системы и
увеличение памяти, т.е. через развитие «физики» ( hardware), а не «мозгов» (software).
Еще  один  недостаток  технологий,  основанных  на  английском  языке,  заключается  в  том,
что  сам  строй  языка,  его  синтаксис,  «сопротивляется»,  даже  противоречит  одному  из
главных  свойств  интеллектуальности  системы  –  активности  знаний.  Как  известно,
английский  язык  относится  к  языкам  типа  SVO  (Subject-Verb-Object).  То  есть,  «Субъект:
Действие-Информация»  (I’ll  go  to  the  cinema  tomorrow  afternoon  with  my  friend  ...).  Таким
образом,  сначала  требуется  выполнить,  потом  рассуждать,  анализировать.  Решение
принимается  не  на  основе  информации,  а  информация  подается  в  рамках  выбранного
действия.  То  есть,  не  информация  диктует,  какое  именно  действие  необходимо  совершить,
какие  методы,  алгоритмы  применять  для  ее  обработки,  а  наоборот,  действие,  средство,
схема,  алгоритмы  заставляют  форматировать,  структурировать,  модифицировать
информацию.
В  отличие  от  индо-европейских  языков,  тюркские  языки  относятся  к  языкам  типа  SOV
(Subject  -Object-Verb).  Соответственно  реализуется  схема:  «Субъект:  Информация-
Действие».  Например,  смысл  английского  предложения,  приведенного  выше,  будет
передаваться следующим татарским предложением:  Min (я) ... irtege (завтра) toshten (обед)
song (после) dustym (друг) belen (с) kinoga (в кино) baram (иду) (букв.: Я ... завтра после обеда
с другом в кино иду). То есть, в татарском предложении сначала раскрывается информация,
анализ ситуации, а затем уже в конце предложения приводится действие, отображаемое, как
правило, глаголом.
Как  показывают  исследования,    проводимые  в  НИИ  «Прикладная  семиотика»  АН  РТ,  а
также  зарубежными  исследователями  [1],  тюркские  языки,  как  агглютинативные  языки,
обладающие  регулярной  морфологией  и,  вместе  с  тем,  естественной  сложностью,
разрешаемой  по  контексту,  являются  эффективным  инструментом  для  создания
интеллектуальных  систем  обработки  информации  [2-4].  В  силу  минимальных  показателей
временных и емкостных оценочных функций для  генерации и анализа  цепочек словоформ
(за счет регулярности) достигается эффективность при накоплении и обработке информации.
Компактность передачи смысла текста на поверхностном, лексическом, уровне объясняется
также  возможностями  языка  синтетически,  т.е.  словоформой,  кодировать  смысл,    который
для  других  языков  (английский,  русский)  формируется  аналитически,    чаще  всего,
несколькими предложениями.
Агглютинативность  морфологии,  минимальность  исключений,  наличие  мощного  мета-
аппарата,  синтаксическая  мотивированность  активности  информации  в  татарском  тексте,
позволяют ставить задачу о  возможности создания  языка промежуточной трансляции, т.е.
языка-посредника на базе татарского языка, и даже разработки новых операционных систем
на основе новой идеологии.

29

Заключение
В  докладе  изложены  результаты  деятельности  НИИ  «Прикладная  семиотика»  Академии
наук РТ и НИЛ «Проблемы искусственного интеллекта» АНТ И КФУ за последние 10-15 лет
в  области  создания  стандартов  и  программных  средств  обеспечения  паритетного
функционирования  татарского  языка  в  инфо-коммуникационных  технологиях  в  качестве
одного  из  государственных  языков  в  Республике  Татарстан.  Показан  ряд  потенциальных
когнитивных возможностей татарского языка, позволяющий ему стать формальной базой для
построения  новых  средств  описания,  хранения  и  обработки  информации.  Также
подчеркивается,  что  только  становясь  языком  компьютерных  технологий,  языком
накопления,  обработки,  передачи  информации,  языком  общения  с  компьютерными
системами  в  киберпространстве,  татарский  язык  имеет  возможность  стать  полнокровным
государственным языком, языком общения, языком науки.

жүктеу/скачать 8,57 Mb.

Достарыңызбен бөлісу:

1 2 3 4 5 6 7 8 9 ... 39