Определение 1. Формальной системой называется система, состоящая из множества спе-
циальных символов, множества понятий, баз слов/фраз и конечного множества математи-
ческих моделей считающихся интерпретируемыми.
Определение 2. Математическая модель естественного языка – это есть способ фор-
мального описания его синтаксических и семантических конструкций. Основой синтакси-
ческих конструкций является вывод слово, а семантических конструкций правильный вывод
фразы.
Утверждение 1. Одна математическая модель определяет одно или несколько синтакси-
ческих и/или семантических конструкций из грамматики естественного языка.
Утверждение 2. Каждая математическая модель является либо распознающей, либо
порождающей в многоязычной системе МП.
281
Утверждение 3. Математическая модель является распознающей, если она характеризует
язык A или является порождающей если характеризует язык B. При этом направлением МП
считается A
B, а языки A и B принадлежат по классификации Н. Хомского [1] классу 0.
Определение 3. Распознающая математическая модель это анализ синтаксических и се-
мантических конструкций выводящих висячее дерево предложений языка A.
Определение 4. Порождающая математическая модель это синтез синтаксических и
семантических конструкций строящих дерево предложения языка B.
Утверждение 4. Каждая синтактико-семантические правила языков A и B имеют форму a
b без каких-либо ограничений на строки a и b в границах грамматики рассматриваемого
языка.
Определение 5. Язык A есть множества форм a
b.
Определение 6. Понятия P есть конечное множества словообразующих форм.
Определение 7. Начальным символом естественного языка A является любая буква из его
алфавита - E, называемым терминальным символом.
Определение 8. Интерпретация - это множество построения различных алгоритмов в
соответствие с формами вывода a
b.
Определение 9. Формальная грамматика G естественного языка это есть G = {
,
,
,
}, где
-
множество терминальных символов;
-
вспомогательное множество нетерминальных символов и фраз, с помощью которых
определяются терминальные символы и понятия;
-
начальный символ,
= <математическая модель ЕЯ>;
- множество продукций
:
(
,
,
U
).
Целью формальной грамматики является определение с помощью правил вывода
принадлежность слов, фраз и предложений к данному языку или наоборот строить слова,
фразы и предложения в соответствии с правилами вывода этого языка. Таким образом, по
сути, формальная грамматика представляет собой исчисление и для превращения его во
множество алгоритмов позволяющих задать четкие правила вывода языка A внедряем в
формальную грамматику математические модели.
Если
→ψ - правило грамматики G и ω
1
, ω
2
– цепочки из основных и вспомогательных
символов, говорят, что цепочка ω
1
ψ ω
2
непосредственно выводима в G из ω
1
ω
2
. Если ξ
0
,
ξ
1
,… ξ
n
… - цепочки и для каждого I = 1, … n цепочка ξ
1
непосредственно выводима из ξ
i
- 1,
говорят, что ξ
n
выводима в G из ξ
0
. Множество тех цепочек из основных символов, которые
выводимы в G из её начального символа, называется языком, порождаемым грамматикой G и
обозначается L(G). Если все правила G имеют вид η
1
А η
2
→η
1
ω η
2
, то G называется
грамматикой составляющих (или непосредственно составляющих), сокращённо НС – грам-
матикой. Основные (терминальные) символы – это слова, вспомогательные (нетерминаль-
ные) – это грамматические категории (S – существительное, V - глагол, O – объект и т.п.). В
НС-грамматике вывод предложения даёт для нас дерево составляющих, в котором каждая
составляющая состоит из слов, «происходящих» от одного вспомогательного символа, так
что для каждой составляющей указывается её грамматическая категория.
Определение 10. Математическая модель слово M
С
в грамматике G это есть вывод
формы вида a
a, либо a
i,j
(p
i
a V ap
j
), где p
i
P, i=
n
,
1
Определение 11. Математическая модель M
предложения в грамматике G это есть
вывод a
b, где a содержит синтаксически правильную последовательность элементов a
i
.
Определение 12. Язык A определяемый грамматикой G есть множества моделей трех
типов M
k
(k=
3
,
1
), в соответствии с типами предложений естественного языка.
Определение 13. Язык A называется неоднозначным, если он содержит хотя бы одну
математическую модель любого типа для которой существуют более одной формы вывода
a
b.
282
Определение 14. Предложение естественного языка – это одна из математических моде-
лей любого типа.
Определение 15. Технология МП - это процесс достижения однозначности перевода в
многоязычной ситуации в результате внедрения формальных систем.
Так как достижение однозначности происходит в разной степени функционирующих
системах МП, то определим критерии по классификации технологий МП.
Определение 16. Чистая технология МП из языка A в язык B есть установление
однозначности между грамматиками A(G) и B(G) в пределах 97-100%.
Чистая технология МП практически снимает вопрос постредактирования, возложив почти
все проблемы на систему. Внедрение чистых технологий является серьезнейшей проблемой
и скорее всего ее можно решить в недалеком будущем.
Определение 17. Высокая технология МП из языка A в язык B есть установление
однозначности между грамматиками A(G) и B(G) в пределах 65-80%.
Внедрением высоких технологий МП практически занимаются многие исследователи,
результаты работ должны появиться очень скоро.
Определение 18. Средняя технология МП из языка A в язык B есть установление одноз-
начности между грамматиками A(G) и B(G) в пределах 40-55%.
К данной категории технологии МП можно отнести такие системы как ПРОМТ (Россия),
SYSTRAN, Transparent Language (США), Lingvistica (Канада), Cross Language (Япония) [8].
Определение 19. Низкая технология МП из языка A в язык B есть установление
однозначности между грамматиками A(G) и B(G) в пределах 25-35%.
Естественный человеческий язык с точки зрения математики представляет собой нечёткое
или размытое множество – континуум. Нечёткость языка, в том числе значений слов,
словосочетаний и других лингвистических единиц обусловливается особенностями восприя-
тия и отражения объективной действительности в мозгу человека. Поэтому строение знака в
математике и в естественном человеческом языке разное. Знак в математике – это двусто-
ронняя сущность. Знак в языке многозначен и многопланов.
Потребность математики и информатики в языковедении и прикладной лингвистике
связана с необходимостью построения алгоритмов, позволяющих быстро и эффективно
извлекать и перерабатывать информацию, заключённую в научно-технических, деловых и
художественных текстах, поток которых постоянно возрастает. Условием такой переработки
является перевод информации, содержащейся в неформализованном виде в тексте, на
формализованный искусственный язык. Если речь идёт об автоматизированной переработке
текста, то таким искусственным языком является расширяемый входной язык математи-
ческого моделирования естественного языка [3].
Более сложны лингвистические потребности робототехники и теории искусственного
интеллекта. Обращаясь к опыту математической и прикладной лингвистики, исследователи
ищут конструктивные решения применительно к формальному анализу нечётких объектов, к
устранению многозначности языковых знаков и созданию алгоритмов высоких информаци-
онно-семантических уровней. Однако решение этих сложных задач невозможно без предва-
рительной разработки методов системного описания и моделирования парадигматики и син-
тагматики языка.
Цель математической лингвистики как науки состоит в том, чтобы изложить элементы
системного анализа языка и речи с помощью аппарата современной математики и элемен-
тарных математических правил, приложимых к лингвистике.
Наиболее простыми для формализации и компьютерного перевода являются тексты
научного характера с чётко представленным синтаксисом во взаимосвязи с ограниченным
числом морфологических категорий. Это объясняется тем, что термин, т.е. слово в
специфически научном употреблении, максимально приближен к математическому знаку по
своей сути, что позволяет формализовать конструкции и осуществить переход к синтакси-
ческому анализу на основе представленных в базе данных морфологического характера.
283
Двусоставные предложения биноминальной структуры являются наиболее частотными и
коммуникативно-значимыми в научных текстах.
В настоящее время ведутся исследования именно в направлении математического модели-
рования естественных языков. В качестве объектов выбраны узбекский, русский, английс-
кий, немецкий и турецкие языки. Разработана технология моделируемого компьютерного
переводчика (МКП).
МКП состоит из трех ступенчатой архитектуры. На первой ступени модели проводится
синтаксический и семантический анализ естественного языка. Здесь определяются все –
префиксы, суффиксы, приставки, окончания, предлоги, морфемы, постфиксы, союзы, мо-
дальные слова, частицы, междометия, аффиксы и т.д. Слова исследуются по категориям, т.е.
составляющим части предложения (числительное, существительное, прилагательное, место-
имения, глагол, наречие). Создаются специальные базы данных по указанным категориям
[6,7].
На второй ступени архитектуры выявляются все синтаксические и семантические связи
построения слов и словосочетаний с построением логико-лингвистических моделей в рамках
«сущность-связь».
Для описания математических моделей слов, словосочетаний и предложений был разра-
ботан расширяемый входной язык математического моделирования естественного языка [3].
На третьей ступени архитектуры описываются математические модели естественных
языков [4,5,7].
Технология МКП требует наличия различных баз данных по естественному языку,
например [7]. Кроме указанных требуется наличие базы слов по категориям естественных
языков участвующих в переводе, а также предметных словарей, которые будут составлять
базы данных со специальными атрибутами, например [8-11].
Осуществление перевода компьютером – сложная, но интересная научная задача. Основ-
ная ее сложность состоит в том, что естественные языки плохо поддаются формализации.
Отсюда и невысокое качество получаемого с помощью систем МП текста. Однако идея
машинного перевода уходит корнями далеко в прошлое.
В последнее время большое значение придается автоматизированным информационным
технологиям. Свидетельством тому является обсуждение этого вопроса на различных между-
народных форумах за последние 10 лет. Так, 12 декабря 2003 года в Женеве (Швейцария)
состоялся Всемирный Саммит, посвященный проблеме построения Информационного
Общества. Он проходил под лозунгом: "Построение Информационного Общества – глобаль-
ный вызов нового тысячелетия. Саммит принял два документа: Декларацию о принципах
создания Информационного Общества и План работы по реализации этих принципов.
В Декларации формулируются принципы построения Информационного Общества с уче-
том социально-политических, правовых и гуманитарных аспектов. При этом подчеркивается
центральная роль науки в развитии такого Общества и в развитии информационных и
телекоммуникационных технологий.
В Плане конкретизируются пути построения открытого Информационного Общества. При
этом указывается, что потенциал человеческих знаний и информационных и телекоммуни-
кационных технологий следует направить на достижение задач развития, одобренных
международным сообществом. Большое значение придается необходимости сохранения
культурного многообразия и языковой самобытности народов, населяющих землю, и в этой
связи подчеркивается важность исследований и разработок в области машинного перевода.
Литература
1.
Мальков В. Формальные модели анализа и распознавания языковых структур/
Материалы международной конференции «Диалог-2007». М, 2007.
2.
Хомский Н. Формальные свойства грамматик. «Кибернетический сборник», НС, вып.
2, 1966, стр. 121-230.
284
3.
Хакимов М.Х. Расширяемый входной язык математического моделирования естест-
венного языка для многоязычной ситуации машинного перевода. ҰзМУ хабарлари, № 1,
2009, 75-80 с.
4.
Хакимов М.Х. Математические модели узбекского языка. ҰзМУ хабарлари, № 3,
2010, с.185-188
5.
Хакимов М.Х. К моделям естественных языков для многоязычных ситуаций компью-
терного перевода. Труды научной конференции «Проблемы современной математики» 22-23
апреля 2011 г., г. Карши, с.531-537
6.
Хакимов М.Х. Абдурахманова Н. Семантические базы английского языка для
многоязычной ситуации компьютерного перевода. Труды научной конференции «Проблемы
современной математики» 22-23 апреля 2011 г., г. Карши, с.311-314
7.
Хакимов М.Х. Семантические базы и математические модели русского языка для
многоязычной ситуации компьютерного перевода. Проблемы информатики и энергетики,
№2, 2011, с.57-65
8.
Хакимов М.Х. База англо-русско-узбекских терминов и фраз по компьютерным
знаниям. ГПВ РУ, РА №6, 2008, Свидетельство № BGU
00139
9.
Хакимов М.Х. База англо-русско-узбекских терминов и фраз по химии. ГПВ РУ, РА
№6, 2008, Свидетельство № BGU
00140
10.
Хакимов М.Х. База русско-узбекских терминов и фраз по математике. ГПВ РУ, РА
№6, 2008, Свидетельство № BGU
00141
11.
Хакимов М.Х. База русско-узбекских терминов и фраз по таможне, геодезии, почве и
агрохимии. ГПВ РУ, РА №4, 2009, Свидетельство № BGU
00179
12.
www.promt.ru,
www.systransoft.com,
www.transparent.com,
www.lingvistika.com,
www.crosslanguage.co.jp/englisn
У.А. ТУКЕЕВ, С.З. САПАКОВА, А. МАРАТҚЫЗЫ, Қ.ӨТЕПОВА
Әл-Фараби атындағы Қазақ Ұлттық университеті, Алматы, Қазақстан
ҚАЗАҚША-ОРЫСША МАШИНАЛЫҚ АУДАРМАСЫНЫҢ МӘЛІМЕТТЕР
БАЗАСЫ ЖӘНЕ ОНЫҢ ҚҰРЫЛЫМЫ
1.
Мәліметтер базасының құрылымы
Мәліметтер қоры дегеніміз ақпаратты сақтауға және жинақтауға арналған ұйымдасқан
құрылым. Ең алғаш мәліметтер қоры ұғымы жаңадан қалыптасқан кезде онда шындығында
мәліметтер сақталатын. Бірақ қазіргі кездегі көптеген мәліметтер қоры басқару жүйелері
өздерінің құрылымдарында тек мәліметтерді ғана емес, сонымен қатар олардың
тұтынушымен және басқа да ақпараттық – программалық кешендермен қарым –
қатынасының әдістерін де қамтиды. Сондықтан біз қазіргі заманғы мәліметтер қорында тек
мәліметтер ғана емес, ақпараттар да сақтай аламыз.
Мәліметтер базасы деп деректердің электрондық сақтаушысын айтады. Оларға қатынас
бір немесе бірнеше компьютерлер көмегімен іске асады. Әдетте деректер базасы деректерді
сақтау үшін жасалады.
Мәліметтер базасы – ақпаратты сақтауды және мәліметтерге ыңғайлы, тез кіруді
қамтамасыз етеді. Мәліметтер базасы белгілі бір ережелерге сай құрылған деректер
жиынтығын құрайды.
Мәліметтер базасын басқару жүйесі деректер базасын құруға, толтыруға, жаңартуға,
жоюға арналған программалық жабдық болып табылады.
285
Бұл жобада SQLite арқылы Қ.Б. Бектаевтың «Үлкен сөздігі» бойынша толтырылған 12000
сөзі бар мәліметтер базасы және 753 қосымшаларды және олардың атрибуттарын қамтитын
қосымшалар кестесі бар. Талдаулар соның негізінде жасалынады. Мәліметтер базасының
жалпы құрылымы келесі суретте берілген (1.1-сурет):
Cурет 1.1. Мәліметтер базасы.
Мәліметтер базасын программаға қосу үшін dotconnectsqlite компонентін орнату
қажет. Осыдан кейін sqlite форматындағы мәліметтер базасы дайын болса, онымен
байланыстыратын кодты енгіземіз:
using System.Data.SqlClient; // Байланыс үшін қажетті директивалар
using System.Data.OleDb; //
using Devart.Data.SQLite; //
using System.IO; //
String mySelectQuery;
SQLiteCommand sqCommand;
SQLiteDataReader sqReader;
SQLiteConnection sqConnection = new SQLiteConnection("Data Source=c:\\zhalgaular.db;");
286
zat_esim
id
kaz
rus
rod
syn_esim
id
kaz
rus
esimdik
id
kaz
rus
koptik
rod
septik
san_esim
id
kaz
rus
etistik
id
kaz
rus
usteu
id
kaz
rus
predlog
kaz
rus
padezh
zhalgaular
id
zhalgau
s_e
koptik
septik
taueldik
jiktik
shak
kaz_rus
Мәліметтер базасы
Мәліметтер базасының құрылымында
8 кесте және олардың атрибуттары
берілген
1. Зат есім
2. Сын есім
3. Есімдік
4. Сан есім
5. Етістік
6. Үстеу
7. Шылау
8. Қосымшалар
Cурет 1.2. Мәліметтер қорының моделі.
Бұл машиналық аударманың мәліметтер базасы SQLite программасында құрастырылған.
Барлығы 8 кестеден тұрады (1.1.-сурет). Кестелер сөз таптарына байланысты және бір кесте
қосымшаларға арналған. Олар: "zat_esim" (зат есім), "syn_esim" (сын есім), "san_esim"
(сан есім), "esimdik" (есімдік), "etistik" (етістік), "usteu" (үстеу), "predlog" (шылау),
"zhalgaular" (қосымшалар) (1.2 – 1.11-суреттер):
Cурет 1.3. SQLite программасының жалпы көрінісі.
287
Cурет 1.4. Zat_esim кестесі.
Cурет 1.5. Syn_esim кестесі.
Сурет 1.6. San_esim кестесі.
288
Сурет 1.7. Esimdik кестесі.
Сурет 1.8. Etistik кестесі.
Сурет 1.9. Usteu кестесі.
289
Сурет 1.10. Predlog кестесі.
Сурет 1.11. Zhalgaular кестесі.
2. Мәліметтер базасы және программалық жабдықтау жұмыс істеу нәтижелері
Осы жұмыс барысында индекстік файлдар арқылы жұмыс жасауды дұрыс деп игердік.
Себебі, олар жұмысты жеңілдетуге көп септігін тигізді. Қолданылған индекстік файлдар,
олар: қазақ тілінде берілген сөзге жалғанатын қосымшаларға арналған кесте, сонымен қатар
орыс тіліндегі аударма алынған кездегі оның жалғауларын анықтап, сәйкестендіруге
пайдаланылатын кестелер. Мәліметте базасындағы кестелерге жүргізілетін операциялардан
бөлек, бірнеше ережелер жазылды. Соның ішінде, қазақ және орыс тілінің септік
жалғауларын сәйкестендіру, қазақ және орыс тілінің етістіктерін және олардың шағын, қай
жақта, жекеше немесе көпше түрде берілгендігін анықтау сияқты т.б. бірнеше ережелер
жазылды. Осы айтылған жұмыстарды қамтып, қазақша-орысша машиналық аударма
программасын құрастырдық, ол келесі суретте көрсетілген (2.1-сурет):
290
Сурет 2.1. Қазақша-орысша машиналық аударманың интерфейсі.
Машиналық аударма жасау кезінде қазақ және орыс тілдерінің грамматикасы ұқсас
болғаныменен, толық сәйкес емес екендігіне тағы да көз жеткіздік. Мысал ретінде септік
жалғауларын айтсақ та, олар қазақ тілінде жетеу, ал орыс тілінде алтау. Бірақ, олардың
сәйкестігі анықталып, қажетті ережелер жазылды. Нәтижеміз келесі суретте берілген (2.2-
сурет):
Сурет 2.2. Сөздердің септелуі.
Қазақ тілінде берілген сөйлемнің орыс тіліндегі жақсы аудармасын алуға да қол жеткіздік
(2.3-сурет):
291
Сурет 2.3. Сөйлем аудару.
Қорытындылай келе, машиналық аударма қазіргі кезде үлкен сұранысқа ие екені белгілі.
Қазіргі таңда жұмыс істеп тұрған қазақ тілінен орыс тіліне аударатын demo_kaz_rus
программасы сөйлемдердің құрылымын, сөздің мағынасын ескере отырып түсінікті аударма
жасауда. Еліміздегі машиналық аудармалардың сапасын арттыру мақсатында атқарылып
жатқан жобаның тиімділігі айқын.
Достарыңызбен бөлісу: |