«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
118
Рисунок 2 – Модель ОУ
Далее после определения правильной работы усилителя, построим на его основе
колебательное звено. Модель колебательного звена показана на рисунке 3. Операционный
усилитель в данной схеме включен по инвертирующей схеме и работает на линейном
участке характеристики [4].
Рисунок 3 – Модель колебательного звена
Далее попробуем протестировать ее на наличие неисправностей с помощью адаптивной
нечеткой кластеризующей сети Кохонена [5]. Определим, что на выходе сеть выводит
четыре кластера, которые соответственно отвечают за четыре состояния системы. Первый
кластер отвечает за устойчивость системы, второй кластер за перерегулирование (>15%),
третий кластер за позднее время установления (>10 c) и наконец, четвертый кластер за
неустойчивость системы.
После адаптации сети к состояниям системы, попробуем про симулировать сеть
изменяя параметры системы. Сделаем ее устойчивой, параметры передаточной функции
колебательного звена следующие:
Тогда выход системы примет вид показанный на рисунке 4. На рисунке 4,
характеристики системы следующие: перерегулирование 4,32%, время установления 4,22 с.
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
119
Теперь попробуем про симулировать сеть с этими данными. Данные симуляции показаны на
рисунке 5.
По данным симуляции (рисунок 5) можно увидеть, что степень принадлежности
первого кластера намного выше других, то есть сеть правильно определила данные,
расположив их в кластер который отвечает за устойчивость системы. Степень
принадлежности первого кластера в данном случае 100 %.
Рисунок 4 – Устойчивый процесс
Рисунок 5 – Симуляция сети на устойчивый процесс
По данным симуляции (рисунок 5) можно увидеть, что степень принадлежности
первого кластера намного выше других, то есть сеть правильно определила данные,
расположив их в кластер который отвечает за устойчивость системы. Степень
принадлежности первого кластера в данном случае 100 %.
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
120
Вывод:
♦ Разработано ПО нечеткой кластеризации для задач технической диагностики на
примере колебательного звена, которая позволяет:
–
комплексное
математическое
и
нейросетевое
моделирование
нелинейной
динамической системы физических процессов, влияющих на появление системных отказов в
технической аппаратуре;
– предварительная обработка потока данных, их обобщение и сжатие информации на
основе нейронных сетей;
– интеллектуальный анализ данных с целью распознавания опасных условий
функционирования, причин и типа возникшей неисправности, состояния объекта
диагностирования и его соответствие оперативно-функциональному назначению;
– раннюю диагностику неисправностей, высокую степень точности предсказания
появления дефектов;
– прогнозирование рисков неисправностей и дефектов.
Литература
1.
Николаева Н.С., Сарсембаев Б.Б., Сунцов С.Б. Принцип диагностики спутниковой
аппаратуры. //Полифункциональные химические материалы и технологии: материалы всероссийской
с международным участием научной конференции: в 2 т., Томск, 21-23 Ноября 2013. – Томск: ТГУ,
2013 – Т.2 – 198-199 с.
2.
Сарсембаев Б.Б., Николаева Н.С. Программное обеспечение системы диагностики
бортовой аппаратуры. //Полифункциональные химические материалы и технологии: материалы
всероссийской с международным участием научной конференции: в 2 т., Томск, 21-23 Ноября 2013. –
Томск: ТГУ, 2013 – Т.2 – 204 – 205 с.
3.
Сарсембаев Б.Б., Сунцов С.Б. Применение нейросетевых технологий в системах
диагностики бортовой аппаратуры. //Полифункциональные химические материалы и технологии:
материалы всероссийской с международным участием научной конференции: в 2 т., Томск, 21-23
Ноября 2013. – Томск: ТГУ, 2013- Т.2 – 202-203 с.
4.
Медведев В.С., Потемкин В.Г. Нейронные сети./ MATLAB 6-М: Диалог-МИФИ, 2002-
496 с.
5.
С.Хайкин., Нейронные сети: полный курс, 2-ое издание: Пер. с англ.- М.:
Издательский дом «Вильямс», 2006.-1104 с..
УДК 004.891.3
САРСЕМБАЕВ Б.Б.
ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ «АДАПТИВНОЙ НЕЧЕТКОЙ
КЛАСТЕРИЗУЮЩЕЙ СЕТИ КОХОНЕНА»
(Казахстанско-Британский Технический Университет, г. Алматы)
Одним из важнейших задач современной диагностики являются проблемы связанные с
технической диагностикой. Разработка диагностических технологий на основе интеграции
технических знаний и различных математических методов искусственного интеллекта для
интерпретации и анализа полученных данных, является крайне актуальной задачей. При
этом, зачастую многие проблемы связаны не с дефицитом необходимой информации, а из-за
отсутствия объективных методов ее структуризации, выделения симптом-комплексов,
выявление наиболее значимых и существенных признаков той или иной причины
возникновения дефекта. Многие из выше указанных проблем можно решить с помощью
создания интеллектуально-аппаратных комплексов [1].
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
121
Задача: разработать программное обеспечение (ПО) «адаптивной нечеткой
кластеризующей сети Кохонена»
Анализируя возможность программной реализации алгоритма нечеткой кластеризации,
выбрали математическую среду MatLab. Соответственно, выбор структуры нейронной сети
будет
реализовываться
исходя
их
возможностей
самой
среды,
а
также
его
специализированного модуля по решению задач, связанных с нейронными сетями Neural
Network Toolbox.
Пакет Neural Network Toolbox содержит множество средств для проектирования,
моделирования, обучения и использования множества парадигм аппарата ИНС. Такие
средства начинаются от базовых моделей персептрона, заканчивая до самых современных
ассоциативных и самоорганизующихся сетей. Для каждого типа архитектуры и обучающего
алгоритма ИНС имеются функции инициализации, обучения, адаптации, создания и
моделирования [2].
Предположим, есть два тестовых канала, по которым поступают сигналы в нейронную
сеть. ИНС, воспринимая входной вектор как точку с двумя координатами, должна дать
заключение о состоянии объекта. Есть четыре состояния объекта:
- объект работоспособен (T1);
- в системе есть одиночный дефект (T2);
- в системе кратный дефект (T3);
- недопустимое состояние (примером может быть выход из строя всех элементов) (T4).
Соответственно, ИНС на выходе должна кластеризовать данные на четыре кластера.
Для начала формируем четыре кластера, которые отвечают за четыре состояния
диагностируемой системы.
Общее расположение кластеров в пространстве показано на рисунке 1. Далее зададим
цели четырех кластеров, т.е. какое значение будет выдавать нейронная сеть при симуляции.
После корректировки соответсвующих данных и выделение кластеров, создаем первый
слой АНКСК, то есть карту Кохонена, которая должна определять центры кластеров
(рисунок 2) и формировать результирующую матрицу принадлежностей (рисунок 3).
Рисунок 1 – Общее расположение кластеров в пространстве
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
122
Рисунок 2 – Результирующие функции принадлежностей
Рисунок 3 – Координаты центров кластеров
Нечеткое разбиение кластеров в пространстве можно увидеть на рисунке 2.
Соответственно у каждого кластера своя функция принадлежностей и результирующая
матрица принадлежностей будет формироваться из этих данных [3,4]. Рисунок 3 четко
показывает, что карта справилась с задачей определения центров кластеров, что и
требовалась от первого слоя.
После того как определили соответсвующие центры кластеров и результирующую
матрицу принадлежностей, приступим к определению степени принадлежности каждого
входного образа к своему кластеру. Данной задачей будет заниматься второй слой АНКСК, а
в качестве второго слоя будем использовать однослойный персептрон. Для начало
приготовим цели для ИНС. Цели будут исходить из матрицы принадлежностей первого слоя
сети.
Далее, после того как определились с целями, создаем однослойный персептрон, в
MatLab это делается с помощью функции newp.
Готовим сеть к адаптации, количество проходов делаем равной 2. Проходом является
каждая реализация процесса настройки персептрона.
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
123
Далее адаптируем сеть на первый кластер. Результат первой настройки не очень
удовлетворяет условиям, и соответственно продолжаем настройку до тех пор, пока ИНС не
достигнет заданной цели, то есть целевой функции.
Процесс изменения адаптации можно увидеть на рисунке 4. Как видно из рисунка,
процесс адаптации весьма не легкий, так как сеть работает с большим объемом информации
и вычислений, и соответственно сеть не сразу адаптируется.
Рисунок 4- Процесс изменения адаптации для первого кластера
Как видно из рисунков, второй слой АНКСК адаптировался к задаче определения
степени принадлежностей входных данных к соответствующему кластеру.
После того как создали нечеткую кластеризующую сеть, попробуем спрогнозировать
будущее поведение системы диагностирования [3,4]. Для этого создаем простую линейную
нейронную сеть, целью которой является рассчитать прогнозные значения на основе
входных данных. За основу прогноза возьмем 200 предыдущих точек (рисунок 5).
Рисунок 5- Прогнозные значения объекта диагностирования
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
124
Вывод:
♦ Разработано ПО нечеткой кластеризации для задач технической диагностики,
которая позволяет:
–
комплексное
математическое
и
нейросетевое
моделирование
нелинейной
динамической системы физических процессов, влияющих на появление системных отказов в
технической аппаратуре;
– предварительная обработка потока данных, их обобщение и сжатие информации на
основе нейронных сетей;
– интеллектуальный анализ данных с целью распознавания опасных условий
функционирования, причин и типа возникшей неисправности, состояния объекта
диагностирования и его соответствие оперативно-функциональному назначению;
– раннюю диагностику неисправностей, высокую степень точности предсказания
появления дефектов;
– прогнозирование рисков неисправностей и дефектов.
Литература
1.
Цыпкин Я.З. Основы теории обучающихся систем / Цыпкин Я.З.- Москва:
Наука, 1970.-252 с.
2.
Медведев В.С., Потемкин В.Г. Нейронные сети./ MATLAB 6-М: Диалог-
МИФИ, 2002-496 с.
3.
Kohonen T. Self-Organizing Maps/ Kohonen T.- Berlin: Springer-Verlag.-1995.-362
p.
С.Хайкин., Нейронные сети: полный курс, 2-ое издание: Пер. с англ.- М.: Издательский
дом «Вильямс», 2006.-1104 с.
ӘӨЖ 378.141:004.891(574)
СЕКСЕНБАЕВА А.Қ., КИНТОНОВА А.Ж., НАЗЫРОВА А.Е.
БИЗНЕС-ТӘУЕКЕЛДІКТЕРДІ САРАПТАМАЛЫҚ ТАЛДАУ
(Л.Н.Гумилев атындағы Еуразия Ұлттық универитеті, Астана қаласы, Қазақстан
Республикасы)
Соңғы он жыл ішіндегі бизнестік және коммерциялық тәуекелдік құралы белсенді
зерттеулер және экономикалық әдебиеттердегі талқылаулар болып келді. Бірақ істелінген
теориялық материалдар және алынған білімді баяндау әдістері іс-жүзіндегі сұранысты толық
қамтамасыз ете алмайды. Белгілі бір жағдайларда бұл тәуекелдік түрлерінің өзара
байланысын, сол сияқты тәуекелдік пен қорғау объектілерінің өзара байланысын,
тәуекелдіктің ішкі құрылымдық ерекшелігін әділ сипаттауға, қауіп-қатерге тән айрықша
қасиеттер жиынтығын қажетті дәрежеде айқындауға және оны тіркеуге мүмкіндік
бермейтіндігін зерттеулер жүргізетін әдістердің жетіспеушілігімен түсіндіріледі.
Бизнес қызметіндегі тәуекелдікті басқару негізінен тәуекелдікке бағалау әдістерін
қолдана отырып, қаржы менеждментінің ықтималдылығын есепке ала отырып сараптамалық
қамтама жасау үшін:
1.Сарапшылары үшін х лингвистикалық айнымалысы G деңгейінде қарастырылады.
Функцияның мәні оның нәтижелерінен тұрады.
Енгізу:
- m сарапшылар санын енгізу;
- х лингвистикалық айнымалының атын енгізу;
- j деңгейінің саны және деңгейінің атын енгізу немесе бір вариантты таңдау:
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
125
- Өте төмен;
- Төмен;
- Орташа;
- Жоғары;
- Өте жоғары;
Бұл деңгейге арналған нарық сарапшыларының бағасын енгізіңіз:
,
= 1,
;
Тексеруге арналған әдістер:
max
≤
A = min{a : i = 1, m}
= max
=
min{
}
= max {
}
Осыдан шыққан нәтиже:
1 – сурет. Лингвистикалық айнымалыны сипаттау.
2. Сарапшылар нәтижесінде µ(х) лингвистикалық айнымалысы функцияға жатады.
Енгізу:
- m эксперттер санын енгізу;
- х лингвистикалық айнымалының атын енгізу;
- n санын енгізу, деңгейінің және деңгейінің аты n=5:
- Өте төмен;
- Төмен;
- Орташа;
- Жоғары;
- Өте жоғары;
Тексеруге арналған әдістер:
{(
,
, … ,
)} = 1,
;
Тексеру:
≤
≤ ⋯ ≤
, = 1,
;
Әдіс:
= 1,
max
`
≤
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
126
= min{
} = 1, ;
= max
,
, …
,
осыған
1 < ≤
Bj=min{max (aj-1,I,….aj-1,m), min (aj,1, aj2, …ajm)}
осыған
1 ≤ <
Cj=max{max (aj-1,I,….aj-1,m), min (aj1, aj2, …ajm)}
The first expert: a[1,0], a[1,1], a[1,2]….a[1,n]
The second expert : a[2,0], a[2,1], a[2,2]…a[2,n]
The third expert: a[3,0], a[3,1], a[3,2]….a[3,n]
………………………………………………..
The m expert : a[m,0],a[m,1], a[m,2], ….a[m,n]
a1=min{a[1,0]…., a[m,0]};z
a2=max{a[1,1],….a[m,1]};
………………………………
ai=max{a[1,i-1],…a[m,i-1]}
an=max{a[1,n-1],…a[n,n-1]}
b1=min{a[1,1],….a[m,1]}
…………………………….
bi=min{a[1,i],….a[m,i]}
b(n-1)=min{a[i,n-1],……...a[m,n-1]}
bn=max{a[1,n],….a[m,n]}
Ai=(ai,0) Ci(ai,1)
Di=(bi,1) Bi(bi,0)
Ci connect Di, i=1,2,3..n
Di connect A(i+1), i=1,2,3…n-1;
Ci connect B(i-1); i=2,3…n;
2-сурет. Бұлдыр логика мысалымен сипаттау
Осы мақалада бизнес қызметіндегі тәуекелдіктерге сараптамалық талдау келтірілген.
Пайдаланылған әдебиеттер:
1. Е.В. Котельников, В.Ю. Колевато. Методы искусственного интеллекта в задачах обеспечения
безопасности компьютерных сетей // Вятский государственный университет – Статья, 2010 – 32с.
2.
Информационна
безопасность
//
Интернет
ресурс
—
URL:
http://www.razgovorodele.ru/security1/safety03/security-issues16.php
3. МакКоннелл Дж. Основы современных алгоритмов. — М.: Техносфера, 2004. —368 с.
4. Д.С. Черешкин. Экспертная система оценки рисков нарушения информационной
безопасности для систем управления информационной безопасностью// Специальная техника и
информационная безопасность 2009. — 545-269с.
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
127
УДК 519.768.4
СУНДЕТОВА А., АБЕУСТАНОВА А., ТУКЕЕВ У.
АҒЫЛШЫН-ҚАЗАҚ ТІЛДІК ЖҰБЫ ҮШІН APERTIUM
ПЛАТФОРМАСЫНДАҒЫ СӨЙЛЕМДІ СИНТАКСИСТІК ҚҰРЫЛЫМДЫҚ
ТҮРЛЕНДІРУ ЕРЕЖЕЛЕРІ ЖӘНЕ МӘСЕЛЕЛЕРІ
(Әл-Фараби атындағы Қазақ Ұлттық Университеті, Алматы, Қазақстан)
1. Кіріспе
Қазіргі заманда тектес емес бір тілден екінші тілге дәл және тез автоматты аударманы
құру - ең басты мәселелердің бірі. Әсіресе, Қазақ тілі сияқты түркі тілден, халықаралық
тілдің бірі – Ағылшын тіліне машиналық аударма - басқа түркі тілдері үшін маңызы өте зор.
Ағылшыннан қазақ тілі секілді түркі тілдерге табиғи мәтінді аударуда бірнеше
қиындықтар туады. Түркі тілдерінің күрделі агглюнативті морфологиясы ағылшын тілімен
салыстырғанда өзгеше, алайда аударуды сөзбе-сөз іске асыруға болады.
Ағылшын мен түркі тілдерінің арасында синтаксистік жағынан айырмашылығы да бар,
мысалы сөйлем мүшелерінің орнында: бастауыш-толықтауыш-пысықтауыш-баяндауыш
(ағылшын тілінде: бастауыш-баяндауыш-толықтауыш-пысықтауыш); шылаулар мен көмекші
сөздерді қолдану(қазақ тілінде жалғаулар, жұрнақтар); модальді етістіктер, ағылшын
тілінде(must,have to, should) қазақ тілінде «керек,жөн» сын есімдермен қосымша
сипатталады; жалғаулық сөздер: the book which I read, қазақ тілінде жалғаулықсыз
аударылады, етістік -ған/ген/қан/кен жұрнағы қосылуы арқылы сын есімге айналады: мен
оқыған кітап. Have етістігі ағылшыннан қазақшаға «бар» және бастауышты жатыс септігінде
жазылады: I have a dream – МенДЕ арман бар [1].
Аталған мәселелерді ескере отырып, Ағылшын-Қазақ машиналық аудармасын ережеге
негізделген Апертиум ашық кодты/тегін платформада құрастырып жатырмыз(Forcada et al.
2011,
http://www.apertium.org)[2
]
Апертиум бұл – тегін/ашық кодты ережелерге негізделген машиналық аударма(МА)
платформасы 2005 жылы Аликанте Университетінде іске қосылды. Ол өзіндік машиналық
аударма жүйелерін құруға мүмкіндік беретін құралдардан тұрады.
Бұл мақалада Апертиум платформасында Ағылшын-Қазақ машиналық аударма
жүйесінде сөйлем фразаларын синтаксистік деңгейде өндейтін құрылымдық түрлендіру
модулінің ережелері сипатталынады.
2. Apertium платформасындағы құрылымдық түрлендірудің «interchunk»
ережелері
Апертиум платформасындағы құрылымдық түрлендіру модулі берілген тілдің
лексикалық формасын мақсат тілдің лексикалық формасына өңдейді және оны мақсат тілдің
лексикалық
формасын
сәйкес
тізбектілікпен
бірнеше
құрылымдық
трансфер
операцияларынан кейін түрлендіреді[3]. Ағылшын-қазақ құрылымдық түрлендіру модулі
«chunker» ережелерінен (apertium-eng-kaz.eng-kaz.t1x файлы), «interchunk»(интерчанк)
ережелерінен (apertium-eng-kaz.eng-kaz.t2x файлы), және «postchunk cleanup» тазалау
ережелерінен (apertium-eng-kaz.eng-kaz.t4x файлы) тұрады. Синтаксистік операциялар: орын
алмастыру, септікті тағайындау модульдің «interchunk» деңгейінде шешіледі.
Интерчанк деңгейінің ережелері алдыңғы деңгейден(чанкер) алынған: зат есімдік
немесе бастауыштық (NP), етістіктік (VP), сын есімдік (AdjP), модальді етістіктік
(VP_must,VP_should, т.с.с.), пысықтауыштық (PP), сұраулы сөйлемдік (VP_ques, Q_m)
фразалардың реті немесе орны бойынша келетін әр түрлі құрылымдарды, мысалы, бастауыш-
толықтауыш-баяндауыш немесе бастауыш-анықтауыш-толықтауыш-баяндауыш сияқты
сөйлемдерді өндеп, келесі операцияларды орындайды:
- Интерчанк үндестігі(мысалы, түр мен жақтың бастауыш пен баяндауыш арасындағы
сәйкестігі): You played – Сіз ойнадыңыз.
- Зат есімді тіркестер үшін септікті анықтау(чанкте септік анықталмаған):
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
128
a. табыс септік, толықтауыш үшін: I see the sky → Мен аспанды көремін;
b. ілік септігі модальді етістіктер үшін: You must go → Сізің баруыңыз керек;
c. барыс септігі need етістігі үшін: I need a book →Маған кітап керек;
d. жатыс септігі have үшін: I have a book → Менде кітап бар,т.с.с.
- Орын алмастыру:
a. толықтауышты баяндауыштың алдында орналастыру: I[1] can play[2] a football[3] →
Мен[1] футбол[3] ойнай аламын[2]),
b. пысықтауышты, Ағылшын тілінде «кейінгі орынды тіркес» баяндауыш алдына қою:
They[1] were[2] from Kazakhstan [3] → Олар[1] Қазақстаннан [3] болды [2]), т.б.
Қарапайым орын алмастырудан бастап, интерчанк деңгейінде күрделі сөйлемдерді
өндеу жұмысы орындалады. Мысалы, қатынастық есімдіктер: which, that бар күрделі
сөйлемдерді аудару. «The book which you read» - чанкер деңгейінен кейін келесі түрде
болады: кітап ол Сіз оқыдыңыз. Интерчанк деңгейінде осындай түрге
сәйкес келетін паттерндік ереже болады: , ал
паттерндердің тізбегі:
,
,
,
. Ереженің бөліміне керекті сөздер дұрыс ретте жазылады, және
кейбір қажетті атрибуттар, мысалы, септік, жақ, т.с.с. осы бөлімде таңдалады: баяндауыш
үшін - бірінші орындағы, яғни бастауыштың, қай түрде екені
(көпше немесе жекеше) анықталады, - «кітапТЫ» толықтауышына табыс
септік қосылады, бірақ осы ережеде ол қажет емес. Сонда өнделген сөйлемнің құрылымы: сіз
оқыған кітап, «which» есімдігі алынбайды.
Осы ереженің жұмысы «The book which you read» 1 суретте көрсетілген.
Сурет 1 - Сөйлемнің интерчанк деңгейіндегі ережелердің сәйкестігі
Хабарлы сөйлемдегі орын алмастырулармен қатар, Қазақ тілінде сұраулы сөйлемде
сұраулық демеуліктерді генерациялау жұмысы іске асырылады. Сұраулық демеуліктер тек
Ағылшын тіліндегі қарапайым сұраулы сөйлемдерде, яғни көмекші етістіктерден: «Do you
play?», «Have you played?», т.с.с. басталатын сөйлемдерде құралады.
Сұраулы сөйлемдерді аудару үшін, алдымен сөйлемнің түрі «?» сұрау белгісі бойынша
анықталады. Сондықтан сұраулық демеуліктер «ма/ме/ба/бе/па/пе» шығарылады, егер сұрақ
«?» белгісі чанк деңгейінде түрде анықталса: Did you watch last
film ?, онда ережеде сұраулық демеуліктер құрастырылады: Сіз соңғы
фильмді көрдіңіз ма ?. Бұл жерде «бе» болатын демеулік
үндеместік бойынша «ма» деп жазылады, алайда баяндауышпен дыбыс үндестігі «тазалау»
деңгейінде орындалады.
Арнайы сұрақтар көрсетілген құрылымда сияқты аударылады, тек қана сұраулық
демеуліктер құрастырылмайды. Қазіргі кезде Ағылшын-Қазақ машиналық аударма
жүйесінде сұраулы сөйлемдердің жай және «Wh...» басталатын арнайы сұрақтары
Present/Past simple, Present/Past Perfect шақтарында аударылады.
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
129
3. Қорытынды
Осы жүйе негізгі ерекшеліктерді ғана қамтиды. Болашақта жоспарда келесі мәселелерді
шешу көзделген:
Сөйлемнің барлық құрылымдарын ережелермен қамту;
Сөйлемдерді құрылымдық түрлендірудің ережелерін автоматты құрастыру арқылы
аударманы жақсарту;
Сөздік қорды үлкейту.
Қазіргі таңда интерчанк деңгейі үшін 90-ға жуық ережелер жазылған.
Ағылшын – Қазақ аудармашысын бағалау үшін сынақтар жинағы – Regression tests
қолданылады[4]. Әр сынақ жазылған ереженің дұрыстығын тексереді, және аудармаға сай
келетін сөйлем мен тіркестердің санын қайтарады. Келесі 2 суретте прототиптің кейбір
күрделі сөйлемдерді аудару мысалы келтірілген.
Сурет 2 - Сөйлемнің интерчанк деңгейіндегі ережелердің сәйкестігі
Пайдаланылған әдебиеттер тізімі
1. Печерских, Т. Ф., Амангельдина, Г. А. (2012) “Особенности перевода разносистемных
языков (на примере английского и казахского языков)”, Молодой ученый. №3, 259–261
[
http://www.moluch.ru/archive/38/4406/
]
2. Forcada, M.L., Ginestí-Rosell, M., Nordfalk, J., O'Regan, J., Ortiz-Rojas, S., Pérez-Ortiz, J.A.
Sánchez-Martínez, F., Ramírez-Sánchez, G., Tyers, F.M. 2011. “Apertium: a free/open-source platform for
rule-based machine translation”. Machine Translation 25(2)127-144.
3. Sundetova A., M.L. Forcada, A. Shormakova, A.Aitkulova, STRUCTURAL TRANSFER RULES
FOR ENGLISH-TO-KAZAKH MACHINE TRANSLATION IN THE FREE/OPEN-SOURCE PLATFORM
APERTIUM. КОМПЬЮТЕРНАЯ ОБРАБОТКА ТЮРКСКИХ ЯЗЫКОВ. Первая международная
конференция: Труды. – Астана: ЕНУ им. Л.Н. Гумилева, 2013. – С. 317-326.
4. Regression tests. – URL: http://wiki.apertium.org/wiki/English_and_Kazakh/Regression_tests
(13.11.2014)
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
130
УДК 519.768.4
ТУКЕЕВ У. А.
РАЗРАБОТКА ТЕХНОЛОГИИ МАШИННОГО ПЕРЕВОДА НА ОСНОВЕ
МЕТОДА МНОГОЗНАЧНЫХ ОТОБРАЖЕНИЙ ДЛЯ МОРФОЛОГИЧЕСКИ
СЛОЖНЫХ ЯЗЫКОВ
(Әл-Фараби атындағы Қазақ Ұлттық Университеті, Алматы, Қазақстан)
В данной работе, в русле разработки эффективных технологий машинного перевода
одного естественного языка на другой, предлагается использование аппарата теории
многозначных отображений [1]. Теория многозначных отображений получила активное
развитие в последние 30 лет, особенно по теории игр, теории экстремальных задач,
математической экономике [2]. В области машинного перевода имеются примеры
использования метода отображений в машинном переводе [3,4], однако это были не
многозначные отображения. Предлагаемый аппарат многозначных отображений машинного
перевода можно отнести к аппарату конечных преобразователей(Finite-State Transducers-
FST) c многозначной функцией преобразования[5]. В этой области имеется значительное
количество публикаций, в основном рассматриваемых детерминированные конечные
преобразователи[6-9]. В данной работе предлагается использование недетерминированных
конечных преобразователей с многозначной выходной функцией (многозначным
отображением).
Использование метода многозначных отображений для процесса машинного перевода с
одного естественного языка на другой позволяет повысить эффективность алгоритмов
машинного перевода в связи с тем, что табличное представление многозначных отображений
позволяет существенно повысить скорость алгоритмов машинного перевода, явно
представить проблемы многозначностей на различных этапах машинного перевода, решать
их путем создания преобразований многозначных отображений в однозначные отображения.
При использовании аппарата многозначных отображений для процесса машинного
перевода одного естественного языка на другой мы предлагаем сделать следующее
допущение. Предлагается представлять каждое слово естественного языка в виде
последовательности «основы» и «окончания»:
СЛОВО = ОСНОВА + ОКОНЧАНИЕ.
Данное допущение основано на работе основателя компьютерной лингвистики в
Казахстане профессора К. Бектаева[10], в которой определены 753 окончаний казахского
языка. При этом предположении для компьютерного представления процесса машинного
перевода предлагается создание табличного представления отображения основ слов одного
естественного языка в основы слов другого естественного языка в виде словарной таблицы
отображения. А окончания одного естественного языка(исходного) отображаются сначала в
систему грамматических характеристик, которые затем отображаются в окончания другого
естественного языка(целевого). Эти отображения позволяют получить для каждого слова
исходного языка соотвествующие основу и окончание целевого языка. Соединение основы и
окончания целевого естественного языка формирует нужное выходное слово. Далее соединяя
слова в последовательности производится формирование фраз и предложения целевого
естестенного языка. На этом этапе также необходима система отображений фразовых
структур исходного языка в целевой язык. Далее, на уровне формирования структуры
предложения целевого языка необходима система отображений структур предложений
исходного языка в целевой язык. Так как на каждом этапе машинного перевода
используются многозначные отображения, то является естественным необходимость
получения однозначного решения, что возможно достигать путем создания и использования
системы преобразования многозначных отображений в однозначные отображения.
Формально, многозначное отображение определяется следующим образом.
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
131
Пусть X, Y – дискретные пространства, P(Y) – совокупность всех подмножеств
множества Y. Тогда, многозначное отображение F из X в Y – это соответствие,
сопоставляющее каждой точке x X непустое подмножество F(x)
Y, называемое образом
точки x, т.е. F: X
→ P(Y). Будем называть это отображение м-отображением (из X в Y).
Множество ГF подмножество X × Y, ГF = {
( , ) |
,
( ) }, называется
графиком м-отображения F. График м-отображения F является табличной формой
представления м-отображения F, что весьма важно и удобно для компьютерного
представления многозначных отображений.
Преобразование многозначного отображения в однозначное отображение.
Для этого введем к X множеству дополнительное множество параметров T:
F: X × T → Y,
(1.1)
Тогда многозначное отображение F можно будет преобразовать в ряд однозначных
отображений
{fi: X→Y}, fi(x) F(x).
(1.2)
Для процесса машинного перевода исходного естественного языка в целевой
естественный язык с учетом выше сделанных предположений схема системы многозначных
отображений для этапов морфологического анализа и синтеза будет иметь следующий вид:
Fim:
Xik
→ Yik ,
Fjm:
Yjk
→ ZJk ,
(1.3)
при условии, что Yik и Yjk должны быть равны или Yik
Yjk,
Xik – пространство окончаний исходного естественного языка Яi для k-той части речи,
является входным пространством многозначного отображения Fim;
Yik – пространство грамматических характеристик для k-той части речи исходного
языка, является выходным пространством для многозначного отображения Fim ;
Yjk – пространство грамматических характеристик для k-той части речи целевого
языка, является входным пространством для многозначного отображения Fjm;
ZJk – пространство окончаний целевого естественного языка Яj для k-той части речи,
является выходным пространством для многозначного отображения Fjm ;
Fim – многозначное отображение пространства окончаний k-той части речи исходного
языка в пространство грамматических характеристик k-той части речи исходного языка;
Fjm - многозначное отображение пространство грамматических характеристик k-той
части речи целевого языка в пространство окончаний k-той части речи целевого языка.
Таблицы м-отображений разработаны для казахско-русского, русско-казахского,
казахско-английского и англо-казахского машинного перевода[11].
Рассмотрим этапы технологии машинного перевода с использованием предлагаемого
метода многозначных отображений для морфологически сложных языков. На первом этапе
для каждого слова предложения производится разделение основы и окончания с
использованием
алгоритма
стемминга,
основанного
на
предлагаемых
таблицах
многозначных отображений исходного языка. Затем на основании таблиц многозначных
отображений
строятся
варианты
грамматических
характеристик
слов
исходного
предложения.
Далее
определяются
части
речи
каждого
слова.
Производится
чанкинг(сегментный анализ) структуры исходного предложения. Производится перевод
основ слов с исходного языка на целевой язык и формируется контекст-вектор многозначных
слов, на основе которых производится разрешение многозначности слов. Многозначность
грамматических характристик решается путем сравнения грамматических характристик
соседних слов в исходном предложении и выбираются совпадающие грамматические
характеристики. Здесь надо отметить преимущество предлагаемого метода, который не
требует явного описания соглашений на совпадения грамматических характеристик
соседних слов в предложений, как это делается в существующих методах. Преимуществом
предлагаемого в данной работе метода многозначных отображений является также
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
132
автоматическая
генерация
возможных
вариантов
многозначности
грамматических
характеристик, в то время как в существующих технологиях возможные варианты
прописываются в ручную. На следующем этапе производится морфогенерация слов целевого
языка на основе однозначно опреленных основ и грамматических характеристик. Далее
производится преобразование фразовых структур предложения на целевом языке.
Следующим шагом производится преобразование синтаксической структуры предложения
целевого языка.
Преимуществом предлагаемой технологии машинного перевода для морфологически
сложных языков является возможность автоматической генерации возможных вариантов
многозначных решений в процессе перевода для их последующего преобразования в
однозначные решения для целевого языка.
На основе предлагаемой технологии, основанной на табличных многозначных
отображениях, разработаны модели, алгоритмы и программы машинного перевода с
казахского на русский и английский языки и обратно.
Литература
1. Введение в теорию многозначных отображений. Составитель Гельман Б.Д., Воронеж, 2003.
2. Tomasz Kaczynski, Multivalued Maps As a Tool in Modeling and Rigorous Numerics.
Departement de mathematiques,Universite de Sherbrooke, 2008.
3. Teruko Mitamura, Eric H. Nyberg, Hierarchical lexical structure and interpretive mapping in
machine translation, Proceedings of International Conference COLING- 1992 Nantes, 1254-1258 pp.
4. Dilek Zeynep Hakkani, Gokhan Tur, Kemal Oflazer, Teruko Mitamura, and Eric H. Nyberg, An
English-to-Turkish Interlingual MT System, Proceedings of International Conference AMTA-1998, pp. 83-
94.
5. Jurafsky D., Martin J. Speech and language processing: an introduction to naturel language
processing, computational linguistics, and speech recognition. Pearson, Prentice hall.2009, 988p.
6. Koskenniemi K. 1983. Two-level morphology: A general computational model of word-form
recognition and production. Tech. rep. Publication No. 11. Department of General Linguistics. University of
Helsinki.
7. Mohri M. 1997. Finite-state transducers in languages and speech processing. Computational
Linguistics. 23(2), 269-312.
8. Oflazer, K. 1994. Two-level description of Turkish morphology, Literary and Linguistic
Computing, Literary and Linguistic Computing Volume9, Issue2 pp. 137-148.
9. Washington J. N., Salimzyanov I., Tyers F.M. 2014. Finite-state morphological transducers for
three Kypchak languages. Proceedings of the 9th Conference on Language Resources and Evaluation, LREC
2014.
10. Бектаев Калдыбай Большой казахско-русский, русско-казахский словарь. Приложения.
Алматы: «Алтын Казына», 1999.-704 стр.
11. Тукеев У.А., Рахимова Д.Р., Байсылбаева К., Умирбеков Н., Оразов Б., Абақан М.,
Кызырканова С. Көпмағыналық бейнелеу кесте тәсілі негізінде орыс тілінен қазақ тіліне машиналық
аудармасының морфологиялық анализ бен синтезін құру. Түркі тілдерін компьютерлік өңдеу. Бірінші
халықаралық конференция: Еңбектері/ Астана: Л.Н.Гумилев атындағы ЕҰУ баспасы, 2013, 182-191.
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
133
УДК 004.52
ХУСАИНОВ А. Ф., СУЛЕЙМАНОВ Д. Ш.
ПРОГРАММНЫЙ КОМПЛЕКС ВЫЯВЛЕНИЯ И РАСПОЗНАВАНИЯ РЕЧЕВЫХ
ФРАГМЕНТОВ НА ТАТАРСКОМ ЯЗЫКЕ
(«Научно-исследовательский институт «Прикладная семиотика»
Академии наук Республики Татарстан»
Казанский (Приволжский) федеральный университет, Казань, Россия)
В работе описывается процесс создания комплекса программных средств,
включающего в себя две основные системы: систему идентификации языка говорящего и
систему распознавания слитной татарской речи. Основная задача, решаемая в данной работе
– выявить среди речевых фрагментов на татарском, русском и английском языках те, в
которых используется татарский язык, и произвести распознавание произнесенной фразы.
Предлагаемая система показала 88%-ное качество идентификации языка говорящего при
75%-ой точности распознавания татарских фраз из тестового корпуса.
Введение
Системы автоматического распознавания речи находят всё большее применение в
современных информационных системах: мобильных приложениях, поисковых системах,
колл-центрах. Однако в большинстве случаев в качестве исходной информации выступает
совокупность речевых фрагментов, произнесённых на разных языках, что требует внедрения
дополнительного уровня анализа речевого сигнала.
В контексте разработки систем анализа татарской речи была поставлена задача
предварительной идентификации трёх языков: английского, русского и татарского, с
последующим распознаванием фраз на татарском языке. Для решения поставленной задачи
были созданы необходимые текстовые и речевые корпусы, разработаны алгоритмы,
применение которых было оптимизировано с точки зрения использования как в рамках
работы системы идентификации языка, так и при распознавании слитной речи. Схематично
процесс работы комплекса представлен на рисунке 1.
Рисунок 1 – Схема работы комплекса выявления и распознавания речевых фрагментов на
татарском языке
1. Система идентификации языка диктора
Первым этапом работы комплекса является решение задачи определения языка
диктора. Процесс работы системы идентификации языка может быть разбит на два основных
этапа: этап обучения и этап идентификации. На первом этапе система собирает и обобщает
информацию об особенностях каждого из поддерживаемых языков для дальнейшего
использования этой информации на этапе идентификации. Для обучения используются
корпусы звучащей речи всех языков, которые обрабатываются системами распознавания
фонем. Полученные последовательности фонем затем анализируются, и на их основе
происходит построение статистических n-граммных моделей языков.
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
134
Общая схема работы системы представляет собой реализацию подхода PPRLM (Parallel
Phone Recognition followed by Language Modeling), в котором три языка (английский,
татарский, русский) идентифицируются на основе информации от английского и татарского
анализаторов. Структура предложенной системы представлена на рисунке 2.
Рисунок 2 – Структура работы системы идентификации языка
Для реализации системы идентификации языка согласно описанной выше схеме
необходимо наличие модулей распознавания английских и татарских фонем. Для построения
модуля распознавания английских фонем использовался речевой корпус TIMIT, который
содержит информацию об экспертной фонетической разметке. Для татарского языка, в свою
очередь, был записан речевой корпус, создана система фонемного транскрибирования
текстов, учитывающая правила изменений звуков в татарском языке, а также применена
технология автоматической разметки фонем.
Таким образом, исходной информацией для обучения системы идентификации
послужили три речевых корпуса: TIMIT – для английского языка, VoxForge – для русского
языка, и татарский речевой корпус.
Подготовка языковых моделей осуществляется следующим образом: файлы речевых
корпусов подаются на вход систем распознавания фонем английского и татарского языков. В
результате каждому языку ставится в соответствие последовательность распознанных фонем
данных языков. На основе данных последовательностей для каждого из языков строится по
две статистические n-граммные модели – вычисляются вероятности появления всех троек
фонем.
С учетом того, что на основе ограниченного по размеру корпуса теоретически
невозможным является построение полной модели 3-грамм, будут существовать тройки
звуков, не представленных в обучающей корпусе, которым будет соответствовать нулевая
вероятность произнесения. Для преодоления данного недостатка был использован метод
сглаживания вероятностей Катца: вероятности не представленных в корпусе троек звуков
вычисляются с помощью вероятностей пар звуков с учетом специально рассчитанного
коэффициента.
Полученные статистические модели описывают закономерности следования звуков в
данных языках и служат исходными данными в процессе определения языка говорящего.
Результаты тестирования работы системы идентификации языка представлены в таблице 1.
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
135
Таблица 1 – Результаты тестирования работы системы идентификации языка
Язык
Показатель
Английский
язык
Русский язык
Татарский
язык
Качество идентификации языка диктора
94%
97%
74%
88,3%
2. Система распознавания татарской речи
2.1. Звуковой корпус
В качестве исходного материала при создании моделей фонем языка использовался
созданный на предыдущем этапе корпус звучащей татарской речи. Корпус был поделен на
две части: обучающую и тестовую. Основные характеристики корпуса представлены в
таблице 2.
Таблица 2 – Характеристики корпуса татарской речи
Параметр
Весь корпус
Обучающая часть
Тестовая часть
Количество файлов
8638
8125
513
Продолжительность записей
8:14:24
7:48:12
26:12
Количество дикторов
251
236
15
2.2. Распознавание татарской речи
Для проведения экспериментов по распознаванию речи была использована тестовая
Достарыңызбен бөлісу: |