Iv халықаралық Ғылыми-практикалық конференция еңбектері



Pdf көрінісі
бет8/40
Дата03.03.2017
өлшемі19,29 Mb.
#7046
1   ...   4   5   6   7   8   9   10   11   ...   40

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
64
 
 
 
 
Вместо  того  приблизительно  вычислить  эту  модель  вероятности,  используя 
интегральную функцию, мы разложим задачу с помощью правила Байера. 
 
 
Можно  пренебрегать  знаменателем  P(f),  так  как  он  неизменен  для  каждой  e.  Можно 
заметить,  что  последнее  уравнение  справляется  с  переводом  лучше,  чем  предыдущее 
уравнение,  рассматривая  процесс  как  две  полноценные  части.  В  первом  уравнении,  модель 
для  P(e|f) должна разъяснить был ли f переведен в e, так и степень грамотного составления 
строки  на  английском  языке  e.  В  последнем  уравнении  модель  для  P(e|f)  концентрируется 
лишь  на  вероятности,  что  e  является  переводом    f  вне  зависимости  от  того  настолько 
правильно сформирована строка на французском языке f.  
ДЕКОДЕР МОЗЕСА 
Сам  декодер1  использует  волновой  поиск  и  заранее  рассчитанный  набор  вариантов 
перевода,  для  нахождения  лучшего  перевода  для  исходного  предложения.  Варианты 
перевода  вычисляются  заранее  для  фраз  источника  таким  образом,  чтобы  избежать 
обработки всей  таблицы  фраз  для  каждой входящей  строка  в  процессе  перевода.  Варианты 
перевода хранятся вместе с их вероятностями, их конечный перевод, и первые и последние 
слова-источники, которые они охватывают. 
 В  очень  простых  словах,  алгоритм  работает  путем  создания  гипотез  перевода, 
охватывающих каждую фразу в исходном предложении. Как только гипотеза сформирована, 
она  может  быть  расширена  для  генерации  новых  гипотез,  охватывающих  больше  слов  в 
исходном  предложении,  расширяя  конечный  результат  слева  направо.  На  каждом  шаге 
вероятность частичного перевода обновляется; как только все слова исходного предложения 
обработаны, наиболее вероятная гипотеза перевода сохраняется.  
 
 
 
Рисунок 1 -  Формирование соответствия слов в переводе 
 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
65
 
 
При  формировании  гипотез,  пространство  поиска  может  вырасти  довольно  большим 
очень быстро. Примерная верхняя граница вычисляется 3 как 
2
, где 
 -  количество слов 
источника  и 
  является  размером  словаря  конечной  стороны;  мы  видим,  что  имеет  место 
экспоненциальный взрыв, соответствующий всем возможным конфигурациям слов в стороне 
источника, охваченных гипотезой.  
Однако,  декодер  имеет  некоторые  тактику  по  ограничению  этого.  Гипотеза 
рекомбинации уменьшает пространство поиска на малую степень, комбинируя эти гипотезы, 
которые согласуются в следующих условиях: уже обработанные слова источника к данному 
моменту,  последние  два  сгенерированных  целевых  слова,  и окончание последней  исходной 
охваченной фразы. В дополнение к этому, способы обрезки необходимы; декодер использует 
гистограмму и пороговую обрезку для ограничения гипотез. 
ЭКСПЕРИМЕНТЫ 
В  следующем  разделе  описаны  наши  эксперименты  с  использованием  взрощенных  и 
лемматизированных данных и суффиксов с взвешенными моделями перевода на основе фраз, 
подход  к  морфологически  осведомленным  СМП.  Во-первых,  замечание  о  терминологии:  в 
данной  работе,  мы  используем  термин  «основа»,  а  не  «лемма»  для  различия  между 
обобщенной  абстрактной  леммы  неизменной  для  всех  ее  поверхностных  рефлексов  и 
основой, которая была отрезана от строки поверхности слова после определенного момента 
для  стирания  спряженных  суффиксов,  но  это  не  было  восстановлено  до  положенной 
основной  формы  и  до  сих  пор  может  отображать  морфо-фонетические  чередование, 
например, гармония гласных. 
До сих пор большинство работ с использованием морфологии во взвешенных моделях 
зависело от той или иной формы контролируемого морфологического анализа для получения 
взвешенного представления и применялось к более синтетическим, морфологически гораздо 
менее  сложным  языкам,  нежели  к  агглютинативному  казахскому  языку.  В  общем, 
взвешенные  модели  кажутся  несколько  направленными  к  более  общей  и  ограниченной 
морфологической  информаций,  чем  к  информации,  полученной  из  неконтролируемого 
морфологического  анализа;  то  есть,  морфологически  разложенные  факторы  лучше  всего 
могут  быть  использованы  этой  моделью,  когда  представлены  в  виде  лемм  и  короткого 
вектора  значений  морфологической  категорий,  нежели  фактической  основы  и  строк 
суффиксов, обозначающих сложные комбинаций из морф.  
Тем 
не 
менее, 
уровень 
морфологической 
всеобщности, 
используемого 
в 
соответствующей 
работе 
достигается 
за 
счет 
использования 
контролируемого 
морфологического анализа, того ограничение, которого мы хотим избежать.  
 
Таблица 1. Изменение BLEU при применении модели 
Система перевода 
BLEU 
Bleu-cased 
Казахский – английский базовая 
9.1 
10.3 
Казахский – английский изм. 
10.7 
13.4 
 
Мы  по  сути  попытались  противопоставить  контролируемые  и  не  контролируемые 
методы сегментации для использования в взвешенном обучении модели, но мы обнаружили, 
что  комбинаторный  взрыв  модели  генерации,  используя  набор  последовательностей  тегов 
категорий морфем, сделал модель неспособной тренироваться.  
Как  отмечалось  сложность  задачи  декодирования  уже  экспоненциальная  в  размере 
входящих  данных;  когда  мы  расширяем  варианты  перевода  доступных  на  каждом  этапе  в 
порядке  опций  факторов  генерации,  модель  перевода  может  легко  вырасти  до 
                                                             
3
   http://www.statmt.org/moses/ 
 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
66
 
 
неуправляемых размеров . Поэтому мы ограничили экспертизу взвешенных моделей для тех 
моделей, обученных по неконтролируемых сегментации, которые позволяют манипуляции с 
набором морфем в модели генерации. 
ЗАКЛЮЧЕНИЕ 
Несмотря  на  очевидные  недостатки  связанные  со  связанностью  графа  и  скудностью 
словаря  для  достоверной  проверки  на  большом  количестве  данных,  данная  модель  нашла 
свое применение  для  казахско-английского  машинного  перевода.  Модель,  как  нам  кажется, 
является  перспективной  для  применения  в  данном  контексте,  имеет  прикладное  значение. 
Результаты экспериментов отраженные на таблице, упомянутой выше, позволяет надеятся на 
то, что работа окажет существенное влияние для дальнейших исследовании.  
ЛИТЕРАТУРА 
1. Koehn, P., Och, F.J., Marcu, D.: Statistical phrase-based translation.  Proceedings of HLT-NAACL 
2003, Association for Computational Linguistics, Edmonton, 2003, стр. 48–54 
2. Lei Cui, Dongdong Zhang, Shujie Liu, Mu Li, Ming Zhou Collective corpus weighting and phrase 
scoring  for  SMT  using  graph-based  random  walk.  Natural  Language  Processing  and  Chinese  Computing 
Communications in Computer and Information Science Volume 400, Springer, 2013, стр. 176-187 
3.  Bekbulatov  E.,  Kartbayev  A.  A  Study  of  Certain  Morphological  Structures  of  Kazakh  and  Their 
Impact on the Machine Translation Quality, AICT-2014, Astana, 2014, принят 
 
 
УДК 004.8 
 
БӨРІБАЕВА Ә.К., БАГРАМОВА М.А. 
 
ҚАЗАҚ ТІЛІНДЕГІ ТОЛЫҚ ФОНЕТИКАЛЫҚ АҚПАРАТЫ БАР СӨЗ 
ФОРМАЛАРЫ МЕН ОЛАРДЫҢ  ТРАНСКРИПЦИЯСЫНЫҢ ГЕНЕРАТОРЫ 
 
(Л.Н. Гумилев атындағы Еуразия ұлттық университеті, Астана) 
 
Бұл  мақалада  біз  толық  фонетикалық  ақпараты  бар  сөз  формалары  және  олардың 
трансрипциялары  генераторын  жасау  бойынша  зерттеу  жұмысының  негізі,  әдістемесі  және 
негізгі  нәтижелері  туралы  айтылмақ.  Қазақ  тілінде  сөйлеуді  тану  үшін    алдымен  сөздерді 
фонетикалық талдау керек, фонетикалық ақпараты  бар сөздік  сол үшін қажет. 
Толық  фонетикалық  ақпараты  бар  транскриптелген  сөздікті  құру  үшін  C#  тілінде 
қосымша программа жазылды (1-сурет). Программа кірісіне сөз формалары сөздігі жүктеліп, 
шығысында фонетикалық ақпараты бар сөздік алынады. Сөздікті *txt немесе *xls форматына 
конверттеу мүмкіндігі бар.  
 
 
 
Сурет 1 - Фонетикалық ақпараты бар сөздікті құраушы программа терезесі 
 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
67
 
 
Бұл  программаның  жұмысы  үшін  қазақ  тілінің  фонетикалық  транкрипициясының 
формалды ережелері жазылған файл және қазақ тілі дыбыстары туралы толық фонетикалық 
ақпарат жазылған файл қажет. 
Программаға  сөздікті  жүктеп,  «Convert»  батырмасын  басқан  соң  сөздіктегі    сөз 
формалары [1] жұмыстағы ережелер бойынша транскриптеледі. 
Жоғарыда  айтылған  ережлер  бойынша  транскрипциясы  жасалған  сөз  формаларының 
дыбыстарына  фонетикалық  ақпарат  меншіктеледі.Ол  үшін  біз  жоғарыда  айтып  кеткендей 
қазақ тілі дыбыстары туралы толық фонетикалық ақпарат жазылған файл қажет. 
Фонетикалық белгілер ретінде [2] жұмыстағы белгілер алынды. 
Аталған белгілер латын қаріптерімен файлға тізбектей түсірілді (2-сурет): 
- Дауысты – v (vowel); 
- Дауыссыз – c (consonant); 
- Жуан – h (hard); 
- Жіңішке – s (soft); 
- Еріндік – l (labial); 
- Езулік – p (palatal); 
- Қатаң – k; 
- Ұяң – u; 
- Үнді – y; 
- Тоғысыңқы – t; 
- Жайылыңқы – zh; 
- Жинақы – zhi; 
- Діріл – d; 
- Жанама – zha; 
- Тіл ұшы – tu; 
- Тіл ортасы – to; 
- Тілшік – ti; 
- Ызың – f (fricative); 
- Кідіріс – pa (pause). 
 
 
 
Сурет 2 - Фонетикалық белгілер сақталған файл 
 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
68
 
 
Нәтижесінде келесідей кесте құрылды (3-сурет): 
 
 
 
Сурет 3 - Транскрипцияланған және толық фонетикалық ақпараты бар сөз формаларының 
кестесі 
 
 
Жазба сөздерінің сөз формаларын транскрипциясымен және фонетикалық ақпаратымен 
тудыратын бұл генератор  қазақ тілінің сөйлеуін тану және тудыруды автоматтандыру үшін 
қажет.  
 
Қолданылған әдебиет 
1.  А.К.  Бурибаева.,  Распознавание  казахских  слов  на  основе  дифонной  базы.  Труды  І 
Международной конференции "Компьютерная обработка тюркских языков", стр. 222-230, ISBN 978 - 
601 - 7454 - 85 – 2, .– Астана, 2013. 
2.  Шәріпбай  А.Ә.,  Бөрібаева  Ә.К.,  Қазақ  тілі  дыбыстарын  фонетикалық  және  фонологиялық 
талдау. Л.Н.Гумилев атындағы ЕҰУ Хабаршысы, №6 (97), 2013., C. 75-90. 
 
 
 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
69
 
 
УДК 004 
 
ДУЙСЕНОВА М.А., БЕКМАНОВА Г.Т. 
 
ҚАЗАҚ ТІЛІНІҢ ДАУЫСТЫ ДЫБЫСТАРЫНА АКУСТИКАЛЫҚ ТАЛДАУ 
ЖАСАУ 
 
Қазақ  тілінің  қазіргі  қолданыстағы  кириль  алфабиті  42  әріптен  тұрады[1].  Оның  12 
дауысты және 26 дауыссыз дыбыстар [2]. 
Дауысты  дыбыстар  –  айтылған  кезде  дыбыстық  органдардың  тарапынан  ешқандай 
кедергіге ұшырамайды. 
Алфабитте кириллица бойынша дауысты дыбыстар келесідей белгіленеді: А, Ә, Е, И, І, 
О, Ө, У, Ұ, Ү, Ы, Э. Олардың ішінде А, О, Ұ, Ы, және Е фонемдер, ал Ә, Ө, Ү, І – А, О, Ұ, Ы 
фонемдерінің аллофоны болады. И және У дыбыстары дифтонг болады: И = Ы + Й немесе І 
+  Й;  У  =  Ұ  +  У  немесе  Ү  +  У.  Э  дыбысы  басқа  тілден  (орыс  тілі)  енген  кірме  сөздерде 
қолданылады. 
Дауысты дыбыстар жақтың, еріннің, тілдің орналасуына қарай: ашық – қысаң, еріндік – 
езулік,  жуан  –  жіңішке  болып  бөлінеді  [3].  Жуан  дауыстылар  –  тілдің  кейін  жиырылуы 
арқылы, жіңішке дауыстылар – тілдің ілгері созылуы арқылы жасалады. Ашық дауыстылар – 
тілдің  таңдайға  қарай  төмендеп  барып  көтерілуі  арқылы  жасалатын  дауыстылар,  бұл 
дыбыстарды  айтқанда  жақ  кең  ашылып,  иек  төмендейді.  Қысаң  дауыстылар  –  жақтың  кең 
ашылмай,  тілдің  таңдайға  қарай  жоғары  көтерілуі  арқылы  жасалады.  Еріндік  дауыстылар  – 
айтылуда  еріннің  алға  қарай  сүйірленуі  арқылы  жасалатын  дауысты  дыбыстар.  Езулік 
дауыстыларды айту кезінде ерін кейін тартылып, езудің жиырылуы байқалады.  
Дауысты  дыбыстардың  жасалуы  кезінде  кеуде  тұсында  қалыптасқан  ауа  ағымдары 
барлық дыбыстық тракт арқылы еркін өтеді (қалыпты жағдайда). Белгілі бір дыбыстық тракт 
конфигурациясы негізінде, сол дыбысқа тән спектрдің спецификалық формасы қалыптасады. 
Дауысты  дыбыстар  жасанды  жолмен  белгілі  бір  уақыт  аралығына  дейін  созыла  алады. 
Дауысты  фонемдер  тілдің  көтерілуі  деңгейіне,  алға  немесе  артқа  қарай  созылуына  және 
еріннің  қатысына  қарай  ажыратылады.  Бірақ  бұл  көрсеткіштер  өлшеуге  күрделі  және 
салыстырмалы болып келеді. 
Дауысты  дыбыстарға  акустикалық  талдау  жасауда  дыбыстың  формантты  құрылымын 
зерттеу  арқылы  спектрограммаға  қарап  маңызды  ақпаратты  аламыз.  Дауысты  дыбыстар 
ашық, ерекшеленген формантты құрылымға ие болады, ол спектрограммада нақты жолақтар 
түрінде көрсетіледі. Көрші тұрған дыбыстардың әсері дауысты дыбыстарға аз әсер етуі үшін, 
әрбір дауысты дыбысты екі дауыссыз дыбыстардың арасына қойып қарастырдық.  
Дауысты  дыбыстардың  белгіленуі  және  акустикалық,  артикуляциялық  қасиеттері 
бойынша классификациялануы 1 кестеде көрсетілген [2].  
Формант  дегеніміз  –  резонатор  арқылы  күшейтілген  ән  үндестігіне  жаңа  өң  беретін 
қосымша  дауыс  құбылысы  [4].    Дауыс  екпіндерінен  ерекшелігі,  формант  көмейде  емес, 
резонансты қуыста пайда болады, сондықтан ол ақырын дыбыспен сөйлегенде де сақталады. 
Формант арқылы сандық түрде бір дыбысты екінші дыбыстан ажырата аламыз. Әр адамның 
өзіне тән дауыс форманттары болады.  
Дауысты  дыбыстарға  талдау  жасағанда  спектрдағы  бірінші  (F1)  және  екінші  (F2) 
формант  мәндері  негізгі  критерилері  болып  табылады.  Осы  критерилерге  қосымша 
дыбыстың созылу ұзақтығы мен созылу ұзақтығының орташа мәні 2 кестеде берілген.  
 
 
 
 
 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
70
 
 
 
1 кесте. Қазақ тілінің дауысты дыбыстарының белгіленуі және классификациясы 
Алфабитте 
белгіленуі 
Акустикалық 
қасиеті 
Артикуляциялық қасиеті 
Еріннің 
қатысуымен 
Тілдің көлденең 
орналасуына 
қарай 
Тілдің 
тік 
орналасуына 
қарай 
к
и
ри
л
л
и
ц
а 
 н
ег
із
ін
д
е 
ф
он
ет
и
к
ал
ы
қ
 
б
ел
гі
л
ен
уі
 
ж
уа
н
 
ж
ің
іш
к
е 
ез
ул
ік
 
ері
н
д
ік
 
ті
л
 а
рт
ы
 
ті
л
 а
л
д
ы
 
аш
ы
қ
 
қ
ы
са
ң
 
А   
[ ] 

– 

– 

– 

– 
Ә   
[æ] 
– 


– 
– 


– 
О   
[о] 

– 
– 


– 

– 
Ө   
[ ] 
– 

– 

– 


– 
Ұ   
[u] 

– 
– 


– 
– 

Ү   
[ ] 
– 

– 

– 

– 

Ы   
[ ] 

– 

– 

– 
– 

І    
[ ] 
– 


– 
– 

– 

Е   
[э] 




 
2 кесте. Дауысты дыбыстардың акустикалық параметрлері 
Дауысты 
дыбыс 
F1 орташа 
мәні, Гц 
F2 орташа мәні, 
Гц 
Созылу ұзақтығы, 
мс 
Созылу ұзақтығының 
орташа мәні, мс 
А 
653 
1430 
40-195 
97 
Ә 
645 
1675 
35-194 
95 
Е 
380 
1813 
34-191 
85 
И 
320 
1905 
17-130 
55 
О 
450 
1115 
33-175 
85 
Ө 
401 
1120 
33-172 
84 
У 
385 
1175 
24-210 
65 
Ұ 
454 
1223 
13-99 
44 
Ү 
384 
1344 
17-88 
42 
Ы 
486 
1345 
21-107 
44 
І 
437 
1524 
18-105 
45 
 
Дауысты 
дыбыстарды 
айту 
барысында, 
тілдің 
орналасуын 
сипаттайтын 
артикуляциялық  қасиеттер  F1  және  F2  форманттар  арқылы  ара-қатынасты  орнатуы 
төмендегідей болады: 
- тіл неғұрлым жоғары көтерілген сайын, F1 соғұрлым төмен болады; 
- тіл неғұрлым алға қарай созылған сайын, F2 соғұрлым жоғары болады. 
Қазақ  тілінің  дауысты  дыбыстары  тілдің  төменгі  позициясынан  жоғары  позициясына 
қарай мынадай тәртіп бойынша өзгереді: [А – Ә – Ы – Ұ – О – І – Ө – У – Ү – Е - И]. [А, Ә] 
дауысты  дыбыстарының  F1  бірінші  формантының  орташа  мәні  600  Гц-тен  асқандықтан  ең 
«төменгі»  болып  саналады.  [Ы  –  Ұ  –  О  –  І  –  Ө]  дауысты  дыбыстарының  F1  бірінші 
формантының диапазоны 400-500 Гц аралығында болғандықтан, «орташа» болады.  [У – Ү – 
Е  –  И]  дауысты  дыбыстары  «жоғары»,  себебі  F1  формантының  орташа  мәні  400  Гц-тен 
аспайды. [И] дыбысының бірінші формант мәні, басқа дауысты дыбыстармен салыстырғанда 
аз байқалатындығын көруге болады. 
Дауысты  дыбыстардың  созылу  ұзақтығы  түрленбелі  болып  келеді,  себебі  айтылу 
кезінде  оларды  созуға  немесе  керісінше  қысқартып  (редукциялау)  айтуға  болады.  Дауысты 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
71
 
 
дыбыстардың  орташа  созылу  уақыты  30-80  мс  аралығында  болады,  кейбір  жағдайларда 
орташа  созылу  уақытының  мәнінен  ауытқып,  15-230  мс  аралыған  қамтуы  мүмкін. 
Жоғарыдағы 2 кестеден дауысты дыбыстардың айтылу ұзақтығы бойынша ең қысқасы [Ы, І, 
Ұ, Ү] дыбыстар екенін көруге болады. Қалыпты жағдайдан басқа кезде дауыссыз дыбыстың 
ортасында айтылған [Ұ, Ү] дыбыстарының нақты диапазонын белгілеу кейде қиынға соғады. 
Көп  жағдайда  сөздің  соңында  келген  [Ы,  І]  дыбыстары  жұтылып,  дұрыс  айтылмай  қалып 
жатады. 
Айтылу ұзақтығы 70-80 мс аралықта  болатын дауысты дыбыстардың спектрограммасы 
1 суретте көрсетілген (әйел адамдардың). 
 
 
                [А]             [Ә]               [О]                [Ө]                [Е]            [У] 
 
                               [Ұ]             [Ү]             [Ы]             [І]               [И] 
 
1 сурет. Дауысты дыбыстардың спектрограммасы 
 
Орыс  тілінен  енген  сөздерде  қолданылатын  [Э]  дыбысы  акустикалық  параметрлері 
бойынша  қазақ  тілінде  айтылатын  [Е]  дыбысына  жақын.  Бұл  дыбыстарды  бір  фонемнің 
аллофоны ретінде қарастыруға да болады. 
Қазақ  тілінің  акустикалық  дыбыстарына  талдау  жасау,  зерттеу  арқылы  төл 
алфабитімізді  қайта  қалыптастырып,  оқу  және  ғылыми  әдебиеттерде  фонетика  бөлімі 
бойынша  өзгерістер  енгізіп,  қазақ  тілінің  фонетикалық  құрылымын  қайта  қалыптастыруға 
мүмкіндік береді.  
Қолданылған әдебиеттер тізімі: 
1. Қазақ грамматикасы. Фонетика, сөзжасам, морфология, синтаксис. –Астана, 2002.  
2. Методы и алгоритмы распознавания слов казахского языка. Бекманова. Астана, 2010. 
3.  Тіл  білімі  терминдерінің  түсіндірме  сөздігі  —  Алматы.  "Сөздік-Словарь",  2005. ISBN  9965-
409-88-9 
4. http://vocalmechanika.ru. Что такое форманты? Ирина Рамзина.  
 
 
 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  IV ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 
 
 
72
 
 
ӘОК 004.9 
 
ЖЕТКЕНБАЙ Л., БЕКМАНОВА Г.Т., КАМАНУР У. 
 
ҚАЗАҚША-ТҮРІКШЕ МАШИНАЛЫҚ АУДАРУ ЖҮЙЕСІН ӘЗІРЛЕУ 
 
(Л.Н.Гумилев атындағы Еуразия ұлттық  университеті, Астана, Қазақстан 
Республикасы) 
 
Жалпы  жағдайда,  бір  тілден  екінші  тілге  аудару,  тілдің  әліпбиін,  лексикасын,  оның 
семантикасын  сақтай  отырып  өзгертуді  қажет  етеді.  Аудару  –  бұл  қажеттілігі  ешқашан 
жойылмайтын, керісінше, жыл сайын арта түсетін ақпараттық қызмет түрі. Аудару нарығын 
зерттей  келе,  бұл  қызмет  түрінің  көлемі  үнемі  артып  отыратыны  белгілі  болды,  ал 
аудармалардың  құрамында  арнайы,  аудармалар  нарығының  жалпы  көлемінің  жартысына 
дейінін  ғылыми-техникалық  аудармалар  орын  алады,  осыдан  кейін  ғана  ауызша,  оқыту, 
синхронды,  көркем  шығармашылық  тұрады.  Аудармаларды  моделдеу  мәселелері,  оларды 
компьютерлік ортада ұсыну  барысында, қолданбалы лингвистика мен жасанды интеллектте 
басты  мәселе  болып  табылады.  Әрине,  аударуды  автоматтандыру  арқылы  оның  тиімділігі 
артатыны, сондай-ақ адам арасындағы қарым-қатынасты кеңейтетіні анық.  
Машиналық  аудару  –  бұл  компьютер  арқылы  мәтіннің  бір  табиғи  тілден,  мазмұны 
бойынша эквивалентті болып келетін екінші бір табиғи тілге түрленуі[1].  
Қазіргі  таңда  бүкіл  дүние  жүзінде  дамыған  елдердің  тілдерін  машиналық  аудару 
технологиялары  қарқынды  дамуда.  Мысалы,  мәзірінде  80-ге  жуық  тілдерге  қолжетімді 
Google Translate сияқты машиналық аударудың тиімді технологиялары бар; сол сияқты, бірақ 
мүмкіншіліктері  азырақ 
Яндекс.Перевод

Translate.ru

Bing  Translator

Apertium

Babel  Fish

Dicto

ПРОМТ
,
GoldenDict

StarDict

WikiBhasha
,    SYSTRANet,  Free  Translation,  Babel  Fish, 
Worldlingo, InterTran, ImTransator,Tranlslate Online.ua, Windows Life Translator[2]. Бұл барлық 
танымал  дүниежүзілік  машиалық  аудару  саласындағы  лидерлер  қазақ  тілін  қолдамайды. 
Қазіргі  кезде  Қазақстан  Республикасы  әлемдік  қауымдастыққа  белсенді  түрде  мүше  болып 
жатыр және біздің еліміз де, біздің мәдениетіміз бен тіліміз де қарқынды дамуда. 
Бір тілден екінші тілге аударуда арнайы машиналарды қолдану туралы алғашқы идеяны 
XVII  ғасырда  атақты  математиктер,  табиғи  сынаушылар,  зерттеушілер  Готфрид  Вильгельм 
Лейбниц  мен  Рене  Декарт    ұсынды.  Жеке  ғылыми  бағыт  ретінде  ғылыми  аудару  1947 
жылдың наурызында  Рокфеллер  фондының  жаратылыстану  бөлімін  басқарушы  криптограф 
Уоррен  Уивер  Норберт  Винерге  жазған  хатында  бір  тілден  екінші  тілге  аударуды  декодтау 
технологиясының жаңа саласы ретінде қайта қарастыру туралы ойын сипаттағанда туындады 
деп  есептелінеді[3].    Соңғы  50  жылда  машиналық  аудару  қарқынды  дамыды  және 
жетілдірілді, қазіргі таңда машиналық аударушылардың көпшілігі онлайн түрде қолжетімді. 
Қазақ  тілі  түркі  тілдес  топқа  жатады  және  түрік  тілімен  ортақ  ұқсастықтары  көп.  Бұл 
жағдай бір туыстас тілден екіншісіне семантикалық аударудың машиналық технологияларын 
құруға  мүмкіндік  береді.  Осындай  аударушылар  тиімдірек  болып  табылады.  Қазақстан 
Республикасы  мен  Түркия  арасындағы  өзара  қарымқатынас  барлық  салаларында  дәстүр 
бойынша  дамуды  жалғастыруда,  сондықтан  қазақ  тілі  мен  түрік  тілі  арасындағы  және 
керісінше  тиімді  аударушыны  құру  қажеттілігі  бар.  Қазіргі  уақытта  Қазақстан 
Республикасында  қазақша-орысша,  орысша-қазақша,  қазақша-ағылшынша  және  т.б. 
аударушылар  сияқты  машиналық  аудару  технологиялары  дамуда  [4-5],  бірақ  қазақша-
түрікше және түрікше-қазақша машиналық аудару қазіргі кезде жоқ.  
Қазіргі таңда машиналық аудару жүйелерінің көптеген түрлері бар. Машиналық аудару 
жүйелерінің  қолданылуы  табиғи  тілді  формалдау  күрделілігіне  және  табиғи  тілдің  тілдік 
корпусының  бар  не  жоқ  болуына  байланысты.  Грамматикалық  ережелерге  негізделген 
жүйелер  (Rule-Based  Machine  Translation,  RBMT)  фромалдауға  жақсы  келетін  тілдерге 


Достарыңызбен бөлісу:
1   ...   4   5   6   7   8   9   10   11   ...   40




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет