Атты І халықаралық конференция ЕҢбектері



Pdf көрінісі
бет113/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   109   110   111   112   113   114   115   116   ...   326
 
 
А.А. ШАРИПБАЙ, А.С. ОМАРБЕКОВА  
 
 
Евразийский национальный универсистет имени Л.Н.Гумилева, Астана, Казахстан 
 
 
КОНВЕРТАЦИЯ ТЕКСТА НА КАЗАХСКОМ ЯЗЫКЕ С КИРИЛЛИЦЫ НА 
ЛАТИНИЦУ 
 
В 
научно-исследовательском 
институте 
«Искусственный 
интеллект» 
ведутся 
исследования по переходу казахского языка с кириллицы на латиницу.  
1  Предложен  проект  алфавита  казахского  языка  на  основе  латиницы  и  разработан 
алгоритм перевода казахской письменности с кириллицы на латиницу.   
Сначала предлагаются следующие  критерий определения нового алфавита: 
1) 
новый алфавит должен создаваться только на основе звуковой системы казахского 
языка. 
2) 
новый  алфавит  должен  создаваться  на  основе  научного  анализа  частоты 
встречаемости букв действующего алфавита в казахском тексте. 


116 
 
3) 
новый  алфавит  должен  использовать  только  буквы  из  классического  латинского 
алфавита, имеющиеся в стандартной клавиатуре. 
4) 
адаптация  латинского  алфавита  казахскому  языку  производится  путем  изменения 
значений некоторых букв казахскими звуками. 
5) 
в  новом  алфавите  порядок  следования  букв  должен  совпадать  с  порядком  их 
следования в классическом латинском алфавите 
Затем  предлагается  новый  казахский  алфавит,  который  основывается  на  классическом 
латинском  алфавите.  Для  его  определения  с  помощью  компьютера  исследованы  звуковая 
система казахского языка и частота букв и буквосочетаний в текстовом корпусе, состоящего 
из 100 миллионов букв используемого в настоящее время кириллического алфавита.      
Для автоматизации перевода казахской письменности с кириллицы на латиницу построен 
алгоритм конвертации в казахских текстах кириллических букв на латинские буквы.  
Конвертация будет проходить в два этапа: на первом этапе исходный текст на кириллице 
преобразуется в промежуточный текст тоже на кириллице, где осбождаются от всех букв (ё, 
э, и, ю, яц, ч, щ,  ь, ъ), которые обозначают  не исконно казахские звуки;  на втором этапе 
промежуточный  текст  на  кириллице  преобразуется  в  результирующий  текст  на  латинице  в 
соответствии с алфавитом. 


Достарыңызбен бөлісу:
1   ...   109   110   111   112   113   114   115   116   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет