Литература
1.
Heintz J. and Schonig C. Turcic Morphology as Regular Language // Central Asianic Jornal
(CFJ), 1989. -P.1-24.
2.
Suleymanov D.S. Natural possibilities of the Tatar morphology as a formal base of the NLP
// In Proceedings of the First International Workshop “Computerisation of Natural Languages”
(Varna, Sept. 3-7, 1999). –Sofia (Bulgaria): Information Services Plc, 1999. -P.113.
3.
Сулейманов Д.Ш. Естественные когнитивные механизмы в татарском языке // В Тр.
Межд.семинара Диалог-2002 “Компьютерная лингвистика и интеллектуальные технологии”
(г.Протвино, 6-11 июня 2002 г.): в 2 т. / Под ред. А.С.Нариньяни. – М.: Наука, 2002. –С. 500-
507.
4.
Suleymanov D.S. Natural cognitive mechanisms in the Tatar language // In the Collection of
the Vienna Proceedings of the Twentieth European Meeting in Cybernetics and Systems Research.
Edited by Robert Trappel. Vienna, Austria, 6-9 April, 2010. – P. 210-213.
E. ADALI
Istanbul Technical University, Computer Engineering and Informatics Faculty, Istanbul, Turkey
TURKS' EXPERIENCES WITH THE LATIN ALPHABET
A Brief History of the Alphabet
An alphabet is a set of symbols or characters that represents the sounds of a language in writing.
The purpose of an alphabet is to establish an exact, one-to-one correspondence between each sound
and its symbol. However, some languages use a diphthong (two vowels), or assign multiple
consonants for one sound.
The Phoenicians developed the first alphabet in the 18th century BC. This alphabet consisted of
just consonants. Over time, the Aramaic, the Hebrew and the Arabic alphabets were derived from
the Phoenician alphabet. In the ancient Hellenistic periods, Anatolian nations added vowels to the
Phoenician alphabet and adopted it as the Greek alphabet. The classical Latin alphabet evolved
from the Greek alphabet called the Cumaean alphabet, which was adopted and modified by the
Etruscans who ruled in the early years of Rome.
In honor of two Köktürk princes Kul Tigin and his brother Bilge Kağan, two monuments were
erected in the Orkhon Valley (now in Mongolia) in 732 and 735. The oldest Turkic alphabet, which
is called the Göktürk alphabet, was used on the Orkhon-Yenisev inscriptions in the 8th century;
however, the exact origins of the Göktürk alphabet is uncertain. The website of the Language
Committee of the Ministry of Culture and Information of the Republic of Kazakhstan lists 54
30
inscriptions from the Orkhon, 106 from the Yenisev, 15 from the Talas, and 78 from the Altai area.
Another old alphabet used by the Turks is the Uyghur alphabet.
In the 8th century, some Turkic groups started migrating away from Middle Asia in different
directions. The Oğuz Turks, who moved to Anatolia, first founded the Selçuk States, then the
Ottoman Empire in 1299 and finally the Turkish Republic in 1923. During this move, they accepted
Islam and adopted the Arabic alphabet. In 1928, Turks started using the Turkish Alphabet, which
was derived from the Latin alphabet.
The Yakut, Azeri, Uzbek and Turkmens developed their own Latin based alphabets during the
early periods of the 20th century, but they were not able to use them due to USSR oppression.
Nowadays Turkmenistan, and Azerbaijan, use the Latin alphabet but Uzbekistan still uses both the
Latin and Cyrillic alphabets.
Why Need a New Alphabet?
Today, even though most countries use the Latin alphabet, there are some who still use different
alphabets, such as the Arabic, Cyrillic, Hebrew, Greek, and Georgian alphabets. Can all nations use
the same alphabet? How can they choose which alphabet to use? Answers to these questions are as
follows:
Historical and Cultural Reasons
Nations in this group adopted or developed their alphabets a long time ago and have been using
them ever since. Over time, they modified these alphabets according to their own language needs.
These nations believe that their alphabets are the best, at least for their own languages. They also
believe that their alphabets are part of their heritage. Since they see their alphabets as trademarks of
their languages and nations, they do not want to change them even though they experience some
technical difficulties. We can put Arabic, Hebrew, Greek and Georgian alphabets in this category.
Political Constrains
In the past or even today, some nations exist as mandates of or as minorities in another nation.
Imperial states dictate an alphabet to their mandates or minority nations. In history, Arab States,
USSR, and today the Chinese government, dictate their alphabets. Therefore, some countries
located in the Middle East and North Africa still use the Arabic alphabet, while those in the former
USSR territory use the Cyrillic alphabet.
Religious Reasons
Holy books of religions are written in the alphabets of the languages used in the countries the
religions originated from. Koran is a good example of this case. Nations other than the Arabs, such
as Selçuks, Turks and Iranians who want to read the Koran decided to adopt the Arabic alphabet.
However, when they realized that the Arabic alphabet is not fully suitable for their languages, they
had to modify it and added some new letters and symbols.
Several North African nations also changed their languages and now they are speaking Arabic
even though they are not ethnically of Arab origin.
Technical reasons
In the past, not many people were literate. Books were handwritten by penmen and thus, they
were very expensive. Invention of the printing machine made it affordable for everyone to get a
book and this encouraged them to learn how to read and write.
Classical printing machines use discrete letters. The Arabic script is a longhand style and the
form of a letter varies at the beginning, in the middle and at the end of a word. Therefore, a
typographic house needs more than 700 different characters. Today, computer systems can solve
this problem easily.
In some cases, the current alphabet may not be suitable for the language of the nation. Turkish
language and the Arabic alphabet is a good example for this case. Although Turkish has 13 vowels,
the Arabic alphabet has only three vowels. On the contrary, the Arabic alphabet has many
consonants, but Turkish does not have as many.
In the second half of the 19th century, the telegraph system was used for military and
commercial purposes. The telegraph system uses the Morse alphabet, which is designed for the
31
Latin alphabet. During the First World War and the War of Liberation of Turkey, the Turkish army
and diplomats used the Latin alphabet for telegraph messages.
Nowadays, we have a similar problem in the field of information systems. Most of the
international standards, such as the character set, the Internet, the Electronic Data Interchange
(EDI), etc., are developed for the Latin alphabet.
If a Nation Changes its Alphabet, What Will it Lose?
The decision of changing the current alphabet is not an easy one. Especially in this century, it is
even more complicated. The following cases must be considered:
1.
All books, commercial documents, official papers, official records, signboards, and
nameplates have been written in the old alphabet.
2.
People know the old alphabet. When the new alphabet becomes the statutory alphabet, in a
short time, everybody becomes illiterate.
3.
In order to educate the population, many teachers will be required. Therefore, before
changing the alphabet, a sufficient number of teachers must be educated.
4.
The sound analysis of the language must be performed. Required vowels and consonants of
the language must be identified. If a known alphabet will be adopted, the letters of the alphabet
must be analyzed to check if they are sufficient to represent the sounds of the language or not.
Experiences of the Turks
Turks first used the Göktürk alphabet, then the Uyghur alphabet. Later, they started using the
Arabic alphabet in the 9th century and finally accepted the Turkish alphabet, which is based on the
Latin alphabet, in 1928.
When the Turks realized that the Arabic alphabet was not adequate for Turkish, they added some
new characters and some new signs to this alphabet. They modified the shape of the characters and
gave them artistic features.
The first printing house in the Ottoman Empire was opened in 1726. Around the 1850’s books
and newspapers were printed in the state. During this period, Turks realized the following
difficulties of the Arabic alphabet.
Arabic letters are written in running hand form. In other words, the letters are not discrete.
Each letter has three forms; 1
o
At the beginning of the word; 2
o
In the middle of the word
and 3
o
At the end of the word.
There are no capital forms of the letters. Therefore, a proper noun cannot be typed.
There are only three vowels (a, i, u) in the Arabic alphabet. Turkish basically has 8 vowels,
which are a, e, ı, i, o, ö, u, ü. In addition, Turkish has two types of “e” sounds (lips and round) and
the “a, ı, i, ü” letters also have a long form.
In the old times, a student could learn to read and write in Arabic in 4 or 5 years.
To overcome these difficulties, the following actions were taken:
Turks tried to modify the Arabic alphabet. They added the Turkish vowels (a, e, ı, o, ö and ü)
Letter “he” is used as the vowel “e”. Also, for military uses Enver Paşa developed a special
alphabet, which has discrete letters.
In the 19th century Turks used the Latin alphabet for commercial documents. Example:
Hadji Bekir (Hacı Bekir), Hussein Djahid (Hüseyin Cahit), Istamboul (İstanbul). As you can see,
they used the French spelling rules for the Turkish words.
When the Turkish Republic was five years old, in June of 1928, the president of the state,
Mustafa Kemal decided to develop the Turkish alphabet based on the Latin alphabet. After this
decision was made;
1.
Firstly, a linguistic committee was formed. This committee worked on the sound analysis of
the language and on developing the letters of the Turkish alphabet.
2.
Many teachers were educated.
32
3.
Many courses were opened throughout the country for the elderly. Roughly 2.500.000
people, of which 1.124.916 were elderly, were educated in five years. The population of Turkey in
1927 was 14.832.725. In Table-1, the number of courses, teachers and students are shown.
Table-1: Some figures about teaching new alphabet
Students of Public School for Elderly People
Years
Number
of courses
Number
of teachers
Number
of student
Number of
graduates
Rate %
1928/29
20.489
16.922
1.045.500
526.881
50,39
1929/30
12.937
11.307
544.534
245.663
45,11
1930/31
9.602
8.940
352.902
172.322
48,82
1931/32
5.915
5.437
205.349
99.491
48,44
1932/33
5.107
4.084
157.639
80.559
51,10
Total
54.050
46.690
2.305.924
1.124.916
48,78
The population of Turkey in 1927 was 14.832.725
On the first of November of 1928, the code of the Turkish alphabet was declared by the
Turkish government.
The letters of the Turkish alphabet are: a, b, c, ç, d, e, f, g, ğ, h, ı, i, j, k, l, m, n, o, ö, p, r, s, ş,
t, u, ü, v, y, z. This alphabet consists of 8 vowels (a, e, ı, i, o, ö, u and ü) and 21 consonants. Some
characters (ı ; I, ğ; Ğ, ş; Ş) are new for the Latin alphabet. In Turkish some vowels have two or
three forms. To solve this problem, some special signs such as “ ^ ” and “ ‘ ” were added. The “ ^ “
sign makes a sound softer and/or longer; the “ ‘ “ sign means stop reading. The vowels and the
consonants of Turkish are given in Table-2 and Table-3 respectively. In Table-4, the vowels and the
consonants of Turkish are shown from a different perspective.
Table-2: The Vowels of Turkish
Vowels
Unrounded
Rounded
Wide
Narr
ow
Wide
Narr
ow
Back
vowel
a
ı
O
U
Front
vowel
e
i
Ö
Ü
Table-3: The Consonants of Turkish
Consonants
Labial
labio-
dental
Dental
Plato-
alveolar
Palatal
Velar
Glottal
Voiceless
stop
Hard
P
t
Ç
k
(front)
k
(back)
Voiced stop
Soft
B
d
C
g
(front)
g
(back)
Voiceless
fricative
Hard
f
s
Ş
Voiced
fricative
Soft
v
z
J
Nasal
m
n
Liquid
l, r
33
Approximant
Y
h
Table-4: The Vowels and Consonants of Turkish
Vowels and Consonants
a
front
f
l
front
T
a
Back
g
front
l
back
U
a
Long
g
back
m
Ü
b
ğ
n
V
c
h
o
Y
ç
i
ö
Z
d
i
p
e
Open
j
r
e
Close
k
front
s
e
Long
k
back
ş
4.
The most important feature of the Turkish alphabet is that, it is a phonetic alphabet, which
means that one letter represents one sound of the language. In the Turkish alphabet, diphthongs (two
vowels) and multiple consonants are not used for one sound.
5.
In the second half of 1928, newspapers used both alphabets (Arabic and Turkish). Starting
from the first day of January 1929, newspapers and books were printed with the new alphabet. All
official documents, official records, signboards and nameplates were written with the new alphabet
in one year. This process was completed by the end of 1929.
6.
Today, children can learn to read and write with the Turkish alphabet in 4 to 6 months. In
1927, the percentage of literacy in the population was less than 20%, but today it is 95%.
7.
After changing the Arabic alphabet, Turks started working on improving the Turkish
language. In 1927, the Turkish language had many Arabic and Persian words. Statistics show that
38% of the words were Turkish and 58% were Arabic and Persian. The grammar of the language
was similar to the Arabic or the Farsi grammar. In the 1990’s the percentage of Turkish words were
increased up to 85% to 90%.
The Results of the New Alphabet
An alphabet may be changed in a short time or over a long period. Although Turks made the
switch in one year, the Uzbek are doing it in 20 years. Both methods (fast and slow) have some
advantages and disadvantages.
The Fast Method
The new generation can learn the new alphabet in regular schools.
Public schools must be opened for the elderly. A sufficient number of teachers must first be
educated before these schools can be opened.
Typewriters should be changed or modified, if they are still being used.
IT systems must be set for the new alphabet.
All signboards and nameplates have to be changed in a short time.
The Slow Method
The new generation can learn the new alphabet in regular schools.
Elderly people will not be willing to learn the new alphabet.
It will not be necessary to open public schools for the elderly.
All signboards and nameplates have to be written with both alphabets.
Recommendation for Nation Wishing to Change Their Alphabets
34
Today, the Latin alphabet has come to be regarded as the World standard. So, if a nation
decides to change its current alphabet, a Latin based alphabet would be the best choice.
A phonetic alphabet will be the best choice.
Changing the current alphabet with a new one causes some loss of heritage. To preserve the
old documents, books and records, they should be converted to the new alphabet. Today, OCR
techniques will aid in this process.
The sound analysis of the language must be done. Based on this analysis, the appropriate
letters of the alphabet should be determined.
Some additional characters may be required. If so, these should be chosen from the ISO/IEC
8859-1 table. The alphabet of relative nations will be useful when selecting the new alphabet.
The alphabet transformation should be completed as soon as possible.
References
[1] İ. Ergenç, “Konuşma Dili ve Türkçenin Söyleyiş Sözlüğü”, Multilungual Yabancı Dil
Yayınları, ISBN 975-6542-06-x, 2002
[2] M. Ş. Ülkütaşır, “Atatürk ve Harf Devrimi”, TDK yayınları : 384,ISBN 975-16-0361-7,
2000
[3] B. N. Şimşir, “Türk Yazı Devrimi”, TDK yayınları : ISBN:9751604206, 1992
С.Ж. МУСАЕВ, С. Ж.КАРАБАЕВА, А.И.ИМАНАЛИЕВА
Кыргызский государственный университет строительства, транспорта и архитектуры
им. Н.Исанова, Бишкек, Кыргызстан
ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ РАЗВИТИЯ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ В
КЫРГЫЗСТАНЕ
Сегодня важную роль в жизни современного общества играют автоматизированные
информационные технологии. Все люди должны иметь возможность пользоваться
преимуществами глобальных информационных ресурсов. В настоящее время ИНТЕРНЕТ
состоит из миллиарда страниц информации и продолжает разрастаться. Однако при этом
«всемирная паутина» представляет собой чрезвычайно демократичную среду, состоящую из
неисчислимого количества Web-сайтов, создаваемых отдельными лицами и неформальными
группами. Виртуальные сообщества людей, разбросанные по всему земному шару, но
объединенные общими интересами, обсуждают буквально все, начиная с языков,
находящихся под угрозой исчезновения, и кончая особенностями национальной культуры.
В XXI веке в мире формируется разделительная граница между странами, создающими
информационное общество, и странами, отстающими в области информатизации. Новое
разделение мира на развитые и отстающие страны - это «цифровое или информационное
разделение», показывающее уровень информатизации государств. Поэтому государственные
органы любой страны вынуждены принимать определенные меры, чтобы не попасть в
группу «информационно отсталых» стран.
До 2000 года кыргызское языкознание развивалось практически без привлечения
математических аппаратов и возможностей вычислительной техники для создания и
изучения языковых моделей.
Начиная с 1990 года, Институт теоретической и прикладной математики Национальной
академии наук Кыргызской Республики ведет работу по алгоритмизации кыргызского языка.
Разработан и реализован на компьютере единый алгоритм словоизменения в кыргызском
35
языке, составлена контрольно-обучающая программа со случайным формированием заданий,
которая используется в учебных заведениях.
В системах обработки знаний на естественном языке одной из центральных является
задача разработки лингвистических ресурсов. Лингвистические ресурсы представляют собой
базы данных, включающие концептуальную информацию в виде различных словарей,
парадигматических и формальных моделей естественного языка, а также специализированые
лингвистические процессоры обработки самой модели.
На сегодняшний день необходимый уровень решения проблем моделирования, процесса
понимания смысла текстов и проблемы синтеза речи у нас пока еще не достигнут, хотя
работы в области компьютерной лингвистики ведутся во всех развитых странах мира. Тем не
менее, можно отметить серьезные научные и практические достижения в области
компьютерной лингвистики.
В последние 10 лет существования суверенной Кыргызской Республики процесс
информатизации общества вышел на новый уровень. Каждый год число пользователей
глобальной сети ИНТЕРНЕТ увеличивается в геометрической прогрессии. Стремительно
растет сам рынок информационных технологий, что в свою очередь вызывает рост
потребности в соответствующих специалистах.
Лингвистика! Она должна повернуться лицом к новым задачам, выдвигаемым
компьютеризацией. Компьютерная лингвистика в настоящий момент находится на подъеме в
Кыргызстане. Для отечественных лингвистов недавно открылись те области приложения
знаний о языке, которые традиционны для зарубежного сообщества профессиональных
лингвистов. В Кыргызстане появляется спрос на лингвистов, работающих в области рекламы
и в сфере публичной политики и в связи с этим появилось необходимость открытия в ВУЗах
таких специальностей. С 2007 года в Кыргызском государственном университете
строительства, транспорта и архитектуры им. Н. Исанова начала свою работу новая кафедра
«Компьютерная лингвистика».
Кафедра компьютерной лингвистики Кыргызского государственного университета
строительства, транспорта и архитектуры им. Н.Исанова основана в 2007 году и является
выпускающей кафедрой, которая готовит специалистов в области компьютерной
лингвистики применительно к кыргызскому языку. Нужных и востребованных специалистов
на сегоднящний день. Так как на рынке труда специалисты по компьютерной лингвистике на
сегодняшний день очень востребованы, а программы адресной подготовки компьютерных
лингвистов необходимы.
Компьютерную лингвистику могут изучат люди с разным базовым образованием. Был бы
у них интерес к растущим сейчас в цене и популярности лингвистическим технологиям,
которые они смогут применить в уже знакомой или совсем новой для них области. Это могут
быть и лингвисты, и математики, и социологи, и даже маркетологи — никаких специальных
ограничений здесь нет.
На кафедре ведутся работы по созданию компьютерных лингвистических моделей для
кыргызского языка и готовятся лингвистические ресурсы. В частности, подготовлен
электронный словарь терминов по информационным технологиям на кыргызском языке.
При внедрении кыргызского языка в компьютерные технологии предполагается
разработка пакетов прикладных программ для автоматизации профессиональной
деятельности и для автоматизации обработки текстов на кыргызском языке, создание
кыргызско-язычного интерфейса для пользовательских систем.
Под руководством директора института новых информационных технологий Бейшенбека
Такырбашевича Укуева и корпорации Microsoft был переведен Windows-7, версия office -14
интерфейс на кыргызский язык.
Выпускники специальности «Компьютерная лингвистика» на проектировании дипломных
проектов разрабатывают новые обучающие мультимедийные программы английского и
кыргызского языков. А также студенты кафедры работают над разработкой перевода на
36
кыргызский язык сайтов Facebook, Twitter, Google и Wikipediа и улучшения качества их
работы.
В свете очерченных перспектив, диктуемых жизнью назрела необходимость и в
специальных отечественных учебных изданий, статьей и журналов по компьютерной
лингвистике.
Поток зарубежных публикаций по вопросам компьютерной лингвистики огромен.
Выходит много монографий, сборников, издаются журналы «Компьютерная лингвистика».
Ежегодно проводится не менее десятка международных научных симпозиумов по
компьютерной лингвистике, по машинному переводу, по применению компьютеров в
управлении, в гуманитарных науках, в словарном деле, в обучении и т. д.
Проблема в том, что на сегодняшний очень нужны организация ежегодных конференций,
симпозиумов и форумов по компьютерной лингвистике для обсуждения проблемы
компьютеризации тюркских народов на ряду с лингвистикой, а также издание монографий,
сборников и журналов в тюркоязычных странах. Евразийский национальный университет
имени Л.Н. Гумилёва, Министерство образования и науки Республики Казахстан совместно с
Академией наук Республики Татарстан организовали 1-ую Международную конференцию
на тему "Компьютерная обработка тюркских языков. Латинизация письменности". Для того,
чтобы компьтерная лингвистика имела активное применение и развитие было бы хорошо
организация ежегодных конференций в тюркоязычных странах и это стало бы мощным
инструментом, ведущим наши народы к научному прогрессу, который будет сближать
тюркие народы. Сегодня в тюркоязычных странах делается немало по работе компьютерной
лингвистике и современные ученые тюркского мира должны работать сообща над созданием
и использованием терминов информационных технологий. Уже второй раз был проведен
форум по теме «Стандартизация и унификация терминов информационных технологий
тюркоязычных стран», который был организован Ассоциацией информатиков Турции
господином Кораем Озером и профессором университета Хаджеттепе в Турции Шукру
Халык Акалином.
В настоящее время перед кыргызскими учеными стоят проблемы преобразовании и
компьютеризации кыргызского языка. Проблемы преобразовании кыргызского языка
заключается в стандартизации орфографии кыргызского языка. Мы сталкиваемся с
трудностями и сложностью при проведении семантического анализа текста или в машинном
переводе на компьютере. При переводе парных слов « ата мекен, бака жалбырак, кѳз
мончок, үч бурчтук и т.д.» с помощью машинного перевода компьютер переводит каждое
слово отдельно например, ата мекен – ата (отец) и мекен (родина) при морфологическом
разборе үч бурчтук – үч (числительное) и бурчтук (существительное). Для устранение этих
проблем нам приходится писать эти слова слитно при проведении семантического анализа
слова, необходимо разработать такой механизм устранения орфографических норм
кыргызского языка.
Для проведения научно-прикладных работ по созданию машинного фонда кыргызского
языка, кыргызского речевого интерфейса, функционально-структурной модели кыргызских
морфем как формальной и информационно-справочной базы при построении
лингвопроцессоров, морфологических и синтаксических анализов, генерации текста,
распознавания и синтеза речи, интерпретации смысла тестов, семантический поиск в
интернете, разработок обучающих игровых программ на кыргызском языке необходимы
немалые деньги. Эти проблемы в республике можно успешно осуществлять в рамках
Государственных программ.
В республике на сегодня практически полностью выполнен комплекс организационных и
директивных мероприятий и создана необходимая база для обеспечения функционирования
кыргызского языка в компьютерных технологиях. Под руководством д. ф-м. н., профессора
Павела Сергеевича Панкова, который работает над этой тематикой, выполняется немало
работ по компьютеризации кыргызского языка.
37
Составлен полный список аффиксов в кыргызском языке, составлен словарь терминов по
информационным технологиям на кыргызском языке.
Разработано новое понятие субъекта, как перманентно неустойчивого объекта такого, что
малые по энергии внешние воздействия (команды) вызывают у него большие по энергии
существенно различные реакции и изменения внутреннего состояния, и введено новое
понятие языка, как системы таких команд.
Введено и реализовано на компьютере определение математической модели понятий,
давшее возможность неязыкового независимого представления естественных языков.
На ряду с этими работами в 2002 году Э.Д. Асанов создал программу «Тамга-КИТ».
Внедрение, дополнение и развитие этой программы стало главным путем в компьютеризации
кыргызского языка.
Данная программа состоит из 20 компонентов, для того чтобы можно было использовать
кыргызский язык. «Тамга-КИТ» облегчает работу на кыргызском языке и эта программа дала
широкий путь в развитии политики государственного языка в информационной сфере.
Главная особенность программы «Тамга-КИТ» - это возможность проверять
грамматику (орфографию, стилистику) текстов на кыргызском языке. Стратегия программы
основано на социально-коммуникационном развитии государственного языка в
сопровождение с современными информационными технологиями.
В 2011 году был создан языковый пакет «KyrSpell 2.2 - Проверка орфографии
кыргызского языка для MS Office 97-2013» специально для кыргызского языка.
Данный комплект программ позволяет проверять на орфографические ошибки, находит
синонимы, антонимы а также родственные слова (функция тезаурус), и кроме этого
осуществлять расстановку переносов текстов на кыргызском языке в приложениях MS
Office. Проверка орфографии осуществляется стандартными средствами, что обеспечивает
проверку в любых приложениях, где существует соответствующая функция (например, в MS
Word, MS Excel, MS PowerPoint, MS Outlook, Outlook Express и др.)
Для прогресса в автоматизации обработки кыргызского языка необходимо разработать
следующее:
стандартизация орфографии кыргызского языка;
разработать и активно применять на практике корректор кыргызских текстов на
основе генеративной морфологии, помогающий пользователю обнаруживать и исправлять
ошибки в тексте, электронный русско-кыргызский словарь, словарь бытовых терминов,
англо-кыргызско-русский и русско-кыргызский словники компьютерных терминов,
электронные многоязычные словари, толковые словари и орфографические словари;
разработать и реализовать на компьютере единый алгоритм словоизменения в
кыргызском языке, создать акустическую базу данных кыргызского языка и аппаратная
реализация распознавание и синтеза речи.
Таким образом когда мы сегодня говорим о компьютерной лингвистике, нужно понимать,
что области применения лингвистических технологий стремительно расширяются. При этом
следует придерживаться правила, что язык должен идти на ряду с техникой. В современную
эпоху глобализации и формирования информационной цивилизации важно решение проблем
развития единства тюркских народов и повышения статуса национальных языков и
формирования единого информационного пространства тюркских народов.
Кыргызский и казахский языки, как и другие тюркские языки, относятся к типу
агглютативных, и имеют стройные системы правил последовательного присоединения и
написания окончаний, с малым числом исключений.
С переходом бывших тюркоязычных стран в составе СССР на латинский алфавит
необходим переход национального языка к латинской системе алфавита. И необходимо
создать общетюркский единый алгоритм словоизменения в тюркских языках.
Осуществление вышесказанных предложений способствовала бы сохранению и развитию
каждого из тюркских народов, развитию тюркской цивилизации в системе глобальной
цивилизации.
|