Атты І халықаралық конференция ЕҢбектері



Pdf көрінісі
бет19/39
Дата25.12.2016
өлшемі8,57 Mb.
#403
1   ...   15   16   17   18   19   20   21   22   ...   39

Заключение 
Данная статья посвящена вопросам формирования новых понятий и терминов в татарском 
языке  и  задаче  построения  терминологической  системы  в  одной  из  наиболее  быстро 
развивающихся 
научно-прикладных 
областей 
– 
области 
информатики 
и 
инфокоммуникационных  технологий.  Очевидно,  чтобы  вновь  созданные  термины  стали 
неотъемлемой  частью  языка,  обогатили  язык и  расширили  горизонты  его  применения,  еще 
недостаточно порождать на татарском языке новые понятия и термины, а необходимо, чтобы 
эти термины и понятия прошли, по крайней мере, три этапа. Во-первых, татарские термины 
должны  активно  применяться  в  науке,  культуре,  и  в  средствах  массовой  информации.  Во-
вторых,  татарские  термины  должны  использоваться  в  процессе  получения  и  оформления 
новых  научных  результатов,  которые  будут  интересны  всему  научному  сообществу.  В-
третьих,  татарские  термины  должны  использоваться  на  других  языках  в  научных 
публикациях зарубежных авторов. 
 
Литература 
1.
 
Heintz J. and Schonig C. Turcic Morphology as Regular Language // Central Asianic Jornal 
(CFJ), 1989. -P.1-24. 
2.
 
Suleymanov D.S. Natural cognitive mechanisms in the Tatar language // In the Collection of 
the Vienna Proceedings of the Twentieth European Meeting in Cybernetics and Systems Research. 
Edited by Robert Trappel. Vienna, Austria, 6-9 April, 2010. – P. 210-213.  
3.
 
Правила  создания,  совершенствования  и  использования  татарских  терминов  (Татар 
терминнарын  ясау,  камилләштерү  һәм  куллану  кагыйдәләре)  //  Составители:  Закиев  М.З., 
Низамов И.М. – Казан, 1995. – 13 с. 
4.
 
Татарская грамматика. Т.2. Морфология. – Казань: Тат. кн. изд-во, 1993. – 397 с. 
5.
 
Сулейманов  Д.Ш.,  Галимянов  А.Ф.,  Валиев  М.Х.  Термины  по  информатике  и 
информационным  технологиям:  англо-татарско-русский  толковый  словарь  (Сөләйманов 
Җ.Ш.,  Галимҗанов  Ә.Ф.,  Вәлиев  М.Х.  Информатика  һәм  мәгълүмат  технологияләре 
терминнары: инглизчә-татарча-русча аңлатмалы сүзлек). – Казань: Магариф, 2006. -383 с. 
 
 
А.К.ХИКМЕТОВ, О.Л.КАРУНА, К.К.КАРЖАУБАЕВ  
 
 
Казахский Национальный Университет имени аль-Фараби, Алматы, Казахстан 
 
 
АДАПТАЦИЯ LINUX-СИСТЕМ ДЛЯ ИХ ИСПОЛЬЗОВАНИЯ В РЕСПУБЛИКЕ 
КАЗАХСТАН 
 
Необходимость  создания  высокотехнологичной  экономики  РК  ставит  на  первое  место 
развитие науки и всех её структурных оснований по производству новых знаний, приборов и 
ПО.  Прошлое  десятилетие  послужило  толчком  к  разработке  большого  количества 
приложений на казахском языке, что существенно продвинуло казахскую научную школу на 
международную  арену.  Неотъемлемую  часть  формирования  научно-производственной 
инфраструктуры  составляют  операционные  системы  (ОС),  на  основе  которых 

151 
 
функционируют  вычислительные  машины,  обеспечивающие  делопроизводство  компаний, 
работу различной техники на заводах и т.д. Наиболее популярной в Казахстане является ОС 
Windows, однако надежность и дороговизна данной ОС оставляет желать лучшего. В связи с 
чем,  более  приемлемой  считается  ОС  семейства  Unix,  бесплатная  лицензия, 
многозадачность,  а  также  надежность,  которых  являются  решающим  аргументом  в  выборе 
ОС,  особенно  при  работе  на  кластерных  системах.  Системы  на  базе  UNIX  показывают 
большие функциональные возможности, позволяют достичь более высокой степени защиты 
информационной  системы,  позволяют  создавать  автономную  информационную  среду, 
сохраняя  при  этом  возможность  интегрирования  в  другие  системы  с  использованием 
стандартных протоколов обмена данными. 
 Unix-подобная операционная система Linux повсеместно используется в Европе, России, 
США,  Японии  и  т.д.  Применимость  казахских  шрифтов  в  Linux  возможна  при  условии 
создания  нового  стандарта  кодирования.  Прозрачность  документации  Unix-подобных  ОС 
позволяет  создавать  любые  драйверы  до  требуемой  глубины  детализации,  создавать 
собственные  библиотеки  (стандартные  подпрограммы,  используемые  в  различных 
приложениях).  Авторы  данной  статьи  в  рамках  проекта  «Разработка  защищенной 
операционной  системы  c  поддержкой  казахского  языка  на  основе  Linux-платформ» 
осуществляют  адаптацию  ОС  Linux  для  казахстанских  пользователей  в  соответствии  со 
следующими этапами: 
1.
 
Разработка 8-битной кодировочной системы для консоли. 
2.
 
Создание и внедрение новой раскладки клавиатуры для консоли. 
3.
 
Создание шрифтов консоли ОС LINUX. 
4.
 
Создание шрифтов для графической среды ОС LINUX. 
5.
 
Перевод на казахский язык интерфейсов популярных программ среды Linux. 
6.
 
Создание векторных шрифтов для графической среды Linux. 
7.
 
Разработка кодировки Unicode для Linux. 
Адаптация начинается с создания файла kz.map, который содержит настройки раскладки 
клавиатуры.  Переключение  с  одного  языка  на  другой  осуществляется  с  помощью  правой 
клавиши  Ctrl.  Далее  производится  задание  букв  казахского  алфавита  в  соответствии  с 
клавишами клавиатуры keycode 2, keycode 3 - keycode 9, keycode 0.  
Для  консоли  ОС  Linux  был  разработан  шрифт  Cyrkza8x16.psf  на  основе  следующих 
разработанных программ: CONVERT - выводит на экран изображение букв казахского языка 
и  символов  находящихся  в  psf  файле;  DRAW  -  редактирование  бинарных  файлов; 
PSFCREATE - осуществляет сбор всех бинарных файлов в один psf файл (шрифт). 
Загрузкой  раскладки  в  консоль  занимается  утилита  loadkeys.  Ей  на  вход  подаётся  файл 
раскладки  *.map,  в  котором  описано  поведение  каждой  клавиши.  Для  использования 
внедренных  казахских  букв  был  взят  за  основу  и  изменен  файл  соответствия  ru.map,  где 
были  назначены  коды  казахских  букв  к  клавишам  2,  3,  4,  5,  8,  9,  0,  -,  =.  После  загрузки 
раскладки  в  консоль  становиться  возможным  создание  в  консоли  файлов  и  папок  на 
казахском языке.  
Пошаговое 
внедрение 
шрифтов 
в 
консоли 
осуществляется 
в 
следующей 
последовательности: 
Загрузка шрифта (setfont /usr/share/kbd/consolefonts/Cyrkza8x16.psfu) 
Загрузка кодировки KOI-8rk (mapscrn /usr/share/kbd/consoletrans/koi8rk) 
Загрузка  соответствия  между  вводом  (клавиатура)  и  выводом  (экран)  \\  (loadkeys 
/usr/share/kbd/keymaps/i386/qwerty/kz.map) 
Менеджеры  окон  (Window  managers)  —  часть  графического  пользовательского 
интерфейса,  позволяющая  управлять  размерами  и  расположением  окон  на  экране, 
сворачивать и разворачивать окна, а также отвечающая за внешний вид окон (например, вид 
заголовков,  рамок  и  т.д.)  –  также  были  преобразованы  в  соответствии  с  казахскими 
названиями используемых кнопок.  

152 
 
При  создании  *.bdf  шрифтов  использовалась  программа  Font  Forge.  Было  создано  60 
казахских шрифтов. При создании которых в каждом шрифте были прорисованы казахские 
буквы  и  расставлены  соответствующие  ссылки  на  Юникод  в  соответствующих  ячейках 
шрифта.  crox1c.bdf.  crox1cb.bdf,  crox1cbo.bdf,  crox1co.bdf,  crox1h.bdf,  crox1hb.bdf, 
crox1hbo.bdf  ,  crox4tb.bdf,  crox4tbo.bdf,  crox4to.bdf,  crox5h.bdf,  crox5hb.bdf,  crox5hbo.bdf  , 
crox5ho.bdf,  crox5t.bdf,  crox5tb.bdf,  crox5tbo.bdf,  crox5to.bdf  ,  crox6h.bdf,  crox6hb.bdf, 
crox6hbo.bdf,  crox6ho.bdf,  kz-koi10x20-20.bdf,  kz-koi12x24-24.bdf,  kz-koi12x24b-24.bdf,  kz-
koi5x8-8.bdf,  kz-koi6x10-10.bdf,  kz-koi6x13-13.bdf,  kz-koi6x13b-13.bdf,  kz-koi6x9-9.bdf,  kz-
koi7x14-14.bdf, kz-koi8x13-13.bdf, kz-koi8x16-16.bdf, kz-koi8x16b-16.bdf, kz-screen8x16-16.bdf, 
kz-screen8x16b-16.bdf – название некоторых созданных казахских шрифтов.  
Следующим  этапом  стала  разработка  комбинированных  символов,  содержащихся  в 
некоторых  позициях  UCS.  Стандарт  Unicode  3.0,  опубликованный  Unicode  Consortium, 
содержит полный уровень реализации UCS Basic Multilingual Plane – уровень 3, как описано 
в стандарте ISO 10646-1:2000. К Unicode 3.1 также добавлены дополнительные уровни ISO 
10646-2.  Стандарт  Unicode  и  технические  сообщения,  публикуемые  Unicode  Consortium, 
обеспечивают  много  дополнительных  рекомендаций  по    использованию  разных  символов. 
Также  поясняются  руководящие  принципы  и  алгоритмы  для  редактирования,  сортировки, 
сравнения,  нормализации,  преобразований  и  выводе  строк  Unicode.  Все  это  потребовало 
разработки настроек кодовых преобразований и локалей для kz-utf.map. 
Адаптация  ОС  Linux  для  Казахстана  поможет  жителям  нашей  Республики  быстрее  и 
эффективнее  осваивать  новые  технологии,  позволит    сократить  время  на  адаптацию 
сотрудников  к  программному  обеспечению  и  созданию  специальных  отраслевых  решений, 
которые будут учитывать специфику местного рынка.  
 
Литература 
1.
 
Bach M. J., «The Design of the UNIX Operating System», Englewood Cliffs, NJ, Prentice 
Hall, 1987. 
2.
 
Alexander Mikhailian, Belarusian-HOWTO, TLDP, 2001. 
3.
 
Tomohiro KUBOTA, «Introduction to i18n », Official debian documentation, 1999. 
4.
 
Бектаев К., Большой казахско-русский, русско-казахский словарь, 2007. 
5.
 
Сыздыкова Р.Г., Қазақша-орысша сөздік. Казахско-русский словарь, Дайк-пресс, 1008 
стр., 2002. 
6.
 
http://www.gnu.org/software/gettext/manual/gettext.html 
 
 
Т.СУЛЕЙМЕНОВ, Р.С.НИЯЗОВА, Л.Т.УРАЗБАЕВА. 
 
 
Л.Н.Гумилев атындағы Еуразия Ұлттық университеті, Астана, Қазақстан 
 
 
МӘТІНДІК ӘРІПТЕРДІ АУЫСТЫРУШЫ БАҒДАРЛАМАЛЫҚ ҚАМТАМАЛАР 
ЖҮЙЕЛЕРІНІҢ ВЕРИФИКАЦИЯСЫНДАҒЫ СЕНІМДІЛІК МӘСЕЛЕЛЕРІ 
 
Мақсаттық жүйе ешқашанда монолитті болмайды да ол бірнеше компоненттерден тұрады. 
Яғни  бұл  жағдайда  жүйенің  сыртпен  әсерлесуі  сол  компоненттердің  өз  ара  әсерлесуімен 
жалғасып  жатады.  Соңғысы  ішкі  процесс  ретінде  боладыда  сырттан  бақылауға  көнбеуі 
мүмкін. Ендеше біз жүйелерінің компоненттерінің сенімділігін болжай білуіміз керек. 
Сенімділік  деп  тасымал,  сақтау,  жөндеу  және  программалық  қамтамалық  қызмет 
көрсетуде,  берілген  режимде  және  қолдану  шарттарында  талап  етілетін  функцияларды 
орындау  мүмкіндігін  бейнелейтін  барлық  параметрлердің  мәндерінің  белгіленген  шегінде 
уақыт  бойынша  объектінің  қасиетін  сақтауды  атаймыз.  Пайдалану  шарттарын  кеңейту, 

153 
 
радиоэлектронды 
құрылғылармен 
орындалатын 
функциялардың 
жауапкершілігін 
жоғарылату, олардың күрделенуі өнімнің сенімділігіне деген талаптың жоғарылауына алып 
келеді [1].  
Сенімділік  күрделі  қасиет  болып  табылады,  және  тоқтаусыздық,  ұзақ  мерзімділік,  қайта 
қалпына  келу  және  сақталыну  сияқты  құрамалардан  қалыптасады.  Мұндағы  негізгісі 
тоқтаусыз  жұмыс  істеу  қасиеті  –  уақыт  ағымында  бұйымның    жұмысқа  қабілеттілік 
жағдайын  үздіксіз  сақтау  қабілеті.  Сол  себепті  программалық  қамтамалық  құралдардың 
сенімділігін қамтамасыз етуде оның тоқтаусыздығын жоғарылату анағұрлым маңызды болып 
табылады.  
Сенімділік  мәселелерінің  ерекшелігі  оның  программалық  қамтамалық  құрылғыларының 
«өмірлік циклінің» барлық этаптарымен байланысы болып табылады, құру идеясының пайда 
болуынан  бастап  сипатталуына  дейін:  өнімді  есептеуде  және  жобалауда  оның  сенімділігі 
жобаға  салынады,  дайындау  кезінде  сенімділік  қамтамасыз  етіледі,  пайдалану  кезінде  − 
жүзеге  асырылады.  Сол  себепті,  сенімділік  мәселесі  –  кешенді  мәселе  және  де  оны  барлық 
кезеңде,  сонымен  қатар  түрлі  құралдармен  шешу  қажет.  Өнімді  жобалау  кезеңінде  оның 
құрылымы  анықталады,  таңдау  немесе  элементтік  базаны  әзірлеу  орындалады.  Сондықтан 
мұнда программалық қамтамалық құрылғылардың талап етіліп отырған деңгейде анағұрлым 
жоғары  мүмкіндікті  сенімділігі  қамтамасыз  етіледі.  Бұл  есепті  шешудің  негізгі  әдісі  болып 
жобаны  тізбекті  қажетті  түзетуі  бар,  оның  құрамдас  бөліктерінің  сипаттамалары  мен 
объектінің  құрылымына  тәуелді  сенімділікті  есептеу,  бірінші  кезекте  −  тоқтаусыз  жұмыс 
істеу болып табылады.  
Сенімділікті  жоғарылатуды  талап  ететін  себептердің  бірі  программалық  қамтамалық 
жүйелердің  күрделенуінің,  оларға  қызмет  көрсететін  аппаратуралардың  өсуі,  оларды 
пайдаланудағы  шарттардың  және  тапсырмалардың  жауапкершілігінің  қатаңдығы  болып 
табылады.  
Программалық  қамтамалық  жүйелердің  [2]жеткіліксіз  сенімділігі  жобалауға,  өндіріске 
және осы жүйелерді пайдалануға кеткен жалпы шығынмен салыстырғанда эксплуатациялық 
шығынның  үлесінің  өсуіне  алып  келеді.  Мұнымен  қоса,  программалық  қамтамалық 
жүйелердің эксплуатациясының құны оны өңдеуге және дайындауға кеткен бағадан бірнеше 
есе асып түсуі мүмкін. Бұдан басқа, программалық қамтамалық жүйелердің тоқтап қалуы әр 
түрлі  салдарға  алып  келеді:  ақпаратты  жоғалту,  программалық  қамтамалық  жүйелермен 
жанасқан басқа құрылғылардың және жүйелердің бос тұрып қалуы, апаттың болуы және т.б.
 
Сонымен  қатар,  ақырғы  есепте  программалық  қамтамалық  жүйелердің  сенімділігі 
іріктеліп  жиналған  элементтердің  сенімділігімен  анықталады.  Сол  себепті  сенімділіктің 
элементтік қорының негізгі сұрақтарын білу қазіргі таңда табысты жұмыстың қажетті шарты 
болып табылады. 
Бұл  жұмыста  программалық  қамтамалық  жүйенің  тоқтаусыздығының  сандық 
сипаттамалары,  олардың  жалпы  сипаттамалары,  сонымен  қатар  программалық  қамтамалық 
жүйенің  құрылымдық−логикалық    анализін,  құрылымдық  сенімділігін  есептеу 
қарастырылған.  
Қазіргі шақта бізде программалық қамтамалық жүйелердің сенімділігін 
арттыру әдістері қарастырылып жатыр.  
Бұл  жұмыста  жоғарыда  қарастырылып  келген  жүйенің  құрылымды  сенімділігін  есептеу, 
программалық  қамтамалық  жүйелердің  сенімділігін  арттыру  әдістерін  бағдарламалық 
қамтамада жүзеге асыру жүргізілген, яғни программалық тілде жобалау немесе жүзеге асыру 
бөлімі қамтылған. 
 
Әдебиеттер 
1.
 
Шарипбаев А.А., Ефимкин  К.Н.,Задыхайло И.Б.Об одном подходе к верификации 
программ  обработки  символьной  информации.  Тез.док.Всесоюзной  конференции  «Методы  
искусственного интеллекта», Паланга,1980,с.67-70 

154 
 
2.
 
Шарипбаев  А.А.  Редукция  проблемы  верификации  программ  к  проблеме 
выполнимости  логических  формул.  Доклады  национальной  академии  наук  РК,  №6, 
Алматы,1994, с.15-21 

155 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
ТҮРІК ТІЛДЕРІНІҢ ЭЛЕКТРОНДЫ КОРПУСТАРЫ 
ЭЛЕКТРОННЫЕ КОРПУСЫ ТЮРКСКИХ ЯЗЫКОВ 
ELECTRONIC CORPORAS OF TURKIC LANGUAGES  

156 
 
Р.Я.ГИБАДУЛИН
1
, Я.Н.ГИБАДУЛИН
1
, А.Р.САКАЕВ
1
, М.З.ЗАКИЕВ
2

И.М.САЛАМАТИН
3
 
 
 
1
НКО “Инсан” г.Москва,  
2
РФ, ИЯЛИ, г.Казань, Татарстан, 
 
3
РФ, ОИЯИ, г.Дубна, РФ
 
 
 
ЭЛЕКТРОННЫЕ СЛОВАРИ ТЮРКСКИХ ЯЗЫКОВ 
 
Ключевые  слова:  электронные  словари,  корпус  тюркских    словарей,  компьютерная 
лексикография, мультимедиа. 
В настоящее время известны и развиваются два вида электронных словарей: 
1)  работающие  при  поддержке    Интернета  on-line  и  2)  автономные,  не  нуждающиеся  в 
использовании Интернета, off-line  словари. 
Статья посвящена  созданию электронных  off-line словарей тюркских языков. 
  
1.  Введение 
В советскую эпоху  издательства "Советская энциклопедия" и "Русский язык", выполняя 
государственную программу создания словарей на языках народов СССР, в сотрудничестве  
с  учеными  из  Академий  наук  Союзных  и  Автономных  республик,  подготовили  и    издали 
большое  количество    различных  тюркологических  словарей.  Авторами  и  составителями 
многих    из  них  были  видные    ученые    лингвисты-тюркологи  и    авторитетные    авторские 
коллективы,  включавшие  известных  ученых  того  времени  из  национальных  республик,  а 
также  из  центра.    Труды  этих  ученых  не  потеряли  свою  актуальность  и  ценность  и  для 
нашего  времени.  Можно  сказать,  что  созданные  ими  словари,    являются  культурным 
наследием  советской  эпохи.  Некоторые  из  этих  словарей  перечислены  ниже[1-6].    Эти 
словари использовали  алфавиты  на кириллической основе, т.е. буквы русского алфавита и  
их графические модификации. Алфавиты  не  были унифицированы по тюркским языкам  и, 
в  результате,  в  советскую  эпоху  в  каждой  тюркоязычной  республике  бывшего  СССР  
использовался свой кириллический  алфавит.   
В связи  с переходом с кириллицы на латиницу в ряде новых независимых тюркоязычных 
государствах  стала  актуальной  задача  переиздания  на  латинице  ранее  изданных  
кириллических  бумажных  словарей  .Переиздание  их  на  латинице  по  известной  технологии 
офсетной  печати  весьма  трудоемкий,  длительный  и  дорогостоящий  процесс.    Более 
целесообразнымм  представляется    переиздание    устаревших  бумажных  словарей  в  
электронном  виле.  В  этом  случае    кириллические  тексты  могут  быть  автоматически 
(программным  способом)  перекодированы  в  латиницу  на  уровне  интерфейса  пользователя, 
либо перекодировка  может быть выполнена полностью для всего словаря. 
  
2. О словаре исторически однокоренных слов татарского языка  
Словарь  разработан  в  издательстве  ИНСАН  в  период  с2009  по  2013  гг.[7].  Содержит 
около 36 тысяч слов, объединённых в гнёзда по родству. Является одной из первых работ по 
исследованию  общетюркских  корневых  слов  на  примере  татарского  языка.  В  отличие  от 
существующих словарей однокоренных слов, гнёзда эти – не только словообразовательные. 
Например,  традиционная  тюркская  лингвистика  не  считает  однокоренными  слова  китап  и 
мәктәп, которые в данном словаре, в силу их исторического родства сводятся в одно гнездо 
как производные от арабского глагола qtb (qataba) «читать». 
При 
составлении 
словаря 
использовались 
материалы 
исследований 
многих 
компаративистов и их оппонентов. Результатом проведенной многолетней работы стал опыт 
презентации  близких  и  дальних  связей  лексики  татарского  языка,  как  одного  из  тюркских 

157 
 
языков. При этом дальнее родство выявляется уже на евразийском уровне. Например, в одно 
гнездо  (группу)  попали  такие  казалось  бы  совершенно  разнящиеся  по  смыслу  татарские 
слова  как  ятарга  «лежать»  (общетюрк.),  диван  (перс.),  фөрьяд  «вопль,  стенание»  (перс.)  и 
кәнфит  «конфета»  (из  русского  языка  через  немецкий  из  латыни).  Все  они  восходят  к 
праевразийскому  (ностратическому)  корню  *д’  ~  *дғ  «класть».  В  сносках-комментариях 
даны этимологии слов с возведением их (где возможно) к древнейшему корню и показаны 
иные производные того же корня, пришедшие в татарский язык другим путем. 
Отметим, что ссылки играют важнейшую роль в данном словаре, составляя половину его 
объема.  Возможно,  именно  ссылки  будут  представлять  особый  интерес,  поскольку  здесь 
приведены  мнения  крупнейших  лингвистов  (тюркологов,  арабистов,  индоевропеистов)  о 
происхождении того или иного слова. В ряде случаев в комментариях приведены народные 
этимологии  и  спорные  версии  происхождения  слов  с  анализом  этих  мнений  учеными-
тюркологами. 
Большая часть словника – общее тюркское наследие. В словарь включены и диалектные 
слова, если они имеют интересные параллели в общетюркской лексике. Это слова среднего 
(казанского)  и  западного  (мишарского)  диалектов,  уральских  говоров,  но  не  сибирско-
татарского  диалекта  (по  сути,  отдельного  языка).  Например,  лексика  кряшен  (крещеных 
татар)  любопытна  тем,  что  в  ней  доля  языческого  явно  преобладает.  При  этом  для  нужд 
народной религии приспособлены не только древнетюркские реликты, но и заимствованные 
у татар-мусульман арабизмы. Сравните, тат.-кряш. кереметь «языческое капище; священная 
роща» от тат. кәрамәт «чудо». 
Попутно отметим, что приведённый в словаре материал привлечет внимание и к решению 
ряда  орфографических  проблем.  Например,  к  назревшей  необходимости  введения 
общетюркских  норм  написания  сложных  слов  (например,  тимер  казык  –  тимерказык 
«Полярная  звезда;  север»)  и  заимствований  (тат.  сурәт  /  сүрәт,  каз.  сурет,  уйг.  сүрәт 
«изображение»). 
Задача  данного  словаря  –  показать  лексические  связи  татарского  языка  как  с  тюркским 
миром от древнейших времен до современности, так и с внешними языками, оказавшими на 
него  влияние.  В  первую  очередь,  это  языки  арабский,  персидский  и  русский.  Сходные 
процессы  заимствования  характерны  для  большинства  тюркских  языков,  что  нашло 
отражение в словаре. 
Словарь  исторически  однокоренных  слов  татарского  языка  предназначен  для  широкого 
круга  читателей,  интересующихся  историей  тюрков  и  их  языков.  В  качестве  справочного 
пособия словарь поможет этимологическим исследованиям тюркологов и, можно надеяться, 
будет способствовать раскрытию белых пятен в истории тюркских языков.  
Словарь реализован в виде мультимедийного программного  продукта с использованием  
программной технологии создания электронных словарей. 
  
3. О программной технологии создания электронных словарей 
За период от разработки в НКО "ИНСАН" первых вариантов электронных словарей с 2007 
г.до  настоящего  времени  было  испытано  несколько    версий  программной  реализации 
технологической  цепочки  создания  словарей.  Это  был  естественный  процесс.  За  это  время 
существенно  изменилась  компьютерная  база,  изменились  операционные  системы, 
трансляторы  программ,  появились  более  мощные  редакторы  текстов,  в  инструментальных 
программных  средствах  обеспечена  возможность  работать  с  UNICOD-ом.  Это 
стимулировало  принятие  решения  о  разработке  новой  технологической  цепочки 
программных средств для реализации электронных мультимедийных словарей для тюркских  
языков  и  приложений  на  их  основе.  Этот  процесс  непрерывного  обновления,  развития  и  
совершенствования  программных  технологических  средств  объективно  закономерен  и 
продолжается по настоящее время. 
Создание  электронного  словаря  проходит  ряд  этапов.  На  подготовительном  этапе 
формируется    исходный    текст  словаря.  Словари    могут  быть  различного  назначения  – 

158 
 
дву(много)язычные,    фразеологические,  толковые  и  др.  На  этом  этапе  осуществляется  в 
основном  лингвистическая  проработка  словаря:  составление  словарных    статей,  выбор    их 
структуры,  информационных полей и пр., производится их заполнение соответствующими 
данными. Отметим, что при этом структура словарной статьи  остается неизменной  для всех 
словарных статей данного словаря.  Естественно, она  может измениться для  других типов 
словарей.  Исходный  текст  нового  словаря  может  создаваться    в  отсутствии    прототипа    с 
"чистого листа", как в случае со словарем [7]. Часто  исходный текст  словаря    заимствуется 
из  ранее  изданных    «бумажных»  словарей.  В    электронном  переиздании      «бумажного» 
словаря структура  словарных статей при необходимости может быть изменена,  например, 
добавлены новые  информационные поля.  Лингвистическая проработка словарных статей на 
подготовительном    этапе    производится    с  помощью    специальных  сервисных  программ, 
призванных    максимально  облегчить    подготовительную  работу  лингвиста,  в  частности, 
обеспечить  быстрый  доступ  к  справочной  информации.  Результатом  подготовительного 
этапа является лингвистически выверенный текст словаря.  
На  следующих  этапах  программная  технологическая  цепочка  включает  программы 
разбора  текста  словаря  (парсер),    заполнения  базы  данных,  подготовки  звуковых  файлов,  
выполнения других операций по проверке целостности и защите  базы данных. Программа 
разбора  текста  имеет  ряд  режимов  работы,  предназначенных  для  проверки  текста  с  целью 
выявления и устранения нарушений  принятой структуры словарных статей. В этих режимах 
выводятся фрагменты текста с обнаруженными ошибками, указывается их местоположение. 
Нарушения  могут  быть  самыми  различными,  например,    отсутствие  данных  в  некоторых 
информационных полях словарной статьи, перевода, ключевого слова, служебных символов 
разметки  текста  и  т.д.  Помимо  этого,  парсер  подготавливает  таблицу  входов  для  записи 
звукового файла перевода. 
Заполнение базы данных выполняется после завершения коррекции текста всех словарных 
статей  процедурой,  которую  вызывает  парсер.  Разработчику  предоставляется  возможность 
контроля  состояния  базы  данных,  редактирования  словарных  статей  и  другие  операции 
коррекции. 
Запись звуковых переводов производится в диалоговом режиме.  Диктору- оператору  на 
экране предоставляется таблица входов. В таблице отмечаются входы, для которых имеются 
подготовленные для озвучивания тексты из словарных статей.  Диктор выбирает в таблице 
вход, для которого нужно записать звуковой файл  перевода, инициирует запись и голосом 
прочитывает(произносит)  показанный  ему  в  диалоговом  окне    текст.  Процесс  записи 
останавливает  также  диктор,  после  чего  программа  записи    автоматически  формирует 
название файла и записывает созданный звуковой файл в формате MP3  в базу данных. Затем 
операция  записи  повторяется  для  другого  входа.  Для  удобства  контроля  записи    на  экране 
все  время  индицируется  уровень  шума  в  помещении.  После  завершения  записи  можно 
прослушать  записанное  и  при  необходимости  перезаписать  текущий  или  любой  из  ранее 
записанных  звуковых  файлов.  Можно    также  воспользоваться    специальным  фирменным 
программным обеспечеиием редактирования звуковых файлов и подавления помех[8]. 
 
4. Заключение 
1.  Разработаны  программные  технологии  создания  электронных  словарей  как  вновь 
разрабатываемых,  так  и  воссоздаваемых  на  основе  "старых",  традиционных  бумажных 
словарей. Последние в электронном издании обретают "новую" жизнь и обладают зачастую 
функциональными характеристиками недоступными для традиционных словарей. 
2. При использовании  разработанной  технологии реализованы автономные 
(off-line)    русско-татарский  [5]  ,татарско-русский  [7]    и  русско-башкирский  [6] 
электронные  словари.  Подробное  описание  этих  словарей  и  руководство  пользователя 
приведены в [9]. 
3.  Описанная  программная  технология  может  быть  использована  и  для  создания  других 
электронных  словарей  различных  типов,  в  том  числе  электронного  переиздания  тюркских 

159 
 
словарей  [1-4]  на  латинице.  При  этом  учет  особенностей  вновь  создаваемого  или  
переиздаваемого  словаря  производится  при  его  лингвистической  проработке  на 
подготовительном  этапе.  На  остальных  этапах  технологическая  цепочка  остается 
практически неизменной. 
4.  Словарь  (приложение)  может  быть  использован  как  основа  для  создания  других 
приложений,  например,  словарей  обучения  произношению,  переводу  и  автоматическому 
чтению текстов, создания мультимедийных учебников  и др. 
 
Литература 
1.  Кенесбаев С.К. Фразеологический словарь казахского языка //изд-во "Гылым", Алма-
ата, 1977,  712 с. (Более 10 тыс. фразеологических единиц). 
2. Юдахин К.К. Киргизско-русский словарь // изд. "Сов. энциклопедия",1965, 976 с.(Около 
40 тыс. слов) 
3. Чарыяров Б., Алтаев С. Большой русско-туркменский словарь // В 2-х томах,т.1 816 с,  
т.2 752с., 1986, изд-во "Русский яз." 
4. Хамзаев М.Я. (ред.) Толковый словарь туркменского языка // Ашхабад, 1962. 
5.  Ахунзянов  Э.М.,  Газизов  Р.С.,  Ганиев  Ф.А.  и  др.  Русско-татарский  словарь    //  Изд-во  " 
Русский яз.",736 с.,1984,1985, 1991 - (Около 47 тыс. слов). 
6.  Ураксин  З.Г.  Русско-башкирский  словапрь  //  В  2-х  томах.  т.1  808  с,  т.2  680  с,  изд-во 
"Башкирская  энциклопедия", Уфа, 2002. 
7.  Сакаев  А.Р.  Татарско-русский  словарь  исторически  однокоренных  слов  //  Рукопись 
словаря , 2013 (в печати). 
8. Sony Sound Forge Pro 10  User's Manual. 
9. Сайт www.tatar-tele.info. 
 
 
ТАШПОЛОТ САДЫКОВ
1
, БАКЫТ ШАРШЕМБАЕВ

 
 
1
К.Карасаев атындагы Бишкек гуманитардык университети,  
2
Кыргыз-түрк Манас университети, Қыргызстан
 
 
  
«МАНАС» ЭПОСУНУН УЛУТТУК КОРПУСУН ТҮЗҮҮ ЖӨНҮНДӨ 
 
Кыргыз  элинин  улуттук  сыймыгы,  көөнөрбөс  көрөңгөсү,  улуу  мурасы  жана  соолбос 
руханий булагы болгон Манас дастаны миңдеген жылдар бою атадан балага, муундан муунга 
өтүү  аркылуу  биздин  күнгө  жетип  олтурат.  Дастаныбыз  көлөм  жактан  дүйнөдө  теңдешсиз, 
мазмун  жактан  элибиздин  көөнө  тарыхын,  алмустактан  берки  рухий  жана  заттык 
маданиятын  чагылдырган,  поэтикалык  жактан  көркөм  сөз  өнөрүнүн  эң  жогорку  деңгелине 
жеткирилген  жалпы  адамзаттык  маанидеги  эстелик  экени  талашсыз.  Муну  «Белес-белден 
бороондоп, Беш удургуп өткөн Сөз. Баласына атасы Мурас кылып кеткен Сөз. Эли сактап 
жүрөккө,  Биздин  күнгө  жеткен  Сөз»  деп  дастаныбыз  өзү  бир  тастыктаса,  «Манас»  эпосу 
жалпы адамзаттык маанидеги терең маани-мазмунга сугарылган көркөм сөз өнөрүнүн туу 
чокусу, дүйнөлүк көчмөндөр цивилизациясынын кенчи, кыргыз элинин улуттук аң-сезиминин 
манифести  жана  көркөм  идеологиясы,  Алатоолук  ак  калпак  калктын  турмушунун 
энциклопедиясы  болуп  эсептелет.  Поэтикалык  күчү,  эпикалык  арымы  жана  көлөмү 
жагынан  дүйнөдө  теңдеши  жок  улуу  дастан.  «Манас»  -  байыркы  кыргыз  рухунун  туу 
чокусу» деп залкар жазуучубуз Чыңгыз Айтматов дагы бир ирет тастыктайт. 
Бүгүнкү  күндө  2,5  миллиондон  ашуун  ыр  сабын  камтыган  эпостун  токсонго  жуук 
варианты Улуттук Илимдер академиясы Ч.Айтматов атындагы тил жана адабият инстутунун 
колжазмалар  фондунда  сакталып  турса,  миллиондон  ашуун  ыр  сабын  камтыган  текст 

160 
 
кытайлык кандаштарыбыздан катталганы анык. Эбегейсиз зор көлөмдөгү 3,5-4 миллион ыр 
сабын ичине катыган бул казынабызда элибиздин эчен кылым карыткан улуттук маданияты, 
дүйнө кабылдоосу, менталитети, чарбачылыгы, устачылык, аңчылык, саяпкерлик, сынчылык 
өнөрү, үрп-адат, салт-санаасы, адеп-ахлак, жүрүм-туруму, ишеними, диний, мифологиялык, 
философиялык  түшүнүктөрү,  экологиялык,  астрономиялык,  географиялык,  медициналык 
билими,  жоокерчилик  өнөрү,  курал-жарак,  буюм-тайымдары,  үй  эмеректери,  кийим-
кечектери,  аш-той,  тамаша-зоок,  шаң-салтанаттары,  коңшу  тайпалар  менен  болгон 
мамилелери, атажурттун ажайып кооздугу, аска-зоо, тоо-таш, жайлоо-төр, өрөөн-өңүр, талаа-
түз, өзөн-сууларынын көрк-касиети, каармандардын кулк-мүнөзү, кыймыл-аракетти, келбет-
көрүнүштөрү,  болочок  урпактарды  атажурттун  атуулу,  эрктүү,  күчтүү,  кайраттуу,  чапчаң 
кылып тарбиялоодо эрсайыш, балбанкүрөш, оодарыш, көкбөрү, аламан байге, жорго салыш 
сыяктуу элдик оюндардын ролу таамай сүрөттөлүп, таасирдүү көркөм сөз менен берилген.  
Улуттук  тилибиздин  мартабасын  мамлекеттик  деңгелге  көтөрүүдө,  адабий  норманы  эне 
тилдин  төл  кыртышында  өркүндөтүүдө,  тилибизди  илим-техника-технология,  башкаруу-
өндүрүш-бизнес тилине айлантып, дүйнөлүк маалыматтар мейкиндигине алып чыгарууда да 
даңазалуу дастаныбыздын мааниси баа жеткис. Манас эпосу, акыйкатта да, кыргыз тилинин 
көөнөрбөс  алтын  казынасы,  анда  катылган  эбегейсиз  сөз  байлыгы,  көркөм  сөздүн  асыл 
берметтери,  аңыз-уламыш,  жөө  жомок,  санжыра,  макал-лакаптары  эне  тилибиздин 
дүйнөдөгү эң бай, кооз, таасирдүү, элестүү жана туюнтуу кудурети мол тилдердин катарына 
жатарын кадиксиз тастыктайт.  
Колжазмалар  фондундагы  эпостун  негизги  деп  табылган  нускалары  ондон  ашуун.  Ыр 
саптарынын саны боюнча булардын көлөмү төмөнкүдөй: 
 
Нускалар 
Манас 
Семетей 
Сейтек 
Бардыгы 
Сагымбай 
180 378 


180 378 
Саякбай 
84 830 
218 787 
196 936 
500 553 
Шапак 
24 588 
42 338 
14 718 
81 644 
Тоголок Молдо 
53 045 
24 390 

77 435 
Багыш 
141 147 
67 704 
5 594 
214 445 
Молдобасан 
57 718 
43 102 
2 760 
103 580 
Ибраим  
3 731 
23 364 
7 839 
34 934 
Мамбет 
106 002 
52 059 
43 333 
201 394 
Шаабай 
8 368 

3 842 
12 210 
Жакшылык 

52 136 
145 959 
198 095 
Мамбеталы 
26 952 


26 952 
Ыса 

14 763 

14 763 
Жаңыбай 
19 445 
66 454 

85 899 
Бардыгы 
706 204 
сап 
605 097 
сап 
420 981 
сап 
1 732 282 
сап 
 
Ал заманыбыздын залкар жазма манасчысы атанган жана кытайлык кыргыздардын өкүлү 
болгон Жусуп Мамай атабыз тарабынан жазылган Манастын сегизилтиги 200 миңге жуук ыр 
сабынан  турат  экен.  Демек,  жакынкы  биздин  максат  –  корпустук  лингвистиканын 

161 
 
жетишкендиктерине  таянуу  менен  «Манас»  эпосунун  улуттук  корпусун  түзүү  жумушун 
колго алуу.  
«Манас» эпосунун академиялык басылышын басмадан чыгаруу иши  толук бүткөрүлбөй, 
учурда  улантылып  жаткандыктан,  улуттук  корпуска  улуу  манасчыларыбыз  Сагымбай 
Орозбак уулу менен Саякбай Карала уулунун мурда жарык көргөн варианттары киргизилди. 
Алар төмөнкүлөр: 
Сагымбай Орозбак уулу. Манас. 1 китеп. Ф: Кыргызстан, 1978. 
Сагымбай Орозбак уулу. Манас. П китеп.Ф: Кыргызстан, 1980. 
Сагымбай Орозбак уулу. Манас. Ш китеп. Ф: Кыргызстан, 1981. 
Сагымбай Орозбак уулу. Манас. IV китеп. Ф: Кыргызстан, 1982. 
Cаякбай Каралаев. Манас. I китеп. Ф: Кыргызстан, 1984. 
Cаякбай Каралаев. Манас. II китеп. Ф: Кыргызстан, 1986. 
Cаякбай Каралаев. Семетей. I китеп. Ф: Кыргызстан, 1987. 
Cаякбай Каралаев. Семетей. II китеп. Ф: Кыргызстан, 1989. 
Cаякбай Каралаев. Сейтек. Ф: Кыргызстан, 1991. 
Буга кытайлык манасчыбыз Жусуп Мамай тарабынан жазылган нускасы (Манас. Шинжаң 
эл басмасы: 2004, 1782 б.) кошумчаланды.  
Ошентип, корпуска жүктөлгөн өйдөкү текстердин негизинде  эпосто катталган сөздөрдүн 
грамматикалык  формаларынын  толук  тизмесин  түзүү,  ар  бир  сөздүн  грамматикалык 
формаларын  ошол  сөздүн  уясына  бириктирүү,  сөздүктө  камтылган  бардык  бирдиктерди 
алфавит тартибинде жайгаштыруу, сөздүн лексикалык маанилерин түркчө которуп берүү, ар 
бир  сөз  менен  анын  бардык  грамматикалык  формаларынын  кайсы  вариантта,  канчанчы 
бетте, кайсы сапта колдонулгандыгын тастыктаган даректерин көрсөтүү иштери аткарылды. 
Демек,  мындай  сөздүк  эпостун  китеп  түрүндө  даярдалган  маалымыттар  банкы,  алфавит 
тартибинде  жайгаштырылган  сөз  аркылуу  текстке  чыгуучу  ачкычы  катары  кызмат  кылып, 
кыргыз  элинин  тарыхын,  улуттук  тилин,  этномаданиятын,  этнографиясын,  менталитетин, 
мифологиясын,  философиясын,  фольклорун,  этнопедагогикасын,  ата  мурастарын,  нарк-
дөөлөттөрүн изилдөөгө өбөлгө түзүп, көмөк көрсөтөрү анык. 
Сөздүк  түзүү  үчүн  тандалып  алынган  Сагымбай  менен  Саякбайдын  текстери  корпуска 
жүктөлгөн соң түпнускадагы ар бир бет көрсөтүлүп, ар бир сапка  катар номур ыйгарылды. 
Бул, алибетте, сөздүктөгү сөздөн текске чыгуунун төтө жолу. 
Иштин  экинчи  этабында  тексте  кездешкен  ар  бир  сөз  формасы  жалпы  тизмеде  алфавит 
тартиби  боюнча  жайгаштырылып,  бардык  тексте  колдонулган  даректерине  улам  шилтеме 
берилип  туруу  аркылуу  эпосто  колдонулган  сөз  формаларынын  алфавит  тартибиндеги 
тизмесин түзүү жана ал тизмедеги ар бир сөздүн дарегин көрсөтүү менен аяктады. 
Иштин  үчүнчү  этабында  лематизация  маселесин  чечүү  максаты  көздөлдү.  Лематизация 
деп  компьютердин  жардамы  менен  текстеги  сөздү  (=  сөз  формасын)  анын  сөздүктөгү 
турпатына  (=  лексемага,  сөзгө)  келтирүү  процесси  аталат.  Бирок,  тилекке  каршы,  кыргыз 
тили  боюнча  лематизатор  алигиче  жасалбагандыктан,  текстеги  сөз  формасын  сөздүктөгү 
турпатына  келтирүү  ишин  кол  менен  жасоого  туура  келди.  Бул  ишти  аткарууда  ар  кандай 
тыбыштык  өзгөрүүлөрдөн  улам  бир  сөздүн  ар  башка  грамматикалык  формалары  алфавит 
тартиби  боюнча  катар  жайгашпай,  жалпы  тизменин  баш-аягына  чейин  чачылып  кеткен 
учурлар арбын кездешти.  
Аларды бир уяга топтоо көп эмгекти жана убакытты талап этти. Маселен,  азап  сөзүнүн 
азабы,  азабым,  азабын  сыяктуу  формалары  азада,  азазил,  азай-,  азамат,  азан  сөздөрүнүн 
уясынан,  ак-  сөзүнүн  агып,  агыптыр  сыяктуу  формалары  адам,  адат,  адаш,  адис,  ажар, 
азан, азил, азоо, айбан сөздөрүнүн уясынан мурда келет. 
Ошентип,  текстеги  сөздү  сөздүктөгү  турпатына  келтирүүдө  бир  сөздүн  ар  башка 
грамматикалык  формалары  бир  жерге  топтолуп,  сөздүн  мааниси  түркчөгө  которулуп, 
кийинки  сапта  сөздүн  өзү  баш  тамгасына  чейин  кыскартылып,  баш  тамгадан  кийин  чекит 
коюлуп,  сөздүн  грамматикалык  формаларын  уюштуруучу  мүчө  же  мүчөлөрдүн  айкашы 
алфавит  тартибине  келтирип,  андан  соң  булардын  баарынын  колдонуш  даректери 

162 
 
көрсөтүлүп берилди.  
Буга мисал кылып аккаңкы сөзүнүн төмөнкү беренесин келтирүүгө болот: 
аккаңкы   
eyerin bir türü 
К1:229-27, К2:62-58, 148-7, 243-44,  
 О3:287-27 
а.га  
К3:201-17, К4:13-94, 124-49, 187-29 
а.ны 
 
К1:65-10, 176-90, 189-110, К2:62-61,  
 К5:66-95, 69-64, 257-14  
а.нын 
 
К3:42-68, 100-52, К4:89-14, 96-66, 123-61.  
Мында ээрдин бир түрүн билдирген аккаңкы сөзү эпос текстинде өз алдынча сөздүктөгү 
турпатында  да,  -га,  -ны,  -нын  мүчөлөрү  уланган  жөндөмө  формаларында  да 
колдонулгандыгы  ачык  көрүнүп  турат.  Ал  эми  бул  формалардын  даректери  мындайча 
чечмеленет:  
а)  кош  чекитке  чейинки  К  тамгасы  Саякбай  Карала  уулунун,  О  тамгасы  Сагымбай 
Орозбак  уулунун  вариантын  билдирсе,  андан  кийинки  сан  варианттын  канчанчы  тому 
экендигин  билдирет,  
б) сызыкчанын сол жагындагы сан бет номурун, оң жагындагы сан сап номурун көрсөтөт. 
Эми  өйдөкү  беренге  сереп  салсак,    анда,  маселен,  аккаңкы  сөзү  ушул  турпатында 
Саякбайдын  Каралаевдин  1-томунун  229-бетиндеги  27-сапта,  2-томунун  62-бетиндеги  58-
сапта, 148-бетиндеги 7-сапта, 243-бетиндеги 44-сапта, Сагымбай Орозбак уулунун 3-томунун 
287-бетиндеги 
27-сапта  колдонулгандыгы  айкын  болот.  Аталган  сөздүн  калган 
формаларынын кайсы даректерде кездешкени ушундай эле жол менен тастыкталат. 
Иштин  жогоруда  белгиленген  этаптарын  ишке  ашырууда  кыргыз  жана  түрк 
лексикографиясынын  калыпташкан  салттары  эске  алынып,  бул  багытта  аткарылган 
изилдөөлөр  жана  сөздүктөр  кеңири  пайдаланылды.  Ошону  менен  катар  эпостун  сөз 
байлыгын мүмкүн болушунча толук каттоо максатында орфографиянын эски нормаларынан 
четтеп,  2002-жылкы  кыргыз  тилинин  жазуу  эрежелеринин  жаңы  редакциясы  сунуштаган 
нормаларга артыкчылык берилди. 
Ошентип, сөздүктү түзүүдө төмөнкү жоболор жетекчиликке алынды: 
1. Сөздүккө чыгарылган сөздөр алфавит тартибинде жайгаштырылып, алардын маанилери 
түркчөгө которулуп берилет. 
2. Кош сөздөр өзүнчө сөз катары сөздүккө чыгарылып, алфавит тартибинде эмес, биринчи 
түгөйүнүн уясынан кийинки катарда берилет. Мисалы: 
акыл  
 
 
akıl, us, zihin, zeka 
а.га 
а.дан 
а.ы 
а.ына 
акыл-айла 
 
hile, kunazlık 
акыл-насаат 
 
tavsiye, öğüt. 
3. Эпос текстинде айрым кошмок сөздөр бириктирилип да, ажыратып да жазылган. 
Кубаты кетип тайтактап, 
Куруп турат ал ак куу 
К4:19-81 
 
Кабыландын Акшумкар 
Аккуу менен алышып 
К4:19-96 
 
Ак куу кебин кийинип 
Айчүрөк учуп кетти эми 
К4:209-83 

163 
 
Мындай сөздөр сөздүктө бир бүтүн сөз катары бириктирилип берилди. 
4.  Энчилүү  аттар  жалпы  аттардан  бөлүнбөй,  алар  менен  чогуу  алфавит  тартибинде 
сөздүккө  алынат  да,  адам  аты,  тулпар  аты,  жер  аты,  суу  аты  сыяктуу  түркчө  белгилер, 
кыскача түшүндүрмөлөр менен коштолот. Мисалы: 
албарсты   
dev nevinden kadın varlık 
а.дай 
а.нын 
Албүбү 
 
Kanıkey’in uşağı 
албыр- 
 
yüzünden nur saçmak, parlamak 
а.ып 
Алгара 
 
Koñurbay’ın küheylânı 
а.га 
а.ны 
а.сын. 
5.  Жер-суу  аттары  адам  жана  айбан  аттарынын  үлгүсүндө  бириктирилип  берилет. 
Мисалы:  
Аксарай   
Kanıkey’in sarayı 
Аксаргыл  
Manas’ın savaş atı 
Аксеңир   
yer adı 
Аксур 
 
 
küheylân adı 
Аксуу 
 
 
yer adı 
Акталаа   
yer adı 
Актелки   
küheylân adı 
Актүз 
 
 
yer adı 
Баркөл 
 
göl adı 
Ботомойнок 
 
yer adı 
Итөлбөс   
yer adı. 
6. Омонимдер текстен териштирилип, омонимдик катарга топтолот да, маанилери түркчө 
которулуп жайгаштырылат. Эгерде омонимдик  катарда этиш сөз бар болсо, анда этиш сөз 
бул учурда да, калган бардык учурларда да аягына сызыкча коюлуп берилет. Мисалы: 
бута 
 
 
çalı 
бута 
 
 
hedef, nişan 
бута 
 
 
kumaş türü 
бута- 
 
 
budamak. 
7.  Эпос  текстинде  колдонулган  бир  катар  сөздөрдүн  грамматикалык  формалары  өз  ара 
омонимдик катышка кириптер болот. Мисалы:  
атам (менин атам) 
 
атам (мен атам) 
атты (атты мин)   
атты (ок атты). 
Айрым  учурларда  бир  сөздүн  грамматикалык  формасы  менен  экинчи  бир  сөздүн  өзү 
текстеги омонимдик катышты түзөт. Мисалы: 
асыл (туюк мамиле)  
асыл (кымбат баалуу) 
атым (менин атым)  
 
атым (бута атым).  
Мындай учурлар омонимдик катыштын булагы болгон мүчөлөрдү бөлүп алып, тийиштүү 
сөздүн уясына жайгаштыруу же сөздүн маанисине түшүндүрмө берүү жолу менен чечилет: 
асыл 
 
 
yüce soylu 
асыл- 
 
 
asılmak, takılmak 
ат   
 
at 
а.ым 
а.ты 
ат-   
 
atmak, fırlamak 
а.ам 
а.ты 

164 
 
ата  
 
baba 
а.м 
атым 
 
 
bir ok atımlık yer. 
8. Четчил каткалаң үнсүз менен аяктаган сөздөр таандык формаларда (сал. аспап–аспабы, 
белек–белеги) соңку үнсүзүн жумшартат. Бирок буга карабастан алар негизги сөздүн уясында 
берилет. Мисалы: 
аспап 
 
 
alet 
а.ың  
белек  
 
 
armağan, hediye 
б.и 
б.им 
б.ин 
б.ке 
б.ти. 
9.  Айрым  сөздөргө  мүчө  жалганганда  соңку  муундагы  кууш  үндүүсүн  жоготуп,  сөздүн 
негизи тыбыштык жактан өзгөрөт. Мындай сөздөрдүн кыскарган турпаты да, толук турпаты 
да которулуп, өзүнчө сөз катары алфавит тартибинде берилет. Мисалы: 
айб  
 
suç, kahabat 
а.ы 
а.ым 
айл  
 
köy 
а.ы 
а.ым 
а.ыңа 
айыл 
 
 
 köy 
а.га 
а.дан 
а.ын 
а.ынан 
айып 
 
 
suç, kahabat 
а.ка 
а.ы 
а.ын. 
10. Эпос текстинде арк-нарк, айза-найза, амыз-намыс, араб-арап, арабыча-арапча, бери-
пери,  байгамбар-пайгамбар  сыяктуу  бир  сөздүн  ар  башка  диалектилик  варианттары 
кездешет.  Бул варианттардын ар бири бирдей котормо  менен коштолуп, өзүнчө сөз катары 
алфавит тартибинде реестрге чыгарылат. 
11.  Эгерде  сөздүккө  алынган  айрым  сөздөрдүн  маанисин  ачып  берүү  кыйынчылык 
туудурса,  анда  мындай  сөздөн  кийин  толкун  сызыкча  коюлат  да,  айкашкан  сөзү  кошо 
көрсөтүлөт. Мисалы: 
андис         ~ мерген 
 
keskin nişancı 
анжы            беш ~  
 
beşe dallanma 
байман      ~ күрүч 
 
pirincin türü 
байбайлуу ~ кундуз  
 
su samuru 
бас              ~ кел-  
denk gelmek. 
12. Тууранды сөздүн маанисин ачып берүү үчүн ал сөздөн кийин толкун сызыкча коюлуп, 
аны менен айкашкан жардамчы этиш кошо берилет. Мисалы: 
булт            ~кой-  
 
fırlamak 
бүлк            ~эт-   
silkinmek 
былк           ~эт-    
kımıldamak. 
13.  Ат  атоочтун  туура  эмес  формалары  өзүнчө  сөз  катары  алфавит  тартибинде  берилет. 
Мисалы: 

165 
 
ага  
 
ona 
анын 
 
 
onun  
буга 
 
 
buna 
буган 
 
 
buna. 
14.  Башкы  муунун  кайталоо  жолу  менен  жасалган  күчөтмө  сөздөр  реестрге  чыгарылат. 
Мисалы: 
аппак 
 
 
bembeyaz 
бүпбүтүн   
büsbütün. 
15.  Мааниси  түшүнүксүз  болгон  айрым  сөздөр  болжолдоп  которулуп,  керектүү  учурда 
контексти чогуу көрсөтүлүп, андан соң суроо белгиси менен коштолуп берилет. Мисалы: 
батын~ ы ачык эр Кошой 
 
cesur Koşoy (?) 
бүйөнгө (~ тийип мойнуна) 
 
ok, mermi (?) 
бөздө  -аркар атса ~п ал-  
dağ koyunu ateş etse beze 
sararak (?) almak. 
Ошентип,  жогорудагы  принциптердин  негизинде  түзүлгөн  «Манас»  эпосунун  чоң 
көрсөткүч  сөздүгү  Түркияда  Түрк  тил  куруму  тарабынан  басылып,  дүйнөлүк  коомчулукка 
сунушталганын жана Жусуп Мамай нускасы боюнча түзүлгөн көрсөткүч сөздүк да басмага 
даяр  турганын  белгилей  кетмекенибиз  оң.  Эгерде  бул  үч  нусканы  салыштыра  келсек,  анда 
төмөнкүдөй статистикалык даректерге күбө болобуз: 
1.  Нускалардын  көлөмү.  Жусуп  Мамай  нускасынын  текстин  компьютерге  жүктөп,  анын 
көлөмүн  аныктоо  маселесин  койгонубузда  аталган  варианттын  көлөмү  750904  сөз 
колдонушун  камтыры  айкын  болду.  Бул,  алибетте,  эбегейсиз  зор  көлөм.  Анткени  ал 
Сагымбай  менен  Саякбайдын  өйдөкү  варианттарын  кошуп  эсептегендеги  598956  сөз 
колдонуш көлөмдөн да ашып түштү. Сал.: 
Жусуп 
Мамай 
Сагымбай 
Саякбай 
Сагымбай+Саякбай 
750 904 
163 962 
434 994 
598 956 
2.  Сөз  формасынын  жалпы  саны.  Эпосто  колдонулган  сөз  формасынын  тизимин  алып, 
тизимге камтылган бирдиктерди эсептей келгенибизде Ж.Мамайдын вариантында 58690 сөз 
формасы  катталганы  анык  болду.  Эгерде  бул  көрсөткүчтү  салыштыра  келсек,  Сагымбай 
менен  Саякбайдын  варианттары  сөз  формасы  байлыгы  жагынан  Ж.Мамайдын  нускасынан 
алда канча төмөн турары аныкталды. Сал.: 
Жусуп 
Мамай 
 
Сагымба
й 
Саякбай  
(бардыг
ы) 
Сагымба
й 
Саякбай 
Манас+Се
мет.+ 
Сейтек 
Сагымбай 
Саякбай  
(бирдейлери

58 690 
52 703 
27 424 
39 089 
13 808 
Көрүнүп  тургандай,  Жусуп  Мамай  нускасы,  омонимдерди  ажыратпаган  учурда  да,  сөз 
формаларынын  молдулугу  жагынан  Сагымбай  менен  Саякбайдын  варианттарынын  ар 
биринен болжол менен 1,5-2 эсеге ашып түшсө, эки вариантты бириктиргендеги бардык сөз 
формаларынан 6000 ге ашып түштү. 
3. Сөз байлыгынын жалпы саны. Сагымбай менен Саякбайдын варианттарынын негизинде 
түзүлгөн чоң көрсөткүч сөздүктө 20 миң чамалуу сөз камтылганы анык болду. Ал эми Жусуп 
Мамай нускасынын сөз байлыгын аныктоо үчүн дагы кошумча илик абзел.  
Жыйынтыктап  айтканда,  «Манас»  эпосунун  улуттук  корпусун  түзүү  жумушу  учурда 
улантылууда. Бул корпус келечекте кыргыз тилинин улуттук корпусунун бир бөлүгү болору 
анык.  Учурда  4  млн.дон  ашуун  сөз  колдонушту  камтыган  ар  кандай  жанрдагы  текстер 
корпуска жүктөлүүдө. Мындай олуттуу ишти аркалоодо корпустук лингвистикада топтолгон 
бай тажрыбаны чыгармачылык менен өздөштүрүү керектиги айдан ачык. 
 
 

166 
 
О. МАХАМБЕТОВ, А. МАКАЖАНОВ, Ж. ЕСЕНБАЕВ, Б. МАТКАИМОВ,  
И. АБЫРГАЛИЕВ, А. ШАРАФУДИНОВ  
 
 
Nazarbayev University Research and Innovation System, Astana, Kazakhstan 
 
 
КОРПУС КАЗАХСКОГО ЯЗЫКА: МЕТОДИКА СБОРА, СТРУКТУРИРОВАНИЯ И 
РАЗМЕТКИ ДАННЫХ 
 
Аннотация 
В данной работе мы представляем вашему вниманию Текстовый корпус казахского языка 
(КК  –  казахский  корпус),  что  является  одной  из  первых  попыток,  предпринятой  местным 
научным сообществом  составить подобный корпус. Корпус содержит более 135 миллионов 
различных  словоформ  и  состоит  из  более  чем  445  тысяч  документов,  сгруппированных  по 
пяти  стилистическим  жанрам:  художественный,  публицистический,  официально-деловой, 
научный и разговорный. Наряду с основной частью КК содержит: (1) аннотированный под-
корпус,  содержащий  сегментированные  документы  в  формате  eXtensible  Markup  Language 
(XML),  в  котором  закодированы  полная  морфологическая,  синтаксическая  и  структурная 
разметки  текста;  (2)  под-корпус  с  аннотированными  аудио  данными.  КК  оснащен 
электронной  навигационной  системой,  доступной  через  Интернет,  что  облегчает  поиск  и 
обработку  искомой  информации.  Корпус  является  открытым  в  обоюдном  порядке:  (1) 
данные  корпуса  являются  свободно  доступными  для  некоммерческого  использования;  (2) 
каждый желающий может помочь советом по улучшению, а также пожертвовать текст. 
 

Введение 
Эта  статья  описывает  теоретические  и  практические  вопросы  испытанные  во  время 
разработки  Корпуса  казахского  языка.  Казахский  язык  –  агглютинативный  язык  с  высоким 
фактором инфлекции (генерации) словоформ, который  относится к тюркской группе. Это  - 
официальный  государственный  язык  Республики  Казахстан  и  родной  для  более  чем  10 
миллионов людей во всем мире. Но тем не менее, вплоть до начала 90-х годов 20-го века , в 
связи с историческими событиями в советский период , русский язык был преобладающим 
языком  в  устной  и  письменной  коммуникации  в  Республике  Казахстан.  Этот  факт  в  свою 
очередь создал проблемы в представлении казахского языка в различных областях таких как 
наука, развлечения, официальная документация и т.д. По этой причине , при сборке корпуса, 
мы  должны  были  сгруппировать  категорий,  которые  обычно  представляются  в  виде 
отдельных  корпусов,  на  пять  стилистических  жанров.  Кроме  того,  в  отличие  от  других 
корпусов  (Aksan  и  др.,  2012  .  ;  Chen  ,  1996),  мы  включили  тексты  в  том  виде  в  каких  они 
были  доступны,  то  есть  мы  не  пытались  заполнить  предопределенный  набор  категорий. 
Значительная  часть  материалов  была  собрана  с  использованием  веб  краулеров  (программа 
для  автоматизированного  сбора  информации)  ,  адаптированных  под  специализированные  
источники и пожертвованных текстов.  
КК  также  содержит,  аннотированный  вручную,  суб-корпус  с  морфо-синтаксическими  и 
структурными наценками, которые кодируется в XML, следуя общим понятиям, изложенным 
в  CES  (IDE,1998).  Наши  синтаксические  множества  тегов  содержат  набор  синтаксических 
категорий,  четко  определенных  в  классической  казахской  грамматике,  и  множество  тегов 
частей  речи  (POS)  основаны  на  позиционной  системе,  в  которой  теги  образованы 
конкатенациями  POS  слова  форм  и  цепями  кодированных  лингвистических  свойств,  таких 
как  количество  ,  случай,  голос  и  т.д.  Аннотации  были  проведены  вручную  студентами 
факультета  филологии,  специализирующихся  в  морфологии  и  синтаксисе.  Пытаясь  сделать 
процесс  аннотации  максимально  комфортным,  мы  разработали  веб  инструмент  с  удобным 

167 
 
интерфейсом  для  аннотации  .  Мы  позаботились  о  качестве  аннотации,  и  для  этого 
разработали систему рекомендации, которая впоследствии увеличела скорость разметки.  
В  рамках  КК  мы  также  скомпилировали  аннотированный  корпус  чтения  речи  (RSC  ), 
которая включает в себя аудио записи слов, фраз, предложений (от всех жанров), новостных 
статей и отрывков из книг, которые были тщательно отобраны из основной части корпуса. 
Все текстовые материалы были прочитаны добровольцами разных возрастов, полов, уровней 
образования  из  разных  регионов.  Каждый  аудиофайл  сопровождается  файлом  этикетки  и 
соответствующим  транскриптом  текста.  Кроме  того,  некоторые  транскрипты  были 
грамматически  аннотированными,  т.е.  в  дополнение  к  словоуровневой  сегментации 
аудиоинформации  часть  наших  данных  имеет  лексические  и  морфо-синтаксические 
аннотации. В общей сложности RSC содержит 10GB или более чем 40 часов речи.  
Эта  статья  организована  следующим  образом.  Раздел  2  рассматривает  существующую 
работу. Раздел 3 предоставляет подробную информацию о первичном корпусе. Разделы 4 и 5 
подробно  описывают  аннотированный  текст  и  речь  суб-корпуса  соответственно.  Наконец, 
мы делаем выводы и обсуждаем будущую работу в разделе 6. 
 
2 Схожие работы 
Корпусная  лингвистика  стала  популярной  областью  исследований  вслед  за  работой 
Francis & Kucera(1979) с Brown University по построению первого корпуса. За последние два 
десятилетия  исследователи  по  всему  миру  построили  множество  корпусов,  в  том  числе 
известный Британский Национальный Корпус (БНК) (Бернард, 2007), разработанный в 1991-
94 годах, и содержащий более 100 миллионов слов письменной и устной речи из различных 
видов  источников(Ide  and  Macleod,  2001;  Al-Sulaiti  and  Atwell,  2006).  Все  материалы 
выбирались  на  основе  трех  независимых  критериев(носитель,  жанр  и  временной  период)  и 
заранее  определены  количественные  пропорции    между  этими  критериями.  Разговорная 
часть  состоит  из  транскрипций  неофициальных  бесед  и  разговорного  языка  в  различных 
контекстах.  В  БНК  проведена  работа  по  аннотации на  части  речи  с  помощью  инструмента 
CLAWS,  разработанного  в  университете  Lancaster.  БНК  считается  сбалансированным 
корпусом,  и  большинство  исследователей  используют  ее  модель  для  собственных 
разработок,  такие  как:  Turkish  National  Corpus  (Aksan  et  al.,  2012),  Korean  National  Corpus 
(Kim, 2006).  
Национальный  корпус  русского(РНК)  языка  был  создан  группой  специалистов  из 
различных  сфер  под  руководством  Института  русского  языка  им.  В.  В.  Виноградова  РАН 
(Ruscorpora,  2003).  Корпус  охватывает  писменные  (художественная  и  религиозная 
литература,  мемуары,  научные  публикации  и  другие)  и  аудиоматериалы(публичные 
выступления и частные беседы) периода середины XVIII века до начала XXI века. В данный 
момент  корпус  содержит  более  350  мил.  лемматизированных  и  размеченных  частями  речи 
словоформ. Корпус также включает семантические тэги для  слов и  текстов (Apresjan  et  al., 
2006).  Кроме  основной  части  в  РНК  имеются  следующие  подкорпусы:  глубоко 
аннотированный  (синтаксический)  корпус,  содержит  тексты  снабженные  морфо-
синтаксической разметкой основанной на лингвистической модели «Смысл <=> Текст» И. А. 
Мельчука  и  А.  К.  Жолковского;  корпус  параллельных  текстов  -  англо-русский,  немецко-
русский,    украинско-русский,  белорусско-русский;  корпус  диалектных  текстов;  корпус 
поэтических текстов и другие. 
 

Основная часть корпуса 
КК представляет собой первую попытку построить масштабный корпус общего значения, 
который  описывает  текущее  состояние  Казахского  языка.  Корпус  содержит  более  135 
миллионов  различных  словоформ  и  состоит  из  более  чем  445  тысяч  документов, 
сгруппированных  по  пяти  стилистическим  жанрам:  (1)  художественный  (Казахские 
литературные  тексты,  охватывающие  период  с  начала  ХХ  века  до  современности);  (2) 
публицистический (периодика и новостные статьи из Интернет-источников, опубликованные 

168 
 
за  последнее  десятилетие);  (3)  официально-деловой  (приказы,  акты,  и  другие  официальные 
документы, опубликованные в период с 2009 до 2012гг.)(4) научный (книги, монографии, и 
работы на различные научные темы); (5)  разговорный (популярные блог-посты, изданные с 
2009 года поныне). Обращаем внимание, что мы намеренно не ставили жестких ограничений 
на  конкретные  источники  данных,  жанры  и  временные  периоды.  Это  объясняется 
относительной скудностью данных и причинами, озвученными во введении. 
Основными  источниками  данных  послужили  веб-сайты,  а  также  оцифрованные  книги  и 
статьи,  полученные  из  общественных  и  частных  библиотек.  Для  каждого  веб-сайта  мы 
адаптировали  веб-краулер,  что  увеличило  точность  извлечения  служебной  информации 
(автор, дата, категория, и т.д.) 
Данные  корпуса  распространяются  по  лицензии,  которая  согласно  закону  РК  позволяет 
распространять некоторые данные целиком (официальная документация, новостные статьи), 
и некоторые частично (литература, научные работы, аналитика), при условии, что источники 
должным образом указаны. 
 

Аннотированный под-корпус 
3.1 Разработка тэгсетов 
Руководствуясь  мировым  опытом  по  созданию  тэгсетов,  и  учитывая  специфику 
Казахского  языка,  мы  разработали  синтаксический  (члены  предложения)  и  лексический 
(часть речи) тэгсеты.  
Синтаксический тэгсет описан в таблице 1, содержащей наименование и описание тэгов, 
а также эквиваленты из широко употребляемого тэгсета, Penn tagset.  
 
Таблица 1. Синтаксический тэгсет 
№ 
Тэг 
Описание 
Эквиваленты Penn tagset 


Простое предложение 


BSS 
Главное предложение 


BGS 
Зависимое предложение 
SBAR, SBARQ 

BAS 
Подлежащее 
NP 

BND 
Сказуемое 
VP 

TOL 
Дополнение 
NP, WHNP 

ANT 
Определение 
ADJP 

PYS 
Обстоятельство 
PP, WHP, ADVP, WHADVP 


Пустой/неоднозначный член 

 
Синтаксическим  тэгсетом  также  предусмотрена  разметка  фразеологизмов,  путем 
присвоения тэгу соответствующего бинарного атрибута. 
Лексический тэгсет. Казахский язык относится к агглютинативным Тюркским языкам, в 
которых словоформы образуются путем присоединения к корню цепочки морфем. Морфемы 
характеризуют  различные  грамматические  свойства  (лицо,  падеж,  и  т.д.)  и  несут  в  себе 
важную контекстную информацию, без  учета  которой лексический разбор может оказаться 
не полным. 
Сравним варианты лексического разбора одного и того же предложения на трех языках: 
 
Мектепке/существительное бардым/глагол ./. 
I/местоимение went/глагол to/предлог school/существительное ./. 
Я/местоимение пошла/глагол в/предлог школу/существительное ./. 
 
Как видим, в Казахском варианте отсутствуют местоимение и предлог, которые переданы 
морфемами в лице глагола и падеже существительного соответственно: 
 
Мектеп/сущ. + ке/(вин. падеж = предлог «В»)  
бар/глагол + ды/(прошед. время) + м/(I лицо = мест. «Я») ./. 

169 
 
 
Для  интеграции  грамматических  свойств  в  лексический  тэгсет,  был  разработан 
позиционный  тэгсет,  согласно  которому,  лексическая  метка  состоит  из  основного  тэга 
(развернутая часть речи) и закодированной строки грамматических свойств. 
 
Таблица 2 содержит список грамматических свойств учтенных при создании лексического 
тэгсета,  где  под  кардинальностью  понимается  количество  возможных  значений 
принимаемых данным свойством (например: одушевленность имеет два значения). 
 
Таблица 2. Грамматические свойства, рассматриваемые в лексическом тэгсете
 
№ 
Грамматические свойства 
Код 
Кардинальность 

Одушевленность 



Число 



Принадлежность 

10 

Лицо 



Падеж 



Отрицание 



Время 



Наклонение 



Залог 


 
Наконец, Таблица 3 содержит полный лексический тэгсет, состоящий из 36 базовых тэгов 
(исключая  пунктуацию),  сгруппированных  по  частям  речи.  Каждому  тэгу  соответствует 
цепочка грамматических свойств (ГС), а также генеративная емкость (Емк.), т.е. количество 
тэгов  получаемое  от  всех  возможных  комбинаций  ГС  и  базового  тэга.  Таким  образом, 
полный тэгсет состоит из 3844 различных тэгов. 
 
3.2 Разработка структуры для разметки текстовых данных 
Руководствуясь  международными  стандартами хранения  размеченных  данных,  учитывая 
особенности разработанных тэгсетов, а также специфику собранных данных, был разработан 
XMLшаблон разметки. 
Согласно  шаблону  разметка  хранится  вместе  с  текстом,  но  при  необходимости  может 
быть легко отделена. Структура документа подчинена следующей иерархии, выраженной в 
наборе  правил.  Каждое  правило  состоит  из  отношения  и  двух  аргументов,  где  отношения 
между  аргументами  выражают  понятие  «включать  себя»  и  обозначаются  стрелкой,  а 
аргументами являются конструкции документа. Пример разметки дан в приложении I. Ниже 
приведены правила описывающие иерархию конструкций документа: 
 
Фразеологизм → предложение, токен (слово, пунктуация) 
Предложение  →  предложение  (главное/зависимое),  фразеологизм,  токен,  прямая  речь, 
перечисление 
Прямая речь → прямая речь, предложение, токен 
Перечисление → перечисление, предложение, токен 


Достарыңызбен бөлісу:
1   ...   15   16   17   18   19   20   21   22   ...   39




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет