Заключение
Данная статья посвящена вопросам формирования новых понятий и терминов в татарском
языке и задаче построения терминологической системы в одной из наиболее быстро
развивающихся
научно-прикладных
областей
–
области
информатики
и
инфокоммуникационных технологий. Очевидно, чтобы вновь созданные термины стали
неотъемлемой частью языка, обогатили язык и расширили горизонты его применения, еще
недостаточно порождать на татарском языке новые понятия и термины, а необходимо, чтобы
эти термины и понятия прошли, по крайней мере, три этапа. Во-первых, татарские термины
должны активно применяться в науке, культуре, и в средствах массовой информации. Во-
вторых, татарские термины должны использоваться в процессе получения и оформления
новых научных результатов, которые будут интересны всему научному сообществу. В-
третьих, татарские термины должны использоваться на других языках в научных
публикациях зарубежных авторов.
Литература
1.
Heintz J. and Schonig C. Turcic Morphology as Regular Language // Central Asianic Jornal
(CFJ), 1989. -P.1-24.
2.
Suleymanov D.S. Natural cognitive mechanisms in the Tatar language // In the Collection of
the Vienna Proceedings of the Twentieth European Meeting in Cybernetics and Systems Research.
Edited by Robert Trappel. Vienna, Austria, 6-9 April, 2010. – P. 210-213.
3.
Правила создания, совершенствования и использования татарских терминов (Татар
терминнарын ясау, камилләштерү һәм куллану кагыйдәләре) // Составители: Закиев М.З.,
Низамов И.М. – Казан, 1995. – 13 с.
4.
Татарская грамматика. Т.2. Морфология. – Казань: Тат. кн. изд-во, 1993. – 397 с.
5.
Сулейманов Д.Ш., Галимянов А.Ф., Валиев М.Х. Термины по информатике и
информационным технологиям: англо-татарско-русский толковый словарь (Сөләйманов
Җ.Ш., Галимҗанов Ә.Ф., Вәлиев М.Х. Информатика һәм мәгълүмат технологияләре
терминнары: инглизчә-татарча-русча аңлатмалы сүзлек). – Казань: Магариф, 2006. -383 с.
А.К.ХИКМЕТОВ, О.Л.КАРУНА, К.К.КАРЖАУБАЕВ
Казахский Национальный Университет имени аль-Фараби, Алматы, Казахстан
АДАПТАЦИЯ LINUX-СИСТЕМ ДЛЯ ИХ ИСПОЛЬЗОВАНИЯ В РЕСПУБЛИКЕ
КАЗАХСТАН
Необходимость создания высокотехнологичной экономики РК ставит на первое место
развитие науки и всех её структурных оснований по производству новых знаний, приборов и
ПО. Прошлое десятилетие послужило толчком к разработке большого количества
приложений на казахском языке, что существенно продвинуло казахскую научную школу на
международную арену. Неотъемлемую часть формирования научно-производственной
инфраструктуры составляют операционные системы (ОС), на основе которых
151
функционируют вычислительные машины, обеспечивающие делопроизводство компаний,
работу различной техники на заводах и т.д. Наиболее популярной в Казахстане является ОС
Windows, однако надежность и дороговизна данной ОС оставляет желать лучшего. В связи с
чем, более приемлемой считается ОС семейства Unix, бесплатная лицензия,
многозадачность, а также надежность, которых являются решающим аргументом в выборе
ОС, особенно при работе на кластерных системах. Системы на базе UNIX показывают
большие функциональные возможности, позволяют достичь более высокой степени защиты
информационной системы, позволяют создавать автономную информационную среду,
сохраняя при этом возможность интегрирования в другие системы с использованием
стандартных протоколов обмена данными.
Unix-подобная операционная система Linux повсеместно используется в Европе, России,
США, Японии и т.д. Применимость казахских шрифтов в Linux возможна при условии
создания нового стандарта кодирования. Прозрачность документации Unix-подобных ОС
позволяет создавать любые драйверы до требуемой глубины детализации, создавать
собственные библиотеки (стандартные подпрограммы, используемые в различных
приложениях). Авторы данной статьи в рамках проекта «Разработка защищенной
операционной системы c поддержкой казахского языка на основе Linux-платформ»
осуществляют адаптацию ОС Linux для казахстанских пользователей в соответствии со
следующими этапами:
1.
Разработка 8-битной кодировочной системы для консоли.
2.
Создание и внедрение новой раскладки клавиатуры для консоли.
3.
Создание шрифтов консоли ОС LINUX.
4.
Создание шрифтов для графической среды ОС LINUX.
5.
Перевод на казахский язык интерфейсов популярных программ среды Linux.
6.
Создание векторных шрифтов для графической среды Linux.
7.
Разработка кодировки Unicode для Linux.
Адаптация начинается с создания файла kz.map, который содержит настройки раскладки
клавиатуры. Переключение с одного языка на другой осуществляется с помощью правой
клавиши Ctrl. Далее производится задание букв казахского алфавита в соответствии с
клавишами клавиатуры keycode 2, keycode 3 - keycode 9, keycode 0.
Для консоли ОС Linux был разработан шрифт Cyrkza8x16.psf на основе следующих
разработанных программ: CONVERT - выводит на экран изображение букв казахского языка
и символов находящихся в psf файле; DRAW - редактирование бинарных файлов;
PSFCREATE - осуществляет сбор всех бинарных файлов в один psf файл (шрифт).
Загрузкой раскладки в консоль занимается утилита loadkeys. Ей на вход подаётся файл
раскладки *.map, в котором описано поведение каждой клавиши. Для использования
внедренных казахских букв был взят за основу и изменен файл соответствия ru.map, где
были назначены коды казахских букв к клавишам 2, 3, 4, 5, 8, 9, 0, -, =. После загрузки
раскладки в консоль становиться возможным создание в консоли файлов и папок на
казахском языке.
Пошаговое
внедрение
шрифтов
в
консоли
осуществляется
в
следующей
последовательности:
Загрузка шрифта (setfont /usr/share/kbd/consolefonts/Cyrkza8x16.psfu)
Загрузка кодировки KOI-8rk (mapscrn /usr/share/kbd/consoletrans/koi8rk)
Загрузка соответствия между вводом (клавиатура) и выводом (экран) \\ (loadkeys
/usr/share/kbd/keymaps/i386/qwerty/kz.map)
Менеджеры окон (Window managers) — часть графического пользовательского
интерфейса, позволяющая управлять размерами и расположением окон на экране,
сворачивать и разворачивать окна, а также отвечающая за внешний вид окон (например, вид
заголовков, рамок и т.д.) – также были преобразованы в соответствии с казахскими
названиями используемых кнопок.
152
При создании *.bdf шрифтов использовалась программа Font Forge. Было создано 60
казахских шрифтов. При создании которых в каждом шрифте были прорисованы казахские
буквы и расставлены соответствующие ссылки на Юникод в соответствующих ячейках
шрифта. crox1c.bdf. crox1cb.bdf, crox1cbo.bdf, crox1co.bdf, crox1h.bdf, crox1hb.bdf,
crox1hbo.bdf , crox4tb.bdf, crox4tbo.bdf, crox4to.bdf, crox5h.bdf, crox5hb.bdf, crox5hbo.bdf ,
crox5ho.bdf, crox5t.bdf, crox5tb.bdf, crox5tbo.bdf, crox5to.bdf , crox6h.bdf, crox6hb.bdf,
crox6hbo.bdf, crox6ho.bdf, kz-koi10x20-20.bdf, kz-koi12x24-24.bdf, kz-koi12x24b-24.bdf, kz-
koi5x8-8.bdf, kz-koi6x10-10.bdf, kz-koi6x13-13.bdf, kz-koi6x13b-13.bdf, kz-koi6x9-9.bdf, kz-
koi7x14-14.bdf, kz-koi8x13-13.bdf, kz-koi8x16-16.bdf, kz-koi8x16b-16.bdf, kz-screen8x16-16.bdf,
kz-screen8x16b-16.bdf – название некоторых созданных казахских шрифтов.
Следующим этапом стала разработка комбинированных символов, содержащихся в
некоторых позициях UCS. Стандарт Unicode 3.0, опубликованный Unicode Consortium,
содержит полный уровень реализации UCS Basic Multilingual Plane – уровень 3, как описано
в стандарте ISO 10646-1:2000. К Unicode 3.1 также добавлены дополнительные уровни ISO
10646-2. Стандарт Unicode и технические сообщения, публикуемые Unicode Consortium,
обеспечивают много дополнительных рекомендаций по использованию разных символов.
Также поясняются руководящие принципы и алгоритмы для редактирования, сортировки,
сравнения, нормализации, преобразований и выводе строк Unicode. Все это потребовало
разработки настроек кодовых преобразований и локалей для kz-utf.map.
Адаптация ОС Linux для Казахстана поможет жителям нашей Республики быстрее и
эффективнее осваивать новые технологии, позволит сократить время на адаптацию
сотрудников к программному обеспечению и созданию специальных отраслевых решений,
которые будут учитывать специфику местного рынка.
Литература
1.
Bach M. J., «The Design of the UNIX Operating System», Englewood Cliffs, NJ, Prentice
Hall, 1987.
2.
Alexander Mikhailian, Belarusian-HOWTO, TLDP, 2001.
3.
Tomohiro KUBOTA, «Introduction to i18n », Official debian documentation, 1999.
4.
Бектаев К., Большой казахско-русский, русско-казахский словарь, 2007.
5.
Сыздыкова Р.Г., Қазақша-орысша сөздік. Казахско-русский словарь, Дайк-пресс, 1008
стр., 2002.
6.
http://www.gnu.org/software/gettext/manual/gettext.html
Т.СУЛЕЙМЕНОВ, Р.С.НИЯЗОВА, Л.Т.УРАЗБАЕВА.
Л.Н.Гумилев атындағы Еуразия Ұлттық университеті, Астана, Қазақстан
МӘТІНДІК ӘРІПТЕРДІ АУЫСТЫРУШЫ БАҒДАРЛАМАЛЫҚ ҚАМТАМАЛАР
ЖҮЙЕЛЕРІНІҢ ВЕРИФИКАЦИЯСЫНДАҒЫ СЕНІМДІЛІК МӘСЕЛЕЛЕРІ
Мақсаттық жүйе ешқашанда монолитті болмайды да ол бірнеше компоненттерден тұрады.
Яғни бұл жағдайда жүйенің сыртпен әсерлесуі сол компоненттердің өз ара әсерлесуімен
жалғасып жатады. Соңғысы ішкі процесс ретінде боладыда сырттан бақылауға көнбеуі
мүмкін. Ендеше біз жүйелерінің компоненттерінің сенімділігін болжай білуіміз керек.
Сенімділік деп тасымал, сақтау, жөндеу және программалық қамтамалық қызмет
көрсетуде, берілген режимде және қолдану шарттарында талап етілетін функцияларды
орындау мүмкіндігін бейнелейтін барлық параметрлердің мәндерінің белгіленген шегінде
уақыт бойынша объектінің қасиетін сақтауды атаймыз. Пайдалану шарттарын кеңейту,
153
радиоэлектронды
құрылғылармен
орындалатын
функциялардың
жауапкершілігін
жоғарылату, олардың күрделенуі өнімнің сенімділігіне деген талаптың жоғарылауына алып
келеді [1].
Сенімділік күрделі қасиет болып табылады, және тоқтаусыздық, ұзақ мерзімділік, қайта
қалпына келу және сақталыну сияқты құрамалардан қалыптасады. Мұндағы негізгісі
тоқтаусыз жұмыс істеу қасиеті – уақыт ағымында бұйымның жұмысқа қабілеттілік
жағдайын үздіксіз сақтау қабілеті. Сол себепті программалық қамтамалық құралдардың
сенімділігін қамтамасыз етуде оның тоқтаусыздығын жоғарылату анағұрлым маңызды болып
табылады.
Сенімділік мәселелерінің ерекшелігі оның программалық қамтамалық құрылғыларының
«өмірлік циклінің» барлық этаптарымен байланысы болып табылады, құру идеясының пайда
болуынан бастап сипатталуына дейін: өнімді есептеуде және жобалауда оның сенімділігі
жобаға салынады, дайындау кезінде сенімділік қамтамасыз етіледі, пайдалану кезінде −
жүзеге асырылады. Сол себепті, сенімділік мәселесі – кешенді мәселе және де оны барлық
кезеңде, сонымен қатар түрлі құралдармен шешу қажет. Өнімді жобалау кезеңінде оның
құрылымы анықталады, таңдау немесе элементтік базаны әзірлеу орындалады. Сондықтан
мұнда программалық қамтамалық құрылғылардың талап етіліп отырған деңгейде анағұрлым
жоғары мүмкіндікті сенімділігі қамтамасыз етіледі. Бұл есепті шешудің негізгі әдісі болып
жобаны тізбекті қажетті түзетуі бар, оның құрамдас бөліктерінің сипаттамалары мен
объектінің құрылымына тәуелді сенімділікті есептеу, бірінші кезекте − тоқтаусыз жұмыс
істеу болып табылады.
Сенімділікті жоғарылатуды талап ететін себептердің бірі программалық қамтамалық
жүйелердің күрделенуінің, оларға қызмет көрсететін аппаратуралардың өсуі, оларды
пайдаланудағы шарттардың және тапсырмалардың жауапкершілігінің қатаңдығы болып
табылады.
Программалық қамтамалық жүйелердің [2]жеткіліксіз сенімділігі жобалауға, өндіріске
және осы жүйелерді пайдалануға кеткен жалпы шығынмен салыстырғанда эксплуатациялық
шығынның үлесінің өсуіне алып келеді. Мұнымен қоса, программалық қамтамалық
жүйелердің эксплуатациясының құны оны өңдеуге және дайындауға кеткен бағадан бірнеше
есе асып түсуі мүмкін. Бұдан басқа, программалық қамтамалық жүйелердің тоқтап қалуы әр
түрлі салдарға алып келеді: ақпаратты жоғалту, программалық қамтамалық жүйелермен
жанасқан басқа құрылғылардың және жүйелердің бос тұрып қалуы, апаттың болуы және т.б.
Сонымен қатар, ақырғы есепте программалық қамтамалық жүйелердің сенімділігі
іріктеліп жиналған элементтердің сенімділігімен анықталады. Сол себепті сенімділіктің
элементтік қорының негізгі сұрақтарын білу қазіргі таңда табысты жұмыстың қажетті шарты
болып табылады.
Бұл жұмыста программалық қамтамалық жүйенің тоқтаусыздығының сандық
сипаттамалары, олардың жалпы сипаттамалары, сонымен қатар программалық қамтамалық
жүйенің құрылымдық−логикалық анализін, құрылымдық сенімділігін есептеу
қарастырылған.
Қазіргі шақта бізде программалық қамтамалық жүйелердің сенімділігін
арттыру әдістері қарастырылып жатыр.
Бұл жұмыста жоғарыда қарастырылып келген жүйенің құрылымды сенімділігін есептеу,
программалық қамтамалық жүйелердің сенімділігін арттыру әдістерін бағдарламалық
қамтамада жүзеге асыру жүргізілген, яғни программалық тілде жобалау немесе жүзеге асыру
бөлімі қамтылған.
Әдебиеттер
1.
Шарипбаев А.А., Ефимкин К.Н.,Задыхайло И.Б.Об одном подходе к верификации
программ обработки символьной информации. Тез.док.Всесоюзной конференции «Методы
искусственного интеллекта», Паланга,1980,с.67-70
154
2.
Шарипбаев А.А. Редукция проблемы верификации программ к проблеме
выполнимости логических формул. Доклады национальной академии наук РК, №6,
Алматы,1994, с.15-21
155
ТҮРІК ТІЛДЕРІНІҢ ЭЛЕКТРОНДЫ КОРПУСТАРЫ
ЭЛЕКТРОННЫЕ КОРПУСЫ ТЮРКСКИХ ЯЗЫКОВ
ELECTRONIC CORPORAS OF TURKIC LANGUAGES
156
Р.Я.ГИБАДУЛИН
1
, Я.Н.ГИБАДУЛИН
1
, А.Р.САКАЕВ
1
, М.З.ЗАКИЕВ
2
,
И.М.САЛАМАТИН
3
1
НКО “Инсан” г.Москва,
2
РФ, ИЯЛИ, г.Казань, Татарстан,
3
РФ, ОИЯИ, г.Дубна, РФ
ЭЛЕКТРОННЫЕ СЛОВАРИ ТЮРКСКИХ ЯЗЫКОВ
Ключевые слова: электронные словари, корпус тюркских словарей, компьютерная
лексикография, мультимедиа.
В настоящее время известны и развиваются два вида электронных словарей:
1) работающие при поддержке Интернета on-line и 2) автономные, не нуждающиеся в
использовании Интернета, off-line словари.
Статья посвящена созданию электронных off-line словарей тюркских языков.
1. Введение
В советскую эпоху издательства "Советская энциклопедия" и "Русский язык", выполняя
государственную программу создания словарей на языках народов СССР, в сотрудничестве
с учеными из Академий наук Союзных и Автономных республик, подготовили и издали
большое количество различных тюркологических словарей. Авторами и составителями
многих из них были видные ученые лингвисты-тюркологи и авторитетные авторские
коллективы, включавшие известных ученых того времени из национальных республик, а
также из центра. Труды этих ученых не потеряли свою актуальность и ценность и для
нашего времени. Можно сказать, что созданные ими словари, являются культурным
наследием советской эпохи. Некоторые из этих словарей перечислены ниже[1-6]. Эти
словари использовали алфавиты на кириллической основе, т.е. буквы русского алфавита и
их графические модификации. Алфавиты не были унифицированы по тюркским языкам и,
в результате, в советскую эпоху в каждой тюркоязычной республике бывшего СССР
использовался свой кириллический алфавит.
В связи с переходом с кириллицы на латиницу в ряде новых независимых тюркоязычных
государствах стала актуальной задача переиздания на латинице ранее изданных
кириллических бумажных словарей .Переиздание их на латинице по известной технологии
офсетной печати весьма трудоемкий, длительный и дорогостоящий процесс. Более
целесообразнымм представляется переиздание устаревших бумажных словарей в
электронном виле. В этом случае кириллические тексты могут быть автоматически
(программным способом) перекодированы в латиницу на уровне интерфейса пользователя,
либо перекодировка может быть выполнена полностью для всего словаря.
2. О словаре исторически однокоренных слов татарского языка
Словарь разработан в издательстве ИНСАН в период с2009 по 2013 гг.[7]. Содержит
около 36 тысяч слов, объединённых в гнёзда по родству. Является одной из первых работ по
исследованию общетюркских корневых слов на примере татарского языка. В отличие от
существующих словарей однокоренных слов, гнёзда эти – не только словообразовательные.
Например, традиционная тюркская лингвистика не считает однокоренными слова китап и
мәктәп, которые в данном словаре, в силу их исторического родства сводятся в одно гнездо
как производные от арабского глагола qtb (qataba) «читать».
При
составлении
словаря
использовались
материалы
исследований
многих
компаративистов и их оппонентов. Результатом проведенной многолетней работы стал опыт
презентации близких и дальних связей лексики татарского языка, как одного из тюркских
157
языков. При этом дальнее родство выявляется уже на евразийском уровне. Например, в одно
гнездо (группу) попали такие казалось бы совершенно разнящиеся по смыслу татарские
слова как ятарга «лежать» (общетюрк.), диван (перс.), фөрьяд «вопль, стенание» (перс.) и
кәнфит «конфета» (из русского языка через немецкий из латыни). Все они восходят к
праевразийскому (ностратическому) корню *д’ ~ *дғ «класть». В сносках-комментариях
даны этимологии слов с возведением их (где возможно) к древнейшему корню и показаны
иные производные того же корня, пришедшие в татарский язык другим путем.
Отметим, что ссылки играют важнейшую роль в данном словаре, составляя половину его
объема. Возможно, именно ссылки будут представлять особый интерес, поскольку здесь
приведены мнения крупнейших лингвистов (тюркологов, арабистов, индоевропеистов) о
происхождении того или иного слова. В ряде случаев в комментариях приведены народные
этимологии и спорные версии происхождения слов с анализом этих мнений учеными-
тюркологами.
Большая часть словника – общее тюркское наследие. В словарь включены и диалектные
слова, если они имеют интересные параллели в общетюркской лексике. Это слова среднего
(казанского) и западного (мишарского) диалектов, уральских говоров, но не сибирско-
татарского диалекта (по сути, отдельного языка). Например, лексика кряшен (крещеных
татар) любопытна тем, что в ней доля языческого явно преобладает. При этом для нужд
народной религии приспособлены не только древнетюркские реликты, но и заимствованные
у татар-мусульман арабизмы. Сравните, тат.-кряш. кереметь «языческое капище; священная
роща» от тат. кәрамәт «чудо».
Попутно отметим, что приведённый в словаре материал привлечет внимание и к решению
ряда орфографических проблем. Например, к назревшей необходимости введения
общетюркских норм написания сложных слов (например, тимер казык – тимерказык
«Полярная звезда; север») и заимствований (тат. сурәт / сүрәт, каз. сурет, уйг. сүрәт
«изображение»).
Задача данного словаря – показать лексические связи татарского языка как с тюркским
миром от древнейших времен до современности, так и с внешними языками, оказавшими на
него влияние. В первую очередь, это языки арабский, персидский и русский. Сходные
процессы заимствования характерны для большинства тюркских языков, что нашло
отражение в словаре.
Словарь исторически однокоренных слов татарского языка предназначен для широкого
круга читателей, интересующихся историей тюрков и их языков. В качестве справочного
пособия словарь поможет этимологическим исследованиям тюркологов и, можно надеяться,
будет способствовать раскрытию белых пятен в истории тюркских языков.
Словарь реализован в виде мультимедийного программного продукта с использованием
программной технологии создания электронных словарей.
3. О программной технологии создания электронных словарей
За период от разработки в НКО "ИНСАН" первых вариантов электронных словарей с 2007
г.до настоящего времени было испытано несколько версий программной реализации
технологической цепочки создания словарей. Это был естественный процесс. За это время
существенно изменилась компьютерная база, изменились операционные системы,
трансляторы программ, появились более мощные редакторы текстов, в инструментальных
программных средствах обеспечена возможность работать с UNICOD-ом. Это
стимулировало принятие решения о разработке новой технологической цепочки
программных средств для реализации электронных мультимедийных словарей для тюркских
языков и приложений на их основе. Этот процесс непрерывного обновления, развития и
совершенствования программных технологических средств объективно закономерен и
продолжается по настоящее время.
Создание электронного словаря проходит ряд этапов. На подготовительном этапе
формируется исходный текст словаря. Словари могут быть различного назначения –
158
дву(много)язычные, фразеологические, толковые и др. На этом этапе осуществляется в
основном лингвистическая проработка словаря: составление словарных статей, выбор их
структуры, информационных полей и пр., производится их заполнение соответствующими
данными. Отметим, что при этом структура словарной статьи остается неизменной для всех
словарных статей данного словаря. Естественно, она может измениться для других типов
словарей. Исходный текст нового словаря может создаваться в отсутствии прототипа с
"чистого листа", как в случае со словарем [7]. Часто исходный текст словаря заимствуется
из ранее изданных «бумажных» словарей. В электронном переиздании «бумажного»
словаря структура словарных статей при необходимости может быть изменена, например,
добавлены новые информационные поля. Лингвистическая проработка словарных статей на
подготовительном этапе производится с помощью специальных сервисных программ,
призванных максимально облегчить подготовительную работу лингвиста, в частности,
обеспечить быстрый доступ к справочной информации. Результатом подготовительного
этапа является лингвистически выверенный текст словаря.
На следующих этапах программная технологическая цепочка включает программы
разбора текста словаря (парсер), заполнения базы данных, подготовки звуковых файлов,
выполнения других операций по проверке целостности и защите базы данных. Программа
разбора текста имеет ряд режимов работы, предназначенных для проверки текста с целью
выявления и устранения нарушений принятой структуры словарных статей. В этих режимах
выводятся фрагменты текста с обнаруженными ошибками, указывается их местоположение.
Нарушения могут быть самыми различными, например, отсутствие данных в некоторых
информационных полях словарной статьи, перевода, ключевого слова, служебных символов
разметки текста и т.д. Помимо этого, парсер подготавливает таблицу входов для записи
звукового файла перевода.
Заполнение базы данных выполняется после завершения коррекции текста всех словарных
статей процедурой, которую вызывает парсер. Разработчику предоставляется возможность
контроля состояния базы данных, редактирования словарных статей и другие операции
коррекции.
Запись звуковых переводов производится в диалоговом режиме. Диктору- оператору на
экране предоставляется таблица входов. В таблице отмечаются входы, для которых имеются
подготовленные для озвучивания тексты из словарных статей. Диктор выбирает в таблице
вход, для которого нужно записать звуковой файл перевода, инициирует запись и голосом
прочитывает(произносит) показанный ему в диалоговом окне текст. Процесс записи
останавливает также диктор, после чего программа записи автоматически формирует
название файла и записывает созданный звуковой файл в формате MP3 в базу данных. Затем
операция записи повторяется для другого входа. Для удобства контроля записи на экране
все время индицируется уровень шума в помещении. После завершения записи можно
прослушать записанное и при необходимости перезаписать текущий или любой из ранее
записанных звуковых файлов. Можно также воспользоваться специальным фирменным
программным обеспечеиием редактирования звуковых файлов и подавления помех[8].
4. Заключение
1. Разработаны программные технологии создания электронных словарей как вновь
разрабатываемых, так и воссоздаваемых на основе "старых", традиционных бумажных
словарей. Последние в электронном издании обретают "новую" жизнь и обладают зачастую
функциональными характеристиками недоступными для традиционных словарей.
2. При использовании разработанной технологии реализованы автономные
(off-line) русско-татарский [5] ,татарско-русский [7] и русско-башкирский [6]
электронные словари. Подробное описание этих словарей и руководство пользователя
приведены в [9].
3. Описанная программная технология может быть использована и для создания других
электронных словарей различных типов, в том числе электронного переиздания тюркских
159
словарей [1-4] на латинице. При этом учет особенностей вновь создаваемого или
переиздаваемого словаря производится при его лингвистической проработке на
подготовительном этапе. На остальных этапах технологическая цепочка остается
практически неизменной.
4. Словарь (приложение) может быть использован как основа для создания других
приложений, например, словарей обучения произношению, переводу и автоматическому
чтению текстов, создания мультимедийных учебников и др.
Литература
1. Кенесбаев С.К. Фразеологический словарь казахского языка //изд-во "Гылым", Алма-
ата, 1977, 712 с. (Более 10 тыс. фразеологических единиц).
2. Юдахин К.К. Киргизско-русский словарь // изд. "Сов. энциклопедия",1965, 976 с.(Около
40 тыс. слов)
3. Чарыяров Б., Алтаев С. Большой русско-туркменский словарь // В 2-х томах,т.1 816 с,
т.2 752с., 1986, изд-во "Русский яз."
4. Хамзаев М.Я. (ред.) Толковый словарь туркменского языка // Ашхабад, 1962.
5. Ахунзянов Э.М., Газизов Р.С., Ганиев Ф.А. и др. Русско-татарский словарь // Изд-во "
Русский яз.",736 с.,1984,1985, 1991 - (Около 47 тыс. слов).
6. Ураксин З.Г. Русско-башкирский словапрь // В 2-х томах. т.1 808 с, т.2 680 с, изд-во
"Башкирская энциклопедия", Уфа, 2002.
7. Сакаев А.Р. Татарско-русский словарь исторически однокоренных слов // Рукопись
словаря , 2013 (в печати).
8. Sony Sound Forge Pro 10 User's Manual.
9. Сайт www.tatar-tele.info.
ТАШПОЛОТ САДЫКОВ
1
, БАКЫТ ШАРШЕМБАЕВ
2
1
К.Карасаев атындагы Бишкек гуманитардык университети,
2
Кыргыз-түрк Манас университети, Қыргызстан
«МАНАС» ЭПОСУНУН УЛУТТУК КОРПУСУН ТҮЗҮҮ ЖӨНҮНДӨ
Кыргыз элинин улуттук сыймыгы, көөнөрбөс көрөңгөсү, улуу мурасы жана соолбос
руханий булагы болгон Манас дастаны миңдеген жылдар бою атадан балага, муундан муунга
өтүү аркылуу биздин күнгө жетип олтурат. Дастаныбыз көлөм жактан дүйнөдө теңдешсиз,
мазмун жактан элибиздин көөнө тарыхын, алмустактан берки рухий жана заттык
маданиятын чагылдырган, поэтикалык жактан көркөм сөз өнөрүнүн эң жогорку деңгелине
жеткирилген жалпы адамзаттык маанидеги эстелик экени талашсыз. Муну «Белес-белден
бороондоп, Беш удургуп өткөн Сөз. Баласына атасы Мурас кылып кеткен Сөз. Эли сактап
жүрөккө, Биздин күнгө жеткен Сөз» деп дастаныбыз өзү бир тастыктаса, «Манас» эпосу
жалпы адамзаттык маанидеги терең маани-мазмунга сугарылган көркөм сөз өнөрүнүн туу
чокусу, дүйнөлүк көчмөндөр цивилизациясынын кенчи, кыргыз элинин улуттук аң-сезиминин
манифести жана көркөм идеологиясы, Алатоолук ак калпак калктын турмушунун
энциклопедиясы болуп эсептелет. Поэтикалык күчү, эпикалык арымы жана көлөмү
жагынан дүйнөдө теңдеши жок улуу дастан. «Манас» - байыркы кыргыз рухунун туу
чокусу» деп залкар жазуучубуз Чыңгыз Айтматов дагы бир ирет тастыктайт.
Бүгүнкү күндө 2,5 миллиондон ашуун ыр сабын камтыган эпостун токсонго жуук
варианты Улуттук Илимдер академиясы Ч.Айтматов атындагы тил жана адабият инстутунун
колжазмалар фондунда сакталып турса, миллиондон ашуун ыр сабын камтыган текст
160
кытайлык кандаштарыбыздан катталганы анык. Эбегейсиз зор көлөмдөгү 3,5-4 миллион ыр
сабын ичине катыган бул казынабызда элибиздин эчен кылым карыткан улуттук маданияты,
дүйнө кабылдоосу, менталитети, чарбачылыгы, устачылык, аңчылык, саяпкерлик, сынчылык
өнөрү, үрп-адат, салт-санаасы, адеп-ахлак, жүрүм-туруму, ишеними, диний, мифологиялык,
философиялык түшүнүктөрү, экологиялык, астрономиялык, географиялык, медициналык
билими, жоокерчилик өнөрү, курал-жарак, буюм-тайымдары, үй эмеректери, кийим-
кечектери, аш-той, тамаша-зоок, шаң-салтанаттары, коңшу тайпалар менен болгон
мамилелери, атажурттун ажайып кооздугу, аска-зоо, тоо-таш, жайлоо-төр, өрөөн-өңүр, талаа-
түз, өзөн-сууларынын көрк-касиети, каармандардын кулк-мүнөзү, кыймыл-аракетти, келбет-
көрүнүштөрү, болочок урпактарды атажурттун атуулу, эрктүү, күчтүү, кайраттуу, чапчаң
кылып тарбиялоодо эрсайыш, балбанкүрөш, оодарыш, көкбөрү, аламан байге, жорго салыш
сыяктуу элдик оюндардын ролу таамай сүрөттөлүп, таасирдүү көркөм сөз менен берилген.
Улуттук тилибиздин мартабасын мамлекеттик деңгелге көтөрүүдө, адабий норманы эне
тилдин төл кыртышында өркүндөтүүдө, тилибизди илим-техника-технология, башкаруу-
өндүрүш-бизнес тилине айлантып, дүйнөлүк маалыматтар мейкиндигине алып чыгарууда да
даңазалуу дастаныбыздын мааниси баа жеткис. Манас эпосу, акыйкатта да, кыргыз тилинин
көөнөрбөс алтын казынасы, анда катылган эбегейсиз сөз байлыгы, көркөм сөздүн асыл
берметтери, аңыз-уламыш, жөө жомок, санжыра, макал-лакаптары эне тилибиздин
дүйнөдөгү эң бай, кооз, таасирдүү, элестүү жана туюнтуу кудурети мол тилдердин катарына
жатарын кадиксиз тастыктайт.
Колжазмалар фондундагы эпостун негизги деп табылган нускалары ондон ашуун. Ыр
саптарынын саны боюнча булардын көлөмү төмөнкүдөй:
Нускалар
Манас
Семетей
Сейтек
Бардыгы
Сагымбай
180 378
-
-
180 378
Саякбай
84 830
218 787
196 936
500 553
Шапак
24 588
42 338
14 718
81 644
Тоголок Молдо
53 045
24 390
-
77 435
Багыш
141 147
67 704
5 594
214 445
Молдобасан
57 718
43 102
2 760
103 580
Ибраим
3 731
23 364
7 839
34 934
Мамбет
106 002
52 059
43 333
201 394
Шаабай
8 368
-
3 842
12 210
Жакшылык
-
52 136
145 959
198 095
Мамбеталы
26 952
-
-
26 952
Ыса
-
14 763
-
14 763
Жаңыбай
19 445
66 454
-
85 899
Бардыгы
706 204
сап
605 097
сап
420 981
сап
1 732 282
сап
Ал заманыбыздын залкар жазма манасчысы атанган жана кытайлык кыргыздардын өкүлү
болгон Жусуп Мамай атабыз тарабынан жазылган Манастын сегизилтиги 200 миңге жуук ыр
сабынан турат экен. Демек, жакынкы биздин максат – корпустук лингвистиканын
161
жетишкендиктерине таянуу менен «Манас» эпосунун улуттук корпусун түзүү жумушун
колго алуу.
«Манас» эпосунун академиялык басылышын басмадан чыгаруу иши толук бүткөрүлбөй,
учурда улантылып жаткандыктан, улуттук корпуска улуу манасчыларыбыз Сагымбай
Орозбак уулу менен Саякбай Карала уулунун мурда жарык көргөн варианттары киргизилди.
Алар төмөнкүлөр:
Сагымбай Орозбак уулу. Манас. 1 китеп. Ф: Кыргызстан, 1978.
Сагымбай Орозбак уулу. Манас. П китеп.Ф: Кыргызстан, 1980.
Сагымбай Орозбак уулу. Манас. Ш китеп. Ф: Кыргызстан, 1981.
Сагымбай Орозбак уулу. Манас. IV китеп. Ф: Кыргызстан, 1982.
Cаякбай Каралаев. Манас. I китеп. Ф: Кыргызстан, 1984.
Cаякбай Каралаев. Манас. II китеп. Ф: Кыргызстан, 1986.
Cаякбай Каралаев. Семетей. I китеп. Ф: Кыргызстан, 1987.
Cаякбай Каралаев. Семетей. II китеп. Ф: Кыргызстан, 1989.
Cаякбай Каралаев. Сейтек. Ф: Кыргызстан, 1991.
Буга кытайлык манасчыбыз Жусуп Мамай тарабынан жазылган нускасы (Манас. Шинжаң
эл басмасы: 2004, 1782 б.) кошумчаланды.
Ошентип, корпуска жүктөлгөн өйдөкү текстердин негизинде эпосто катталган сөздөрдүн
грамматикалык формаларынын толук тизмесин түзүү, ар бир сөздүн грамматикалык
формаларын ошол сөздүн уясына бириктирүү, сөздүктө камтылган бардык бирдиктерди
алфавит тартибинде жайгаштыруу, сөздүн лексикалык маанилерин түркчө которуп берүү, ар
бир сөз менен анын бардык грамматикалык формаларынын кайсы вариантта, канчанчы
бетте, кайсы сапта колдонулгандыгын тастыктаган даректерин көрсөтүү иштери аткарылды.
Демек, мындай сөздүк эпостун китеп түрүндө даярдалган маалымыттар банкы, алфавит
тартибинде жайгаштырылган сөз аркылуу текстке чыгуучу ачкычы катары кызмат кылып,
кыргыз элинин тарыхын, улуттук тилин, этномаданиятын, этнографиясын, менталитетин,
мифологиясын, философиясын, фольклорун, этнопедагогикасын, ата мурастарын, нарк-
дөөлөттөрүн изилдөөгө өбөлгө түзүп, көмөк көрсөтөрү анык.
Сөздүк түзүү үчүн тандалып алынган Сагымбай менен Саякбайдын текстери корпуска
жүктөлгөн соң түпнускадагы ар бир бет көрсөтүлүп, ар бир сапка катар номур ыйгарылды.
Бул, алибетте, сөздүктөгү сөздөн текске чыгуунун төтө жолу.
Иштин экинчи этабында тексте кездешкен ар бир сөз формасы жалпы тизмеде алфавит
тартиби боюнча жайгаштырылып, бардык тексте колдонулган даректерине улам шилтеме
берилип туруу аркылуу эпосто колдонулган сөз формаларынын алфавит тартибиндеги
тизмесин түзүү жана ал тизмедеги ар бир сөздүн дарегин көрсөтүү менен аяктады.
Иштин үчүнчү этабында лематизация маселесин чечүү максаты көздөлдү. Лематизация
деп компьютердин жардамы менен текстеги сөздү (= сөз формасын) анын сөздүктөгү
турпатына (= лексемага, сөзгө) келтирүү процесси аталат. Бирок, тилекке каршы, кыргыз
тили боюнча лематизатор алигиче жасалбагандыктан, текстеги сөз формасын сөздүктөгү
турпатына келтирүү ишин кол менен жасоого туура келди. Бул ишти аткарууда ар кандай
тыбыштык өзгөрүүлөрдөн улам бир сөздүн ар башка грамматикалык формалары алфавит
тартиби боюнча катар жайгашпай, жалпы тизменин баш-аягына чейин чачылып кеткен
учурлар арбын кездешти.
Аларды бир уяга топтоо көп эмгекти жана убакытты талап этти. Маселен, азап сөзүнүн
азабы, азабым, азабын сыяктуу формалары азада, азазил, азай-, азамат, азан сөздөрүнүн
уясынан, ак- сөзүнүн агып, агыптыр сыяктуу формалары адам, адат, адаш, адис, ажар,
азан, азил, азоо, айбан сөздөрүнүн уясынан мурда келет.
Ошентип, текстеги сөздү сөздүктөгү турпатына келтирүүдө бир сөздүн ар башка
грамматикалык формалары бир жерге топтолуп, сөздүн мааниси түркчөгө которулуп,
кийинки сапта сөздүн өзү баш тамгасына чейин кыскартылып, баш тамгадан кийин чекит
коюлуп, сөздүн грамматикалык формаларын уюштуруучу мүчө же мүчөлөрдүн айкашы
алфавит тартибине келтирип, андан соң булардын баарынын колдонуш даректери
162
көрсөтүлүп берилди.
Буга мисал кылып аккаңкы сөзүнүн төмөнкү беренесин келтирүүгө болот:
аккаңкы
eyerin bir türü
К1:229-27, К2:62-58, 148-7, 243-44,
О3:287-27
а.га
К3:201-17, К4:13-94, 124-49, 187-29
а.ны
К1:65-10, 176-90, 189-110, К2:62-61,
К5:66-95, 69-64, 257-14
а.нын
К3:42-68, 100-52, К4:89-14, 96-66, 123-61.
Мында ээрдин бир түрүн билдирген аккаңкы сөзү эпос текстинде өз алдынча сөздүктөгү
турпатында да, -га, -ны, -нын мүчөлөрү уланган жөндөмө формаларында да
колдонулгандыгы ачык көрүнүп турат. Ал эми бул формалардын даректери мындайча
чечмеленет:
а) кош чекитке чейинки К тамгасы Саякбай Карала уулунун, О тамгасы Сагымбай
Орозбак уулунун вариантын билдирсе, андан кийинки сан варианттын канчанчы тому
экендигин билдирет,
б) сызыкчанын сол жагындагы сан бет номурун, оң жагындагы сан сап номурун көрсөтөт.
Эми өйдөкү беренге сереп салсак, анда, маселен, аккаңкы сөзү ушул турпатында
Саякбайдын Каралаевдин 1-томунун 229-бетиндеги 27-сапта, 2-томунун 62-бетиндеги 58-
сапта, 148-бетиндеги 7-сапта, 243-бетиндеги 44-сапта, Сагымбай Орозбак уулунун 3-томунун
287-бетиндеги
27-сапта колдонулгандыгы айкын болот. Аталган сөздүн калган
формаларынын кайсы даректерде кездешкени ушундай эле жол менен тастыкталат.
Иштин жогоруда белгиленген этаптарын ишке ашырууда кыргыз жана түрк
лексикографиясынын калыпташкан салттары эске алынып, бул багытта аткарылган
изилдөөлөр жана сөздүктөр кеңири пайдаланылды. Ошону менен катар эпостун сөз
байлыгын мүмкүн болушунча толук каттоо максатында орфографиянын эски нормаларынан
четтеп, 2002-жылкы кыргыз тилинин жазуу эрежелеринин жаңы редакциясы сунуштаган
нормаларга артыкчылык берилди.
Ошентип, сөздүктү түзүүдө төмөнкү жоболор жетекчиликке алынды:
1. Сөздүккө чыгарылган сөздөр алфавит тартибинде жайгаштырылып, алардын маанилери
түркчөгө которулуп берилет.
2. Кош сөздөр өзүнчө сөз катары сөздүккө чыгарылып, алфавит тартибинде эмес, биринчи
түгөйүнүн уясынан кийинки катарда берилет. Мисалы:
акыл
akıl, us, zihin, zeka
а.га
а.дан
а.ы
а.ына
акыл-айла
hile, kunazlık
акыл-насаат
tavsiye, öğüt.
3. Эпос текстинде айрым кошмок сөздөр бириктирилип да, ажыратып да жазылган.
Кубаты кетип тайтактап,
Куруп турат ал ак куу
К4:19-81
Кабыландын Акшумкар
Аккуу менен алышып
К4:19-96
Ак куу кебин кийинип
Айчүрөк учуп кетти эми
К4:209-83
163
Мындай сөздөр сөздүктө бир бүтүн сөз катары бириктирилип берилди.
4. Энчилүү аттар жалпы аттардан бөлүнбөй, алар менен чогуу алфавит тартибинде
сөздүккө алынат да, адам аты, тулпар аты, жер аты, суу аты сыяктуу түркчө белгилер,
кыскача түшүндүрмөлөр менен коштолот. Мисалы:
албарсты
dev nevinden kadın varlık
а.дай
а.нын
Албүбү
Kanıkey’in uşağı
албыр-
yüzünden nur saçmak, parlamak
а.ып
Алгара
Koñurbay’ın küheylânı
а.га
а.ны
а.сын.
5. Жер-суу аттары адам жана айбан аттарынын үлгүсүндө бириктирилип берилет.
Мисалы:
Аксарай
Kanıkey’in sarayı
Аксаргыл
Manas’ın savaş atı
Аксеңир
yer adı
Аксур
küheylân adı
Аксуу
yer adı
Акталаа
yer adı
Актелки
küheylân adı
Актүз
yer adı
Баркөл
göl adı
Ботомойнок
yer adı
Итөлбөс
yer adı.
6. Омонимдер текстен териштирилип, омонимдик катарга топтолот да, маанилери түркчө
которулуп жайгаштырылат. Эгерде омонимдик катарда этиш сөз бар болсо, анда этиш сөз
бул учурда да, калган бардык учурларда да аягына сызыкча коюлуп берилет. Мисалы:
бута
çalı
бута
hedef, nişan
бута
kumaş türü
бута-
budamak.
7. Эпос текстинде колдонулган бир катар сөздөрдүн грамматикалык формалары өз ара
омонимдик катышка кириптер болот. Мисалы:
атам (менин атам)
атам (мен атам)
атты (атты мин)
атты (ок атты).
Айрым учурларда бир сөздүн грамматикалык формасы менен экинчи бир сөздүн өзү
текстеги омонимдик катышты түзөт. Мисалы:
асыл (туюк мамиле)
асыл (кымбат баалуу)
атым (менин атым)
атым (бута атым).
Мындай учурлар омонимдик катыштын булагы болгон мүчөлөрдү бөлүп алып, тийиштүү
сөздүн уясына жайгаштыруу же сөздүн маанисине түшүндүрмө берүү жолу менен чечилет:
асыл
yüce soylu
асыл-
asılmak, takılmak
ат
at
а.ым
а.ты
ат-
atmak, fırlamak
а.ам
а.ты
164
ата
baba
а.м
атым
bir ok atımlık yer.
8. Четчил каткалаң үнсүз менен аяктаган сөздөр таандык формаларда (сал. аспап–аспабы,
белек–белеги) соңку үнсүзүн жумшартат. Бирок буга карабастан алар негизги сөздүн уясында
берилет. Мисалы:
аспап
alet
а.ың
белек
armağan, hediye
б.и
б.им
б.ин
б.ке
б.ти.
9. Айрым сөздөргө мүчө жалганганда соңку муундагы кууш үндүүсүн жоготуп, сөздүн
негизи тыбыштык жактан өзгөрөт. Мындай сөздөрдүн кыскарган турпаты да, толук турпаты
да которулуп, өзүнчө сөз катары алфавит тартибинде берилет. Мисалы:
айб
suç, kahabat
а.ы
а.ым
айл
köy
а.ы
а.ым
а.ыңа
айыл
köy
а.га
а.дан
а.ын
а.ынан
айып
suç, kahabat
а.ка
а.ы
а.ын.
10. Эпос текстинде арк-нарк, айза-найза, амыз-намыс, араб-арап, арабыча-арапча, бери-
пери, байгамбар-пайгамбар сыяктуу бир сөздүн ар башка диалектилик варианттары
кездешет. Бул варианттардын ар бири бирдей котормо менен коштолуп, өзүнчө сөз катары
алфавит тартибинде реестрге чыгарылат.
11. Эгерде сөздүккө алынган айрым сөздөрдүн маанисин ачып берүү кыйынчылык
туудурса, анда мындай сөздөн кийин толкун сызыкча коюлат да, айкашкан сөзү кошо
көрсөтүлөт. Мисалы:
андис ~ мерген
keskin nişancı
анжы беш ~
beşe dallanma
байман ~ күрүч
pirincin türü
байбайлуу ~ кундуз
su samuru
бас ~ кел-
denk gelmek.
12. Тууранды сөздүн маанисин ачып берүү үчүн ал сөздөн кийин толкун сызыкча коюлуп,
аны менен айкашкан жардамчы этиш кошо берилет. Мисалы:
булт ~кой-
fırlamak
бүлк ~эт-
silkinmek
былк ~эт-
kımıldamak.
13. Ат атоочтун туура эмес формалары өзүнчө сөз катары алфавит тартибинде берилет.
Мисалы:
165
ага
ona
анын
onun
буга
buna
буган
buna.
14. Башкы муунун кайталоо жолу менен жасалган күчөтмө сөздөр реестрге чыгарылат.
Мисалы:
аппак
bembeyaz
бүпбүтүн
büsbütün.
15. Мааниси түшүнүксүз болгон айрым сөздөр болжолдоп которулуп, керектүү учурда
контексти чогуу көрсөтүлүп, андан соң суроо белгиси менен коштолуп берилет. Мисалы:
батын~ ы ачык эр Кошой
cesur Koşoy (?)
бүйөнгө (~ тийип мойнуна)
ok, mermi (?)
бөздө -аркар атса ~п ал-
dağ koyunu ateş etse beze
sararak (?) almak.
Ошентип, жогорудагы принциптердин негизинде түзүлгөн «Манас» эпосунун чоң
көрсөткүч сөздүгү Түркияда Түрк тил куруму тарабынан басылып, дүйнөлүк коомчулукка
сунушталганын жана Жусуп Мамай нускасы боюнча түзүлгөн көрсөткүч сөздүк да басмага
даяр турганын белгилей кетмекенибиз оң. Эгерде бул үч нусканы салыштыра келсек, анда
төмөнкүдөй статистикалык даректерге күбө болобуз:
1. Нускалардын көлөмү. Жусуп Мамай нускасынын текстин компьютерге жүктөп, анын
көлөмүн аныктоо маселесин койгонубузда аталган варианттын көлөмү 750904 сөз
колдонушун камтыры айкын болду. Бул, алибетте, эбегейсиз зор көлөм. Анткени ал
Сагымбай менен Саякбайдын өйдөкү варианттарын кошуп эсептегендеги 598956 сөз
колдонуш көлөмдөн да ашып түштү. Сал.:
Жусуп
Мамай
Сагымбай
Саякбай
Сагымбай+Саякбай
750 904
163 962
434 994
598 956
2. Сөз формасынын жалпы саны. Эпосто колдонулган сөз формасынын тизимин алып,
тизимге камтылган бирдиктерди эсептей келгенибизде Ж.Мамайдын вариантында 58690 сөз
формасы катталганы анык болду. Эгерде бул көрсөткүчтү салыштыра келсек, Сагымбай
менен Саякбайдын варианттары сөз формасы байлыгы жагынан Ж.Мамайдын нускасынан
алда канча төмөн турары аныкталды. Сал.:
Жусуп
Мамай
Сагымба
й
Саякбай
(бардыг
ы)
Сагымба
й
Саякбай
Манас+Се
мет.+
Сейтек
Сагымбай
Саякбай
(бирдейлери
)
58 690
52 703
27 424
39 089
13 808
Көрүнүп тургандай, Жусуп Мамай нускасы, омонимдерди ажыратпаган учурда да, сөз
формаларынын молдулугу жагынан Сагымбай менен Саякбайдын варианттарынын ар
биринен болжол менен 1,5-2 эсеге ашып түшсө, эки вариантты бириктиргендеги бардык сөз
формаларынан 6000 ге ашып түштү.
3. Сөз байлыгынын жалпы саны. Сагымбай менен Саякбайдын варианттарынын негизинде
түзүлгөн чоң көрсөткүч сөздүктө 20 миң чамалуу сөз камтылганы анык болду. Ал эми Жусуп
Мамай нускасынын сөз байлыгын аныктоо үчүн дагы кошумча илик абзел.
Жыйынтыктап айтканда, «Манас» эпосунун улуттук корпусун түзүү жумушу учурда
улантылууда. Бул корпус келечекте кыргыз тилинин улуттук корпусунун бир бөлүгү болору
анык. Учурда 4 млн.дон ашуун сөз колдонушту камтыган ар кандай жанрдагы текстер
корпуска жүктөлүүдө. Мындай олуттуу ишти аркалоодо корпустук лингвистикада топтолгон
бай тажрыбаны чыгармачылык менен өздөштүрүү керектиги айдан ачык.
166
О. МАХАМБЕТОВ, А. МАКАЖАНОВ, Ж. ЕСЕНБАЕВ, Б. МАТКАИМОВ,
И. АБЫРГАЛИЕВ, А. ШАРАФУДИНОВ
Nazarbayev University Research and Innovation System, Astana, Kazakhstan
КОРПУС КАЗАХСКОГО ЯЗЫКА: МЕТОДИКА СБОРА, СТРУКТУРИРОВАНИЯ И
РАЗМЕТКИ ДАННЫХ
Аннотация
В данной работе мы представляем вашему вниманию Текстовый корпус казахского языка
(КК – казахский корпус), что является одной из первых попыток, предпринятой местным
научным сообществом составить подобный корпус. Корпус содержит более 135 миллионов
различных словоформ и состоит из более чем 445 тысяч документов, сгруппированных по
пяти стилистическим жанрам: художественный, публицистический, официально-деловой,
научный и разговорный. Наряду с основной частью КК содержит: (1) аннотированный под-
корпус, содержащий сегментированные документы в формате eXtensible Markup Language
(XML), в котором закодированы полная морфологическая, синтаксическая и структурная
разметки текста; (2) под-корпус с аннотированными аудио данными. КК оснащен
электронной навигационной системой, доступной через Интернет, что облегчает поиск и
обработку искомой информации. Корпус является открытым в обоюдном порядке: (1)
данные корпуса являются свободно доступными для некоммерческого использования; (2)
каждый желающий может помочь советом по улучшению, а также пожертвовать текст.
1
Введение
Эта статья описывает теоретические и практические вопросы испытанные во время
разработки Корпуса казахского языка. Казахский язык – агглютинативный язык с высоким
фактором инфлекции (генерации) словоформ, который относится к тюркской группе. Это -
официальный государственный язык Республики Казахстан и родной для более чем 10
миллионов людей во всем мире. Но тем не менее, вплоть до начала 90-х годов 20-го века , в
связи с историческими событиями в советский период , русский язык был преобладающим
языком в устной и письменной коммуникации в Республике Казахстан. Этот факт в свою
очередь создал проблемы в представлении казахского языка в различных областях таких как
наука, развлечения, официальная документация и т.д. По этой причине , при сборке корпуса,
мы должны были сгруппировать категорий, которые обычно представляются в виде
отдельных корпусов, на пять стилистических жанров. Кроме того, в отличие от других
корпусов (Aksan и др., 2012 . ; Chen , 1996), мы включили тексты в том виде в каких они
были доступны, то есть мы не пытались заполнить предопределенный набор категорий.
Значительная часть материалов была собрана с использованием веб краулеров (программа
для автоматизированного сбора информации) , адаптированных под специализированные
источники и пожертвованных текстов.
КК также содержит, аннотированный вручную, суб-корпус с морфо-синтаксическими и
структурными наценками, которые кодируется в XML, следуя общим понятиям, изложенным
в CES (IDE,1998). Наши синтаксические множества тегов содержат набор синтаксических
категорий, четко определенных в классической казахской грамматике, и множество тегов
частей речи (POS) основаны на позиционной системе, в которой теги образованы
конкатенациями POS слова форм и цепями кодированных лингвистических свойств, таких
как количество , случай, голос и т.д. Аннотации были проведены вручную студентами
факультета филологии, специализирующихся в морфологии и синтаксисе. Пытаясь сделать
процесс аннотации максимально комфортным, мы разработали веб инструмент с удобным
167
интерфейсом для аннотации . Мы позаботились о качестве аннотации, и для этого
разработали систему рекомендации, которая впоследствии увеличела скорость разметки.
В рамках КК мы также скомпилировали аннотированный корпус чтения речи (RSC ),
которая включает в себя аудио записи слов, фраз, предложений (от всех жанров), новостных
статей и отрывков из книг, которые были тщательно отобраны из основной части корпуса.
Все текстовые материалы были прочитаны добровольцами разных возрастов, полов, уровней
образования из разных регионов. Каждый аудиофайл сопровождается файлом этикетки и
соответствующим транскриптом текста. Кроме того, некоторые транскрипты были
грамматически аннотированными, т.е. в дополнение к словоуровневой сегментации
аудиоинформации часть наших данных имеет лексические и морфо-синтаксические
аннотации. В общей сложности RSC содержит 10GB или более чем 40 часов речи.
Эта статья организована следующим образом. Раздел 2 рассматривает существующую
работу. Раздел 3 предоставляет подробную информацию о первичном корпусе. Разделы 4 и 5
подробно описывают аннотированный текст и речь суб-корпуса соответственно. Наконец,
мы делаем выводы и обсуждаем будущую работу в разделе 6.
2 Схожие работы
Корпусная лингвистика стала популярной областью исследований вслед за работой
Francis & Kucera(1979) с Brown University по построению первого корпуса. За последние два
десятилетия исследователи по всему миру построили множество корпусов, в том числе
известный Британский Национальный Корпус (БНК) (Бернард, 2007), разработанный в 1991-
94 годах, и содержащий более 100 миллионов слов письменной и устной речи из различных
видов источников(Ide and Macleod, 2001; Al-Sulaiti and Atwell, 2006). Все материалы
выбирались на основе трех независимых критериев(носитель, жанр и временной период) и
заранее определены количественные пропорции между этими критериями. Разговорная
часть состоит из транскрипций неофициальных бесед и разговорного языка в различных
контекстах. В БНК проведена работа по аннотации на части речи с помощью инструмента
CLAWS, разработанного в университете Lancaster. БНК считается сбалансированным
корпусом, и большинство исследователей используют ее модель для собственных
разработок, такие как: Turkish National Corpus (Aksan et al., 2012), Korean National Corpus
(Kim, 2006).
Национальный корпус русского(РНК) языка был создан группой специалистов из
различных сфер под руководством Института русского языка им. В. В. Виноградова РАН
(Ruscorpora, 2003). Корпус охватывает писменные (художественная и религиозная
литература, мемуары, научные публикации и другие) и аудиоматериалы(публичные
выступления и частные беседы) периода середины XVIII века до начала XXI века. В данный
момент корпус содержит более 350 мил. лемматизированных и размеченных частями речи
словоформ. Корпус также включает семантические тэги для слов и текстов (Apresjan et al.,
2006). Кроме основной части в РНК имеются следующие подкорпусы: глубоко
аннотированный (синтаксический) корпус, содержит тексты снабженные морфо-
синтаксической разметкой основанной на лингвистической модели «Смысл <=> Текст» И. А.
Мельчука и А. К. Жолковского; корпус параллельных текстов - англо-русский, немецко-
русский, украинско-русский, белорусско-русский; корпус диалектных текстов; корпус
поэтических текстов и другие.
3
Основная часть корпуса
КК представляет собой первую попытку построить масштабный корпус общего значения,
который описывает текущее состояние Казахского языка. Корпус содержит более 135
миллионов различных словоформ и состоит из более чем 445 тысяч документов,
сгруппированных по пяти стилистическим жанрам: (1) художественный (Казахские
литературные тексты, охватывающие период с начала ХХ века до современности); (2)
публицистический (периодика и новостные статьи из Интернет-источников, опубликованные
168
за последнее десятилетие); (3) официально-деловой (приказы, акты, и другие официальные
документы, опубликованные в период с 2009 до 2012гг.); (4) научный (книги, монографии, и
работы на различные научные темы); (5) разговорный (популярные блог-посты, изданные с
2009 года поныне). Обращаем внимание, что мы намеренно не ставили жестких ограничений
на конкретные источники данных, жанры и временные периоды. Это объясняется
относительной скудностью данных и причинами, озвученными во введении.
Основными источниками данных послужили веб-сайты, а также оцифрованные книги и
статьи, полученные из общественных и частных библиотек. Для каждого веб-сайта мы
адаптировали веб-краулер, что увеличило точность извлечения служебной информации
(автор, дата, категория, и т.д.)
Данные корпуса распространяются по лицензии, которая согласно закону РК позволяет
распространять некоторые данные целиком (официальная документация, новостные статьи),
и некоторые частично (литература, научные работы, аналитика), при условии, что источники
должным образом указаны.
3
Аннотированный под-корпус
3.1 Разработка тэгсетов
Руководствуясь мировым опытом по созданию тэгсетов, и учитывая специфику
Казахского языка, мы разработали синтаксический (члены предложения) и лексический
(часть речи) тэгсеты.
Синтаксический тэгсет описан в таблице 1, содержащей наименование и описание тэгов,
а также эквиваленты из широко употребляемого тэгсета, Penn tagset.
Таблица 1. Синтаксический тэгсет
№
Тэг
Описание
Эквиваленты Penn tagset
1
S
Простое предложение
S
2
BSS
Главное предложение
S
3
BGS
Зависимое предложение
SBAR, SBARQ
4
BAS
Подлежащее
NP
5
BND
Сказуемое
VP
6
TOL
Дополнение
NP, WHNP
7
ANT
Определение
ADJP
8
PYS
Обстоятельство
PP, WHP, ADVP, WHADVP
9
X
Пустой/неоднозначный член
X
Синтаксическим тэгсетом также предусмотрена разметка фразеологизмов, путем
присвоения тэгу соответствующего бинарного атрибута.
Лексический тэгсет. Казахский язык относится к агглютинативным Тюркским языкам, в
которых словоформы образуются путем присоединения к корню цепочки морфем. Морфемы
характеризуют различные грамматические свойства (лицо, падеж, и т.д.) и несут в себе
важную контекстную информацию, без учета которой лексический разбор может оказаться
не полным.
Сравним варианты лексического разбора одного и того же предложения на трех языках:
Мектепке/существительное бардым/глагол ./.
I/местоимение went/глагол to/предлог school/существительное ./.
Я/местоимение пошла/глагол в/предлог школу/существительное ./.
Как видим, в Казахском варианте отсутствуют местоимение и предлог, которые переданы
морфемами в лице глагола и падеже существительного соответственно:
Мектеп/сущ. + ке/(вин. падеж = предлог «В»)
бар/глагол + ды/(прошед. время) + м/(I лицо = мест. «Я») ./.
169
Для интеграции грамматических свойств в лексический тэгсет, был разработан
позиционный тэгсет, согласно которому, лексическая метка состоит из основного тэга
(развернутая часть речи) и закодированной строки грамматических свойств.
Таблица 2 содержит список грамматических свойств учтенных при создании лексического
тэгсета, где под кардинальностью понимается количество возможных значений
принимаемых данным свойством (например: одушевленность имеет два значения).
Таблица 2. Грамматические свойства, рассматриваемые в лексическом тэгсете
№
Грамматические свойства
Код
Кардинальность
1
Одушевленность
A
2
2
Число
N
2
3
Принадлежность
S
10
4
Лицо
P
8
5
Падеж
C
7
6
Отрицание
G
2
7
Время
T
3
8
Наклонение
M
4
9
Залог
V
5
Наконец, Таблица 3 содержит полный лексический тэгсет, состоящий из 36 базовых тэгов
(исключая пунктуацию), сгруппированных по частям речи. Каждому тэгу соответствует
цепочка грамматических свойств (ГС), а также генеративная емкость (Емк.), т.е. количество
тэгов получаемое от всех возможных комбинаций ГС и базового тэга. Таким образом,
полный тэгсет состоит из 3844 различных тэгов.
3.2 Разработка структуры для разметки текстовых данных
Руководствуясь международными стандартами хранения размеченных данных, учитывая
особенности разработанных тэгсетов, а также специфику собранных данных, был разработан
XMLшаблон разметки.
Согласно шаблону разметка хранится вместе с текстом, но при необходимости может
быть легко отделена. Структура документа подчинена следующей иерархии, выраженной в
наборе правил. Каждое правило состоит из отношения и двух аргументов, где отношения
между аргументами выражают понятие «включать себя» и обозначаются стрелкой, а
аргументами являются конструкции документа. Пример разметки дан в приложении I. Ниже
приведены правила описывающие иерархию конструкций документа:
Фразеологизм → предложение, токен (слово, пунктуация)
Предложение → предложение (главное/зависимое), фразеологизм, токен, прямая речь,
перечисление
Прямая речь → прямая речь, предложение, токен
Перечисление → перечисление, предложение, токен
Достарыңызбен бөлісу: |