Атты І халықаралық конференция ЕҢбектері



Pdf көрінісі
бет7/39
Дата25.12.2016
өлшемі8,57 Mb.
#403
1   2   3   4   5   6   7   8   9   10   ...   39
Тематика:  политическая  и  социальная  жизнь  (политика,  право,  философия);  экономика 
(производство, строительство, бизнес, финансы, коммерция); сельское хозяйство; искусство, 
культура и литература; наука и техника; образование; природа, путешествие; частная жизнь; 
спорт; религия; психология; медицина; красота и здоровье. 
Жанры текстов:  интервью,  беседа,  статья,  очерк,  репортаж,  обозрение,  советы,  письма, 
обзор  печати  (новости  из  других  источников),  поздравления,  художественно-
публицистические жанры (эссе, фельетон, рассказ, стихи, эпиграммы), рецензия. 
По  корпусу  же  прозаических  текстов  нами  выделяются  только  авторы,  названия 
произведений, год издания/завершения работы над произведением.  
Разрабатывемые корпусы текстов башкирского языка по классификации Захарова В.П. [2 
12-13] относятся к следующим типам: 
по типу языковых данных 
 
 
письменный 
по параллельности 
 
 
 
одноязычный 
по критерию литературности   
 
литературный 
по жанру   
 
 
 
 
литературный, публицистический 
по доступности   
 
 
 
свободный доступ 
по разметке 
 
 
 
 
размеченный 
по характеру разметки   
 
 
морфологический, семантический 
объем текстов 
 
 
 
 
полнотекстовый 
Система  морфологической  разметки  обоих  корпусов  ориентирована  на  представление 
всех  регулярных  словоизменительных  грамматических  форм,  не  всегда  отражаемых  и 
совпадающих  с  формами,  принятыми  в  академической  грамматике.  Морфологическая 
информация башкирской словоформы в корпусе включает: а) частеречную характеристику; 
б)  совокупность  морфологических  признаков  по  типу  агглютинативных  аффиксов 
словоизменения, которые подразделяются на именные и глагольные формы
*

Выделяются  12  частей  речи:  имена  существительные,  числительные,  прилагательные, 
наречия,  глаголы,  местоимения,  подражательные  слова,  междометия,  модальные  слова, 
союзы, частицы, послелоги. Эти характеристики указываются в словаре основ. 
Именные  морфологические  признаки  включают  показатели  следующих  15  категорий: 
числа,  падежа,  принадлежности,  сказуемости,  вопросительности,  неопределенности, 
усиления,  притяжательности,  уменьшительно-ласкательности,  уподобления,  атрибутивный 
                                                 
*
 Авторы выражают благодарность член-корреспонденту РАН А.В.Дыбо за ценные советы в разработке 
системы морфологических разметок башкирского языка. 

62 
 
локатив  (дағы/тағы),  обладательности,  лишительности,  предельности,  сравнительной 
степени. 
Глагольные  морфологические  признаки  включают  показатели  следующих  11  категорий: 
вопросительности,  неопределенности,  усиления,  отрицания,  наклонения,  деепричастия, 
причастия,  имени  действия,  инфинитива,  хабитуалиса  (сан/-сән:  барыусан,  үсегеүсән), 
образования абстрактных субстантивов (-лыҡ/-лек: етерлек, алырлыҡ). 
В  корпусе  размечаются  следующие  подкатегории  для  глагольных  форм:  1)  времена 
(настоящее  время,  будущее  время:  будущее  неопределенное  время,  будущее  определенное 
время,  прошедшее  время:    прошедшее  неопределенное  время,  прошедшее  определенное 
время, предпрошедшее определенное время –ғайным/-гәйнем); 2) подкатегория лица (1-3); 
3) подкатегория числа (ед., мн.). 
Для именных форм выделяются следующие подкатегории: 1) подкатегория лица (1-3); 2) 
подкатегория числа (ед., мн.).  
Морфологический 
анализатор 
корпуса 
реализован 
на 
основе 
алгоритма 
последовательного  вычленения  из  словоформы  букв  и  сравнения  остатка  словоформы  и 
вычлененного фрагмента со словарями основ и аффиксов башкирского языка.  
Для  правильной  идентификации  основы  и  аффиксов  используются  грамматические 
фильтры: 1. Фильтр соответствия фонетической структуры аффикса фонетической структуре 
основы  2.  Фильтр  соответствия  сочетаний  аффиксов  нормативным  правилам.  Данный 
фильтр  основывается  на  списках  возможных  моделей  сочетания  словоизменительных 
аффиксов  башкирского  языка,  которые  были  нами  ранее  рассмотрены  в  одной  из  наших 
работ [60]. 3. Фильтр графической передачи на стыках фонем. 
Словарь  основ  включает  нарицательные  и  собственные  слова.  Нарицательная  часть 
словаря  основ  состоит  из  60  тыс.  единиц,    включает  лексику  литературного    башкирского 
языка.  Часть  имен  собственных  словаря  включает  имена,  фамилии,  отчества,  клички 
животных и людей, географические названия башкирского и русского языков, имеет объем 
порядка 20 тыс. единиц.  
В  словарях  основ  указаны  части  речи,  типы  нарушений  сингармонизма  и  возможные 
остатки основ при словоизменительных процессах и прочие варианты.  
Прект  национального  корпуса  башкирского  языка  художественной  прозы  позволяет 
производить следующие операции: 

 
поиск словоформы, 

 
поиск леммы, 

 
поиск грамматических категорий словоизменений, 

 
поиск грамматических подкатегорий, 

 
поиск сочетаний грамматических категорий,  

 
поиск сочетаний грамматических подкатегорий, 

 
поиск сочетаний словоформ, 

 
поиск сочетаний лемм, 

 
выдача списка небашкирской лексики (вкраплений по языкам источникам), 

 
построение частотного словаря словоформ, 

 
построение частотного словаря лемм. 
Сегодня проект корпуса прозаических текстов активно используется сотрудниками отдела 
языкознания при составлении многотомного академического толкового словаря башкирского 
языка. 
Перед коллективом лаборатории линвгистики и информационных технологий ИИЯЛ УНЦ 
РАН в 2013 г. стоят следующие задачи: 
1)
 
доведение объема корпуса до 20 миллиона словоупотреблений
2)
 
 разработка системы выдачи статистических распределений по любому заданному 
пользователем подкорпусу;  
3)
 
разработка  системы  выдачи  графических  представлений  статистических 
распределений. 

63 
 
Литература 
1. 
Рыков 
В.В. 
Прагматически 
ориентированный 
корпус 
текстов//Тверской 
лингвистический  меридиан,  Тверь,  1999  (http://rykov-cl.narod.ru/t.html,  дата  обращения: 
17.06.2013). 
2. Захаров В.П. Корпусная лингвистика: Учебно-методическое пособие. – СПб., 2005. – 48 
с. 
3.  План фундаментальных исследований Российской академии наук  на период  2011-2025 
гг. URL:http://www.ras.ru/scientificactivity/plan2025.aspx (дата обращения: 17.06.2013). 
4. Классификатор РФФИ. URL:http://scs.viniti.ru/rubtree/main.aspx?tree=RFFI&cod=06 (дата 
обращения: 17.06.2013). 
5.  LDC  Top  Ten  Corpora  (мультимедийные  корпусы  английского  языка).  URL: 
http://www.ldc.upenn.edu/Catalog/topten.jsp (дата обращения: 17.06.2013).  
6.  Chinese  Broadcast  Conversation  Speech  (мультимедийный  корпус  китайского  языка). 
URL: 
http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId= 
LDC2013S04 
(дата 
обращения: 17.06.2013).  
7.  The Corpus of  Spontaneous  Japanese  (мультимедийный  корпус  японского  языка).  URL: 
http://www.ninjal.ac. 
jp/products-k/katsudo/seika/corpus/public/index.html 
(дата 
обращения 
17.06.2013).  
8.  The  Spoken  Turkish  Corpus  (vультемидийный  корпус  разговорного  турецкого  языка). 
URL:http://stc.org.tr (дата обращения: 17.06.2013). 
9. Фонетический корпус спонтанной эстонской речи. URL:http://www.murre.ut.ee/phonetic-
corpus (дата обращения: 17.06.2013). 
10. 
Фонетический 
немецкого 
разговорного 
языка 
URL:http://dsav-wiss.ids-
mannheim.de/korpora/pf/pf _doku.htm (дата обращения: 17.06.2013). 
11. 
Фонетические 
корпусы 
русского 
и 
польского 
языков 
URL:http://www.voicemethods.com/new/databases/corpuses.php3 (дата обращения: 17.06.2013). 
12.  Людовик  Т.В.,  Робейко  В.В.,  Пилипенко  В.В.  Автоматическое  распознавание 
спонтанной  украинской  речи  (на  материале  акустического  корпуса  украинской  эфирной 
речи)//  Компьютерная  лингвистика  и  интеллектуальные  технологии:  По  материалам 
ежегодной Международной конференции «Диалог» (Бекасово, 25 - 29 мая 2011 г.). Вып. 10 
(17).- М.: Изд-во РГГУ, 2011. С.478-489.  
13.  Крючкова  О.  Ю.,  Гольдин  В.  Е.  Корпус  русской  диалектной  речи:  концепция  и 
параметры  оценки/  Компьютерная  лингвистика  и  интеллектуальные  технологии:  По 
материалам  ежегодной  Международной  конференции  «Диалог»  (Бекасово,  26–30  мая  2010 
г.). Вып. 9 (16). — М.: Изд-во РГГУ, 2010. С..359-368.  
14. 
Das 
Deutsche 
Referenzkorpus 
(DeReKo) 
URL:http://www.ids-
mannheim.de/kl/projekte/korpora (дата обращения: 17.06.2013). 
15.  British  National  Corpus  (BNC).  URL:http://www.natcorp.ox.ac.uk  (дата  обращения: 
17.06.2013). 
16.  The  corpus  of  contemporary  american  english  (COCA).  URL:http://corpus.byu.edu/coca 
(дата обращения: 17.06.2013). 
17. 
Корпус 
китайского 
языка. 
(LIVAC 
Synchronous 
Corpus). 
URL:http://www.rcl.cityu.edu.hk/livac (дата обращения: 17.06.2013). 
18. Magyar Nemzeti Szövegtár (корпус венгерского языка). URL:http://corpus.nytud.hu/mnsz 
(дата обращения: 17.06.2013). 
19.    Corpus  del  español  (корпус  испанского  языка).  URL:http://www.corpusdelespanol.org 
(дата обращения: 17.06.2013). 
20.  Сorpus  di  riferimento  della  lingua  italiana  scritta  contemporanea  (“CoLFIS”)  (корпус 
итальянского языка) URL:http://www.ge.ilc.cnr.it/dizionari.php (дата обращения: 17.06.2013). 
21. Český národní korpus (ČNK) (чешский национальный корпус). URL:http://ucnk.ff.cuni.cz 
(дата обращения: 17.06.2013). 

64 
 
22. Национальный корпус русского языка. URL:http://www.ruscorpora.ru (дата обращения: 
17.06.2013). 
23. Польско-украинский параллельный корпус. 
 
URL:http://www.domeczek.pl/~polukr/ 
index.php?option=welcome (дата обращения: 17.06.2013).  
24.  Польско-русский  параллельный  корпус.  URL:http://pol-ros.polon.uw.edu.pl  (дата 
обращения: 17.06.2013).  
25.  Englesko-crnogorski  paralelni  korpus  (черногорско-английский  параллельный  корпус). 
URL:http://www.eiprevod.gov.me/korpus (дата обращения: 17.06.2013).  
26. Dutch  Parallel  Corpus (DPC)  (нидерландско-французский  параллельный  корпус). 
URL:http://dpc.inl.nl/indexd.php (дата обращения: 17.06.2013).  
27.  Japanese-English  Parallel  Corpus  (японско-английский  параллельный  корпус). 
URL:http://www.manythings.org/corpus (дата обращения: 17.06.2013). 
28.  European  Parliament  Proceedings  Parallel  Corpus  1996-2011  (параллельный  корпус 
слушаний Европарламента). URL:http://www.statmt.org/europarl дата обращения: 17.06.2013). 
29. 
Corpus 
Albaruthenicum 
(корпус 
научных 
белорусских 
текстов). 
URL:http://grid.bntu.by/corpus/  (дата обращения: 17.06.2013).  
30.  Zientzia  eta  Teknologiaren  Corpusa  (научно-технический  баскский  корпус). 
URL:http://www.ztcorpusa.net/cgi-bin/kontsulta.py (дата обращения: 17.06.2013). 
31.  Корпус  русских  публицистических  текстов  второй  половины  XIX  века. 
URL:http://smalt.karelia.ru/corpus/index.phtml (дата обращения: 17.06.2013).  
32. 
Компьютерный 
корпус 
текстов 
русских 
газет 
конца 
ХХ 
века. 
URL:http://www.philol.msu.ru/~lex/corpus/ (дата обращения: 17.06.2013).  
33.  Romanian  corpus  (корпус  румынской  прессы).  URL:http://corp.hum.sdu.dk/cqp.ro.html 
(дата обращения: 17.06.2013). 
34.  Поэтический  подкорпус  НКРЯ.  URL:http://www.ruscorpora.ru/search-poetic.html  (дата 
обращения: 17.06.2013). 
35.  Баранов  Анатолий  Николаевич  Введение  в  прикладную  лингвистику:  Учебное 
пособие. — М.: Эдиториал УРСС, 2001. — 360 с. 
36.  Плунгян  В.  А.  Зачем  нужен  Национальный  корпус  русского  языка?  Неформальное 
введение // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, С. 6—20. 
37. Поляков А. Е. Технология подготовки информации в Национальном корпусе русского 
языка // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. — М., 
2005, 175—192.  
38. Бадмаева Л.Д., Бадагаров Ж.Б., Цыдыпов Б.З. Общие проблемы формирования корпуса 
бурятского  языка  с.  24-30/Труды  международной  конференции  «Корпусная  лингвистика  – 
2008» 6–10 октября 2008 г., Санкт-Петербург. Санкт-Петербург, 2008.  
39. Корпус 
бурятского 
языка. 
URL:http://web-
corpora.net/BuryatCorpus/search/?interface_language=ru (дата обращения: 17.06.2013). 
40. Куканова В. В. Архитектура метаописания в Национальном корпусе калмыцкого языка 
// Вестник Калмыцкого института гуманитарных исследований РАН. 2011. № 1. С. 139–145. 
41. 
Корпус 
калмыцкого 
языка. 
URL:http://web-corpora.net/KalmykCorpus/search/ 
?interface_language=ru (дата обращения: 17.06.2013). 
42.  Корпус  лезгинского  языка.  URL:http://www.dag-languages.org/LezgianCorpus/search/ 
(дата обращения: 17.06.2013). 
43. Корпус 
осетинского 
языка. 
URL:http://www.ossetic-studies.org/iron-
corpus/search/index.php?interface_language=ru. (дата обращения: 17.06.2013). 
44.  Жұбанов  А.Қ.  Қазақ  тілінің  аннотацияланған  мәтіндер  корпусындағы  етесті  сөздерге 
лексик-морфологиялық белгі-код (белгіленім) қоюдың алғышарттары/”Тілтаным”, 2012. № 1, 
18-25 б. (Журнал Института языкознания им. А.Байтурсынова, Казахстан, Алматы). 
45.  Сулейманов  Д.Ш.,  Хакимов  Б.Э.,  Гильмуллин  Р.А.Корпус  татарского  языка: 
концептуальные  и  лингвистические  аспекты//  Вестник  Татарского  государственного 
гуманитарно-педагогического университета. № 4(26), 2011. С. 211-216.  

65 
 
46.  Письменный  корпус  татарского  языка.  URL:http://corpus.tatfolk.ru  (дата  обращения: 
17.06.2013). 
47.  Салчак  А.  Я.  Электронный  корпус  текстов  тувинского  языка  //  Новые  исследования 
Тувы. 2012, № 3. (Электронный журнал). URL:http://www.new-tuva.info/journal/issue_15/5231-
salchak.html (дата обращения: 17.06.2013). 
48.    Проект  тувинского  корпуса.  URL:http://www.tuvancorpus.ru  (дата  обращения: 
17.06.2013).  
49. Sözlü Türkçe Derlemi  (корпус разговорного турецкого языка). URL: http://std.metu.edu.tr 
(дата обращения: 17.06.2013).  
50. Электронный корпус шорских текстов. URL:http://shoriya.ngpi.rdtc.ru (дата обращения: 
17.06.2013).  
51.  Шеймович,  А.  В.  (2011)  Морфологическая  разметка  корпуса  хакасского  языка 
//Российская тюркология. № 2(5). С. 48–61. 
52.  Плунгян  В.  А.  Корпус  как  инструмент  и  как  идеология:  о  некоторых  уроках 
современной корпусной лингвистики // Русский язык в научном освещении, 2008, № 16 (2), 
С. 7—20. 
53.  Ишкильдина  Л.К.,  Уртегешев  Н.С.  Фонема  [w]  башкирского  языка: 
функционирование,  история  развития,  артикуляторные  характеристики  (по  данным 
томографирования)  //  Тумашевские  чтения:  актуальные  проблемы  тюркологии.  Материалы 
IV  Всероссийской научно-практической конференции.  – Тюмень: изд.-во  «Печатник», 2010. 
С. 442-446. 
54.  Каримова  Р.Н.  Текстологический  электронный  корпус  башкирских  говоров  //Урал—
Алтай:  через  века  в  будущее:  Материалы  IV  Всероссийской  научной  конференции, 
посвященной III Всемирному курултаю башкир. Уфа, 2010. С. 189-191. (на башк. яз.). 
55.  Каримова  Р.Н.  Электронный  фонд  экспедиционных  аудиозаписей  //  Урал—Алтай: 
через века в будущее: Материалы IV Всероссийской научной конференции, посвященной III 
Всемирному курултаю башкир. Уфа, 2010. С. 162-163.  
56. Сиразитдинов З.А., Максутов А.Д., Полянин А.И., Бускунбаева Л.А. Информационная 
лингвистическая система “Машинный фонд башкирского языка”// Урал-Алтай: через века в 
будущее: Материалы IV Всероссийской научной конференции, посвященной III Всемирному 
курултаю башкир (25-27 марта 2010 г.). Уфа, 2010. I том. С.286-290. 
57.  Сиразитдинов  З.А.,  Мигранова  Л.Г.,  Ишмухаметова  А.Ш.,  Ибрагимова  А.Д., 
Бускунбаева Л.А. К созданию терминологического банка данных башкирского языка//Урал-
Алтай:  через века в будущее:  Материалы  V  Всероссийской конференции, посвященной  80-
летию Учреждения РАН ИИЯЛ УНЦ РАН (21-22 июня, 2012г), ИИЯЛ УНЦ РАН, 2012, Уфа, 
2012, С.111-114. 
58.  Сиразитдинов  З.А.,  Бускунбаева  Л.А.,  Ишмухаметова  А.Ш.,  Ибрагимова  А.Д., 
Мигранова  Л.Г.  Корпус  текстов  периодической  печати  на  башкирском  языке/  Актуальные 
проблемы  диалектологии  языков  народов  России:  материалы  XII  региональной 
конференции. — Уфа, 2012.//С. 139-141. 
59. Сиразитдинов З.А., Ибрагимова А.Д., Ишмухаметова А.Ш., Полянин А.И. О пилотном 
проекте  национального  корпуса  прозаических  текстов  башкирского  языка//  Урал-Алтай: 
через  века  в  будущее:  Материалы  V  Всероссийской  конференции,  посвященной  80-летию 
Учреждения РАН ИИЯЛ УНЦ РАН (21-22 июня, 2012г), ИИЯЛ УНЦ РАН, 2012, Уфа, 2012, 
С.108-111.  
60. 
Сиразитдинов 
З.А. 
Моделирование 
грамматики 
башкирского 
языка. 
Словоизменительная система. Уфа: Гилем, 2006. 160 с. 

66 
 
А.Қ.ЖҰБАНОВ, А.Ә.ЖАҢАБЕКОВА, С.ҚҰЛМАНОВ 
 
 
А. Байтұрсынұлы атындағы Тіл білімі институты, Алматы, Қазақстан 
 
 
ФИЛОЛОГТАР ҚАУЫМДАСТЫҒЫ МЕН КОРПУСТЫҚ ЛИНГВИСТИКА 
ОРТАЛЫҒЫН ҚҰРУ – ҚАЗАҚ ТІЛІНІҢ ҰЛТТЫҚ КОРПУСЫН ЖАСАУДЫҢ 
АЛҒЫШАРТЫ 
 
Тәуелсіз қазақ елінің экономикалық әлеуеті қарыштап өсіп, саяси аренада тұрақтылық пен 
толеранттылықтың  үлгісі  ретінде  әлемге  танымал  болып  отырғаны  ақиқат.  Айналасы  бар 
болғаны  жиырма  шақты  жылдың  ішінде  адам  сенбес  жетістіктерге  жеткен,  әлем  елдерінің 
арасында  дағдарысты  экономикасына  сызат  түсірмей  еңсере  білген  мемлекетіміз  рухани 
мәдениетіміздің  де  өркендеуіне  ерекше  көңіл  аударып  келеді.  Әсіресе  ұлтымыздың  ұлы 
тірегі  саналатын  қазақ  тіліне  мемлекеттік  тіл  мәртебесі  беріліп,  оны  қоғам  мен  ғылымның 
барлық  салаларында  дамыту  мен  қолданудың  өрісін  кеңейту  мақсатында  жасалып  жатқан 
жұмыстар ұшан-теңіз. Мемлекеттік тілді оқытудан бастап, ісқағаздарын жүргізу, қазақ тілін 
ғылым  дәрежесіне  көтеру  бағытында  бірнеше  бағдарлама  қабылданып,  тіл  біліміндегі 
зерттеулерді  жандандыру,  тілші  ғалымдардың  қызметін  белсендіре  түсу  үшін  іс-шаралар 
ұйымдастырылуда.  Осындай  іс-шараның  бірі  ретінде  2013  жылғы  17  мамыр  күні  тәуелсіз 
Қазақстан  тарихында  алғаш  рет  Филологтардың  І  съезінің  өтуі  егемен  еліміздің  мәдени, 
рухани өміріндегі ерекше оқиға болғандығын айтуға болады. 
Осы съезде тіл біліміне, білім беру ісіне қатысты сан алуан мәселелер көтерілгені, оларды 
шешу  жолындағы  іс-әрекеттердің  қолға  алынып  жатқандығынан  көзі  қарақты  оқырман 
хабардар  деп  ойлаймыз.  Сондықтан  біз  бұл  мақаламызда  аталған  Съезде  баяндама  жасаған 
ҚР Білім және ғылым министрі Б.Т. Жұмағұловтың сөйлеген сөзін негіз етіп алып [1], қазақ 
тіл  білімінің  корпустық  лингвистика  саласының  проблемаларына  ғана,  дәлірек  айтқанда, 
«Қазақ тілінің Ұлттық корпусын» құру мәселелеріне тоқталмақпыз. 
ҚР  БҒМ  Б.  Жұмағұлов  өз  сөзінде  қазақ  филологтарының  «ерекше  міндеттерінің  бірі  – 
Ұлттық  қазақ  тілі  корпусын  қалыптастыру»,  –  деп  қадап  айтты.  Осыған  орай  министрдің 
Ұлттық  корпус  құру  туралы  ойын  оқырман  есіне  салуды  жөн  көрдік:  «...  Тілдің  Ұлттық 
корпусы,  бұл  –  нақты  тілде  ақпараттың  барлық  типтері  мен  түрлерін  ауқымды  түрде 
жинақтау.  Оны  өңдеу,  жіктеу  және  талдау  жөніндегі  IT-технологиялар.  Яғни,  тіл  білімінің 
жаңа деңгейін жетілдіру. 
... Бұл – біздің еліміз үшін өте өзекті болып табылады. 
Мұндай жұмысты күшейту үшін Тіл білімі институты базасында Корпустық лингвистика 
орталығын құруды орынды деп есептейміз. 
Осы  орталық  арқылы  Қазақстан  филологтарының  қызметін  үйлестіруге  және 
жүйелендіруге болады. 
Филологтар  рөлін  арттыру  мақсатында  Филологтар  қауымдастығын  құруды 
ұсынамын
Жақсы тәжірибе – өміршең. Кезінде математиктер, биологтар, тарихшылар қауымдастығы 
құрылған болатын. Олар уақыт пен заман талабына сәйкес ұсыныстар беріп, осы салалардың 
дамуына  ықпал  етуде.  Филологтар  қауымдастығы  да  осындай  талап  пен  талғам  биігінде 
болады деген ойдамыз. 
Съезд  жұмысы  Елбасы  Н.Ә.  Назарбаевтың  стратегиялық  бағытын  іске  асыруға  және 
филологиялық ғылым мен білімді одан әрі дамытуға өз үлесін қосады деп сенемін» [1]. 
Министрдің  Филологтар  қауымдастығын  және  Корпустық  лингвистика  орталығын  құру 
жөніндегі  бастамасы  осы  сала  мамандарының,  оның  ішінде  қазақ  тілін  компьютерлендіру 
бағытында  әртүрлі  бағдарламалар  жасап,  сөздіктер  құрастырып  жұмыс  жасап  келе  жатқан 
шағын топтың әрі қарай үйлесімді әрі нәтижелі жұмыс істеуіне серпін береді деп ойлаймыз. 

67 
 
Осындай үміт ұялатқан идеяның негізі жалпы қоғамды автоманттандыру, оның ішінде қазақ 
тілін  компьютерлендіру  мәселесінде  жатқандықтан,  қазақ  компьютерлік  лингвистикасының 
пайда болу тарихына тоқталмақпыз. 
ХХ ғасырда басталған ғылыми-техникалық «революция» әлемнің кез келген мемлекетінің 
ішкі-сыртқы  саясатына,  әсіресе  экономикалық  әлеуетіне  ерекше  серпін  беріп  қана  қоймай, 
Тәуелсіз  Қазақстан  Республикасы  сияқты  дамушы  елдердің  жас  мемлекет  ретінде 
қалыптасуында  айрықша  рөл  атқарды.  Қоғамдық  қызметтің  қай  саласында  да  қолданбалы 
бағыт  басымдық  алды.  Осы  орайда  лингвистиканың  қолданбалы  саласы  да  қалыптасып, 
дәстүрлі тіл білімінің бағыттарын өз әдіс-тәсілдерімен зерттеуге кірісті.  
Қазіргі жаһандану кезеңінде әртүрлі саяси-әлеуметтік, экономикалық қарым-қатынастарға 
байланысты ақпарат ағыны бұрын-соңды болмаған қарқынмен өршуде. Ал қоғам өміріндегі 
мұндай ақпарат ағымының таралуы табиғи тілде жүзеге асатындықтан, тіл білімінің қызметі 
күннен-күнге кеңеюде. Осыған байланысты ұшы-қиырсыз ақпарат ағынын игеру мақсатында 
шетел және орыс тіл білімінде орасан зор нәтиже беріп отырған тілдік корпустарды қазақ тіл 
білімінің материалдары негізінде жасау бүгінде үлкен сұранысқа ие болып отыр.  
Сондықтан  тіл  білімінің  осындай  аса  қызығушылық  туғызып  отырған  жаңа  саласы  – 
корпустық  лингвистиканың  зерттеу  нысанына  нелер  жатады,  тілдік  корпус  дегеніміз  не, 
мәтіндер корпусын құрастыру не үшін қажет және ол қандай ғылыми-теориялық мәселелерді 
шешуге септігін тигізеді деген мәселелерге арнайы тоқталмақпыз. 
Соңғы  жылдары  «Корпустық  лингвистика»  ғылымның  бір  саласы  ретінде  айқын 
басымдық  алып  отыр.  Өйткені  осы  саланың  зерттеу  нәтижесі  –  мәтіндік  корпустарды 
пайдаланбай  тілдік  зерттеулерде  тәжірибе  жүргізудің,  әсіресе  сөздік  құрастырудың,  неше 
түрлі  грамматикалар  дайындаудың  мүмкін  еместігі  айқындалып  отыр.  Қазіргі  кезде 
корпустық  лингвистиканың  мәселелері  кейбір  оқу  құралдарының  да  арнайы  тақырыбына 
айналуда [2; 3].  
Корпустық лингвистика 1963 жылы АҚШ-та пайда болып, Браун корпусынан (The Brown 
Standard Corpus of American English) бастама алады. Бастапқыда бұл корпустың көлемі 1 млн. 
сөзқолданыстан  тұрып,  оның  құрамында  әрбіреуі  2  мың  сөзқолданысқа  тең  500  мәтін 
қамтылған. Браундық корпус осыған ұқсас корпустар құруға қатысты зерттеулердің кеңінен 
тараған нысаны мен стандартына айналды. Ғалымдар көптеген лингвистикалық зерттеулерді 
сапалы  жүргізу  тек  ауқымды  тілдік  материалдар  негізінде  ғана  жүзеге  асатындығын  ұғына 
бастады.  Осы  айтылғандардың  барлығы  мәтіндерді  корпус  түрінде  ұйымдастыру  ережелері 
мен оларға талдау жүргізу әдіснамасын зерттейтін бағыттың пайда болуына себепші болып, 
ғалымдарды  одан  әрі  ынталандыра  түсті.  Сонымен  корпустық  лингвистика  осы  әдіс-
тәсілдердің әдіснамасы ретінде туындап отыр деуге әбден болады. 
Корпустық  лингвистиканың  ағылшын  тіл  білімінде  кең  етек  алуын  ғалымдар  АҚШ-та 
компьютерлік  техника  мен  ХХ  ғасырдың  60-80  жылдары  британ  лингвистикасындағы 
интеллектілік ахуалдың белсенді дамуымен түсіндіреді. Осы кездерде тілдік зерттеулердің ең 
көп  бөлігі  компьютерленген  мәтіндік  корпустарға  лингвистикалық  талдау  жүргізуге 
бағытталғандығы  мәлім.  Мұндай  зерттеулердің  нәтижесі  2001  жылы  Бирменгем 
университетінде  корпустық  лингвистика  кафедрасын  ашуға  және  International  Journal  of 
Corpus  Linguistics  журналын  баспадан  шығарып  тұруға  мүмкіндік  туғызды.  Бірнеше  тілдің 
материалдары бойынша құрастырылған, түрі мен қызметі жағынан ерекшеленетін корпустар 
және солардың негізінде неше түрлі сөздіктер түзіліп, грамматикалар жазылды.  
Корпус  дегеніміз  –  әр  тілдегі  электронды  пішінге  келтірілген,  яғни  бір  басқару 
орталығынан  автоматты  түрде  жұмыс  істейтін  мәтіндер  жинағы.  В.П.  Захаров  «Корпусная 
лингвистика»  атты  оқу  құралында  былай  дейді:  «Под  названием  лингвистический,  или 
языковой,  корпус  текстов  понимается  большой,  представленный  в  электронном  виде, 
унифицированный,  структурированный,  размечанный,  филологический  компетентный 
массив  языковых  данных,  предназначенный  для  решения  конкретных  лингвистических 
задач»  [3;  4].  Демек,  корпус  дегеніміз  әр  тілдегі  электронды  пішінге  келтірілген,  яғни  бір 
басқару  орталығынан  автоматты  түрде  жұмыс  істейтін  мәтіндер  жинағы.  Ал  оның  қызметі 

68 
 
осы мәтіндер жинағын адамның қарым-қатынас барысында пайдалануына мүмкіндік беруге 
бағытталады. 
Корпуста  сақталатын  бірлік  –  ол  пәндік  саланың  қандай  да  бір  жиынтығы.  Мысалы, 
оларға  жататындар:  сөз,  сөзтіркес,  сөйлем  немесе  толық  мәтіндер  жиынтығы.  Мәселен, 
корпусқа  енгізілген  мәтіндердегі  әрбір  тілдік бірлікке,  ол  не  жеке  сөз  не  қосымша  болсын, 
лингвистикалық  ақпарат  беріледі.  Тілде  мұндай  лингвистикалық  ақпарат  беруді 
аннотациялау  деп  атайды.  Аннотация  дегеніміздің  өзі  «қысқаша  мазмұн»  дегенді  білдіреді. 
Соған  сәйкес  корпусқа  енгізілген  тілдік  бірліктердің  аннотациясы  да  шартты  белгілер 
арқылы  қысқаша  беріледі.  Орыс  тілінде  «разметка»  деп  аталатын  мұндай  шартты  белгілер 
қазақ  тілінде  «белгі-код»,  «белгіленім»  деген  терминдермен  аталып  жүр.  Мәтіндер 
бірліктеріне  берілген  лингвистикалық  ақпараттардың  толық  сипатта  болуы  осы 
белгіленімдердің әртүрлілігіне байланысты. Белгіленімдер тілдегі жекелеген деңгейлерге тән 
тілдік  мәліметтерді  қамтиды.  Ондай  белгілер  семантикалық  (лексика-семантикалық), 
морфологиялық,  синтаксистік  сипатта  болуы  мүмкін.  Мәселен,  орыс  тілінің  Ұлттық 
корпусында  орын  алған  морфологиялық  белгілер  барлық  сөздерді  сөз  табына,  септелу 
категориясына, тегіне (род – муж., жен.), жіктелуіне, жанды-жансыздығына, етіс және етістік 
түріне, салыстырмалы шырай және т.б. морфологиялық сипаттамаларына қарай арнайы белгі 
қою  жүргізілген.  Сол  сияқты  семантикалық  талдау  арқылы  да  мәтін  ішіне  қажетті 
белгілердің  қойылатынын  айтуға  болар  еді.  Мысалы,  орыс  тіліндегі  үстеу  сөздерге 
«Таксономияға»,  «бағалауға»,  «сөзжасамдыққа»  қатысты  белгілеулер  орын  алған.  Мұндағы 
«Таксономия» белгісі: орынды, бағытты, қашықтықты, уақытты, жылдамдықты, санына және 
т.б. жүйелеулерге қатысты семантикалық сипаттамаларды білдіреді. 
Мәтіндер  корпусы  туралы  жазылған  ғылыми  еңбектерде  фонетикалық,  морфологиялық, 
семантикалық, синтаксистік белгіленімдердің енгізілетіндігі туралы айтылады. Бірақ корпус 
жасау барысында аталған белгіленімдердің барлығын бір уақытта енгізу қиындық тудырады. 
Осы орайда шетел, орыс тіл біліміндегі мәтіндер корпусында лингвистикалық белгіленімдер 
енгізу  ісі  кезең-кезеңмен  жүзеге  асырылған.  Толық  лингвистикалық  ақпарат  берілген 
корпустарды «терең аннотацияланған» (глубоко аннотированный) деп атайды.  
Екіншіден, корпус мазмұнының күрделілігі терең аннотацияланумен қатар әртүрлі стильді 
қамтуына да байланысты. Әдетте, корпус құрастыруда,  сондай-ақ жиілік сөздіктер жасауда 
да  көбінесе  төрт  түрлі  стиль  қамтылады.  Олар:  көркем  стиль  (проза,  поэзия),  драматургия, 
газет-журнал  (публицистикалық),  ғылыми-техникалық  стильдер.  Бұлардан  басқа  ауызекі 
стильден  де  корпус  мәтіндері  жинақталады.  Үшіншіден,  корпустардың  сапасы  ондағы 
қамтылған  сөзқолданыс  мөлшерімен  де  өлшенеді.  Жалпы  тіл  білімінде  алғашқы 
корпустардың  кемінде  1  млн.  сөзқолданыстан  бастап  жасалғандығы  айтылады.  Қазіргі 
кездері  сол  алғаш  1  млн.  сөзқолданыстан  жасалған  мәтіндер  корпусының  көлемі  20 
миллионнан 100 млн.-ға дейін жетеді екен. Демек, корпустың құрастырылуы туралы мәселе 
сөз болғанда, ең алдымен оның көлемі туралы нақты деректер беріледі. 
Корпустар  құрастыруда  оның  түріне  қарай  (Ұлттық,  стильдік,  кезеңдік)  мәтіндер 
таңдалып  алынады.  Оларды  таңдама  мәтіндер  деп  атайды.  Корпусқа  енгізілетін  мәтіндер 
көбінесе  ақын-жазушылар  шығармаларынан  алынады.  Корпустар  құрастыру  тәжірибесінде 
әсіресе,  проза  жанры  басым.  Сондықтан  стильдік  жағынан  алғанда  корпустарды  «проза 
жанрына орталықтандырылған» (литературацентричный) деуге болады. 
Корпустарға  қойылатыны  талаптардың  негізгісі  –  репрезентативтілік  (тұлғалылық),  яғни 
оны  сол  корпустың  пәндік  аяның  барлық  қасиетін  бейнелей  алу  мүмкіндігі  немесе  сол 
лингвистикалық зерттеу типіне қатысты пәндік аядағы құбылыстың кездесу жиілігінің тілдік 
бірліктерді бір-бірінен ажырата алатындай мәнде болу қажеттігі деуге болады [2].  
Корпус  түрлерінің  ішінде  қатар  тілдер  (параллель)  корпустары  бір  тілден  екінші  тілге 
аударма жасауға қатысты талдау жұмыстарын жүргізуге аса қолайлы болып келеді. Мысалы, 
«Орыс  тілінің  Ұлттық  корпусында»  параллель  мәтіндердің  (қатар  тілдер  мәтіндері) 
корпустары  да  орын  алған.  Мұндай  корпустар  ерекше  корпустар  қатарына  жатады.  Себебі, 

69 
 
орыс тіліндегі мәтінге оның басқа тілге аударылған үлгісі және, керісінше, шет тілдеріндегі 
мәтіндерге орысша аудармасы сәйкестендірілген.  
Түпкі  және  аударма  мәтіндердің  бірліктері  арасында  «теңестіру»  нәтижесінде  арнайы 
қарастырылған шаралар бойынша сәйкестік жүзеге асады. Теңестірілген паралельді корпус – 
ол  ғылыми  зерттеулердің,  әсіресе,  аударма  жасаудың  теориясы  мен  практикасының  аса 
тиімді құралы.  
Корпустық  лингвистиканың  жетістіктерін  өзіне  сақтаған  аса  дамыған  корпус  түрі  – 
Ұлттық  корпус.  Мұндай  корпус  белгілі  дәрежеде  Ұлттық  тілді  толық  түрде  бейнелейді. 
Ұлттық  корпустың  репрезентативтілігі  (тұлғалылығы)  –  сол  тілдің  жазба  және  сөйлеу 
түріндегі  мәтіндерінің  барлық  типтерінің  бейнеленуі.  Ұлттық  корпустың  айтарлықтай 
дәрежеде  көлемді  (ондаған,  жүздеген  миллион  сөзқолданыс)  болуы  репрезентативтілікке 
жетудің  қажетті  шарты  болып  саналады.  Ұлттық  корпустың  ажыратылмас  бөлігі  оның 
белгіленген (аннотацияланған, мазмұндалған) бейнесі. 

Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   10   ...   39




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет