Атты І халықаралық конференция ЕҢбектері



Pdf көрінісі
бет66/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   62   63   64   65   66   67   68   69   ...   326
Байланысты:
Болатбек М. (1)

    Бұл бет үшін навигация:
  • Mystem
Орыс тілі корпусы туралы: 
Интернет желісіндегі 2003 жылдан бері өзіне жүктелген қызметті ойдағыдай атқарып келе 
жатқан  «Орыс тілінің Ұлттық  корпусын»  атауға болады. Қазіргі кезде орыс тілінің Ұлттық 
корпусының  жалпы  көлемі  230  млн.  сөзқолданыстан  тұратын  әртүрлі  мәтіндер  бөлігін 
қамтиды.  
Орыс тілінің Ұлттық корпусы басқа да тілдердің Ұлттық корпустары сияқты мынадай екі 
маңызды ерекшеліктерге ие:  
-  біріншіден,  корпусқа  аса  көлемді  және  әр  кезеңдер  бойынша  шамалас  көлемдегі 
мәтіндердің  алынуы.  Дәлірек  айтсақ,  біріншіден,  орыс  тілінің  Ұлттық  корпусына  барлық 
жазбаша және ауызша мәтіндер (көркем әдебиеттің әртүрлі жанрлары, көсемсөз жанры, оқу, 
ғылыми, ісқағаздары, сөйлеу тілі, аймақтық тіл және т.б.) қамтылып, олар әр кезең бойынша 
сәйкес көлемде алынады; 
-  екіншіден,  корпус  құрамындағы  мәтіндер  айрықша  сипаттағы  қосымша  ақпаратқа  ие 
болады.  Мұндай  ақпарат  шартты  түрдегі  белгіленімдер  арқылы  көрініс  табады  (орысша 
аталуы – «разметка» немесе «аннотация»).  
Орыс тілінің Ұлттық корпусының даму барысын сөз етсек, ол ең алдымен ХІХ ғ. басынан 
ХХІ ғ. бастапқы кезеңін қамтиды деуге болады. Бұл кезең орыс тілінің әртүрлі әлеуметтік-
лингвистикалық  тұстарын  бейнелейді  –  әдеби  тіл,  сөйлеу  тілі,  тұрмыстық  тіл,  ішінара 
диалектілік тіл. Корпустық қорға көркем әдебиеттің (проза мен драматургия, поэзия) мәдени 
маңыздылығы  мол  және  тілдік  тұрғыда  тілші-ғалымдардың  қызығушылығын  тудыратын 
түпнұсқа  түріндегі  шығармалары  енгізіледі.  Бірақ  Ұлттық  корпус  тек  көркем  әдебиетке 
қатысты  мәтіндерден  ғана  тұрмайды,  ол  сонымен  бірге  мәтін  үлгілерінің  басқа  да  жазба 
нұсқаларын (қазіргі кезеңде – ауызша нұсқасын да) қамтиды. Оған жататындар: мемуарлар, 
эсселер,  көсемсөз  стильдері,  ғылыми-көпшілікке  арналған  және  ғылыми  әдебиеттер,  жұрт 
алдында сөйлеген сөздер, жеке адамдар арасындағы хат алысу, күнделіктер, құжаттар және 
т.б. мәтіндер болуы мүмкін. 
«Орыс тілінің Ұлттық корпусын» құрастыру үшін Ресейлік ғылым академиясының тек В. 
В.  Виноградов  атындағы  Орыс  тілі  институты  ғалымдарының  күшімен  ғана  емес,  оған 
Ресейдегі аса ірі ғылыми топтардың қатысқанын, дәлірек айтсақ, Мәскеу,  Санкт-Петербург, 
Казань,  Воронеж,  Саратов  және  басқа  да  Ресейлік  ғылыми  орталықтардың  көптеген 
ғалымдардың  қауымдастығымен    орындағаны  мәлім  болып  отыр.  Шындығында,  2003-2010 
жылдары «Орыс тілінің Ұлттық корпусын» құрастыруға қолғабыс еткен ғылыми мекемелер:  
1)  Ресей  ғылым  академиясының  тарихи-филологиялық  («Филология  және  ақпараттану») 
бөлімі;  
2) Ресейлік қоғамдық ғылыми қор;  
3)  Білім  берудің  федаралды  агенттіктері  бойынша  «Орыс  тілі»  федералдық  мақсатты 
бағдарлама. 
Сонымен бірге, В. В. Виноградов атындағы Орыс тілі институтының мамандарымен бірге 
жобаға басқа да мекемелер қатысқан:  
1)  РҒА-ның  Тіл  білімі  институты  [ИЯз  РАН],  РҒА-ның  Ақпарат  тарату  мәселелері 
институты;  
2) РҒА-ның Бүкілресейлік ғылыми және техникалық ақпарат институты [ВИНИТИ РАН];  
3) Санкт-Петербургтегі  РҒА-ның лингвистикалық зерттеулер институты;  
4) Казань (Приволжский) федералды университеті;  
5) Воронеж мемлекеттік университеті;  
6)  Саратов мемлекеттік университеті. 
Осыншама мекемелер мен бірнеше ғылыми топтарының аталған жобаға қатысуына себеп, 
ол  орыс  тілінің  жазба  және  сөйлеу  тілі  мәтіндерінің  негізгі  корпусын  құруда  көптеген 
мәселелерді қарастыру қажеттігінде. Қысқаша айтқанда олардың бір тобы мыналар:  
1) XVIII ғасырдағы жазба мәтіндерінің тұлғалы корпусын құру


71 
 
2)  XIX-XX  ғасырдың  бірінші  жартысы  аралығындағы  жазба  мәтіндерінің  тұлғалы 
корпусын құру;  
3)  Қазіргі  кезеңнің  (XX ғ.  ортасы  –  XXI  ғ.  басы)  жазба  мәтіндерінің  тұлғалы  корпусын 
құру;  
4)  Жазба  мәтіндерінің  корпустарын  теңгеру  (баланстау)  үшін  морфологиялық  және 
сөзтудырушы-семантикалық  белгіленім  қағидаттарына  (принциптеріне)  зерттеме  жүргізу 
және компьютерлік бағдарламалар мен корпустарға белгіленім жасауды қамтамасыз ету. 
Осы аталған мәселелер Ресей елінің бірнеше ғылыми мекемелерінің бірнеше мамандары 
қатысып,  шешімін  тапқаны  мәлім.  Мысалы,  мәтіндерге  морфологиялық  белгіленім 
жүргізудің  ортақ  принциптерін  айқындау  мәселесі  үшін  ғана  5  ірі  ғалымдар  атсалысқан 
(В. А. Плунгян, Г. И. Кустова, А. Е. Полякова және Д. В. Сичинава). 
Сол сияқты, орыс тілі корпусына қажетті морфологиялық белгіленімді автоматтандыруды 
компьютерлік  бағдарламамен  қамтамасыз  ету  мәселесімен  Mystem (Яндекс  бірлестігі) 
және Dialing  атты  программалық  қорын  құрастырушы  10-нан  аса  прогаммист-ғалымдар 
ұжымы 
айналысқаны 
белгілі 
(Д. В. Панкратов, 
А. Е. Поляков, В. А. Титов, 
Т. А. Архангельский,  А. И. Зобнин,  А. В. Сокирко  және  т.б.).  Ал  осы  компьютерлік 
бағдарламаларға  қатысты  морфологиялық  талдаудың  теориялық  қағидаттарын  зерттеуді 
Л.Л.Иомдин, В.З.Санников  (Mystem), Н.Н.Леонтьева  (Dialing)  сияқты  белгілі  филолог-
ғалымдар өз міндеттеріне алған болатын.  
Сонымен,  орыс  тілінің  Ұлттық  корпусын  құру  мен  оны  жетілдіру  ісін  қажетті 
компьютерлік  бағдарламалармен  қамтамасыз  ету  мәселесіне,  яғни  іздестіру  жүйесін, 
метамәтіндік  белгіленімді,  морфологиялық,  синтаксистік,  семантикалық  белгіленімді  және 
т.б. жетілдіру ісінің әр кезеңінде және алынған нәтижелерді эксперттен өткізу мәселелеріне 
көптеген ірі ғалымдармен бірге Мәскеудің жоғары оқу орындарындағы филолог-студенттер 
мен аспиранттар, магистранттар қатысып, өз үлестерін қосып отырғаны мәлім.   
Орыс  тілінің  Ұлттық  корпусын  құрастыруда  әр  салаға  қатысты  белгіленім  түрлерімен 
айналысатын орындаушылар тобы да сан жағынан түрліше. Мысалы, корпусқа сөзжасаушы-
семантикалық  белгіленім енгізу мәселесін зерттейтін ғылыми  тобы 9 орындаушыдан тұрса, 
семантикалық  белгіленімнің  компьютерлік  бағдарламалық  құрамдау  тобы  2  ғалымнан 
(А. Е. Поляков, А. И. Зобнин) тұрады екен. Келесі ғылыми топ метамәтіндік белгеленім мен 
мәтіндерді  таңдаудың  жалпы  қағидаттарын  зерделеумен  шұғылданған  ғалымдар  саны  7-ге 
тең.  Ал  әр  ғылыми  топтардың  орыс  тілінің  Ұлттық  корпусы  мәтіндеріне  жүргізіп  жатқан 
метамәтіндік  белгіленімдерді  бірізділігін  координациялайтын  ғалымдар  тобы  20  шақты 
орындаушылардан тұратынын айта кетпекпіз. 
Орыс  тілінің  кезеңдік  корпустарын  құрастыру  үшін,  мысалы,  ХІХ  ғасырдағы  мәтіндер 
корпусы,  ХХ  ғасырдағы  мәтіндер  корпусын  құрастыру  кезіндегі  өңдеу  мен  метабелгіленім 
жүргізуді  де  жеке  ғылыми  топтар  жүзеге  асырады.  Сонымен,  аталған  міндеттерді 
орындайтын  ғалымдар  тобының  саны  мен  әр  топтағы  ғалымдар  саны  да  өне  бойы  өсіп 
отыратынын байқауға болады. 
Орыс  тіл  білімінің  тәжірибесіне  сүйенсек,  оларда  орыс  тілінің  Ұлттық  корпустарын 
құрастыру ісіне көптеген ғылыми-лингвистикалық, техникалық орталықтар, баспасөз, баспа, 
жоғары  оқу  орындары  т.б.  атсалысып,  бірігіп  атқарып  отыр.  2003-2010  жылдарғы  Ресейлік 
ғалымдардың  «Орыс  тілінің  Ұлттық  корпусы»  жобасының  қандай  ғылыми  күшпен 
орындалғанынан  байқауға  болады.  Өйткені  олар  корпус  құрастырудың  маңызын  өз  кезінде 
жақсы  түсініп,  ауқымды  істі  бірігіп  атқаруға  жұмылдырылған.  Нәтижесінде  түрлі-түрлі 
лингвистикалық аннотациялар жасап, сонымен қатар мәтін көлемі жағынан да ұтып отыр.  
Осындай  қазақ  тілінің  Ұлттық  сипаттағы  «тұлғалы»  тілдік  корпустарын  құрастыру 
мәселесі 
қазіргі 
кезде 
Қазақстанның 
бірнеше 
ғылыми-қолданбалы 
бағыттағы 
орталықтарында  қолға  алынып,  дербес  жұмыс  істеп  жатуы  мүмкін.  Олардың  барлығы  да 
орыс  тілі  тәжірибесіне  сүйеніп,  корпус  құрастыру  мәселесін  өзінше  шешемін  деп  талап 
қылып  жатқанымен,  ауқымды  мәтіндерді  компьютер  жадына  енгізу,  лингвистикалық 
белгіленімдер  талдамасын  жасау  ісінде  шашыраңқылық  танытатыны  белгілі.  Өйткені,  әр 


72 
 
мекемеде  жасалып  жатқан  корпустардағы  лингвистикалық  белгіленімдер  мен  олардың 
моделі, шартты белгілері бірізді емес.  
Екіншіден, автоматты түрде лингвистикалық белгіленім қою мәселесі әлі де болса толық 
шешімін  таппаған.  Яғни  тілдік  талдаулардың  өзінде  де  даулы  мәселелер  баршылық. 
Сондықтан  аннотацияланған  тілдік  корпустарды  құрастыру  ісіне  көптеген  аса  білімді 
практик лингвистерді тарту қажеттігі туындап отыр.  
Үшіншіден,  жоғарыда  сөз  болғандай,  миллиондаған  сөзқолданыстан  тұратын  корпустар 
құрастыру  үшін  аса  көлемді  мәтіндердің  электронды  варианты  керек  болады.  Ал  оларды 
«қолдан»  енгізу  көп  уақытты  қажет  ететіні  белгілі.  Осы  орайда  бұл  мәселе  Қазақстан 
аумағындағы кітап, газет-журнал шығаратын баспалармен келісімге келе отырып шешілетін 
мәселе.  Бұл  мәселенің  шешімін  табу  айтарлықтай  оңай  еместігі  жоғарыда  аталған  «Қазақ 
тілінің Ұлттық корпусын» жасау кезінен таныс деуге болады. Сондықтан бұл мәселе тек ҚР 
БҒМ ҒК тұрғысынан ғана шешімін табуы мүмкін.  
Аталған  мәселе  «Орыс  тілінің  Ұлттық  корпусын»  құрастыру  жағдайында  Ресей 
баспаларымен  келісе  жасау  арқылы  шешімін  тапқан  тәрізді.  Оған  негіз  болып  отырған 
Интернеттегі  корпус  құрастырушыларның    Ресейлік  21  баспа  орнына  өз  алғыстарын 
білдіргендігі:  «Разработчики  Корпуса  приносят  благодарность  следующим  издательским 


Достарыңызбен бөлісу:
1   ...   62   63   64   65   66   67   68   69   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет