71
2) XIX-XX ғасырдың бірінші жартысы аралығындағы жазба мәтіндерінің тұлғалы
корпусын құру;
3) Қазіргі кезеңнің (XX ғ. ортасы – XXI ғ. басы) жазба мәтіндерінің тұлғалы корпусын
құру;
4) Жазба мәтіндерінің корпустарын теңгеру (баланстау) үшін морфологиялық және
сөзтудырушы-семантикалық белгіленім қағидаттарына (принциптеріне) зерттеме жүргізу
және компьютерлік бағдарламалар мен корпустарға белгіленім жасауды қамтамасыз ету.
Осы аталған мәселелер Ресей елінің бірнеше ғылыми мекемелерінің бірнеше мамандары
қатысып, шешімін тапқаны мәлім. Мысалы, мәтіндерге морфологиялық белгіленім
жүргізудің ортақ принциптерін айқындау мәселесі үшін ғана 5 ірі ғалымдар атсалысқан
(В. А. Плунгян, Г. И. Кустова, А. Е. Полякова және Д. В. Сичинава).
Сол сияқты, орыс тілі корпусына қажетті морфологиялық белгіленімді автоматтандыруды
компьютерлік бағдарламамен қамтамасыз ету мәселесімен
Mystem (Яндекс бірлестігі)
және
Dialing атты программалық қорын құрастырушы 10-нан аса прогаммист-ғалымдар
ұжымы
айналысқаны
белгілі
(Д. В. Панкратов,
А. Е. Поляков, В. А. Титов,
Т. А. Архангельский, А. И. Зобнин, А. В. Сокирко және т.б.). Ал осы компьютерлік
бағдарламаларға қатысты морфологиялық талдаудың теориялық қағидаттарын зерттеуді
Л.Л.Иомдин, В.З.Санников (Mystem), Н.Н.Леонтьева (Dialing) сияқты белгілі филолог-
ғалымдар өз міндеттеріне алған болатын.
Сонымен, орыс тілінің Ұлттық корпусын құру мен оны жетілдіру ісін қажетті
компьютерлік бағдарламалармен қамтамасыз ету мәселесіне, яғни іздестіру жүйесін,
метамәтіндік белгіленімді, морфологиялық, синтаксистік, семантикалық белгіленімді және
т.б. жетілдіру ісінің әр кезеңінде және алынған нәтижелерді эксперттен өткізу мәселелеріне
көптеген ірі ғалымдармен бірге Мәскеудің жоғары оқу орындарындағы филолог-студенттер
мен аспиранттар,
магистранттар қатысып, өз үлестерін қосып отырғаны мәлім.
Орыс тілінің Ұлттық корпусын құрастыруда әр салаға қатысты белгіленім түрлерімен
айналысатын орындаушылар тобы да сан жағынан түрліше. Мысалы, корпусқа сөзжасаушы-
семантикалық белгіленім енгізу мәселесін зерттейтін ғылыми тобы 9 орындаушыдан тұрса,
семантикалық белгіленімнің компьютерлік бағдарламалық құрамдау тобы 2 ғалымнан
(А. Е. Поляков, А. И. Зобнин) тұрады екен. Келесі ғылыми топ метамәтіндік белгеленім мен
мәтіндерді таңдаудың жалпы қағидаттарын зерделеумен шұғылданған ғалымдар саны 7-ге
тең. Ал әр ғылыми топтардың орыс тілінің Ұлттық корпусы мәтіндеріне жүргізіп жатқан
метамәтіндік белгіленімдерді бірізділігін координациялайтын ғалымдар тобы 20 шақты
орындаушылардан тұратынын айта кетпекпіз.
Орыс тілінің кезеңдік корпустарын құрастыру үшін, мысалы, ХІХ ғасырдағы мәтіндер
корпусы, ХХ ғасырдағы мәтіндер корпусын құрастыру кезіндегі өңдеу мен метабелгіленім
жүргізуді де жеке ғылыми топтар жүзеге асырады. Сонымен, аталған міндеттерді
орындайтын ғалымдар тобының саны мен әр топтағы ғалымдар саны да өне бойы өсіп
отыратынын байқауға болады.
Орыс тіл білімінің тәжірибесіне сүйенсек, оларда орыс тілінің Ұлттық корпустарын
құрастыру ісіне көптеген ғылыми-лингвистикалық, техникалық орталықтар, баспасөз, баспа,
жоғары оқу орындары т.б. атсалысып, бірігіп атқарып отыр. 2003-2010 жылдарғы Ресейлік
ғалымдардың «Орыс тілінің Ұлттық корпусы» жобасының қандай ғылыми күшпен
орындалғанынан байқауға болады. Өйткені олар корпус құрастырудың маңызын өз кезінде
жақсы түсініп, ауқымды істі бірігіп атқаруға жұмылдырылған. Нәтижесінде түрлі-түрлі
лингвистикалық
аннотациялар жасап, сонымен қатар мәтін көлемі жағынан да ұтып отыр.
Осындай қазақ тілінің Ұлттық сипаттағы «тұлғалы» тілдік корпустарын құрастыру
мәселесі
қазіргі
кезде
Қазақстанның
бірнеше
ғылыми-қолданбалы
бағыттағы
орталықтарында қолға алынып, дербес жұмыс істеп жатуы мүмкін. Олардың барлығы да
орыс тілі тәжірибесіне сүйеніп, корпус құрастыру мәселесін өзінше шешемін деп талап
қылып жатқанымен, ауқымды мәтіндерді компьютер жадына енгізу, лингвистикалық
белгіленімдер талдамасын жасау ісінде шашыраңқылық танытатыны белгілі. Өйткені, әр
72
мекемеде жасалып жатқан корпустардағы лингвистикалық белгіленімдер мен олардың
моделі, шартты белгілері бірізді емес.
Екіншіден, автоматты түрде лингвистикалық белгіленім қою мәселесі әлі де болса толық
шешімін таппаған. Яғни тілдік талдаулардың өзінде де даулы мәселелер баршылық.
Сондықтан аннотацияланған тілдік корпустарды құрастыру ісіне көптеген аса білімді
практик лингвистерді тарту қажеттігі туындап отыр.
Үшіншіден, жоғарыда сөз болғандай, миллиондаған сөзқолданыстан тұратын корпустар
құрастыру үшін аса көлемді мәтіндердің электронды варианты керек болады. Ал оларды
«қолдан» енгізу көп уақытты қажет ететіні белгілі. Осы орайда бұл мәселе Қазақстан
аумағындағы кітап, газет-журнал шығаратын баспалармен келісімге келе отырып шешілетін
мәселе. Бұл мәселенің шешімін табу айтарлықтай оңай еместігі жоғарыда аталған «Қазақ
тілінің Ұлттық корпусын» жасау кезінен таныс деуге болады. Сондықтан бұл мәселе тек ҚР
БҒМ ҒК тұрғысынан ғана шешімін табуы мүмкін.
Аталған мәселе «Орыс тілінің Ұлттық корпусын» құрастыру жағдайында Ресей
баспаларымен келісе жасау арқылы шешімін тапқан тәрізді. Оған негіз болып отырған
Интернеттегі корпус құрастырушыларның Ресейлік 21 баспа орнына өз алғыстарын
білдіргендігі:
«Разработчики Корпуса приносят благодарность следующим издательским
Достарыңызбен бөлісу: