12-апта
|
Тілдік бірліктерді автоматты өңдеудің теориялық мәселелері
Корпустық лингвистика тіл білімінің жеке саласы ретінде математикалық лингвистика, дискурстік талдау және лексикография салаларымен ұштасып жатады. Корпустық лингвистиканың басқа тіл ғылымы пәндерімен жақындығы, бір жағынан, мәтіндер корпусының корпустық лингвистика қызметінің нәтижесі, екіншіден, лингвистикалық пәндердің басқа түрлеріне де бастапқы эмпирикалық материал болу мүмкіндігіне байланысты. Ұлттық корпус лексикографияға, жасанды зияткерлікке, әдебиеттануға, сөйлеу тілін талдау мен жинақтауға және лингвистиканың барлық салаларына қатысты зерттеу түрлерін жүргізуді қамтамасыз етеді. Сонымен бірге танымал академиялық сөздіктер құрастыру мен ғылыми грамматикалар жазуда корпустардың маңызы ерекше. Ұлттық корпусты пайдаланушылар – әртүрлі саладағы тілшілер, әдебиеттанушылар, тарихшылар және гуманитарлық білім салаларының өкілдері. Ұлттық корпустың ана тілі мен шет тілін оқытуда, оқулықтар мен бағдарламалар құрастыруда маңыздылығы да аса зор деуге болады. Сондықтан корпустық лингвистиканы қазақ тіл білімінің де ерекше саласы ретінде қалыптастырып, әрі қарай жетілдіру қазақ тілші-ғалымдарына көлемді тәжірибелік материалдарды пайдалануға, қажетті деген тілдік деректерді тауып алуға және оларға тиісті өңдеулер жүргізуге мүмкіндік туғызады.
Қазақ тілінің ұлттық сипаттағы «тұлғалы» тілдік корпустарын құрастыру мәселесі қазіргі кезде Қазақстанның бірнеше ғылыми-қолданбалы бағыттағы орталықтарында (Еуразия университетінде «Жасанды интеллект», әл-Фараби атындағы ҚазҰУ-де, т.б.) қолға алынып, дербес жұмыс істеп жатыр. Алайда олардың барлығы да орыс тілі тәжірибесіне сүйеніп, корпус құрастыру мәселесін өзінше шешемін деп талаптанғанымен ауқымды мәтіндерді компьютер жадына енгізу, лингвистикалық белгіленімдер талдамасын жасау ісінде шашыраңқылық танытатыны белгілі. Өйткені әр мекемеде жасалып жатқан корпустардағы лингвистикалық белгіленімдер мен олардың моделі, шартты белгілері бірізді емес. Бұл – бір. Екіншіден, автоматты түрде лингвистикалық белгіленім қою мәселесі әлі де болса толық шешімін таппаған. Тілдік талдаулардың өзінде де даулы мәселелер баршылық. Сондықтан аннотацияланған тілдік корпустарды құрастыру ісіне білікті, тәжірибелі лингвистерді тарту қажеттігін туындатады. Үшіншіден, жоғарыда сөз болғандай, миллиондаған сөзқолданыстан тұратын корпустар құрастыру үшін аса көлемді мәтіндердің электронды нұсқасы қажет болады. Ал оларды «қолдан» енгізу көп уақытты қажет ететіні белгілі. Осы орайда бұл мәселе Қазақстан аумағындағы кітап, газет-журнал шығаратын баспалармен келісімге келе отырып шешілетін мәселе деп санаймыз.
|
|