ұсынамын.
Жақсы тәжірибе – өміршең. Кезінде математиктер, биологтар, тарихшылар қауымдастығы
құрылған болатын. Олар уақыт пен заман талабына сәйкес ұсыныстар беріп, осы салалардың
дамуына ықпал етуде. Филологтар қауымдастығы да осындай талап пен талғам биігінде
болады деген ойдамыз.
Съезд жұмысы Елбасы Н.Ә. Назарбаевтың стратегиялық бағытын іске асыруға және
филологиялық ғылым мен білімді одан әрі дамытуға өз үлесін қосады деп сенемін» [1].
Министрдің Филологтар қауымдастығын және Корпустық лингвистика орталығын құру
жөніндегі бастамасы осы сала мамандарының, оның ішінде қазақ тілін компьютерлендіру
бағытында әртүрлі бағдарламалар жасап, сөздіктер құрастырып жұмыс жасап келе жатқан
шағын топтың әрі қарай үйлесімді әрі нәтижелі жұмыс істеуіне серпін береді деп ойлаймыз.
67
Осындай үміт ұялатқан идеяның негізі жалпы қоғамды автоманттандыру, оның ішінде қазақ
тілін компьютерлендіру мәселесінде жатқандықтан, қазақ компьютерлік лингвистикасының
пайда болу тарихына тоқталмақпыз.
ХХ ғасырда басталған ғылыми-техникалық «революция» әлемнің кез келген мемлекетінің
ішкі-сыртқы саясатына, әсіресе экономикалық әлеуетіне ерекше серпін беріп қана қоймай,
Тәуелсіз Қазақстан Республикасы сияқты дамушы елдердің жас мемлекет ретінде
қалыптасуында айрықша рөл атқарды. Қоғамдық қызметтің қай саласында да қолданбалы
бағыт басымдық алды. Осы орайда лингвистиканың қолданбалы саласы да қалыптасып,
дәстүрлі тіл білімінің бағыттарын өз әдіс-тәсілдерімен зерттеуге кірісті.
Қазіргі жаһандану кезеңінде әртүрлі саяси-әлеуметтік, экономикалық қарым-қатынастарға
байланысты ақпарат ағыны бұрын-соңды болмаған қарқынмен өршуде. Ал қоғам өміріндегі
мұндай ақпарат ағымының таралуы табиғи тілде жүзеге асатындықтан, тіл білімінің қызметі
күннен-күнге кеңеюде. Осыған байланысты ұшы-қиырсыз ақпарат ағынын игеру мақсатында
шетел және орыс тіл білімінде орасан зор нәтиже беріп отырған тілдік корпустарды қазақ тіл
білімінің материалдары негізінде жасау бүгінде үлкен сұранысқа ие болып отыр.
Сондықтан тіл білімінің осындай аса қызығушылық туғызып отырған жаңа саласы –
корпустық лингвистиканың зерттеу нысанына нелер жатады, тілдік корпус дегеніміз не,
мәтіндер корпусын құрастыру не үшін қажет және ол қандай ғылыми-теориялық мәселелерді
шешуге септігін тигізеді деген мәселелерге арнайы тоқталмақпыз.
Соңғы жылдары «Корпустық лингвистика» ғылымның бір саласы ретінде айқын
басымдық алып отыр. Өйткені осы саланың зерттеу нәтижесі – мәтіндік корпустарды
пайдаланбай тілдік зерттеулерде тәжірибе жүргізудің, әсіресе сөздік құрастырудың, неше
түрлі грамматикалар дайындаудың мүмкін еместігі айқындалып отыр. Қазіргі кезде
корпустық лингвистиканың мәселелері кейбір оқу құралдарының да арнайы тақырыбына
айналуда [2; 3].
Корпустық лингвистика 1963 жылы АҚШ-та пайда болып, Браун корпусынан (The Brown
Standard Corpus of American English) бастама алады. Бастапқыда бұл корпустың көлемі 1 млн.
сөзқолданыстан тұрып, оның құрамында әрбіреуі 2 мың сөзқолданысқа тең 500 мәтін
қамтылған. Браундық корпус осыған ұқсас корпустар құруға қатысты зерттеулердің кеңінен
тараған нысаны мен стандартына айналды. Ғалымдар көптеген лингвистикалық зерттеулерді
сапалы жүргізу тек ауқымды тілдік материалдар негізінде ғана жүзеге асатындығын ұғына
бастады. Осы айтылғандардың барлығы мәтіндерді корпус түрінде ұйымдастыру ережелері
мен оларға талдау жүргізу әдіснамасын зерттейтін бағыттың пайда болуына себепші болып,
ғалымдарды одан әрі ынталандыра түсті. Сонымен корпустық лингвистика осы әдіс-
тәсілдердің әдіснамасы ретінде туындап отыр деуге әбден болады.
Корпустық лингвистиканың ағылшын тіл білімінде кең етек алуын ғалымдар АҚШ-та
компьютерлік техника мен ХХ ғасырдың 60-80 жылдары британ лингвистикасындағы
интеллектілік ахуалдың белсенді дамуымен түсіндіреді. Осы кездерде тілдік зерттеулердің ең
көп бөлігі компьютерленген мәтіндік корпустарға лингвистикалық талдау жүргізуге
бағытталғандығы мәлім. Мұндай зерттеулердің нәтижесі 2001 жылы Бирменгем
университетінде корпустық лингвистика кафедрасын ашуға және International Journal of
Corpus Linguistics журналын баспадан шығарып тұруға мүмкіндік туғызды. Бірнеше тілдің
материалдары бойынша құрастырылған, түрі мен қызметі жағынан ерекшеленетін корпустар
және солардың негізінде неше түрлі сөздіктер түзіліп, грамматикалар жазылды.
Корпус дегеніміз – әр тілдегі электронды пішінге келтірілген, яғни бір басқару
орталығынан автоматты түрде жұмыс істейтін мәтіндер жинағы. В.П. Захаров «Корпусная
лингвистика» атты оқу құралында былай дейді: «Под названием лингвистический, или
языковой, корпус текстов понимается большой, представленный в электронном виде,
унифицированный, структурированный, размечанный, филологический компетентный
массив языковых данных, предназначенный для решения конкретных лингвистических
задач» [3; 4]. Демек, корпус дегеніміз әр тілдегі электронды пішінге келтірілген, яғни бір
басқару орталығынан автоматты түрде жұмыс істейтін мәтіндер жинағы. Ал оның қызметі
68
осы мәтіндер жинағын адамның қарым-қатынас барысында пайдалануына мүмкіндік беруге
бағытталады.
Корпуста сақталатын бірлік – ол пәндік саланың қандай да бір жиынтығы. Мысалы,
оларға жататындар: сөз, сөзтіркес, сөйлем немесе толық мәтіндер жиынтығы. Мәселен,
корпусқа енгізілген мәтіндердегі әрбір тілдік бірлікке, ол не жеке сөз не қосымша болсын,
лингвистикалық ақпарат беріледі. Тілде мұндай лингвистикалық ақпарат беруді
аннотациялау деп атайды. Аннотация дегеніміздің өзі «қысқаша мазмұн» дегенді білдіреді.
Соған сәйкес корпусқа енгізілген тілдік бірліктердің аннотациясы да шартты белгілер
арқылы қысқаша беріледі. Орыс тілінде «разметка» деп аталатын мұндай шартты белгілер
қазақ тілінде «белгі-код», «белгіленім» деген терминдермен аталып жүр. Мәтіндер
бірліктеріне берілген лингвистикалық ақпараттардың толық сипатта болуы осы
белгіленімдердің әртүрлілігіне байланысты. Белгіленімдер тілдегі жекелеген деңгейлерге тән
тілдік мәліметтерді қамтиды. Ондай белгілер семантикалық (лексика-семантикалық),
морфологиялық, синтаксистік сипатта болуы мүмкін. Мәселен, орыс тілінің Ұлттық
корпусында орын алған морфологиялық белгілер барлық сөздерді сөз табына, септелу
категориясына, тегіне (род – муж., жен.), жіктелуіне, жанды-жансыздығына, етіс және етістік
түріне, салыстырмалы шырай және т.б. морфологиялық сипаттамаларына қарай арнайы белгі
қою жүргізілген. Сол сияқты семантикалық талдау арқылы да мәтін ішіне қажетті
белгілердің қойылатынын айтуға болар еді. Мысалы, орыс тіліндегі үстеу сөздерге
«Таксономияға», «бағалауға», «сөзжасамдыққа» қатысты белгілеулер орын алған. Мұндағы
«Таксономия» белгісі: орынды, бағытты, қашықтықты, уақытты, жылдамдықты, санына және
т.б. жүйелеулерге қатысты семантикалық сипаттамаларды білдіреді.
Мәтіндер корпусы туралы жазылған ғылыми еңбектерде фонетикалық, морфологиялық,
семантикалық, синтаксистік белгіленімдердің енгізілетіндігі туралы айтылады. Бірақ корпус
жасау барысында аталған белгіленімдердің барлығын бір уақытта енгізу қиындық тудырады.
Осы орайда шетел, орыс тіл біліміндегі мәтіндер корпусында лингвистикалық белгіленімдер
енгізу ісі кезең-кезеңмен жүзеге асырылған. Толық лингвистикалық ақпарат берілген
корпустарды «терең аннотацияланған» (глубоко аннотированный) деп атайды.
Екіншіден, корпус мазмұнының күрделілігі терең аннотацияланумен қатар әртүрлі стильді
қамтуына да байланысты. Әдетте, корпус құрастыруда, сондай-ақ жиілік сөздіктер жасауда
да көбінесе төрт түрлі стиль қамтылады. Олар: көркем стиль (проза, поэзия), драматургия,
газет-журнал (публицистикалық), ғылыми-техникалық стильдер. Бұлардан басқа ауызекі
стильден де корпус мәтіндері жинақталады. Үшіншіден, корпустардың сапасы ондағы
қамтылған сөзқолданыс мөлшерімен де өлшенеді. Жалпы тіл білімінде алғашқы
корпустардың кемінде 1 млн. сөзқолданыстан бастап жасалғандығы айтылады. Қазіргі
кездері сол алғаш 1 млн. сөзқолданыстан жасалған мәтіндер корпусының көлемі 20
миллионнан 100 млн.-ға дейін жетеді екен. Демек, корпустың құрастырылуы туралы мәселе
сөз болғанда, ең алдымен оның көлемі туралы нақты деректер беріледі.
Корпустар құрастыруда оның түріне қарай (Ұлттық, стильдік, кезеңдік) мәтіндер
таңдалып алынады. Оларды таңдама мәтіндер деп атайды. Корпусқа енгізілетін мәтіндер
көбінесе ақын-жазушылар шығармаларынан алынады. Корпустар құрастыру тәжірибесінде
әсіресе, проза жанры басым. Сондықтан стильдік жағынан алғанда корпустарды «проза
жанрына орталықтандырылған» (литературацентричный) деуге болады.
Корпустарға қойылатыны талаптардың негізгісі – репрезентативтілік (тұлғалылық), яғни
оны сол корпустың пәндік аяның барлық қасиетін бейнелей алу мүмкіндігі немесе сол
лингвистикалық зерттеу типіне қатысты пәндік аядағы құбылыстың кездесу жиілігінің тілдік
бірліктерді бір-бірінен ажырата алатындай мәнде болу қажеттігі деуге болады [2].
Корпус түрлерінің ішінде қатар тілдер (параллель) корпустары бір тілден екінші тілге
аударма жасауға қатысты талдау жұмыстарын жүргізуге аса қолайлы болып келеді. Мысалы,
«Орыс тілінің Ұлттық корпусында» параллель мәтіндердің (қатар тілдер мәтіндері)
корпустары да орын алған. Мұндай корпустар ерекше корпустар қатарына жатады. Себебі,
69
орыс тіліндегі мәтінге оның басқа тілге аударылған үлгісі және, керісінше, шет тілдеріндегі
мәтіндерге орысша аудармасы сәйкестендірілген.
Түпкі және аударма мәтіндердің бірліктері арасында «теңестіру» нәтижесінде арнайы
қарастырылған шаралар бойынша сәйкестік жүзеге асады. Теңестірілген паралельді корпус –
ол ғылыми зерттеулердің, әсіресе, аударма жасаудың теориясы мен практикасының аса
тиімді құралы.
Корпустық лингвистиканың жетістіктерін өзіне сақтаған аса дамыған корпус түрі –
Ұлттық корпус. Мұндай корпус белгілі дәрежеде Ұлттық тілді толық түрде бейнелейді.
Ұлттық корпустың репрезентативтілігі (тұлғалылығы) – сол тілдің жазба және сөйлеу
түріндегі мәтіндерінің барлық типтерінің бейнеленуі. Ұлттық корпустың айтарлықтай
дәрежеде көлемді (ондаған, жүздеген миллион сөзқолданыс) болуы репрезентативтілікке
жетудің қажетті шарты болып саналады. Ұлттық корпустың ажыратылмас бөлігі оның
белгіленген (аннотацияланған, мазмұндалған) бейнесі.
Достарыңызбен бөлісу: |