68
осы мәтіндер жинағын адамның қарым-қатынас барысында пайдалануына мүмкіндік беруге
бағытталады.
Корпуста сақталатын бірлік – ол пәндік саланың қандай да бір жиынтығы. Мысалы,
оларға жататындар: сөз, сөзтіркес, сөйлем немесе толық мәтіндер жиынтығы. Мәселен,
корпусқа енгізілген мәтіндердегі әрбір тілдік бірлікке, ол не жеке сөз не қосымша болсын,
лингвистикалық ақпарат беріледі. Тілде мұндай лингвистикалық ақпарат беруді
аннотациялау деп атайды. Аннотация дегеніміздің өзі «қысқаша мазмұн» дегенді білдіреді.
Соған сәйкес корпусқа енгізілген тілдік бірліктердің аннотациясы да шартты белгілер
арқылы қысқаша беріледі. Орыс тілінде «разметка» деп аталатын мұндай шартты белгілер
қазақ тілінде «белгі-код», «белгіленім» деген терминдермен аталып жүр. Мәтіндер
бірліктеріне берілген лингвистикалық ақпараттардың толық сипатта болуы осы
белгіленімдердің әртүрлілігіне байланысты. Белгіленімдер тілдегі жекелеген деңгейлерге тән
тілдік мәліметтерді қамтиды. Ондай белгілер семантикалық (лексика-семантикалық),
морфологиялық, синтаксистік сипатта болуы мүмкін. Мәселен, орыс тілінің Ұлттық
корпусында орын алған морфологиялық белгілер барлық сөздерді сөз табына, септелу
категориясына, тегіне (род – муж., жен.), жіктелуіне, жанды-жансыздығына, етіс және етістік
түріне, салыстырмалы шырай және т.б. морфологиялық сипаттамаларына қарай арнайы белгі
қою жүргізілген. Сол сияқты семантикалық талдау арқылы да мәтін ішіне қажетті
белгілердің қойылатынын айтуға болар еді. Мысалы, орыс тіліндегі үстеу сөздерге
«Таксономияға», «бағалауға», «сөзжасамдыққа» қатысты белгілеулер орын алған. Мұндағы
«Таксономия» белгісі: орынды, бағытты,
қашықтықты, уақытты,
жылдамдықты,
санына және
т.б. жүйелеулерге қатысты семантикалық сипаттамаларды білдіреді.
Мәтіндер корпусы туралы жазылған ғылыми еңбектерде фонетикалық, морфологиялық,
семантикалық, синтаксистік белгіленімдердің енгізілетіндігі туралы айтылады. Бірақ корпус
жасау барысында аталған белгіленімдердің барлығын бір уақытта енгізу қиындық тудырады.
Осы орайда шетел, орыс тіл біліміндегі мәтіндер корпусында лингвистикалық белгіленімдер
енгізу ісі кезең-кезеңмен жүзеге асырылған. Толық лингвистикалық ақпарат берілген
корпустарды «терең аннотацияланған» (глубоко аннотированный) деп атайды.
Екіншіден, корпус мазмұнының күрделілігі терең аннотацияланумен қатар әртүрлі стильді
қамтуына да байланысты. Әдетте, корпус құрастыруда, сондай-ақ жиілік сөздіктер жасауда
да көбінесе төрт түрлі стиль қамтылады. Олар: көркем стиль (проза, поэзия), драматургия,
газет-журнал (публицистикалық), ғылыми-техникалық стильдер. Бұлардан басқа ауызекі
стильден де корпус мәтіндері жинақталады. Үшіншіден, корпустардың сапасы ондағы
қамтылған сөзқолданыс мөлшерімен де өлшенеді. Жалпы тіл білімінде алғашқы
корпустардың кемінде 1 млн. сөзқолданыстан бастап жасалғандығы айтылады. Қазіргі
кездері сол алғаш 1 млн. сөзқолданыстан жасалған мәтіндер корпусының көлемі 20
миллионнан 100 млн.-ға дейін жетеді екен. Демек, корпустың құрастырылуы туралы мәселе
сөз болғанда, ең алдымен оның көлемі туралы нақты деректер беріледі.
Корпустар құрастыруда оның түріне қарай (Ұлттық, стильдік, кезеңдік) мәтіндер
таңдалып алынады. Оларды таңдама мәтіндер деп атайды. Корпусқа енгізілетін мәтіндер
көбінесе ақын-жазушылар шығармаларынан алынады. Корпустар құрастыру тәжірибесінде
әсіресе, проза жанры басым. Сондықтан стильдік жағынан алғанда корпустарды «проза
жанрына орталықтандырылған» (литературацентричный) деуге болады.
Корпустарға қойылатыны талаптардың негізгісі – репрезентативтілік (тұлғалылық), яғни
оны сол корпустың пәндік аяның барлық қасиетін бейнелей алу мүмкіндігі немесе сол
лингвистикалық зерттеу типіне қатысты пәндік аядағы құбылыстың кездесу жиілігінің тілдік
бірліктерді бір-бірінен ажырата алатындай мәнде болу қажеттігі деуге болады [2].
Корпус түрлерінің ішінде қатар тілдер (параллель) корпустары бір тілден екінші тілге
аударма жасауға қатысты талдау жұмыстарын жүргізуге аса қолайлы болып келеді. Мысалы,
«Орыс тілінің Ұлттық корпусында» параллель мәтіндердің (қатар тілдер мәтіндері)
корпустары да орын алған. Мұндай корпустар ерекше корпустар қатарына жатады. Себебі,
69
орыс тіліндегі мәтінге оның басқа тілге аударылған үлгісі және, керісінше, шет тілдеріндегі
мәтіндерге орысша аудармасы сәйкестендірілген.
Түпкі және аударма мәтіндердің бірліктері арасында «теңестіру» нәтижесінде арнайы
қарастырылған шаралар бойынша сәйкестік жүзеге асады. Теңестірілген паралельді корпус –
ол ғылыми зерттеулердің, әсіресе, аударма жасаудың теориясы мен практикасының аса
тиімді құралы.
Корпустық лингвистиканың жетістіктерін өзіне сақтаған аса дамыған корпус түрі –
Ұлттық корпус. Мұндай корпус белгілі дәрежеде Ұлттық тілді толық түрде бейнелейді.
Ұлттық корпустың репрезентативтілігі (тұлғалылығы) – сол тілдің жазба және сөйлеу
түріндегі мәтіндерінің барлық типтерінің бейнеленуі. Ұлттық корпустың айтарлықтай
дәрежеде көлемді (ондаған, жүздеген миллион сөзқолданыс) болуы репрезентативтілікке
жетудің қажетті шарты болып саналады. Ұлттық корпустың ажыратылмас бөлігі оның
белгіленген (аннотацияланған, мазмұндалған) бейнесі.
Достарыңызбен бөлісу: