Атты І халықаралық конференция ЕҢбектері

Теориялық және практикалық маңызы

жүктеу/скачать 8,57 Mb.

Pdf көрінісі

бет	8/39
Дата	25.12.2016
өлшемі	8,57 Mb.
	#403

1 ... 4 5 6 7 8 9 10 11 ... 39

Теориялық және практикалық маңызы:
Ұлттық  корпус,  ең  бірінші  кезекте,  тілші-ғалымдарға  сол  тілдің  лексикасы  мен
грамматикасын  жан-жақты  зерттеуге  мүмкіндік  тудырады.  Ал  корпустың  келесі  міндеті  –
тілдің  ішкі  салалық  (лексика,  грамматика,  тіл  тарихы  және  т.б.)  аясына  қатысты  әртүрлі
анықтағыштық рөл атқару.
Егер Ұлттық корпуста тілдік бірліктердің статистикалық сипаты да берілетін болса, ондай
деректермен  әдебиетшілер,  тарихшылар  және  басқа  да  қоғамдық  ғылымдардың  сала
мамандары пайдалана алады.
Әрине,  Ұлттық  корпустың  қолдану  аясы  тілдерді  ана  тілі  немесе  шет  тілі  ретінде  оқыту
кезінде  көбірек  байқалады.  Сондықтан  қазіргі  кезде  көптеген  оқулықтар  мен  оқу
бағдарламалары  мәтіндік  корпустарға  бағышталып  құрастырылуда.  Мәселен,  мағынасы
күңгірт  сөздер  мен  грамматикалық  формалардың  қолдану  ерекшеліктерін  белгілі
авторлардың  шығармалары  бойынша  электрондық  корпус  көмегімен  әрі  тез,  әрі  ұтымды
тексеруді шетелдік азамат та, оқушы да, оқытушы да, журналист те және жазушы да жүзеге
асыра алады.
Ұлттық  корпус  сол  тілдің  өмір  сүрген  белгілі  кезеңіндегі  сан  алуан  жанрын,  стилін,
аймақтық, әлеуметтік нұсқасын және т.б. да түрлерін қамтиды.
Корпустық  лингвистика  тіл  білімінің  жеке  саласы  ретінде  өзімен  іргелес  жатқан  тіл
ғылымы  пәндерімен  жанасып  жатады,  яғни  математикалық  лингвистика,  дискурстік  анализ
және  лексикография  салаларымен  жақын  жатады.  Корпустық  лингвистиканың  басқа  тіл
ғылымы  пәндерімен  қарым-қатынаста  болу  ерекшелігі,  бір  жағына  алғанда,  мәтіндер
корпусының  корпустық  лингвистика  қызметінің  нәтижесі  ретінде  болса,  ал  екіншіден  –
лингвистикалық  пәндердің  басқа  түрлеріне  де  бастапқы  эмпирикалық  материал  болу
мүмкіндігінде.  Міне,  дәл  осы  жағдай  корпустық  лингвистиканың  фонетика,  лексикология,
грамматика  және  стилистика  салаларымен  тығыз  байланыста  болуының  дәлелі  десек  те
болады.
Ұлттық  корпус  ғылыми  зерттеулердің  түр-түрін  жүргізуді  қамтамасыз  етеді:
лексикографияға, жасанды интеллектіге, әдебиеттануға, сөйлеу тілін талдау мен жинақтауға
және  лингвистиканың  барлық  салаларына  қатысты  зерттеу  түрлері.  Сонымен  бірге  беделді
академиялық  сөздіктер  мен  ғылыми  грамматикаларды  құрастыру  да  корпустар  негізінде
жүзеге  асады.  Ұлттық  корпусты  пайдаланушылар  –  әртүрлі  саладағы  тілшілер,
әдебиеттанушылар,  тарихшылар  және  гуманитарлық  білім  салаларының  өкілдері.  Ұлттық
корпустың  ана  тілі  мен  шет  тілін  оқытуда,  оқулықтар  мен  бағдарламалар  құрастыруда
маңыздылығы аса зор деуге болады [4; 5; 6].
Корпустық лингвистика қазақ тіл білімінің де ерекше саласы ретінде қалыптасатын болса,
қазақ  тілші-ғалымдарына  көлемді  тәжірибелік  материалдарды  пайдалануға,  қажетті  деген
тілдік  деректерді  тауып  алуға  және  оларға  тиісті  деген  өңдеулер  жүргізуге  мүмкіндік
туындатады.  Осының  бәрі  қазақ  тіліне  қатысты  зерттеулердің  шынайылыққа  (ақиқаттыққа)

70

жетудің  эмпирикалық  тәсілдеріне  жаңаша  көзқараспен  қарауға  және  ғылыми  айналым
аясына аса маңызды тілдік материалдарды енгізуге жағдай жасайды.
Орыс тілі корпусы туралы:
Интернет желісіндегі 2003 жылдан бері өзіне жүктелген қызметті ойдағыдай атқарып келе
жатқан  «Орыс тілінің Ұлттық  корпусын»  атауға болады. Қазіргі кезде орыс тілінің Ұлттық
корпусының  жалпы  көлемі  230  млн.  сөзқолданыстан  тұратын  әртүрлі  мәтіндер  бөлігін
қамтиды.
Орыс тілінің Ұлттық корпусы басқа да тілдердің Ұлттық корпустары сияқты мынадай екі
маңызды ерекшеліктерге ие:
-  біріншіден,  корпусқа  аса  көлемді  және  әр  кезеңдер  бойынша  шамалас  көлемдегі
мәтіндердің  алынуы.  Дәлірек  айтсақ,  біріншіден,  орыс  тілінің  Ұлттық  корпусына  барлық
жазбаша және ауызша мәтіндер (көркем әдебиеттің әртүрлі жанрлары, көсемсөз жанры, оқу,
ғылыми, ісқағаздары, сөйлеу тілі, аймақтық тіл және т.б.) қамтылып, олар әр кезең бойынша
сәйкес көлемде алынады;
-  екіншіден,  корпус  құрамындағы  мәтіндер  айрықша  сипаттағы  қосымша  ақпаратқа  ие
болады.  Мұндай  ақпарат  шартты  түрдегі  белгіленімдер  арқылы  көрініс  табады  (орысша
аталуы – «разметка» немесе «аннотация»).
Орыс тілінің Ұлттық корпусының даму барысын сөз етсек, ол ең алдымен ХІХ ғ. басынан
ХХІ ғ. бастапқы кезеңін қамтиды деуге болады. Бұл кезең орыс тілінің әртүрлі әлеуметтік-
лингвистикалық  тұстарын  бейнелейді  –  әдеби  тіл,  сөйлеу  тілі,  тұрмыстық  тіл,  ішінара
диалектілік тіл. Корпустық қорға көркем әдебиеттің (проза мен драматургия, поэзия) мәдени
маңыздылығы  мол  және  тілдік  тұрғыда  тілші-ғалымдардың  қызығушылығын  тудыратын
түпнұсқа  түріндегі  шығармалары  енгізіледі.  Бірақ  Ұлттық  корпус  тек  көркем  әдебиетке
қатысты  мәтіндерден  ғана  тұрмайды,  ол  сонымен  бірге  мәтін  үлгілерінің  басқа  да  жазба
нұсқаларын (қазіргі кезеңде – ауызша нұсқасын да) қамтиды. Оған жататындар: мемуарлар,
эсселер,  көсемсөз  стильдері,  ғылыми-көпшілікке  арналған  және  ғылыми  әдебиеттер,  жұрт
алдында сөйлеген сөздер, жеке адамдар арасындағы хат алысу, күнделіктер, құжаттар және
т.б. мәтіндер болуы мүмкін.
«Орыс тілінің Ұлттық корпусын» құрастыру үшін Ресейлік ғылым академиясының тек В.
В.  Виноградов  атындағы  Орыс  тілі  институты  ғалымдарының  күшімен  ғана  емес,  оған
Ресейдегі аса ірі ғылыми топтардың қатысқанын, дәлірек айтсақ, Мәскеу,  Санкт-Петербург,
Казань,  Воронеж,  Саратов  және  басқа  да  Ресейлік  ғылыми  орталықтардың  көптеген
ғалымдардың  қауымдастығымен    орындағаны  мәлім  болып  отыр.  Шындығында,  2003-2010
жылдары «Орыс тілінің Ұлттық корпусын» құрастыруға қолғабыс еткен ғылыми мекемелер:
1)  Ресей  ғылым  академиясының  тарихи-филологиялық  («Филология  және  ақпараттану»)
бөлімі;
2) Ресейлік қоғамдық ғылыми қор;
3)  Білім  берудің  федаралды  агенттіктері  бойынша  «Орыс  тілі»  федералдық  мақсатты
бағдарлама.
Сонымен бірге, В. В. Виноградов атындағы Орыс тілі институтының мамандарымен бірге
жобаға басқа да мекемелер қатысқан:
1)  РҒА-ның  Тіл  білімі  институты  [ИЯз  РАН],  РҒА-ның  Ақпарат  тарату  мәселелері
институты;
2) РҒА-ның Бүкілресейлік ғылыми және техникалық ақпарат институты [ВИНИТИ РАН];
3) Санкт-Петербургтегі  РҒА-ның лингвистикалық зерттеулер институты;
4) Казань (Приволжский) федералды университеті;
5) Воронеж мемлекеттік университеті;
6) Саратов мемлекеттік университеті.
Осыншама мекемелер мен бірнеше ғылыми топтарының аталған жобаға қатысуына себеп,
ол  орыс  тілінің  жазба  және  сөйлеу  тілі  мәтіндерінің  негізгі  корпусын  құруда  көптеген
мәселелерді қарастыру қажеттігінде. Қысқаша айтқанда олардың бір тобы мыналар:
1) XVIII ғасырдағы жазба мәтіндерінің тұлғалы корпусын құру;

71

2)  XIX-XX  ғасырдың  бірінші  жартысы  аралығындағы  жазба  мәтіндерінің  тұлғалы
корпусын құру;
3)  Қазіргі  кезеңнің  (XX ғ.  ортасы  –  XXI  ғ.  басы)  жазба  мәтіндерінің  тұлғалы  корпусын
құру;
4)  Жазба  мәтіндерінің  корпустарын  теңгеру  (баланстау)  үшін  морфологиялық  және
сөзтудырушы-семантикалық  белгіленім  қағидаттарына  (принциптеріне)  зерттеме  жүргізу
және компьютерлік бағдарламалар мен корпустарға белгіленім жасауды қамтамасыз ету.
Осы аталған мәселелер Ресей елінің бірнеше ғылыми мекемелерінің бірнеше мамандары
қатысып,  шешімін  тапқаны  мәлім.  Мысалы,  мәтіндерге  морфологиялық  белгіленім
жүргізудің  ортақ  принциптерін  айқындау  мәселесі  үшін  ғана  5  ірі  ғалымдар  атсалысқан
(В. А. Плунгян, Г. И. Кустова, А. Е. Полякова және Д. В. Сичинава).
Сол сияқты, орыс тілі корпусына қажетті морфологиялық белгіленімді автоматтандыруды
компьютерлік  бағдарламамен  қамтамасыз  ету  мәселесімен  Mystem (Яндекс  бірлестігі)
және Dialing  атты  программалық  қорын  құрастырушы  10-нан  аса  прогаммист-ғалымдар
ұжымы
айналысқаны
белгілі
(Д. В. Панкратов,
А. Е. Поляков, В. А. Титов,
Т. А. Архангельский,  А. И. Зобнин,  А. В. Сокирко  және  т.б.).  Ал  осы  компьютерлік
бағдарламаларға  қатысты  морфологиялық  талдаудың  теориялық  қағидаттарын  зерттеуді
Л.Л.Иомдин, В.З.Санников  (Mystem), Н.Н.Леонтьева  (Dialing)  сияқты  белгілі  филолог-
ғалымдар өз міндеттеріне алған болатын.
Сонымен,  орыс  тілінің  Ұлттық  корпусын  құру  мен  оны  жетілдіру  ісін  қажетті
компьютерлік  бағдарламалармен  қамтамасыз  ету  мәселесіне,  яғни  іздестіру  жүйесін,
метамәтіндік  белгіленімді,  морфологиялық,  синтаксистік,  семантикалық  белгіленімді  және
т.б. жетілдіру ісінің әр кезеңінде және алынған нәтижелерді эксперттен өткізу мәселелеріне
көптеген ірі ғалымдармен бірге Мәскеудің жоғары оқу орындарындағы филолог-студенттер
мен аспиранттар, магистранттар қатысып, өз үлестерін қосып отырғаны мәлім.
Орыс  тілінің  Ұлттық  корпусын  құрастыруда  әр  салаға  қатысты  белгіленім  түрлерімен
айналысатын орындаушылар тобы да сан жағынан түрліше. Мысалы, корпусқа сөзжасаушы-
семантикалық  белгіленім енгізу мәселесін зерттейтін ғылыми  тобы 9 орындаушыдан тұрса,
семантикалық  белгіленімнің  компьютерлік  бағдарламалық  құрамдау  тобы  2  ғалымнан
(А. Е. Поляков, А. И. Зобнин) тұрады екен. Келесі ғылыми топ метамәтіндік белгеленім мен
мәтіндерді  таңдаудың  жалпы  қағидаттарын  зерделеумен  шұғылданған  ғалымдар  саны  7-ге
тең.  Ал  әр  ғылыми  топтардың  орыс  тілінің  Ұлттық  корпусы  мәтіндеріне  жүргізіп  жатқан
метамәтіндік  белгіленімдерді  бірізділігін  координациялайтын  ғалымдар  тобы  20  шақты
орындаушылардан тұратынын айта кетпекпіз.
Орыс  тілінің  кезеңдік  корпустарын  құрастыру  үшін,  мысалы,  ХІХ  ғасырдағы  мәтіндер
корпусы,  ХХ  ғасырдағы  мәтіндер  корпусын  құрастыру  кезіндегі  өңдеу  мен  метабелгіленім
жүргізуді  де  жеке  ғылыми  топтар  жүзеге  асырады.  Сонымен,  аталған  міндеттерді
орындайтын  ғалымдар  тобының  саны  мен  әр  топтағы  ғалымдар  саны  да  өне  бойы  өсіп
отыратынын байқауға болады.
Орыс  тіл  білімінің  тәжірибесіне  сүйенсек,  оларда  орыс  тілінің  Ұлттық  корпустарын
құрастыру ісіне көптеген ғылыми-лингвистикалық, техникалық орталықтар, баспасөз, баспа,
жоғары  оқу  орындары  т.б.  атсалысып,  бірігіп  атқарып  отыр.  2003-2010  жылдарғы  Ресейлік
ғалымдардың  «Орыс  тілінің  Ұлттық  корпусы»  жобасының  қандай  ғылыми  күшпен
орындалғанынан  байқауға  болады.  Өйткені  олар  корпус  құрастырудың  маңызын  өз  кезінде
жақсы  түсініп,  ауқымды  істі  бірігіп  атқаруға  жұмылдырылған.  Нәтижесінде  түрлі-түрлі
лингвистикалық аннотациялар жасап, сонымен қатар мәтін көлемі жағынан да ұтып отыр.
Осындай  қазақ  тілінің  Ұлттық  сипаттағы  «тұлғалы»  тілдік  корпустарын  құрастыру
мәселесі
қазіргі
кезде
Қазақстанның
бірнеше
ғылыми-қолданбалы
бағыттағы
орталықтарында  қолға  алынып,  дербес  жұмыс  істеп  жатуы  мүмкін.  Олардың  барлығы  да
орыс  тілі  тәжірибесіне  сүйеніп,  корпус  құрастыру  мәселесін  өзінше  шешемін  деп  талап
қылып  жатқанымен,  ауқымды  мәтіндерді  компьютер  жадына  енгізу,  лингвистикалық
белгіленімдер  талдамасын  жасау  ісінде  шашыраңқылық  танытатыны  белгілі.  Өйткені,  әр

72

мекемеде  жасалып  жатқан  корпустардағы  лингвистикалық  белгіленімдер  мен  олардың
моделі, шартты белгілері бірізді емес.
Екіншіден, автоматты түрде лингвистикалық белгіленім қою мәселесі әлі де болса толық
шешімін  таппаған.  Яғни  тілдік  талдаулардың  өзінде  де  даулы  мәселелер  баршылық.
Сондықтан  аннотацияланған  тілдік  корпустарды  құрастыру  ісіне  көптеген  аса  білімді
практик лингвистерді тарту қажеттігі туындап отыр.
Үшіншіден,  жоғарыда  сөз  болғандай,  миллиондаған  сөзқолданыстан  тұратын  корпустар
құрастыру  үшін  аса  көлемді  мәтіндердің  электронды  варианты  керек  болады.  Ал  оларды
«қолдан»  енгізу  көп  уақытты  қажет  ететіні  белгілі.  Осы  орайда  бұл  мәселе  Қазақстан
аумағындағы кітап, газет-журнал шығаратын баспалармен келісімге келе отырып шешілетін
мәселе.  Бұл  мәселенің  шешімін  табу  айтарлықтай  оңай  еместігі  жоғарыда  аталған  «Қазақ
тілінің Ұлттық корпусын» жасау кезінен таныс деуге болады. Сондықтан бұл мәселе тек ҚР
БҒМ ҒК тұрғысынан ғана шешімін табуы мүмкін.
Аталған  мәселе  «Орыс  тілінің  Ұлттық  корпусын»  құрастыру  жағдайында  Ресей
баспаларымен  келісе  жасау  арқылы  шешімін  тапқан  тәрізді.  Оған  негіз  болып  отырған
Интернеттегі  корпус  құрастырушыларның    Ресейлік  21  баспа  орнына  өз  алғыстарын
білдіргендігі:  «Разработчики  Корпуса  приносят  благодарность  следующим  издательским
коллективам  и фондам,  предоставившим  для  архива  Корпуса  электронные  версии
находящихся в их распоряжении текстов» [6] (баспа аттарын келтірмеуді жөн санадық).
ҚР БҒМ ҒК А. Байтұрсынұлы атындағы Тіл білімі институтында  қазақ тілінің корпусын
құрастыру мәселесі  «Мәдени құндылықтар ретіндегі қазақ тіліндегі мәтіндер корпусы және
сөздіктердің  «Тіл  –  қазына»  атты  Ұлттық  компьютерлік  қоры»  атты  тақырыпқа  қатысты
зерттеу жұмыстарынан бастама алған болатын. Аталған зерттеу жұмысының негізгі мақсаты
–  қазақ  тілінің  мәдени  құндылығы  болып  саналатын  толық  мәтіндеріне,  қажеттілікке  сай,
грамматикалық    белгі-кодтар  енгізіп,  оның  дербес  түрдегі  «Тіл  –  қазына»  атты  мәтіндер
корпустарының компьютерлік базасын құру. Алғашында (2009-2011 ж.ж.) толық мәтіндердің
компьютерлік қорының нысандары ретінде М. Әуезовтің, Ә. Кекілбаевтың, М. Мақатаевтың,
М. Мағауинның толық шығармаларынан тек таңдама мәтіндер ғана алынды. Ал басқа қазақ
классиктерінің, ғылыми мәтіндердің, публицистикалық  шығармалардың мәтіндер қорпусын
жасау  Қолданбалы  лингвистика  бөлімдегі  шағын  ғана  топтың  қолынан  келер  нәрсе  емес,
әрине.  Егер  Институтымыздың  қолға  алған  «Қазақ  тілінің  аннотацияланған  Ұлттық
корпусын»  жасаушы  ғалымдар  саны    жеткілікті  болғанда    мынадай  корпустар  түрлерін  де
жасауымызға болар еді:
1)  Қазақ  тілінің  қазіргі  кездегі  (немесе  кезеңдік)  бұқаралық  ақпарат  құралдары  (газет,
журнал бетіндегі) мәтіндерінің жеке корпусы;
2) Қазақша сөйлеу тілі жазбасының (мәтінінің) жеке корпусы (орыс тілінің «Корпус живой
русской речи» тәріздес);
3)  Қазақ  тілінің  мультимедиалық  корпусы  (корпустың  негізін  мәтіндердің  видео-  және
аудиожазбалары құрайды);
4) Қазақ тілімен параллель тілдердің жеке корпусы (түркітілдес және үндіеуропа тілдері),
мысалы,  қазақ-қырғыз,  қырғыз-қазақ,  қазақ-өзбек,  өзбек-қазақ  және  т.б.,  сол  сияқты,  қазақ-
орыс, орыс-қазақ, қазақ-украин, украин-қазақ және т.б. қатар тілдер корпусы;
5)  Қазақ  тілінің  диалектілік  мәтіндерінің  жеке  корпусы  (орыс  тілінің  «Корпус  русских
диалектных текстов» тәріздес);
6)  Қазақ  тілінің  поэтикалық  мәтіндерінің  жеке  корпусы  (орыс  тілінің  «Корпус  русских
поэтических текстов» тәріздес);
7)  Қазақ  тілінің  білім  беру  корпусы  (орыс  тілінің  «Обучающий  корпус  русского  языка»
тәріздес).
Бір айта кететін жайт  –  «Орыс тілінің Ұлттық корпусы» бойынша ақпарат іздеу жүйесін
құру  әрекетіне  «Яндекс»  компаниясы  қолдау  көрсеткені  мәлім.  Сол  сияқты  «Қазақ  тілінің
Ұлттық  корпусынан»  ақпарат  іздестіруге  және  оның  интернеттегі  сайтының  дизайнына  да
қолдау көрсететін компаниялар табылып жатса нұр үстіне нұр болар еді.

73

Қорыта  келе  айтарымыз:  Ұлттық  тіл  мәтіндерінің  компьютерлік  корпусын  құру  жобасы
бір  ғана  ғылыми  ұйымның  шешетін  мәселесі  емес  және  ол  зерттеу  жұмысы  3-5  жылда
аяқтала  қояды  деуге  де  болмайды.  Себебі  бұл  аса  күрделі  және  оның  нәтижелері  әлемдік
дәрежедегі  аса  маңызды  ғылыми  жұмыс  болып  саналады.  Зерттеу  жұмысының  мақсатына
сай  орындалатын  міндеттері  де  сала-салаға,  кезең-кезеңге  бөлініп,  тек  қана  ғалымдар
қауымдастығын  құру  арқылы  ғана  ауқымды  нәтижеге  ие  боларымыз  сөзсіз.  Мемлекеттік
тілдің  өз  деңгейінде  қызмет  етуін  шындап  мақсат  етсек,  тілімізді  компьютердіру  ісімен
айналысатын жеке институт құрсақ та артықтық етпес еді.
Бір  сөзбен  айтқанда,  қазақ  тілінің  тілдік  корпустарын  жасау  –  көп  болып  жұмылып
атқаратын  ұлттық  құндылығымыз.  Сондықтан  Қазақстанның  әр  жерінде  бір-бірінен  дербес
атқарылып жатқан корпус жасау ісін орталықтандыру керек немесе  БҒМ Б. Жұмағұловтың
сөзімен айтсақ, «Филологтар қауымдастығын құру» аса қажет демекпіз. Бұл ретте:
-  оған  Қазақстанның  әр  жерінде  ғылыми-педагогикалық  қызмет  атқарып  жүрген
ғалымдардан арнайы лингвистикалық топ құру керек. Өйткені тілдік бірліктерді модельдеу
–  өте  күрделі  мәселе.  Сондай-ақ  тілдік  корпустар  құрастырудың  өзі  ең  алдымен
лингвистикалық белгіленім талдамасын жасауға тіреледі;
-  осы  кезге  дейін  жасалып  жатқан  корпус  жасау  тәжірибесіндегі  нәтижелерді  бір
орталыққа жинақтау керек;
-  кітап,  газет-журнал  шығаратын  баспалармен  шартқа  отырып,  олардан  мәтіндердің
электронды нұсқаларын алу қажет.
Сонымен  қазақ  тілінің  Ұлттық  корпусын  жасау  үшін  А.  Байтұрсынұлы  атындағы  Тіл
білімі  институтында  арнайы  орталық  құрудың  қажеттігі  мен  оның  алғышарттарын  атап
көрсеттік.  Ал  мұндай  ауқымды  іске  мемлекет  тарапынан  қолдау  көрсетілсе,  біртұтас  қазақ
тілінің Ұлттық корпусын құрастыру ісі  алға  басатыны сөзсіз. Мұндай Ұлттық  құндылықты
жасап шығару бүгінгі қазақ тіл білімінің ғана емес, қоғамның болашаққа қояр талаптарының
бірі деп білеміз.

Әдебиеттер
1.http://www.edu.gov.kz/baspasz_yzmeti/silegen_szderi/silegen_sz/?tx_ttnews%5Btt_news%5D
=5126&cHash=d3c4dcba878d7195a36e094ff8023dfe
2.  Баранов  А.Н.  Корпусная  лингвистика  //  Баранов  А.Н.  Введение  в  прикладную
лингвистику: Учебное пособие. –М.: Едиториал УРСС, 2003. С. 112-137.
3. Захаров В.П. Корпусная лингвистика: Учебн.-метод. пособие. –СПб., 2005. –48 с.
4.  Вербицкая  Л.А.,  Казанский  Н.Н.,  Касевич  В.Б.  Некоторые  проблемы  создания
национального  корпуса  русского  языка  //  Научно-техническая  информация.  Серия  2.  2003.
№6. –С.2-8.
5.  Шаров  С.А.  Представительный  корпус  русского  языка  в  контексте  мирового  опыта  //
Научно-техническая информация. Серия 2. Информационные процессы и системы. 2003. №6.
–С.9-18.
6. Национальный корпус русского языка // http://www.ruscorpora.ru

74

ТҮРІК ТІЛДЕРІН ЛАТЫНДАНДЫРУ: СТАНДАРТТАР
ЖӘНЕ ТЕХНОЛОГИЯЛАР
ЛАТИНИЗАЦИЯ ТЮРКСКИХ ЯЗЫКОВ: СТАНДАРТЫ И ТЕХНОЛОГИИ
LATINIZATION OF TURKIC WRITING : STANDARDS AND TECHNOLOGY

75

С.Н. БАЙБЕКОВ

Қазақ технолoгия және бизнес университеті, Астана, Қазақстан

ҚАЗАҚ АЛФАВИТІНІҢ ЛАТЫН-АҒЫЛШЫН ГРАФИКАСЫНДАҒЫ ЖАҢА
ЖОБАСЫ

Қазіргі таңда біреулер қазақ тілін дамытамыз десе, біреулер оған немқұрайлы қарайды, ал
кейбіреулер, шынын айту керек, қарсы. Тоқетерін айтсақ, бұл мәселе  – қазақ тілінің кәзіргі
жағдайы, оның қоғамдағы орны туралы. Демек, қазақ тілінің дәл қазіргі жағдайы мәз емес.
Неге?  Оның  бір  ғана  себебі  бар.  Ол  -  қазақ  тілі  техника  тіліне  келгенде  шорқақ,  ал  қазір
техника  заманы.  Яғни  қазақ  тілін  дамытудың  негізгі  жолдарының  бірі  ол  –  техниканы
қазақша  сөйлету,  немесе  қазақ  тілін  техникаша  сөйлету  керек.  Шындығын  айтсақ,  техника
қазақ тіліне ешқашан бейімделген емес, бейімделмейді де. Осы себепті қазақ тілін техникаға
-  әлемдегі  қолданыста  жүрген  қаптаған  техникалық  дүниеге  бейімдеу  қажет.  Ол  үшін
алдымен  текхниканың  басты  құралы  компьютерді  қазақша  меңгеруіміз  керек.  Алғашқы
мәселе  компьютер  клавиатурасының  түймелерінде  (клавишаларында)  орналасқан  әріптер
мен  таңбаларда.  Себебі  компьютер  құдіреті  осы  таңбалардан  басталады.    Демек,  қазақ
алфавитін кириллицадан  латын графикасы негізінде құралған 26 әріптен тұратын ағылшын
алфавитіне (яғни, компьютер алфавитіне) ауыстыру керек. Бұл кезде қазақ әріптенінің саны
26-дан аспау керек, сонда қазақ тілі компьютер дүниесінде еркін өмір сүре алатын болады да,
компьютерді  қазақша  сөйлетуге  үлкен  мүмкіншілік  туады.  Бұл  өте  маңызды  мәселе.  Ол
баршамызға  айтпай-ақ  түсінікті.  Осы  жерде  тағы  да  айта  кететін  мәселе  –  егер  қазақ
әріптерінің  саны  26-дан  бір  ғана  әріпке  артық  болып  кетсе,  онда  қазақ  алфавитінің
компьютердегі  мүмкіншілігі  белгілі  себептерге  сәйкес  күрт  төмендеп  кетеді,  ондай
реформадан пайда шамалы болады. Бұл реформаға қойылар бірінші талап.
Екінші  шарт-талап.  Реформа  кезінде  ұсынылмақ  әріптер  мен  фонемаларды  жаңаша
белгілеу үлгілері  оңай жатталып есте қаларлықтай ыңғайлы, әрі  үйреншікті  және қазақ тілі
заңдылығына толығымен сәйкес болу керек. Егер олар әлемде қабылданған жүйеге мейлінше
бейімді әрі үйлесімді болса – оған құба-құп.
Үшінші  шарт-талап. Жаңа  алфавит  жүйесі  техника  дүниесіне  ғана  бейімделмей,  ол  осы
күнге  дейін  қолданып  келе  жатқан  ескі  де  жаңа  ғылыми,  тарихи,  әдеби  және  басқа  да
мұрамызға жат болмай, олармен табиғи тығыз байланыста болу керек. Әсіресе ол кириллица
негізінде  жазылған  жазба  құндылықтарымыз  осы  жаңа  алфавит  негізіне  оңай  да  тез
аударылуына икемді болу керек.
Енді осы латын-ағылшын алфавитіне көшу тәсілін қарастырайық.
Алдымен  қазіргі  таңдағы  42  әріптен  тұратын  қазақ  алфавитінен    12  төл  әріптерді  бөліп
алып,  оларды  төмендегідей  етіп  латын-ағылшын  алфавитіне    ауыстырудың  жобасын
ұсынсақ,  бұған  ешкім  қарсы  болмас  еді:  Аа=Aa,  Бб=Bb,  Гг=Gg,  Дд=Dd,  Ее=Ee,  Лл=Ll,
Мм=Mm, Нн=Nn, Оо=Oo, Пп=Pp, Рр=Rr, Тт=Tt. Себебі бұл ұсыныс осы бағытта ізденісіп
жүрген барлық авторлардың ойымен сәйкес келеді.
Осыдан  кейін  қазақтың  басқа  төл  әріптері  ішінен  алдымен  «у»  әріпін  қарастырсақ,  онда
көптеген авторлар арасында келісілген тоқтам жоқ. Себебі «у» дыбысы орыс тілінде дауысты
болып  табылады.  Ал  қазақ  тіліне  келсек  кейбір  оқулықтрда  ол  дауысты,  ал  басқа  бір
оқулықтарда  дауыссыз  деп  саналады.  Осы  мәселе  шешімінің  бір  варианты  ретінде
ұсынбағымыз  –  егер  осы  «у»  дыбысы  сөздің  басында,  немесе  дауыссыз  дыбыстан  кейін
орналасса, онда ол дауысты болады, ал егер дауысты дыбыстан кейін келетін болса, онда ол
дауыссыз болады. Мәселен, ауа, тауық, қауын ...
Осы  дыбысты  кейбір  авторлар  «w»  әріпі  ретінде  беріп  жүр.  Егер  қазақтың  төл  сөздерін
жазсақ,  онда  бұған  келісуге  болады.  Ал  егер  қазақ  тіліне  еніп  төлсөздей  болып  кеткен

76

сөздерді жазатын кезде бұған келісуге мүмкіншілік болмайды. Мәселен, «университет, уран,
ультра,  утопия»  т.с.с.  сөздерді  алайық.  Бұл  сөздерді  қазақ  тілі  үндестігіне  сәйкес  етіп
«үніберсітет, ұран, үлтіре, ыутопійә» деп жаз немесе айт деп кәзіргі таңда ешкімді көндіре
алмаймыз.  Осы  тәрізді  сөздер  тілімізді  байытады,  оларды  тіпті  қазақ  тіліне  аудара  да
алмаймыз,  оның  қажеті  де  жоқ.  Бұл  сөздер  әлдеқашан  қазақша  болып  кеткен.  Енді  осы
сөздерді  «w»  әріпі  ақылы  жазсақ  (мәселен,  «wniversitet,  wran,  wltra»),  онда  олар  ерсі,
үйлесімсіз, әрі қисынсыз болатыны көрініп тұрады. Демек «у» дыбысын ағылшынның өзіне
тән  «u»  әріпімен  белгілеу  керек,  яғни  Уу=Uu.  Осы  кезде  жоғарыда  келтірілген  сөздер
жазылуы әлемде қабылданған жүйеге дәлме дәл болады.
Енді «и,й» әріптеріне келейік. Бұл жерде де әртүрлі ұсыныстар бар. Әсіресе «и» дыбысы,
бұл да «у» дыбысы сияқты біресе дауысты, біресе дауыссыз. Кейбір авторлар бұл дыбысты
мүлдем  алып  тастайық  деп  ұсыныс  береді.  Сонда  жоғарыда  айтылғандай    «имам,  импорт,
импульс,    индекс,  инерция,    интеграл,  ион,  изотоп»  сияқты  қазақы  болып  кеткен  сөздерді
қалай айтамыз және қалай жазамыз?
Ал  кейбір  авторлар  «и»  дыбысын  «й»,  «і»,  «ы»  әріптерінің  комбинациясы  арқылы
белгілеуді ұсынады. Сонда олар бұл дыбысты латын графикасында  «iy» түрінде,  ал кейбір
кезде  «уi»    әріптерімен  жазуды  ұсынады.  Бұндай  ұсыныс  жарамсыз.  Себебі  жазба  тексте
ағылшындық «i» және «y» әріптері қаптап кетеді. Екінші жағынан кейбір сөздерді жазғанда
әріптер және буындар арасында көптеген үйлесімсіздектер пайда болып, оқырман шатасуға
душар  болады.  Сондықтан  «и»  және  «й»  әріптерінің  екеуінде    латынның  «i»  әріпімен
белгілеуді  ұсынамыз,  демек  Ии(й)=Ii.  Сонда  жоғарыда  айтылған  және  сол  сияқты  сөздер
ешқандай  шатасымсыз  әлемдік  бейімге  сәйкес  дәлме  дәл  жазылады,  мәселен  «import»,
немесе «ion». Бұл жерде айта кететін тағы да бір жағдай - егер осы «и» әріпі сөздің басында,
немесе  дауыссыз  дыбыстан  кейін  орналасса  онда  ол  дауысты  болады,  ал  егер  дауысты
дыбыстан кейін келетін болса, онда ол дауыссыз болады.
Енді  «к»  және  «қ»  әріптерін  қарастырайық.    Кейбір  авторлар  «к»  әріпін  латынның  «k»
әріпімен,  ал  «қ»  әріпін  «q»  әріпімен  белгілеуді  ұсынады.  Бұның  бір  ыңғайсыз  жері
«Қазақстан»  атауын  «Qazaqstan»  деп  жазсақ,  онда  бұл  атау  әлемде  қабылданған  жүйеге
сәйкес  болмай  оғаштау  көрінеді.  Сондықтан  біз  алғашқыда  осы  атауды    әдеттегідей  етіп
«Kazakstan» деп жазуды ұсындық. Демек, Ққ=Kk, Кк=Qq.
Қазіргі таңда қазақ тілі заңдылықтарын зерттей отыра, «Ққ»  және «Кк»  әріптерін латын
графикасында  «Kk»    әріпі  арқылы  белгілеуді  ұсынамыз.  Бұл  жерде  аздап  түсінбеушілік
туындау мүмкін. Оны шешу үшін мынадай ереже ұсынамыз:
- Егер латынша жазылған «Кк»  әріпі қазақтың  латын баламасында жазылған «а, о, ы, ұ»
әріптерімен көрші орналасса, онда ол «Ққ» әріпі болып оқылсын, демек  «k(а, о, ы, ұ)= қ».
-  Егер  латынша  жазылған  «Кк»    әріпі  қазақтың    латын  баламасында  жазылған  «ә,  ө,  і,  ү
және  е» әріптерімен көрші орналасса, онда ол «Кк» әріпі болып оқылсын, демек  «k(ә, ө, і,
ү,е)= к».
Бұл  жерде  осы  қағидаға  «и»  және  «у»  әріптері    сәйкес  келмей,  өзгешелік  танытады.
Мысалы, «қиын» және «киім» сияқты сөздер осы қағидаға бағынбайды. Сондықтан қазақ тілі
үндестік  заңдылықтарын  пайдалана  отырып,  осы  сөздерді  келесідей  етіп  жазсақ
«қиын»=«қыйын»    және  «киім»=«кійім»,  онда  қазақ  тілі  заңдылықтары  жазба
заңдылықтарына  сәйкес  және  үйлесімді  болып,  бәрі  орын  орнына  келеді  де,  жоғарыда
айтылған  ереже  мүлтіксіз  орындалады.  Осыған  сәйкес  «у»  әріпінің  заңдылықтарын  зерттей
отырып,  «қуат»  және  «куә»  тәрізді  сөздерді    қарастырсақ,  онда  бұл  сөздер  «қыуат»  және
«күуә»  болып  жазылу  керек  те,  қазақ  тілінің  үндестік  заңдылықтары  толығымен  сақталып,
жоғарыда айтылған ереже мүлтіксіз орындалады. Демек,
«Kk(а, о, ы, ұ)»= «Ққ».
«Kk(ә, ө, і, ү, е)»= «Кк».
Келесі мәселе «с» және «з» әріптері туралы. Бұл әріптер ағылшынның  «c»,  «s» және «z»
әріптеріне жақындау екені  баршамызға мәлім. Сондықтан қазақтың  «с» әріпін ағылшынның
«с»  әріпі  арқылы  белгілеу  туралы  да  ұсыныс  бар.  Бұл  біздің  ойымызша  дәлме-дәл  балама

77

емес.  Себебі  бізге  сіңіп  кеткен  «сайт,  сантиметр,  сатира,  сейф,  синтетика,  спорт,
спираль,  спирт,  стадион,  синус, секунд» сияқты көптеген сөздер ағылшын  тілі мәтінінде
«s» әріпі арқылы жазылады. Тіпті өзіміздің төл сөзіміз «сазан» ағылшын тілінде аудармасыз
осылай аталып, «sazan» деп жазылады. Ал «з» әріпіне келсек, онда «зона,  зоология,  зебра,
Зевс»  тәрізді  сөздердің  бәрі    ағылшын  тілінде  «z»  әріпі  арқылы  жазылады.  Сондықтан
қазақтың «с» әіріпін  «s» әріпі арқылы, ал «з» әріпін «z» әріпі арқылы белгілеуді дұрыс деп
ойлаймыз (Сс=Ss, Зз=Zz).
Енді  «ы»  әріпін  ағылшынның  «у»  әріпімен  белгілесек,  оған  ешқандай  қарсылық  болмас.
Мәселен,    Almaty,  Atyrau  -    бұл  қабылданып  қойған  қағида  тәріздес.  Ал  егер  «ұ»  әріпіне
келсек, кезегін күтіп латын-ағылшын алфавитінің жеті әріпі қалды: j, h, v, f, c, x, w. Бұлардың
алғашқы  алтауы  әлі  де  өз  орындарын  табатын  болғандықтан,  «ұ»  әріпін  «w»  әріпімен
белгілейік, бір жағынан түрлері де ұқсастау. Яғни Ыы=Yy және Ұұ=Ww.
Енді «ә», «ө», «ү» және «і» әріптерін қарастырайық.  Осы жерде профессор А.Шәріпбаев
еңбегіне, дәлірек айтсақ оның «пирамидасына» сүйенеміз. Ол өзінің  тілзерттеу бағытындағы
еңбегінде дыбыстарды компьютер арқылы зерттей отырып ә, ө, ү, і   аллофондары осыларға
сәйкес  дауысты  дыбыстарға  е  фонемасын  қосу  арқылы  шығатынын,  яғни  келесі  төрт  тепе-
теңдікті  ә=а+е,    ө=о+е,    ү=ұ+е,    і=ы+е  дәлелдеп,  оны  латын  транскрициясына  қолданды.
Шәріпбаев ұсынған алфавитте ә, ө, ү, і   аллофондарына әріп берілмеген. Оларды апостроф  (
' ) көмегімен белгілейді де, оны қажетті әріптен кейін орналастырады. Мәселен, «өмір» және
«қаракөз» деген сөздерді былай жазады: «o’my’r», «karaqo’s»  (бұл жерде апостроф «o» және
«y» әріптеріне әсерін тигізіп, оларды қазақтың «ө» және «і» әріптеріне айналдырып тұр). Біз
осы жобаны қолдаймыз, демек Әә=A’a’, Үү=W’w’, Өө=O’o’ және Іі=Y’y’.
Бұл жерде айта кететін қағида – ұсынылмақ жаңа алфавит жүйесінде апостроф  ( ' ) әсерін
тек қана «а», «о», «ұ» және «ы» (яғни, ұсынылмақ жаңа алфавиттегі «a», «w», «o» және «y»)
әріптеріне  ғана  әсерін  тигізе  алады  да,  оларды  төмендетіп  «ә»,  «ү»,  «ө»  және  «і»
дыбыстарына айналдырады.
Осы жерде тағы да айта кететін жағдай - қазақ тілінде осы келтірілген төрт дыбыстар бір
сөздің  ішіндеде  бірнеше  рет  кездеседі,  мәселен  «көзілдірікті  адам»=«ko’sy’ldy’ry’qty’
adam».    Осы  мысалдан  шығатын  қорытынды  -  егер  апострофты  тура  осылай  қолданатын
болсақ,  онда  жазуымыздың  бәрі  шүпірлеген  апостроф-ноқаттарға  толып  кетіп,  жазба
мәтіннің  көркемдігі  төмендейді.  Сондықтан  жаңа  алфавитте  жазылатын  мәтіндерде
апострофтарды  азайту  үшін  келесі  ережені  ұсынамыз:  егер  апостроф  белгілі  бір  әріптен

жүктеу/скачать 8,57 Mb.

Достарыңызбен бөлісу:

1 ... 4 5 6 7 8 9 10 11 ... 39