17
Үшінші талап – мəтін базасының неғұрлым а у қ ы м д ы болуы. Аталмыш
талапқа сай қазіргі кезде жиілік сөздіктерді тілдің ұлттық корпустарына сүйеніп
əзірлеу тəжірибесі əбден орнықты. Мəселен, орыс тілінің соңғы ауқымды жиілік
сөздігі Орыс тілінің ұлттық корпусының базасында 1950-2007 жж. аралығында
əзірленген 92 млн сөзқолданыстық мəтін көлемін қамти отырып жасалды. Мұндай
сөздіктегі жиілік мəндері, тілдегі белсенді лексикалық қордың шегарасы ерекше
дəлдікпен анықталады, оның үстіне жиілік сөздік құрастырушыларына корпус-
тағы метабелгіленімнің арқасында түрлі стиль, жанр, мəтін типі, мəтіннің шығу
уақытына, авторына қатысты да дербес жиіліктерді анықтау, сөзтізбе бірліктерін
леммалау ісі еш қиынға соқпайды, яғни мұндай ауқымды базадағы жиілік сөздіктің
ақпараттылығы жоғары, əрі тұтынушының алуан түрлі сұранысына жауап бере
алу қасиеті де күшті болады. Сондықтан қазақ тіл білімінде корпустық лингви-
стиканы дамытып, тілдің ұлттық корпусын жасауды алға тартып отырмыз. Тілдің
корпусы жиілік сөздіктер жасау ісін жеңілдетіп қана қоймай, оның нақтылығы
мен дəлдігінің деңгейін көтерері сөзсіз, корпус бұдан басқа да көптеген келелі
мəселені шешудің инновациялық-ақпараттық құралы болмақ
11
. Бүгінгі күні
А.Байтұрсынұлы атындағы Тіл білімі институты 7 млн-дық мəтін базасы бо-
йынша жасалған қазақ тілінің ұлттық корпусының бастапқа қанатқақты жобасын
интернетке қосып отыр. Бұл шағын корпустың сапасы мен ауқымы əлі де үлкен
толықтыруларды қажет етеді.
Оны «Қазақ тілінің ұлттық корпусы» атты қазақ,
Достарыңызбен бөлісу: