Алматы 2016 жалпы білім берудегі қазақ тілінің жиілік сөздігі



Pdf көрінісі
бет16/41
Дата02.12.2022
өлшемі308,09 Kb.
#54474
1   ...   12   13   14   15   16   17   18   19   ...   41
21
5-кезең. Морфологиялық талдағыш арқылы сөз таптары мен омонимдерді 
ажырату. Омонимдерді жəне сөз таптарын анықтау мақсатымен Институттың 
Компьютерлік лингвистика мамандары əзірлеген морфологилық анализатор 
арқылы тазартылған мəтін өңдеуге салынды. Бұл процесс барысында мəтін 
құрамындағы морфологиялық талдағыш (анализатор) сөз таптары анықтаған 
сөздер мен омоним сөздерге шартты белгілер қойылды. Бұл істе талдағыштың 
əлі де жетілдіретін тұстарының көптігі байқалды. Себебі өңдеу барысында ол 
көптеген сөздердің сөз табы мен омонимдерді анықтай алмады. Төменде анализа-
тор арқылы өңделген мəтіннің үлгісі берілді. 
Ерте-ерте ертеде, ешкі құйрығы келтеде, Қаратаудың ойында
Қарасудың бойында Қазанқап деген бір кедей болыпты.
Ерте | Ерте <үс>
ертеде | ертеде <үс>
, | ,

ешкі | ешкі <зт>
құйрығы | құйрық <зт,ы/тж-3+øас>
келтеде | келте <сн,де/жс>
, | ,

Қаратаудың | қаратау 
ойында | ой <зт,ы/тж-3+нда/жс>
, | ,

Қарасудың | қарасу <зт,дың/іс>
бойында | бой <зт,ы/тж-3+нда/жс>
Қазанқап | Қазанқап <fi o,зт>
деген | де <ет,ген/е+ар+жж-3>
бір | бір <ес>
кедей | кедей <сн>
болыпты | бол <ет,ып/к+ты/ар+жж-3>
. | .
.

Сөйтіп, морфологиялық талдағышта сөз табы анықталмаған сөздер мен 
омонимдердің тізімі автоматпен жасалды. Оларды автоматты түрде жинап 
алу оңай, себебі анализатор мəтінінде мұндай сөздердің тұсында «unknown» –
«белгісіз» деген таңба беріледі. Осы таңба арқылы олардың тізімі жасалды. 
Талдағышта анықталмаған («unknown»- «белгісіз» таңбасымен шыққан) сөздердің 
ішінен сөз табы белгісіздері мен ажырамаған омограф-омонимдер сұрыпталып
сөз таптары қойылды, омограф-омонимдердің сөз табына қатысы контекс арқылы 
қолдан ажыратылғандықтан, олардың сандық көрсеткіштерін автоматты түрде 
шығару мүмкіндігі туды. Бұл эксперимент жиілік сөздіктегі омонимдер жиілігін 
анықтауға септігін тигізді.
6-кезең. Мəтінді сөздік пішінге келтіру. Ол үшін алдымен автоматты түрде 
мəтін ішіндегі бас əріптер кіші əріптерге ауыстырылды. Сонан кейін мəтін ішіндегі 


22
лексикалық бірліктер сөздік пішінге келтірілді, яғни бірінен соң бірі тұратындай 
бір бағанаға сөзтізбе форматқа түсірілді. Əр лексикалық бірлік тұсына екінші 
баған тіркеліп, оған сөздің жиілігі қойылды. Visual Basic for Applications (VBA), 
Excel, Notepad++, Word, Макростар бағдарламаларының көмегімен бірінші 
бағандағы бірдей сөздер анықталып, олар автоматты түрде біріктіріліп, қосынды 
жиілігі жазылды. Сөйтіп, сөздіктің сөзтізбесінің алғашқы нұсқасы дайындалып, 
тілтанымдық өңдеуге қайта берілді. 


Достарыңызбен бөлісу:
1   ...   12   13   14   15   16   17   18   19   ...   41




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет