3
Қазақ күрделі сөздерінің семантикалық моделін программалық жүзеге асыру
Қазақ күрделі сөздерінің семантикалық моделін программалық жүзеге асыратын, оның
ішінде қазақ күрделі сөздерін құруды және талдауды автоматтандыратын ақпараттық жүйесі
JAVA тілінде Netbeans программалық ортасында жасалынған.
Сурет 1. Күрделі сөздерді талдау және ережелер
бойынша құру терезесі
Жұмысты жалғастыру үшін «Өңдеу» мәзірінен «Талдау» таңдаймыз. Таңдағаннан кейін
төмендегі суреттегідей (сурет 2) бет ашылады.
Сурет 2. Күрделі сөздерді талдау терезесі
«Сөзді енгізіңіз» өрісіне күрделі сөзді енгіземіз, содан кейін құрау батырмасын бассақ, ол
базадан сол күрделі сөзді тауып күрделі сөзге талдау жасайды. Мысалы төмендегі сурет 3
көрсетілген.
263
Сурет 3. Күрделі сөздерді талдау терезесі
Әдебиеттер
1
www.egemen.kz/?p=3486
2
Жанпейісов Е., Хұсайын К. және т. б. Қазақ грамматикасы. Фонетика, сөзжасам,
морфология, синтаксис. – Астана: Астана, 2002. 152б.
3
Шәкенов Ж. Қазақ тіліндегі күрделі сөздер мен күрделі тұлғалар. – Алматы: Ана тілі,
1991, Б. 3-20
4
Аханов К., Б.Кәтенбаева , Әбдіғалиева Т. Қазақ тілі оқулығының методикалық
нұсқауы. Алматы: Рауан, 1990, Б. 19-27
М. ЕРГЕШ
Л.Н.Гумилев атындығы Еуразия ұлттық университеті, Астана, Қазақстан
ҚҰЖАТТАРДАҒЫ КІЛТТІК СӨЗДЕРДІ ВЕКТОРЛЫҚ МОДЕЛЬ
АРҚЫЛЫ ІЗДЕУ
Электронды түрдегі мәтіндік ақпараттар көлемі күн өткен сайын еселеніп көбейіп келеді.
Сондықтан қазіргі таңда ақпараттық іздеу есептерін шешетін жүйелер жасау қажетілігі туып
тұр. Қолданушының ақпараттық сұранысын қанағаттандыратындай құжаттар жиынынан
іздеу процесі ақпараттық іздеудің классикалық мәселесі. Кілттік сөздерді анықтап, олардың
маңыздылығын анықтау ақпараттық іздеу үшін қажетті мәселелердің бірі. Кілттік сөздің
салмағы сөз формасының ақпараттылығын анықтайды және ол қолданушының сұранысына
байланысты есепке алынады.
Ақпараттық іздеу әдістерінің белгілі бірнеше тәсілдері бар: бульдік модель, векторлық
модель, ықтималдық модель. Бұл жұмыста құжаттардағы кілттік сөздерді табуға векторлық
моделдің қолданылуын қарастырамыз. Қазақ тілді құжаттардағы кілттік сөздерді табу
арқылы ақпараттық іздеу жүйелерінің қазақ тілді мәтіндерді іздеудің толықтығын және
релевантылығын арттыруға болады.
264
Ақпараттық жүйелердің тиімдігінің басты белгісі 1960-шы жылдары енгізілген толықтық
пен нақтылық. Іздеудің толықтығы берілген релеванттық құжаттырдың релеванттық
құжаттардың жалпы санына қатынасы ретінде анықталған, ал іздеудің нақтылығы берілген
релевантты құжаттардың шығарылған құжаттардың жалпы санына қатынасымен
анықталады.
Векторлық модель – ақпараттық іздеуде құжаттар жиынын векторлық кеңістікте
векторлармен сипаттау.
Векторлық моделде құжаттар реттелмеген термдер жиыны ретінде қарастырылады.
Ақпараттық іздеуде термдер деп мәтіннің сөздері мен элементтері аталады, мысалы: кітап,
ақпарат, 2010.
Құжаттағы термдердің салмағын түрлі тәсілдермен анықтауға болады - берілген мәтін
үшін сөздің «маңыздылығы». Мысалы, термнің жиілігі (tf) деп аталатын құжаттағы термнің
қолданылу санын жай ғана есептеуге болады, яғни құжатта сөз көбірек кездескен сайын
сөздің салмағы да үлкен болады. Сәйкесінше, құжатта терм кездеспесе, сол құжаттағы
салмағы нөлге тең болады.
Өңделіп жатқан жиындағы құжаттарда кездесетін барлық термдерді реттеуге болады. Егер
кейбір құжат үшін ретімен салмағы бойынша барлық термдерді кездеспесе де жазып шығу
керек.
Сол вектор құжаттың векторлық кеңістіктегі көрінісі болады. Вектордың өлшемі
кеңістіктің өлшемі сияқты, барлық жиындағы түрлі термдердің санына тең болады және
барлық құжаттар үшін бірдей болады.
Құжаттың векторлық көрінісі
d
j
= (w
1j
, w
2j
, …, w
nj
)
мұнда d
j
—j-шы құжаттың векторлық көрінісі, w
ij
—i-ші термнің j-ші құжаттағы
салмағы, n —жиындағы құжаттардағы түрлі термдердің жалпы саны.
Құжаттардың осындай векторлық көрінісі арқылы кеңістіктегі нүтелердің арасындағы ара
қашықтықты тауып, құжаттардық ұқсастығын табу мәселесін шешуге болады. Нүктелер жиі
орналасқан сайын, сәйкесінше құжаттар ұқсас болады.
Құжаттағы сөздің маңыздылығын анықтаудың қарапайым тәсілі құжаттағы сөздің қолдану
жиілігін анықтау.
Жиындағы сөздің қолдану жиілігі сол сөз бар құжаттардың жиындағы санын (df) есептеу
арқылы шығаруға болады. df өскен сайын құжаттағы сөздің салмағы төмендей береді. Оны tf
құжаттағы сөздің қолдану жиілігін оның кері шамасы idf-қа көбейту арқылы шығаруға
болады. Сөйтіп құжаттағы сөздің салмағы tf*idf формуласымен есептеледі. idf төмендегі
формула арқылы есептеледі:
idf
tj
= log(N/n
j
)
мұнда, N – жиындағы құжаттар саны, n
j
- t
j
кездескен құжаттар саны.
Сонымен, D = (d
1
,...,d
n
) –жиындағы құжаттар жиыны, T = (t
1
,..,t
M
) – сөздер жиыны. Әрбір
тұрақты i үшін d
i
құжаты төмендегі салмақ векторы арқылы сипатталады:
W
ij
= tf
ji*
idf
ji
= 1…M,
мұнда tf
ji
- dj құжатындағы t
j
сөзінің кездесі жиілігі, idf
ji
– барлық құжаттардағы t сөзінің
кездесу жиілігіне кері шама.
Құжаттағы барлық сөздердің салмағын есептегеннен кейін құжатты вектор ретінде
көрсетеміз, ондағы әрбір компонент құжаттағы бөлек сөздерге сәйкес келеді. Құжаттарды
ондағы сөздердің векторы түрінде көрсету ақпараттық іздеудің векторлық моделінің негізі
болып табылады.
Ақпараттық іздеудің векторлық моделінің артықшылығы реттелген ақпараттық жүйені
жасау үшін қарапайым модель береді. Сонымен қатар, шешіліп жатқан мәселеге және жұмыс
265
жиынына байланысты құжаттағы сөздер салмағын есептеудің тәсілдері өзгере беуі мүмкін.
Мәтіндегі сөздердің бір біріне тәуелді болмайды деп қарастыру векторлық моделдің
кемшілігі болып табылады, себебі мәтіндегі сөздер бір бірімен мағына қатысты байлынысып
тұрады.
Әдебиеттер
1. Daniel Jurafsky, James H. Martin Speech and Language Processing. An Introduction to
Natural Language Processing, Computational Linguistics, and Speech Recognition. Second Edition.
Pearson Education International. - 2009. - 1024 pp.
2. Peter D.Turney, Patrick Pantel. From frequency to meaning: vector space models of semantics
// Journal of artificial intelligence research 37 (2010) 141-188
3. А.А.Мамчич. Алгоритмы индексирования и поиска документов на основе
динамических корпусов текстов // информатика. - 2010. № 1.
М.Х. ХАКИМОВ, М.М.АРИПОВ
Национальный Университет Узбекистана им. Мирзо Улугбека,
г. Ташкент, Республика Узбекистан
СЕМАНТИЧЕСКИЕ БАЗЫ РУССКОГО ЯЗЫКА
Многоязычная ситуация компьютерного перевода текста [1] требует разработку семанти-
ческих баз данных и математических моделей естественных языков [3]. Предшествующим
этапом построению математических моделей русского языка (РЯ) явились исследования
лексического, синтаксического, семантического анализа и построения на их основе логико-
лингвистических моделей. При описании семантических баз данных и математического
моделирования РЯ используем элементы расширенного входного языка множества
терми-
нальных символов [2].
В результате семантического анализа когда основой слова является существительное было
выведено 16 вида приставок (табл. 1) формирующих семантическую базу приставок
существительного - C(Т), 120 вида суффиксов (табл. 2) формирующих семантическую базу
суффиксов существительного - C(S) и 28 вида окончаний (табл. 3) формирующих семанти-
ческую базу окончаний существительного - C(О):
Таблица 1.
без-
за-
на-
о-
пере-
под-
при-
с-
бес-
между-
не-
об-
по-
пред-
про-
со-
Таблица 2
-ак
-ак-а
-ан
-ани-е
-анин
-ар
-овщин-а
-ш-
-арь
-аци-я
-ач
-бищ-е
-в-а
-ек
-ичеств-
-ан-
-емость
-енец
-ени-е
-енк-а
-енок
-еныш
-ят-
-иц-
-еньк-а
-есть
-ец
-ец-о
-ечк-а
-ечк-о
-ч-
-щиц-
-и-е
-изм
-изн-а
-ик
-имость
-ин-
-и-
-ниц-
-ин-а
-ист
-итель
-иц-а
-ич
-ичк-а
-овств-
-ух-
-ишк-а
-ишк-о
-ищ-а
-ищ-е
-к-а
-к-о
-еств-
-их-
-л-а
-лец
-лиц-е
-лк-а
-льник
-льн-я
-ни-
-к-
-льщик
-ник
-ниц-а
-ность
-н-я
-няк
-ани-
-янк-
-овец
-ович
-овщик
-ок
-онк-а
-онок
-ун-
-енк-
-оньк-а
-ость
-от-а
-отн-я
-очек
-очк-о
-ств-
-ян-
-ств-о
-тель
-ти-е
-ул-я
-ун
-ура
-ени-
-анк-
266
-ус-я
-ушк-а
-ушк-о
-ц-а
-ц-е
-ц-о
-ти-
-льщиц-
-честв
-чик
-щик
-щин-а
-ыш
-ышк-о
-еч-
-чиц-
-юшк-а
-яг-а
-як
-як-а
-ян
-янин
-тельств-
-й-
Таблица 3.
-а
-е
-и
-й
-ом
-ьев
-я
-ам
-ев
-ие
-о
-у
-ью
-ям
-ами
-ей
-ий
-ов
-ы
-ья
-ями
-ах
-ем
-ия
-ой
-ь
-ю
-ях
В результате семантического анализа когда основой слова является прилагательное было
выведено 25 вида приставок (табл. 4) формирующих семантическую базу приставок прилага-
тельного - Р(Т), 65 вида суффиксов (табл. 5) формирующих семантическую базу суффиксов
прилагательного - Р(S), 42 вида окончаний (табл. 6) формирующих семантическую базу
окончаний прилагательного - Р(О):
Таблица 4.
анти-
без-
вне-
внутр-
до-
за-
интер-
между-
на-
над-
наи-
не-
небез-
небес-
по-
под-
после-
пре-
пред-
при-
про-
противо-
раз-
сверх-
ультра-
Таблица 5.
-ав-
-айш-
-ан-
-аст-
-ат-
-ач-
-ащ-
-е
-ебн-
-еват-
-ее-
-ей
-ейш-
-енн-
-еньк-
-ёхоньк-
-ешеньк-
-ив-
-ик-
-им-
-ин-
-инск-
-инск-
-ист-
-ит-
-ич-
-ическ-
-ическ-
-ичн-
-й-
-к-
-л-
-лив-
-льн-
-ляв-
-н-
-ов-
-ов-
-оват-
-овит-
-овн-
-овск-
-овск-
-онн-
-оньк-
-охоньк-
-ошеньк
-ск-
-тельн-
-уч-
-ущ-
-ущ-
-чат-
-ческ-
-чив-
-ше
-ък-
-ьн-
-юч-
-ющ-
-ющ-
-яв-
-ян-
-яч-
-ящ-
Таблица 6.
-а
-ая
-е
-ё
-его
-ее
-её
-ей
-ем
-ём
-еми
-ему
-ех
-ею
-и
-ие
-ий
-им
-ими
-их
-й
-о
-ого
-ое
-ой
-ом
-ому
-у
-ую
-ы
-ые
-ый
-ым
-ыми
-ых
-ье
-ьи
-ья
-ю
-юю
-я
-яя
В результате семантического анализа для основы слова типа глагола было выведено 30
вида приставок (табл. 7) формирующих семантическую базу приставок глагола - G(Т), 43
вида суффиксов (табл. 8) формирующих семантическую базу суффиксов глагола - G(S), 37
вида окончаний (табл. 9) формирующих семантическую базу окончаний глагола - G(О):
Таблица 7
в-
-в-
вз-
взо-
-во-
вс-
вы-
вы-
-вык-
до-
за-
из-
-каз-
-лож-
на-
над-
-ня-
о-
обез-
обес-
от-
пере-
по-
под-
при-
про-
раз-
рас-
с-
у-
267
Таблица 8
-а-
-ач-
-ащ-
-в
-ва-
-вш-
-вши
-е-
-ева-
-ем-
-енн-
-ере-
-и
-и-
-ива-
-изирова-
-им-
-ирова-
-ича-
-ка-
-л-
-л-ый
-нича-
-нн-
-ну-
-ова-
-оло-
-ом-
-ствова-
-ти
-ть
-уч-
-учи-
-ущ-
-чь
-ши
-ыва-
-юч-
-ючи
-ющ-
-я-
-яч-
-ящ-
Таблица 9
-а
-ат
-ать
-ая
-ее
-ем
-ет
-ете
-еть
-ешь
-ёшь
-и
-ие
-им
-ит
-ит
-ите
-и-те
-ить
-ишь
-о
-сь
-ся
-ти
-ть
-у
-ут
-чь
-ые
-ь
-ь-те
-ью
-ю
-ют
-я
-ят
-яя
В результате семантического анализа для основы слова типа местоимения было выведено
35 вида окончаний (табл. 10) формирующих семантическую базу окончаний местоимения -
М(О):
Таблица 10
-а
-ая
-е
-ё
-его
-её
-ей
-ем
-ём
-еми
-ех
-и
-ие
-ий
-им
-ими
-их
-й
-ого
-ое
-оё
-ой
-ом
-ому
-у
-ую
-ые
-ый
-ым
-ыми
-ых
-ью
-ю
-юю
-я
В результате семантического анализа для основы слова типа наречия было выведено 21
вида приставок (табл. 11) формирующих семантическую базу приставок наречия - N(Т), 13
вида суффиксов (табл. 12) формирующих семантическую базу суффиксов наречия - N(S), 21
вида окончаний (табл. 13) формирующих семантическую базу окончаний наречия - N(О):
Таблица 11
в-
д-
до-
е-
еже-
за-
и-
из-
к-
ка-
на-
не-
о-
об-
по-
про-
с-
через-
черес-
чрез-
чрес-
Таблица 12
-е
-ему
-енечк-
-еньк-
-жды
-и
-мя
-о
-оват-
-ому
-онечк-
-оньк-
-у
Таблица 13
-а
-е
-ё
-ем
-ём
-ех
-ею
-и
-им
-их
-й
-о
-ом
-у
-ую
-ы
-ым
-ых
-ю
-юю
-я
В результате семантического анализа с основанием числительных было выведено 43 вида
суффиксов (табл. 14) формирующих семантическую базу суффиксов числительных - F(S):
Таблица 14
-а
-ами
-ая
-дцать
-е
-ей
-ем
-емя
-емя
-еро
-ёх
-и
-им
-ими
-их
-мя
-надцать
-о
-ого
-ое
-ой
-ом
-ому
-сот
-ста
-стам
-стами
-стах
-сти
-у
-ум
-умя
-ух
-ы
-ые
-ый
-ым
-ых
-ьмя
-ью
-ю
-ям
-ями
268
В результате семантического анализа грамматики РЯ было выявлено 48 типа предлогов
(табл.15) формирующих семантическую базу предлогов D, 83 вида союза (табл.16)
формирующих семантическую базу союзов Y, 85 типов частиц (табл.17) формирующих
семантическую базу частиц U, 84 типа междуметий (табл.18) формирующих семантическую
базу междуметий Е, 50 вида модальных слов (табл.19) формирующих семантическую базу
модальных слов L
,
8 вида постфиксов (табл.20) формирующих семантическую базу
постфиксов В и два вида морфем (-о-, -е-) формирующих семантическую базу морфем W:
Таблица 15
без
близ
в
вдоль
вне
внутри
возле
вокруг
впереди
для
до
за
из
из-за
из-под
к
кроме
кругом
между
мимо
на
над
напротив
о
об
обо
около
от
относительно
оть
перед
по
под
подле
поперек
после
пред
прежде
при
про
ради
с
сзади
спустя
сь
у
через
чрез
Таблица 16
а
а то
благодаря тому
что
будто
в то время как ввиду того
вследствие того
что
где
да
дабы
для
того
чтобы
едва
ежели
если
если – то затем
и
и – и
и да
ибо
или
или
–
или
итак
к тому же
как
как
как – так и
как – то
как
будто
какой
когда
коли
который
кто
куда
либо
либо – либо
лишь
лишь бы
лишь только–
как
наконец
напротив
не то –
не то
не только –
но и
несмотря на то
ни
ни – ни
но
но
но и
однако
откуда
оттого
после того как потом
потому что
правда
прежде того
как
прежде чем
пускай
пусть
раз
с тем чтобы
с тех пор
как
словно
так и
так как
так как – то
так только
так что
также
то – то
то есть
тогда – так
тоже
только что –
как
точно
хоть
хотя
чей
что
что
что бы
Таблица 17
а
а ну
б
бишь
будто
бы
ведь
вишь
вон
вон и
вот
вот и
вот как
вот так
все
все же
все таки
всего
да
да и
давай
давайте
даже
де
едва
единственно еще бы
ж
же
и
именно
исключительно
ишь как
ишь какой
как
как будто
как раз
кое
-кое
кое-
-либо
-либо
лишь
лишь
только
мол
-на
не
не
нет
неужели
ни
нибудь
-нибудь
ну
ну и
оно
отнюдь
почти
просто
прямо
пускай
пусть
равно
разве
разве
ровно
словно
-сь
-ся
-таки
-те
то
-то
-то
только
точно
точно
уж
хотя бы
что
что за
что ли
чуть не
это
якобы
Таблица 18
а
а ну тебя
ага
алло
ась
ату
ах
аха
баста
благодарю
боже мой!
брысь
бух
виноват
вон
вот еще!
всего
всех благ
га – га –га глупости!
да
269
хорошего
динь–динь–
динь
до свидания
добрый день
здравствуйте
извините
извиняюсь
к чёрту!
-ка
кхе – кхе –кхе
кши
марш
мах
мерси
миг – миг
на – ка
на – те
на – те – ка
нет
ну – ка
Ну – ну!
ну – те
ну – те – ка
Ну!
о
ой
ой ли
ох
ох
пардон
право
простите
прочь
прыг
ррр… нга – нга спасибо
стоп
так – так
-те
тик – так
толк
тпру
Тр – тр
трах
Трра!
Тррах!
Та,
тах!
тс
тьфу
увы
угу
уж
ура
уф
фи
фу
фьюить
ха – ха – ха
хи – хи – хи хлоп
цып!
цыц
шш
щелк
эх
Таблица 19
в частности
верно
вероятно
видать
видимо
видно
вне всякого
во-вторых
возможно
во-первых
действительно дело
добро
должно быть
думается
желательно
желать
значит
известно
итак
к несчастью
к радости
к счастью
к удивлению кажется
как будто
конечно
может быть
мочь
наверное
наверняка
надо
наконец
например
необходимо
необходимо
несомненно
нужно
нужно
признаться
разумеется
самом деле
следовательно слышно
сомнения
стало быть
факт
хотеть
шутка
шутка сказать
Таблица 20
-ся
-сь
-то
-либо
-нибудь
-таки
-ка
-те
Вышеизложенные семантические базы данных применяются математических моделях
вывода слов и предложений по типам.
Литература
1. Хакимов М.Х. Формальные системы машинного перевода в многоязычной ситуации.
Материалы республиканской научной конференции «Современные проблемы математики,
механики и информационных технологий», НУУз, Институт Математики и ИТ АН РУз, Т,
2008, с.297-301
2. Хакимов М.Х. Расширяемый входной язык математического моделирования естествен-
ного языка для многоязычной ситуации машинного перевода. ЎзМУ хабарлари, № 1, 2009,
с.75-80.
3. Хакимов М.Х. Математические модели узбекского языка. ЎзМУ хабарлари, № 3, 2010,
с.187-191.
270
Достарыңызбен бөлісу: |