5
ҚАЗАҚСТАН РЕСПУБЛИКАСЫ БІЛІМ ЖӘНЕ ҒЫЛЫМ МИНИСТРЛІГІ
Л. Н. ГУМИЛЕВ АТЫНДАҒЫ ЕУРАЗИЯ ҰЛТТЫҚ УНИВЕРСИТЕТІ
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РЕСПУБЛИКИ КАЗАХСТАН
ЕВРАЗИЙСКИЙ НАЦИОНАЛЬНЫЙ УНИВЕРСИТЕТ
ИМ. Л. Н. ГУМИЛЕВА
THE MINISTRY OF EDUCATION AND SCIENCES OF REPUBLIC KAZAKHSTAN
L.N.GUMILYOV EURASIAN NATIONAL UNIVERSITY
«Түркі тілдерін компьютерлік өңдеу»
атты І халықаралық конференция
ЕҢБЕКТЕРІ
ТРУДЫ
І Международной конференции
"Компьютерная обработка тюркских языков"
PROCEEDINGS
Of the I International Conference
on Computer processing of Turkic Languages (TurkLang-2013)
АСТАНА, 2013
7
УДК 81’322
ББК 81.1
Т 90
Т 90 ТҮРКІ ТІЛДЕРІН КОМПЬЮТЕРЛІК ӨҢДЕУ. Бірінші халықаралық
конференция: Еңбектері/ Астана: Л.Н.Гумилев атындағы ЕҰУ баспасы, 2013-
340 бет
КОМПЬЮТЕРНАЯ ОБРАБОТКА ТЮРКСКИХ ЯЗЫКОВ. Первая
международная конференция: Труды. – Астана: ЕНУ им. Л.Н. Гумилева, 2013. –
340 с.
ISBN
978-601-7454-85-2
Жинақта «Түркі тілдерін компьютерлік өңдеу» атты I халықаралық
конференция қатысушыларының баяндамалары енген.
Компьютерлік лингвистика бағыты бойынша оқитын студенттерге,
магистранттарға, докторанттарға және мамандарға арналған.
В сборнике представлены доклады участников I международной
конференции «Компьютерная обработка тюркских языков».
Предназначен для студентов, магистрантов, докторантов и специалистов
специализирующихся в областях компьютерной лингвистика.
УДК 81’322
ББК 81.1
Техникалық редакция: Бурибаева А.К.
Муканова А. С.
Ергеш Б.Ж.
Елибаева Г.З.
©
Л.Н.Гумилев атындағы Еуразия ұлттық университеті, 2013
Евразийский национальный университет им. Л.Н. Гумилева, 2013
ISBN
978-601-7454-85-2
15
2
Бекманова Г.Т., Жеткенбай Л.,
Л.Н. Гумилев атындағы Еуразия ұлттық университеті, «Жасанды зерде» ҒЗИ,
Астана
ҚАЗАҚ КҮРДЕЛІ СӨЗДЕРІН ТҮРЛЕНДІРУДІҢ СЕМАНТИКАЛЫҚ
МОДЕЛІ
253
3
Ергеш М.
Л.Н. Гумилев атындағы Еуразия ұлттық университеті, Астана
ҚҰЖАТТАРДАҒЫ
КІЛТТІК
СӨЗДЕРДІ
ВЕКТОРЛЫҚ
МОДЕЛЬ
АРҚЫЛЫ ІЗДЕУ
258
4
Хакимов М.Х., Арипов М.М.
Национальный Университет Узбекистана им. Мирзо Улугбека (г. Ташкент,
Республика Узбекистан)
СЕМАНТИЧЕСКИЕ БАЗЫ РУССКОГО ЯЗЫКА
260
МАШИНАЛЫҚ АУДАРУ ЖҮЙЕЛЕРІ
СИСТЕМЫ МАШИННОГО ПЕРЕВОДА
MACHINE TRANSLATION SYSTEMS
1
Сулейманов Д.Ш., Гатиатуллин А.Р., Гильмуллин Р.А., Аюпов М.М.
НИИ “Прикладная семиотика” академии наук Республики Татарстан
К
РАЗРАБОТКЕ
ТАТАРСКО-ТУРЕЦКОГО
МАШИННОГО
ПЕРЕВОДЧИКА
266
2
Хакимов М.Х.
Национальный Университет Узбекистана им. Мирзо Улугбека (г. Ташкент,
Республика Узбекистан)
МОДЕЛИРУЕМАЯ ТЕХНОЛОГИЯ МАШИННОГО ПЕРЕВОДА
272
3
Тукеев У.А., Сапакова С.З., Маратқызы А., Өтепова Қ.
Әл-Фараби атындағы Қазақ ұлттық университеті, Алматы, Қазақстан
ҚАЗАҚША-ОРЫСША
МАШИНАЛЫҚ
АУДАРМАСЫНЫҢ
МӘЛІМЕТТЕР БАЗАСЫ ЖӘНЕ ОНЫҢ ҚҰРЫЛЫМЫ
279
4
Төкеев У.А., Сапақова С.З.
Әл-Фараби атындағы Қазақ ұлттық университеті, Алматы, Қазақстан
ҚАЗАҚ ТІЛІНЕН ОРЫС ТІЛІНЕ МАШИНАЛЫҚ АУДАРМА
286
5 Abdurakhmonova N.Z.
National University of Uzbekistan named after Mirzo, Tashkent, Uzbekistan
GRAMMATICAL ANALYZE IN MACHINE TRANSLATION BETWEEN
ENGLISH AND UZBEK
294
6
Абдурахмoнова Н.З., Хакимов М.Х.
Национальный Университет Узбекистана им. Мирзо Улугбека (г. Ташкент,
Республика Узбекистан)
ЛОГИКО- ЛИНГВИСТИЧЕСКИЕ МОДЕЛИ СЛОВ И ПРЕДЛОЖЕНИЙ
АНГЛИЙСКОГО
ЯЗЫКА
ДЛЯ
МНОГОЯЗЫЧНЫХСИТУАЦИЙ
КОМПЬЮТЕРНОГО ПЕРЕВОДА
297
16
7
Болатбек М.А., Маратқызы А., Мұсаева Л.Р.
Қазақстан Республикасы, Алматы қаласы, әл-Фараби атындағы Қазақ Ұлттық
Университеті
ҚАЗАҚША-ОРЫСША
МАШИНАЛЫҚ
АУДАРМАДАҒЫ
МОРФОЛОГИЯЛЫҚ ЖӘНЕ СИНТАКСИСТІК АНАЛИЗ МЕН СИНТЕЗ
АЛГОРИМТДЕРІ
302
8
Абақан М., Кызырканова С.
КазНУ им. аль-Фараби, Алматы, Казахстан
ОРЫС ТІЛІНДЕГІ ПРЕДЛОГТАРДЫҢ КӨПМАҒЫНАЛЫЛЫҒЫНА
БАЙЛАНЫСТЫ ҚАЗАҚ ТІЛІНЕ АУДАРЫЛУ ЕРЕКШЕЛІКТЕРІ
312
9
Құлманов С., Байменшин А.
А. Байтұрсынұлы атындағыТіл білімі институты, Мемлекеттік тілді дамыту
институты, Алматы, Қазақстан
АВТОМАТТЫ АУДАРМА ЖҮЙЕСІНДЕ ПАЙДАЛАНЫЛАТЫН MOSES
БАҒДАРЛАМАСЫ ТУРАЛЫ
314
10 Sundetova A., M.L. Forcada, A. Shormakova, A.Aitkulova
КазНУ им. аль-Фараби, Алматы, Казахстан
STRUCTURAL TRANSFER RULES FOR ENGLISH-TO-KAZAKH MACHINE
TRANSLATION IN THE FREE/OPEN-SOURCE PLATFORM APERTIUM
317
11
Каманур.У, Андасова.Б.З, Байгушева.Б.М
Л.Н. Гумилев атындағы Еуразия ұлттық университеті, Астана
ҚАЗАҚ-АҒЫЛШЫН-ҚЫТАЙ ДЫБЫСТЫҚ СӨЗДІГІН ӘЗІРЛЕУ
326
ТҮРІК ТІЛДЕРІНЕ ОҚЫТУДЫҢ ТЕХНОЛОГИЯЛАРЫ МЕН
ИНТЕЛЛЕКТУАЛДЫ ЖҮЙЕЛЕРІ
ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ ДЛЯ ОБУЧЕНИЯ
ТЮРКСКИМ ЯЗЫКАМ
INTELLIGENT SYSTEMS AND TECHNOLOGIES FOR LEARNING TURKIC
LANGUAGES
1
Омарбекова А.С., Шарипбай А.А.
Евразийский национальный универсистет имени Л.Н.Гумилева, НИИ
«Искусственный интеллект», Астана, Казахстан
ТЕХНОЛОГИЯ СОЗДАНИЯ ЭЛЕКТРОННЫХ УЧЕБНЫХ ИЗДАНИЙ НА
ЛАТИНИЦЕ
331
2
Алсеитова А.Т., Ниязова Р.С.
Л.Н. Гумилев атындағы Еуразия ұлттық университеті, Астана
АВТОМАТТАР ТЕОРИЯСЫ БОЙЫНША МУЛЬТИМЕДИАЛЫҚ ОҚЫТУ
ҚҰРАЛЫН ЖАСАУ
337
258
Жұмысты жалғастыру үшін «Сөзді енгізіңіз» өрісіне «Ереже 1» - ге сәйкес өзімізге қажетті
сөзді енгіземіз (Сурет 2).
Сурет 2. Ереже 1
Жоғарыда көріп тұрғандай, «әдемі» сөзін енгізген соң құрау батырмасын басамыз. Сонда
бізге ол автоматты түрде «Ереже 1» - ге сәйкес күрделі сөзді жасап береді.
Әдебиеттер
1
www.egemen.kz/?p=3486
2
Жанпейісов Е., Хұсайын К. және т. б. Қазақ грамматикасы. Фонетика, сөзжасам,
морфология, синтаксис. – Астана: Астана, 2002. 152б.
3
Шәкенов Ж. Қазақ тіліндегі күрделі сөздер мен күрделі тұлғалар. – Алматы: Ана тілі,
1991, Б. 3-20
4
Аханов К., Б.Кәтенбаева , Әбдіғалиева Т. Қазақ тілі оқулығының методикалық
нұсқауы. Алматы: Рауан, 1990, Б. 19-27
Г.Т. БЕКМАНОВА, Л. ЖЕТКЕНБАЙ
Л.Н. Гумилев атындағы Еуразия ұлттық университеті,
«Жасанды зерде» ҒЗИ, Астана, Қазақстан
ҚАЗАҚ КҮРДЕЛІ СӨЗДЕРІН ТҮРЛЕНДІРУДІҢ СЕМАНТИКАЛЫҚ МОДЕЛІ
1
Қазақ күрделі сөздерінің семантикалық базасын құру
Семантикалық белгілер ретінде күрделі сөз, күрделі сөздердің түрлері, сөз таптары
алынады.
259
Сурет 1. Семантикалық кесте
Ең бірінші әрбір күрделі сөздердің түрлері бойынша сөздің қай топқа жататынын, содан
кейін сөздің сыңарлары қай сөз табынан жасалғанын анықтаймыз. Әрі қарай, осы топтардың
қиылысы ізделінеді, егер олар болатын болса, онда осы топтар қиылысу болмайтындай етіп
бөлінеді, яғни декомпозиция жасалынады.
Сөз түрлендіру және сөз тудыру процесі сөздің бастапқы қалпын оның морфологиялық
белгілерін айқындау және оның семантикалық белгілерін білімдер базасынан оқу
мақсатында бөлшектеп талдау арқылы табуға негізделеді. Одан әрі қарай сөзтүрленудің
траекториясы анықталады, ал сөзтүрлену процесі семантикалық желі негізінде жүзеге
асырылады, сосын сөзжасамды және оның морфологиялық ақпараттарын сөзжасамдар
сөздігіне жазу.
2
Қазақ күрделі сөздерін граф түрінде бейнелеу
Табиғи тілдегі мәтінді өңдеу процесін бірнеше деңгейге бөлуге болады: талдау, анализ
және синтез. Талдау деңгейін табиғи тілдегі мәтінді формалданбаған түрден формалданған
ішкі ұғымға түрлендіретін функция ретінде анықтаймыз. Анализ деңгейі – ішкі ұғымда бар
деректерді түрлендіру және соның негізінде формалды түрде жаңа деректер шығару
функциясы. Синтез деңгейі – ішкі формалданған ұғымға бара бар табиғи тілде жауап
құрастыру функциясы.
Талдау деңгейін бірнеше тізбектелген операцияларға бөлуге болады: морфологиялық,
синтаксистік және семантикалық талдау. Морфологиялық талдау мәтіндегі бөлек сөздерді
алып, оларды морфемаларға бөлу арқылы жасалады. Табиғи тілде мәтіннің синтаксистік
талдау операциясы оның барлық синтаксистік белгілерін және семантикалық талдау үшін
керек болатын сол сөздердің синтаксистік байланысын анықтаудан тұрады. Семантикалық
талдау жүйенің жадында сыртқы әлемнің ұқсас моделінің болғанын талап етеді. Бұл
талдауда ұқсас моделдің білімдерімен бірге мәтінде тікелей орналасқан деректерді
салыстыру арқылы мәтіннің ішкі формалданған ұғымын тиянақты құрастырылады.
Морфологиялық сөз түрлену және сөзжасамдарды талдау есептерін шешу үшін формалды
Маккаллок-Питтстің нейронды желісінің қасиетіне жақын семантикалық нейронды желіні
қолданамыз.Маккаллок-Питтс нейронды желісіндегі бөлек нейрондар және, немесе және не
260
логикалық операциялары сияқты бейнеленеді. Логикалық операцияның орындалуының
нәтижесіне байланысты нейрондар ақиқат және жалған логикалық мәндеріне сәйкес келетін
қозу немесе тыныштық күйінде болады. Әрбір нейронның жұмысымен байланысты
уақытылы кідіру осында локикалық жүйемен алынатын тиімді және конструкциялық
сипатына кепілдік береді.Желідегі нейрондар ақырлы және нейронның күйлер саны да
ақырлы болғандықтан, мұндай нейронды желілер күйі ақырлы болатын автоматтар болып
табылады. Маккаллок-Питтс желісіндегі нейрон тек екі логикалық күйде болуы мүмкін және
логика алгебрасының функциясын орындауды ғана қамтамасыз етеді. Табиғи тіл нақты емес
және толық емес түсініктермен жұмыс істейді Семантикалық нейронды желінің Макколлок-
Питтстің желісінен айырмашылығы мынада, Маккллок-Питтс желісінде Бульдік алгебраның
логикалық операциялары орындалады, ал семантикалық нейронды желіде бұлдыр логиканың
операциялары орындалады. Бұлдыр логикада тұжырымдаманың ақиқаттығы дәрежесін
анықтау үшін сенімділік факторын қолданамыз – кейбір интервалда орналасқан сан, мысалы
0 мен 1 аралығы. Бұл интервалдың максималды мәні оқиғаның пайда болғандығының толық
сенімділігі ретінде түсіндіріледі, ал минималды мәні – ол оның толық жоқтығына сенімділік.
Ықтималдықтар теориясына қарағанда сенімділік факторы оқиғаның пайда болатындығына
субъективті сенімділікті сипаттайды және ешқандай статистикалық мағынасы жоқ.
Семантикалық нейронды желілердегі нейрондар табиғи тілдің қарапайым түсініктеріне
сәйкес келеді және дискретті градиентті мәндерді өңдейді. Осы желінің әрбір нейронында
ақырлы күйлер саны болады. Сондықтан, семантикалық нейронды желі ақырлы автомат
түрінде қарастырыла алады.
Морфологиялық және семантикалық талдау жасайтын семантикалық нейронды желінің
құрылысы ретінде синхрондалған ағаш немесе графты таңдаймыз.
Мәнін синхрондалған сызықтық ағаш түрінде шығарып алу қабатын ақырлы автомат
ретінде қарастыруға болады, себебі желідегі нейрондар саны шектеулі және оларда ақырлы
күйлер мен байланыстар саны бар. Бір күйден екінші күйге өту мәнін шығарып алу қабатына
кіріс тізбегінің кезекті символын беру кезінде болады. Мәнін шығарып алу қабатын бір
автомат түрінде емес, бірнеше сөздік мақалалардың саны сияқты ақырлы субавтоматтар
ретінде қарастырған ыңғайлы. Сонымен қатар, бір нейронда тыныштық күйден қозу күйіне
дейінгі аралығында бір градиентті субкүйі бар деп есептеген ыңғайлы. Әрбір осындай субкүй
қарапайым мағына болсын. Нейроавтоматтың бір белсенді субкүйіне бір немесе бірнеше
қозған нейрон сәйкес келеді. Сонда бір синхрондалған сызықтық ағаштың бір үзіндісінде біз
бірнеше субавтомат аламыз – сөздік мақала санына байланысты немесе бір мезетте бір
автоматта бірнеше күй болады. Бұл шешім кейін табиғи тілдің көптеген есептерін шешуге
көмегін тигізеді.
Сөздік мақаланың нейронының моделін қарастырып өтейік. Семантикалық нейронды
желінің тізбектей есептеуіш жүйесінде жүзеге асырылуы нейронның жылдамдығына
қосымша талаптар қояды. Мүмкіндігінше, бөлек нейронның жұмысының жылдамдығын
арттырып, желідегі нейронның санын азайту керек, себебі бұл жағдайда нейрондар, бірінен
кейін бірі тізбектей өңделеді, сондықтан жүйенің бір тактысының жалпы уақыт өлшемі
өңделетін нейрондарды бір нейронды өңдеуге кететін уақытқа көбейткендегі санына тең.
Нейрондардың санын азайту және олардың жұмысын арттыру үшін дизъюнктор мен
конъюнкторды бір нейронға біріктіреміз. Бұл кезде әрбір нейронда екі дендритті ағаштан
болады: біріншісі – кіріс градиентті мәннің дизъюнкциясының функциясын орындайтын,
басқасы – кіріс градиентті мәннің конъюнкциясының функциясын орындайтын және
дизъюнкция функциясының нәтижесін орындайтын. Нейронды дөңгелекпен белгілейміз, ал
оның дизъюнкциясының дендритін осы дөңгелектің мол жағына қоямыз, конъюнктор
дендритін дөңгелектің жоғары немесе төмен жағына орналастырамыз, аксон – дөңгектің оң
жағында орналасады. Ыңғайлы болу үшін дөңгелектің ішіне конъюнктордың дендритіне
сәйкес келетін символдарды жазамыз.
Сөздік мақаланың моделін қарастырайық. Бөлек сөздік мақала ол мақаланың негізгі
мағыналық күші болатын негізгі сөз, және сөзтүрлену (септелу немесе жіктелу) арқылы
261
негізгі сөзден алынған сөз формасының тобы болады. Бір сөздік мақала – ол нейрондар тобы,
немесе мәнін шығарып алу қабаттағы бір нейронды субавтомат. Сөздік мақаланың
субкүйлерінің жалпы саны сол мақаланың сөзжасамдардың санына тең болсын. Осындай
субавтоматтың әрбір субкүйі бір қозған нейрон болады. Бұл кезде, бір мезгілде бір
субавтоматтың екі түрлі нейроны қозған жағдайда субавтоматта біруақытта екі түрлі субкүйі
бар деп айтамыз. Әрбір мақалада сол мақалаға сәйкес келетін негізгі нейрон болады. Сөздік
мақаланың негізгі нейроны оның сөздік мақаласына жататын сөз танылған кезде үнемі
қозған күйде болады. Әрбір сөз формасына бөлек нейрон сәйкес келеді. Ол сөз формасы
танылған кезде қозады.
Мәнін шығарып алу қабатта бөлек сөздік мақалаларға жатпайтын нейрондар болады. Бұл
нейрондар көптеген сөздік мақалаларға тән септік, шақ, жіктеу сияқты сөзжасамдардың
белгілеріне сәйкес келеді. Олар сәйкес белгілері бар сөз формалары қозғанда қозады.
Сөзжасамдардың белгілеріне сәйкес келетін нейронның күйлері сол нейрондар
байланысатын сөздік мақаланың субавтоматтарына жатады. Сонда, бірнеше сөздік мақалалар
бір мезгілде дәл сол күйде болуы мүмкін.
Субавтоматтың қозған нейрондар жиыны субавтомат танитын бөлек нейронға жататын
белгілер жиынына сәйкес келеді. Жіктеу немесе берілген символдық тізбек бойынша сөздік
мақаланы және сөзжасамды анықтау есебі мәнін шығару қабаты арқылы қозу толқынының
өтуіне және сәйкес сөздік мақала үшін сәйкесінше субавтоматтың қозуына алып келеді. Сөз
түрлену есебі мұндай субавтоматтың бастапқы сөз түрлену басталатын сәйкес сөз
формасының күйінен алғашқы сөзжасамына түрлендіру керек болатын сәйкес сөз
формасының ақырғы күйіне өзгеруіне алып келеді.
Сипатталған есептердің шешімін қамтамасыз ететін нейронды желілердің байланысының
құрылысын қарастырайық. Синхрондалған сызықты ағаш сөздік мақала бойынша сөз
формаларының жіктелу және сол сөз формасының белгілерін анықтау есептерінің шешімін
қамтамасыз етеді. Егер көпмәнді жағдай туса синхрондалған сызықтық ағашта немесе графта
сөз формасының барлық бөлек бөлек мәндеріне сәйкес келетін барлық сөздік мақалалар мен
сөз формалары қозады.
Сөзтүрлену және сөзтудыру есептерін шешу үшін де синхрондалған сызықтық есепті
қолдануға болады. Бұл жағдайда ол субавтоматты бір күйден екінші күйге ауыстыратын,
қоздыруды тудыратын ауыстырғыш тізбек ретінде болады. Субавтоматтың күйлерінің
ауысуы синхрондалған сызықтық ағаштың кірісіне арнайы командалар беру кезінде болады.
Бұл командаларды синхрондалған сызықтық ағаш таниды және оларға сәйкес келетін
нейрон-эффекторлардың шығысында градиентті мәнге түрленеді, бұл сөздік мақаланың
күйлеріне сәйкес келетін нейрондардың қозуына немесе тежелуіне алып келеді.
262
3
Қазақ күрделі сөздерінің семантикалық моделін программалық жүзеге асыру
Қазақ күрделі сөздерінің семантикалық моделін программалық жүзеге асыратын, оның
ішінде қазақ күрделі сөздерін құруды және талдауды автоматтандыратын ақпараттық жүйесі
JAVA тілінде Netbeans программалық ортасында жасалынған.
Сурет 1. Күрделі сөздерді талдау және ережелер
бойынша құру терезесі
Жұмысты жалғастыру үшін «Өңдеу» мәзірінен «Талдау» таңдаймыз. Таңдағаннан кейін
төмендегі суреттегідей (сурет 2) бет ашылады.
Сурет 2. Күрделі сөздерді талдау терезесі
«Сөзді енгізіңіз» өрісіне күрделі сөзді енгіземіз, содан кейін құрау батырмасын бассақ, ол
базадан сол күрделі сөзді тауып күрделі сөзге талдау жасайды. Мысалы төмендегі сурет 3
көрсетілген.
263
Сурет 3. Күрделі сөздерді талдау терезесі
Әдебиеттер
1
www.egemen.kz/?p=3486
2
Жанпейісов Е., Хұсайын К. және т. б. Қазақ грамматикасы. Фонетика, сөзжасам,
морфология, синтаксис. – Астана: Астана, 2002. 152б.
3
Шәкенов Ж. Қазақ тіліндегі күрделі сөздер мен күрделі тұлғалар. – Алматы: Ана тілі,
1991, Б. 3-20
4
Аханов К., Б.Кәтенбаева , Әбдіғалиева Т. Қазақ тілі оқулығының методикалық
нұсқауы. Алматы: Рауан, 1990, Б. 19-27
М. ЕРГЕШ
Л.Н.Гумилев атындығы Еуразия ұлттық университеті, Астана, Қазақстан
ҚҰЖАТТАРДАҒЫ КІЛТТІК СӨЗДЕРДІ ВЕКТОРЛЫҚ МОДЕЛЬ
АРҚЫЛЫ ІЗДЕУ
Электронды түрдегі мәтіндік ақпараттар көлемі күн өткен сайын еселеніп көбейіп келеді.
Сондықтан қазіргі таңда ақпараттық іздеу есептерін шешетін жүйелер жасау қажетілігі туып
тұр. Қолданушының ақпараттық сұранысын қанағаттандыратындай құжаттар жиынынан
іздеу процесі ақпараттық іздеудің классикалық мәселесі. Кілттік сөздерді анықтап, олардың
маңыздылығын анықтау ақпараттық іздеу үшін қажетті мәселелердің бірі. Кілттік сөздің
салмағы сөз формасының ақпараттылығын анықтайды және ол қолданушының сұранысына
байланысты есепке алынады.
Ақпараттық іздеу әдістерінің белгілі бірнеше тәсілдері бар: бульдік модель, векторлық
модель, ықтималдық модель. Бұл жұмыста құжаттардағы кілттік сөздерді табуға векторлық
моделдің қолданылуын қарастырамыз. Қазақ тілді құжаттардағы кілттік сөздерді табу
арқылы ақпараттық іздеу жүйелерінің қазақ тілді мәтіндерді іздеудің толықтығын және
релевантылығын арттыруға болады.
Достарыңызбен бөлісу: |