ббк76. 0 Қ 54 Редакционная коллегия



Pdf көрінісі
бет10/57
Дата03.03.2017
өлшемі14,62 Mb.
#5946
1   ...   6   7   8   9   10   11   12   13   ...   57

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 

 

 



61 

 

көрікті  орындары  туралы  ақпаратты  жылдам  алуға,  қажет  орынға  оңай  тауып  баруға 



мүмкіндік береді.  

 

Әдебиеттер тізімі: 

 

1. http://pavlyuk.livejournal.com/117253.html 



2. http://visitkazakhstan.kz/ru/guide/places/15/0 

3. https://itunes.apple.com/kz/app/elektronnyj-gid-astany/id751070889?mt=8 

4.Become  an  Xcoder  «Нaчни  прoгрaммирoвaть  пoд  Mac  OS  X  иcпoльзуя  Objective-C»  Bert 

Altenberg, Alex Clarke, Philippe Mougin. Copyright © 2008 г. – 85 c. 

5. Аарон

 Хиллегасл Objective-C. Программирование для iOS и MacOS. – Питер, – 2012. 

– 301 с. 

 

 



 

 


«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 

 

 



62 

 

УДК 004.624 



 

 

 

БАЙБОЛАТ Н., ҚАЙУПОВ Е. 

 

ҚАЗАҚ ТІЛІНДЕГІ ЕТІСТІКТІ СӨЗ ТІРКЕСІНІҢ АВТОМАТТЫ АНЫҚТАУЫН 

ЗЕРТТЕУ 

 

(Л.Н. Гумилев атындағы Еуразия Ұлттық Университеті) 



 

Қазақ  тілінде  етістікті  сөз  тіркесінің  анықталуы  машиналық  аудармада  және 

ақпараттық  іздеу,  семантикалық  талдау  ,  мәтіндерді  өңдеуге  қолданылады.  Етістікті  сөз 

тіркесті анықтау мәтінге талдау жасау мен мәтінді өңдеудің дұрыстығына тікелей әсер етеді. 

Табиғи тілдерді өңдеуді мақсат ететін зерттеулер мен әдістер өте көп, бірақ соның ішінде сөз 

тіркесі  құрлымының грамматикасы әр-түрлі әдістер мен теорияға негіз бола алады. ережеге 

негізделген  машиналық  аударма  жүйесінде  талдау  жасауда  маңызды  екі  бөлім  бар:  бірі  сөз 

тіркесі  құрлымының  ережесі,  енді  бірі  текістің  фрагменттерге  бөлінуі.  Сөз  тіркесі 

құрлымының ережесі   синтаксиске талдау жасау негізінде  Ap, Pp, Vp, Np белгілері арқылы 

белгіленеді,  сонымен  бірге  бастауыш,  баяндауыш,  толықтауыш  міндеттерін  атқаратынын 

грамматика  қызметінде  де  етістікті  сөз  тіркесін  анықтау  амалы-ережеге  негізделген  және 

дерек  қорына  негізделген  амалдарға  сонымен  бірге  көптеген  стратегиялық  бірігу  амалына 

бөлінеді. Ережеге негізделген амал  болса, қолмен жазылған немесе(жартылай)автоматты 

түрде  ие  болған  грамматикалық  ереже  сөз  тіркесінің  аумағы  мен  түрін  белглейді. 

Синтаксистік  белгілеу  амалын  көбейтсек  және  сөз  тізбегіне  сөз  тіркесінің  аумағы  мен 

сөйлемнің  түрі  секілді  амалды  енгізсек,  бұл  амал  бір  конвертер  тізбегін  қамтиды. 

Грамматика ережесі болса, шектеулі күйдегі грамматика формасы. 

Морфология 

— 

дербес 


сөздердің грамматикалық 

мағыналарын тексеретін, 

грамматикалық сөз тұлғалардың қызметі мен қалыптасу, даму заңдылықтарын зерттейтін тіл 

ғылымының  бір  саласы.  Морфология  сөз  тұлғаларының  түрленуін,  бөлшектенуін,  әр  түрлі 

өзгеріске  түсуін  анықтау  мақсатында  салыстыра  зерттеу  жүйесімен  де  айналысады.  Сөздің 

тұлғасы,  мағынасы  және  атқаратын  қызметі  сөйлем  құрамында  ғана  анықталатын 

болғандықтан, 

сөзді синтаксиспен байланысты 

қарастырады. 

Демек 


сөзді 

лексика-


грамматикалық сипаты тұрғысынан айқындайды. 

Сөз  тіркесі  болса  тек  қана  бір  аяқталған(бөліп  жаруға  келмейтін)мазмұнды 

бейнелейді. Ол екі не одан да көп нақты сөзден қалыптасқан. мысалы:жаңа үй салды, бұл 

сөйлем. Ал“жаңа үй”, немесе, “үй салды” болса сөз тіркесі болады.  

Қазақ  тілінің  етістікті  сөз  тіркесін  анықтау  зерттеуі  Xml  құжаттың  қазақ  тілі  сөздік 

қор базасының сөз сипаты(pos)белгісі арқылы белгіленеді. Сонымен қатар, “v” етістік, “n” 

зат  есім,  “adj”  сын  есім,  “prep”  шылау,  “iw”еліктеуіш  сөз,  “pn”есімдік,  “int”  одағай,  “conj” 

жалғау, “num” сан есім, “adv” үстеу сиақты негізгі сөз таптарын белгілеуден тыс“va”сабақты 

етістік, “vb” етістіктің әр түрлі шақтарын;  “vc” болса үстеу етістігі. 

 

Кесте1  



Негізгі етістік сөз тіркесінің ережесі 

 

Рет саны 

Түрлік белгі 

Түрлік түсініктеме 

v+v 


етістік+етістік 

iw+v 



еліктеу+етістік 

vc+v 



Үстеу етістігі+етістік 

adv+v 



үстеу+етістік 

Number+v 



сан+етістік 

«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 

 

 



63 

 



n+v 

затесім+етістік 

pn+v 


есімдік+етістік 

n+vb 



затесім+етістіктің шақтары 

n+vc 



затесім+Үстеу етістігі 

10 


n+vd 

затесім+етістіктен сын есім тудыратын жұрнақ 

11 

n+va 


затесім+салт етістік 

12 


number+рет+v 

санесім+мөлшерсөз+етістік 

13 

number+есе+v 



санесім+мөлшерсөз+етістік 

14 


n+v 

затесім+етістік 

15 

(n+мен)+ v 



(затесім+етістіктенсын есімтудыратын 

жұрнақ)+етістік 

16 

(n+пен)+ v 



(затесім+етістіктенсын есімтудыратын 

жұрнақ)+етістік 

17 

(n+бен)+ v 



(затесім+етістіктен сын есім тудыратын 

жұрнақ)+етістік 

18 

n+үшін+ v 



затесім+көмекші есім+етістік 

19 


n+арқылы+ v 

затесім+көмекші есім+етістік 

20 

n+n+v 


затесім+затесім+етістік 

21 


n+v+v 

затесім+етістік+етістік 

 

Етістікті  сөз  тіркестері  —  грамматикалық  тірегі  етістік  болатын  сөз  тіркесі.  Тіркес 



кұрамындағы  басқа  сөздер  тірек  етістіктің  маңына  топталады.  Етістікті  сөз  тіркестері:  а) 

қабы са байланысқан етістікті сөз тіркестері (Қожа кеш келіп, ерте кетуші  еді;  b) меңгеріле 

байланысқан (Байжан іске кірісті) болып екі салаға бөлінеді. Бұлардың әрқайсысы өз ішінен 

бірнеше топқа таралады. Қабыса байланысқан Етістікті сөз тіркестері: үстеулі сөз тіркестері, 

еліктеуіш  сөз  тіркестері,  көсемшелі  сөз  тіркестері,  сын  есімді  сөз  тіркестері.  сан  есімді  сөз 

тіркестері, зат есімді сөз тіркестері сияқты 6 топтан тұрады. меңгеріле байланысқан етістікті 

сөз  тіркестері:  табыс  жалғаулы  сөз  тіркестері,  барыс  жалғаулы  сөз  тіркестері,  шығыс 

жалғаулы  сөз  тіркестері,  жатыс  жалғаулы  сөз  тіркестері,  көмектес  жалғаулы  сөз  тіркестері, 

шылау сөзді тіркестер сияқты 6 топтан тұрады. 

1) Қабыса байланысқан Етістікті сөз тіркестері: 

Бұндай бірігу формасы сөз тіркесінің әр бөлігі арасындағы  морфологиалық байланыс 

жоқтығын білдіреді. Мысалы: 

(a)үстеу+етістіктен  құралған  етістікті  сөз  тіркесінің  формасы.  қайта  сөйлеу;тез 

жүру. 


(b) еліктеуіш сөз+етістіктен құралған етістікті сөз тіркесінің формасы.  

сақ -сақ күлу ; 

(c) үстеу етістігі+етістіктен құралған етістікті сөз тіркесінің формасы.  

асықпай сөйлеү; 

ұшып тұру ; 

(d) сан есім + мөлшер сөз+етістіктен құралған етістікті сөз тіркесінің формасы.  

( сан есімнен соң “рет” “есе ” сяақты мөлшер сөзді қажет етеді ). 

жаңбыр бір жауса,терек екі жауады. 

(e)зат есім+етістіктен құралған етістікті сөз тіркесінің формасы.  қымыз ішу ;  

(f) көсемшелі сөз+етістіктен құралған етістікті сөз тіркесінің формасы. 

жүре сөйледі; 

2) Меңгеріле байланысқан етістік сөз тіркесі. 



«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 

 

 



64 

 

а) Табыс септік тұлғалы сөзді меңгерген етістікті сөз тіркестер 



Мысалы: отанды қорғау; 

b).  Батыс  септік  тұлғалы  зат  есім  сөзді  меңгеру  арқылы  құрылған  салт  етістікті  сөз 

тіркестері; 

 

мысалы: оның сөзіне сену. 

с) шығыс септіктегі сөзді меңгерген салт етістікті сөз тіркестері; 

Мысалы: пәледен құтылу;қайғыдан арылу ; 

d) Жатыс септіктегі сөзді меңгерген етістікті сөз тіркестері; 

e)Көмектес септіктегі сөзді меңгерген етістікті сөз тіркестері; 

Бұлардан  тыс  етістік  сөзі  демеулік  сөздермен  біріккен  есім  сөздер  мен  жәнеде 

көмекші зат есімдермен бірігіп етістікті сөз тіркесін құрайды. мысалы: отан үшін күресу.   

3) күрделі етістікті сөз тіркесі. 

Әр түрдегі жәй сөз тіркестер бірігіп күрделі сөз тіркесін құрайды. 

Мысалы: жаңа салынған мектепке кіру.  

Қазақ  тілі    етістік  сөз  тіркесінің  автоматты  анықтау  ережесі.  Аумақты  анықтау  мен 

құрлым анықтайтын ереже болып екіге бөлінеді.  

Етістіктің  қасиеті  мен  қызметі  етістік  сөз  тіркесінің  аумағын  тікелей  бейнеленеді, 

қазақ тілі  етістігінің анықтамасы, етістіктің әр түрлері мен етістіктің сандық категориясына 

тәуелді бірінші жақ категориясын, септік категориясы сиақты мәселелерге байланысады. 

Қазақ тілі жәй сөйлемінің құрылымының ерекшелігіне негізделсек, әр түрлі қосымша 

доға  тәрізді  бөлімі,  негізгі  етістік  сөз  тіркесін  құраған  кездегі  өзгерістік  ерекшелігі,  негізгі 

етістік сөз тіркесінің дұрыс анықтауында өте маңызды рөл атқарады. 

 

суреттегі доға тәріздес қосымша бөліміндегі сөз алды қосымшаның барлығы бейтаныс 



сөздер  ,  мөлшері  аз  ,  негізгі  етістіктен  жасалған  сөз  тіркесін  анықтағанда    мағынасы  жоқ  , 

есепке алынбайды. 

Етістік  сөз  таптарының  ішіндегі  құрамы  жағынан  да,  грамматикалық  құрылымы 

жағынан  да  өте  күрделі  сөз  табы  болып  табылады.  Граматикалық  Ереженің  шынайылығы 

біршама  кемелді,  Өйткені   ол  лингвистикалық  (тіл  ғылымы)мамандарының  сөздік  қор 

базасы  мен  тілдер  құбылысының  грамматикалық  қортындысын  жинақтап  шығарған 

лингвистикалық  білім,  десе  де  табиғи  тілдердің

 

икемділігінде  көптеген  мәселелер  шығып 



отырады.  Ереженің  әдіс-амалы  абсолютты  түрде  қолданылмайды.  Яғни  ықтималдың  мәні 

арқылы  ереженің  нақтылығын  бейнелеуге  болады.  Өйткені ереже  мен  статистиканың 

арасында  осындай  бір  байланыс  болғандықтан  бір  бөлім  ережелік  әдіс-амалдар 

ықтималдыққа негізделген.  

 

Әдебиеттер тізімі: 

 

1. Abney S.part-of-speech tagging and partial parsing [M].Dordrecht: Kluwer Academic Publishers, 



1991, 119-236. 

2.  Brill  E.A  corpus-based  approach  to  language  learning  [M].Philadelphia:  University  of 

Pennsylvania, 1993, 251-322. 


«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 

 

 



65 

 

3.



 Қазақ  тілі.  Энциклопедия.  Алматы:  Қазақстан  Республикасы  Білім,  мәдениет  және 

денсаулық сақтау министрлігі, Қазақстан даму институты, 1998 жыл, 509 бет. ISBN 5-7667-2616-3. 

4.  Қазақ  тілі  сөз  тіркесін  автоматты  парыұтау.  Гүлзада  Қайса1,  Гүлила  Адымбек  (шинжяң 

универстеті ақпараттыұ ғылымдар және инженерия факультеті,Үрімжі қаласы қытай830046).  

 

 

 



ӘӨЖ 004 

БАЙҒАБЫЛ Ұ.Д. 

 

SEMANTIC WЕB ТЕХНОЛОГИЯЛАРЫНДАҒЫ   WORDNET   ЛЕКСИКАЛЫҚ 

ОНТОЛОГИЯЛАРЫ 

 

(Л.Н. Гумилев атындағы Еуразия Ұлттық Университеті) 

 

Бүгінгі таңда зерттеушілер компьютер оқи алатын құжаттардан  компьютер қабылдай 



алатын  құжаттарға  ауысу  қажеттілігін  мойындады.  World  Wide  Web  маңызды  жолдарының 

бірі. Мұндай ауысу   Semantic Web технологиясының негізінде мүмкін болады.  

Semantic  Web  (SW)  жобасын    WWW    негізін  қалаушылардың  бірі  Тим  Бернерс-Ли 

(Tim Berners-Lee) ұсынды. SW концепциясы желіде ақпараттың осылай көрсетілуін ұсынуға 

негізделеді. Ол үшін тапсырмалардың ретін шешу керек [1]. WWW-желісінің даму кезеңдері 

мынадай: 

Web 1.0 – желідегі ақпараттың бірігуі және оны тұрақты толықтыру 



Web 2.0 - Social Web әлеуметтік желіге адамдардың бірігуі 

Web 3.0 – желідегі білімнің бірігуі 



Web 4.0 – бір-бірімен тең тұрып, білімді алу мен жалпылауға арналған компьютерлер 

мен адамдардың желіде біріктіру. 

Алғашқы  екі  кезең  өтті,  үшінші  және  төртінші  кезең  -  қарқынды  даму  үстінде.  Тим 

Бернерс-Ли  бойынша  базалық  үлгі  SW-ке  келесі  компоненттері  кіреді:  URI/IRI  – 

ресурстардың  универсал  идентификаторы;  (XML)  кеңейтілген  тілі;  RDF  ресурстарын 

сипаттаудың  жалпы  сұлбасы;  метамәліметтер  және  RDF  Schema  (RDFS);  онтология  және 

оларды сипаттау тілдері (OWL: OWL Lite, OWL DL, OWL Full); метамәліметтер және сұлба 

OWL Schema (OWLS);  RDF-ке SPAROL сұранысының тілі; WSDL  агенттері/сервистері мен 

WSDLS сұлбасы. 

RDF-мәліметтер  үшін  мәліметтерді  сериаландыру  форматтары  құрастырылған  және 

қосымшалардың  интероперабелділігімен  қамтамасыздандырылады.  W3C    консорциумы 

қолданылатын  терминдердің  сөздіктерін  мамандандыруға  мүмкіндік  беретін  XML, 

Namespace  (атаулардың  кеңістігі),  RDF  және  RDFS  (RDF-схем)  форматтары  бойынша 

ұсынады  және  қолданады.  Жетілдірілген  және  жаңа  қосымшаларға  арналған  арнайы 

спецификациялар  орындалып  жатыр.  Зерттеулер  нәтижесі  коммерциялық  мақсаттарда 

қолданылады [1]. 

RDF/OWL  -  деректер  қоры  ретінде  үлкен  ресурстар  қалыптасқан.  Мета-ақпараттың 

ортақ  көлемі  үздіксіз  өсіп  жатыр.  2006  жылы  қыркүйек  айында  OWL  атаулар  кеңістігі 

Semantic  Web  (8 %  ортақ  көлемнен  алғанда)  113 000    құжатында  қолданылды.    RDFS 

атауының кеңістігі-677 000 құжатында (47 %) қолданылды. 2007 жылы тамыз айында желіде 

шамамен 2 биллионов RDF қолданылды. 

Білімді  консорциум  W3C    онтология  түрінде  көрсетуді  стандартты  онтологиялар 

спецификациясында  ұсынды  -  Web  Ontology  Language  (OWL)  тілі.  OWL    RDF/RDF  Schema 

және    қасиеттер  мен  класстарды  ұсынудың  қосымша  сөздігіне  негізделген.  Онтологияны 

құрастыру кезінде сол бір пәндік сала туралы білімді көрсететін құрылымдардың кең спектрі 



«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 

 

 



66 

 

қолданылады:  глоссарий,  қарапайым  таксономия,  тезаурус  (терминдері  бар  таксономия), 



қатынастар жиынтығының түсінікті құрылымы, толыққанды аксиомаландырылған теория.  

Онтология  параметр  реті  бойынша  ажыратылады.  Олардың  классификациясына 

әртүрлі негіздер  беріледі.  Онтология элементтердің жинақтамасына, енгізілетін қатынастар 

типіне  байланысты  бөлінеді.    Онтологияның  классификациясы  түсініктердің  саны  мен 

сапасына  байланысты  жіктелуі  мүмкін.  Жоғары  деңгейдегі  онтология  (top-ontology)  әдетте 

шамамен 


100−3000 

концепттер 

деп 

есептеледі. 



Кейде 

ол 


концепттер 

лексикаландырылмайды.  Мұндай  онтологияның  басты  артықшылығы  көптеген  тілдер  мен 

көптеген салаларда қолданылу мүмкіндігі  болып табылады.  Онтологияның берілген типіне 

базалыққа  жатқызуға  болатын  жалпыланған  қатынастардың  шектелген  жиынтығы  тән. 

Жоғары  деңгейде  осы  онтологияларда    мән,  құбылыс,объект,  үдеріс,  рөл  типтік  болып 

табылады.  

Басқа типіне орта деңгейдегі онтологияны жатқызады (mid-level ontology − Suggested 

Upper Merged Ontology (SUMO)) онда элементтер көп болады  (500-10000 концепттер).  Олар 

ортаны  аксиомаландырылған  әлем  ретінде  қабылдайды.  Онтологияның  бұл  түріне  көптеген 

аксиомалар  керек  болғандықтан  күрделі  болады.  Әдетте  бұл  мәселе  бұрыннан  бар 

онтологиялардан  аксиомалардың  автоматты  шығару  әдісінің  көмегімен  шешіледі.  Орта 

деңгейдегі онтологияны құрумен  когнитологтар мен лингвисттер айналысады. 

Төменгі  деңгейдегі  онтология  кең  және  әдетте  шамамен  2000-20000  концепттерді 

қамтиды.  Олар  нақты  пәндік  саланы  сипаттайды.  Олар  үшін  көптеген  аксиомалар  мен 

ережелер  құру  да  мүмкін.  Онтологияның  бұл  типі  білім  саласының  эксперттері  көмегімен 

құрылады.  Осындай  онтологияның  мысалдары:  UNSPSC  (United  Nations  Standard  Products 

and  Services  Codes)  ;  NAICS  (North  American  Industry  Classification  System;  SCTG  (Standard 

Classification of Transported Goods). 

Онтологияның  ерекше  типі  –  лексикалық  (лингвистикалық).  Олардың  ерекше 

қасиеттері  -  тілдік  қасиеттерімен  бірге  түсініктердің  бір  ресурста  қолданылуы.  Берілген 

типтегі  онтологияда  түсініктердің  негізгі  көздері  болып  тілдік  бірліктер  табылады.  Олар 

әдетте  тілдік  элементтерге  тән  қатынастар  жиынтығымен  ажыратылады:  синонимия, 

гипонимия, 

меронимия 

және 

т.б. 


Лингвистикалық 

онтологияларға 

WordNet 

http://wordnet.princeton.edu/;MikroKosmos 

http://crl.nmsu.edu/Research/Projects/mikro/index. 

html;  Sensus  -  http://www.isi.edu/natural-language/  projects/ONTOLOGIES.html.  Осындай 

онтологиялармен 

шешілетін 

тапсырмалар 

ортасы 


табиғи 

тілдің 


лингвистикалық 

онтологиясының басты сипаттамасымен тығыз байланысты. Лингвистикалық онтологияның 

басты  сипаттамасы  болып    жетілдірілген  лексикализация  мен  жаңа  онтологияны  құруда 

маңызды  болып  табылатын  бірліктер  тілдік  өрнектердің  (сөздер,  атаулы  топтары) 

мәндерімен  байланысты.    WordNet  –те  атақты  онтологиялардың  бейнеленуі  бар  (SUMO, 

OpenCyc  және  т.б.)  зерттеудің  маңызды  бағыты  –  нақты  пәндік  салада  онтологияны 

құрастыруға  арналған  жоғары  және  орта  деңгейдегі  онтологияны  қолдану.  Пәндік-

бағытталған онтологияны  құрастыру  кезінде  жалпы онтология  ретінде  жиі  лингвистикалық 

онтология  WordNet  қолданылады.  WordNet-пен  [2]    жұмыс  жасау  80-жылдардың  басында 

Принстон университетінде жүргізілді.  

WordNet  қолдану  нәтижесі  бірден  оң  нәтиже  берген  жоқ,  бірақ  WordNet 

құрылымданған  лингвистикалық  ресурстарды  құрастырудың    жаңа  кезеңін  ашты,  әртүрлі 

елдерде  осындай  типті  «ворднеттер»  өз  ана  тілдерінде  жасай  бастады,  сонымен  бірге  көп 

жоспарлы дискуссия мен зерттеулердің негізі болды. 

Алғашында  WordNet  адам  жадының  үлгісі  ретінде  құрылды.  WordNet  тегі  сөздерді 

сипаттауды  ұсынудың  шешімі  психолингвистикалық  тәжірибелермен  ынталандырылады. 

Дегенмен  WordNet  психолингвисттерге  қарағанда,  компьютерлік  лингвисттерде  үлкен 

қызығушылыққа ие болды. 



«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 

 

 



67 

 

WordNet: негізгі принциптері 



 WordNet  негізін қалаушы Джордж Миллер  WordNet құрастырудың негізінде келесі 

негізгі гипотезаларды қалыптастырады: 

 

Бөлінушілік  гипотезасы  :    табиғи  тілдің  лексикалық  компонентін  сипаттау  бөлек 

болуы және басқаша дыбысталуы мүмкін; 

 

 "Үлгі"  гипотезасы    (patterning  hypothesis):    тілдің  көп  сөзіне  қолданылуы  мүмкін 

сөздерді ресми сипаттау бар; 

 

Жабыну    гипотезасы  (comprehensiveness  hypothesis):  мәтінді  автоматты  өңдеудің 

қосымшаларындағы  компьютерлік  сөзді    тиімді  қолдану  үшін  осындай  сөздіктер  ұзындығы 

бойынша өте үлкен болуы мүмкін. 

Қазір 2006 жылы желтоқсанда 3,0 нұсқасы шығарылды. WordNet (PWN) жетілдірілген 

нұсқасы    заманауи  ағылшын  тілінің  жалпыға  бірдей  тұтынушылық  лексикасын  қамтиды. 

(табл. 1). 

WordNet  –те  негізгі  қатынас  синонимдермен  қатынау  болып  табылады.  Синонимдер 

түсінігі  келесі  критерийге  негізделеді,екі  сөйлемше  синонимдік  болады,  егер олардың  бірін 

сөйлемдегі басқа сөзге ауыстырса, осы сөйлемнің мағынасы өзгермейтін болуы керек.  

WordNet  негізі  болып  синсеттер  табылады  –  берілген  контексте  бір  концептті 

білдіретін  сөз  -  синонимдер  жиынтығы.  Синсет  үшін  сөз  табы  мен  түсіндіру  көрсетіледі. 

Синсет  құрамына  кіретін  әрбір  сөздің  атрибуттардың  қатары  болады.  Мысалы, 

доминанттылық  белгісі,  «идиома»  типті  таңбасы,  «жақын  мәндер»  және  т.б  Әрбір  синсет 

үшін  берілген  контекстте  оның  қолданылу  мысалы  келтірілді  -  түсіндірумен  анықталатын 

фразеологизм  мен  сөздер  жиынтығы  анықталады.  Сөздіктің  құрамына  төрт  сөз  табына 

жататын  лексемалар  кіреді:  сын  есім,  зат  есім,  етістік  және  үстеу.  Әртүрлі  сөз  табының 

лексемалары бөлек сақталады және әрбір сөз табына сәйкес келетін сипаттаманың да әртүрлі 

құрылымы 

болады. 

Синсеттердің 

көбі 

дәстүрлі 



сөздіктердегі 

түсіндірмелермен 

жабдықталған, бұл түсіндірмелер  барлық синсеттің синонимдері үшін бір түсіндірме ретінде 

қарастырылады. Егер сөздің бірнеше мағынасы болса, онда ол әртүрлі синсеттерге кіреді. 

 

 1 кесте 

WordNet 3.0 статистикасы 

 

Сөз таптары 

Бірегей 

қатар 


саны 

Синсеттер 

Мәндер жұптары барлығы 

Зат есім 

117,798 

82,115 


146,312 

Етістік 


11,529 

13,767 


25,047 

Сан есім 

21,479 

18,156 


30,002 

Үстеу 


4,481 

3,621 


5,580 

Жалпы саны 

155,287 

117,659 


206,941 

 

Синсеттер  арасындағы  негізгі 



қатынастар сөз табына байланысты [2]. 

WordNet-тің    кейбір  қатынасының 

мысалы 1 суреттер келтірілген.  

1996  жылы  наурыздан  бастап  

1999  жылы  қыркүйекке  дейін  Еуропа 

комиссия 

қаржыландыру 

кезінде 


көптілді 

нұсқа 


 

WordNet 


– 

EuroWordNet  құрастырылды.    Бұл 

лексикалық жүйе өзінде ағылшын, дат, 

испан,  итальян,  неміс,  француз,  чех 



«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ»  V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ 

 

 



68 

 

және  эстон  тілдерінде    WordNet-сөздіктері  болды,  ал  негіз  ретінде  Принстон  университеті 



WordNet  алынды. 

2004  жылы  грек,  болгар,  түрік,  чех,  француз,  румын,  серб  тілдері  бар  BalkaNet 

жобасының жұмыс аяқталды. 

WordNet  50-ден  аса  тілді  қамтитын  көптілді  бірыңғай  лексикалық  онтология  болып 

табылады.  

EuroWordNet және BalkaNet таратылатын WordNet-тен айырмашылығы жабық ақылы 

лексикалық ресурс болып табылады.  

 



Достарыңызбен бөлісу:
1   ...   6   7   8   9   10   11   12   13   ...   57




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет