Атты І халықаралық конференция ЕҢбектері



Pdf көрінісі
бет6/39
Дата25.12.2016
өлшемі8,57 Mb.
#403
1   2   3   4   5   6   7   8   9   ...   39

Литература 
1.
 
Пўлатов  А.Қ.  Компьютер  лингвистикаси.  А.Қ.Пўлатов;  масъул  муҳаррир: 
А.А.Абдуазизов, М.М.Орипов. –Т.: Akademnashr, 2011. – 520. 
2.
 
Hamidov X. Turk tili. Morfologiya, Toshkent, 2011. 188. 
3.
 
Shabanov J., Hamidov X., Turk tilining imlo qoidalari.  Türkçe Yazım Kuralları, Toshkent, 
2010. – 88. 
4.
 
Ҳозирги  қорақалпоқ  адабий  тилининг  грамматикаси.  Сўз  ясалиши  ва  морфология.  - 
Нукус: "Билим", 1994. - 5-94 бб. 
5.
 
Қозоқбоева 
А.Т. 
Қорақалпоқ 
тилида 
қўшимчаларнинг 
вариантлилиги. 
Филол.ф.номзоди дис.... автореферати. - Нукус, 2010. 
6.
 
Назиров  Ш.А.,  Рахманов  К.С.,  Махмудов  А.З.  Классификация  и  построения  базы 
данных  словарей  по  тюркских  языков  //  Международная  конференция  «Актуальные 
проблемы    прикладной  математики,  информатики  и  механики»  17  –  19  сентября  2012  г. 
г.Воронеж. С. 110-116. 
 

48 
 
 
GULILA ALTENBEK 
 
 
1.College of Information Science and Engineering , Xinjiang University 
2. The Base of Kazakh and Kirghiz Language of National Language Resource Monitoring and 
Research Center Minority Languages 
3.Xinjiang Laboratory of Multi-language Information Technology 
Urumqi, Xinjiang , 830046,  P.R. China, 
 
 
IDENTIFICATION OF THE KAZAKH BASIC PHRASES BASED ON THE MAXIMUM 
ENTROPY MODEL 
 
Abstract:  This  paper  proposed  the  definition,  classification  and  structure  of  the  Kazakh  basic 
phrases,  and  established  a  framework  for  the  classification  of  it  according  to  their  syntactic 
functions.  Meanwhile,  the  structure  of  the  Kazakh  basic  phrases  were  analyzed;  and  the 
determination of  the Kazakh basic phrases  collocation  and extraction  of  the Kazakh basic phrases 
based on rules were followed. The Maximum Entropy (ME) model uses for the identification  of the 
phrases  from  texts  and  achieved  a  result  of  automatic  identification  of  Kazakh  phrases  with  an 
accuracy of 81.58% based on rules System and additional artificial modification. Design feature of 
this ME model join rely on templates of Kazakh Word, part of speech, affixes. Experimental results 
show that the accuracy rate reached 91.62%. 
Key words: Kazakh basic phrase; phrase identification ; maximum entropy; rules. 
 
1 Introduction 
Automatic phrase identification is an important task in natural language processing. A phrase is a 
group of words that work together. Phrase recognition is a grammatical  unit agent between words 
and  sentences  in  natural  language  processing.  Phrase  identification  Parser  has  been  developed  for 
different  languages,  and  they  include  the  Church's  Base  NP  Recognition  for  English[1]  etc.  The 
rule-based Model and Maximum Entropy Model (ME) are the most commonly used technology for 
phrase representation and parsing. 
Kazakh Language belongs to the Turkish Language group in the Altaic language family, and it is 
an agglutinative language with word structures formed by adding derivational or inflectional affixes 
to  root  words.    Phrases  identification  is  an  important  task  in  Kazakh  information  processing,  our 
group  put  forward  Kazakh  morphological  analysis  which  contains  stem  extraction,  part  of  speech 
tagging(POS), spellchecking, etc. in the past few years .Syntax Parsing, analysis of phrase structure, 
automatic identification of phrases and depth analysis of structure was recently investigated.. In this 
paper, we focus on identifying noun phrases, adjective phrase and verb phrases, which are the most 
difficult aspects of Kazakh phrase recognition analysis using by rules and ME. 
 
2 Related works 
There  was  a  variety  of  techniques  used  for  phrase  recognition.  Which  include  rule-based 
technique,  statistical  technique,  or  a  combination  of  rule-based  and  statistical  techniques.  For  
example,  Church's  English  Base  NP  Recognition(1988)  [1].  His  approach  is  through  manual  or 
semi-automatic annotation  phrase corpus as a training corpus, then any pair of speech tags phrase 
context information in the statistics of probability, which according to the above probability words 
in the sentence made  between any two adjacent  markers, to obtain analysis results. This approach 
followed in shallow parsing has been widely used.  
Moreover,  several  main  approaches  or  algorithms  to  phrase  recognition  was  investigated, 
typically implemented using a Chunk parsing for statistics model to decide the boundary[3] . Chunk 

49 
 
parsing were first introduced by Abney (1991)[2], which is the most widely used syntactic parsing. 
The  main  idea  of  chunk  parsing  lies  in  seeking  the  appropriate  breakthrough  point,  and 
decomposing the full parsing problems to syntax topology statistics structure and syntactic relation. 
Jun  Zhao  and  Changning  Huang  are  pioneers  in  Chinese  phrase  studies  (1998)[4];  Tsinghua 
University  had  also  completed  its  TCT  (Tsinghua  Chinese  Trebank  )  for  Chinese  (Qiang 
Zhou,2004)[5];  many  language  studies  of  it  had  been  used  Kazakh  phrase  recognition 
parsing(Gulila.A  etc.,2009))[6-7] . 
Maximum Entropy was first introduced to NLP area by Berger, et al (1996) and Della Pietra, et 
al.  1997[8].which  is  an  extremely  flexible  technique  for  linguistic  modelling  ,  since  it  can  use  a 
virtually  unrestricted  and  rich  feature  set  in  the  framework  of  a  probability  model.  It  is  a 
conditional, discriminative model and allows for mutually dependent variables[9]. 
 
3 Kazakh Phase parsing 
3.1  Kazakh Morphology 
Morphological analysis is an important task in natural language processing research, which was 
developed  for  different  languages,  included  the  Porter  Stemmer  for  English[10],  PC  Kimmo  for 
Finnish[11],Oflazer(1994)  and  Gülşen,E.(2004)for  Turkish[12-13],  Beesley,K.R.  (1996)  [14]for 
Arabic,   
The  Kazakh  morphological  system  uses  a  large  number  of  suffixes  and  a  small  number  of 
prefixes. Every word has a root, or a stem[15].  
The root is the core of the entire word structure and it conveys its basic meaning.  
A  stem  is  a  new  word  generated  by  adding  zero  or  more  various  affixes  to  the  root,  and  it 
expresses the complete meaning of the word.  
Affixes  are divided into inflectional  affixes and derivational  affixes.    Inflectional  affixes,  when 
they  are  added  to  a  word,  they  do  not  cause  grammatical  changes,  and  do  not  lead  to  meaning 
changes . Derivational affixes change the meaning of the word when added to a root word. 
3.2 The Categories of Kazakh Phrase 
Parsing  is  one  of  the  most  basic  and  fundamental  component  in  natural  language  processing. 
Much  research  on  parsing  focused  on  their  languages.  Chunk  parsing  (or  called  shallow  parsing) 
intends to obtain a fragment without thinking deeply.  
According  to  certain  rules,a  Kazakh  phrase  is  composed  of  two  or  more  words  in  the 
vocabulary and grammatical meaning of the word structure associated with the language unit. In the 
Kazakh language, word and its structures are compounded according to certain rules of combination 
on the other hand certain structural rules are decided by certain grammatical relations. Furthermore, 
relationships between words are constrained by the syntax.  
From the central parts of speech to points, a Kazakh phrase is a syntactic unit  composed of two 
or  more  content  words.  In  each  phrase,  there  is  only  one  head  word,  since  other  ingredients  or 
adjuncts complement the role of a phrase as the head word . 
In the case of Kazakh, Kazakh phrases can be divided into fixed phrases and temporary phrases 
by  the  meaning  of  phrase.  Fixed  phrases  were  formed  in  history,  and  are  used  as  a  word  in  the 
sentence. A fixed phrase includes the fixed phrase idioms, such as ۋاراق ىتسۇ تا (not to think highly 
of), temporary phrases, such as a noun phrase 
 (our Motherland), and verb phrases such as 
 (get a happy life) 
etc.  
According to computational linguistics, the basic phrase, is a non-nested phrase which does not 
intersect  the  structure  of  a  word.  It  can  only  belong  to  one  phrase  and  each  phrase  inside  can  no 
longer contain other phrases. According to syntax function, the Kazakh phrase divides noun phrases 
and verb phrases. Which can further divide them by the function of phrases as shown in table 1.  
 
Table 1 Part of Kazakh phrase categories 
NO  Category  Explanation 
Example 

50 
 

NP 
noun phrase 
زۇك نىتلا 

VP 
verb phrase 
ۋتەج اقتارۇم 

AP 
adjective 
phrase 
پات
-
 
ازات
 

RP 
pronouns 
phrase 
ىتارۇم ڭىنو 

MCP 
numeral 
phrases 
 زىعوت 
زىگەس
ڭىم 

MP 

quantifier 
phrase 
ساج امرىيج 
 
Kazakh  language  is  rich  in  the  external  morphology,  and  this  forms  the  most  prominent 
manifestations  of  phrase  structure.  Kazakh  phrase  can  be  divided  into  parallel  structure  (
),  consistent  with  the  structure  (
),  the  dominant  structure(
), 
genitive  structure  (
), additional structure(
), adjacent structures(
). 
Such  as:
    (we    got    grain  crops  harvest  at  hometown  in  this  year.) 
show in fig. 1 
 
 
Figure 1: Example of Kazakh phrase structure 
 
4 Statistics and Analysis of Kazakh phrase structure 
Referring  to  modern  Kazakh  grammar[15-16],  the  basic  rules  of  phrase  structure  of  Kazakh 
language was summed up, which extracted the structure of phrases from the corpus, and created a 
set of rules. 
In  the  representation  of  basic  phrase  structures,  the  part  of  speech  tagging  symbols  in  XML 
documents  of  Kazakh  corpus  was  used  which  are  v  (verb),  n.  (noun),  adj.  (adjective)  ,  ono. 
(onomatopoeia) , pron. (pronoun) , exc.(exclamation), num. (number), adv. (adverb), au.(auxiliary). 
4.1 Kazakh Verb phrase structure 
A  Verb  phrase  has  a  verb  as  the  center  and  is  made  up  of  more  than  one  verb.  A  verb  phrase 
contains a main verb and one or more helping verbs. The helping verbs help the main verb to show 
the  action.  The  verb  in  a  sentence  expresses  the  tense  or  time  type,  person  and  number  of 
grammatical  categories.  Using  the  same  verb  phrase  often  acts  as  a  predicate  in  a  sentence,  the 
subject, the attribute and so on. The Kazakh noun phrases divided by the function of phrases in our 
system are shown below.   
1) n+v;  2) v+v;  3) adv+v;  4) n+vc;  5) n+n+v; 6) n+va; 7) vc+v ; 8) pron+v;     
9) pron+va; 10) va+v ;11)n+vd; 12)adv+vd; 13)n+v+v; 14)vb+v; 15)adj+va;  
16) num+" +"v; 17) adj+va;  18)v+v+v 
For  the  purpose  of  testing,1000  sentences  are  used  for    analysis  in  "Xinjiang  Daily"  (Kazakh 
version corpus) , which are as follows:1000 sentences ; 8871 words  in the text; 416 verb phrases ; 
The average sentence length is 9 words(see attached 1). 
4.2 Kazakh noun phrase structure 
A noun is a word that names a person, place, thing, or idea. noun phrases are related to several 
areas,  including  the  plural  form,  case,  possessive  person,  predicate  person  in  Kazakh.  .  These 

51 
 
factors  are  the  difficulties  in  Kazakh  phrase  extraction.  The  Kazakh  noun  phrases  divided  by  the 
function of phrase in our system are shown below and in attachment 2.   
1) n+n;   2) n+conj+n;  3) pron+conj+pron;  4) pron+n;  5)  adj+conj+adj; 
6) adj+n;  7) adj+adv+n ;  8) num+n; 9) v+n;  10) [ ]+n  
4.3 Kazakh adjective phrase structure 
An adjective is a word that describes a noun or pronoun.The Kazakh adjective phrase divided by 
the function of phrase like follow and attached 2 .  
1)adj+n;   2)adj + v;  3) adj+n+v; 4)pron+adj; 5) adv+adj+n; 6) adj+adj+n; 7) num+adv+n ;  
 
5 Rule-based verb phrase recognition algorithm 
Kazakh  has  two  characteristics  that  have  to  be  taken  into  account:  agglutinative  morphology,  
and rather free word order with explicit case marking. 
Input:word segmentation(extraction stem and affix) and POS tagged corpus (test.xml); 
Output:First:Phrase tagged file(result.xml);Second:Phrase file(resultP.txt); 
Rule-based phrase recognition algorithm as follow: 
(1)i=1; 
(2)while (!(test.xml)) 
①From right to left match rule in rule base; 
②if match then put phrase boundary and phrase POS tag.  
③i=i+1 (move right) 
(3)Output recognition phrase and phrase file. 
Based on the basic rules of phrase, we have done extraction of phrases from POS tagged Kazakh 
corpus. The extraction process is as follows: 
(a) First roughly segmented XML corpus. The common segmentation marks include semicolon, 
comma, full stop, exclamation mark, question mark. 
(b) For the segmented data, we extract the three elements of basic phrase: part of speech (POS), 
affix, and the word. 
(c) Look for the matched rule in the rule set. If found, save the basic phrase. Otherwise go back 
step 1. 
 
6 Based on ME for Kazakh phrase Identification 
The Kazakh phrase recognition  task is that  x represents  the environmental  context  words  to  be 
marked and y is the output. Achieve task: the instance or context condition x, construct a model can 
accurately estimate the category marker appears the result y probability, as: p(y/x)。 
Model input: 
Labeled training data from the training sample set extracting T = {(x
1
, y
1
), (x
2
, y
2
), ......, (x
n
, y
n
)}, 
(x
i,
  y
i
)  that  appear  in  the  corpus  when  it  yi  context  information  for  the  x
i.
 
Feature  function  in  that  f  is  between  x  and  y  refers  to  a  particular  relationship  exists,  a  binary 
function that: 
F(a,b)= { 1   If  x, y  condition  
        0  otherwise 
The entropy model P:    



y
x
y
x
y
x
p
p
H
,
)
,
log(
)
,
(
)
(
 
Maximum Entropy Model:Such a model can be shown to have the following form:  
)
(
max
arg
*
p
H
p
C
p


         
Goal:  select  a  distribution  p  from  a  set  of  allowed  distributions  that  maximizes  H(Y|X).  
compute: 








i
i
y
x
f
x
Z
x
y
p
)
,
(
exp
)
(
1
)
|
(
*

                             

52 
 









y
i
i
y
x
f
x
Z
)
,
(
exp
)
(


                                                    
Where the 
i

are the model parameters and the f are the features of the model. 
6.2 Feature extraction 
6.2.1 Feature defined 
According to own characteristics of a Kazakh basic verb , this feature space is defined as: 
(1)  the  word,  including  the  current  word,  the  right  and  left  sides  of  a  word. 
(2)  part  of  speech,  including  the  current  word  speech,  about  the  two  parts  of  speech  information. 
(3)  Affix  ingredients,  including  the  current  word  and  the  word  about  the  additional        ingredient 
information. 
(4)  Phrase  tag  that  contains  the  current  word  and  the  words  to  the  right  and  the  left  two  words 
Phrase marker. 
This rule-based approach applied to generate the maximum entropy model training corpus, based 
on Kazakh Linguistics, the feature space show as table 2. 
 
Table 2.  Feature templates 
Feature 
tag 
Meaning 
Feature 
tag 
meaning 
w(-1) 
previous one word 
POS(+1
) 
POS  of  next  one 
word 
w(0) 
the current word 
POS(+2
) 
POS  of  next  two 
word 
w(+1) 
next one word 
affix(-
1) 
affix 
of 
previous 
word  
pos(-
2) 
POS  of  previous  two 
word 
affix(0
) 
affix of current word 
pos(-
1) 
POS  of  previous  one 
word 
affix(1
) 
affix  of  next  one 
word 
pos(0) 
POS of the current word 
 
 
6.2.2 Feature selection  
There  are  two  general  feature  selection  methods:  incremental  feature  selection  and  feature 
selection  of  based  on  frequency  threshold.  Appear  relatively  large  frequency  characteristic  was 
selected,  the  frequency  is  greater  than  a  threshold  value  equal  to  a  characterristick.  Through 
repeating them many times, the frequency threshold value was characterized k = 5, characterized in 
that the use of the frequency characteristic is greater than 5. 
 
 
Figure 2. 
Feature
 generate process 
Feature:
.......... Pos-1pos0 pos+1
 
 
adj n v B 
 
(w0,pos0), 
(pos0,tag0), 
(w+1,pos+1
), 
(pos0,pos+
1), 
W-1=
,pos-1=adj,tag-1=O 
W0=
 ,pos0=n,ta
g0=B 
W+1=
,pos+1=v,
tag+1=I 
特征
生成
 

53 
 
7 Phrase disambiguation 
7.1 Analysis of Kazakh phrase structure ambiguity 
Ambiguity  computer  analysis  of  language  structure  has  been  one  of  the  difficulties  problems 
faced  by  the  earliest.  problems  and  eliminate  ambiguity  effective  structural  policy  research  has 
Hindle,  Rooth  of  computational  linguistics  research  and  Brill  of  rule-based  approach  eliminate 
ambiguity of the phrase matching. 
This article from the delimitation ambiguity and structural relationship is to study two aspects of 
phrase structure ambiguity.  
one  of  the  difficulties  in  Kazakh  phrase  research  is  the  phrase  disambiguation  problem. 
Ambiguous reasons is word POS ambiguity, phrase boundaries is not easy to determine, POS with 
the same sequence, there are five ambiguous forms. 
(1)VD form(v+adv) 
Eg.1a:
  is verb phrase. 
Eg.1b:
 is adverb phrase. 
(2)ND form(n+adv,pron+adv) 
Eg.2a: 
 is verb phrase. 
Eg.2b:
 is adverb phrase. 
(3)NPV form(n+prep+v, pron+prep+v) 
Eg.3a:
 is verb phrase. 
Eg.3b:
 is noun phrase. 
(4)VPV form(v+prep+v) 
Eg.4a:
 is verb phrase. 
Eg.4b:
 is adverb phrase. 
(5)VP form(v+prep) 
Eg.5a:
 is verb phrase. 
Eg.5b:
 is verb phrase. 
For these ambiguities, we can not simply use the rules to match ways to eliminate, but rather to 
use maximum entropy model to solve the problem. 
 
8 Kazakh phrase system 
Kazakh  phrase  recognition  system  consists  of  four  modules,  for  example,  training  module, 
identification module, test module and auxiliary module. By following a comprehensive analysis of 
Kazakh words, the following is the Kazakh shallow parsing process: 
(1)Sentence: 
.ىتپىرۇت پىعوس ىلەج ڭىدزۇك ناعانىزا ،ەسلەك  پىعاب يوق ،ەگرەج لوس رابماق ،ىتپىلەك زۇك رىڭوق
 
(2) POS: 
رىڭوق
n/
 
زۇك
 n/
ىتپىلەك
v/
رابماق ،
n/
 
لوس
pron/
 
ەگرەج
n/
يوق ،
 n/
 
پىعاب
 v/
 
ەسلەك
v/
ناعانىزا ،
 adj/
ڭىدزۇك
 n/
ىلەج
 
n/
پىعوس
 v/
 
ىتپىرۇت
v/
.
 
(3)Phrase POS: 
]]
رىڭوق
n/
 
زۇك
  NP[n/
ىتپىلەك
[v/
،
VP
 
]]
رابماق
n/
 
]
لوس
pron/
 
ەگرەج
n/
،
NP[RP[
 
]] 
يوق
  n/
 
پىعاب
[  v/VP
 
ەسلەك
[[v/
،
VP
 
]]]]
ناعانىزا
 adj/
 
]
ڭىدزۇك
 n/
ىلەج
 AP[NP[n/
پىعوس
 VP[v/
 
ىتپىرۇت
[v/
.
VP
 
(4)Tree bank: 
 

54 
 
 
 
Fig.3  Kazakh Tree Bank 
 
 
 
Fig.4  Kazakh verb phrase identify system 
 
9 . Experiment results and analysis 
9.1 Dataset 
In this paper, as the data set we are using is the data of 31 days of January 2008 of the Xinjiang 
Daily  corpus.  The  corpus  consists  of  the  raw  texts  and  the  POS  tagged  XML  format  texts. 
Experiments were done for phrase extraction . 
 
 
Fig. 5 Verb phrase Annotated corpus 
 
9.2 Experiment results 
The  experiments  of  the  accuracy  rates  are  evaluated  using  as  follow  standard  evaluation 
measures: 

55 
 
recall=a/(a+b)*100%; 
precision= a/(a+c)*100%; 
leakage=b/(a+b)*100%; 
error=c/(a+c)*100%; 
Note:  recall  +leakage=1;precision  +error=1;a  is  number  of  correctly  identified  phrases.  b  is 
number of missed phrases. c is number of wrongly identified phrases. 
In the test corpus, there are 3000 correct tagged sentences as training data for the close test, and 
other 1000 sentences for the open test. 
Table 3.phrase indentify test 
meth
od 
Test type  precision
(%) 
recall(
%) 
error
(%) 
leakage
(%) 
rule 
Close 
test 
81.58 
72.51 
18.42 
27.49 
rule 
Open test  78.22 
70.01 
21.78 
29.99 
ME 
Close 
test 
91.62 
87.33 
8.81 
15.67 
ME 
Open test  87.89 
83.13 
12.11 
16.87 
10 Conclusion 
This paper identified Kazakh  phrases based on rules and the maximum entropy method. It used 
the  Kazakh  word,  part  of  speech,  affixes  context  information  to  design  template  of  features  by 
maximum entropy model. GIS algorithm was investigated to the feature set of parameter estimation, 
and  the final  output of the optimal recognition  results  of the phrase. Based on statistical  methods, 
we can obtain higher accuracy in the close test, but were unable to get a good result in the open test, 
which requires training more and more corpora.  
Acknowledgments 
This work is supported by National Natural Science Foundation of China(NSFC) under Grant 
No. 61063025. 
 
Reference 
[1]  Church  K.A  stochastic  parts  program  and  noun  phrase  parser  for  unrestricted  text[J].  In 
Proceedings  of  the  Second  Conference  on  Applied  Natural  Language  Processing.  Texas,  USA. 
1988,19(8):136-143. 
[2]  Steven  Abney.  Parsing  by  chunks[M].  Dordrecht:  Kluwer  Academic  Publishers,1991:257-
278 
[3]Rob Koeling. Chunking with Maximum Entropy Models[J]. Proceedings of CoNLL-2000 and 
LLL-2000,2000,109(15):139-141 
[4]  Zhao  Jun  and  Huang  Changning,.  Chinese  basic  noun  phrase  structure  analysis  model, 
Computer sinence[J].,1999,22(2):141-146. 
[5]Qiang Zhou,2004,Annotatiion scheme for Chinese Treebank, Journal of Chinese Information 
Processing, Vol 18(4),Pages 1-8. 
[6]  Gulila.Altenbek,Ruina-Sun,Kazakh  Noun  Phrase  Extraction  based  on  N-gram  and 
Rules,2010 
International 
Conference 
on 
Asian 
Language 
Processing 
(IALP2010),Harbin,China,2010, Pages 305-308. 
[7]  Gulila,  A.  and  Dawel,A.  and  Muheyat,N.(2009).A  Study  of  Word  Tagging  Corpus  for  the 
Modern Kazakh Language, Journal of Xinjiang University[J]., 26(4), Pages 394-401. 
[8]  Adam  Berger,  Stephen  Della  Pietra,  and  Vincent  Della  Pietra(1996),A  Maximum  Entropy 
Approach to Natural  Language ,Processing Computational Linguistics, 22(1), Pages 39-71. 
[9]Adwait  Ratnaparkhi.  Learning  to  parse  natural  language  with  maximum  entropy 
models[J].Machine Learning,1999,341(3):151-176 
[10]Porter,M.F.(1980)..An algorithm for suffix stripping, Program, 14(3):130−137. 

56 
 
[11]Karttunen,Lauri(1983).  KIMMO:  A  general  morphological  processor.  Texas  Linguistic 
Forum, 22:163–186. 
[12]Gülşen,E.  and  Eşref,A.(2004).An  affix  stripping  morphological  analyzer  for  Turkish, 
Proceedings  of  the  International  Conference  on  Artificial  Intelligence  and  Application,  Austria, 
299-304. 
[13]Kemal Oflazer(1994).Two-level description of Turkish morphology. Literary and Linguistic 
Computing,9(2):137-148. 
[14]Beesley,K.R.(1996).Arabic finite-state morphological analysis and generation. In COLING-
96, Copenhagen,pages 89-94. 
 [15]Milat,A.(2003).Modern Kazakh language, Xinjiang People's press, China. 
[16]Dingjing  Zhong.  Practical  Grammar  of  Modern  Kazakh  Language.  Beijing:  Central 
University for Nationalities Press,2004. 
 
Attachment 1 : 
Part of Speech match statistics of verb phrase
 
POS 
match
 
Example 
Number 
of VP 
Percentage 
of VP 
n+v 
 
56 
26.51% 
v+v 
 
94 
11.78% 
adv+v 
 
83 
9.13% 
N+vc 
 
85 
8.65% 
n+n+v 
 
86 
8.41% 
N+va 
 
13 
6.73% 
vc+v 
 
12 
6.49% 
pron+v 
 
19 
5.77% 
pron+va 
 
18 
5.53% 
va+v 
 
12 
5.05% 
n+vd 
 
25 
3.85% 
Adv+vd 
 
21 
2.88% 
n+v+v 
  21 
2.88 
vb+v 
 
22 
2.64% 
Adj+v 
 

2.16% 
num+" +
"v 
 

1.44% 
Adj+va 
 

0.48% 
v+v+v 
 

0.48% 
 
Attachment  2 : Part of Speech match rules of noun phrase 
rule 
Type 
Example 
Rule  type 
example 
Rule 

 
n+نةم+n 
 نةم 
ثايجنيش
ؤسناگ 
Rule 

n+n 
لااب زئق 
n+نةب+n 
شاعا نةب زاعاق 
 
adj +n 
لااب ئسقاج 
n+نةپ+n 
املا نةپ قئدنئرو 
 
num+n 
پاتئك شذء 
n+ئراء+n 
 ئراء 
مئلاعذم
ئشؤقو 
 
pron+n 
ئشؤقو قئلراب 
n+ةناج+n 
تةسا ةناج لئدا 
 
v+n 
مات ناعلاذق 
pron+نةم+ pron 
زئبء نةم رلاو 
 
adj+adv+n 
ئبنةس نئگذب 
pron +نةب+ pron 
زئبءنةب زئسء 
Rule 

 
adj+ 
كئتپةس
ؤاعلاج+n 
 ةگئلةگثةت  رازاب
رازاب 
pron +نةپ+ pron 
 نةپ 
كئلئشپوك

57 
 
نامرادثئت 
pron +ئراء+ pron 
 ئراء 
زئبء
رةدنةس 
pron +ةناج+ pron 
رلاو ةناج زئبء 
N  or  pron+  كئدلةؤات
ؤاعلاجor
كئتپةس 
كئلئ
 
+ؤاعلاجnoun+ 
كئدلةؤات
ؤاعلاج 
مئباتئك ثئنةم 
 
Attachment 3 : Part of Speech match rules of adjective phrase 
type 
Example 
Type 
example 
adj+v 
زۇج زەت
 
adj +n +adj 
يەدەيلۋا ىتشاش سىموك
 
adj+n 
تا زوبقا
 
adj 
+conj 
+adj 
ىلياج ەد ڭەك
 
Pron+adj 
سەتكەلىت زىمىعىلراب
 
pron 
+adj 
+pron 
سەمە قامىقا مىكشە
 
adv+adj 
راشان ەتو
 
adj +n +n 
ىسىرات ڭىدۋيا ىرۇس
 
num+adj+n 
ياراس ىتشىرۇب سەب
 
n +adj +v 
نەكە كىيب ىيوب
 
adv+adj+n 
امراعىش ىلامادڭات ڭە
 
n +adv +adj
 
كىيب ڭە ىيوب
 
adj+adj+n 
شاش اراق ۋيوق
 
adv +n +adj 
ىسقاج ىياراۋا نىگۇب
 
adj+n+v 
ىديەج ىروبٴ ىدنەگنىلوب
 
adv +adj +v 
ىتتو ىسقاج رىۋادەن
 
adj +نەم+adj 
زىسلىقا نەم ىدلىقا
 
adv 
+adj 
+pron 
سەمە تەمەرەك اشنو
 
adj +نەب+ adj 
ناعىس نەپ سەپوك
 
pron 
+adj 
+v 
ناج 
رلاو
-
 ىلىتقاج
ىدرىتسلايو
 
adj +نەپ+ adj 
 نەپ 
قىتسىلىتاراج
قىدماعوق
 
pron 
+n 
+adj 
نىعىلراب
ىكڭىرەتوك ىحۋر ڭى
 
adj +ىراٴ+ adj 
ىدلىقا ىراٴ ىتكىروك
 
pron 
+adj 
+adj 
ىتتاناتلاس يادناعلايو ىعىلراب
 
adj +ەناج+ adj 
لىساج نەم لىزىق
 
adj 
+pron 
+v 
ىدە سەمە لىشمىزوٴ
 
n + adj + n 
 ىلەجەراد 
ەكلو
ۋرىدنادزىسماق
 
adj +n +adj 
قاشنىترات مادا قاشلايۇ
 
adj + v + v 
ج زەت
؟املاوب ڭەسرۇ
 
n +adv +adj
 
اشامات يادناق ۋلاياج
 
pron  +  adj  + 
adv 
رەدزەك ىتقىرىق لوس
 
n +adj +adj 
ىسقاج تەمەرەك ىمادٴ
 
pron + adj +n 
تا ىسقاج ۋانىم
 
 
 
 

58 
 
З.А. СИРАЗИТДИНОВ, Б.З.СИРАЗИТДИНОВ 
 
 
Институт истории, языка и литературы Уфимского научного центра РАН, Уфа, 
Республика Башкортостан 
 
 
КОРПУСНЫЕ ПРОЕКТЫ В БАШКИРСКОМ ЯЗЫКОЗНАНИИ 
 
В  докладе  рассматривается  общее  состояние  корпусной  лингвистик  в  зарубежной  и 
отечественной  лингвистике  и  вопросы  разработки  корпусов  в  Институте  истории,  языка  и 
литературы  УНЦ  РАН.  Автором  анализируется  деятельность  лаборатории  лингвистики  и 
информационных  технологий  в  рассматриваемой  области.  Описываются  предлагаемые 
методы  создания  корпусов  прозаических  и  публицистических  текстов  башкирского  языка, 
ставится задача на перспективу. 
Ключевые  слова:  корпусная  лингвистика,  башкирский  язык,  информационные  системы, 
прикладная лингстистика. 
 
The  article  discusses  the  state  of  corpus  linguistics  in  the  domestic  and  foreign  linguistics  and 
design issues of corpus at the Institute of History, Language and Literature, Ufa Science. The author 
analyzes  the  work  of  the  laboratory  of  linguistics  and  information  technology  in  this  area.  We 
describe the proposed methods  of creating of corpus of the Bashkir language, analyzes  the results 
obtained, the task for the future. 
Keywords: corpus linguistics, the Bashkir language, information systems, applied lingstistika 
 
Статья подготовлена при поддержке гранта РФФИ 11-06-97001-р_поволжье_а “Разработка 
корпуса прозаических текстов башкирского языка”. 
Зародившееся  в  60-х  годах  прошлого  века  направление  в  зарубежном  языкознании, 
связанное  с  компьютерной  обработкой  больших  объемов  текстов,  сформировалось  в  новое 
быстро растущее направление филологии - корпусная лингвистика – “со своими традициями, 
признанными авторитетами, научными центрами, методами и проблематикой”  [1]. Данному 
направлению  сегодня  во  всем  мире  уделяется  значительное  внимание.  Объектом  нового 
филологического  направления  являются  речевые  материалы,  реализованные  в  виде  как 
письменных текстов, так и устных (фонетических) массивов данных. Корпусная лингвистика 
занимается  созданием  общих  унифицированных  принципов  представления  таких  сверх-
больших  массивов  языковых  данных  (корпусов),  непосредственным  созданием  самих 
корпусов и выполнением конкретных экспериментальных лингвистических исследований на 
базе  этих  данных  [2;3].  Данное  направление  лингвистики  является  приоритетным  и  в 
отечественной филологии. Так, если  в “Плане фундаментальных исследований Российской 
академии  наук  на  период  2006-2010  гг.”  был  раздел  9.2.3.,  касающийся  создания 
электронного корпуса текстов русского языка, то в “Плане фундаментальных исследований 
Российской академии наук на период 2011-2025 гг.” в разделе 9.(б) ставится научная задача 
создания  электронных  корпусов  текстов  языков  народов  Российской  Федерации  [3]. 
Научный  фонд  РФФИ  отдельно  выделил  корпусные  исследования  в  своем  классификаторе 
(06.4.20, Корпусно-ориентированные исследования) [4].  
На  сегодня  в  мире  насчитываются  более  тысячи  корпусов,  количество  их  растет 
экспоненциально.  Первый  корпус  был  разработан  в  60-х  годах.  Это  Брауновский  корпус 
американского  варианта  современного  английского  языка,  создававшийся  в  Брауновском 
университете  в  1962—1963  гг.  Объем  корпуса  около  1  млн  словоупотреблений.  В  начале 
2000-х  был  создан  корпус  русского  языка,  на  сегодня  его  объем  составляет  более  500  млн. 
словоупотреблений.  

59 
 
Вся  совокупность  имеющихся  корпусов  весьма  различна,  поскольку,  как  было  отмечено 
выше,  объектом  самой  корпусной  лингвистики  являются  многообразие  речевых  и 
письменных  материалов  языка.  Так  по  английскому,  немецкому,  китайскому,  японскому, 
турецкому,  эстонскому,  русскому,  польскому  языкам    реализованы  речевые  корпусы, 
содержащие  как  мультимедийные  данные,  так  и  транскрипции  речи  [5-11].  На  стадии 
создания корпусы и по другим языкам [12-13]. 
Но  наибольшее  количество  корпусов  составлены  по  письменным  текстам.  От 
поставленных  целей  и  задач  создания  эти  корпусы  можно  по  разному  классифицировать. 
Если корпус создается по текстам одного языка, то такой корпус является одноязычным. По 
объему  привлеченных  текстовых  материалов  среди  них  выделяются  корпусы  немецкого 
(DeReKo,  5,4  млрд.  слов)    [14],  английского  (BNC,  100  млн.  слов)  [15],  американского 
варианта  английского  (450  млн.  слов)  [16],  китайского  (LIVAC  Synchronous  Corpus,  1  млр. 
слов)  [17],  венгерского  (100  млн.  слов)  [18],  испанского  (100  млн.  слов)  [19],  итальянского 
(100  млн.  слов)  [20],  чешского  (200  млн.  слов)  [21],    русского  (НКРЯ,  500  тыс.  слов)  [22] 
языков.  Если же создаются корпусы текстов переведенных на разные языки, то возникают 
многоязычные или по другому параллельные корпусы. Примерами таких корпусов являются  
польско-украинский,    польско-русский,  черногорско-английский,    нидерландско-
французский,  японско-английский  и  другие  параллельные  корпусы  [23-27].  Такие  корпусы 
используются  для  сравнительно-соспоставительных  исследований.  Но  в  последнее  время 
параллельные  корпусы  нашли  практическое  применение  в  разработках  систем 
статистического перевода, зачинателем которого является компания Google. Одним из ярких 
примеров  такого  использования  является  параллельный  корпус  слушаний  Европарламента, 
включающий тексты на 21 европейском языке [28].  
В  зависимости  от  стилистической  принадлежности  тестов  выделяются  художественные, 
научные [29-30], публицистические [31-33], драматургические, поэтические корпусы [34].  
Текстовые  корпусы  также  различаются  по  принципу  отбора  материала:  выделяются 
полнотекстовые,  когда  в  корпус  попадают  полные  варианты  печатных  текстов,  и 
фрагментнотекстовые.  В  последнем  случае  в  корпус  отбираются  выборки  из  текстов. 
Объемы  выборок  и  место  расположения  их  в  текстах  каждый  составитель  определяет 
произвольно. Так Брауновский корпус построен на базе выборок из 500 текстов, каждый из 
которых  включает  2  000  словоупотреблений.  Бирмингемский  корпус  английского  языка  и 
Основной  корпус  Национального  корпуса  русского  языка  являютcя  представителями 
полнотекстового корпуса [35: 66; 22]. 
Для  решения  различных  лингвистических  задач  мало  лишь  наличия  массива  текстов. 
Требуется  также,  чтобы  сами  тексты  содержали  в  себе  дополнительную  лингвистическую 
информацию  в  виде  специальных  разметок,  позволяющую  использовать  их  для  разных 
исследовательских  и  иных  целей.  В  этой  связи  известный  отечественный  специалист  в 
области  составления  корпусов,  руководитель  проекта  Национального  корпуса  русского 
языка  член-корр.  РАН В.А.Плунгян  даже  подчеркивает,  что  “собственно,  наука  о  корпусах 
… — это прежде всего наука о том, как сделать хорошую разметку корпуса” [36: 6]. 
Составители  корпусов  по  разному  подходят  к  определению  состава  разметок,  но 
большинство сходится в том, что разметки должны быть двух типов: экстралингвистические 
(метатекстовые)  и  лингвистические  [37:  175-176].  К  экстралингвистическим  относится 
информация, которая паспортизирует сами тексты в целом и дает сведения об авторе (фио, 
год  рождения  автора,  пол,  образование  и  т.д.),  информацию  о  тексте:  (название,  год 
создания,  год  издания,  жанр,  тип  текста,  носитель  текста:  книга,  журнал,  электронное 
издание) и другие. Лингвистические разметки включают морфологические, синтаксические и 
семантические  характеристики,  относятся  ко  всем  словоупотреблениям  текста,  поэтому 
некоторые авторы называют их лексическими разметками. 
Для  работы  с  размеченными  текстами  необходимо  соответствующее  программное 
сопровождение,  позволяющее  производить  разнообразный  поиск  по  корпусу,  получать 

60 
 
статистические  данные.  Размеченные  тексты  вместе  с  программным  сопровождением 
образуют корпус в его полном понимании.  
В создании корпуса трудоемким и сложным являются следующие этапы: 
1) Подготовка электронных текстов. На данном этапе существующие печатные варианты 
книг  сканируются,  редактируются  и  вводятся  на  электронные  носители.  Современные 
зарубежные  корпусы  создаются  при  поддержке  крупных  издательств,  которые  на 
безвозмездной основе передают предпечатные варианты текстов разработчикам корпусов.  
2)  Проведение  разметки  текстов.  Степень  трудоемкости  данного  этапа  определяется 
уровнем  развития  таких  разделов  конкретного  языка  как  компьютерная  и  математическая 
лингвистика.  Если  в  языке  проведены  соответстувующие  исследования  и  составлена 
компьютерная  модель,  то  возможны  разработки  средств  автоматизации  процесса. 
Первостепенной  задачей  в  этом  процессе  является  разработка  автоматического 
морфологического  анализатора  языка.  Далее  следуют  программы  автоматического  снятия 
омоними,  синтаксического  и  семантического  анализа.  Но  даже  в  этом  случае  остается 
значительная  доля  ручной  работы,  поскольку  не  все  языковые  явления  однозначно  могут 
быть идентифицированы программными средствами. 
Сейчас  все  крупные  языки  обзавелись  своими  национальными  корпусами.  К  созданию 
корпусов приступили все остальные языки мира. Ведутся корпусные разработки и по языкам 
народов России: бурятского [38-39], калмыцкого [40-41], лезгинского [42] осетинского [43] и 
др.  Отдельно  отметим  научные  разработки  и  корпусные  проекты  по  языкам  тюркской 
группы, родственным башкирскому языку: казахский [44], татарский [45-46], тувинский [47-
48], турецкий[491], шорский [50], хакасский [51]. 
Лингвистику  21  века  называют  корпусной  лингвистикой.  При  этом  данное  направление 
лингвистики  активно  влияет  на  все  остальные  направления  языкознания,  изменяет 
теоретические  приоритеты  и  создает  новые  идеологии  в  понимании  того,  что  же 
представляет собой язык [52; 7-8]. 
Иследователями  также  отмечается,  что  корпусы  открывают  перспективу  для  новых 
исследований  не  только  в  области  лингвистики,  но  и  в  смежных  областях:  в 
литературоведении  (для  стилеметрических  исследований,  определения  нормативности 
употребления  языковых  реалий),  в  общественных  науках  (изучение  социальных  объектов 
через язык, используя такие параметры текстов, как период, автор или жанр, семантический 
контент текстов), в информационно-технических разработках (создание автоматизированных 
систем машинного перевода, распознавание речи, информационный поиск). 
Сегодня в Институте истории, языка и литературы УНЦ РАН активно осваиваются новые 
направления  лингвистики  прикладного  характера,  основывающиеся  на  накоплении 
лингвистических  баз  данных  и  компьютерной  обработке.  Есть  первые  результаты  по 
экспериментальной  фонетике,  выполненные  Ишкильдиной  Л.К.  [53].  Каримовой  Р.Н. 
накапливается диалектная текстологическая и речевая база  [54, 55],  разработан машинный 
фонд  башкирского  языка  [56].  Сиразитдиновым  З.А.  и  Миграновой  Л.Г.  составляется  база 
терминологических данных [57], полным  ходом идет работа и по корпусной лингвистике.  
Работа  по  корпусу  башкирского  языка  осуществляется  сотрудниками  лаборатории 
лингвистики  и  информационных  технологий  ИИЯЛ  УНЦ  РАН  (Сиразитдинов  З.А., 
Бускунбаева Л.А., Ишмухаметова А.Ш., Ибрагимова А.Д., Мигранова Л.Г., Полянин А.И.) в 
двух направлениях: а) корпус прозаических текстов; б) корпус публицистических текстов.  
Первое направление разрабатывается по гранту РФФИ “Разработка корпуса прозаических 
текстов башкирского языка”, № 11-06-97001-р_поволжье_а. Начало работы 2011 г., конец — 
2013 г.  
Второе  направление  осуществляется  в  рамках  программы  Президиума  РАН  “Корпусная 
лингвистика.  Создание  и  развитие  корпусных  ресурсов  по  языкам  народов  России”.  Сроки 
реализации 2012—2014 гг. [58]. 
На 
сегодня 
по 
корпусу 
прозаических 
текстов 
разработаны 
системы 
экстралингвистических  и  лингвистических  помет  для  разметки,  создана  программа 

61 
 
автоматического  морфологического  анализа,  подготовлены  и  автоматически  размечены 
тексты  773  произведений  более  70  авторов  общим  объемом  порядка  10  миллионов 
(10829086) словоформ, запущен проект поисковой системы в сети [59]. Сейчас идет отладка 
и  оптимизация  работы  корпуса,  ведется  работа  по  оцифровке  новых  текстов. К  концу  года 
намечается доведение объема корпуса до 20 миллионов словоформ и запуск самого корпуса 
в  сети  Интернет  на  сервере  Института  со  своим  доменным  именем.  Проект  корпуса 
прозаических  текстов  полностью  разработан  на  базе  СУБД  Оракл  на  платформе  Unicode 
[http://mfbl.ru/bashkorp/korpusp].  Для  работы  с  корпусом  пользователь  может  установить 
башкирскую  раскладку  клавиатуры  средствами  системы  (ОС  Vista,  Seven),  установить 
программу  Хамелеон  8.0  (для  ОС  98,  ME,  2000,  XP)  или  воспользоваться  виртуальной 
клавиатурой самого корпуса.   
По второму направлению подготовлены тексты республиканских газет и журналов общим 
объемом  в  5  миллионов  словоформ.  Идет  работа  по  автоматической  морфологической 
разметке. Корпус будет выставлен к концу года. 
Система экстралингвистических разметок публицистического корпуса включает название 
прессы,  год,  месяц  и  день  выхода,  название  статьи,  автора.  Все  тексты  размечены  по 
тематике и жанру. Для рассматриваемого корпуса выделены следующие тематики и жанры: 


Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   ...   39




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет