Литература
1.
Пўлатов А.Қ. Компьютер лингвистикаси. А.Қ.Пўлатов; масъул муҳаррир:
А.А.Абдуазизов, М.М.Орипов. –Т.: Akademnashr, 2011. – 520.
2.
Hamidov X. Turk tili. Morfologiya, Toshkent, 2011. 188.
3.
Shabanov J., Hamidov X., Turk tilining imlo qoidalari. Türkçe Yazım Kuralları, Toshkent,
2010. – 88.
4.
Ҳозирги қорақалпоқ адабий тилининг грамматикаси. Сўз ясалиши ва морфология. -
Нукус: "Билим", 1994. - 5-94 бб.
5.
Қозоқбоева
А.Т.
Қорақалпоқ
тилида
қўшимчаларнинг
вариантлилиги.
Филол.ф.номзоди дис.... автореферати. - Нукус, 2010.
6.
Назиров Ш.А., Рахманов К.С., Махмудов А.З. Классификация и построения базы
данных словарей по тюркских языков // Международная конференция «Актуальные
проблемы прикладной математики, информатики и механики» 17 – 19 сентября 2012 г.
г.Воронеж. С. 110-116.
48
GULILA ALTENBEK
1.College of Information Science and Engineering , Xinjiang University
2. The Base of Kazakh and Kirghiz Language of National Language Resource Monitoring and
Research Center Minority Languages
3.Xinjiang Laboratory of Multi-language Information Technology
Urumqi, Xinjiang , 830046, P.R. China,
IDENTIFICATION OF THE KAZAKH BASIC PHRASES BASED ON THE MAXIMUM
ENTROPY MODEL
Abstract: This paper proposed the definition, classification and structure of the Kazakh basic
phrases, and established a framework for the classification of it according to their syntactic
functions. Meanwhile, the structure of the Kazakh basic phrases were analyzed; and the
determination of the Kazakh basic phrases collocation and extraction of the Kazakh basic phrases
based on rules were followed. The Maximum Entropy (ME) model uses for the identification of the
phrases from texts and achieved a result of automatic identification of Kazakh phrases with an
accuracy of 81.58% based on rules System and additional artificial modification. Design feature of
this ME model join rely on templates of Kazakh Word, part of speech, affixes. Experimental results
show that the accuracy rate reached 91.62%.
Key words: Kazakh basic phrase; phrase identification ; maximum entropy; rules.
1 Introduction
Automatic phrase identification is an important task in natural language processing. A phrase is a
group of words that work together. Phrase recognition is a grammatical unit agent between words
and sentences in natural language processing. Phrase identification Parser has been developed for
different languages, and they include the Church's Base NP Recognition for English[1] etc. The
rule-based Model and Maximum Entropy Model (ME) are the most commonly used technology for
phrase representation and parsing.
Kazakh Language belongs to the Turkish Language group in the Altaic language family, and it is
an agglutinative language with word structures formed by adding derivational or inflectional affixes
to root words. Phrases identification is an important task in Kazakh information processing, our
group put forward Kazakh morphological analysis which contains stem extraction, part of speech
tagging(POS), spellchecking, etc. in the past few years .Syntax Parsing, analysis of phrase structure,
automatic identification of phrases and depth analysis of structure was recently investigated.. In this
paper, we focus on identifying noun phrases, adjective phrase and verb phrases, which are the most
difficult aspects of Kazakh phrase recognition analysis using by rules and ME.
2 Related works
There was a variety of techniques used for phrase recognition. Which include rule-based
technique, statistical technique, or a combination of rule-based and statistical techniques. For
example, Church's English Base NP Recognition(1988) [1]. His approach is through manual or
semi-automatic annotation phrase corpus as a training corpus, then any pair of speech tags phrase
context information in the statistics of probability, which according to the above probability words
in the sentence made between any two adjacent markers, to obtain analysis results. This approach
followed in shallow parsing has been widely used.
Moreover, several main approaches or algorithms to phrase recognition was investigated,
typically implemented using a Chunk parsing for statistics model to decide the boundary[3] . Chunk
49
parsing were first introduced by Abney (1991)[2], which is the most widely used syntactic parsing.
The main idea of chunk parsing lies in seeking the appropriate breakthrough point, and
decomposing the full parsing problems to syntax topology statistics structure and syntactic relation.
Jun Zhao and Changning Huang are pioneers in Chinese phrase studies (1998)[4]; Tsinghua
University had also completed its TCT (Tsinghua Chinese Trebank ) for Chinese (Qiang
Zhou,2004)[5]; many language studies of it had been used Kazakh phrase recognition
parsing(Gulila.A etc.,2009))[6-7] .
Maximum Entropy was first introduced to NLP area by Berger, et al (1996) and Della Pietra, et
al. 1997[8].which is an extremely flexible technique for linguistic modelling , since it can use a
virtually unrestricted and rich feature set in the framework of a probability model. It is a
conditional, discriminative model and allows for mutually dependent variables[9].
3 Kazakh Phase parsing
3.1 Kazakh Morphology
Morphological analysis is an important task in natural language processing research, which was
developed for different languages, included the Porter Stemmer for English[10], PC Kimmo for
Finnish[11],Oflazer(1994) and Gülşen,E.(2004)for Turkish[12-13], Beesley,K.R. (1996) [14]for
Arabic,
The Kazakh morphological system uses a large number of suffixes and a small number of
prefixes. Every word has a root, or a stem[15].
The root is the core of the entire word structure and it conveys its basic meaning.
A stem is a new word generated by adding zero or more various affixes to the root, and it
expresses the complete meaning of the word.
Affixes are divided into inflectional affixes and derivational affixes. Inflectional affixes, when
they are added to a word, they do not cause grammatical changes, and do not lead to meaning
changes . Derivational affixes change the meaning of the word when added to a root word.
3.2 The Categories of Kazakh Phrase
Parsing is one of the most basic and fundamental component in natural language processing.
Much research on parsing focused on their languages. Chunk parsing (or called shallow parsing)
intends to obtain a fragment without thinking deeply.
According to certain rules,a Kazakh phrase is composed of two or more words in the
vocabulary and grammatical meaning of the word structure associated with the language unit. In the
Kazakh language, word and its structures are compounded according to certain rules of combination
on the other hand certain structural rules are decided by certain grammatical relations. Furthermore,
relationships between words are constrained by the syntax.
From the central parts of speech to points, a Kazakh phrase is a syntactic unit composed of two
or more content words. In each phrase, there is only one head word, since other ingredients or
adjuncts complement the role of a phrase as the head word .
In the case of Kazakh, Kazakh phrases can be divided into fixed phrases and temporary phrases
by the meaning of phrase. Fixed phrases were formed in history, and are used as a word in the
sentence. A fixed phrase includes the fixed phrase idioms, such as ۋاراق ىتسۇ تا (not to think highly
of), temporary phrases, such as a noun phrase
(our Motherland), and verb phrases such as
(get a happy life)
etc.
According to computational linguistics, the basic phrase, is a non-nested phrase which does not
intersect the structure of a word. It can only belong to one phrase and each phrase inside can no
longer contain other phrases. According to syntax function, the Kazakh phrase divides noun phrases
and verb phrases. Which can further divide them by the function of phrases as shown in table 1.
Table 1 Part of Kazakh phrase categories
NO Category Explanation
Example
50
1
NP
noun phrase
زۇك نىتلا
2
VP
verb phrase
ۋتەج اقتارۇم
3
AP
adjective
phrase
پات
-
ازات
4
RP
pronouns
phrase
ىتارۇم ڭىنو
5
MCP
numeral
phrases
زىعوت
زىگەس
ڭىم
6
MP
a
quantifier
phrase
ساج امرىيج
Kazakh language is rich in the external morphology, and this forms the most prominent
manifestations of phrase structure. Kazakh phrase can be divided into parallel structure (
), consistent with the structure (
), the dominant structure(
),
genitive structure (
), additional structure(
), adjacent structures(
).
Such as:
(we got grain crops harvest at hometown in this year.)
show in fig. 1
Figure 1: Example of Kazakh phrase structure
4 Statistics and Analysis of Kazakh phrase structure
Referring to modern Kazakh grammar[15-16], the basic rules of phrase structure of Kazakh
language was summed up, which extracted the structure of phrases from the corpus, and created a
set of rules.
In the representation of basic phrase structures, the part of speech tagging symbols in XML
documents of Kazakh corpus was used which are v (verb), n. (noun), adj. (adjective) , ono.
(onomatopoeia) , pron. (pronoun) , exc.(exclamation), num. (number), adv. (adverb), au.(auxiliary).
4.1 Kazakh Verb phrase structure
A Verb phrase has a verb as the center and is made up of more than one verb. A verb phrase
contains a main verb and one or more helping verbs. The helping verbs help the main verb to show
the action. The verb in a sentence expresses the tense or time type, person and number of
grammatical categories. Using the same verb phrase often acts as a predicate in a sentence, the
subject, the attribute and so on. The Kazakh noun phrases divided by the function of phrases in our
system are shown below.
1) n+v; 2) v+v; 3) adv+v; 4) n+vc; 5) n+n+v; 6) n+va; 7) vc+v ; 8) pron+v;
9) pron+va; 10) va+v ;11)n+vd; 12)adv+vd; 13)n+v+v; 14)vb+v; 15)adj+va;
16) num+" +"v; 17) adj+va; 18)v+v+v
For the purpose of testing,1000 sentences are used for analysis in "Xinjiang Daily" (Kazakh
version corpus) , which are as follows:1000 sentences ; 8871 words in the text; 416 verb phrases ;
The average sentence length is 9 words(see attached 1).
4.2 Kazakh noun phrase structure
A noun is a word that names a person, place, thing, or idea. noun phrases are related to several
areas, including the plural form, case, possessive person, predicate person in Kazakh. . These
51
factors are the difficulties in Kazakh phrase extraction. The Kazakh noun phrases divided by the
function of phrase in our system are shown below and in attachment 2.
1) n+n; 2) n+conj+n; 3) pron+conj+pron; 4) pron+n; 5) adj+conj+adj;
6) adj+n; 7) adj+adv+n ; 8) num+n; 9) v+n; 10) [ ]+n
4.3 Kazakh adjective phrase structure
An adjective is a word that describes a noun or pronoun.The Kazakh adjective phrase divided by
the function of phrase like follow and attached 2 .
1)adj+n; 2)adj + v; 3) adj+n+v; 4)pron+adj; 5) adv+adj+n; 6) adj+adj+n; 7) num+adv+n ;
5 Rule-based verb phrase recognition algorithm
Kazakh has two characteristics that have to be taken into account: agglutinative morphology,
and rather free word order with explicit case marking.
Input:word segmentation(extraction stem and affix) and POS tagged corpus (test.xml);
Output:First:Phrase tagged file(result.xml);Second:Phrase file(resultP.txt);
Rule-based phrase recognition algorithm as follow:
(1)i=1;
(2)while (!(test.xml))
①From right to left match rule in rule base;
②if match then put phrase boundary and phrase POS tag.
③i=i+1 (move right)
(3)Output recognition phrase and phrase file.
Based on the basic rules of phrase, we have done extraction of phrases from POS tagged Kazakh
corpus. The extraction process is as follows:
(a) First roughly segmented XML corpus. The common segmentation marks include semicolon,
comma, full stop, exclamation mark, question mark.
(b) For the segmented data, we extract the three elements of basic phrase: part of speech (POS),
affix, and the word.
(c) Look for the matched rule in the rule set. If found, save the basic phrase. Otherwise go back
step 1.
6 Based on ME for Kazakh phrase Identification
The Kazakh phrase recognition task is that x represents the environmental context words to be
marked and y is the output. Achieve task: the instance or context condition x, construct a model can
accurately estimate the category marker appears the result y probability, as: p(y/x)。
Model input:
Labeled training data from the training sample set extracting T = {(x
1
, y
1
), (x
2
, y
2
), ......, (x
n
, y
n
)},
(x
i,
y
i
) that appear in the corpus when it yi context information for the x
i.
Feature function in that f is between x and y refers to a particular relationship exists, a binary
function that:
F(a,b)= { 1 If x, y condition
0 otherwise
The entropy model P:
y
x
y
x
y
x
p
p
H
,
)
,
log(
)
,
(
)
(
Maximum Entropy Model:Such a model can be shown to have the following form:
)
(
max
arg
*
p
H
p
C
p
Goal: select a distribution p from a set of allowed distributions that maximizes H(Y|X).
compute:
i
i
y
x
f
x
Z
x
y
p
)
,
(
exp
)
(
1
)
|
(
*
52
y
i
i
y
x
f
x
Z
)
,
(
exp
)
(
Where the
i
are the model parameters and the f are the features of the model.
6.2 Feature extraction
6.2.1 Feature defined
According to own characteristics of a Kazakh basic verb , this feature space is defined as:
(1) the word, including the current word, the right and left sides of a word.
(2) part of speech, including the current word speech, about the two parts of speech information.
(3) Affix ingredients, including the current word and the word about the additional ingredient
information.
(4) Phrase tag that contains the current word and the words to the right and the left two words
Phrase marker.
This rule-based approach applied to generate the maximum entropy model training corpus, based
on Kazakh Linguistics, the feature space show as table 2.
Table 2. Feature templates
Feature
tag
Meaning
Feature
tag
meaning
w(-1)
previous one word
POS(+1
)
POS of next one
word
w(0)
the current word
POS(+2
)
POS of next two
word
w(+1)
next one word
affix(-
1)
affix
of
previous
word
pos(-
2)
POS of previous two
word
affix(0
)
affix of current word
pos(-
1)
POS of previous one
word
affix(1
)
affix of next one
word
pos(0)
POS of the current word
6.2.2 Feature selection
There are two general feature selection methods: incremental feature selection and feature
selection of based on frequency threshold. Appear relatively large frequency characteristic was
selected, the frequency is greater than a threshold value equal to a characterristick. Through
repeating them many times, the frequency threshold value was characterized k = 5, characterized in
that the use of the frequency characteristic is greater than 5.
Figure 2.
Feature
generate process
Feature:
.......... Pos-1pos0 pos+1
adj n v B
(w0,pos0),
(pos0,tag0),
(w+1,pos+1
),
(pos0,pos+
1),
W-1=
,pos-1=adj,tag-1=O
W0=
,pos0=n,ta
g0=B
W+1=
,pos+1=v,
tag+1=I
特征
生成
53
7 Phrase disambiguation
7.1 Analysis of Kazakh phrase structure ambiguity
Ambiguity computer analysis of language structure has been one of the difficulties problems
faced by the earliest. problems and eliminate ambiguity effective structural policy research has
Hindle, Rooth of computational linguistics research and Brill of rule-based approach eliminate
ambiguity of the phrase matching.
This article from the delimitation ambiguity and structural relationship is to study two aspects of
phrase structure ambiguity.
one of the difficulties in Kazakh phrase research is the phrase disambiguation problem.
Ambiguous reasons is word POS ambiguity, phrase boundaries is not easy to determine, POS with
the same sequence, there are five ambiguous forms.
(1)VD form(v+adv)
Eg.1a:
is verb phrase.
Eg.1b:
is adverb phrase.
(2)ND form(n+adv,pron+adv)
Eg.2a:
is verb phrase.
Eg.2b:
is adverb phrase.
(3)NPV form(n+prep+v, pron+prep+v)
Eg.3a:
is verb phrase.
Eg.3b:
is noun phrase.
(4)VPV form(v+prep+v)
Eg.4a:
is verb phrase.
Eg.4b:
is adverb phrase.
(5)VP form(v+prep)
Eg.5a:
is verb phrase.
Eg.5b:
is verb phrase.
For these ambiguities, we can not simply use the rules to match ways to eliminate, but rather to
use maximum entropy model to solve the problem.
8 Kazakh phrase system
Kazakh phrase recognition system consists of four modules, for example, training module,
identification module, test module and auxiliary module. By following a comprehensive analysis of
Kazakh words, the following is the Kazakh shallow parsing process:
(1)Sentence:
.ىتپىرۇت پىعوس ىلەج ڭىدزۇك ناعانىزا ،ەسلەك پىعاب يوق ،ەگرەج لوس رابماق ،ىتپىلەك زۇك رىڭوق
(2) POS:
رىڭوق
n/
زۇك
n/
ىتپىلەك
v/
رابماق ،
n/
لوس
pron/
ەگرەج
n/
يوق ،
n/
پىعاب
v/
ەسلەك
v/
ناعانىزا ،
adj/
ڭىدزۇك
n/
ىلەج
n/
پىعوس
v/
ىتپىرۇت
v/
.
(3)Phrase POS:
]]
رىڭوق
n/
زۇك
NP[n/
ىتپىلەك
[v/
،
VP
]]
رابماق
n/
]
لوس
pron/
ەگرەج
n/
،
NP[RP[
]]
يوق
n/
پىعاب
[ v/VP
ەسلەك
[[v/
،
VP
]]]]
ناعانىزا
adj/
]
ڭىدزۇك
n/
ىلەج
AP[NP[n/
پىعوس
VP[v/
ىتپىرۇت
[v/
.
VP
(4)Tree bank:
54
Fig.3 Kazakh Tree Bank
Fig.4 Kazakh verb phrase identify system
9 . Experiment results and analysis
9.1 Dataset
In this paper, as the data set we are using is the data of 31 days of January 2008 of the Xinjiang
Daily corpus. The corpus consists of the raw texts and the POS tagged XML format texts.
Experiments were done for phrase extraction .
Fig. 5 Verb phrase Annotated corpus
9.2 Experiment results
The experiments of the accuracy rates are evaluated using as follow standard evaluation
measures:
55
recall=a/(a+b)*100%;
precision= a/(a+c)*100%;
leakage=b/(a+b)*100%;
error=c/(a+c)*100%;
Note: recall +leakage=1;precision +error=1;a is number of correctly identified phrases. b is
number of missed phrases. c is number of wrongly identified phrases.
In the test corpus, there are 3000 correct tagged sentences as training data for the close test, and
other 1000 sentences for the open test.
Table 3.phrase indentify test
meth
od
Test type precision
(%)
recall(
%)
error
(%)
leakage
(%)
rule
Close
test
81.58
72.51
18.42
27.49
rule
Open test 78.22
70.01
21.78
29.99
ME
Close
test
91.62
87.33
8.81
15.67
ME
Open test 87.89
83.13
12.11
16.87
10 Conclusion
This paper identified Kazakh phrases based on rules and the maximum entropy method. It used
the Kazakh word, part of speech, affixes context information to design template of features by
maximum entropy model. GIS algorithm was investigated to the feature set of parameter estimation,
and the final output of the optimal recognition results of the phrase. Based on statistical methods,
we can obtain higher accuracy in the close test, but were unable to get a good result in the open test,
which requires training more and more corpora.
Acknowledgments
This work is supported by National Natural Science Foundation of China(NSFC) under Grant
No. 61063025.
Reference
[1] Church K.A stochastic parts program and noun phrase parser for unrestricted text[J]. In
Proceedings of the Second Conference on Applied Natural Language Processing. Texas, USA.
1988,19(8):136-143.
[2] Steven Abney. Parsing by chunks[M]. Dordrecht: Kluwer Academic Publishers,1991:257-
278
[3]Rob Koeling. Chunking with Maximum Entropy Models[J]. Proceedings of CoNLL-2000 and
LLL-2000,2000,109(15):139-141
[4] Zhao Jun and Huang Changning,. Chinese basic noun phrase structure analysis model,
Computer sinence[J].,1999,22(2):141-146.
[5]Qiang Zhou,2004,Annotatiion scheme for Chinese Treebank, Journal of Chinese Information
Processing, Vol 18(4),Pages 1-8.
[6] Gulila.Altenbek,Ruina-Sun,Kazakh Noun Phrase Extraction based on N-gram and
Rules,2010
International
Conference
on
Asian
Language
Processing
(IALP2010),Harbin,China,2010, Pages 305-308.
[7] Gulila, A. and Dawel,A. and Muheyat,N.(2009).A Study of Word Tagging Corpus for the
Modern Kazakh Language, Journal of Xinjiang University[J]., 26(4), Pages 394-401.
[8] Adam Berger, Stephen Della Pietra, and Vincent Della Pietra(1996),A Maximum Entropy
Approach to Natural Language ,Processing Computational Linguistics, 22(1), Pages 39-71.
[9]Adwait Ratnaparkhi. Learning to parse natural language with maximum entropy
models[J].Machine Learning,1999,341(3):151-176
[10]Porter,M.F.(1980)..An algorithm for suffix stripping, Program, 14(3):130−137.
56
[11]Karttunen,Lauri(1983). KIMMO: A general morphological processor. Texas Linguistic
Forum, 22:163–186.
[12]Gülşen,E. and Eşref,A.(2004).An affix stripping morphological analyzer for Turkish,
Proceedings of the International Conference on Artificial Intelligence and Application, Austria,
299-304.
[13]Kemal Oflazer(1994).Two-level description of Turkish morphology. Literary and Linguistic
Computing,9(2):137-148.
[14]Beesley,K.R.(1996).Arabic finite-state morphological analysis and generation. In COLING-
96, Copenhagen,pages 89-94.
[15]Milat,A.(2003).Modern Kazakh language, Xinjiang People's press, China.
[16]Dingjing Zhong. Practical Grammar of Modern Kazakh Language. Beijing: Central
University for Nationalities Press,2004.
Attachment 1 :
Part of Speech match statistics of verb phrase
POS
match
Example
Number
of VP
Percentage
of VP
n+v
56
26.51%
v+v
94
11.78%
adv+v
83
9.13%
N+vc
85
8.65%
n+n+v
86
8.41%
N+va
13
6.73%
vc+v
12
6.49%
pron+v
19
5.77%
pron+va
18
5.53%
va+v
12
5.05%
n+vd
25
3.85%
Adv+vd
21
2.88%
n+v+v
21
2.88
vb+v
22
2.64%
Adj+v
4
2.16%
num+" +
"v
5
1.44%
Adj+va
1
0.48%
v+v+v
1
0.48%
Attachment 2 : Part of Speech match rules of noun phrase
rule
Type
Example
Rule type
example
Rule
B
n+نةم+n
نةم
ثايجنيش
ؤسناگ
Rule
A
n+n
لااب زئق
n+نةب+n
شاعا نةب زاعاق
adj +n
لااب ئسقاج
n+نةپ+n
املا نةپ قئدنئرو
num+n
پاتئك شذء
n+ئراء+n
ئراء
مئلاعذم
ئشؤقو
pron+n
ئشؤقو قئلراب
n+ةناج+n
تةسا ةناج لئدا
v+n
مات ناعلاذق
pron+نةم+ pron
زئبء نةم رلاو
adj+adv+n
ئبنةس نئگذب
pron +نةب+ pron
زئبءنةب زئسء
Rule
C
adj+
كئتپةس
ؤاعلاج+n
ةگئلةگثةت رازاب
رازاب
pron +نةپ+ pron
نةپ
كئلئشپوك
57
نامرادثئت
pron +ئراء+ pron
ئراء
زئبء
رةدنةس
pron +ةناج+ pron
رلاو ةناج زئبء
N or pron+ كئدلةؤات
ؤاعلاجor
كئتپةس
كئلئ
+ؤاعلاجnoun+
كئدلةؤات
ؤاعلاج
مئباتئك ثئنةم
Attachment 3 : Part of Speech match rules of adjective phrase
type
Example
Type
example
adj+v
زۇج زەت
adj +n +adj
يەدەيلۋا ىتشاش سىموك
adj+n
تا زوبقا
adj
+conj
+adj
ىلياج ەد ڭەك
Pron+adj
سەتكەلىت زىمىعىلراب
pron
+adj
+pron
سەمە قامىقا مىكشە
adv+adj
راشان ەتو
adj +n +n
ىسىرات ڭىدۋيا ىرۇس
num+adj+n
ياراس ىتشىرۇب سەب
n +adj +v
نەكە كىيب ىيوب
adv+adj+n
امراعىش ىلامادڭات ڭە
n +adv +adj
كىيب ڭە ىيوب
adj+adj+n
شاش اراق ۋيوق
adv +n +adj
ىسقاج ىياراۋا نىگۇب
adj+n+v
ىديەج ىروبٴ ىدنەگنىلوب
adv +adj +v
ىتتو ىسقاج رىۋادەن
adj +نەم+adj
زىسلىقا نەم ىدلىقا
adv
+adj
+pron
سەمە تەمەرەك اشنو
adj +نەب+ adj
ناعىس نەپ سەپوك
pron
+adj
+v
ناج
رلاو
-
ىلىتقاج
ىدرىتسلايو
adj +نەپ+ adj
نەپ
قىتسىلىتاراج
قىدماعوق
pron
+n
+adj
نىعىلراب
ىكڭىرەتوك ىحۋر ڭى
adj +ىراٴ+ adj
ىدلىقا ىراٴ ىتكىروك
pron
+adj
+adj
ىتتاناتلاس يادناعلايو ىعىلراب
adj +ەناج+ adj
لىساج نەم لىزىق
adj
+pron
+v
ىدە سەمە لىشمىزوٴ
n + adj + n
ىلەجەراد
ەكلو
ۋرىدنادزىسماق
adj +n +adj
قاشنىترات مادا قاشلايۇ
adj + v + v
ج زەت
؟املاوب ڭەسرۇ
n +adv +adj
اشامات يادناق ۋلاياج
pron + adj +
adv
رەدزەك ىتقىرىق لوس
n +adj +adj
ىسقاج تەمەرەك ىمادٴ
pron + adj +n
تا ىسقاج ۋانىم
58
З.А. СИРАЗИТДИНОВ, Б.З.СИРАЗИТДИНОВ
Институт истории, языка и литературы Уфимского научного центра РАН, Уфа,
Республика Башкортостан
КОРПУСНЫЕ ПРОЕКТЫ В БАШКИРСКОМ ЯЗЫКОЗНАНИИ
В докладе рассматривается общее состояние корпусной лингвистик в зарубежной и
отечественной лингвистике и вопросы разработки корпусов в Институте истории, языка и
литературы УНЦ РАН. Автором анализируется деятельность лаборатории лингвистики и
информационных технологий в рассматриваемой области. Описываются предлагаемые
методы создания корпусов прозаических и публицистических текстов башкирского языка,
ставится задача на перспективу.
Ключевые слова: корпусная лингвистика, башкирский язык, информационные системы,
прикладная лингстистика.
The article discusses the state of corpus linguistics in the domestic and foreign linguistics and
design issues of corpus at the Institute of History, Language and Literature, Ufa Science. The author
analyzes the work of the laboratory of linguistics and information technology in this area. We
describe the proposed methods of creating of corpus of the Bashkir language, analyzes the results
obtained, the task for the future.
Keywords: corpus linguistics, the Bashkir language, information systems, applied lingstistika
Статья подготовлена при поддержке гранта РФФИ 11-06-97001-р_поволжье_а “Разработка
корпуса прозаических текстов башкирского языка”.
Зародившееся в 60-х годах прошлого века направление в зарубежном языкознании,
связанное с компьютерной обработкой больших объемов текстов, сформировалось в новое
быстро растущее направление филологии - корпусная лингвистика – “со своими традициями,
признанными авторитетами, научными центрами, методами и проблематикой” [1]. Данному
направлению сегодня во всем мире уделяется значительное внимание. Объектом нового
филологического направления являются речевые материалы, реализованные в виде как
письменных текстов, так и устных (фонетических) массивов данных. Корпусная лингвистика
занимается созданием общих унифицированных принципов представления таких сверх-
больших массивов языковых данных (корпусов), непосредственным созданием самих
корпусов и выполнением конкретных экспериментальных лингвистических исследований на
базе этих данных [2;3]. Данное направление лингвистики является приоритетным и в
отечественной филологии. Так, если в “Плане фундаментальных исследований Российской
академии наук на период 2006-2010 гг.” был раздел 9.2.3., касающийся создания
электронного корпуса текстов русского языка, то в “Плане фундаментальных исследований
Российской академии наук на период 2011-2025 гг.” в разделе 9.(б) ставится научная задача
создания электронных корпусов текстов языков народов Российской Федерации [3].
Научный фонд РФФИ отдельно выделил корпусные исследования в своем классификаторе
(06.4.20, Корпусно-ориентированные исследования) [4].
На сегодня в мире насчитываются более тысячи корпусов, количество их растет
экспоненциально. Первый корпус был разработан в 60-х годах. Это Брауновский корпус
американского варианта современного английского языка, создававшийся в Брауновском
университете в 1962—1963 гг. Объем корпуса около 1 млн словоупотреблений. В начале
2000-х был создан корпус русского языка, на сегодня его объем составляет более 500 млн.
словоупотреблений.
59
Вся совокупность имеющихся корпусов весьма различна, поскольку, как было отмечено
выше, объектом самой корпусной лингвистики являются многообразие речевых и
письменных материалов языка. Так по английскому, немецкому, китайскому, японскому,
турецкому, эстонскому, русскому, польскому языкам реализованы речевые корпусы,
содержащие как мультимедийные данные, так и транскрипции речи [5-11]. На стадии
создания корпусы и по другим языкам [12-13].
Но наибольшее количество корпусов составлены по письменным текстам. От
поставленных целей и задач создания эти корпусы можно по разному классифицировать.
Если корпус создается по текстам одного языка, то такой корпус является одноязычным. По
объему привлеченных текстовых материалов среди них выделяются корпусы немецкого
(DeReKo, 5,4 млрд. слов) [14], английского (BNC, 100 млн. слов) [15], американского
варианта английского (450 млн. слов) [16], китайского (LIVAC Synchronous Corpus, 1 млр.
слов) [17], венгерского (100 млн. слов) [18], испанского (100 млн. слов) [19], итальянского
(100 млн. слов) [20], чешского (200 млн. слов) [21], русского (НКРЯ, 500 тыс. слов) [22]
языков. Если же создаются корпусы текстов переведенных на разные языки, то возникают
многоязычные или по другому параллельные корпусы. Примерами таких корпусов являются
польско-украинский, польско-русский, черногорско-английский, нидерландско-
французский, японско-английский и другие параллельные корпусы [23-27]. Такие корпусы
используются для сравнительно-соспоставительных исследований. Но в последнее время
параллельные корпусы нашли практическое применение в разработках систем
статистического перевода, зачинателем которого является компания Google. Одним из ярких
примеров такого использования является параллельный корпус слушаний Европарламента,
включающий тексты на 21 европейском языке [28].
В зависимости от стилистической принадлежности тестов выделяются художественные,
научные [29-30], публицистические [31-33], драматургические, поэтические корпусы [34].
Текстовые корпусы также различаются по принципу отбора материала: выделяются
полнотекстовые, когда в корпус попадают полные варианты печатных текстов, и
фрагментнотекстовые. В последнем случае в корпус отбираются выборки из текстов.
Объемы выборок и место расположения их в текстах каждый составитель определяет
произвольно. Так Брауновский корпус построен на базе выборок из 500 текстов, каждый из
которых включает 2 000 словоупотреблений. Бирмингемский корпус английского языка и
Основной корпус Национального корпуса русского языка являютcя представителями
полнотекстового корпуса [35: 66; 22].
Для решения различных лингвистических задач мало лишь наличия массива текстов.
Требуется также, чтобы сами тексты содержали в себе дополнительную лингвистическую
информацию в виде специальных разметок, позволяющую использовать их для разных
исследовательских и иных целей. В этой связи известный отечественный специалист в
области составления корпусов, руководитель проекта Национального корпуса русского
языка член-корр. РАН В.А.Плунгян даже подчеркивает, что “собственно, наука о корпусах
… — это прежде всего наука о том, как сделать хорошую разметку корпуса” [36: 6].
Составители корпусов по разному подходят к определению состава разметок, но
большинство сходится в том, что разметки должны быть двух типов: экстралингвистические
(метатекстовые) и лингвистические [37: 175-176]. К экстралингвистическим относится
информация, которая паспортизирует сами тексты в целом и дает сведения об авторе (фио,
год рождения автора, пол, образование и т.д.), информацию о тексте: (название, год
создания, год издания, жанр, тип текста, носитель текста: книга, журнал, электронное
издание) и другие. Лингвистические разметки включают морфологические, синтаксические и
семантические характеристики, относятся ко всем словоупотреблениям текста, поэтому
некоторые авторы называют их лексическими разметками.
Для работы с размеченными текстами необходимо соответствующее программное
сопровождение, позволяющее производить разнообразный поиск по корпусу, получать
60
статистические данные. Размеченные тексты вместе с программным сопровождением
образуют корпус в его полном понимании.
В создании корпуса трудоемким и сложным являются следующие этапы:
1) Подготовка электронных текстов. На данном этапе существующие печатные варианты
книг сканируются, редактируются и вводятся на электронные носители. Современные
зарубежные корпусы создаются при поддержке крупных издательств, которые на
безвозмездной основе передают предпечатные варианты текстов разработчикам корпусов.
2) Проведение разметки текстов. Степень трудоемкости данного этапа определяется
уровнем развития таких разделов конкретного языка как компьютерная и математическая
лингвистика. Если в языке проведены соответстувующие исследования и составлена
компьютерная модель, то возможны разработки средств автоматизации процесса.
Первостепенной задачей в этом процессе является разработка автоматического
морфологического анализатора языка. Далее следуют программы автоматического снятия
омоними, синтаксического и семантического анализа. Но даже в этом случае остается
значительная доля ручной работы, поскольку не все языковые явления однозначно могут
быть идентифицированы программными средствами.
Сейчас все крупные языки обзавелись своими национальными корпусами. К созданию
корпусов приступили все остальные языки мира. Ведутся корпусные разработки и по языкам
народов России: бурятского [38-39], калмыцкого [40-41], лезгинского [42] осетинского [43] и
др. Отдельно отметим научные разработки и корпусные проекты по языкам тюркской
группы, родственным башкирскому языку: казахский [44], татарский [45-46], тувинский [47-
48], турецкий[491], шорский [50], хакасский [51].
Лингвистику 21 века называют корпусной лингвистикой. При этом данное направление
лингвистики активно влияет на все остальные направления языкознания, изменяет
теоретические приоритеты и создает новые идеологии в понимании того, что же
представляет собой язык [52; 7-8].
Иследователями также отмечается, что корпусы открывают перспективу для новых
исследований не только в области лингвистики, но и в смежных областях: в
литературоведении (для стилеметрических исследований, определения нормативности
употребления языковых реалий), в общественных науках (изучение социальных объектов
через язык, используя такие параметры текстов, как период, автор или жанр, семантический
контент текстов), в информационно-технических разработках (создание автоматизированных
систем машинного перевода, распознавание речи, информационный поиск).
Сегодня в Институте истории, языка и литературы УНЦ РАН активно осваиваются новые
направления лингвистики прикладного характера, основывающиеся на накоплении
лингвистических баз данных и компьютерной обработке. Есть первые результаты по
экспериментальной фонетике, выполненные Ишкильдиной Л.К. [53]. Каримовой Р.Н.
накапливается диалектная текстологическая и речевая база [54, 55], разработан машинный
фонд башкирского языка [56]. Сиразитдиновым З.А. и Миграновой Л.Г. составляется база
терминологических данных [57], полным ходом идет работа и по корпусной лингвистике.
Работа по корпусу башкирского языка осуществляется сотрудниками лаборатории
лингвистики и информационных технологий ИИЯЛ УНЦ РАН (Сиразитдинов З.А.,
Бускунбаева Л.А., Ишмухаметова А.Ш., Ибрагимова А.Д., Мигранова Л.Г., Полянин А.И.) в
двух направлениях: а) корпус прозаических текстов; б) корпус публицистических текстов.
Первое направление разрабатывается по гранту РФФИ “Разработка корпуса прозаических
текстов башкирского языка”, № 11-06-97001-р_поволжье_а. Начало работы 2011 г., конец —
2013 г.
Второе направление осуществляется в рамках программы Президиума РАН “Корпусная
лингвистика. Создание и развитие корпусных ресурсов по языкам народов России”. Сроки
реализации 2012—2014 гг. [58].
На
сегодня
по
корпусу
прозаических
текстов
разработаны
системы
экстралингвистических и лингвистических помет для разметки, создана программа
61
автоматического морфологического анализа, подготовлены и автоматически размечены
тексты 773 произведений более 70 авторов общим объемом порядка 10 миллионов
(10829086) словоформ, запущен проект поисковой системы в сети [59]. Сейчас идет отладка
и оптимизация работы корпуса, ведется работа по оцифровке новых текстов. К концу года
намечается доведение объема корпуса до 20 миллионов словоформ и запуск самого корпуса
в сети Интернет на сервере Института со своим доменным именем. Проект корпуса
прозаических текстов полностью разработан на базе СУБД Оракл на платформе Unicode
[http://mfbl.ru/bashkorp/korpusp]. Для работы с корпусом пользователь может установить
башкирскую раскладку клавиатуры средствами системы (ОС Vista, Seven), установить
программу Хамелеон 8.0 (для ОС 98, ME, 2000, XP) или воспользоваться виртуальной
клавиатурой самого корпуса.
По второму направлению подготовлены тексты республиканских газет и журналов общим
объемом в 5 миллионов словоформ. Идет работа по автоматической морфологической
разметке. Корпус будет выставлен к концу года.
Система экстралингвистических разметок публицистического корпуса включает название
прессы, год, месяц и день выхода, название статьи, автора. Все тексты размечены по
тематике и жанру. Для рассматриваемого корпуса выделены следующие тематики и жанры:
Достарыңызбен бөлісу: |