Table 1. The distribution of the speakers.
Age group
Region
F1
M1
F2
M2
F3
M3
F4
M4
Sum
1
3
3
2
1
2
1
2
1
15
2
2
3
2
1
2
1
11
3
1
1
2
3
2
1
1
11
4
3
2
1
1
7
5
2
2
2
1
2
2
2
1
14
6
2
2
2
2
2
1
2
13
7
2
2
1
2
2
2
1
12
8
2
1
1
2
1
1
2
1
11
9
3
2
2
1
3
1
1
1
14
10
1
1
2
2
1
1
2
1
11
11
2
1
2
1
1
2
9
12
2
2
2
2
1
2
1
12
13
2
2
2
1
1
1
1
1
11
14
2
1
1
1
1
2
1
2
11
15
1
3
1
2
7
Total
30
28
23
20
22
12
21
13
169
I
II
III
IV
34%
25%
20%
20%
Recording setup
The actual recording sessions took place in a sound-proof studio of the university with the
assistance of a sound operator. Before the recordings, the speakers were instructed, documented and
given some time to prepare as well as asked to fill in the copyright transfer form for the audio data
with their voice. They were not constrained on the manner, speed or time except for the correctness
of reading. The average time for a recording session per speaker was about 40-45 minutes, though
there were cases that last up to 2 hours.
Audio data were captured using the professional vocal microphone Neumann TLM 49 and
digitized by LEXICON I-ONIX U82S sound card. The format of the recorded audio files is 44.1
kHz 16-bit PCM-encoded mono WAVE file format. All the recorded audio files were manually
post-processed to have each utterance (sentences and stories) in a separate file and in the
corresponding directories. The size of the speech corpus is about 8.5 GB on disk. The total duration
of the audio files is about 28 hours with 23 hours of “sentences” and 5 hours of “stories” parts,
respectively.
Transcripts and annotation
Each audio file is provided with its corresponding orthographic transcription and TIMIT-
style word-level segmentation as well as morpho-syntactic annotation files. All the data processing
to obtain these files were performed manually by the trained linguists.
The transcriptions files contain the exact orthographic transcription of the utterances, which may
differ from the original text. For example, the numbers, abbreviation, foreign words and dates are
expanded depending on how they were uttered by the speakers. In addition, the transcription of the
stories have the sentence boundaries labeled with and .
The segmentation was performed using WaveSurfer [8], an open-source tool for sound
visualization and manipulation, which supports TIMIT word-level transcription format. Although it
supports Unicode, it does not support Kazakh symbols well. Therefore, we used an ASCII version
of the Kazakh letters. Also, we used # symbol for the pauses and silence, and ^ symbol for other
non-speech events.
The morpho-syntactic annotation is includes part-of-speech and morpheme segmentation of each
word as well as the information on syntax for each sentence.
Experiments
Acoustic Modeling
An acoustic model was trained using CMU Sphinxtrain-1.0.8 [9]. The front-end module was set
to output default parameters such as 13 mel-frequency cepstral coefficients with their first and
second derivatives. Additionally, speaker adaptation techniques such as cepstral mean
normalization [10], LDA [11] and MLLT [12] are performed on feature vectors. We used a context-
dependent tied-state continuous Hidden Markov Model with 8 Gaussian mixtures per state [13].
The dictionary is compiled from the transcriptions and contains about 30000 words with their
spellings as a phonetic transcription. It should be noted that there is still no consensus regarding the
234
Kazakh phonetic alphabet among the linguists [14]. Therefore, since the orthographic transcription
of Kazakh roughly corresponds to a broad phonetic transcription, for the phoneme set a reduced
form of the Kazakh alphabet is used, i.e. it includes those letters used in writing of Kazakh words.
Also, for some letters there are variations in pronunciation depending on letter’s position or context
in a word. Thus, letters, Е, О and Ө are pronounced as diphthongs in the beginning of a word.
Letters Ю, Я are generally diphthongs except when used in the contexts CV and CVC, in such cases
they obey vowel harmony and pronounced as their soft counterparts. Additionally, there is a SIL
phone for silence.
Language Modeling
As for the language model, here we used our text materials to create a standard tri-grams based
model with Good-Turing smoothing [15] compiled into ARPA format by CMU-Cambridge
Language Model Toolkit 0.7 [16]. The format of language model file is as follows:
\data\
ngram 1=nr # number of 1-grams
ngram 2=nr # number of 2-grams
ngram 3=nr # number of 3-grams
\1-grams:
p_1 wd_1 bo_wt_1
\2-grams:
p_2 wd_1 wd_2 bo_wt_2
\3-grams:
p_3 wd_1 wd_2 wd_3
\end\
where ngram k – is the number of the corresponding n-grams, p_k - the logarithm (base 10) of
conditional probability p of an n-gram, wd_k – a word in n-gram, and bo_wt_k - the logarithm
(base 10) of the backoff weight for the n-gram.
For our experiments we have totally over 12500 sentences, which produce 29586 unigrams,
100354 bi-grams and 120755 tri-grams.
Recognition Results
All the audio data was separated into training and test sets. The test set is balanced based on
gender and includes one representative from each region. The quantitative information about both
sets is given in Table 2. The overall performance of recognition on test data is 6.9% WER.
Table 2. Distribution of data in training and test sets.
Train set
Test set
# of speakers
153
16
# of audio files
11367
1176
Conclusions and Future Work
In the current work we have conducted the experiments on large vocabulary continuous speech
recognition task for Kazakh. First we build the first acoustic database of Kazakh speech, which is
balanced with respect to gender, region and age group. Next, we build the acoustic and language
models using CMU Sphinx toolkits. Finally, we evaluate our system on test data obtaining a word
error rate of 6.9%.
While we build a state-of-the-art speech recognition system, it is assumed to be a baseline for our
future work on speech recognition research. Thus, our next step will be to improve WER by
exploiting class-based language models with morphological cues. This kind of approach seems
more effective for inflectional languages such as Kazakh, Turkish and Russian.
Acknowledgements
The work is supported by the Ministry of Education and Science of the Republic of Kazakhstan.
235
References
1.
John Garofalo, et al., “CSR-I (WSJ0) Complete,” Linguistic Data Consortium, Philadelphia,
2007.
2.
Godfrey J. J., “Holliman E. Switchboard-1 Release 2,” Linguistic Data Consortium,
Philadelphia, 1997.
3.
Canavan A., Zipperlen G., “CALLHOME Japanese Speech,” Linguistic Data Consortium,
Philadelphia, 1996.
4.
John S. Garofolo, et al., “TIMIT – Acoustic-Phonetic Continuous Speech Corpus,”
Linguistic Data Consortium, Philadelphia, 1993.
5.
Leonard R. G., Doddington G., “TIDIGITS.” Linguistic Data Consortium, Philadelphia,
1993.
6.
Pitrelli, J.; Fong, C.; Wong, S.H.; Spitz, J.R.; Leung, H.C., "PhoneBook: a phonetically-rich
isolated-word telephone-speech database," Int. Conf. on Acoustics, Speech, and Signal Processing,
1995, vol.1, pp.101-104.
7.
Z. Yessenbayev, O. Makhambetov, and M. Karabalayeva, “Kazakh Text Corpus:
Description, Tools and Statistics,” Int. scientific-theoretical conference “Modern Kazakh
Linguistics: Actual Problems of Applied Linguistics”, 2012, pp. 61-65.
8.
Wavesurfer. URL: http://www.speech.kth.se/wavesurfer/
9.
CMU Sphinxtrain. Online: http://sourceforge.net/projects/cmusphinx/files/sphinxtrain/1.0.
10.
Liu, F.-h., Stern, R.M., Huang, X., Acero, R., “Efficient Cepstral Normalization for Robust
Speech Recognition,” In Proceedings of the workshop on Human Language Technology, 1993, pp.
69–74.
11.
Haeb-Umbach, R., Ney, H., “Linear discriminant analysis for improved large vocabulary
continuous speech recognition,” IEEE Int. Conf. on Acoustics, Speech, and Signal Process, 1992,
vol. 1, pp. 13–16.
12.
Gopinath, R.A., "Maximum likelihood modeling with Gaussian distributions for
classification," IEEE Int. Conf. on Acoustics, Speech and Signal Processing, 1998, vol.2, pp. 661-
664.
13.
S. J. Young, J. J. Odell, and P. C. Woodland, “Tree-based state tying for high accuracy
acoustic modeling,” In Proceedings of the workshop on Human Language Technology (HLT '94).
Association for Computational Linguistics, Stroudsburg, PA, USA, 1994, pp. 307-312.
14.
Torekhanov S. Sharipbayev A. On the current state of the Kazakh phonetics, L.N. Gumilyov
Eurasian National University Bulletin, Astana, 2001, Vol. 3-4, pp. 6-9.
15.
Good, I.J., "The population frequencies of species and the estimation of population
parameters", Biometrika, 1953, 40 (3–4): 237–264.
16.
Cmuclmtk. Online: http://sourceforge.net/projects/cmusphinx/files/cmuclmtk/0.7/
А.К.БУРИБАЕВА
Евразийский национальный университет им. Л.Н. Гумилева, НИИ «Искусственный
интеллект», Астана, Казахстан
РАСПОЗНАВАНИЕ КАЗАХСКИХ СЛОВ НА ОСНОВЕ ДИФОННОЙ БАЗЫ
Абстракт: В работе предложен метод распознавания слов на основе дифонной базы и
принципы создания дифонной базы казахского языка. Система распознает не отдельные
дифоны, а целые слова по эталонам, синтезированным из дифонов. Автоматическое
236
генерирование эталонов слов из дифонов позволит сделать шаг в сторону сверхбольших
словарей.
Ключевые слова: распознавание слов, дифонная база, алгоритм DTW
Введение
Автоматическое распознавание устной речи естественного языка является одним из
актуальных направлений развития искусственного интеллекта. Результаты в этом
направлении позволят решить проблему создания средств эффективного речевого
взаимодействия человека с компьютером. Речевой ввод обладает рядом преимуществ, таких,
как естественность, оперативность, смысловая точность ввода, освобождение рук и зрения
пользователя, возможность управления и обработки в экстремальных условиях.
Исследованием проблемы распознавания речи уже более 50 лет занимаются специалисты
нескольких научных областей. Методы и алгоритмы, которые используются, могут быть
разделены на четыре больших класса:
Методы дискриминантного анализа, основанные на Байесовской дискриминации [1];
Скрытые модели Маркова [2];
Искусственные нейронные сети [3];
Динамическое программирование – временные динамические алгоритмы (DTW) [4];
Следует отметить ряд преимуществ, к которым стремятся при разработке систем
распознавания речи:
1.
Непрерывная речь — возможность, позволяющая пользователям говорить естественно
(непрерывно), не делая паузы между словами (дискретный ввод речи).
2.
Большие словари — способность обрабатывать большое количество слов как общей,
так и специальной категории из технических и предметных областей знаний с целью
увеличения мощности и эффективности систем распознавания голоса.
3.
Независимость от диктора — способность системы распознавать слова без
персональной настройки компьютера путем повторения одного и того же речевого сигнала.
Наиболее часто и успешно при распознавании слитной речи используется скрытая
марковская модель (НММ) [5, 6] либо ИНС [6, 7]. Для распознования выбираются различные
базовые единицы: фонемы, аллофоны, дифоны и трифоны и т.д. Для распознавания
отдельных слов все же эффективны временные динамические алгоритмы (DTW) [8].
В связи с тем, что распознавание целых слов надежнее, мы выбрали технологию
распознавания слов на основе наговоренной дифонной базы [9]. Суть в том, что система не
распознает дифоны по отдельности, а сначала синтезирует из них эталоны слов, и затем
распознает целые слова по алгоритму DTW.
Преимущество системы в том, что для добавления нового слова нет необходимости
обучать систему наговаривая слово, а достаточно ввести слово в текстовом виде.
Автоматическое генерирование эталонов слов из дифонов позволит сделать шаг в сторону
сверхбольших словарей, а дикторонезависимости системы можно добиться усреднением
эталонов.
1. Создание дифонной базы казахского языка
Дифон — звуковая единица, имеющая протяженность от середины одного звука до
середины последующего. Дифонная модель основана на предположении, что существуют
стационарные участки звуков, и они не зависят от влияния соседних звуков (коартикуляции):
в середине этого стационарного участка и проводится граница.
Акустическая база системы распознавания речи включает три типа дифонов – начальный,
серединный и конечный.
Начальные и конечные дифоны, как правило, представляют половинки первой и
последней фонем слова с включением переходных участков от пробела к фонеме, а также от
фонемы к пробелу соответственно. Они определеяются согласно позиционным правилам
казахских звуков:
237
-
звуки а, ә, е, ө, ұ, ү, ы, і встречаются во всех позициях;
-
гласный звук о встречается только в началном слоге;
-
звуки л, р, й, ң, у (w) не встречаются в начале слова;
-
согласные б, д, ғ, г не встречаются в конце слова.
Однако звуки «о», «ө» и «е» являются дифтонгами, и согласно казахской орфоэпии перед
звуками «о», «ө» идущими в начале слова, есть маленькая согласная вставка «у», а перед
звуком «е» - согласная вставка «й». Исходя из этого, звуки «о», «ө» и «е» были удалены из
списка начальных полудифонов и вместо них введены полудифоны «у» и «й».
Учитывая все вышеуказанные правила, был составлен список начальных и конечных
дифонов (Таблица 1):
Таблица 1. Начальные и конечные дифоны казахского языка
Начальные
Конечные
а0
м0
а2
ө2
ә0
н0
ә2
п2
б0
п0
е2
р2
г0
с0
ж2
с2
ғ0
т0
з2
т2
д0
у0
й2
у2
ж0
ұ0
к2
ұ2
з0
ү0
қ2
ү2
й0
ш0
л2
ш2
к0
ы0
м2
ы2
қ0
і0
н2
і2
ң2
Для составления матриц серединных дифонов сначала был автоматически сгенерирован
список всевозможных сочетаний звуков казахского языка. Затем были удалены из списка
сочетания, противоречащие следующим казахским позиционным правилам:
-
звуки а, ә, о, ө, ұ, ү сочетаются со всеми согласными;
-
звуки е, ы, і не сочетаются с согласным у (w).
-
в казахском языке не встречаются подряд идущих 2 гласных;
-
глухие и звонкие согласные не сочетаются;
-
согласный у не встречается после согласных звуков;
Некоторые сочетания были удалены в связи с тем, что они по статистике не встречаются
вообще [10].
В итоге мы получили около 500 звукосочетаний казахского языка.
Но для качественного распознавания их не достаточно, так как казахский язык является
сингармоническим языком.
Рассмотрим дифоны из тех звукосочетаний, в которых один из звуков гласный (таблицы 3,
4). Их количество остается без изменений, так как гласные определяют
огубленность/неогубленность и мягкость/твердость согласного.
Таблица 2. Дифоны с гласно-согласным звукосочетанием
б
г
ғ
д
ж
з
й
к
қ л
м
н
ң
п
р
с
т
у
ш
а аб
ағ ад аж аз ай
ақ ал ам ан аң ап ар ас ат ау аш
ә әб' әг'
әд'
әж
'
әз' әй' әк'
әл' әм' ән' әң' әп' әр' әс' әт' әу'
әш
'
е еб' ег'
ед'
еж
'
ез' ей' ек'
ел' ем' ен' ең' еп' ер' ес' ет' еу'
еш
'
о
об
o
оғ
o
од
o
ож
o
оз
o
ой
o
оқ
o
ол
o
ом
o
он
o
оң
o
оп
o
ор
o
ос
o
от
o
оу
o
ош
o
238
ө
өб
'
o
өг'
o
өд
'
o
өж
'
o
өз'
o
өй
'
o
өк
'
o
өл
'
o
өм
'
o
өн
'
o
өң
'
o
өп
'
o
өр
'
o
өс
'
o
өт
'
o
өу
'
o
өш
'
o
ұ
ұб
o
ұғ
o
ұд
o
ұж
o
ұз
o
ұй
o
ұқ
o
ұл
o
ұм
o
ұн
o
ұң
o
ұп
o
ұр
o
ұс
o
ұт
o
ұу
o
ұш
o
ү
үб
'
o
үг'
o
үд
'
o
үж
'
o
үз'
o
үй
'
o
үк
'
o
үл
'
o
үм
'
o
үн
'
o
үң
'
o
үп
'
o
үр
'
o
үс
'
o
үт
'
o
үу
'
o
үш
'
o
ы
ы
б
ы
ғ
ы
д
ы
ж
ыз
ы
й
ы
қ
ы
л
ы
м
ы
н
ы
ң
ы
п
ы
р
ыс ыт
ы
ш
і
і
б'
і
г'
і
д'
і
ж'
і
з'
і
й'
і
к'
і
л'
і
м'
і
н'
і
ң'
і
п'
і
р'
і
с'
і
т'
і
ш'
Таблица 3. Дифоны с согласно-гласным звукосочетанием
а
ә
е
о
ө
ұ
ү
ы
і
б
ба
б'ә
б'е
б
o
о б'
o
ө
б
o
ұ б'
o
ү
бы
б'і
г
г'ә
г'е
г'
o
ө
г'
o
ү
г'і
ғ
ға
ғ
o
о
ғ
o
ұ
ғы
д
да
д'ә
д'е
д
o
о д'
o
ө
д
o
ұ д'
o
ү
ды
д'і
ж
жа
ж'ә
ж'е
ж
o
о
ж'
o
ө
ж
o
ұ
ж'
o
ү
жы
ж'і
з
за
з'ә
з'е
з
o
о з'
o
ө
з
o
ұ з'
o
ү
зы
з'і
й
йа
й'ә
й'е
й'
o
ө
й
o
ұ
й'
o
ү
йы
й'і
к
к'ә
к'е
к'
o
ө
к'
o
ү
к'і
қ
қа
қ
o
о
қ
o
ұ
қы
л
ла
л'ә
л'е
л'
o
ө
л
o
ұ л'
o
ү
лы
л'і
Достарыңызбен бөлісу: |