Атты І халықаралық конференция ЕҢбектері


Table 1. The distribution of the speakers



Pdf көрінісі
бет27/39
Дата25.12.2016
өлшемі8,57 Mb.
#403
1   ...   23   24   25   26   27   28   29   30   ...   39

 
Table 1. The distribution of the speakers. 
Age group
Region
F1
M1
F2
M2
F3
M3
F4
M4
Sum
1
3
3
2
1
2
1
2
1
15
2
2
3
2
1
2
1
11
3
1
1
2
3
2
1
1
11
4
3
2
1
1
7
5
2
2
2
1
2
2
2
1
14
6
2
2
2
2
2
1
2
13
7
2
2
1
2
2
2
1
12
8
2
1
1
2
1
1
2
1
11
9
3
2
2
1
3
1
1
1
14
10
1
1
2
2
1
1
2
1
11
11
2
1
2
1
1
2
9
12
2
2
2
2
1
2
1
12
13
2
2
2
1
1
1
1
1
11
14
2
1
1
1
1
2
1
2
11
15
1
3
1
2
7
Total
30
28
23
20
22
12
21
13
169
I
II
III
IV
34%
25%
20%
20%
 
 Recording setup 
The  actual  recording  sessions  took  place  in  a  sound-proof  studio  of  the  university  with  the 
assistance of a sound operator. Before the recordings, the speakers were instructed, documented and 
given some time to prepare as well as asked to fill in the copyright transfer form for the audio data 
with their voice. They were not constrained on the manner, speed or time except for the correctness 
of reading. The average time for a recording session per speaker was about 40-45 minutes, though 
there were cases that last up to 2 hours.   
Audio  data  were  captured  using  the  professional  vocal  microphone  Neumann  TLM  49  and 
digitized  by  LEXICON  I-ONIX  U82S  sound  card.  The  format  of  the  recorded  audio  files  is  44.1 
kHz  16-bit  PCM-encoded  mono  WAVE  file  format.  All  the  recorded  audio  files  were  manually 
post-processed  to  have  each  utterance  (sentences  and  stories)  in  a  separate  file  and  in  the 
corresponding directories. The size of the speech corpus is about 8.5 GB on disk. The total duration 
of  the  audio  files  is  about  28  hours  with  23  hours  of  “sentences”  and  5  hours  of  “stories”  parts, 
respectively. 
 Transcripts and annotation 

 
Each audio file is provided with its corresponding orthographic transcription and TIMIT-
style word-level segmentation as well as morpho-syntactic annotation files. All the data processing 
to obtain these files were performed manually by the trained linguists. 
The transcriptions files contain the exact orthographic transcription of the utterances, which may 
differ from the original text. For example, the numbers, abbreviation, foreign words and dates are 
expanded depending on how they were uttered by the speakers. In addition, the transcription of the 
stories have the sentence boundaries labeled with  and .  
The  segmentation  was  performed  using  WaveSurfer  [8],  an  open-source  tool  for  sound 
visualization and manipulation, which supports TIMIT word-level transcription format. Although it 
supports Unicode, it does not support Kazakh symbols well. Therefore, we used an ASCII version 
of the Kazakh letters.  Also,  we used # symbol for the pauses and silence, and ^  symbol for other 
non-speech events. 
The morpho-syntactic annotation is includes part-of-speech and morpheme segmentation of each 
word as well as the information on syntax for each sentence.  
Experiments  
 Acoustic Modeling 
An acoustic model was trained using CMU Sphinxtrain-1.0.8 [9]. The front-end module was set 
to output default parameters such as 13 mel-frequency cepstral coefficients with their first and 
second derivatives. Additionally, speaker adaptation techniques such as cepstral mean 
normalization [10], LDA [11] and MLLT [12] are performed on feature vectors. We used a context-
dependent tied-state continuous Hidden Markov Model with 8 Gaussian mixtures per state [13].  
The  dictionary  is  compiled  from  the  transcriptions  and  contains  about  30000  words  with  their 
spellings as a phonetic transcription. It should be noted that there is still no consensus regarding the 

234 
 
Kazakh phonetic alphabet among the linguists [14]. Therefore, since the orthographic transcription 
of  Kazakh  roughly  corresponds  to  a  broad  phonetic  transcription,  for  the  phoneme  set  a  reduced 
form of the Kazakh alphabet is used, i.e. it includes those letters used in writing of Kazakh words.  
Also, for some letters there are variations in pronunciation depending on letter’s position or context 
in  a  word.  Thus,  letters,  Е,  О  and  Ө  are  pronounced  as  diphthongs  in  the  beginning  of  a  word. 
Letters Ю, Я are generally diphthongs except when used in the contexts CV and CVC, in such cases 
they  obey  vowel  harmony  and  pronounced  as  their  soft  counterparts.  Additionally,  there  is  a  SIL 
phone for silence. 
 Language Modeling 
As for the language model, here we used our text materials to create a standard tri-grams based 
model  with  Good-Turing  smoothing  [15]  compiled  into  ARPA  format  by  CMU-Cambridge 
Language Model Toolkit 0.7 [16]. The format of language model file is as follows: 
\data\ 
ngram 1=nr            # number of 1-grams 
ngram 2=nr            # number of 2-grams 
ngram 3=nr            # number of 3-grams 
 
\1-grams: 
p_1     wd_1 bo_wt_1 
\2-grams: 
p_2     wd_1 wd_2 bo_wt_2 
\3-grams: 
p_3     wd_1 wd_2 wd_3 
\end\ 
where ngram k – is the number of the corresponding n-grams, p_k - the logarithm (base 10) of 
conditional  probability of  an  n-gram,  wd_k  –  a  word  in  n-gram,  and  bo_wt_k  -   the  logarithm 
(base 10) of the backoff weight for the n-gram.  
For  our  experiments  we  have  totally  over  12500  sentences,  which  produce  29586  unigrams, 
100354 bi-grams and 120755 tri-grams.  
 Recognition Results  
All  the  audio  data  was  separated  into  training  and  test  sets.  The  test  set  is  balanced  based  on 
gender and includes  one representative from each region.  The quantitative information  about  both 
sets is given in Table 2. The overall performance of recognition on test data is 6.9% WER.  
 
Table 2. Distribution of data in training and test sets. 
 
Train set 
Test set 
# of speakers 
153 
16 
# of audio files  
11367 
1176 
Conclusions and Future Work 
In the current work we have conducted the experiments on large vocabulary continuous speech 
recognition task for Kazakh. First we build the first acoustic database of Kazakh speech, which is 
balanced  with  respect  to  gender,  region  and  age  group.  Next,  we  build  the  acoustic  and  language 
models using CMU Sphinx toolkits. Finally, we evaluate our system on test data obtaining a word 
error rate of 6.9%. 
While we build a state-of-the-art speech recognition system, it is assumed to be a baseline for our 
future  work  on  speech  recognition  research.  Thus,  our  next  step  will  be  to  improve  WER  by 
exploiting  class-based  language  models  with  morphological  cues.  This  kind  of  approach  seems 
more effective for inflectional languages such as Kazakh, Turkish and Russian. 
Acknowledgements 
The work is supported by the Ministry of Education and Science of the Republic of Kazakhstan. 

235 
 
 
References 
1.
 
John Garofalo, et al., “CSR-I (WSJ0) Complete,” Linguistic Data Consortium, Philadelphia, 
2007. 
2.
 
Godfrey  J.  J.,  “Holliman  E.  Switchboard-1  Release  2,”  Linguistic  Data  Consortium, 
Philadelphia, 1997. 
3.
 
Canavan  A.,  Zipperlen  G.,  “CALLHOME  Japanese  Speech,”  Linguistic  Data  Consortium, 
Philadelphia, 1996. 
4.
 
John  S.  Garofolo,  et  al.,  “TIMIT  –  Acoustic-Phonetic  Continuous  Speech  Corpus,” 
Linguistic Data Consortium, Philadelphia, 1993. 
5.
 
Leonard  R.  G.,  Doddington  G.,  “TIDIGITS.”  Linguistic  Data  Consortium,  Philadelphia, 
1993. 
6.
 
Pitrelli, J.; Fong, C.; Wong, S.H.; Spitz, J.R.; Leung, H.C., "PhoneBook: a phonetically-rich 
isolated-word telephone-speech database," Int. Conf. on Acoustics, Speech, and Signal Processing, 
1995, vol.1, pp.101-104. 
7.
 
Z.  Yessenbayev,  O.  Makhambetov,  and  M.  Karabalayeva,  “Kazakh  Text  Corpus: 
Description,  Tools  and  Statistics,”  Int.  scientific-theoretical  conference  “Modern  Kazakh 
Linguistics: Actual Problems of Applied Linguistics”, 2012, pp. 61-65. 
8.
 
Wavesurfer. URL: http://www.speech.kth.se/wavesurfer/ 
9.
 
CMU Sphinxtrain. Online: http://sourceforge.net/projects/cmusphinx/files/sphinxtrain/1.0. 
10.
 
Liu, F.-h., Stern, R.M., Huang, X., Acero, R., “Efficient Cepstral Normalization for Robust 
Speech Recognition,” In Proceedings of the workshop on Human Language Technology, 1993, pp. 
69–74. 
11.
 
Haeb-Umbach,  R.,  Ney,  H.,  “Linear  discriminant  analysis  for  improved  large  vocabulary 
continuous speech recognition,” IEEE Int. Conf. on Acoustics, Speech, and Signal Process, 1992, 
vol. 1, pp. 13–16. 
12.
 
Gopinath,  R.A.,  "Maximum  likelihood  modeling  with  Gaussian  distributions  for 
classification," IEEE Int. Conf. on Acoustics, Speech and Signal Processing, 1998, vol.2, pp. 661-
664. 
13.
 
S.  J.  Young,  J.  J.  Odell,  and  P.  C.  Woodland,  “Tree-based  state  tying  for  high  accuracy 
acoustic modeling,” In Proceedings of the workshop on Human Language Technology (HLT '94). 
Association for Computational Linguistics, Stroudsburg, PA, USA, 1994, pp. 307-312. 
14.
 
Torekhanov S. Sharipbayev A. On the current state of the Kazakh phonetics, L.N. Gumilyov 
Eurasian National University Bulletin, Astana, 2001, Vol. 3-4, pp. 6-9. 
15.
 
Good,  I.J.,  "The  population  frequencies  of  species  and  the  estimation  of  population 
parameters", Biometrika, 1953, 40 (3–4): 237–264. 
16.
 
Cmuclmtk. Online: http://sourceforge.net/projects/cmusphinx/files/cmuclmtk/0.7/ 
 
 
А.К.БУРИБАЕВА 
 
 
Евразийский национальный университет им. Л.Н. Гумилева, НИИ «Искусственный 
интеллект», Астана, Казахстан 
 
 
РАСПОЗНАВАНИЕ КАЗАХСКИХ СЛОВ НА ОСНОВЕ ДИФОННОЙ БАЗЫ 
 
Абстракт:  В  работе  предложен  метод  распознавания  слов  на  основе  дифонной  базы  и 
принципы  создания  дифонной  базы  казахского  языка.  Система  распознает  не  отдельные 
дифоны,  а  целые  слова  по  эталонам,  синтезированным  из  дифонов.  Автоматическое 

236 
 
генерирование  эталонов  слов  из  дифонов  позволит  сделать  шаг  в  сторону  сверхбольших 
словарей. 
Ключевые слова: распознавание слов, дифонная база, алгоритм DTW 
 
Введение 
Автоматическое  распознавание  устной  речи  естественного  языка  является  одним  из 
актуальных  направлений  развития  искусственного  интеллекта.  Результаты  в  этом 
направлении  позволят  решить  проблему  создания  средств  эффективного  речевого 
взаимодействия человека с компьютером. Речевой ввод обладает рядом преимуществ, таких, 
как  естественность,  оперативность,  смысловая  точность  ввода,  освобождение  рук  и  зрения 
пользователя, возможность управления и обработки в экстремальных условиях
Исследованием проблемы распознавания речи уже более 50 лет занимаются специалисты 
нескольких  научных  областей.  Методы  и  алгоритмы,  которые  используются,  могут  быть 
разделены на четыре больших класса: 

 
Методы дискриминантного анализа, основанные на Байесовской дискриминации [1]; 

 
Скрытые модели Маркова [2]; 

 
Искусственные нейронные сети  [3]; 

 
Динамическое программирование – временные динамические алгоритмы (DTW) [4]; 
Следует  отметить  ряд  преимуществ,  к  которым  стремятся  при  разработке  систем 
распознавания речи: 
1.
 
Непрерывная речь — возможность, позволяющая пользователям говорить естественно 
(непрерывно), не делая паузы между словами (дискретный ввод речи). 
2.
 
Большие словари — способность обрабатывать большое количество слов как общей, 
так  и  специальной  категории  из  технических  и  предметных  областей  знаний  с  целью 
увеличения мощности и эффективности систем распознавания голоса.  
3.
 
Независимость  от  диктора  —  способность  системы  распознавать  слова  без 
персональной настройки компьютера путем повторения одного и того же речевого сигнала. 
Наиболее  часто  и  успешно  при  распознавании  слитной  речи  используется  скрытая 
марковская модель (НММ) [5, 6] либо ИНС [6, 7]. Для распознования выбираются различные  
базовые  единицы:  фонемы,  аллофоны,  дифоны  и  трифоны  и  т.д.  Для  распознавания 
отдельных слов все же эффективны временные динамические алгоритмы (DTW) [8].  
В  связи  с  тем,  что  распознавание  целых  слов  надежнее,  мы  выбрали  технологию 
распознавания  слов на основе наговоренной дифонной базы [9]. Суть в том, что система не 
распознает  дифоны    по  отдельности,  а  сначала  синтезирует  из  них  эталоны  слов,  и  затем 
распознает целые слова по алгоритму DTW.  
  Преимущество  системы  в  том,  что  для  добавления  нового  слова  нет  необходимости 
обучать  систему  наговаривая  слово,  а  достаточно  ввести  слово  в  текстовом  виде.  
Автоматическое  генерирование  эталонов  слов  из  дифонов  позволит  сделать  шаг  в  сторону 
сверхбольших  словарей,  а  дикторонезависимости  системы  можно  добиться  усреднением 
эталонов. 
 
1. Создание дифонной базы казахского языка 
Дифон  —  звуковая  единица,  имеющая  протяженность  от  середины  одного  звука  до 
середины  последующего.  Дифонная  модель  основана  на  предположении,  что  существуют 
стационарные участки звуков, и они не зависят от влияния соседних звуков (коартикуляции): 
в середине этого стационарного участка и проводится граница. 
Акустическая база системы распознавания речи включает три типа дифонов – начальный, 
серединный и конечный. 
Начальные  и  конечные  дифоны,  как  правило,  представляют  половинки  первой  и 
последней фонем слова с включением переходных участков от пробела к фонеме, а также от 
фонемы  к  пробелу  соответственно.  Они  определеяются  согласно  позиционным  правилам 
казахских звуков: 

237 
 
-
 
звуки а, ә, е, ө, ұ, ү, ы, і встречаются во всех позициях; 
-
 
гласный звук о встречается только в началном слоге; 
-
 
звуки л, р, й, ң, у (w) не встречаются в начале слова
-
 
согласные б, д, ғ, г не встречаются в конце слова. 
Однако звуки «о», «ө» и «е» являются дифтонгами, и согласно казахской орфоэпии  перед 
звуками  «о»,  «ө»  идущими  в  начале  слова,  есть  маленькая  согласная  вставка  «у»,  а  перед 
звуком  «е» - согласная вставка «й». Исходя из этого, звуки «о», «ө» и «е» были удалены из 
списка начальных полудифонов и вместо них введены полудифоны «у» и  «й». 
Учитывая  все  вышеуказанные  правила,  был  составлен  список  начальных  и  конечных 
дифонов (Таблица 1): 
 
Таблица 1. Начальные и конечные дифоны казахского языка 
Начальные 
Конечные 
а0 
м0 
а2 
ө2 
ә0 
н0 
ә2 
п2 
б0 
п0 
е2 
р2 
г0 
с0 
ж2 
с2 
ғ0 
т0 
з2 
т2 
д0 
у0 
й2 
у2 
ж0 
ұ0 
к2 
ұ2 
з0 
ү0 
қ2 
ү2 
й0 
ш0 
л2 
ш2 
к0 
ы0 
м2 
ы2 
қ0 
і0 
н2 
і2 
 
 
ң2 
 
Для  составления  матриц  серединных  дифонов  сначала  был  автоматически  сгенерирован 
список  всевозможных  сочетаний  звуков  казахского  языка.  Затем  были  удалены  из  списка 
сочетания, противоречащие следующим казахским позиционным правилам:  
-
 
звуки а, ә, о, ө, ұ, ү сочетаются со всеми согласными; 
-
 
звуки е, ы, і не сочетаются  с согласным у (w). 
-
 
в казахском языке не встречаются подряд идущих 2 гласных; 
-
 
глухие и звонкие согласные не сочетаются; 
-
 
согласный у не встречается после согласных звуков; 
Некоторые сочетания были удалены в связи с тем, что они по статистике не встречаются 
вообще [10].  
В итоге мы получили около 500 звукосочетаний казахского языка.  
Но  для  качественного  распознавания  их  не  достаточно,  так  как  казахский  язык  является 
сингармоническим языком. 
Рассмотрим дифоны из тех звукосочетаний, в которых один из звуков гласный (таблицы 3, 
4).  Их  количество  остается  без  изменений,  так  как  гласные  определяют 
огубленность/неогубленность и мягкость/твердость согласного. 
 
Таблица 2. Дифоны с гласно-согласным звукосочетанием 
 б 
г 
ғ 
д 
ж 
з 
й 
к 
қ  л 
м 
н 
ң 
п 
р 
с 
т 
у 
ш 
а аб    
ағ  ад  аж  аз  ай    
ақ  ал  ам  ан  аң  ап  ар  ас  ат  ау  аш 
ә әб'  әг'   
әд' 
әж

әз'  әй'  әк'   
әл'  әм'  ән'  әң'  әп'  әр'  әс'  әт'  әу' 
әш

е еб'  ег'    
ед' 
еж

ез'  ей'  ек'   
ел'  ем'  ен'  ең'  еп'  ер'  ес'  ет'  еу' 
еш

о 
об
o
 
  
оғ
o
 
од
o
 
ож
o
 
оз
o
 
ой
o
 
  
оқ
o
 
ол
o
 
ом
o
 
он
o
 
оң
o
 
оп
o
 
ор
o
 
ос
o
 
от
o
 
оу
o
 
ош
o
 

238 
 
ө 
өб
'
o
 
өг'
o
 
 
өд
'
o
 
өж
'
o
 
өз'
o
 
өй
'
o
 
өк
'
o
 
 
өл
'
o
 
өм
'
o
 
өн
'
o
 
өң
'
o
 
өп
'
o
 
өр
'
o
 
өс
'
o
 
өт
'
o
 
өу
'
o
 
өш
'
o
 
ұ 
ұб
o
 
 
ұғ
o
 
ұд
o
 
ұж
o
 
ұз
o
 
ұй
o
 
 
ұқ
o
 
ұл
o
 
ұм
o
 
ұн
o
 
ұң
o
 
ұп
o
 
ұр
o
 
ұс
o
 
ұт
o
 
ұу
o
 
ұш
o
 
ү 
үб
'
o
 
үг'
o
 
 
үд
'
o
 
үж
'
o
 
үз'
o
 
үй
'
o
 
үк
'
o
 
 
үл
'
o
 
үм
'
o
 
үн
'
o
 
үң
'
o
 
үп
'
o
 
үр
'
o
 
үс
'
o
 
үт
'
o
 
үу
'
o
 
үш
'
o
 
ы 
ы
б 
  
ы
ғ 
ы
д 
ы
ж 
ыз 
ы
й 
  
ы
қ 
ы
л 
ы
м 
ы
н 
ы
ң 
ы
п 
ы
р 
ыс  ыт   
ы
ш 
і 
і
б' 
і
г' 
 
і
д' 
і
ж' 
і
з' 
і
й' 
і
к' 
 
і
л' 
і
м' 
і
н' 
і
ң' 
і
п' 
і
р' 
і
с' 
і
т' 
 
і
ш' 
 
Таблица 3. Дифоны с согласно-гласным звукосочетанием 
 
а 
ә 
е 
о 
ө 
ұ 
ү 
ы 
і 
б 
ба 
б'ә 
б'е 
б
 o
о  б'
o
ө 
б
 o
ұ  б'
o
 ү 
бы 
б'і 
г 
  
г'ә 
г'е 
  
г'
o
ө 
 
г'
o
 ү 
 
г'і 
ғ 
ға 
 
 
ғ
 o
о   
ғ
 o
ұ   
ғы 
 
д 
да 
д'ә 
д'е 
д
 o
о  д'
o
ө 
д
 o
ұ  д'
o
 ү 
ды 
д'і 
ж 
жа 
ж'ә 
ж'е 
ж
 
o
о 
ж'
o
ө 
ж
 
o
ұ 
ж'
o
 ү 
жы 
ж'і 
з 
за 
з'ә 
з'е 
з
 o
о  з'
o
ө 
з
 o
ұ  з'
o
 ү 
зы 
з'і 
й 
йа 
й'ә 
й'е 
  
й'
o
ө 
й
 
o
ұ 
й'
o
 ү 
йы 
й'і 
к 
  
к'ә 
к'е 
  
к'
o
ө 
  
к'
o
 ү 
 
к'і 
қ 
қа 
 
  
қ
 o
о   
қ
 o
ұ   
қы 
 
л 
ла 
л'ә 
л'е 
  
л'
o
ө 
л
 o
ұ  л'
o
 ү 
лы 
л'і 

Достарыңызбен бөлісу:
1   ...   23   24   25   26   27   28   29   30   ...   39




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет