Атты І халықаралық конференция ЕҢбектері



Pdf көрінісі
бет26/39
Дата25.12.2016
өлшемі8,57 Mb.
#403
1   ...   22   23   24   25   26   27   28   29   ...   39

Литература 
1.
 
Б.М.Лобанов, Л.И.Цирульник «Компьютерный синтез и клонирование речи». - Минск, 
«Белорусская Наука», 2008. - 316 с. 
2.
 
Зиновьева  Н.В.,  Кривнова  О.Ф.,  Захаров  Л.  М.  Программный  синтез  русской  речи 
(синтезатор  «Агафон»).  Труды  международного  семинара  Диалог’95  по  компьютерной 
лингвистике и ее приложениям. Казань, 1995. 
3.
 
Кривнова  О.Ф.,  Зиновьева  Н.В.,  Захаров  Л.М.,  Строкин  Г.С.,  Бабкин  А.В.  TTS 
Synthesis For Russian Language // Web Journal of Formal, Computational & Cognitive Linguistics. 
N1. 1997. 
4.
 
Чистиков П.Г., Хомицевич О.Г. Автоматическое определение границ предложений в 
потоковом  режиме  в  системе  распознавания  русской  речи  //  Вестник  МГТУ  им.  Н.Э. 
Баумана.  Сер.  Приборостроение.  —  2011.  —  Спец.  вып.  Биометрические  технологии.  –  С. 
115-123. 
5.
 
Т.И.  Ибрагимов,  Ф.И.  Салимов    Из  опыта  построения  синтезатора  татарской  речи, 
Тезисы  докладов  Международного  симпозиума  "Типология  аргументной  структуры  и 
синтаксических отношений", Казань, "Отечество", 2004, c.334-336 
6.
 
Татарская грамматика. Казань, Татарское книжное издательство, 1993, т. 1, 581с. 
7.
 
Л.Р.Зиндер. Общая фонетика. - М.: Высшая школа, 1979.  
8.
 
Проблемы  и  методы  экспериментально-фонетического  анализа  речи..Изд-во 
Ленинградского университета, 1980, 148с. 
9.
 
Л.В.  Щерба  Русские  гласные  в  качественном  и  количественном  отношении,  СПб, 
1912, 155с. 
10.
 
Богородицкий В.А. Введение в татарское языкознание. Казань, Татгосиздат, 1953. 
11.
 
Ибрагимов  Т.И.,  Салимов  Ф.И.,  Хусаинов  Р.Р.  Синтезатор  татарской  речи:  вопросы 
транскрипции  заимствований  и  планирование  языка./  «Компьютерная  лингвистика  и 
интеллектуальные  технологии».  Тр.  Международн.  семинара  Диалог-2002.т.2.,  М.:2002.  с. 
228-234 
12.
 
T.I.  Ibragimov,  F.I.  Salimov,  D.S.  Suleymanov,  R.R.  Khusauinov  The  Exprerimental 
Version of the Tatar Speech  Synthesizer, Interactive Systems: The Problems of Human - Computer 
Interaction, Ulyanovsk State Technical University, 2003, с.204-206 

225 
 
13.
 
Ибрагимов  Т.И.,  Салимов  Ф.И.,  Сулейменов  Д.Ш.,  Хусаинов  Р.Р  Синтезатор 
татарской  речи:  фонетический  эллипсис  и  изменения  речевых  звуков  на  границе  слов  и 
слогов  ./  Компьютерная  лингвистика  и  интеллектуальные  технологии».  Тр.  Международн. 
семинара Диалог-2003., М.:2003 
14.
 
Т.И.  Ибрагимов,  Ф.И.Салимов,  М.Р.Сайхунов.  Вариативность  чтения  текстов  на 
татарском языке: паузирование. // Труды Казанской школы по компьютерной и когнитивной 
лингвистике TEL – 2006. Казань,  декабрь, 2006, Казань, 2007. С. 117 -121 
15.
 
Ибрагимов Т. И. Изучение образования слогов и структуры их сочетаний в татарском 
литературном языке. Автореф. дис. канд. филол. наук. - Казань, 1970 
 
 
А.Ф. ХУСАИНОВ 
 
 
Казанский (Приволжский) федеральный университет, 
Институт прикладной семиотики Академии наук Республики Татарстан, г. Казань, 
Российская Федерация 
 
 
СИСТЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ФОНЕМ ТАТАРСКОГО 
ЯЗЫКА 
 
Аннотация. В данной работе описывается система автоматического распознавания фонем 
татарского  языка,  процесс  создания  которой  включает  в  себя  проектирование  и  запись 
корпуса  звучащей  татарской  речи  и  выделение  значимых  акустических  особенностей 
татарской  речи.  Кроме  того,  предложен  и  реализован  подход  к  построению  системы 
автоматического  транскрибирования  татарских  текстов.  В  качестве  базовых  единиц 
распознавания были использованы 57 фонем татарского языка, для каждой из которых была 
построена математическая модель, основанная на аппарате скрытых Марковских моделей. В 
конечном  итоге,  предлагаемая  система  показала  61%-ное  качество  распознавания  фонем 
тестового корпуса. 
Ключевые  слова:  фонемный  распознаватель,  корпус  звучащей  речи,  татарский  язык, 
фонетическая транскрипция. 
Введение 
Область  речевых  технологий  представляет  собой  значимое  и  активно  развивающееся 
направление научных исследований, которое, в целом, представляет собой процесс анализа 
речи,  как  звуковой  волны,  выделения  из  неё  значимых  параметров,  и  дальнейшего  их 
использования для конкретного приложения. При этом направления использования речевых 
технологий  могут  существенно  различаться.  Так,  принято  выделять  следующие  основные 
направления: 

 
автоматическое распознавание речи; 

 
синтез речи; 

 
идентификация и верификация языка; 

 
идентификация и верификация диктора; 

 
распознавание эмоций диктора; 

 
распознавание тематики разговора. 
Схематично структура области речевых технологий может быть представлена следующим 
образом (Рис. 1): 

226 
 
 
 
Рисунок 1. Структура области речевых технологий. 
 
В данной работе рассматривается подход к решению одной из подзадач автоматического 
распознавания речи, а именно, распознавания фонем в контексте татарского языка. Система 
автоматического  распознавания  фонем  может  являться  как  самостоятельным  элементом, 
например,  при  исследованиях  в  области  экспериментальной  фонетики,  так  и 
вспомогательным модулем при решении других задач распознавания речи. 
Решение  поставленной  задачи  распознавания  татарских  фонем  осуществляется  в  четыре 
основных этапа: 
1.
 
проектирование и создание корпуса звучащей татарской речи одного диктора; 
2.
 
разработка и реализация правил транскрибирования татарских текстов; 
3.
 
создание акустических моделей фонем татарского языка; 
4.
 
программная реализация системы автоматического распознавания фонем. 
Звуковой корпус 
В качестве исходного материала при создании моделей фонем языка используется корпус 
звучащей  речи.  При  этом  необходимо  наличие  аннотации  корпуса,  включающей  в  себя 
текстовую  и/или  фонетическую  разметку  всех  речевых  фрагментов.  Однако  ручное 
фонетическое  аннотирование  является  очень  дорогостоящим  и  длительным  процессом,  а 
также  требует  наличие  множества  квалифицированных  фонетистов,  что  делает 
затруднительным  создание  данного  типа  разметки  для  корпуса  татарского  речи. 
Альтернативным  решением  служит  подход  под  название  phoneme  alignment,  который 
позволяет в параллельном режиме осуществлять как фонетическую разметку корпуса, так и 
обучение моделей фонем. Данный подход был использован в работе, а для его применения 
была создана текстовая аннотация записанных голосовых файлов. 
Первым  этапом  создания  корпуса  звучащей  речи  является  формирование  текста  для 
озвучивания. При создании фонетического анализатора в качестве искомой характеристики 
текста  оправдан  выбор  показателя  частотности  употребления  входящих  в  него  слов.  Для 
этого были проанализированы 5061 текст татарской литературы и публицистики. Основные 
характеристики использованных произведений представлены в Таблице 1. 
 
Таблица 1. Характеристика исходных текстов на татарском языке. 
Параметр 
Значение 
Количество текстов 
5061 
Общий объем текстов 
337 МБ 
Общее количество слов 
25 584 505 
Количество различных слов 
1 418 909 
На  основе  данных  текстов  была  построена  статистика  частотности  слов.  Первые  10788 
самых часто употребимых слова были выбраны для озвучивания в речевом корпусе. Запись 
звуковых фрагментов осуществлялась со следующими параметрами: 

 
формат файла: WAV PCM; 

 
частота дискретизации: 22 kHz; 

 
количество бит на отсчет: 16 бит. 
Созданный корпус имеет параметры, представленные в Таблице 2. 
 

227 
 
Таблица 2. Основные характеристики звукового корпуса. 
Параметр 
Значение 
Общее количество файлов 
10788 
Общая продолжительность записей 
4:56:45 
Количество файлов в обучающем корпусе 
9631 
Продолжительность обучающем корпусе 
4:26:42 
Количество файлов в тестовом корпусе 
1157 
Продолжительность тестовом корпусе 
0:30:03 
Акустические особенности татарского языка 
Для дальнейшего анализа необходимо осуществить переход от текстового представления 
озвученных слов к их фонемной транскрипции. Для этого решаются следующие подзадачи: 

 
выделение значимых особенностей татарской речи; 

 
определение фонемного алфавита; 

 
построение правил транскрибирования, основанной на фонемном алфавите. 
В  качестве  основных  базовых  элементов  языка,  отличающихся  в  акустическом  плане,  а 
также  способных  оказывать  влияние  на  смысл  слова,  были  выбраны  фонемы, 
представленные в Таблице 3. 
 
Таблица 3. Набор фонем татарского языка. 
Фонема  Описание 
Пример 
Фонема  Описание 
Пример 

открытый а 
арасында- 
A2RA1SYNDA 

твердый м  моны - MONY 
A1 
умеренно 
огубленный а 
татар 

TA2TA1R 
M1 
мягкий м 
һәм 

HH1AAM1 
A2 
сильно 
огубленный а  
да - DA2 

твердый н  аның 

A2NYNN 
AA 
ә 
дә - D1AA 
N1 
мягкий н 
мин - M1IN1 

огубленный у 
ул - UL 

твердый п  алып - A2LYP 
UU 
нейтрального 
образования ү 
күрү 

K1UU1R1UU 
P1 
мягкий п 
итеп - IT1EP1 
UU1 
переднего 
образования ү 
сүтеп 

S1UU1T1EP1 

твердый р 
бар - BA2R 

о 
тора - TORA2 
R1 
мягкий р 
бер - B1ER1 
OO 
ө 
өчен 

OOTch1EN1 

твердый с 
соң - SONN 

и 
иде - ID1E 
S1 
мягкий с 
үс - UU1S1 

ы 
аның 

A2NYNN 

твердый т 
тора - TORA2 

е 
бер - B1ER1 
T1 
мягкий т 
бит - B1IT1 
E1 
русское э 
кеше 

K1ESS1E1 

твердый ф  туфан 

TUFA2N 

твердый б 
бу - BU 
F1 
мягкий ф 
фикер 

F1IK1ER1 
B1 
мягкий б 
бер - B1ER1 

твердый х 
халык 

XA2LYK 

губно-губной в 
авыл - A2WYL  X1 
мягкий х 
хәзер 

X1AAZ1ER1 

в  заимствованных 
словах 
трамвай 

TRA2MVA1J 
HH 
твердый һ 
һаман 

HHA2MA1N 

228 
 
Фонема  Описание 
Пример 
Фонема  Описание 
Пример 

твердый г 
гына - GYNA2  HH1 
мягкий һ 
һәм 

HH1AAM1 
G1 
мягкий г 
генә 

G1EN1AA 
Ts 
твердый ц  немец 

N1EM1E1Ts 
ZZ 
ж 
жанр 

ZZA2NR 
Tch 
твердый ч 
чыгып 

TchYGYP 

й 
шулай 

SSULA2J 
Tch1 
мягкий ч 
өчен 

OOTch1EN1 

твердый җ 
җавап 

CA2WA1P 
SS 
твердый ш  шул - SSUL 
C1 
мягкий җ 
иҗат 

IC1A2T1 
SS1 
мягкий ш 
кеше 

K1ESS1E1 

твердый з 
зур - ZUR 
Tsh 
щ 
училище 

UTchILITshE 
Z1 
мягкий з 
үзе - UU1Z1E 
NN 
ң 
аның 

A2NYNN 

твердый к 
юк - JUK 

твердый д  да - DA2 
K1 
мягкий к 
бик - B1IK1 
D1 
мягкий д 
дә - D1AA 

твердый л 
ул - UL 
Sil 
пауза 
 
L1 
мягкий л 
әле - AAL1E 
 
 
 
 
На основе определенного инвентаря фонем были выявлены акустические закономерности 
в татарском языке, приведём некоторые из них: 

 
аккомодация  (в  слове,  в  зависимости  от  первой  гласной,  используются  либо  все 
твердые, либо все мягкие согласные), например, бар – BA2R, бер – B1ER1; 

 
уменьшение  огубленности  фонемы  А  от  начала  к  концу  слова,  например,  балалар  – 
BA2LA1LAR; 

 
замена некоторых звонких согласных, идущих рядом с другим глухим согласным, на 
свои глухие пары, например, тозсыз – TOSSYS; 

 
замена звонких согласных в конце слова на свои глухие пары, например, тоз – TOS; 

 
представление буквы Я в качестве пары J (й) и AA (ә) в случае, если перед ней идет 
буква И, например, иясе – IJAAS1E. 
Для  создания  автоматической  системы  транскрибирования  было  разработано 
автоматизированное рабочее место фонетиста, которое предоставляет возможность создания 
формализованной  записи  правил.  Форма  создания  и  редактирования  правил 
транскрибирования представлена на Рис. 2. 
 
 
Рисунок 2. Форма создания правил транскрибирования. 

229 
 
 
Правила  могут  быть  двух  различных  типов:  абсолютные  и  относительные.  Абсолютные 
правила оперируют конкретным расположением той или иной фонемы в слове и позволяют 
заменять их другими. Примером данного типа правил может служить изображенное на Рис. 2 
правило аккомодации, в котором в зависимости от того, является ли первая главная в слове 
гласной переднего ряда, согласные заменяются на свою мягкую или твердую пару. 
Вторым типом правил служат относительные правила, которые позволяют обрабатывать 
различные  контексты  следования  тех  или  иных  фонем,  например,  сочетание  фонем  Z  -  S 
заменяется  на  сочетание  S  –  S,  как,  например,  в  слове  тозсыз  (T-O-S-S-I-Z).  Общее 
количество созданных правил равняется 37. 
Акустические модели фонем 
Созданные  на  подготовительном  этапе  обучающий  корпус  речи  и  система 
транскрибирования позволяют реализовать алгоритм обучения акустических моделей фонем. 
Данный  алгоритм  носит  название  forced  alignment  и  не  требует  наличия  вручную 
фонетически  аннотированного  корпуса.  Для  реализации  алгоритма  будет  использован 
инструмент  HTK  Toolkit,  первоначально  созданный  в  университете  Кэмбриджа,  а  в 
настоящее время принадлежащий компании Microsoft. 
Каждая  фонема  была  смоделирована  скрытой  Марковской  моделью,  состоящей  из  трех 
состояний,  с  ограничениями  на  переход  на  более  ранние  состояния.  Каждое  из  трех 
состояний моделировалось, в свою очередь, смесью Гауссовских распределений. Структура 
модели фонемы представлена на Рис. 3.  
 
 
 
Рисунок 3. Структура модели фонемы. 
 
Было проведено две серии экспериментов. В первой серии изучалась сходимость процесса 
обучения  на  корпусе,  совпадающем  с  корпусом  обучения.  Вторая  серия  экспериментов 
проводилась  на  тестовом  корпусе,  не  участвовавшем  в  обучении  моделей.  В  обоих 
экспериментах  количество  Гауссовских  распределений  в  смесях  постепенно  наращивалось, 
после каждого увеличения происходило два цикла переобучения всех моделей. Зависимость 
качества  распознавания  от  количества  итераций,  т.е.  количества  распределений  в 
Гауссовских смесях, представлена на Рис. 4 и 5. Качество распознавания анализировалось по 
двум критериям: Corr и Acc, которые вычисляются по следующим формулам: 
 
 
 
 
 
 
 

230 
 
 
 
Рисунок 4. Зависимость качества распознавания от количества итераций на обучающем 
корпусе. 
 
 
Рисунок 5. Зависимость качества распознавания от количества итераций на тестовом 
корпусе. 
 
Анализ полученных результатов показывает, что рост числа распределений в Гауссовских 
смесях и увеличение числа циклов обучения моделей с определенного момента не оказывает 
существенного влияния на качество распознавания фонем на тестовом корпусе. Это связано 
с  тем,  что  для  качественного  обучения  большего  числа  распределений  необходим  всё 
больший объем исходной обучающей информации. 
Таким  образом,  при  построении  системы  фонетического  распознавателя  было  решено 
выбрать модели фонем, полученные на 40 итерации. В этих моделях число распределений в 
Гауссовских смесях равняется 29. 
Созданный программный модуль предоставляет возможности записи речевого фрагмента 
с помощью микрофона, а также загрузки необходимого звукового файла. Общий вид формы 
представлен на Рис. 6. 
 
 
 
Рисунок 6. Форма распознавания фонем татарского языка. 
 
Заключение 
Построение  и  реализация  алгоритма  автоматического  транскрибирования  татарских 
текстов,  а  также  создание  аннотированного  корпуса  звучащей  татарской  речи  позволило 

231 
 
реализовать программный модуль автоматического распознавания фонем татарского языка. 
Применяемый при создании моделей фонем аппарат скрытых Марковских моделей показал 
хорошее  качество  обучения.  Проведенные  серии  экспериментов  позволили  выявить 
оптимальные  характеристики  моделей  для  их  дальнейшего  использования  в  системе. 
Дальнейшее  улучшение  качества  работы  распознавателя  возможно  засчет  увеличения 
размера  обучающего  корпуса  татарской  речи,  что  позволит  обучить  модели  на  основе 
Гауссовских смесей большей размерности. 
Литература 
1.
 
Lopes, C, Perdigao, F. Phone recognition on TIMIT database. Speech technologies. 285-302 
(2011). 
2.
 
Young, S: The HTK book (for HTK version 3.4). (2009). 
3.
 
Gales,  M,  Young,  S.  The  Application  of  Hidden  Markov  Models  in  Speech  Recognition. 
Foundations and Trends in Signal Processing. С. 113 (2007). 
 
 
ZHANDOS YESSENBAYEV
1,2
, MUSLIMA KARABALAYEVA
2
, FIRUZA SHAMAYEVA 
3
 
 
 

Nazarbayev University Research and Innovation System, Astana, Kazakhstan 
2
 L.N. Gumilev Eurasian National University, Astana, Kazakhstan 
3
 The Korkyt-Ata Kyzylorda State University, Kyzylorda, Kazakhstan 
 
 
A BASELINE LARGE VOCABULARY CONTINUOUS  
SPEECH RECOGNITION FOR KAZAKH 
 
Abstract 
In this paper we present our experiments on large vocabulary continuous speech recognition task 
for Kazakh. This includes an acoustic database collection, acoustic and language modeling 
experiments. The overall performance of a system is 6.9% WER. 
Keywords: speech recognition, acoustic database, acoustic and language modeling for Kazakh 
 
Introduction 
Speech  recognition  is  a  process  of  automatic  conversion  of  human  speech  into  corresponding 
text.  Modern  automatic  speech  recognition  systems  (ASR)  advanced  significantly  from  simple 
speaker-dependent  word  recognition  to  speaker-independent  large  vocabulary  continuous  speech 
recognition  for  broadcast  news  and  telephone  conversation  transcriptions.  Despite  of  widespread 
use  of  such  systems  in  daily  life,  most  of  them  are  concerned  with  the  languages  like  English, 
German,  Japan,  Russian,  etc.  As  for  Kazakh  language,  it  is  still  underrepresented  in  speech 
recognition  research.  Thus,  the  primary  goal  of  this  work  is  to  build  a  baseline  large  vocabulary 
continuous speech recognition system. 
Fig.  1  outlines  a  standard  architecture  of  a  modern  ASR  system,  which  includes  feature 
extraction and pre-processing, acoustic and language modeling, system combination and decoding. 
First step to build such a system for Kazakh would be collecting enough audio data, and creating the 
acoustic and language models. This is exactly the way we approach the problem. 
This  paper  presents  an  acoustic  database  of  Kazakh  speech  in  Section  2,  the  experiments  and 
conclusions are given in Sections 3 and 4, respectively. 
 
Speech                                                                                                         Text 

232 
 
 
Figure 1. The architecture of a standard ASR system. 
 
Acoustic Database 
Most of the modern speech processing systems requires large amount of audio and text data for 
training the acoustic and language models. Depending on the type of an application data needed 
varies from high quality microphone read speech (WSJ0 [1]) to conversational telephone speech 
(Switchboard [2] or CALLHOME [3]), from continuous speech (TIMIT [4]) to connected 
(TIDIGITS [5]) and isolated words (PhoneBook [6]). In our current work, we collected a corpus of 
28 hours high quality microphone read Kazakh speech of 169 native speakers for the large 
vocabulary continuous speech recognition tasks. The acoustic database is initiated as a part of the 
Kazakh Language Corpus compiled in [7]. 
Text materials 
The text materials to be uttered were carefully selected from the primary text corpus and divided 
into two parts: short sentences and stories. 
The  “sentences”  part  has  more  than  12K  different  sentences  randomly  and  equally  extracted 
from  the  five  stylistic  genres  mentioned  above.  The  sentences  are  chosen  so  that  they  have  more 
than 120K words contained in the list of the most frequent words covering the 95% of all the texts 
in the primary corpus. Additionally, the sentences were grouped according to their length in words. 
Thus, we have 10 groups of sentences having the lengths from 6 to 15 words in each.  
The  “stories”  part  contains  the  short  online  news  extracted  from  massmedia  section  of  the 
primary text corpus. Each story has not more than 300 words.  
All the text materials were subdivided into numbered small and nonintersecting sets to be uttered 
by the speakers. A standard set for one speaker has exactly 75 sentences (by 10 sentences from five 
shorter groups and by 5 sentences from five longer groups) and 1 story.  
 Speakers 
The speakers that took part in the recordings are volunteers recruited by advertisements in the 
local newspapers and personal referral. The main criteria of speaker selection were a region where 
he/she learned Kazakh or spent most of his/her life, age, gender and the ability to read Kazakh.  
The first criterion helped to capture variability present in speech due to the speakers’ settlement 
both  local  and  external.  Totally  there  are  15  region  groups:    14  official  regions  (“oblast”)  of 
Kazakhstan and one group for those who lived outside of the country.  
The speakers are divided into four age groups not including children and school students: 

 
I group – 18-27 years; 

 
II group – 28-37 years; 

 
III group – 38-47 years; 

 
IV group – 48 years and above. 
We  did  not  strictly  balance  the  speakers  by  their  gender  due  to  the  difficulties  in  finding  the 
volunteers but still tried to keep the number of speakers of one gender per profile not more than 3. 
The female and male distributions are 57% and 43%, respectively. 
The other important criterion was the ability to read Kazakh since not all the interviewees could 
read  in  Kazakh  sufficiently  fluent,  what  is  a  common  issue  in  a  bilingual  country  such  as 
Kazakhstan.  Additionally  we  kept  the  records  of  the  speakers’  education  whether  they  graduated 
last from school, college or university.  
Totally,  we  recorded  169  speakers.  The  following  Table  1  presents  the  distribution  of  the 
speakers across the regions, gender and age groups. The blank spots show the speaker profiles that 
we could not recruit. Mostly, these correspond to the distant regions and elder male groups.  

233 
 

Достарыңызбен бөлісу:
1   ...   22   23   24   25   26   27   28   29   ...   39




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет