Литература
1.
Б.М.Лобанов, Л.И.Цирульник «Компьютерный синтез и клонирование речи». - Минск,
«Белорусская Наука», 2008. - 316 с.
2.
Зиновьева Н.В., Кривнова О.Ф., Захаров Л. М. Программный синтез русской речи
(синтезатор «Агафон»). Труды международного семинара Диалог’95 по компьютерной
лингвистике и ее приложениям. Казань, 1995.
3.
Кривнова О.Ф., Зиновьева Н.В., Захаров Л.М., Строкин Г.С., Бабкин А.В. TTS
Synthesis For Russian Language // Web Journal of Formal, Computational & Cognitive Linguistics.
N1. 1997.
4.
Чистиков П.Г., Хомицевич О.Г. Автоматическое определение границ предложений в
потоковом режиме в системе распознавания русской речи // Вестник МГТУ им. Н.Э.
Баумана. Сер. Приборостроение. — 2011. — Спец. вып. Биометрические технологии. – С.
115-123.
5.
Т.И. Ибрагимов, Ф.И. Салимов Из опыта построения синтезатора татарской речи,
Тезисы докладов Международного симпозиума "Типология аргументной структуры и
синтаксических отношений", Казань, "Отечество", 2004, c.334-336
6.
Татарская грамматика. Казань, Татарское книжное издательство, 1993, т. 1, 581с.
7.
Л.Р.Зиндер. Общая фонетика. - М.: Высшая школа, 1979.
8.
Проблемы и методы экспериментально-фонетического анализа речи..Изд-во
Ленинградского университета, 1980, 148с.
9.
Л.В. Щерба Русские гласные в качественном и количественном отношении, СПб,
1912, 155с.
10.
Богородицкий В.А. Введение в татарское языкознание. Казань, Татгосиздат, 1953.
11.
Ибрагимов Т.И., Салимов Ф.И., Хусаинов Р.Р. Синтезатор татарской речи: вопросы
транскрипции заимствований и планирование языка./ «Компьютерная лингвистика и
интеллектуальные технологии». Тр. Международн. семинара Диалог-2002.т.2., М.:2002. с.
228-234
12.
T.I. Ibragimov, F.I. Salimov, D.S. Suleymanov, R.R. Khusauinov The Exprerimental
Version of the Tatar Speech Synthesizer, Interactive Systems: The Problems of Human - Computer
Interaction, Ulyanovsk State Technical University, 2003, с.204-206
225
13.
Ибрагимов Т.И., Салимов Ф.И., Сулейменов Д.Ш., Хусаинов Р.Р Синтезатор
татарской речи: фонетический эллипсис и изменения речевых звуков на границе слов и
слогов ./ Компьютерная лингвистика и интеллектуальные технологии». Тр. Международн.
семинара Диалог-2003., М.:2003
14.
Т.И. Ибрагимов, Ф.И.Салимов, М.Р.Сайхунов. Вариативность чтения текстов на
татарском языке: паузирование. // Труды Казанской школы по компьютерной и когнитивной
лингвистике TEL – 2006. Казань, декабрь, 2006, Казань, 2007. С. 117 -121
15.
Ибрагимов Т. И. Изучение образования слогов и структуры их сочетаний в татарском
литературном языке. Автореф. дис. канд. филол. наук. - Казань, 1970
А.Ф. ХУСАИНОВ
Казанский (Приволжский) федеральный университет,
Институт прикладной семиотики Академии наук Республики Татарстан, г. Казань,
Российская Федерация
СИСТЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ФОНЕМ ТАТАРСКОГО
ЯЗЫКА
Аннотация. В данной работе описывается система автоматического распознавания фонем
татарского языка, процесс создания которой включает в себя проектирование и запись
корпуса звучащей татарской речи и выделение значимых акустических особенностей
татарской речи. Кроме того, предложен и реализован подход к построению системы
автоматического транскрибирования татарских текстов. В качестве базовых единиц
распознавания были использованы 57 фонем татарского языка, для каждой из которых была
построена математическая модель, основанная на аппарате скрытых Марковских моделей. В
конечном итоге, предлагаемая система показала 61%-ное качество распознавания фонем
тестового корпуса.
Ключевые слова: фонемный распознаватель, корпус звучащей речи, татарский язык,
фонетическая транскрипция.
Введение
Область речевых технологий представляет собой значимое и активно развивающееся
направление научных исследований, которое, в целом, представляет собой процесс анализа
речи, как звуковой волны, выделения из неё значимых параметров, и дальнейшего их
использования для конкретного приложения. При этом направления использования речевых
технологий могут существенно различаться. Так, принято выделять следующие основные
направления:
автоматическое распознавание речи;
синтез речи;
идентификация и верификация языка;
идентификация и верификация диктора;
распознавание эмоций диктора;
распознавание тематики разговора.
Схематично структура области речевых технологий может быть представлена следующим
образом (Рис. 1):
226
Рисунок 1. Структура области речевых технологий.
В данной работе рассматривается подход к решению одной из подзадач автоматического
распознавания речи, а именно, распознавания фонем в контексте татарского языка. Система
автоматического распознавания фонем может являться как самостоятельным элементом,
например, при исследованиях в области экспериментальной фонетики, так и
вспомогательным модулем при решении других задач распознавания речи.
Решение поставленной задачи распознавания татарских фонем осуществляется в четыре
основных этапа:
1.
проектирование и создание корпуса звучащей татарской речи одного диктора;
2.
разработка и реализация правил транскрибирования татарских текстов;
3.
создание акустических моделей фонем татарского языка;
4.
программная реализация системы автоматического распознавания фонем.
Звуковой корпус
В качестве исходного материала при создании моделей фонем языка используется корпус
звучащей речи. При этом необходимо наличие аннотации корпуса, включающей в себя
текстовую и/или фонетическую разметку всех речевых фрагментов. Однако ручное
фонетическое аннотирование является очень дорогостоящим и длительным процессом, а
также требует наличие множества квалифицированных фонетистов, что делает
затруднительным создание данного типа разметки для корпуса татарского речи.
Альтернативным решением служит подход под название phoneme alignment, который
позволяет в параллельном режиме осуществлять как фонетическую разметку корпуса, так и
обучение моделей фонем. Данный подход был использован в работе, а для его применения
была создана текстовая аннотация записанных голосовых файлов.
Первым этапом создания корпуса звучащей речи является формирование текста для
озвучивания. При создании фонетического анализатора в качестве искомой характеристики
текста оправдан выбор показателя частотности употребления входящих в него слов. Для
этого были проанализированы 5061 текст татарской литературы и публицистики. Основные
характеристики использованных произведений представлены в Таблице 1.
Таблица 1. Характеристика исходных текстов на татарском языке.
Параметр
Значение
Количество текстов
5061
Общий объем текстов
337 МБ
Общее количество слов
25 584 505
Количество различных слов
1 418 909
На основе данных текстов была построена статистика частотности слов. Первые 10788
самых часто употребимых слова были выбраны для озвучивания в речевом корпусе. Запись
звуковых фрагментов осуществлялась со следующими параметрами:
формат файла: WAV PCM;
частота дискретизации: 22 kHz;
количество бит на отсчет: 16 бит.
Созданный корпус имеет параметры, представленные в Таблице 2.
227
Таблица 2. Основные характеристики звукового корпуса.
Параметр
Значение
Общее количество файлов
10788
Общая продолжительность записей
4:56:45
Количество файлов в обучающем корпусе
9631
Продолжительность обучающем корпусе
4:26:42
Количество файлов в тестовом корпусе
1157
Продолжительность тестовом корпусе
0:30:03
Акустические особенности татарского языка
Для дальнейшего анализа необходимо осуществить переход от текстового представления
озвученных слов к их фонемной транскрипции. Для этого решаются следующие подзадачи:
выделение значимых особенностей татарской речи;
определение фонемного алфавита;
построение правил транскрибирования, основанной на фонемном алфавите.
В качестве основных базовых элементов языка, отличающихся в акустическом плане, а
также способных оказывать влияние на смысл слова, были выбраны фонемы,
представленные в Таблице 3.
Таблица 3. Набор фонем татарского языка.
Фонема Описание
Пример
Фонема Описание
Пример
A
открытый а
арасында-
A2RA1SYNDA
M
твердый м моны - MONY
A1
умеренно
огубленный а
татар
-
TA2TA1R
M1
мягкий м
һәм
-
HH1AAM1
A2
сильно
огубленный а
да - DA2
N
твердый н аның
-
A2NYNN
AA
ә
дә - D1AA
N1
мягкий н
мин - M1IN1
U
огубленный у
ул - UL
P
твердый п алып - A2LYP
UU
нейтрального
образования ү
күрү
-
K1UU1R1UU
P1
мягкий п
итеп - IT1EP1
UU1
переднего
образования ү
сүтеп
-
S1UU1T1EP1
R
твердый р
бар - BA2R
O
о
тора - TORA2
R1
мягкий р
бер - B1ER1
OO
ө
өчен
-
OOTch1EN1
S
твердый с
соң - SONN
I
и
иде - ID1E
S1
мягкий с
үс - UU1S1
Y
ы
аның
-
A2NYNN
T
твердый т
тора - TORA2
E
е
бер - B1ER1
T1
мягкий т
бит - B1IT1
E1
русское э
кеше
-
K1ESS1E1
F
твердый ф туфан
-
TUFA2N
B
твердый б
бу - BU
F1
мягкий ф
фикер
-
F1IK1ER1
B1
мягкий б
бер - B1ER1
X
твердый х
халык
-
XA2LYK
W
губно-губной в
авыл - A2WYL X1
мягкий х
хәзер
-
X1AAZ1ER1
V
в заимствованных
словах
трамвай
-
TRA2MVA1J
HH
твердый һ
һаман
-
HHA2MA1N
228
Фонема Описание
Пример
Фонема Описание
Пример
G
твердый г
гына - GYNA2 HH1
мягкий һ
һәм
-
HH1AAM1
G1
мягкий г
генә
-
G1EN1AA
Ts
твердый ц немец
-
N1EM1E1Ts
ZZ
ж
жанр
-
ZZA2NR
Tch
твердый ч
чыгып
-
TchYGYP
J
й
шулай
-
SSULA2J
Tch1
мягкий ч
өчен
-
OOTch1EN1
C
твердый җ
җавап
-
CA2WA1P
SS
твердый ш шул - SSUL
C1
мягкий җ
иҗат
-
IC1A2T1
SS1
мягкий ш
кеше
-
K1ESS1E1
Z
твердый з
зур - ZUR
Tsh
щ
училище
-
UTchILITshE
Z1
мягкий з
үзе - UU1Z1E
NN
ң
аның
-
A2NYNN
K
твердый к
юк - JUK
D
твердый д да - DA2
K1
мягкий к
бик - B1IK1
D1
мягкий д
дә - D1AA
L
твердый л
ул - UL
Sil
пауза
L1
мягкий л
әле - AAL1E
На основе определенного инвентаря фонем были выявлены акустические закономерности
в татарском языке, приведём некоторые из них:
аккомодация (в слове, в зависимости от первой гласной, используются либо все
твердые, либо все мягкие согласные), например, бар – BA2R, бер – B1ER1;
уменьшение огубленности фонемы А от начала к концу слова, например, балалар –
BA2LA1LAR;
замена некоторых звонких согласных, идущих рядом с другим глухим согласным, на
свои глухие пары, например, тозсыз – TOSSYS;
замена звонких согласных в конце слова на свои глухие пары, например, тоз – TOS;
представление буквы Я в качестве пары J (й) и AA (ә) в случае, если перед ней идет
буква И, например, иясе – IJAAS1E.
Для создания автоматической системы транскрибирования было разработано
автоматизированное рабочее место фонетиста, которое предоставляет возможность создания
формализованной записи правил. Форма создания и редактирования правил
транскрибирования представлена на Рис. 2.
Рисунок 2. Форма создания правил транскрибирования.
229
Правила могут быть двух различных типов: абсолютные и относительные. Абсолютные
правила оперируют конкретным расположением той или иной фонемы в слове и позволяют
заменять их другими. Примером данного типа правил может служить изображенное на Рис. 2
правило аккомодации, в котором в зависимости от того, является ли первая главная в слове
гласной переднего ряда, согласные заменяются на свою мягкую или твердую пару.
Вторым типом правил служат относительные правила, которые позволяют обрабатывать
различные контексты следования тех или иных фонем, например, сочетание фонем Z - S
заменяется на сочетание S – S, как, например, в слове тозсыз (T-O-S-S-I-Z). Общее
количество созданных правил равняется 37.
Акустические модели фонем
Созданные на подготовительном этапе обучающий корпус речи и система
транскрибирования позволяют реализовать алгоритм обучения акустических моделей фонем.
Данный алгоритм носит название forced alignment и не требует наличия вручную
фонетически аннотированного корпуса. Для реализации алгоритма будет использован
инструмент HTK Toolkit, первоначально созданный в университете Кэмбриджа, а в
настоящее время принадлежащий компании Microsoft.
Каждая фонема была смоделирована скрытой Марковской моделью, состоящей из трех
состояний, с ограничениями на переход на более ранние состояния. Каждое из трех
состояний моделировалось, в свою очередь, смесью Гауссовских распределений. Структура
модели фонемы представлена на Рис. 3.
Рисунок 3. Структура модели фонемы.
Было проведено две серии экспериментов. В первой серии изучалась сходимость процесса
обучения на корпусе, совпадающем с корпусом обучения. Вторая серия экспериментов
проводилась на тестовом корпусе, не участвовавшем в обучении моделей. В обоих
экспериментах количество Гауссовских распределений в смесях постепенно наращивалось,
после каждого увеличения происходило два цикла переобучения всех моделей. Зависимость
качества распознавания от количества итераций, т.е. количества распределений в
Гауссовских смесях, представлена на Рис. 4 и 5. Качество распознавания анализировалось по
двум критериям: Corr и Acc, которые вычисляются по следующим формулам:
230
Рисунок 4. Зависимость качества распознавания от количества итераций на обучающем
корпусе.
Рисунок 5. Зависимость качества распознавания от количества итераций на тестовом
корпусе.
Анализ полученных результатов показывает, что рост числа распределений в Гауссовских
смесях и увеличение числа циклов обучения моделей с определенного момента не оказывает
существенного влияния на качество распознавания фонем на тестовом корпусе. Это связано
с тем, что для качественного обучения большего числа распределений необходим всё
больший объем исходной обучающей информации.
Таким образом, при построении системы фонетического распознавателя было решено
выбрать модели фонем, полученные на 40 итерации. В этих моделях число распределений в
Гауссовских смесях равняется 29.
Созданный программный модуль предоставляет возможности записи речевого фрагмента
с помощью микрофона, а также загрузки необходимого звукового файла. Общий вид формы
представлен на Рис. 6.
Рисунок 6. Форма распознавания фонем татарского языка.
Заключение
Построение и реализация алгоритма автоматического транскрибирования татарских
текстов, а также создание аннотированного корпуса звучащей татарской речи позволило
231
реализовать программный модуль автоматического распознавания фонем татарского языка.
Применяемый при создании моделей фонем аппарат скрытых Марковских моделей показал
хорошее качество обучения. Проведенные серии экспериментов позволили выявить
оптимальные характеристики моделей для их дальнейшего использования в системе.
Дальнейшее улучшение качества работы распознавателя возможно засчет увеличения
размера обучающего корпуса татарской речи, что позволит обучить модели на основе
Гауссовских смесей большей размерности.
Литература
1.
Lopes, C, Perdigao, F. Phone recognition on TIMIT database. Speech technologies. 285-302
(2011).
2.
Young, S: The HTK book (for HTK version 3.4). (2009).
3.
Gales, M, Young, S. The Application of Hidden Markov Models in Speech Recognition.
Foundations and Trends in Signal Processing. С. 113 (2007).
ZHANDOS YESSENBAYEV
1,2
, MUSLIMA KARABALAYEVA
2
, FIRUZA SHAMAYEVA
3
1
Nazarbayev University Research and Innovation System, Astana, Kazakhstan
2
L.N. Gumilev Eurasian National University, Astana, Kazakhstan
3
The Korkyt-Ata Kyzylorda State University, Kyzylorda, Kazakhstan
A BASELINE LARGE VOCABULARY CONTINUOUS
SPEECH RECOGNITION FOR KAZAKH
Abstract
In this paper we present our experiments on large vocabulary continuous speech recognition task
for Kazakh. This includes an acoustic database collection, acoustic and language modeling
experiments. The overall performance of a system is 6.9% WER.
Keywords: speech recognition, acoustic database, acoustic and language modeling for Kazakh
Introduction
Speech recognition is a process of automatic conversion of human speech into corresponding
text. Modern automatic speech recognition systems (ASR) advanced significantly from simple
speaker-dependent word recognition to speaker-independent large vocabulary continuous speech
recognition for broadcast news and telephone conversation transcriptions. Despite of widespread
use of such systems in daily life, most of them are concerned with the languages like English,
German, Japan, Russian, etc. As for Kazakh language, it is still underrepresented in speech
recognition research. Thus, the primary goal of this work is to build a baseline large vocabulary
continuous speech recognition system.
Fig. 1 outlines a standard architecture of a modern ASR system, which includes feature
extraction and pre-processing, acoustic and language modeling, system combination and decoding.
First step to build such a system for Kazakh would be collecting enough audio data, and creating the
acoustic and language models. This is exactly the way we approach the problem.
This paper presents an acoustic database of Kazakh speech in Section 2, the experiments and
conclusions are given in Sections 3 and 4, respectively.
Speech Text
232
Figure 1. The architecture of a standard ASR system.
Acoustic Database
Most of the modern speech processing systems requires large amount of audio and text data for
training the acoustic and language models. Depending on the type of an application data needed
varies from high quality microphone read speech (WSJ0 [1]) to conversational telephone speech
(Switchboard [2] or CALLHOME [3]), from continuous speech (TIMIT [4]) to connected
(TIDIGITS [5]) and isolated words (PhoneBook [6]). In our current work, we collected a corpus of
28 hours high quality microphone read Kazakh speech of 169 native speakers for the large
vocabulary continuous speech recognition tasks. The acoustic database is initiated as a part of the
Kazakh Language Corpus compiled in [7].
Text materials
The text materials to be uttered were carefully selected from the primary text corpus and divided
into two parts: short sentences and stories.
The “sentences” part has more than 12K different sentences randomly and equally extracted
from the five stylistic genres mentioned above. The sentences are chosen so that they have more
than 120K words contained in the list of the most frequent words covering the 95% of all the texts
in the primary corpus. Additionally, the sentences were grouped according to their length in words.
Thus, we have 10 groups of sentences having the lengths from 6 to 15 words in each.
The “stories” part contains the short online news extracted from massmedia section of the
primary text corpus. Each story has not more than 300 words.
All the text materials were subdivided into numbered small and nonintersecting sets to be uttered
by the speakers. A standard set for one speaker has exactly 75 sentences (by 10 sentences from five
shorter groups and by 5 sentences from five longer groups) and 1 story.
Speakers
The speakers that took part in the recordings are volunteers recruited by advertisements in the
local newspapers and personal referral. The main criteria of speaker selection were a region where
he/she learned Kazakh or spent most of his/her life, age, gender and the ability to read Kazakh.
The first criterion helped to capture variability present in speech due to the speakers’ settlement
both local and external. Totally there are 15 region groups: 14 official regions (“oblast”) of
Kazakhstan and one group for those who lived outside of the country.
The speakers are divided into four age groups not including children and school students:
I group – 18-27 years;
II group – 28-37 years;
III group – 38-47 years;
IV group – 48 years and above.
We did not strictly balance the speakers by their gender due to the difficulties in finding the
volunteers but still tried to keep the number of speakers of one gender per profile not more than 3.
The female and male distributions are 57% and 43%, respectively.
The other important criterion was the ability to read Kazakh since not all the interviewees could
read in Kazakh sufficiently fluent, what is a common issue in a bilingual country such as
Kazakhstan. Additionally we kept the records of the speakers’ education whether they graduated
last from school, college or university.
Totally, we recorded 169 speakers. The following Table 1 presents the distribution of the
speakers across the regions, gender and age groups. The blank spots show the speaker profiles that
we could not recruit. Mostly, these correspond to the distant regions and elder male groups.
233
Достарыңызбен бөлісу: |