Атты І халықаралық конференция ЕҢбектері


Акустические модели фонем



Pdf көрінісі
бет228/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   224   225   226   227   228   229   230   231   ...   326
Акустические модели фонем 
Созданные  на  подготовительном  этапе  обучающий  корпус  речи  и  система 
транскрибирования позволяют реализовать алгоритм обучения акустических моделей фонем. 
Данный  алгоритм  носит  название  forced  alignment  и  не  требует  наличия  вручную 
фонетически  аннотированного  корпуса.  Для  реализации  алгоритма  будет  использован 
инструмент  HTK  Toolkit,  первоначально  созданный  в  университете  Кэмбриджа,  а  в 
настоящее время принадлежащий компании Microsoft. 
Каждая  фонема  была  смоделирована  скрытой  Марковской  моделью,  состоящей  из  трех 
состояний,  с  ограничениями  на  переход  на  более  ранние  состояния.  Каждое  из  трех 
состояний моделировалось, в свою очередь, смесью Гауссовских распределений. Структура 
модели фонемы представлена на Рис. 3.  
 
 
 
Рисунок 3. Структура модели фонемы. 
 
Было проведено две серии экспериментов. В первой серии изучалась сходимость процесса 
обучения  на  корпусе,  совпадающем  с  корпусом  обучения.  Вторая  серия  экспериментов 
проводилась  на  тестовом  корпусе,  не  участвовавшем  в  обучении  моделей.  В  обоих 
экспериментах  количество  Гауссовских  распределений  в  смесях  постепенно  наращивалось, 
после каждого увеличения происходило два цикла переобучения всех моделей. Зависимость 
качества  распознавания  от  количества  итераций,  т.е.  количества  распределений  в 
Гауссовских смесях, представлена на Рис. 4 и 5. Качество распознавания анализировалось по 
двум критериям: Corr и Acc, которые вычисляются по следующим формулам: 
 
 
 
 
 
 
 


230 
 
 
 
Рисунок 4. Зависимость качества распознавания от количества итераций на обучающем 
корпусе. 
 
 
Рисунок 5. Зависимость качества распознавания от количества итераций на тестовом 
корпусе. 
 
Анализ полученных результатов показывает, что рост числа распределений в Гауссовских 
смесях и увеличение числа циклов обучения моделей с определенного момента не оказывает 
существенного влияния на качество распознавания фонем на тестовом корпусе. Это связано 
с  тем,  что  для  качественного  обучения  большего  числа  распределений  необходим  всё 
больший объем исходной обучающей информации. 
Таким  образом,  при  построении  системы  фонетического  распознавателя  было  решено 
выбрать модели фонем, полученные на 40 итерации. В этих моделях число распределений в 
Гауссовских смесях равняется 29. 
Созданный программный модуль предоставляет возможности записи речевого фрагмента 
с помощью микрофона, а также загрузки необходимого звукового файла. Общий вид формы 
представлен на Рис. 6. 
 
 
 
Рисунок 6. Форма распознавания фонем татарского языка. 
 


Достарыңызбен бөлісу:
1   ...   224   225   226   227   228   229   230   231   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет