Атты І халықаралық конференция ЕҢбектері

Акустические модели фонем

жүктеу/скачать 8,57 Mb.

Pdf көрінісі

бет	228/326
Дата	07.01.2022
өлшемі	8,57 Mb.
	#19269

1 ... 224 225 226 227 228 229 230 231 ... 326

Акустические модели фонем
Созданные  на  подготовительном  этапе  обучающий  корпус  речи  и  система
транскрибирования позволяют реализовать алгоритм обучения акустических моделей фонем.
Данный  алгоритм  носит  название  forced  alignment  и  не  требует  наличия  вручную
фонетически  аннотированного  корпуса.  Для  реализации  алгоритма  будет  использован
инструмент  HTK  Toolkit,  первоначально  созданный  в  университете  Кэмбриджа,  а  в
настоящее время принадлежащий компании Microsoft.
Каждая  фонема  была  смоделирована  скрытой  Марковской  моделью,  состоящей  из  трех
состояний,  с  ограничениями  на  переход  на  более  ранние  состояния.  Каждое  из  трех
состояний моделировалось, в свою очередь, смесью Гауссовских распределений. Структура
модели фонемы представлена на Рис. 3.

Рисунок 3. Структура модели фонемы.

Было проведено две серии экспериментов. В первой серии изучалась сходимость процесса
обучения  на  корпусе,  совпадающем  с  корпусом  обучения.  Вторая  серия  экспериментов
проводилась  на  тестовом  корпусе,  не  участвовавшем  в  обучении  моделей.  В  обоих
экспериментах  количество  Гауссовских  распределений  в  смесях  постепенно  наращивалось,
после каждого увеличения происходило два цикла переобучения всех моделей. Зависимость
качества  распознавания  от  количества  итераций,  т.е.  количества  распределений  в
Гауссовских смесях, представлена на Рис. 4 и 5. Качество распознавания анализировалось по
двум критериям: Corr и Acc, которые вычисляются по следующим формулам:

230

Рисунок 4. Зависимость качества распознавания от количества итераций на обучающем
корпусе.

Рисунок 5. Зависимость качества распознавания от количества итераций на тестовом
корпусе.

Анализ полученных результатов показывает, что рост числа распределений в Гауссовских
смесях и увеличение числа циклов обучения моделей с определенного момента не оказывает
существенного влияния на качество распознавания фонем на тестовом корпусе. Это связано
с тем, что для качественного обучения большего числа распределений необходим всё
больший объем исходной обучающей информации.
Таким образом, при построении системы фонетического распознавателя было решено
выбрать модели фонем, полученные на 40 итерации. В этих моделях число распределений в
Гауссовских смесях равняется 29.
Созданный программный модуль предоставляет возможности записи речевого фрагмента
с помощью микрофона, а также загрузки необходимого звукового файла. Общий вид формы
представлен на Рис. 6.

Рисунок 6. Форма распознавания фонем татарского языка.

жүктеу/скачать 8,57 Mb.

Достарыңызбен бөлісу:

1 ... 224 225 226 227 228 229 230 231 ... 326