Звук Полная база Неполная база Диктор 1 95,4%
80,1%
Диктор 2 94,8%
78,8%
Диктор 3 95,5%
79,4%
Диктор 4 93,5%
77,5%
Диктор 5 94,2%
75,5%
Таким образом, выяснилось, что использование расширенной базы дифонов эффективнее
и надежнее.
Заключение Что означают полученные результаты? Во-первых, мы получили возможность
распознавать сверхбольшие словари, так как автоматическое генерирование эталонов
облегчает обучение системы. Алгоритм DTW вполне надежен для этого. Полагаем, что
дикторонезависимости можно добиться через усреднение эталонов. Но даже пока она
дикторозависима, создание дифонной базы займет максимум 2-3 часа.
Наиболее сложной в этой технологии является переход к слитной речи, так как сложно
определить границы слов в непрерывной речи. Затем вместо обычного словаря нужен
текстовый корпус со всевозможными предложениями и словосочетаниями. Можно
распознавать сочетании фраз как целые слова, но таких сочетаний будет много. Поэтому,
эффективно использование такой системы для определенной предметной области.
244
Но раз уж мы сделали шаг в сторону больших словарей, то возможно при кропотливой
работе эту проблему можно решить.