Методы дискриминантного анализа, основанные на Байесовской дискриминации [1];
Скрытые модели Маркова [2];
Искусственные нейронные сети [3];
Динамическое программирование – временные динамические алгоритмы (DTW) [4];
Следует отметить ряд преимуществ, к которым стремятся при разработке систем
распознавания речи:
1. Непрерывная речь — возможность, позволяющая пользователям говорить естественно
(непрерывно), не делая паузы между словами (дискретный ввод речи).
2. Большие словари — способность обрабатывать большое количество слов как общей,
так и специальной категории из технических и предметных областей знаний с целью
увеличения мощности и эффективности систем распознавания голоса.
3. Независимость от диктора — способность системы распознавать слова без
персональной настройки компьютера путем повторения одного и того же речевого сигнала.
Наиболее часто и успешно при распознавании слитной речи используется скрытая
марковская модель (НММ) [5, 6] либо ИНС [6, 7]. Для распознования выбираются различные
базовые единицы: фонемы, аллофоны, дифоны и трифоны и т.д. Для распознавания
отдельных слов все же эффективны временные динамические алгоритмы (DTW) [8].
В связи с тем, что распознавание целых слов надежнее, мы выбрали технологию
распознавания слов на основе наговоренной дифонной базы [9]. Суть в том, что система не
распознает дифоны по отдельности, а сначала синтезирует из них эталоны слов, и затем
распознает целые слова по алгоритму DTW.
Преимущество системы в том, что для добавления нового слова нет необходимости
обучать систему наговаривая слово, а достаточно ввести слово в текстовом виде.
Автоматическое генерирование эталонов слов из дифонов позволит сделать шаг в сторону
сверхбольших словарей, а дикторонезависимости системы можно добиться усреднением
эталонов.