Система автоматической генерации транскрипций русскоязычных слов-исключений…
Problems of Artificial Intelligence 2019 № 4 (15)
49
В
П
In the paper a model based on the Transformer architecture with some modifications
is proposed for automatic generation of transcription of exception words. The model used
the “teacher forcing” technique to train the decoder, which is to use the current target word
as the decoder’s next input, rather than the decoder’s current assumption. This made it
possible to increase the efficiency of decoder training. In addition, gradient clipping was
used to solve the problem of “explosive gradients”. Another feature of the proposed
architecture is the combined use of teacher training and reinforcement learning, which is
used to redefine probabilities on the output layer. This technique increases the likelihood of
“good” scenarios (which have a high reward) and lowers the likelihood of “bad” scenarios,
which increases the accuracy of the model.
To train the neural network, a word encoding algorithm was developed to optimize
the learning process of the mini-batch type of training, and a dictionary containing more
than 5 million word forms was created, as well as phonetic dictionaries of exception words
available on the Network, which were supplemented with paradigms.
The results of numerical studies show that the proposed technique of modernization
models such as sequence-to-sequence based changes in the structure of the algorithm
allowed to increase the accuracy of the trained model generating transcriptions for
exception words for PER-exclusion words by 9%, and by 3% according to WER criterion.
РЕЗЮМЕ
Я. С. Пикалёв, Т. В. Ермоленко
Система автоматической генерации транскрипций русскоязычных слов-
исключений на основе глубокого обучения
Поскольку в
системах распознавания слитной речи распознаваемыми единицами
являются единицы фонетического уровня, то возникает необходимость создания
словаря, содержащего слова с их орфографическим и фонематическим представлением.
Такой словарь разрабатывается с использованием канонических фонетических правил
транскрибирования. Генерация транскрипции слов является одним из
важных этапов,
влияющих на эффективность распознавания речи. Алгоритм получения транскрипции
для слов-исключений не подчиняется правилам фонетики и орфоэпии русского языка,
поэтому построение моделей автоматической генерации транскрипций для слов-
исключений, учитывающих особенности фонетики русского языка, является актуальной
задачей.
В статье рассмотрены подходы к автоматической генерации транскрипций, их
преимущества и недостатки. Среди алгоритмов генерации транскрипций слов,
относящихся к группе статистического моделирования, наилучшие результаты
показывает нейросетевой подход при наличии обучающих данных большого объема.
В качестве обучающих данных обычно выступает словарь слов с их фонемными
транскрипциями.
В задачах обработки естественного языка хорошо зарекомендовала себя нейросе-
тевая модель Transformer, основанная на seq2seq модели, которая использует отдельные
модели енкодера, преобразовывая слова входного предложения в
один или больше
векторов в определенном пространстве, и декодера, генерируя из
этих векторов
последовательность слов. Енкодер в Transformer использует слои c механизмом
маскирующего многослойного внимания.
В работе для автоматической генерации транскрипции слов-исключений пред-
лагается модель на основе архитектуры Transformer с
некоторыми модификациями.
Пикалёв Я. С., Ермоленко Т. В.
Проблемы искусственного интеллекта 2019 № 4 (15)
50
П
В
модели для обучения декодера использовалась техника «teacher forcing», которая
заключается в использовании текущего целевого слова в качестве следующего ввода
декодера, а не текущего предположения декодера. Это позволило повысить эф-
фективность обучения декодера. Кроме того, использовалось градиентное отсечение
для решения проблемы «взрывных градиентов». Еще одной особенностью предло-
женной архитектуры является совместное применение обучения с
учителем и
обучения с подкреплением, которое используется для переопределения вероятностей
на выходном слое. Эта техника увеличивает правдоподобие «хороших» сценариев
(обладающих высокой наградой) и понижает правдоподобие «плохих» сценариев,
что повышает точность модели.
Для обучения нейросети был разработан алгоритм кодирования слов, направ-
ленный на оптимизацию процесса обучения модели при помощи мини-пакетного
типа обучения, а также создан словарь, содержащий более 5 млн уникальных
словоформ, доступные в Сети фонетические словари слов-исключений, которые
были дополнены парадигмами.
Результаты численных исследований показали, что предложенная техника
модернизации моделей типа sequence-to-sequence на основе внесения изменений в
структуру алгоритма построения позволила повысить точность обученной модели
генерации транскрипций для слов-исключений по критерию PER на 9%, по
критерию WER на – 3%.
Статья поступила в редакцию 13.11.2019.