I. Системы и средства искусственного интеллекта issn 2413-7383 Problems of Artificial Intelligence 2019 №4 (15) 35 П

жүктеу/скачать 0,6 Mb.

Pdf көрінісі

бет	7/7
Дата	04.04.2023
өлшемі	0,6 Mb.
	#79087

1 2 3 4 5 6 7

Байланысты:
sistema-avtomaticheskoy-generatsii-transkriptsiy-russkoyazychnyh-slov-isklyucheniy-na-osnove-glubokogo-obucheniya

Conference on Analysis of Images, Social Networks and Texts, Springer, Cham, 2015, pp. 320-332.
RESUME

Ya. S. Pikalyov, T. V. Yermolenko
System of automatic transcription generation of Russian-language words
exceptions on the basis of deep learning

Since the recognized units in speech recognition systems are phonetic level units, it
is necessary to create a dictionary containing words with their orthographic and phonemic
representation. Such a dictionary is developed using canonical phonetic transcription rules.
Word transcription generation is one of the most important steps that affect the
effectiveness of speech recognition. Russian phonetics and orthoepy rules do not apply to
the algorithm for obtaining transcription for exception words. Therefore, it is an urgent
task to build models for automatic transcription generation for exception words that take
into account the features of Russian phonetics.

The article considers approaches to automatic transcription generation, their
advantages and disadvantages. Among the algorithms for generating transcriptions of
words belonging to the statistical modeling group, the neural network approach shows the
best results if there is a large amount of training data.
The training data is usually a dictionary of words with their phonemic transcriptions.
The Transformer neural network model based on the seq2seq model, which uses
separate models of the encoder, converting words of the input sentence into one or more
vectors in a certain space, and the decoder, generating a sequence of words from these
vectors, is well established in natural language processing tasks. The encoder in the
Transformer uses layers with a masking multilayer attention mechanism.

Система автоматической генерации транскрипций русскоязычных слов-исключений…
Problems of Artificial Intelligence 2019 № 4 (15)
49
В
П
In the paper a model based on the Transformer architecture with some modifications
is proposed for automatic generation of transcription of exception words. The model used
the “teacher forcing” technique to train the decoder, which is to use the current target word
as the decoder’s next input, rather than the decoder’s current assumption. This made it
possible to increase the efficiency of decoder training. In addition, gradient clipping was
used to solve the problem of “explosive gradients”. Another feature of the proposed
architecture is the combined use of teacher training and reinforcement learning, which is
used to redefine probabilities on the output layer. This technique increases the likelihood of
“good” scenarios (which have a high reward) and lowers the likelihood of “bad” scenarios,
which increases the accuracy of the model.
To train the neural network, a word encoding algorithm was developed to optimize
the learning process of the mini-batch type of training, and a dictionary containing more
than 5 million word forms was created, as well as phonetic dictionaries of exception words
available on the Network, which were supplemented with paradigms.
The results of numerical studies show that the proposed technique of modernization
models such as sequence-to-sequence based changes in the structure of the algorithm
allowed to increase the accuracy of the trained model generating transcriptions for
exception words for PER-exclusion words by 9%, and by 3% according to WER criterion.

РЕЗЮМЕ

Я. С. Пикалёв, Т. В. Ермоленко
Система автоматической генерации транскрипций русскоязычных слов-
исключений на основе глубокого обучения
Поскольку в системах распознавания слитной речи распознаваемыми единицами
являются единицы фонетического уровня, то возникает необходимость создания
словаря, содержащего слова с их орфографическим и фонематическим представлением.
Такой словарь разрабатывается с использованием канонических фонетических правил
транскрибирования. Генерация транскрипции слов является одним из важных этапов,
влияющих на эффективность распознавания речи. Алгоритм получения транскрипции
для слов-исключений не подчиняется правилам фонетики и орфоэпии русского языка,
поэтому построение моделей автоматической генерации транскрипций для слов-
исключений, учитывающих особенности фонетики русского языка, является актуальной
задачей.
В статье рассмотрены подходы к автоматической генерации транскрипций, их
преимущества и недостатки. Среди алгоритмов генерации транскрипций слов,
относящихся к группе статистического моделирования, наилучшие результаты
показывает нейросетевой подход при наличии обучающих данных большого объема.
В качестве обучающих данных обычно выступает словарь слов с их фонемными
транскрипциями.
В задачах обработки естественного языка хорошо зарекомендовала себя нейросе-
тевая модель Transformer, основанная на seq2seq модели, которая использует отдельные
модели енкодера, преобразовывая слова входного предложения в один или больше
векторов в определенном пространстве, и декодера, генерируя из этих векторов
последовательность слов. Енкодер в Transformer использует слои c механизмом
маскирующего многослойного внимания.
В работе для автоматической генерации транскрипции слов-исключений пред-
лагается модель на основе архитектуры Transformer с некоторыми модификациями.

Пикалёв Я. С., Ермоленко Т. В.
Проблемы искусственного интеллекта 2019 № 4 (15)
50
П
В модели для обучения декодера использовалась техника «teacher forcing», которая
заключается в использовании текущего целевого слова в качестве следующего ввода
декодера, а не текущего предположения декодера. Это позволило повысить эф-
фективность обучения декодера. Кроме того, использовалось градиентное отсечение
для решения проблемы «взрывных градиентов». Еще одной особенностью предло-
женной архитектуры является совместное применение обучения с учителем и
обучения с подкреплением, которое используется для переопределения вероятностей
на выходном слое. Эта техника увеличивает правдоподобие «хороших» сценариев
(обладающих высокой наградой) и понижает правдоподобие «плохих» сценариев,
что повышает точность модели.
Для обучения нейросети был разработан алгоритм кодирования слов, направ-
ленный на оптимизацию процесса обучения модели при помощи мини-пакетного
типа обучения, а также создан словарь, содержащий более 5 млн уникальных
словоформ, доступные в Сети фонетические словари слов-исключений, которые
были дополнены парадигмами.
Результаты численных исследований показали, что предложенная техника
модернизации моделей типа sequence-to-sequence на основе внесения изменений в
структуру алгоритма построения позволила повысить точность обученной модели
генерации транскрипций для слов-исключений по критерию PER на 9%, по
критерию WER на – 3%.
Статья поступила в редакцию 13.11.2019.

жүктеу/скачать 0,6 Mb.

Достарыңызбен бөлісу:

1 2 3 4 5 6 7