I. Системы и средства искусственного интеллекта issn 2413-7383 Problems of Artificial Intelligence 2019 №4 (15) 35 П



Pdf көрінісі
бет7/7
Дата04.04.2023
өлшемі0,6 Mb.
#79087
1   2   3   4   5   6   7
Conference on Analysis of Images, Social Networks and Texts, Springer, Cham, 2015, pp. 320-332. 
RESUME
 
Ya. S. Pikalyov, T. V. Yermolenko 
System of automatic transcription generation of Russian-language words 
exceptions on the basis of deep learning 
 
Since the recognized units in speech recognition systems are phonetic level units, it 
is necessary to create a dictionary containing words with their orthographic and phonemic 
representation. Such a dictionary is developed using canonical phonetic transcription rules. 
Word transcription generation is one of the most important steps that affect the 
effectiveness of speech recognition. Russian phonetics and orthoepy rules do not apply to 
the algorithm for obtaining transcription for exception words. Therefore, it is an urgent 
task to build models for automatic transcription generation for exception words that take 
into account the features of Russian phonetics. 
 
The article considers approaches to automatic transcription generation, their 
advantages and disadvantages. Among the algorithms for generating transcriptions of 
words belonging to the statistical modeling group, the neural network approach shows the 
best results if there is a large amount of training data. 
The training data is usually a dictionary of words with their phonemic transcriptions. 
The Transformer neural network model based on the seq2seq model, which uses 
separate models of the encoder, converting words of the input sentence into one or more 
vectors in a certain space, and the decoder, generating a sequence of words from these 
vectors, is well established in natural language processing tasks. The encoder in the 
Transformer uses layers with a masking multilayer attention mechanism. 


Система автоматической генерации транскрипций русскоязычных слов-исключений… 
Problems of Artificial Intelligence 2019 № 4 (15) 
49
В 
П 
In the paper a model based on the Transformer architecture with some modifications 
is proposed for automatic generation of transcription of exception words. The model used 
the “teacher forcing” technique to train the decoder, which is to use the current target word 
as the decoder’s next input, rather than the decoder’s current assumption. This made it 
possible to increase the efficiency of decoder training. In addition, gradient clipping was 
used to solve the problem of “explosive gradients”. Another feature of the proposed 
architecture is the combined use of teacher training and reinforcement learning, which is 
used to redefine probabilities on the output layer. This technique increases the likelihood of 
“good” scenarios (which have a high reward) and lowers the likelihood of “bad” scenarios, 
which increases the accuracy of the model. 
To train the neural network, a word encoding algorithm was developed to optimize 
the learning process of the mini-batch type of training, and a dictionary containing more 
than 5 million word forms was created, as well as phonetic dictionaries of exception words 
available on the Network, which were supplemented with paradigms. 
The results of numerical studies show that the proposed technique of modernization 
models such as sequence-to-sequence based changes in the structure of the algorithm 
allowed to increase the accuracy of the trained model generating transcriptions for 
exception words for PER-exclusion words by 9%, and by 3% according to WER criterion.
 
РЕЗЮМЕ
 
Я. С. Пикалёв, Т. В. Ермоленко 
Система автоматической генерации транскрипций русскоязычных слов-
исключений на основе глубокого обучения 
Поскольку в системах распознавания слитной речи распознаваемыми единицами 
являются единицы фонетического уровня, то возникает необходимость создания 
словаря, содержащего слова с их орфографическим и фонематическим представлением. 
Такой словарь разрабатывается с использованием канонических фонетических правил 
транскрибирования. Генерация транскрипции слов является одним из важных этапов
влияющих на эффективность распознавания речи. Алгоритм получения транскрипции 
для слов-исключений не подчиняется правилам фонетики и орфоэпии русского языка, 
поэтому построение моделей автоматической генерации транскрипций для слов-
исключений, учитывающих особенности фонетики русского языка, является актуальной 
задачей. 
В статье рассмотрены подходы к автоматической генерации транскрипций, их 
преимущества и недостатки. Среди алгоритмов генерации транскрипций слов, 
относящихся к группе статистического моделирования, наилучшие результаты 
показывает нейросетевой подход при наличии обучающих данных большого объема. 
В качестве обучающих данных обычно выступает словарь слов с их фонемными 
транскрипциями.
В задачах обработки естественного языка хорошо зарекомендовала себя нейросе-
тевая модель Transformer, основанная на seq2seq модели, которая использует отдельные 
модели енкодера, преобразовывая слова входного предложения в один или больше 
векторов в определенном пространстве, и декодера, генерируя из этих векторов 
последовательность слов. Енкодер в Transformer использует слои c механизмом 
маскирующего многослойного внимания.
В работе для автоматической генерации транскрипции слов-исключений пред-
лагается модель на основе архитектуры Transformer с некоторыми модификациями


Пикалёв Я. С., Ермоленко Т. В. 
Проблемы искусственного интеллекта 2019 № 4 (15)
50
П 
В модели для обучения декодера использовалась техника «teacher forcing», которая 
заключается в использовании текущего целевого слова в качестве следующего ввода 
декодера, а не текущего предположения декодера. Это позволило повысить эф-
фективность обучения декодера. Кроме того, использовалось градиентное отсечение 
для решения проблемы «взрывных градиентов». Еще одной особенностью предло-
женной архитектуры является совместное применение обучения с учителем и 
обучения с подкреплением, которое используется для переопределения вероятностей 
на выходном слое. Эта техника увеличивает правдоподобие «хороших» сценариев 
(обладающих высокой наградой) и понижает правдоподобие «плохих» сценариев, 
что повышает точность модели. 
Для обучения нейросети был разработан алгоритм кодирования слов, направ-
ленный на оптимизацию процесса обучения модели при помощи мини-пакетного 
типа обучения, а также создан словарь, содержащий более 5 млн уникальных 
словоформ, доступные в Сети фонетические словари слов-исключений, которые 
были дополнены парадигмами.
Результаты численных исследований показали, что предложенная техника 
модернизации моделей типа sequence-to-sequence на основе внесения изменений в 
структуру алгоритма построения позволила повысить точность обученной модели 
генерации транскрипций для слов-исключений по критерию PER на 9%, по 
критерию WER на – 3%. 
Статья поступила в редакцию 13.11.2019. 


Достарыңызбен бөлісу:
1   2   3   4   5   6   7




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет