I. Системы и средства искусственного интеллекта issn 2413-7383 Problems of Artificial Intelligence 2019 №4 (15) 35 П



Pdf көрінісі
бет3/7
Дата04.04.2023
өлшемі0,6 Mb.
#79087
1   2   3   4   5   6   7
Байланысты:
sistema-avtomaticheskoy-generatsii-transkriptsiy-russkoyazychnyh-slov-isklyucheniy-na-osnove-glubokogo-obucheniya

i
} (массив слов). 
2) Каждое w
i
находим в созданном словаре и извлекаем индекс символа. В итоге 
получается массив индексов символов U={u
m
}. 
3) Информация записывается в матрицу индексов М, длиной NR, где N – 
общее количество слов; R – максимальное количество слов в предложении. Матрица 
M, затем транспонируется и получаем F
inp
. Помимо матрицы M, формируется матри-
ца L, размером N1, содержащая информацию о количестве символов. 
4) Аналогичным способом формируем матрицу для транскрипций F
out
, используя 
массив транскрипций (T) и максимальную длину транскрипции. 
В качестве основной архитектуры для обучения использовалась архитектура 
Transformer. При обучении нейросети использовались следующие гиперпараметры: 
-
количество скрытых слоёв: 512; 
-
размер входных векторов для енкодера: 26; 
-
размер входных векторов для декодера: 31; 
-
размер батча: 128; 
-
количество блоков в енкодере (енкодер переводит входной сигнал в более 
компактное представление, при этом сохраняя семантическую информацию): 5, 
-
количество блоков в декодере (восстанавливает исходный сигнал из компакт-
ного представления): 3; 
-
количество заголовков обучающегося внимания: 4; 
-
функция активации для скрытых слоёв: rectified linear unit; 
-
функция активации выходного слоя: softmax; 
-
функция потерь: разреженная кросс-энтропия; 
-
коэффициент dropout-регуляризации: 0.2; 


Система автоматической генерации транскрипций русскоязычных слов-исключений… 
Problems of Artificial Intelligence 2019 № 4 (15) 
43
В 
П 
-
функция регуляризации: L2-регуляризация; 
-
оптимизатор для градиентного спуска: AdamBound; 
-
коэффициент скорости обучения: 0.0001; 
-
количество эпох: 100 тыс. 
Дополнительно нейросеть была улучшена при помощи следующих модификаций. 
1. Техника «принуждения учителя» (teacher forcing) [26]. Это означает, что с 
некоторой вероятностью, установленной отношением принуждения учителя, мы ис-
пользуем текущее целевое слово в качестве следующего ввода декодера, а не исполь-
зуя текущее предположение декодера. Эта техника действует в качестве обучающих 
колес для декодера, помогая в более эффективном обучении. Однако принуждение 
учителя может привести к нестабильности модели во время логического вывода, 
поскольку у декодера может не быть достаточного шанса по-настоящему создать 
собственные выходные последовательности во время обучения. Таким образом, мы 
должны помнить о том, как мы устанавливаем соотношение принуждения учителей, 
и не обманываться быстрой конвергенцией. 
2. Градиентное отсечение (clip gradient) [26]. Это общепринятый метод, направ-
ленный на решение проблемы «взрывных градиентов» (vanishing gradients). По сути, 
обрезая градиенты или устанавливая пороговые значения до максимального значения, 
мы предотвращаем экспоненциальный рост градиентов и переполнение (равенство 
градиентов нулю), или превышение крутых обрывов в функции оценивания (рис. 6). 
Рисунок 6 – Изображение сравнения функции потерь без градиентного отсечения (а),
и с градиентным отсечением (б) 
Другой особенностью данной архитектуры является совместное применение 
обучения с учителем и обучения с подкреплением, реализованным в RL-block. Данная 
архитектура приведена на рис. 7, где forward-transformer – нейросетевая модель для 
генерации транскрипции для слов, обученная на парах x-y (слово-транскрипция); 
backward-transformer – нейросетевая модель для генерации слов для транскрипций, 
обученная на парах y-x; RL-block – механизм обучения с подкреплением; forward_RL-
transformer – итоговая нейросетевая модель генерации транскрипции. 
Механизм RL-block используется для переопределения вероятностей, т.е. для 
увеличения правдоподобия «хороших» сценариев (обладающих высокой наградой, 
reward, 

) и понизить правдоподобие «плохих» сценариев (policy gradient): 














Достарыңызбен бөлісу:
1   2   3   4   5   6   7




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет