Система автоматической генерации транскрипций русскоязычных слов-исключений…
Problems of Artificial Intelligence 2019 № 4 (15)
43
В
П
-
функция регуляризации: L2-регуляризация;
-
оптимизатор для градиентного спуска: AdamBound;
-
коэффициент скорости обучения: 0.0001;
-
количество эпох: 100 тыс.
Дополнительно нейросеть была улучшена при помощи следующих модификаций.
1. Техника «принуждения учителя» (teacher forcing) [26]. Это означает, что с
некоторой вероятностью, установленной отношением принуждения учителя, мы ис-
пользуем текущее целевое слово в качестве следующего ввода декодера, а не исполь-
зуя текущее предположение декодера. Эта техника действует в качестве обучающих
колес для декодера, помогая в
более эффективном обучении. Однако принуждение
учителя может привести к нестабильности модели во время логического вывода,
поскольку у декодера может не быть достаточного шанса по-настоящему создать
собственные выходные последовательности во время обучения. Таким образом, мы
должны помнить о том, как мы устанавливаем соотношение принуждения учителей,
и не обманываться быстрой конвергенцией.
2. Градиентное отсечение (clip gradient) [26]. Это
общепринятый метод, направ-
ленный на решение проблемы «взрывных градиентов» (vanishing gradients). По сути,
обрезая градиенты или устанавливая пороговые значения до максимального значения,
мы предотвращаем экспоненциальный рост градиентов и переполнение (равенство
градиентов нулю), или превышение крутых обрывов в функции оценивания (рис. 6).
Рисунок 6 – Изображение сравнения
функции потерь без градиентного отсечения (а),
и с градиентным отсечением (б)
Другой особенностью данной архитектуры является совместное применение
обучения с
учителем и обучения с подкреплением, реализованным в RL-block. Данная
архитектура приведена на рис. 7, где forward-transformer – нейросетевая модель для
генерации транскрипции для слов, обученная на парах
x-
y (слово-транскрипция);
backward-transformer – нейросетевая модель для генерации слов для транскрипций,
обученная на парах
y-
x; RL-block – механизм обучения с подкреплением; forward_RL-
transformer – итоговая нейросетевая модель генерации транскрипции.
Механизм RL-block используется для переопределения вероятностей, т.е. для
увеличения правдоподобия «хороших» сценариев (обладающих высокой наградой,
reward,
R ) и понизить правдоподобие «плохих» сценариев (policy gradient):
Достарыңызбен бөлісу: