I. Системы и средства искусственного интеллекта issn 2413-7383 Problems of Artificial Intelligence 2019 №4 (15) 35 П

жүктеу/скачать 0,6 Mb.

Pdf көрінісі

бет	3/7
Дата	04.04.2023
өлшемі	0,6 Mb.
	#79087

1 2 3 4 5 6 7

i
} (массив слов).
2) Каждое w
i
находим в созданном словаре и извлекаем индекс символа. В итоге
получается массив индексов символов U={u
m
}.
3) Информация записывается в матрицу индексов М, длиной NR, где N –
общее количество слов; R – максимальное количество слов в предложении. Матрица
M, затем транспонируется и получаем F
inp
. Помимо матрицы M, формируется матри-
ца L, размером N1, содержащая информацию о количестве символов.
4) Аналогичным способом формируем матрицу для транскрипций F
out
, используя
массив транскрипций (T) и максимальную длину транскрипции.
В качестве основной архитектуры для обучения использовалась архитектура
Transformer. При обучении нейросети использовались следующие гиперпараметры:
-
количество скрытых слоёв: 512;
-
размер входных векторов для енкодера: 26;
-
размер входных векторов для декодера: 31;
-
размер батча: 128;
-
количество блоков в енкодере (енкодер переводит входной сигнал в более
компактное представление, при этом сохраняя семантическую информацию): 5,
-
количество блоков в декодере (восстанавливает исходный сигнал из компакт-
ного представления): 3;
-
количество заголовков обучающегося внимания: 4;
-
функция активации для скрытых слоёв: rectified linear unit;
-
функция активации выходного слоя: softmax;
-
функция потерь: разреженная кросс-энтропия;
-
коэффициент dropout-регуляризации: 0.2;

Система автоматической генерации транскрипций русскоязычных слов-исключений…
Problems of Artificial Intelligence 2019 № 4 (15)
43
В
П
-
функция регуляризации: L2-регуляризация;
-
оптимизатор для градиентного спуска: AdamBound;
-
коэффициент скорости обучения: 0.0001;
-
количество эпох: 100 тыс.
Дополнительно нейросеть была улучшена при помощи следующих модификаций.
1. Техника «принуждения учителя» (teacher forcing) [26]. Это означает, что с
некоторой вероятностью, установленной отношением принуждения учителя, мы ис-
пользуем текущее целевое слово в качестве следующего ввода декодера, а не исполь-
зуя текущее предположение декодера. Эта техника действует в качестве обучающих
колес для декодера, помогая в более эффективном обучении. Однако принуждение
учителя может привести к нестабильности модели во время логического вывода,
поскольку у декодера может не быть достаточного шанса по-настоящему создать
собственные выходные последовательности во время обучения. Таким образом, мы
должны помнить о том, как мы устанавливаем соотношение принуждения учителей,
и не обманываться быстрой конвергенцией.
2. Градиентное отсечение (clip gradient) [26]. Это общепринятый метод, направ-
ленный на решение проблемы «взрывных градиентов» (vanishing gradients). По сути,
обрезая градиенты или устанавливая пороговые значения до максимального значения,
мы предотвращаем экспоненциальный рост градиентов и переполнение (равенство
градиентов нулю), или превышение крутых обрывов в функции оценивания (рис. 6).
Рисунок 6 – Изображение сравнения функции потерь без градиентного отсечения (а),
и с градиентным отсечением (б)
Другой особенностью данной архитектуры является совместное применение
обучения с учителем и обучения с подкреплением, реализованным в RL-block. Данная
архитектура приведена на рис. 7, где forward-transformer – нейросетевая модель для
генерации транскрипции для слов, обученная на парах x-y (слово-транскрипция);
backward-transformer – нейросетевая модель для генерации слов для транскрипций,
обученная на парах y-x; RL-block – механизм обучения с подкреплением; forward_RL-
transformer – итоговая нейросетевая модель генерации транскрипции.
Механизм RL-block используется для переопределения вероятностей, т.е. для
увеличения правдоподобия «хороших» сценариев (обладающих высокой наградой,
reward,

R ) и понизить правдоподобие «плохих» сценариев (policy gradient):













жүктеу/скачать 0,6 Mb.

Достарыңызбен бөлісу:

1 2 3 4 5 6 7