R E J T )
(
log
)
(
)
(
~
,
(7)
где
)
(
– это вероятность того, что будет реализован сценарий τ при условии пара-
метров модели θ, т.е. функция правдоподобия.
Пикалёв Я. С., Ермоленко Т. В.
Проблемы искусственного интеллекта 2019 № 4 (15)
44
П
forward-transformer
backward-transformer
x
y
x
y
RL-block
Forward_RL-transformer
Рисунок 7 – Общая схема обучения модели
Двигаясь вверх по этому градиенту, мы повышаем логарифм функции правдо-
подобия для сценариев, имеющих большой положительный R τ .
Данный механизм RL-block заключается в следующем.
1. Дополнительно к forward-transformer обучается backward-transfomer, используя
реверсный набор данных для обучения.
2. Инициализируется процесс обучения новой модели (forward_RL-transformer)
3. Используя закодированный набор пар слов и транскрипций к ним, при по-
мощи forward-transformer генерируется набор транскрипций.
4. Вычисляется loss для forward-transformer.
5. Сравнение векторных расстояний. Вычисляется косинусное расстояние между
векторами признаков, извлечённых из выходного слоя (vect o ) и предпоследнего
скрытого слоя forward-transformer (vect h ). Вектора признаков сжимаются до мини-
мального размера вектора из двух вышеуказанных векторов:
n i i n i i i n i i B A B A B A B A similarity 1
2
1
2
1
)
cos(
,
(8)
где A – vect o ; а B – vect h .
На основе этого вычисляется промежуточный reward (
1
rew )
0
если
),
log(
0
если
,
1
similarity similarity similarity similarity rew (9)
6. Проверка семантической когерентности. На этом этапе промежуточный rewad
(
2
rew ) вычисляется с использованием backward-transformer. Предсказывается слово
для транскрипции с соответствующей величиной loss. А также используются данные
из forward-transformer:
res loss res loss back back forw forw rew
2
,
(10)
где
loss forw ,
loss back – величина loss при использовании forward-transformer и
backward-transformer; forw
res
, back
res
– результирующий вектор для forward-transformer и
backward-transformer.
Система автоматической генерации транскрипций русскоязычных слов-исключений…
Problems of Artificial Intelligence 2019 № 4 (15)
45
В
П
7. Подсчёт финального reward (
end rew ):
2
2
1
rew rew rew end
.
(11)
8. Формирование списка N размера финальных rewards (rew