Раздел I. Системы и средства искусственного интеллекта
ISSN 2413-7383
Problems of Artificial Intelligence
2019 №4 (15)
35
П
УДК 004.912
Я. С. Пикалёв
1
, Т. В. Ермоленко
2
1
Государственное учреждение «Институт проблем искусственного интеллекта», г. Донецк
83048, г. Донецк, ул. Артема, 118-б
2
Государственное образовательное учреждение высшего профессионального образования
«Донецкий национальный университет», г. Донецк
83000, г. Донецк, пр. Театральный, 13
CИСТЕМА АВТОМАТИЧЕСКОЙ ГЕНЕРАЦИИ
ТРАНСКРИПЦИЙ РУССКОЯЗЫЧНЫХ СЛОВ-
ИСКЛЮЧЕНИЙ НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ
Ya. S. Pikalyov
1
, T. V. Yermolenko
2
1
Public institution «Institute of Problems of Artificial Intelligence», Donetsk
83048, Donetsk, Artema str., 118-b
2
State Educational Institution of Higher Professional Education «Donetsk National University»
83000, Donetsk, Teatralnyiy av., 13
SYSTEM OF AUTOMATIC TRANSCRIPTION GENERATION
OF RUSSIAN-LANGUAGE WORDS EXCEPTIONS
ON THE BASIS OF DEEP LEARNING
В статье рассмотрены основные особенности фонетики и орфоэпии русского языка, которые
необходимо учитывать при генерации транскрипции, приведено краткое описание современных
подходов получения транскрипции. Особое внимание уделено нейросетевым архитектурам,
использующимся для задачи графемно-фонемного выравнивания. Для автоматической генерации
транскрипции слов-исключений предложен метод кодирования слов, а также нейросетевая
модель на основе архитектуры Transformer, модифицированной с помощью техники «teacher
forcing», градиентного отсечения, а также механизма RL-block, в котором реализовано совместное
применение обучения с учителем и обучения с подкреплением. Предложенная модификация
позволила повысить точность модели генерации транскрипций для слов-исключений по
критерию PER на 9%, по критерию WER – на 3%.
Ключевые слова: автоматическая генерация транскрипций; модель seq2seq,
модель с вниманием, архитектура Transformer, RL-block.
The article describes the main features of phonetics and orthoepy of the Russian language, which
must be considered when generating transcription, provides a brief description of modern
approaches to obtaining transcription. Special attention is given to the neural network architectures
used for the grapheme-phonematic alignment problems. For automatic generation of transcription
of word-exceptions, the method of word encoding is proposed, as well as a neural network model
based on the Transformer architecture, modified by the "teacher forcing" technique, gradient clipping,
as well as the RL-block mechanism, which implements the joint use of teacher training and learning with
the reinforcement. The proposed modification made it possible to increase the accuracy of the
transcription generation model for PER-exclusion words by 9%, and by 3% according to WER criterion.
Key words: automatic generation of transcriptions; seq2seq model, attention model,
Transformer architecture, RL-block.
Пикалёв Я. С., Ермоленко Т. В.
Проблемы искусственного интеллекта 2019 № 4 (15)
36
П
Введение
Для реализации системы распознавания слитной речи единицы распознавания
должны быть связаны с единицами фонетического уровня. Поэтому вместо создания
моделей для каждого слова создаются модели элементов нижнего уровня (слоги,
фонемы и т.п.). Необходимость использовать части фонем и контекстную зависимость
объясняется коартикуляцией (взаимным влиянием произносимых звуков друг на друга),
ассимиляцией (объединения звуков), а также редуцированием (сокращения длительности
определенных звуков вплоть до полного исчезновения). Причем в разговорном стиле
речи эти явления могут возникать как внутри слова, так и на стыках слов. Это приводит
к значительному снижению точности автоматического распознавания речи.
В настоящее время общепринятым является использование контекстно-незави-
симых фонем (монофонов) для средних словарей и контекстно-зависимых фонем
(дифонов, трифонов) для больших словарей. Возникает необходимость создания
словаря, содержащего слова с их орфографическим и фонетическим представлением,
который обычно создается с использованием канонических фонетических правил
транскрибирования для определенного языка. При этом именно генерация транс-
крипции слов является одним из важных шагов.
Для генерации транскрипции слов на русском языке достаточно знать позицию
ударения и фонетические правила. Алгоритм получения транскрипции для слов-
исключений, которыми изобилует современный русский язык, не подчиняется
правилам фонетики и орфоэпии русского языка. В связи с этим актуальной задачей
является построение моделей автоматической генерации транскрипций для слов-исклю-
чений, учитывающих влияние позиции ударения в слове (заударные, предударные
гласные, побочные ударения и т.п.), а также явления коартикуляции, редукции и
ассимиляции звуков русской речи.
Особенности фонетики русского языка
При разработке системы формирования автоматической транскрипции должен
быть предусмотрен ряд дополнений, учитывающих особенности фонетики русского
языка. Эти дополнения были сформированы на основе информации, полученной из
работ [1-6].
1. Слова-исключения. Под понятием «слово-исключение» в данной работе
подразумевается слово, не подчиняющееся правилам фонетики и орфоэпии русского
языка для получения транскрипции. Большая часть слов-исключений являются
иноязычными словами. В силу длительных экономических, политических, культур-
ных, военных и иных связей русского народа с другими в его язык проникло
значительное количество иноязычных слов, которые имеют различную степень
ассимиляции и неограниченную или ограниченную сферу употребления. В русской
лексикологической традиции выделяются: слова, давно усвоенные и используемые
наравне с русскими («стул», «лампа», «школа» и т.д.); слова, не всем понятные, но
необходимые, так как они обозначают понятия науки, техники, культуры и т.п.
(«фонема», «морфема», «дагностицизм» и т.п.); слова, которые могут быть заменены
исконно русскими без всякого ущерба для смысла и выразительности высказывания
(«эпатировать», «эпатаж», «апологет», «акцентировать», «визуальный» и т.п.).
Сейчас значительная часть таких слов по своему произношению ничем не отличает-
ся от слов исконно русских. Но некоторые из них – слова из разных областей
техники, науки, культуры, политики. Иноязычные собственные имена выделяются
среди других слов русского литературного языка своим произношением, как правило,
не следуя фонетическим и орфоэпическим нормам русского языка.
Система автоматической генерации транскрипций русскоязычных слов-исключений…
Problems of Artificial Intelligence 2019 № 4 (15)
37
В
П
2. Кроме иноязычных слов к словам-исключениям относят слова, чьё произно-
шение предопределяется литературной или диалектической нормой. Например,
«что» произносится как [што], потому что это соответствует литературной норме
(большинство производных от слова «что» тоже произносится с использованием
звукосочетания [шт]: «что-либо», «что-нибудь» и т.п.).
3. Сложносоставные слова. Большую трудность вызывают сложносоставные
слова – слова, состоящие из двух и более основ. Эта трудность вызвана наличием
более одного ударения в слове, в связи с чем стандартные правила транскрипции не
применимы. Явления, когда в образовании сложного слова используется более двух
корней, достаточно редки («веломотодром»). Следует отличать сложные слова от
простых. Так, в слове «электрификация» всего один корень «электри-», а все, стоящее
за ним, – это суффикс и окончание.
4. Предударные гласные (слоги). Ударения для гласных осуществляются сле-
дующим образом: алгоритмом определяется позиция ударения; все гласные, стоящие
перед ударной гласной, являются предударными гласными (слогами) и обозна-
чаются как «А_» (самая ближняя предударная обозначается как «А_» (где А – звук
«а»), в свою очередь остальные предударные обозначаются, например, как «А__».
Стоит отметить, что во втором и третьем предударных слогах гласные подвергаются
более значительной редукции, чем в первом слоге.
5. Заударные гласные (слоги). Гласные, стоящие после ударной гласной,
являются заударными и обозначаются как «А*», в свою очередь самая ближняя
обозначается как «А*», а самая дальняя как «А**». Произношение гласных в за-
ударных слогах, в большинстве случаев, аналогично произношению гласных во всех
предударных слогах, кроме первого.
6. Побочное ударение. Многие сложносоставные слова (имеющие более одного
корня) кроме основного ударения могут иметь побочное (или побочные). При наличии
двух ударений в слове побочным, как правило, объявляется ударение, находящееся
ближе к началу слова, а основным ударением объявляется ударение, находящееся
ближе к концу слова. Побочное ударение характеризует свободный стиль речи
(«общежитие», «девятьсот»). Помимо сложносоставных слов, побочное ударение могут
иметь и сложносокращённые слова («Донгормаш»). Также побочное ударение могут
иметь приставки в словах («чрезмерный»). С побочным ударением обычно произно-
сятся слова иноязычного происхождения («постскриптум»). Если в сложносоставном
слове три основы, то оно может иметь три ударения – 2 побочных и 1 основное («авиа-
метеослужба»).
7. Слова с апострофом. Апостроф является так называемым небуквенным
орфографическом знаком. При этом в ряде слов апостроф логически делит слово на
подслова («д' Ареццо» = «д» + «Ареццо»), также может входить в фонетическую
основу слова (Word'а = «ворда»).
Подходы к автоматической генерации транскрипции слов
Существующие подходы фонемного транскрибирования, реализованные в со-
временных системах распознавания речи, можно разбить на два направления:
1) на основе знаний («традиционный» подход);
2) на основе данных (статистический подход).
Методы «традиционного» подхода используют словарь или набор лингвисти-
ческих правил [7-9], сформированные экспертом-лингвистом. Методы статистиче-
Пикалёв Я. С., Ермоленко Т. В.
Проблемы искусственного интеллекта 2019 № 4 (15)
38
П
ского подхода [10], [11] заключаются в обучении алгоритма транскрибирования по
словарю, содержащем буквенные и фонемные формы представления слов. Недостаток
подхода на основе знаний заключается в ограниченности словаря и необходимости
ручного составления набора правил. Недостатком подхода на основе данных является
зависимость результата от обучающих данных.
Генерации транскрипций слов посвящён ряд работ [12-16], в работах [17-19]
рассматриваются методы генерации транскрипций для русского языка. Как правило,
разработчики систем построения транскрипций в качестве формата представления
транскрипций используют формат международного фонетического алфавита (International
Phonetic Alphabet, IPA) [20].
Рассмотренные в указанных работах (общедоступные) системы автоматиче-
ского формирования транскрипций не учитывают всех особенностей русского языка,
а именно:
степень предударности и заударности в гласных, т.к. она влияет на произношение;
побочные ударения;
произношение слов-исключений и слов с апострофами.
Также стоит отметить для «традиционного» подхода в случае, если слова нет в
словаре транскрипций – невозможно точно сгенерировать транскрипцию. Поэтому
разработка системы, объединяющей оба подхода, является актуальной задачей. То есть
использовать подход, при котором используется унифицированная транскрипция –
использовать словарь для получения транскрипции, а в том случае, если слова нет в
словаре – использовать вероятностную модель для генерации транскрипции.
Среди алгоритмов генерации транскрипций слов, относящихся к группе стати-
стического моделирования, наилучшие результаты показывает нейросетевой подход,
подразумевающий наличие извлечённых из набора обучающих данных статистиче-
ских зависимостей. В качестве обучающих данных обычно выступает словарь слов с
их фонемными транскрипциями. На основе обучающего словаря происходит сопо-
ставление букв с фонемами одного слова (задача графемно-фонемного выравнивания).
Выделяют следующие виды сопоставлений между буквами и фонемами:
один к одному (one-to-one): [самолёт]
‒ [saymalljot];
один ко многим (one-to-many): [самолёт]
‒ [s][ay][m][a][ll][jo][t];
многие ко многим (many-to-many): [с][а][м][о][л][ё][т]
‒ [s][ay][m][a][ll][jo][t].
В качестве одной из нейросетевых архитектур, использующихся для задач об-
работки естественного языка, к которым относится и графемно-фонемное выравни-
вание, выделяют модель seq2seq (sequence-to-sequence, множество во множество)
[21], базирующуюся на архитектуре RNN. Seq2seq (рис. 1) состоит из двух RNN:
одна представляет собой енкодер (для обработки входных данных), а другая – декодер
(для генерации выходного значения). Енкодер преобразует входную последователь-
ность данных X в свое непрерывное представление Y, которое, в свою очередь,
используется декодером для генерации вывода, по одному символу за раз.
Конечным состоянием кодировщика является вектор фиксированного размера z,
который должен кодировать входную последовательность, используя предобученную
модель. Это конечное состояние называется вложением последовательности (embedding)
или контекстным вектором. Декодер использует полученный контекстный вектор для
генерации выходных данных. Следовательно, формула для скрытых состояний енкодера
имеет следующий вид:
)
,
(
1
,
1
Достарыңызбен бөлісу: |