219
Рис1. Блок-схема
функционирования синтезатора татарской речи
1
. Нормализация включает предварительную обработку входного текста: расшифровку
аббревиатур, перевод чисел в числительные, удаление или расшифровку различного рода
символов (%, №, $) и пр. Нормализация производится по определенным правилам с
помощью заранее подготовленных словарей. Выяснилось, что многие аббревиатуры в
письменном татарском языке употребляются в русской версии (НИИ, УВД, США). При
доминирующем положении в обществе русского языка перевод их на татарский язык может
инициировать образование языкового барьера. При создании словаря аббревиатур
рассматривались в основном именно такие варианты, при этом расшифровка таких терминов
переводилось на татарский язык. Определенная сложность возникает при переводе числа в
числительное. Например, цифра 10 в зависимости от контекста может быть расшифрована
как «ун» или «унынчы». Для расшифровки таких фрагментов необходим анализ контекста
ближайшего окружения соответствующего числа. Кроме того, полноценный синтезатор
должен уметь воспроизводить также математические формулы. Эта задача относится к
одновременной реализации в рамках одной системы синтеза нескольких языков, кроме того
система кодирования формул математического языка может быть различной, что выводит за
рамки простого перевода формул в текстовое представление. По этой причине такая задача
является достаточно сложной и в
данной версии не рассматривалась.
2. Большие трудности в создании системы синтеза речи по орфографическому тексту
возникают при фонемной транскрипции входной фразы. Под фонемной транскрипцией
понимается перевод единиц орфографического текста в звуковые единицы языка. Сложность
преобразования «графема–фонема» для разных языков различна. Что касается татарского
языка, то трудности обусловлены, прежде всего, ненаучным характером его орфографии.
Помимо множества незначительных двусмысленностей в правилах типа «… некатегоричное
будущее время глаголов образуется суффиксом -ыр/ер, а в
некоторых случаях суффиксом –
ар/әр (ит+әр)», в орфографии значится такое правило: «слова, заимствованные письменным
путем из русского языка или через него, пишутся так, как принято в русской орфографии»
[6]. Использование данного ïðàâèëà ïðèâåëî к тому, что в ñëîâàðÿõ òàòàðñêîãî языка около 10-
15% слов ñîõðàíÿþò ÷åðòû àðàáñêîãî письма, а 35- 40% слов пишутся ïî-ðóññêè. Ðàñõîæäåíèÿ
220
ìåæäó ãðàôèêîé и звуковой системой ÿçûêà îêàçàëиñü çíà÷èòåëüíûì è òðóäíî ïîääàþùèìñÿ
ñèñòåìàòèçàöèè. В связи с таким положением дел при создании транскрибиратора пришлось
выбирать между следующими альтернативами:
íàó÷èòü ñèíòåçàòîð произносить àðàáñêèå ñëîâà ñ àðàáñêèì àêöåíòîì, ðóññêèå ñëîâà ïî-
ðóññêè, à òàòàðñêèå – ïî-òàòàðñêè
îçâó÷èâàòü çàèìñòâîâàíèÿ в соответствии с ôîíåòè÷åñêîé системой òàòàðñêîãî ÿçûêà.
Современная орфография придерживается первого варианта. Для того, чтобы ïðîèçíîñèòü
ðóññêèå заимствования на языке îðèãèíàëà, фонетическая система òàòàðñêîãî языка была
дополнена гласными фонемами /ō/, /û/, /ē/, согласными - /ö/, /ù/, /q/, /g/, /в/, а òàêæå
специальными символами "ь" и "ъ". В результате современная графика татарского языка
представляет эклектику трех языковых систем - собственно татарской, а также русской и
арабской. Но это еще не все. Дополнение фонетической системы татарского языка тремя
гласными и пятью согласными оказалось недостаточным для произношения всех
заимствований так, как в оригинале. Потребуется, по крайней мере, дополнительное
включение в фонетическую систему татарского языка фонем /а/ и /ль/, а в оптимальном
случае - всех русских гласных и согласных. Так, в словах [
кабинетка] и [
гаражга] фонемы
/а/ в начальном и конечным слогах оказались невзаимозаменяемыми, а слова [
тол], [
толь] и
[
тŏл] контрастируют не только по гласным фонемам. Данное обстоятельство вынудило
разработчиков отказаться от предложенных лингвистами орфоэпических норм и выбрать
второй путь - озвучивать заимствования в согласии с фонетической системой òàòàðñêîãî
языка.
Данный подход предполагает осуществление фонематической транскрипции в два этапа.
На первом этапе необходимо определить - является ли входное слово заимствованным или
исконно татарским, на втором – с помощью соответствующего алгоритма выполнить саму
транскрипцию. Такой способ (выполнение транскрипции в два этапа) вполне естественен.
Действительно, чтобы правильно транскрибировать, к примеру, слова
Казан и Казань,
Достарыңызбен бөлісу: