Атты І халықаралық конференция ЕҢбектері



Pdf көрінісі
бет222/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   218   219   220   221   222   223   224   225   ...   326
тоссыз  (несоленый),  бỳдка  –  буткы,  аяк  асты  -  аягасты  и  т.д.  В  противоположность 
ассимиляциям  по  месту  образования  (урман+лар=урман+нар),  ассимиляции  по  признаку 
"звонкость -  глухость" являются более значимыми в обеспечении качественного синтеза.  
4.  Ритмико-интонационное  оформление  фразы  является  одной  из  основных  и  трудно 
решаемых  задач  в  разработке  любого  синтезатора.  В  татарском  языке  в  отсутствие 
словесного  ударения  основную  роль  в  формировании  ритмико-мелодической  структуры 
                                                 
5
 Вообще говоря, основ может быть и более двух, но в этом случае транскрипция строится через словари 


223 
 
высказывания  играет  ритмическая  группа  (речевой  такт,  ритмическая  структура, 
фонетическое слово), точнее - разбиение фразы на ритмические группы.  
Исследования  показали[14],  что  распределение,  как  интенсивности,  так  и  длительности 
слогов  в  речевом  такте  подчиняется  определенным  закономерностям.  Произнесение 
ритмической группы имеет более энергичное начало и несколько расслабленное завершение, 
вследствие чего длительности слогов к концу речевого такта несколько увеличиваются.  
Так, анализ конечных ритмических групп во фразах с интонацией завершенности выявил 
следующие закономерности:  
1. 
Длительность гласного конечного открытого слога в два раза больше длительности 
гласного  начального  слога  данной  ритмической  группы.  Интенсивность  конечного  слога, 
независимо  от  того  является  ли  он  открытым  или  закрытым,  примерно  на  25%  меньше 
интенсивности начального слога. Интенсивность конечного открытого слога речевого такта, 
находящегося в конце фразы, в отличие от  интенсивности аналогичного слога внутреннего 
речевого такта постепенно падает и сводится к нулю.  
2. 
Когда конечной слог является закрытым, то различия в длительностях начального и 
конечного  слогов  ритмической  группы  не  наблюдаются.  Отличия  по  интенсивности 
сохраняются.  Интенсивность  последнего  слога  примерно  на  25%  ниже  интенсивности 
первого слога.  
Согласно  нашему  предположению,  интонация  общего  вопроса  также  сосредоточена  в 
конечной  ритмической  группе  фразы.  Отчасти  это  обусловлено  особенностями  татарского 
языка.  В  отличие  от  русского  в  татарском  языке  процедура  организации  общего  вопроса, 
кроме интонации, предполагает участие грамматических форм – частицы -мы/-ме и -мыни/-
мени. Данные частицы присоединяются к любой части речи, выполняющей в предложении 
функцию  сказуемого.  Согласно  синтаксису  татарского  языка,  сказуемое  находится  в  конце 
предложения.  Эти  особенности  позволили  изучать  в  сопоставительном  плане  такие  фразы 
как,  например,  "Бу  камыш  исеме?  (Это  запах  камыша?)"  и  "Бу  килеш  исеме.  (Это  имя 
падежа.)", "Ул арыш саламы? (Он кладет рожь?)" и "Бу арыш саламы. (Это ржаная солома?)"  
Выявлено,  что  вопросительная  частица  -мы/-ме  отличается  от  неморфемных  сочетаний 
"мы"  и  "ме"  несколько  большей  длительностью  и  интенсивностью,  а  также  конечным 
участком  гласных  "ы"  и  "е".  У  неморфемных  сочетаний  звучание  данных  гласных  плавно 
переходит на нет, в то время как  у частиц звучание заканчивается на том месте, в котором 
интенсивность звука является значительной.  
В  настоящее  время  просодический  анализ  производится  на  основе  знаков  препинания  в 
предложении. Выделение границ всех ритмических групп предложения требует полного его 
синтаксического анализа. 
5. В разработке синтезаторов речи конкатенативного типа важное значение имеет выбор 
речевой  единицы  в  качестве  исходного  элемента  конкатенации.  Первоначально  была 
предпринята попытка сформировать элементную базу из слогов. Расчет был таков, что слоги 
как  наименьшие  единицы  артикуляции  представляют  более  целостную  структуру  и 
количество  их  в  татарском  языке  существенно  меньше,  чем  в  русском  или  английском 
языке[15].  Вскоре,  однако  выяснилось,  количество  слогов,  выявленных  на  основе  анализа 
изолированных  слов  значительно  меньше  того  объема,  которого  мы  получили  бы  на  базе 
анализа предложений и фраз. Кроме того выяснилось, что слоги как просодические единицы 
несут  в  себе  различного  рода  дополнительную  окраску,  которых  трудно  учесть  при 
озвучивании текста. Современная версия синтезатора использует дифонную базу. 
В процессе создания дифонной базы были выполнены следующие виды работ: 
1. 
Построена  таблица  сочетаемостей  фонем  с  учетом  пробела  между  словами, 
состоящая из 33 строк (32 фонемы и плюс «пробел») и такого же количества столбцов. 
2. 
Выделены фонемные сочетания, способные следовать в начале слова, середине слова 
и  в  его  конечной  позиции  (на  основе  табличных  данных).  Общее  количество  данных  трех 
классов фонемосочетаний составляет порядка 3000 единиц. 


224 
 
3. 
Выявлено,  что  помимо  представительства  указанных  классов  фонологических 
структур,  элементная  база  синтезатора  включает  репрезентанты  фонемосочетаний, 
встречающихся  на  стыках  слов,  в  конечной позиции  предложений,  а  также  слова  длиной  в 
одну и две фонемы. (ә, ат, ит, өч, ки и т.д.). 
4. 
Создание дифоной базы на основе выделенных фонемосочетаний производилось по 
следующей схеме: 
а) В составе псевдофраз нужное фонемосочетание было озвучено диктором и оцифровано. 
Псевдофраза состояла из трех ритмических групп, одна из которых представляла 3–х или 4–х 
сложное  квазислово  (слово,  лишенное  смысла,  но  имеющее  характерное  для  татарского 
языка звучание)  
б)  Программным  путем  устанавливались  границы  входящих  в  дифон  фонем,  а  затем 
границы дифона. 
в) Аудированием в различных контекстах проводилась оценка качества звучания дифона. 
г) Выполнялась разметка периодов основного тона содержащихся в базе дифонов. 
д) Производилась конвертация дифона в базу данных синтезатора.  
На  настоящее  время  элементная  база  синтезатора  содержит  2370  дифонов.  Увеличение 
элементной базы, замена отдельных дифонов более качественными по мере необходимости 
будут продолжаться.  
Алгоритмы  озвучивания  построены  на  известной  технологии  TD-PSOLA.  Этот  подход 
позволяет  производить  модификацию  просодических  характеристик  базовых  элементов, 
размеченных по периодам основного тона. 


Достарыңызбен бөлісу:
1   ...   218   219   220   221   222   223   224   225   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет