I ші халықаралық ғылыми-тəжірибелік конференцияның ЕҢбектері


МЕТОДЫ ОБРАБОТКИ ПРОСОДИЧЕСКИХ ХАРАКТЕРИСТИК В



Pdf көрінісі
бет21/48
Дата31.03.2017
өлшемі11,62 Mb.
#11006
1   ...   17   18   19   20   21   22   23   24   ...   48

МЕТОДЫ ОБРАБОТКИ ПРОСОДИЧЕСКИХ ХАРАКТЕРИСТИК В 

СИСТЕМАХ СИНТЕЗА РЕЧИ И ИХ ПРИЛОЖЕНИЯ 

 

Калимолдаев М.Н., Амиргалиев Б.Е. 

ИПИУ МОН РК,   КазНТУ им. К.И. Сатпаева 

Алматы, Казахстан, amirgaliyev@gmail.com 

 

В работе описываются принципы создания просодических ПАЕ синтагм, 



приведена  структура  подсистемы  синтеза  просодических  характеристик  речи, 

показано  применение  ПАЕ-модели  (ПАЕ  -  портретов  акцентных  единиц)      в 

многоязычной многоголосой системе синтеза речи. 

Просодические характеристики речи варьируются в зависимости от типа 

произносимого  текста,  стиля  речи,  а  также  персональных  характеристик 

диктора,  как  постоянных,  так  и  ситуативных.  Исследованиям  просодических 



Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

254



характеристик  речи  посвящены  работы  [1-2].  Отличительной  особенностью 

этих  исследований  является  то,  что  в  них  показаны  явления,  которые  имеют 

место  в  естественной  речи,  но  не  предлагается  никакого  механизма  для 

использования результатов исследований при синтезе речи по тексту. 

Тем не менее, существует достаточно большое количество просодических 

моделей,  используемых  в  системах  синтеза  речи  и  способны  адекватно 

отражать  важные  для  слухового  восприятия  просодические  характеристики 

естественной речи. К основным просодическим моделям относятся: 

–  автосегментная  метрическая  модель  [3],  представляющая  интонацию 

как линейную последовательность уровней тона; 

–  IPO-модель  [4],  которая  представляет  интонацию  как  дискретную 

последовательность движений основного тона; 

–  суперпозиционная  модель  [5],  которая  основана  на  физиологической 

модели  речеобразования  [5],  объединенной  с  иерархической  теорией 

просодической 

фонологии 

[6], 

и 

представляет 



интонацию 

как 


последовательность событий с перекрывающимися областями; 

–  непрерывная  параметрическая  модель  [7],  которая  интерпретирует 

частоту  основного  тона  в  акустической  области,  описывая  интонацию  в 

терминах движения F



0

 

во времени; 

–  модель  портретов  акцентных  единиц  (ПАЕ)  [8],  согласно  которой 

каждое 


предложение состоит из последовательности синтагм.  

 



Основные принципы синтеза просодических характеристик речи 

В  соответствии  с  ПАЕ-моделью  [8],  минимальной  просодическим 

компонентом,  из  которого  составляется  интонация  синтагмы,   является 

Акцентная  Единица  (AЕ).  АЕ  может  состоять  из  одного  или  более 

фонетических  слов,  но  должна  иметь  в  своём  составе  только  один 

полноударный слог. Каждая AЕ, в свою очередь, состоит из ядра (полноударная 

гласная  фонема),  пред-ядра  (все  фонемы,  предшествующие  полноударной 

гласной)  и  за-ядра  (все  фонемы  за  полноударной  гласной).  Основное 

предположение  ПАЕ-модели  состоит  в  том,  что  для  определенного  типа 

интонации  синтагмы  топологические  свойства  просодических  параметров 

каждой АЕ не  изменяются  (или изменяются  незначительно)  с изменениями  её 

фонетического содержания и количества слогов в пред-ядре и заядре АЕ. Этот 

факт  иллюстрируется  рисунке  1,  где  показаны  контуры  F

0

  для  однословных 



вопросительных синтагм с различным положением словесного ударения, т.е. с 

различным количеством слогов в пред-ядре и за-ядре АЕ.  

 


Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

255



 

Рис. 1 -  Контуры F

0

 для однословных вопросительных синтагм: a) “Не одна?”, b) “Не 



много?, c) “Полный?” (ударные гласные подчеркнуты двойной чертой) 

 

AЕ может состоять также и из более чем одного фонетического слова, но 



при  условии,  что  она  содержит  лишь  один  полноударный  слог.  Это 

иллюстрируется  на  рисунке  2,  где  представлены  контуры  F

0

  для  трёхсловных 



вопросительных  синтагм  с  тремя  различными  положениями  полноударного 

слова в синтагме. 

 

 

Рис.2 - Контуры F



0

 вопросительной синтагмы “Мама мыла малину?” с 

полноударными словами a) “малину”, b) “мыла”, c) “мама” (полноударные гласные 

подчеркнуты двойной чертой, частично ударные - одинарной) 

 

Как видно из рисунка 2, каждая из этих синтагм состоит только из одной 



AЕ,  а  поведение  контура  F

0

  подобно  поведению  на  ядре,  пред-ядре  и  за-ядре 



однословной  синтагмы,  показанной  на  рисунке  1.  Все  упомянутое  выше  дает 

нам  серьезные  основания  к  тому,  чтобы  представить  ПАЕ  контура  F

0

  в 


нормированном  пространстве  «частота-время»  с  равной  относительной 

длительностью трёх частей AЕ - ядра, пред-ядра и за-ядра.  

Как  показал  опыт,  отмеченные  выше  закономерности  создания  F

0

-ПАЕ 



для  вопросительного  типа  интонации  справедливы  также  для  других 

интонационных  типов:  завершённости,  незавершённости,  вводности  и  др. 

Подобное  заключение  может  быть  также  сделано  относительно  возможности 

создания  ПАЕ  для  динамических  (А

0

-ПАЕ)  и  ритмических  (Т



0

-ПАЕ) 


характеристик просодики. 

Таким  образом,  мы  получаем  ряд  нормализованных  ПАЕ  для  синтагм 

различных  интонационных  типов.  Эти  нормализованные  последовательности 

ПАЕ  используются  затем  системой  синтеза  речи  по  тексту  независимо  от 

фонетического содержания конкретных AЕ. 


Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

256





Общая 

структура 

подсистемы 

синтеза 

просодических 

характеристик речевого сигнала 

Структура  подсистемы  синтеза  просодических  характеристик  в 

синтезаторе  речи  показана  на  рисунке  2.  Орфографический  текст  для  синтеза 

речи  до  подачи  на  вход  подсистемы  синтеза  просодических  характеристик 

подвергается  процедуре  нормализации,  в  процессе  которой  осуществляется 

преобразование  к  текстовому  виду  символов  (цифры,  сокращения, 

аббревиатуры, математические знаки, буквы латинского алфавита). 

Первый  из  блоков  подсистемы  синтеза  просодических  характеристик 

речевого  сигнала,  используя   языко-зависимые  ресурсы  и  правила, 

осуществляет  анализ  и  просодическую 

разметку  нормализованного 

орфографического текста.  

Второй  блок  –  блок  преобразования  орфографического  текста  в 

аллофонную  последовательность  –  использует  языко-зависимые  алгоритмы  и 

правила  преобразования  «буква-фонема»,  «фонема-аллофон»,  подробно 

описанные в работе. 

Действия,  осуществляемые  в  двух  последующих  блоках  –  блоках 

формирования  просодических  параметров  текста  и  синтеза  просодических 

параметров  речевого  сигнала  –  являются  фактически  обратными  действиям, 

показанным на рисунке 4, т.к. здесь происходит “натягивание” нормированных 

ПАЕ  на  полученные  текстовые  АЕ  в  соответствии  с  интонационным  типом 

синтагм.  

Ресурсом  блока  формирования  просодических  параметров  текста 

является полный набор ПАЕ синтагм всех используемых интонационных типов 

и подтипов. В этом блоке, в соответствии с  указанным интонационным типом 

синтагмы  и  положением  АЕ  в  синтагме  для  каждого  n-го  аллофона 

устанавливается от 2-х до 8-ти значений частоты основного тона – F

0

(n) – и по 



одному значению длительности – T(n) и амплитуды – A(n).  

 


Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

257



 

Рис. 4 - Общая структура подсистемы синтеза просодических характеристик речевого 

сигнала 

 

Полученный  аллофонный  текст  с  указанием  значений  F



0

(n),  T(n),  A(n) 

поступает  на  вход  блока  синтеза  просодических  характеристик  речевого 

сигнала. В соответствие с  поступившим аллофонным текстом из  БД  звуковых 

волн  элементов  компиляции  выбирается  необходимая  последовательность 

мультифонов,  размеченных  предварительно  на  периоды  основного  тона 

(питчи). 

Синтез  просодически  модифицированного  речевого  сигнала 

осуществляется  путём  изменения  акустических  характеристик  звуковых  волн 

мультифонов в соответствие с целевыми значениями F

0

(n), T(n), A(n).  



Анализ и просодическая разметка текста происходит в несколько этапов. 

На  первом  этапе  осуществляется  расстановка  сильных  и  слабых  словесных 

ударений,  для  чего  используется  грамматический  словарь  словоформ, 

содержащий  пометы  позиции  ударения  каждой  словоформы,  а  также  правила 

расстановки ударений, которые учитывают, в частности, принадлежность слова 

к знаменательным или служебным частям речи, его положение в предложении 

и  ближайшее  окружение.  На  следующем  этапе  –  этапе  объединения 

орфографических  слов  в  фонетические  слова  и  АЕ  –  используются  списки 

энклитиков и проклитиков, а также правила объединения в фонетические слова 

и  АЕ,  которые  также  учитывают  принадлежность  «смежных»  слов  к 

определённым частям речи. На этапе разбиения текста на синтагмы и установки 


Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

258



интонационного  типа  синтагм – завершающем этапе  анализа  и просодической 

разметки – используются правила синтагматического членения текста, согласно 

которым  количество  АЕ  в  синтагме не  может  превышать четырёх.  Выходным 

данным  блока  анализа  и  просодической  разметки  является  текст  с  пометами 

позиций  ударения,  границ  фонетических  слов,  АЕ,  синтагм  и  указанием 

интонационных типов каждой синтагмы.                                                                                                       

Формирование  просодических  параметров  текста  осуществляется 

последовательно  для  каждой  синтагмы.  На  первом  этапе  осуществляется 

разметка  каждой  АЕ  синтагмы  на  ЭАЕ:  пред-ядро,  ядро,  за-ядро.  Ядром 

синтагмы, согласно используемым правилам, является полноударный гласный; 

все  аллофоны,  предшествующие  полноударному  гласному,  являются  пред-

ядерным  участком,  все  следующие  за  полноударным  гласным  аллофоны  – 

заядерным  участком.  Затем  с  использование  нормированных  портретов  F

0

  -



ПАЕ, A - ПАЕ, T  - ПАЕ для синтагмы соответствующего интонационного типа 

осуществляется  вычисление  значений  F

0

(n),  A(n),  T(n)  каждого  n-го  аллофона 



элементов пред-ядра, ядра, за-ядра j-той АЕ. 

 

Список литературы: 



 

1.  Светозарова,  Н.Д.  Акцентно-ритмические  интонации  в  русской 

спонтанной речи. Проблемы фонетики: сб. статей. М.:Прометей, 1993. -C. 189-

198. 


2. Кодзасов, С.В. Размещение тональных акцентов в русском слове. Язык 

и речь: проблемы и решения: сб. науч. трудов. М.: МАКС пресс, 2004. -C. 62-76 

3.  Ye.  Amirgaliyev,  R.Musabaev.  Algorithms  of  phonemes  classification  in 

field  of  compilative  speech  synthesis  systems  realization.  PCI'2008  -  The  second 

international conference "Problems of cybernetics and informatics". Baku: Institute of 

cybernetic. 2007. V. I, -Р.108-111. 

4.  Hart  J.,  Collier  R.,  Cohen  A.  A  Perceptual  study  of  intonation:  an 

experimental  phonetic  approach  to  speech  melody.  Cambridge:  Cambridge 

University Press, 1990, -227 p. 

5.  Fujisaki,  H.  Dynamic  characteristics  of  voice  fundamental  frequency  in 

speech  and  singing.  The  Production  of  Speech.NY:  Springer-Verlag,  1983.V.  3,  -P. 

39–47. 


6.  Амиргалиев  Е.Н.,  Мусабаев  Р.Р.,  Амиргалиев  Б.Е.  Алгоритмы 

классификации фонем в системах синтеза речи: Сб. тр. межд.науч.-практ. конф. 

"Современные 

проблемы  математики,  информатики  и  управления"-

Алматы:ИПИУ МОН РК. 2008. - С. 47-50. 

7.  Taylor,  P.  Analysis  and  synthesis  of  intonation  using  the  tilt  model.  J. 

Acoust. Soc. America, 2000. V. 107. N 3. -P. 1697–1714. 

 

ИСПОЛЬЗОВАНИЕ ЭКСПЕРТНЫХ СИСТЕМ В ОБРАЗОВАНИИ 



 

Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

259



Калижанова А.У., Кашаганова Г.Б., Айткулов Ж.С. 

КазНТУ им. К.И.Сатпаева,  г. Алматы , Республика Казахстан 

 

The  article  addresses  the  possibility  of  using  EC  as  an  automated  training 

systems. 

В  последнее  время  одной  из  ведущих  тенденций  развития 

информационных технологий является их интеллектуализация, то есть переход 

от  систем,  оперирующих  с  данными,  к  системам,  обрабатывающим  знания. 

Возникло  новое  направление  в  информатике  –  инженерия  знаний,  на  основе 

которого развивается идеология и методология экспертных систем.  

Экспертные системы возникли как значительный практический результат 

в  применении  и  развитии  методов  искусственного  интеллекта  -  совокупности 

научных  дисциплин,  изучающих  методы  решения  задач  интеллектуального 

(творческого) характера с использованием ЭВМ.  

Область  искусственного  интеллекта  имеет  многолетнюю  историю 

развития.  С  самого  начала  в  ней  рассматривался  ряд  весьма  сложных  задач, 

которые,  наряду  с  другими,  и  до  сих  пор  являются  предметом  исследований: 

автоматические  доказательства  теорем,  машинный  перевод  (автоматический 

перевод с одного естественного языка на другой), распознавание изображений 

и анализ сцен, планирование действий роботов, алгоритмы и стратегии игр.  

Экспертная  система  -  это  набор  программ,  выполняющий  функции 

эксперта  при  решении  задач  из  некоторой  предметной  области.  Экспертные 

системы выдают советы, проводят анализ, дают консультации, ставят диагноз. 

Практическое  применение  экспертных  систем  на  предприятиях  способствует 

эффективности  работы  и  повышению  квалификации  специалистов.  В  отличие 

от  машинных  программ,  использующий  процедурный  анализ,  экспертные 

системы  решают  задачи  в  узкой  предметной  области  (конкретной  области 

экспертизы)  на  основе  дедуктивных  рассуждений.  Такие  системы  часто 

оказываются способными найти решение задач, которые неструктурированны и 

плохо определены.  

Причиной  повышенного  интереса,  который  экспертные  системы 

вызывают  к  себе  на  протяжении  всего  своего  существования,  является 

возможность  их  применения  к  решению  задач  из  самых  различных  областей 

человеческой деятельности. Пожалуй, не найдется такой проблемной области, в 

которой  не  было  бы  создано  ни  одной  экспертной  системы  или,  по  крайней 

мере, такие попытки не предпринимались бы.  

Главным  достоинством  экспертных  систем  является  возможность 

накопления знаний и сохранение их длительное время. В отличии от человека к 

любой  информации  экспертные  системы  подходят  объективно,  что  улучшает 

качество  проводимой  экспертизы.  При  решении  задач,  требующих  обработки 

большого  объема  знаний,  возможность  возникновения  ошибки  при  переборе 

очень  мала.  Практическое  применение  искусственного  интеллекта  на 

машиностроительных  предприятиях  и  в  экономике  основано  на  экспертных 


Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

260



системах,  позволяющих  повысить  качество  и  сохранить  время  принятия 

решений, а также способствующих росту эффективности работы и повышению 

квалификации специалистов.  

Основными  отличиями  экспертных  систем  от  других  программных 

продуктов  являются  использование  не  только  данных,  но  и  знаний,  а  также 

специального  механизма  вывода  решений  и  новых  знаний  на  основе 

имеющихся.  Знания  в  экспертной  системе  представляются  в  такой  форме, 

которая  может  быть  легко  обработана  на  ЭВМ.  В  системе  известен  алгоритм 

обработки  знаний,  а  не  алгоритм  решения  задачи.  Поэтому  применение 

алгоритма  обработки  знаний  может  привести  к  получению  такого  результата 

при  решении  конкретной  задачи,  который  не  был  предусмотрен.  Более  того, 

алгоритм  обработки  знаний  заранее  неизвестен  и  строится  по  ходу  решения 

задачи  на  основании  эвристических  правил.  Решение  задачи  в  экспертной 

системе  сопровождается  понятными  пользователю  объяснениями,  качество 

получаемых  решений  обычно  не  хуже,  а  иногда  и  лучше  достигаемого 

специалистами. В системах, основанных на  знаниях, правила (или эвристики), 

по которым решаются проблемы в конкретной предметной области, хранятся в 

базе  знаний.  Проблемы  ставятся  перед  системой  в  виде  совокупности  фактов, 

описывающих  некоторую  ситуацию,  и  система  с  помощью  базы  знаний 

пытается вывести заключение из этих фактов.  

Все знания хранятся в базе знаний. Для ее построения требуется провести 

опрос  специалистов,  являющихся  экспертами  в  конкретной  предметной 

области,  а  затем  систематизировать,  организовать  и  снабдить  эти  знания 

указателями, чтобы впоследствии их можно было легко извлечь из базы знаний.  

Компьютерные  системы,  которые  могут  лишь  повторить  логический 

вывод эксперта, принято относить к экспертным системам первого поколения. 

Однако  специалисту,  решающему  интеллектуально  сложную  задачу,  явно 

недостаточно  возможностей  системы,  которая  лишь  имитирует  деятельность 

человека.  Ему  нужно,  чтобы  система  выступала  в  роли  полноценного 

помощника  и  советчика,  способного  проводить  анализ  нечисловых  данных, 

выдвигать  и  отбрасывать  гипотезы,  оценивать  достоверность  фактов, 

самостоятельно 

пополнять 

свои 


знания, 

контролировать 

их 

непротиворечивость, делать заключения на основе прецедентов и, может быть, 



даже  порождать  решение  новых,  ранее  не  рассматривавшихся  задач.  Наличие 

таких  возможностей  является  характерным  для  экспертных  систем  второго 

поколения,  концепция  которых  начала  разрабатываться  9-10  лет  назад. 

Экспертные  системы,  относящиеся  ко  второму  поколению,  называют 

партнерскими, или усилителями интеллектуальных способностей человека. Их 

общими  отличительными  чертами  является  умение  обучаться  и  развиваться, 

т.е. эволюционировать.  

Целями  создания  экспертных  систем  (ЭС)  являются  упрощение 

процедуры  принятия  решений  пользователями  в  трудноформализуемых 

предметных  областях,  улучшение  качества  и  повышение  эффективности 



Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

261



принимаемых  решений,  тиражирование  знаний  ведущих  специалистов 

(экспертов),  автоматизация  некоторых  рутинных  направлений  деятельности 

экспертов.  К  задачам,  которые  успешно  решаются  ЭС,  относятся 

прогнозирование в социальных системах и системах  управления, диагностика, 

мониторинг,  проектирование  технологических  процессов,  аудит  и  консалтинг, 

поддержка  принятия  решений  в  менеджменте  и  маркетинге.  Решения, 

рекомендуемые  ЭС,  по  обоснованности  не  уступают  решениям  эксперта-

человека  и  обладают  “прозрачностью”,  то  есть  пользователь,  в  случае 

необходимости,  может  получить  исчерпывающее  объяснение  о  том,  каким 

образом  ЭС  приняла  решение.  Это  качество  ЭС  отличает  их  от 

алгоритмических  способов  решения  задач  и,  в  частности,  от  широко 

используемых  статистических  методов.  Другой  отличительной  особенностью 

современных ЭС является их способность обновлять свои знания в результате 

взаимодействия  с  экспертами  и  наличия  специальных  инструментальных 

средств,  позволяющих  извлекать  знания  из  баз  данных  (статистической 

информации  об  объекте  либо  информации,  содержащей  ретроспективные 

данные о поведении объекта).  

Тема  извлечения  знаний  не  нова  для  инженерии  знаний.  Возникает 

вопрос, возможно ли, используя инструментарий ЭС, решать обратную задачу, 

а  именно,  задачу  “передачи”  знаний  от  ЭС  к  пользователю  (обучаемому 

субъекту)  не  в  формате  инструкций,  а  в  формате  обучающих  воздействий? 

Понятно, что ставить такую задачу для широкого спектра предметных областей 

и  форм  обучения  бессмысленно.  Однако  методология  и  инструментальные 

средства,  апробированные  в  ЭС,  могут  оказаться  полезными,  например,  для 

тиражирования  авторских  методик  ведущих  ученых  и  педагогов-практиков  в 

дистантных  формах  обучении  через  Интернет  с  помощью  динамической  ЭС 

реального  времени.  Эффективным  представляется  также  применение  ЭС  в 

коротких формах обучения – таких, как повышение квалификации, стажировка, 

профессиональная  переподготовка,  нацеленных  на  быстрое  освоение 

слушателями  (студентами)  учебного  материала  из  относительно  узкой 

предметной области.  

Развитые  графические  интерфейсы  современных  ЭС  позволят  широко 

применять  обучение  на  основе  конкретных  определений,  что  актуально  для 

методик,  принятых  в  образовании.  Особым  образом  структурированная  база 

знаний  ЭС  поможет  эффективно  осваивать  учебный  материал,  используя 

вербальные  определения.  Высокая  скорость  обучения  будет  достигаться  в 

немалой  степени  путем  легкой  повторяемости  обучающих  процедур.  С 

помощью  ЭС  представляется  возможным  создать  процедуры,  которые  будут 

инициировать умение сводить смысл вновь вводимых понятий к смыслу ранее 

усвоенных выражений.  

Одним  из  основных  преимуществ  методологии  ЭС  по  сравнению  с 

традиционными  информационными  технологиями  является  возможность 

построения в процессе обучения индивидуальной модели обучаемого субъекта. 


Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

262



Система,  как  бы  настраиваясь  под  уровень  знаний  и  психологические 

особенности  пользователя,  индивидуализирует  подаваемую  информацию  и 

обучающие  воздействия,  повышая  эффективность  обучения.  Таким  свойством 

не  обладают  гипертекстовые  системы,  представляющие  собой  справочник  с 

перекрестными ссылками.  

Перечисленными 

направлениями 

потенциальные 

возможности 

применения  ЭС  в  качестве  автоматизированной  обучающей  системы  не 

ограничиваются.  Задача  на  сегодняшний  день  заключается  в  выборе  наиболее 

приемлемого  прототипа  ЭС  и  идентификации  (описании)  процесса 

трансформации существующих оболочек ЭС в обучающую систему на примере 

одного из перечисленных выше направлений.  

 

 



Достарыңызбен бөлісу:
1   ...   17   18   19   20   21   22   23   24   ...   48




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет