I ші халықаралық ғылыми-тəжірибелік конференцияның ЕҢбектері



Pdf көрінісі
бет11/48
Дата31.03.2017
өлшемі11,62 Mb.
#11006
1   ...   7   8   9   10   11   12   13   14   ...   48

Резюме 

 

В статье освящаются  пути использования инновационных технологий  на 



уроках казахского языка и во внеурочных мероприятиях.  

 

 



 

 

 



 

 


Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

164



О ПЕРСПЕКТИВЕ СОЗДАНИЯ ОБУЧАЮЩИХСЯ СИСТЕМ СИНТЕЗА 

И РАСПОЗНАВАНИЯ РЕЧИ КАЗАХСКОГО  ЯЗЫКА И ИХ 

ИСПОЛЬЗОВАНИЕ В УЧЕБНОМ ПРОЦЕССЕ 

 

Амиргалиев Е.Н., Мусабаев Р.Р. 

КазНТУ им. К.И. Сатпаева - Институт проблем информатики и управления 

 

В  данной  работе  приведены  результаты  разработки  методов  синтеза 

речевого  сигнала  по  фонемному  тексту  на  примере  казахского  языка, 

моделирование  и  разработка  информационной  системы,  реализующей  данные 

методы, которые могут использоваться при реализации обучающихся систем. 

Система синтеза речи – это многоуровневая комплексная модель речевой 

функции  человека,  состоящая  из  множества  подсистем.  Все  подсистемы  в 

рамках  единой  системы  решают  общую  задачу  получения  синтезированного 

речевого сигнала. 

В качестве основной модели синтеза речи выбран компилятивный синтез, 

который  основан  на  принципе  построения  заданного  речевого  сигнала  из 

имеющегося  набора  эталонных  звуковых  фрагментов  [1].  При  использовании 

данной 

модели 


можно 

получить 

наиболее 

натурально 

звучащую 

синтезированную  речь.  Разработаны  методы  фрагментирования  речевого 

сигнала,  и  дана  оценка  количества  необходимых  фрагментов  компиляции.  В 

процессе формирования БД каждое записанное выражение фрагментируется на 

определённые  единичные  составляющие:  на  фонемы,  слоги,  слова,  отдельные 

фразы  и  др.  С  увеличением  размера  выбранного  базового  фрагмента 

улучшается качество синтеза, но при этом увеличиваются объём БД и затраты 

на  её  формирование.  Фрагментация  производится  как  ручным,  так  и 

автоматическим  способом.  Наиболее  оптимальным  является  автоматический 

способ  фрагментации  с  последующей  ручной  корректировкой  распознанных 

сегментов  [2].  После  выделения  речевые  фрагменты  записываются  в  БД,  куда 

также  в  качестве  вспомогательной  информации  сохраняются  различные  их 

акустические  параметры,  такие  как  частота  основного  тона,  длительность, 

позиция в слоге, информация о смежных фонемах и др. 

На  этапе  синтеза  речи  требуемая  фраза  формируется  из  общего  числа 

наиболее  подходящих  фрагментов,  которые  выбираются  из  всего  множества 

доступных в БД. В ходе этого процесса строится дерево решений, где каждому 

доступному  решению  ставится  в  соответствие  ветвь  с  определенным  весом  и 

производится выбор по максимальному критерию. 

Наиболее  важным  этапом  реализации  системы  является  этап  её 

проектирования. Именно от выбора основополагающего подхода в наибольшей 

степени зависят качественные показатели функционирования системы в целом. 

Ошибки,  допущенные  на  этапе  проектирования,  могут  свести  на  нет  всю 

проделанную  работу  и  система  может  оказаться  непригодной  для 

практического  применения.  Для  систем  конкатенативного  синтеза  речи 


Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

165



подобным основополагающим подходом является выбор элементарной речевой 

единицы,  а  также  методов  модификации  её  просодических  и  интонационных 

характеристик. 

В  случае  компилятивного  синтеза  речи  в  системе  обычно  присутствует 

конечное множество базовых фрагментов речевого сигнала: 

{

}



B

n

B

B

B

f

f

f

F

;...;


;

2

1



=

где  n  –  общее  количество  фрагментов.  Данные  фрагменты  получаются  в  ходе 



записи  речи  диктора,  и  последующего  выделения  необходимых  фрагментов 

специалистами по фонетике. Размерность базового фрагмента и их количество 

зависит  от  выбранного  подхода.  Наиболее  часто  используются  речевые 

фрагменты следующих размерностей: Полуфон – половина фонемы;  Фонема – 

целая  элементарная  единица;  Дифон  –  два  смежных  полуфона  различных 

фонем включающий переходную область между ними; Слоги, слова, и т. д. 

Количество фрагментов в системе может колебаться от нескольких сотен 

до  нескольких  десятков  тысяч.  Для  увеличения  качества  синтеза  необходимо 

увеличивать  количество  используемых  базовых  фрагментов,  что  в  свою 

очередь влечёт увеличение используемых ресурсов, а также времени синтеза. 

В системе могут одновременно использоваться различные типы базовых 

фрагментов, которые составляют соответствующее конечное множество типов. 

Предложен  метод  регулирования  параметров  речевого  сигнала  гладкими 

кривыми  Безье.  При  рассмотрении  естественного  речевого  сигнала  заметны 

плавные  изменения  интонации,  длительностей  фонем,  плавные  переходы 

между областями высокой и низкой громкости. В виду описанных свойств при 

построении  систем  синтеза  речи  важно  осуществлять  плавное  изменение  всех 

параметров речевого сигнала. Так как сами параметры речевого сигнала имеют 

плавную  структуру,  следовательно,  и  функции,  их  регулирующие,  должны 

иметь  плавную  форму.  Вторым  не  менее  важным  условием  является простота 

задания данных функций. Наиболее оптимальным вариантом является задание 

функций  несколькими  базовыми  точками,  а  остальные  точки,  в  случае 

необходимости, должны рассчитываться динамически.  

Для  решения  задачи  плавного  регулирования  параметров  синтеза 

использованы гладкие кривые Безье, которые задаются ограниченным набором 

опорных (базовых) точек. Для достижения качественного синтеза важно плавно 

регулировать  следующие  параметры  речевого  сигнала:    контур  частоты 

основного тона;  амплитудные огибающие; огибающая спектра. 

На  рис.1  проиллюстрирован  процесс  модификации  речевого  сигнала 

параметрическими кривыми Безье. 

Заранее  подготовленный,  нормализированный  по  длительности  фонем  и 

общему уровню амплитуд речевой сигнал подаётся на вход системы регуляции 

параметров  [3].  В  зависимости  от  требуемых  интонационных  характеристик 

формируются  контуры  частоты  основного  тона,  амплитудных  и  частотных 

огибающих, на основе которых затем осуществляется модификация исходного 

речевого  сигнала.  Для  этих  целей  предлагаются  различные  методы 

модификации интонационной составляющей речевого сигнала. 


Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

166



 

 

Рис.1. Процесс модификации речевого сигнала параметрическими кривыми Безье. 



 

В  речевом  сигнале  наибольшую  интонационную  составляющую  имеют 

вокализированные участки. Для таких типов речевых фрагментов как шумовые 

и  паузы  можно  ограничиться  регулированием  лишь  их  длительностей  без 

особого  ущерба  для  общего  качества  синтеза.  С  точки  зрения  натуральности 

наибольшее 

значение 

имеет 


регулирование 

следующих 

атрибутов: 

длительности звучания фонем, задание контура частоты основного тона (ЧОТ), 

местоположение и длительность пауз. 

Предлагаются  методы  для  осуществления  интонационной  модификации 

вокализированных  составляющих  речевого  сигнала.  Данные  методы 

апробированы  и  успешно  используются  в  рамках  созданной  системы  синтеза 

речи.  Предлагается  следующий  метод  модуляции  речевого  сигнала  по 

амплитуде.  Предварительно  производится  разметка  по  F0  для  элементов 

множества 

B

T

B

V

F



В  результате  получаем  множество  сегментов 

(

) (



) (

)

(



)

S

n

S

n

S

S

S

S

V

C

I

C

I

C

I

S

;

;...;



;

;

;



2

2

1



1

=

  заданных  индексом  начальной  выборки 



S

n

I

  и 


количеством входящих в данный сегмент выборок 

S

n

C

 следующих по порядку за 

начальной выборкой (рис. 2). 

 

 



Рис.2. Исходное сегментированное множество выборок вокализированного речевого сигнала 

После разметки производится нормализация множества сегментов 



V

S

  по 


амплитуде. Для нормализации по амплитуде используются 

S

n

I

 и 


S

n

I

1

+



  - индексы 

граничных  выборок  нормализируемого  микросегмента.  Изначально  форма 

сигнала изменяется таким образом, чтобы выровнять выборку с индексом  

S

n

I

1

+



 

Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

167



до уровня выборки 

S

n

I

. Так новое значение амплитудного уровня 



S

x

Z

 для каждой 

выборки  с  индексом 

]

;



[

1

S



n

S

n

S

x

I

I

I

+



  вычисляется  следующим  образом: 















+



=

+

+



1

1

1



1

1

S



n

S

n

S

n

S

n

S

x

S

x

Z

Z

I

I

x

Z

Z

,  где 


S

x

Z

  -  значение  амплитудного  уровня  для 

рассматриваемой выборки, 

]

;



0

[

1



S

n

S

n

I

I

x



+

,   


S

n

Z

 и 


S

n

Z

1

+



 - соответственно значения 

дискретных выборок сигнала с индексами 



S

n

I

  и 


S

n

I

1

+



0

1



>

+



S

n

S

n

I

I

0



1

+



S

n

Z

.  Затем 

граничные  выборки  приводятся  к  заданному  амплитудному  уровню 

S

L

,  а 


промежуточные 

также 


пропорционально 

увеличиваются: 

0,

S

S

S

S

n

x

x

S

S

x

n

S

S

x

x

L

If

Z

then

Z

Z

Z

Z

else

Z

Z



=

=



=



.  На  рис.  3  проиллюстрирован  процесс 

нормализации  по  амплитудному  уровню,  в  итоге  которого  получаем 

S

L

h

h

h

h

=

=



=

=

4



3

2

1



Амплитудная  нормализация  сигнала  позволяет  в 

последствии  применить  к  нему  произвольную  огибающую  амплитудного 

уровня  и  таким  образом  произвести  модуляцию  сигнала  по  громкости.  Для 

задания  плавных  огибающих  можно  использовать  параметрические  кривые 

Безье. 


 

 

 



Рис.3: Процесс нормализации вокализированного микросегмента речевого сигнала по 

амплитудному уровню: A – исходный микросегмент, B – нормализация граничных уровней, 

C – приведение общего уровня к заданному. 

 

Координаты  (X,Y)  произвольной  точки  заданной  параметром 



1

0

<



t

 

вычисляются следующим образом:  



( )

(

)



[

]

P



i

P

i

X

i

X

i

X

T

f

X

T

f

A

T

A

T

X



+

+



+



=

+



+

1

6



1

)

1



(

1

1



,

( )


(

)

[



]

P

i

P

i

Y

i

Y

i

Y

T

f

Y

T

f

A

T

A

T

Y



+

+



+



=

+



+

1

6



1

)

1



(

1

1



где 


i

  -  индекс  ближайшей  слева  базовой  точки  из  множества 

)

;

(



Y

X

A

 

соответствующей  условиям 



t

N

i

max



1

  и 


(

)

t



N

i

+



max

1

1



max


N

  -  длина  множества 

)

;

(



Y

X

A

 за минусом единицы. 



X

i

A

 и 


Y

i

A

 - соответственно 



i

-ый элемент множества 

)

;

(



Y

X

A

  задающий  координаты 



X

  и 


Y

 

i

-ой  базовой  точки  параметрической 


Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

168



кривой. 

При 


этом 

( )


x

x

x

f

=



3











=

max


max

max


1

N

D

t

N

T

(



)

(

)



max

max


max

max


max

max


max

0

0,



1

If

t N

and

trunc tN

then

D

tN

D

else

D

trunc tN

>

=



=





=

=





,  


где 

( )


x

trunc

  -  функция  округления  дробного  числа  до  целой  части  в 

меньшую  сторону.  Перед  непосредственным  вычислением  координат 

(

)



Y

X

;

 



произвольной точки кривой производится предварительный расчёт следующих 

значений  при  изменении 



i

  в  диапазоне 

[

]

1



;

1

max





N

(



)

P

i

X

i

i

P

i

X

W

D

X

1

1



+

=



(

)



Y

i

Y

i

i

P

i

X

W

D

Y

1

1



+

=



,  где 

0

0



=

P

X

0



0

=

P



Y

0



max

=

P



N

X

0



max

=

P



N

Y

.  Значения 



X

i

W



Y



i

W



i



D

 

вычисляются  последовательно  при  изменении 



i

  в  диапазоне 

[

]

2



;

1

max





N



X



i

X

i

X

i

W

W

W

4

1



1

=



+



Y



i

Y

i

Y

i

W

W

W

4

1



1

=



+

4



1

1

1



=

+



+

i

i

D

D

.  


При этом их начальные значения задаются при изменении 

i

 в диапазоне 

[

]

1



;

1

max





N

(



) (

)

(



)

X

i

X

i

X

i

X

i

X

i

A

A

A

A

W

1

1



6

+





=

(



) (

)

(



)

Y

i

Y

i

Y

i

Y

i

Y

i

A

A

A

A

W

1

1



6

+





=

4



=

i

D

.  


Множества 

P

X



P



Y



Y



W



X



W



D

 - имеют размерность равную размерности 

множества 

)

;

(



Y

X

A

.  На  Рис.  4  проиллюстрирован  процесс  модификации 

амплитуды  исходного  речевого  сигнала  по  огибающей  заданной  набором 

параметрических кривых Безье.  

 

 

 



Рис

. 4. 


Процесс

 

модификации



 

амплитуды

 

исходного



 

речевого


 

сигнала


 

по

 



огибающей

 

заданной



 

набором


 

параметрических

 

кривых


 

Безье


 

Предложены  два  различных  метода  модификации  контура  частоты 



основного тона: 

1.  Метод  перекрёстного  смешивания  микропериодов  речевого  сигнала 

(быстрая реализация). 

2. Метод частотного разделения и интерполяции гладкими кривыми Безье 

(ориентация на качество). 

Производится  сегментация  речевого  сигнала  на  микросегменты  по 

динамике  изменения  периода  основного  тона: 

(

) {



}

N

P

s

s

s

S

k

;

;...;



;

2

1



=

=

,  где  k  – 



общее  количество  микросегментов.  Микросегменты  классифицируются  и 

распределяются  на  два  подмножества  P  и  N  –  на  периодические  и 



Жоғары

 

оқу

 

орындарында

 

ақпараттық

 

технологияларды

 

оқыту

 

сапасын

 

жақсарту



жолдары

 

мен

 

мүмкіндіктері

 

 

169



непериодические. 

На 


вход 

алгоритма 

последовательно 

подаются 

микросегменты 

P

p

  подлежащие  модификации.  Имеются  две  временные 



копии модифицируемого микросегмента 

1

p

 и 

2

p



На рис.5 проиллюстрирован первый метод. 

 

 

 



Рис

. 5. 


Иллюстрация

 

метода



 

перекрёстного

 

смешивания



 

двух


 

копий


 

сигнала


 

с

 



заданным

 

смещением



 

и

 



встречным

 

понижением



 

амплитудного

 

уровня


 

Звуковой сигнал каждого микросегмента представляется упорядоченным 



множеством  дискретных  выборок 

(

)



n

v

v

v

V

;...;


;

2

1



=

,  где  n  –  количество 

дискретных  выборок  в  сигнале.  Во  множестве   

1

p



V

  с  конечной  позиции 



производится  удаление  подмножества  выборок,  количество  которых  задаётся 

2

1



L

L

q

=



,  где 

1

L

  -  длина  в  выборках  исходного  сигнала  микросегмента,  а 

2

L

  - 

длина  к  которой  необходимо  привести 



1

L

.  Удаление  производится  только  при 

условии 

0

>



q

.  Во  множестве   

2

p

V

  с  начальной  позиции  производится 



удаление подмножества выборок, количество которых также равно 

q

. Удаление 

производится при условии 

0

>



q

. Над множеством 

1

p

V

 производится операция 



по  приданию  сигналу  формы  плавного  линейного  уменьшения  амплитудного 

уровня до нуля. При данной операции модифицированная дискретная выборка 

задаётся  выражением 

i

i

v

n

i

y







= 1

,  где 


(

)

1



...

0





n

i



Y



y

i

.  Затем  над 



множеством 

2

p



V

  производится  операция  по  приданию  сигналу  формы 



плавного  линейного  увеличения  амплитудного  уровня  от  нулевого  до 

исходного.  

Наиболее качественного результата позволяет добиться метод частотного 

разделения  и  интерполяции  гладкими  кривыми  Безье.  Он  состоит  из 

следующих этапов: 

1.  Разложение  вокализированных  микросегментов  на  высокочастотные  и 

низкочастотные составляющие. 


Жоғары

 

оқу

 

орындарында

 

ақпараттық

 

технологияларды

 

оқыту

 

сапасын

 

жақсарту



жолдары

 

мен

 

мүмкіндіктері

 

 

170



2.  Модификация  длительностей  низкочастотных  составляющих  кривыми 

Безье в соответствии с заданным F0-контуром. 

3.  Сборка  модифицированных  низкочастотных  составляющих  с 

исходными  высокочастотными  составляющими  в  единый  результирующий 

микросегмент. 

На  рис.  6  приведён  пример  разложения  фрагмента  речевого  сигнала  на 

высокочастотные  и  низкочастотные  составляющие  с  помощью  алгоритма 

быстрого синусного преобразования Фурье. 

 

 

 



Рис

. 6. 


Пример

 

разложения



 

фрагмента

 

речевого


 

сигнала


 

на

 



высокочастотные

 

и



 

низкочастотные

 

составляющие



А

 – 



исходный

 

сегмент



Б

 – 



его

 

составляющие



;  

и



 2 – 

соответственно

 

моменты


 

размыкания

 

и

 



смычки

 

голосовых



 

связок


 

Исходный  сигнал  задан  упорядоченным  множеством  дискретных 



выборок 

{

}



D

N

D

D

D

s

s

s

S

1

1



0

;...;


;

=



где  N  –  количество  выборок.  Задаётся  частотная 

граница, разделяющая диапазон на низкие и высокие частоты: 

700


mid

F

Hz

=

. Для 



алгоритма  быстрого  преобразования  Фурье  подбирается  оптимальный  размер 

окна 


FFT

R

,  значение  которого  соответствует  условиям: 

1

2

+



=

X

FFT

R

0



>

X

{



}

min


,...,

2

,



1

+∞





X



N



X

2



.  Максимальная  частота  для  преобразования  Фурье 

вычисляется  по  формуле 



Smp

Sec

B

B

F

2

max



=

,  где 


Sec

B

  и 


Smp

B

  -  соответственно  общее 

количество байт в  секунду  и  количество  байт  в  одной выборке  для исходного 

сигнала. При этом разрешение по частоте 



FFT

R

F

dF

max


=

.   В виду того, что 



N

R

FFT

>

 



используется  дополнительное  множество 

{

}



E

R

E

E

E

FFT

s

s

s

S

1

1



0

;...;


;

=



 

размерностью 



FFT

R

. При этом исходное множество 



D

S

 располагается в середине множества 



E

S

 

с  позиции 



2

N

R

P

FFT

D

=



.  Левая  часть  множества 

E

S

  от  выборки 



E

s

0

  до 



E

P

D

s

1



 

заполняется следующим образом:  

(

)

mod



(

1) [(


)

mod


]

[(

)



] mod

2

0,



D

D

D

E

D

i

P

i

N

E

i

E

D

i

N

P

i

N

If

P

i

div

N

then

s

s

s

else

s

s

− −





=

=



=

=





,  


где 

]

1



,

0

[





D



P

i

.  


Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

171



Правая же часть множества 

E

S

 

от выборки 



E

N

P

D

s

+

 до 



E

R

FFT

s

1



 заполняется по 

следующему принципу:  

1 (

1)

mod



(

1)

mod



[(

1)

] mod



2

0,

D



D

D

E

D

i

N

i P

N

N

E

i

E

D

i

i P

N

N

If

i

P

N

div

N

then

s

s

s

else

s

s

− − −


− −

− −





=

=



=



=



Таким  образом,  по  обе  стороны 

D

S

 

получаем  его  «зеркальное» 

продолжение.  В  крайних  областях 

E

S

  производится  быстрое  дискретное 

синусное  преобразование  Фурье  данного  множества.  В  качестве  результата 

преобразования  получаем  следующее  множество: 

{

}

FFT



R

FFT

FFT

FFT

FFT

s

s

s

S

1

1



0

;...;


;

=



.

 

Каждому  элементу  множества 



FFT

S

 

можно  поставить  в  соответствие  элемент 

множества 

{

}



dF

R

f

dF

f

dF

f

F

FFT

FFT

R

FFT

FFT

FFT

FFT



=

=



=

=



)

1



(

;...;


1

;

0



1

1

0



.

  Увеличивая  или 

уменьшая  значения  в  определённой  области 

FFT

S

  в  соответствии  с  требуемым 

диапазоном  частот  из 

FFT

F

  можно  добиться  усиления  (подавления)  данного 

диапазона частот в составе модифицируемого сигнала. Для этого используется 

множество коэффициентов 

{

}

FFT



R

FFT

FFT

FFT

FFT

c

c

c

C

1

;...;



;

1

0



=

.  



При этом 



=



=

>

1



,

0

,



FFT

i

mid

FFT

i

FFT

i

mid

FFT

i

c

F

f

c

F

f

, где 


]

1

,



0

[





FFT

R

i

 Каждый  элемент  множества 



FFT

S

  умножается  на  соответствующий  ему 

коэффициент  из  множества 

FFT

C

{



}

FFT

R

FFT

R

FFT

FFT

FFT

FFT

FFT

L

FFT

FFT

s

c

s

c

s

c

S

1

1



;...;

;

1



1

0

0





=



Дискретное  преобразование  Фурье  обратно  самому  себе.  Используя  данное 

свойство и выполнив ДПФ для 

FFT

L

S

 получаем звуковой сигнал 



E

L

S

, содержащий 

только  низкие  частоты  (

mid

F

<

).  Из  множества 



E

L

S

  удаляются  все  выборки, 

порядковый индекс 

i

 которых находится в следующих интервалах: 

]

1

;



0

[



D

P

 и 


]

1

;



[

+



FFT

D

R

N

P

Таким образом,   множество 



E

L

S

 приобретает вид 

{

}

L



N

L

L

E

L

s

s

s

S

1

1



0

;...;


;

=



.  

После  выделения  низкочастотной  составляющей  сигнала  несложно 

выделить и его высокочастотную составляющую. Для этого каждая выборка из 

D

S

  суммируется  с  соответствующей  выборкой  из 



E

L

S

  взятой  в  противофазе: 

{

} {


}

H

N

H

H

D

N

L

N

D

L

D

L

E

H

s

s

s

s

s

s

s

s

s

S

1

1



0

1

1



1

1

0



0

;...;


;

;

...;



;

;



=



+

+



+



=

.  Для  приведения 

к требуемой длине 

2

L

 производится увеличение или уменьшение длительности 

E

L

S

  интерполяцией  кривыми  Безье.  При  этом  все  выборки  из  множества 



E

L

S

 

принимаются  как  опорные  точки  кривой  Безье.  На  основе  полученной  кривой 



вычисляется  требуемое  количество  выборок 

2

L

,  которыми  заменяется 

имеющееся  множество 



E

L

S

.  Если 


1

2

L



L

<

,  тогда  длина  множества 



E

H

S

 

уменьшается  до 



2

L

  отсечением  части  его  правых  элементов.  Просуммировав 

множества 

E

L

S

 

и 



E

H

S

 

получаем 



результирующее 

множество 

{

}

L



L

L

L

L

L

H

L

E

R

s

s

s

s

s

s

S

1

1



1

1

0



0

2

2



;...;

;



+

+



+

=

.  Данное  множество  является  модифици-



рованным  по  длительности  микропериодом  речевого  сигнала,  что  и 

Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

172



требовалось осуществить. Операция изменения длительности выполняется для 

всего множества микропериодов составляющих речевой сигнал. 

Предлагается  метод  регулирования  длительности  речевого  сигнала, 

который  заключается  в  клонировании  периодических  микросегментов, 

изменении  длительности  пауз  между  фонемами,  а  также  в  специальных 

методах изменения длительности шумовых составляющих. 

Исследуется метод плавного соединения разнородных участков звуковой 

волны,  предназначенный  для  согласования  разнородных  амплитудных  и 

частотных составляющих в областях стыка элементов компиляции. 

Рассматриваются  критерии  качественной  оценки  результатов  речевого 

синтеза.  Разработанные  методы  и  алгоритмы  реализованы  в  виде  комплекса 

прикладных  программ  предназначенных  для  синтеза  речевого  сигнала  на 

казахском  языке.  На  рис.  7  представлена  общая  схема  комплексного 

взаимодействия  фонетического  уровня  (серый  цвет)  с  другими  подсистемами 

синтеза речи. 

 

 



Рис.7- Общая схема комплексного взаимодействия фонетического уровня (серый цвет)  

с другими подсистемами синтеза речи. 

Произведена настройка и адаптация  разработанной системы для синтеза 

речевого сигнала по фонемному тексту на казахском языке, а также произведен 

анализ  различных  особенностей  казахского  языка,    исследован  его 

фонетический  состав.  Осуществлена  классификация  фонемного  состава 

казахского языка по форме звуковой волны и выбор методов её модификации. 

Исследованы  правила  преобразования  буква-фонема  с  целью  разработки 

алгоритма фонетического транскрибирования казахских текстов [4]. 


Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

173



Разработанные  математические  методы  и  модели  позволяют  в  широком 

диапазоне  осуществлять  модификацию  интонационных  характеристик  набора 

эталонных  речевых  сигналов  по  множеству  регулируемых  параметров. 

Программная реализация данных методов и моделей показала их достаточную 

эффективность и надёжность. [6-8]. При этом результат синтеза имеет высокие 

качественные  показатели.  Нерешённым  остаётся  вопрос  построения 

интонационной  модели  казахского  языка  и  последующий  процесс  её 

алгоритмизации для построения полнофункционального синтезатора казахской 

речи по тексту [5] и систем обучения. 

 

Список литературы: 



 

1. Taylor P. Text to Speech Synthesis. - University of Cambridge, 2007. 597 pp. 

2.  Винцюк  Т.К.  Анализ,  распознавание  и  интерпретация  речевых 

сигналов.-К.: Наук. думка, 1987. – 264 с. 

3. Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов.-М.: 

РиC, 1981. – 496 с. 

4.  Кенесбаев  С.  К.,  Аралбаев  Ж.  А.  Вопросы  казахской  фонетики  и 

фонологии.-Алма-Ата: Наука, 1979. – 249 c. 

5. Базарбаева З. М. Казахская интонация. – Алматы:Дайк-Пресс,2008.–284 с. 

6.  Амиргалиев  Е.Н.,  Мусабаев  Р.Р.  Методы  анализа  и  проектирования 

системы  синтеза  искусственной  речи  //Таврический  Вестник  Информатики  и 

Математики  Таврического Национального Университета. Украина, – 2008. №1. 

– С.51-59. 

7. Амиргалиев Е.Н., Мусабаев Р.Р.  Методы обработки сигналов в системе 

синтеза речи. /Труды Института вычислительной математики и мат. геофизики 

СО РАН.  2009.- С-14-22. 

8.  Амиргалиев  Е.Н.,  Мусабаев  Р.Р.  Один  метод  модуляции  речевого 

сигнала  по  амплитуде  и  его  применение  в  системах  синтеза  и  клонирования 

речи.   // Вычислительные технологии ИВТ СО РАН.  2010, № 1. – С. 25-29. 



Достарыңызбен бөлісу:
1   ...   7   8   9   10   11   12   13   14   ...   48




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет