I ші халықаралық ғылыми-тəжірибелік конференцияның ЕҢбектері



Pdf көрінісі
бет36/48
Дата31.03.2017
өлшемі11,62 Mb.
#11006
1   ...   32   33   34   35   36   37   38   39   ...   48

 

Список литературы: 

 

1.  Айтчанов  Б.Х.  Построение  нелинейной  системы,  мажорирующей 



процессы  в  частотно-импульсных  системах  с  запаздыванием  //Труды 

международной 

научно-практической 

конференции 

”Естественно-

гуманитарные  науки  и  их  роль  в  подготовке  инженерных  кадров”.  -Алматы: 

КазНТУ, 2002. -С.130-134. 

2. Изерман Р.  Цифровые системы управления. - М.: Мир, 1984.- 541 с. 

3. Пупков К.А., Капалин В.И., Ющенко А.С. Функциональные ряды в теории нелинейных систем. -

М.: Машиностроение, 1965.- 418 с. 

4.  Айтчанов  Б.Х.  Частотно-импульсные  системы  управления  объектами  с 

запаздыванием  //Материалы  3-ей  международной  научно-практической 

конференции «Наука и инновации». -София: Бял ГРАД-БГ, 2007. -С.54-58.  

5.  Айтчанов  Б.Х.  Методы  статистических  исследований  нелинейных 

динамических систем. –Алматы:КазНТУ, 2003. -160с.  

 

 



ИНСТРУМЕНТАРИИ MICROSOFT В СИСТЕМАХ СИНТЕЗА РЕЧИ  

И ИХ ПРИМЕНЕНИЕ В УЧЕБНЫХ  ЦЕЛЯХ 

 

Амиргалиев Б.Е. 

Институт проблем информатики и управления -  КазНТУ им. К.И. Сатпаева 

 

В  работе  рассмотрены  подходы  к  построению  системы  синтеза  речи, 

основанные  на  использование    интерфейса  программирования  приложении 

Microsoft API, который представляет собой высокоуровневый интерфейс между 



Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

394



приложением и речевым движком. А также приводится пример использования 

языка XML для представления данных в системе синтеза речи.  





Обзор Speech API 

MS Speech API представляет собой набор COM-объектов, взаимодействуя 

с  которыми  можно  научить  свою  программу  как  распознавать,  так  и 

синтезировать речь.  

SAPI  API  -  высокоуровневый  интерфейс  между  приложением  и 

голосовыми  движками.  SAPI  обеспечивает  всю  низкоуровневую  детализацию 

нужную  для  контроля  и  управления операциями разных голосовых движков в 

реальном времени. 

Что  же  позволяет  делать  SAPI  SDK  и  кому  он  может  быть  полезен?  В 

первую  очередь  разработчикам  все  тех  же  "движков",  так  как  снабжает  их 

необходимым  инструментарием,  позволяющим  не  ломать  голову  над 

совместимостью программ, а заниматься лишь улучшением качества синтеза и 

распознавания  речи.  Во-вторых,  разработчикам  приложений,  которые 

используют речь, как средство общения с пользователем, так как в этом случае 

разработчик может не задумываться о том, как реализовать ввод и вывод речи 

на  низком  уровне  (ибо  это  уже  решено  в  "движках"),  а  целиком  заняться 

обработкой  полученных  речевых  данных,  преобразованных  в  текстовый 

формат,  или  формированием  текстовых  сообщений,  которые  будут 

преобразованы в речь средствами SAPI. 

Два  основных типов SAPI  движков –  система преобразования из текста в 

речь  (TTS)  и  система  распознавание  речи  (Рис.1).  TTS  системы  синтезируют 

текст  и  файлы  в  произносимую  аудио-речь.  Система  распознавания  речи 

конвертирует человеческую речь в читаемый текст и файлы.  

Приложения,  использующие  Microsoft  SAPI,  могут  управлять  синтезом 

речи, используя COM (component object model) интерфейс ISpVoice. После того 

как  приложение  создало  объект  ISpVoice,  ему  достаточно  вызвать 

ISpVoice::Speak,  чтобы  произвести  речевой  вывод  какого-либо  текста.  Кроме 

того,  интерфейс  IspVoice  также  содержит  несколько  методов,  позволяющих 

изменить голос и параметры синтеза[13]. Например, скорость речи (ISpVoice:: 

SetRate),  громкость  звука  (ISpVoice::SetVolume),  или  вообще  сменить  голос 

(ISpVoice::SetVoice).  

 


Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

395



 

Рис. 1. Связь приложение - движок 

 

Microsoft  SAPI  поддерживает  специальные  управляющие  конструкции, 



которые  могут  быть  помещены  в  текст,  предназначенный  для  синтеза.  Эти 

конструкции  позволяют  в  реальном  времени  контролировать  параметры 

синтеза  (например,  голос,  высота  тона,  паузы,  произношение,  скорость  и 

громкость).  Такая  речевая  разметка  текста  (sapi  xsd) использующая  стандарты 

формата  XML,  является  простым  и  одновременно  мощным  средством 

настройки  параметров  синтезируемой  речи,  независимо  от  используемого 

речевого "движка" или текущего голоса.  

Метод  IspVoice::Speak  может  синтезировать  речь  синхронно,  т.е.  вернуть 

управление  только  после  окончания  синтеза,  либо  асинхронно,  т.е.  вернуть 

управление  немедленно,  при  этом  процесс  синтеза  речи  будет  идти 

параллельно  работе  основного  приложения.  В  асинхронном  режиме 

(SPF_ASYNC)  информация  о  состоянии  синтеза  и  текущем  положении 

указателя  синтезируемого  текста  можно  получить  при  помощи  метода 

ISpVoice::  GetStatus.  В  этом  режиме  речевой  синтез  нового  текста  может 

прервать  текущий  речевой  фрагмент  и  воспроизвести  текст  немедленно 

(SPF_PURGEBEFORESPEAK),  или  новый  текст  может  быть  автоматически 

добавлен в конец текущего текстового блока.  

Кроме интерфейса ISpVoice, SAPI обладает еще рядом COM интерфейсов, 

позволяющих  выполнять  более  сложную  обработку  текста  и  синтез  речи  по 

нему.  


События

.  Microsoft  SAPI  взаимодействует  с  приложениями,  генерируя 

события  и  используя  стандартные  механизмы  направления  сообщений  в 

оконную процедуру обработки сообщений. При синтезе речи по тексту события 

используются преимущественно для синхронизации вывода речи. Приложения 

могут  реагировать  на  события  в  реальном  времени,  поскольку  события 

возникают  на  границах  слов,  фонем,  на  закладках,  помещенных  самим 

приложением,  и  т.п.  Приложения  могут  получать  дескрипторы  этих  событий, 

используя  интерфейсы  ISpNotifySource,  ISpNotifySink,  ISpNotifyTranslator, 

ISpEventSink, ISpEventSource, ISpNotifyCallback.  



Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

396



Словари.  Приложения

  могут  изменять  произношение  слов  для  речевого 

"движка", используя методы, предоставляемые объектами ISpContainerLexicon, 

ISpLexicon  и ISpPhoneConverter.  



Ресурсы.  Поиск

  и  отбор  SAPI  данных  (файлов  голоса  или  словарей) 

осуществляются  при  помощи  интерфейсов  ISpDataKey,ISpRegDataKey, 

ISpObjectTokenInit, 

ISpObjectTokenCategory, 

ISpObjectToken, 

IEnumSpObjectTokens, ISpObjectWithToken,  ISpResourceManager и ISpTask.  

Звук.  Также

  существует  интерфейс  для  управления  параметрами 

звуковоспроизведения 

(например, 

для 

телефонии 



или 

специальной 

аппаратуры): 

ISpAudio, 

ISpMMSysAudio, 

ISpStream, 

ISpStreamFormat, 

ISpStreamFormatConverter.  

На  этом  в  рамках  данной  статьи  завершается  обзор  Microsoft  SAPI.  Мы 

надеемся,  что  приведенных  материалов  достаточно,  чтобы  получить 

представление  о  возможностях  этого  программного  продукта,  а  также  понять 

общий подход к вопросам взаимодействия приложений и Microsoft SAPI.  



2 XML 

представление данных  

Тэги  расширяемого  языка  разметки  (XML)  SAPI  преобразования  текста  в 

речь  (TTS)  подразделяются  на  несколько  категорий  [5]:  Контроль  состояния 

голоса; Прямая вставка сообщения; Контроль контекста голоса; Выбор голоса; 

Обычное произношение; Теги (tag) контроля состояние голоса. 

SAPI  TTS  XML  поддерживает  пять  тэгов,  которые  контролируют 

состояние текущего голоса: Том, Rate, Pitch, EMPH и написание (по буквам).  

Volume 

Тэг.  Volume  управляет  громкостью  голоса.  Тэга  может  быть 

пустым,  и  в  этом  случае  он  применяется  ко  всем  последующим  текстам,  или 

она  может  иметь  содержание,  в  этом  случае  он  применяется  только  к 

выделенному содержанию (тексту). Volume имеет один обязательный атрибут: 

Level.  Значение  этого  атрибута  должно  быть  целым  числом  от  нуля  до  ста. 

Значения вне этого диапазона будут обрезаны.  



 This text should be spoken at volume level fifty. level="100">  This  text  should  be  spoken  at  volume  level  one  hundred.   



  All text which follows should be spoken at volume 

level eighty.  

Значение  100  принимается  по  умолчанию  и  соответствует  наибольшему 

объему  голоса.  Меньшие  значения  представляют  собой  процент  от  этого 

значения. То есть, 50 соответствует 50% от полного объема.  

Значения,  заданные  в  Volume  с  помощью  тэга  будет  сочетаться  со 

значениями,  указанными  программными  путями  (используя  ISpVoice:: 

SetVolume).  Например,  если  вы  объедините  SetVolume  (50)  вызов  с  

level="50"> тэгов, объем голос должен быть 25% от полного объема.  

Rate  Rate

.  Тэг  Rate  контролирует скорость произношения текста  голосом. 

Тэг  может  быть  пустым,  и  в  этом  случае  он  применяется  ко  всему 

последующему тексту, а также она может иметь содержание, в этом случае он 

применяется только к этому содержанию.  


Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

397



Тэг Rate имеет два атрибута, Speed и AbsSpeed, присутствие одного из них 

должно  быть  обязательным.  Значения    обоих  этих  атрибутов  должны  быть 

целыми  числами  от  -10  до  10.  Значения  вне  этого  диапазона  могут  быть 

обрезаны.  AbsSpeed  атрибутом  управляет  абсолютной  скоростью  голоса, 

поэтому значение десяти всегда соответствует значению десять, стоимость пяти 

всегда соответствует пяти.  



 This text should be spoken at rate five. 5">  This  text  should  be  spoken  at  rate  negative  five.      

absspeed="10"/>  

Emph  EMPH

.Тэг  EMPH  инструктирует  голос,  для  того  чтобы 

интонационно  подчеркнуть  слово  или  часть  текста.  Следующее  слово  следует 

подчеркнуть.  



 boo !  

Метод выразительности (emth) может варьироваться от голоса к голосу.  



Spell  Spell

.  Тэг  орфографии  силы  голоса  изложить  весь  текст,  а  не 

использовать  свое  слово  по  умолчанию  и  предложения  нарушение  правил, 

правил  нормализации,  и  так  далее.  Все  символы  должны  быть  расширены, 

чтобы  соответствующие  слова  (включая  знаки  препинания,  цифры  и  т.д.).  Тег 

Spell не может быть пустым.  



 These words should be spelled out.  These words should not be 

spelled out.  

Три  метки  поддерживаемых  приложений  Возможность  вставки  пунктов 

непосредственно на каком-то уровне: Silence, Pron, и Bookmark.  



Тэги голосового выбора. Есть два тэга, которые могут быть использованы 

(потенциально) для изменения текущего голосом: голос и Lang.  



Voice  Voice

. Тэг Voice отбирает голоса на основе его атрибутов, возраста, 

пола, языка, Имя, продавца, и VendorPreferred. Метка может быть пустым, и в 

этом  случае  он  меняет  голос  для  всех  последующих  текстов,  или  она  может 

иметь содержание, в этом случае она только меняет голос за содержание.  

Кроме  того,  атрибуты  текущего  голоса  всегда  добавляются  как 

дополнительные  атрибуты,  когда  используется  Voice  тэг.  Это  означает,  что 

голос,  который  больше  похож  на  текущий  голос  будет  выбран  более  что 

меньше аналогичного.  

Если  нет  голоса  установлено,  что  совпадает  со  всеми  необходимыми 

атрибутами, ни голоса изменений не произойдет.  

Голос по умолчанию должен говорить это предложение.  



  

Lang  Lang

.  Тэг  Lang  отбирает  голоса  исключительно  на  основе  своего 

языка атрибутов. Тэг может быть пустым, и в этом случае он меняет голос для 

всех последующих текстов, или может иметь контекст, в этом случае она лишь 

меняет голос контекста.  


Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

398



Тэг  Lang  имеет  один  атрибут,  LANGID.  Этот  атрибут  должен  быть 

LANGID,  такие,  как  409  (американский  английский)  или  411  (японский). 

Обратите внимание, что эти цифры шестнадцатеричные, но без типичных "0x".  

Тэг  Lang  сокращенная  версия  тэга  Voice  с  обязательным  атрибутом, 

содержащий  "Language  =  TTS_Engine".  Таким  образом,  следующие  примеры 

должны производить точно такие же результаты:  



  A  US  English  voice  should  speak  this. 

  A US English voice should speak this.  

На  сегодняшний  день  последней  версией  SAPI  SDK  является  версия  5.1 

(до  нее  были  2.0,  3.0,  4.0  и  5.0).  Для  версии  4.0  существуют  несколько 

русскоязычных  "движков"  синтеза  речи  по  тексту  (text-to-speech  engine).  

Как  видим,  Microsoft  SAPI  прошел  уже  немалый  путь  в  своем  развитии,  что 

обусловило не только интерес сторонних разработчиков к этому программному 

продукту,  но  и  способствовало  появлению  множества  "движков", 

поддерживающих 

различные 

языки, 


и 

многочисленных 

программ, 

использующих речевой интерфейс для ввода и вывода информации. Среди этих 

программ  есть  и  такие,  которые  ориентированы  на  нужды  незрячих  и 

слабовидящих. 

 

 

Список литературы: 



 

1.  Амиргалиев  Е.Н.,  Мусабаев  Р.Р,  Амиргалиев  Б.Е.  Методы  анализа 

речевого  сигнала  в  системах  распознавания  и  синтеза  речи:  Сб.  трудов 

международной    научно-практ.  конф.  "Современные  проблемы  математики

информатики и управления" -Алматы:ИПИУ МОН РК,  2008. –С. 50-53. 

2.  Е.  Н.  Амиргалиев,  Р.  Р.  Мусабаев.  Методы  анализа  и  проектирования 

системы  синтеза  искусственной  речи  //  Таврический  вестник  информатики  и 

математики.- 2008.- № 1. -С. 51-58. 

3.  Айда-заде  К.  Р.,  Шарифова  А.  М.  Text-to-speech  synthesis  for  Azerbaijan 

language:  Сб.  тр.  междунар.науч.-практ.  конф.  "Современные  проблемы 

математики, информатики и управления"-Алматы:ИПИУ МОН РК, 2008.  -С. 38-41. 

4. S. Ablameyko, S. Abramov, V. Anishchanka, N. Paramonov, O.Tchij. SKIF 

supercomputers and their applications: Algorithms of phonemes classification in field 

of  compilative  speech  synthesis  systems  realization.  PCI'2008  -  The  second 

international conference "Problems of cybernetics and informatics", Baku: Institute of 

cybernetic, 2007. 

5. Tim Bray, Dave Hollander, and Andrew Layman, editors. Namespaces in XML

Textuality, Hewlett-Packard, and Microsoft. World Wide Web Consortium, 1999. 

 

 

ПРОБЛЕМЫ ПОДГОТОВКИ СПЕЦИАЛИСТОВ ПО ИТ В 



СОВРЕМЕННЫХ УСЛОВИЯХ 

Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

399



 

Ахмед-Заки Д.Ж., Мансурова М.Е. 

Казахский национальный унивеситет им. аль-Фараби 

 

В  настоящее  время  подготовку  студентов  по  специальностям  цикла 

информационных  технологий  осуществляют  большинство  ВУЗов  страны. 

Следует учесть, что при открытии той или иной специальности в ВУЗах слабо 

обращается  внимание  на  достаточность  материальной  технической  базы, 

качественную  комплектацию  ППС  и,  прежде  всего,  на  направленность 

обучения  контингента  обучающихся  по  данной  специальности  студентов.  Не 

секрет,  что  большинство  поступающих  на  данные  специальности  студентов 

четко  не  представляют  себе  границы  раздела  тех  или  иных  специальностей, 

различие направленности подготовки образовательных программ  и принимают  

решение  о  поступлении  на  основании  скудной  первичной  информации 

(красочно  представленных  на  буклетах,  стендах,  рекламе  и.т.д).  Естественно 

через  некоторое  время  студент  осознает,  что  обучаемая  программа  не  совсем 

соответствует его ожиданиям и еще более печально, если он не находит своего 

места  в  своей  будущей  профессиональной  деятельности.  Также  данная 

проблема  усугубляется  тем,  что  казахстанская  система  подготовки  кадров  в 

сфере  ИТ  технологий  коренным  образом  отличается  от  западной  системы.  В 

более  смягченном  виде  это  проявляется  при  не  соответствии  перечня 

изученных  курсов  с  курсами  ведущих  ВУЗов  мира  при  желании  дальнейшего 

продолжения  обучения  зарубежом  или  на  более  серьезном  уровне  при 

непосредственном качественном сравнении уровня знаний выпускников.  

В  чем  же  принципиальное  отличие?  В  том,  что  качественная  подготовка 

специалистов  осуществляется  там,  где  это  сопряжено  с  передовыми  научно-

исследовательскими  работами  осуществляемые  ППС  и  тесной  связью  с 

производством.  Только  вместе  данные  составляющие  позволят  решить 

следующий ряд задач:  

•  повышение  качества  преподавания,  через  вовлечение  в  учебный 

процесс  ППС  непосредственно  осуществляющих  исследовательскую  работу  в 

области, в которую входит изучаемый курс; 

•  вовлечение студентов в научно-исследовательскую деятельность, через 

участие  в  проектах,  в  работе  научно-практических  семинаров  и  опытно-

конструкторских исследований; 

•  повышение интереса у студентов при изучении курса, через ознакомление 

их с последними собственными инновационными разработками ВУЗов;  

•  соответствие уровня навыков и знаний у студентов для применения их 

в практической профессиональной деятельности и т.д.  

Заметим,  что  существующие  условия  в  образовательной  системе,  когда 

постоянно  открываются  новые  специальности  и  ВУЗы  осуществляющие 

подготовку по информационным технологиям и формируются жесткие условия 

конкуренции наглядно видны следующие основные недостатки: 



Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

400



• в ГОСО специальностей сильно размыта граница раздела специальностей 

по  ИТ, нечеткая  формулировка  компетенций  и  целей  трудно: отличить  между 

собой,  чем  же  принципиально  отличаются  специальности  (ИС,  ВТиПО, 

Информатика  и  т.д.)?   Тогда  как,  в  тоже  время  мы  понимаем,  что  перечень 

курсов в ГОСО не всегда читается ППС в должном ракурсе и глубиной охвата 

материала.       

• ограниченное количество квалифицированных кадров ППС у всех ВУЗов 

страны.  Если  мы  хотим  действительно  развивать  систему  преподавания 

информационных  технологий  в  вузах,  тогда  необходимо  организовывать 

жизнеспособную  систему  переподготовки  и  повышения  квалификации 

имеющихся  у  нас  кадров  (возможно  через  научно-практические  стажировки, 

инновационные  курсы  обучения  и  т.д.).  В  штате  148  высших  учебных 

заведений  страны  состоят  39155  преподавателей,  по  совместительству 

работают  5937  преподавателей.  Из  общего  профессорско-преподавательского 

персонала 7,1%  имеют  ученую  степень  доктора  наук,  33,7%  - кандидата наук, 

5,8  %  имеют  ученое  звание  профессора  и  16,7%  -  доцента  по  всем 

специальностям вместе взятых [1]. 

• пагубный  ориентир  на  контингент  студентов,  тогда  как  удельный  вес 

студентов обучающихся  на технических науках и технологиях составляет 18% 

от общей численности студентов, обучающихся в ВУЗах республики [1] (общей 

численность  студентов  на  2009-2010  учебный  год  -  610,3  тыс.  человек).  Даже 

наличие  одаренных  ребят  –  «олимпийцев»  у  ВУЗов  не  позволяет 

осуществления полной реализации системы качественного изучения курсов, так 

как  обычно  «олимпийцев»  в  среднем  –  до  5%,  обучающихся  на  хорошо  и 

отлично -15-35% от общего количества студентов.       

Естественно  учитывая  вышесказанное  и   современные  требования  к 

специалистам  по  ИТ  предлагается  реализация  следующих  основных  подходов 

для повышения качества их подготовки: 

• 

развитие существующего и формирование новых направлений научно-



технического потенциала ВУЗов, через финансирование и активное вовлечение 

ППС в научно-исследовательскую деятельность при  тесном взаимодействии с  

производством (проекты, НИОКР и т.д.); 

• 

выделение  направлений  сфер  деятельности  будущего  специалиста  с 



учетом интересов государства и заказов производителей-компаний;   

• 

анализ  и  внедрение  образовательных  учебных  программ  ведущих 



ВУЗов  мира  и  профессиональных  ассоциаций  (Association  for  Computing 

Machinery, IEEE Computer Society);  

• 

организация  эффективной  системы  переподготовки  и  повышения 



квалификации  ППС  (научно-практические  стажировки,  инновационные  курсы 

обучения и т.д.); 

• 

организация  лабораторий  и  академий  ведущих  производителей 



программного  обеспечения  и  оборудования  с  возможностью  прохождения 

Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту: 

жолдары мен мүмкіндіктері 

 

401



производственных  и  дипломных  практик  или  интеграции  их  авторизованных 

учебных курсов процесс обучения  

В  заключении  отметим,  что  вопросы  повышения  качества  преподавания 

информационных  технологий  в  вузах  непосредственно  связаны  с 

соответствующими требованиями и запросами общества, когда на первый план 

выходит  эффективность  реализации  принятых  программ  развитий,  научно-

исследовательская  ориентированность  и  наукоемкость    производственно-

технического комплекса страны, а также формирование базы фундаментальных 

научно-исследовательских  работ  и  инновационный  характер  разработок 

отечественных ученных и производителей.  

 

Список литературы: 



 

http://ww.stat.kz

  «Высшие  учебные  заведения  Республики  Казахстан  в 

2009/2010 учебном году» 




Достарыңызбен бөлісу:
1   ...   32   33   34   35   36   37   38   39   ...   48




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет