Список литературы:
1. Айтчанов Б.Х. Построение нелинейной системы, мажорирующей
процессы в частотно-импульсных системах с запаздыванием //Труды
международной
научно-практической
конференции
”Естественно-
гуманитарные науки и их роль в подготовке инженерных кадров”. -Алматы:
КазНТУ, 2002. -С.130-134.
2. Изерман Р. Цифровые системы управления. - М.: Мир, 1984.- 541 с.
3. Пупков К.А., Капалин В.И., Ющенко А.С. Функциональные ряды в теории нелинейных систем. -
М.: Машиностроение, 1965.- 418 с.
4. Айтчанов Б.Х. Частотно-импульсные системы управления объектами с
запаздыванием //Материалы 3-ей международной научно-практической
конференции «Наука и инновации». -София: Бял ГРАД-БГ, 2007. -С.54-58.
5. Айтчанов Б.Х. Методы статистических исследований нелинейных
динамических систем. –Алматы:КазНТУ, 2003. -160с.
ИНСТРУМЕНТАРИИ MICROSOFT В СИСТЕМАХ СИНТЕЗА РЕЧИ
И ИХ ПРИМЕНЕНИЕ В УЧЕБНЫХ ЦЕЛЯХ
Амиргалиев Б.Е.
Институт проблем информатики и управления - КазНТУ им. К.И. Сатпаева
В работе рассмотрены подходы к построению системы синтеза речи,
основанные на использование интерфейса программирования приложении
Microsoft API, который представляет собой высокоуровневый интерфейс между
Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту:
жолдары мен мүмкіндіктері
394
приложением и речевым движком. А также приводится пример использования
языка XML для представления данных в системе синтеза речи.
1
Обзор Speech API
MS Speech API представляет собой набор COM-объектов, взаимодействуя
с которыми можно научить свою программу как распознавать, так и
синтезировать речь.
SAPI API - высокоуровневый интерфейс между приложением и
голосовыми движками. SAPI обеспечивает всю низкоуровневую детализацию
нужную для контроля и управления операциями разных голосовых движков в
реальном времени.
Что же позволяет делать SAPI SDK и кому он может быть полезен? В
первую очередь разработчикам все тех же "движков", так как снабжает их
необходимым инструментарием, позволяющим не ломать голову над
совместимостью программ, а заниматься лишь улучшением качества синтеза и
распознавания речи. Во-вторых, разработчикам приложений, которые
используют речь, как средство общения с пользователем, так как в этом случае
разработчик может не задумываться о том, как реализовать ввод и вывод речи
на низком уровне (ибо это уже решено в "движках"), а целиком заняться
обработкой полученных речевых данных, преобразованных в текстовый
формат, или формированием текстовых сообщений, которые будут
преобразованы в речь средствами SAPI.
Два основных типов SAPI движков – система преобразования из текста в
речь (TTS) и система распознавание речи (Рис.1). TTS системы синтезируют
текст и файлы в произносимую аудио-речь. Система распознавания речи
конвертирует человеческую речь в читаемый текст и файлы.
Приложения, использующие Microsoft SAPI, могут управлять синтезом
речи, используя COM (component object model) интерфейс ISpVoice. После того
как приложение создало объект ISpVoice, ему достаточно вызвать
ISpVoice::Speak, чтобы произвести речевой вывод какого-либо текста. Кроме
того, интерфейс IspVoice также содержит несколько методов, позволяющих
изменить голос и параметры синтеза[13]. Например, скорость речи (ISpVoice::
SetRate), громкость звука (ISpVoice::SetVolume), или вообще сменить голос
(ISpVoice::SetVoice).
Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту:
жолдары мен мүмкіндіктері
395
Рис. 1. Связь приложение - движок
Microsoft SAPI поддерживает специальные управляющие конструкции,
которые могут быть помещены в текст, предназначенный для синтеза. Эти
конструкции позволяют в реальном времени контролировать параметры
синтеза (например, голос, высота тона, паузы, произношение, скорость и
громкость). Такая речевая разметка текста (sapi xsd) использующая стандарты
формата XML, является простым и одновременно мощным средством
настройки параметров синтезируемой речи, независимо от используемого
речевого "движка" или текущего голоса.
Метод IspVoice::Speak может синтезировать речь синхронно, т.е. вернуть
управление только после окончания синтеза, либо асинхронно, т.е. вернуть
управление немедленно, при этом процесс синтеза речи будет идти
параллельно работе основного приложения. В асинхронном режиме
(SPF_ASYNC) информация о состоянии синтеза и текущем положении
указателя синтезируемого текста можно получить при помощи метода
ISpVoice:: GetStatus. В этом режиме речевой синтез нового текста может
прервать текущий речевой фрагмент и воспроизвести текст немедленно
(SPF_PURGEBEFORESPEAK), или новый текст может быть автоматически
добавлен в конец текущего текстового блока.
Кроме интерфейса ISpVoice, SAPI обладает еще рядом COM интерфейсов,
позволяющих выполнять более сложную обработку текста и синтез речи по
нему.
События
. Microsoft SAPI взаимодействует с приложениями, генерируя
события и используя стандартные механизмы направления сообщений в
оконную процедуру обработки сообщений. При синтезе речи по тексту события
используются преимущественно для синхронизации вывода речи. Приложения
могут реагировать на события в реальном времени, поскольку события
возникают на границах слов, фонем, на закладках, помещенных самим
приложением, и т.п. Приложения могут получать дескрипторы этих событий,
используя интерфейсы ISpNotifySource, ISpNotifySink, ISpNotifyTranslator,
ISpEventSink, ISpEventSource, ISpNotifyCallback.
Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту:
жолдары мен мүмкіндіктері
396
Словари. Приложения
могут изменять произношение слов для речевого
"движка", используя методы, предоставляемые объектами ISpContainerLexicon,
ISpLexicon и ISpPhoneConverter.
Ресурсы. Поиск
и отбор SAPI данных (файлов голоса или словарей)
осуществляются при помощи интерфейсов ISpDataKey,ISpRegDataKey,
ISpObjectTokenInit,
ISpObjectTokenCategory,
ISpObjectToken,
IEnumSpObjectTokens, ISpObjectWithToken, ISpResourceManager и ISpTask.
Звук. Также
существует интерфейс для управления параметрами
звуковоспроизведения
(например,
для
телефонии
или
специальной
аппаратуры):
ISpAudio,
ISpMMSysAudio,
ISpStream,
ISpStreamFormat,
ISpStreamFormatConverter.
На этом в рамках данной статьи завершается обзор Microsoft SAPI. Мы
надеемся, что приведенных материалов достаточно, чтобы получить
представление о возможностях этого программного продукта, а также понять
общий подход к вопросам взаимодействия приложений и Microsoft SAPI.
2 XML
представление данных
Тэги расширяемого языка разметки (XML) SAPI преобразования текста в
речь (TTS) подразделяются на несколько категорий [5]: Контроль состояния
голоса; Прямая вставка сообщения; Контроль контекста голоса; Выбор голоса;
Обычное произношение; Теги (tag) контроля состояние голоса.
SAPI TTS XML поддерживает пять тэгов, которые контролируют
состояние текущего голоса: Том, Rate, Pitch, EMPH и написание (по буквам).
Volume
Тэг. Volume управляет громкостью голоса. Тэга может быть
пустым, и в этом случае он применяется ко всем последующим текстам, или
она может иметь содержание, в этом случае он применяется только к
выделенному содержанию (тексту). Volume имеет один обязательный атрибут:
Level. Значение этого атрибута должно быть целым числом от нуля до ста.
Значения вне этого диапазона будут обрезаны.
This text should be spoken at volume level fifty. level="100"> This text should be spoken at volume level one hundred.
All text which follows should be spoken at volume
level eighty.
Значение 100 принимается по умолчанию и соответствует наибольшему
объему голоса. Меньшие значения представляют собой процент от этого
значения. То есть, 50 соответствует 50% от полного объема.
Значения, заданные в Volume с помощью тэга будет сочетаться со
значениями, указанными программными путями (используя ISpVoice::
SetVolume). Например, если вы объедините SetVolume (50) вызов с
level="50"> тэгов, объем голос должен быть 25% от полного объема.
Rate Rate
. Тэг Rate контролирует скорость произношения текста голосом.
Тэг может быть пустым, и в этом случае он применяется ко всему
последующему тексту, а также она может иметь содержание, в этом случае он
применяется только к этому содержанию.
Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту:
жолдары мен мүмкіндіктері
397
Тэг Rate имеет два атрибута, Speed и AbsSpeed, присутствие одного из них
должно быть обязательным. Значения обоих этих атрибутов должны быть
целыми числами от -10 до 10. Значения вне этого диапазона могут быть
обрезаны. AbsSpeed атрибутом управляет абсолютной скоростью голоса,
поэтому значение десяти всегда соответствует значению десять, стоимость пяти
всегда соответствует пяти.
This text should be spoken at rate five. 5"> This text should be spoken at rate negative five.
absspeed="10"/>
Emph EMPH
.Тэг EMPH инструктирует голос, для того чтобы
интонационно подчеркнуть слово или часть текста. Следующее слово следует
подчеркнуть.
boo !
Метод выразительности (emth) может варьироваться от голоса к голосу.
Spell Spell
. Тэг орфографии силы голоса изложить весь текст, а не
использовать свое слово по умолчанию и предложения нарушение правил,
правил нормализации, и так далее. Все символы должны быть расширены,
чтобы соответствующие слова (включая знаки препинания, цифры и т.д.). Тег
Spell не может быть пустым.
These words should be spelled out. These words should not be
spelled out.
Три метки поддерживаемых приложений Возможность вставки пунктов
непосредственно на каком-то уровне: Silence, Pron, и Bookmark.
Тэги голосового выбора. Есть два тэга, которые могут быть использованы
(потенциально) для изменения текущего голосом: голос и Lang.
Voice Voice
. Тэг Voice отбирает голоса на основе его атрибутов, возраста,
пола, языка, Имя, продавца, и VendorPreferred. Метка может быть пустым, и в
этом случае он меняет голос для всех последующих текстов, или она может
иметь содержание, в этом случае она только меняет голос за содержание.
Кроме того, атрибуты текущего голоса всегда добавляются как
дополнительные атрибуты, когда используется Voice тэг. Это означает, что
голос, который больше похож на текущий голос будет выбран более что
меньше аналогичного.
Если нет голоса установлено, что совпадает со всеми необходимыми
атрибутами, ни голоса изменений не произойдет.
Голос по умолчанию должен говорить это предложение.
Lang Lang
. Тэг Lang отбирает голоса исключительно на основе своего
языка атрибутов. Тэг может быть пустым, и в этом случае он меняет голос для
всех последующих текстов, или может иметь контекст, в этом случае она лишь
меняет голос контекста.
Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту:
жолдары мен мүмкіндіктері
398
Тэг Lang имеет один атрибут, LANGID. Этот атрибут должен быть
LANGID, такие, как 409 (американский английский) или 411 (японский).
Обратите внимание, что эти цифры шестнадцатеричные, но без типичных "0x".
Тэг Lang сокращенная версия тэга Voice с обязательным атрибутом,
содержащий "Language = TTS_Engine". Таким образом, следующие примеры
должны производить точно такие же результаты:
A US English voice should speak this.
A US English voice should speak this.
На сегодняшний день последней версией SAPI SDK является версия 5.1
(до нее были 2.0, 3.0, 4.0 и 5.0). Для версии 4.0 существуют несколько
русскоязычных "движков" синтеза речи по тексту (text-to-speech engine).
Как видим, Microsoft SAPI прошел уже немалый путь в своем развитии, что
обусловило не только интерес сторонних разработчиков к этому программному
продукту, но и способствовало появлению множества "движков",
поддерживающих
различные
языки,
и
многочисленных
программ,
использующих речевой интерфейс для ввода и вывода информации. Среди этих
программ есть и такие, которые ориентированы на нужды незрячих и
слабовидящих.
Список литературы:
1. Амиргалиев Е.Н., Мусабаев Р.Р, Амиргалиев Б.Е. Методы анализа
речевого сигнала в системах распознавания и синтеза речи: Сб. трудов
международной научно-практ. конф. "Современные проблемы математики,
информатики и управления" -Алматы:ИПИУ МОН РК, 2008. –С. 50-53.
2. Е. Н. Амиргалиев, Р. Р. Мусабаев. Методы анализа и проектирования
системы синтеза искусственной речи // Таврический вестник информатики и
математики.- 2008.- № 1. -С. 51-58.
3. Айда-заде К. Р., Шарифова А. М. Text-to-speech synthesis for Azerbaijan
language: Сб. тр. междунар.науч.-практ. конф. "Современные проблемы
математики, информатики и управления"-Алматы:ИПИУ МОН РК, 2008. -С. 38-41.
4. S. Ablameyko, S. Abramov, V. Anishchanka, N. Paramonov, O.Tchij. SKIF
supercomputers and their applications: Algorithms of phonemes classification in field
of compilative speech synthesis systems realization. PCI'2008 - The second
international conference "Problems of cybernetics and informatics", Baku: Institute of
cybernetic, 2007.
5. Tim Bray, Dave Hollander, and Andrew Layman, editors. Namespaces in XML.
Textuality, Hewlett-Packard, and Microsoft. World Wide Web Consortium, 1999.
ПРОБЛЕМЫ ПОДГОТОВКИ СПЕЦИАЛИСТОВ ПО ИТ В
СОВРЕМЕННЫХ УСЛОВИЯХ
Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту:
жолдары мен мүмкіндіктері
399
Ахмед-Заки Д.Ж., Мансурова М.Е.
Казахский национальный унивеситет им. аль-Фараби
В настоящее время подготовку студентов по специальностям цикла
информационных технологий осуществляют большинство ВУЗов страны.
Следует учесть, что при открытии той или иной специальности в ВУЗах слабо
обращается внимание на достаточность материальной технической базы,
качественную комплектацию ППС и, прежде всего, на направленность
обучения контингента обучающихся по данной специальности студентов. Не
секрет, что большинство поступающих на данные специальности студентов
четко не представляют себе границы раздела тех или иных специальностей,
различие направленности подготовки образовательных программ и принимают
решение о поступлении на основании скудной первичной информации
(красочно представленных на буклетах, стендах, рекламе и.т.д). Естественно
через некоторое время студент осознает, что обучаемая программа не совсем
соответствует его ожиданиям и еще более печально, если он не находит своего
места в своей будущей профессиональной деятельности. Также данная
проблема усугубляется тем, что казахстанская система подготовки кадров в
сфере ИТ технологий коренным образом отличается от западной системы. В
более смягченном виде это проявляется при не соответствии перечня
изученных курсов с курсами ведущих ВУЗов мира при желании дальнейшего
продолжения обучения зарубежом или на более серьезном уровне при
непосредственном качественном сравнении уровня знаний выпускников.
В чем же принципиальное отличие? В том, что качественная подготовка
специалистов осуществляется там, где это сопряжено с передовыми научно-
исследовательскими работами осуществляемые ППС и тесной связью с
производством. Только вместе данные составляющие позволят решить
следующий ряд задач:
• повышение качества преподавания, через вовлечение в учебный
процесс ППС непосредственно осуществляющих исследовательскую работу в
области, в которую входит изучаемый курс;
• вовлечение студентов в научно-исследовательскую деятельность, через
участие в проектах, в работе научно-практических семинаров и опытно-
конструкторских исследований;
• повышение интереса у студентов при изучении курса, через ознакомление
их с последними собственными инновационными разработками ВУЗов;
• соответствие уровня навыков и знаний у студентов для применения их
в практической профессиональной деятельности и т.д.
Заметим, что существующие условия в образовательной системе, когда
постоянно открываются новые специальности и ВУЗы осуществляющие
подготовку по информационным технологиям и формируются жесткие условия
конкуренции наглядно видны следующие основные недостатки:
Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту:
жолдары мен мүмкіндіктері
400
• в ГОСО специальностей сильно размыта граница раздела специальностей
по ИТ, нечеткая формулировка компетенций и целей трудно: отличить между
собой, чем же принципиально отличаются специальности (ИС, ВТиПО,
Информатика и т.д.)? Тогда как, в тоже время мы понимаем, что перечень
курсов в ГОСО не всегда читается ППС в должном ракурсе и глубиной охвата
материала.
• ограниченное количество квалифицированных кадров ППС у всех ВУЗов
страны. Если мы хотим действительно развивать систему преподавания
информационных технологий в вузах, тогда необходимо организовывать
жизнеспособную систему переподготовки и повышения квалификации
имеющихся у нас кадров (возможно через научно-практические стажировки,
инновационные курсы обучения и т.д.). В штате 148 высших учебных
заведений страны состоят 39155 преподавателей, по совместительству
работают 5937 преподавателей. Из общего профессорско-преподавательского
персонала 7,1% имеют ученую степень доктора наук, 33,7% - кандидата наук,
5,8 % имеют ученое звание профессора и 16,7% - доцента по всем
специальностям вместе взятых [1].
• пагубный ориентир на контингент студентов, тогда как удельный вес
студентов обучающихся на технических науках и технологиях составляет 18%
от общей численности студентов, обучающихся в ВУЗах республики [1] (общей
численность студентов на 2009-2010 учебный год - 610,3 тыс. человек). Даже
наличие одаренных ребят – «олимпийцев» у ВУЗов не позволяет
осуществления полной реализации системы качественного изучения курсов, так
как обычно «олимпийцев» в среднем – до 5%, обучающихся на хорошо и
отлично -15-35% от общего количества студентов.
Естественно учитывая вышесказанное и современные требования к
специалистам по ИТ предлагается реализация следующих основных подходов
для повышения качества их подготовки:
•
развитие существующего и формирование новых направлений научно-
технического потенциала ВУЗов, через финансирование и активное вовлечение
ППС в научно-исследовательскую деятельность при тесном взаимодействии с
производством (проекты, НИОКР и т.д.);
•
выделение направлений сфер деятельности будущего специалиста с
учетом интересов государства и заказов производителей-компаний;
•
анализ и внедрение образовательных учебных программ ведущих
ВУЗов мира и профессиональных ассоциаций (Association for Computing
Machinery, IEEE Computer Society);
•
организация эффективной системы переподготовки и повышения
квалификации ППС (научно-практические стажировки, инновационные курсы
обучения и т.д.);
•
организация лабораторий и академий ведущих производителей
программного обеспечения и оборудования с возможностью прохождения
Жоғары оқу орындарында ақпараттық технологияларды оқыту сапасын жақсарту:
жолдары мен мүмкіндіктері
401
производственных и дипломных практик или интеграции их авторизованных
учебных курсов процесс обучения
В заключении отметим, что вопросы повышения качества преподавания
информационных технологий в вузах непосредственно связаны с
соответствующими требованиями и запросами общества, когда на первый план
выходит эффективность реализации принятых программ развитий, научно-
исследовательская ориентированность и наукоемкость производственно-
технического комплекса страны, а также формирование базы фундаментальных
научно-исследовательских работ и инновационный характер разработок
отечественных ученных и производителей.
Список литературы:
http://ww.stat.kz
«Высшие учебные заведения Республики Казахстан в
2009/2010 учебном году»
Достарыңызбен бөлісу: |