Разработка и обоснование требований к базе аллофонов на казахском
языке
Синтез речеподобных сигналов также как и синтез речи может быть выполнен
двумя основными методами. Первый метод - это синтез речи с использованием
фонемного синтезатора, суть которого заключается в генерации фонем и
дальнейшей компиляции из них слов и фраз.
Второй метод синтеза речеподобных сигналов - это компиляционный синтез,
который основан на формировании речевого сигнала путем последовательного
акустического
воспроизведения
единиц
речевого
сигнала,
которые
подготовлены заранее и сохраняются в памяти. К структурным единицам речи
относятся аллофоны, дифоны, трифоны, полифонны, слоги, отдельные слова и
словосочетания из которых могут формироваться речеподобные сигналы..
Выбор структурной единицы речи для синтеза речи, с одной стороны, более
просто вести по коротким сегментам с общим незначительным объемом
памяти. Однако, при этом имеет место большое количество переходов от
одного фрагмента речи к другому, что может сказаться на качестве
синтезируемой речи, если не применять сплайны. С другой стороны, при
выборе в качестве структурных единиц речи более длинных по звучанию
фрагментов, речь становится более естественной, однако необходимы при этом
большие объемы памяти и большие базы структурных единиц речи, создание
которых является трудоемким процессом. Поэтому для синтеза речеподобных
сигналов предлагается использовать аллофоны в качестве структурной единицы
речи, а по речевой базе аллофонов можно будет формировать речеподобные
сигналы голосом определенного диктора. Хотя качественные показатели
речеподобных сигналов, сформированным таким методом, не совсем высокие,
они никаким образом не могут оказать влияние на степень защиты речевой
информации с помощью комбинированных маскирующих сигналов.
298
В базу аллофонов были включены все гласные и согласные буквы казахского
алфавита, кроме Ь и Ъ. Для каждой буквы казахского алфавита было
сформировано 8 аллофонов с учетом из окружения в тексте (в слове):
- окружение слева отсутствует, а справа расположена гласная буква;
- окружение слева отсутствует, а справа расположена согласная буква;
- слева расположена гласная буква, а справа окружение отсутствует;
- слева расположена согласная буква, а справа окружение отсутствует;
- слева расположена гласная буква и справа расположена также гласная;
- слева расположена согласная буква и справа расположена также согласная;
- слева расположена согласная буква, а справа расположена гласная;
- слева расположена гласная буква, а справа расположена согласная.
Индексы для разделения гласных аллофонов на твердые и мягкие как это
делается для русского и белорусского языков, в казахском языке нет
необходимости вводить. В казахском языке гласные А, О, Ұ, Ы всегда твердые,
а гласные Ә, Ө, Ү, I, Е всегда мягкие.
Кроме того в базу аллофонов включены наиболее часто встречающиеся
сочетания букв с мягким и твердым знаком характерных для типовых форм
слов заимствованных с русского языка, что часто встречается в казахском
языке. Это следующие сочетания БЬ, ЗЬ, ТЬ, ЛЬ, НЬ, СЬ, СЪ, ДЪ, БЪ.
В базе аллофоны имеют обозначения из цифр. Первая цифра обозначает
окружение аллофона слева, а вторая цифра – окружение аллофона справа.
Цифра 0 означает , что в данном положении окружение отсутствует. Цифра 1
означает, что в указанном положении находится гласная буква. Цифра 2
означает, что в указанном положении находится согласная буква. Так,
например, аллофон имеет обозначение Б12. Это обозначает, что сформирован
звуковой файл взятый из слитного текста с аллофоном Б, перед которым
расположена гласная буква, а после указанного аллофона расположена
согласная буква.
299
Для разделения гласных аллофонов на ударные и безударные может
использоваться их обозначение из трех цифр. При этом, если первая цифра 1, то
гласный аллофон ударный. Если первая цифра 0, то гласный аллофон
безударный. Таким образом должна формироваться база аллофонов для синтеза
речеподобных сигналов на казахском языке.
Перечень аллофонов для формирования речеподобных сигналов на казахском
языке приведен в таблице 4.
Таблица 4 – Перечень аллофонов казахского языка
а001 ғ12 и001 м12 р01 ү022 ш10 ю022
а002 ғ20 и002 м21 р02 ү102 ш11 ю102
а012 ғ21 и012 м22 р10 ү110 ш12 ю110
а021 ғ22 и021 м20 р11 ү112 ш21 ю112
а022 д01 и022 н01 р12 ү120 ш22 ю120
а102 д02 и102 н02 р21 ү122 ш20 ю122
а110 д10 и110 н10 р22 ф01 щ01 я001
а112 д11 и112 н11 р20 ф02 щ02 я002
а120 д12 и120 н12
с01 ф10 щ10 я012
а122 д20 и122 н21
с02 ф11 щ11 я021
ә001 д21 й001 н22
с10 ф12 щ12 я022
ә002 д22 й002 н20
с11 ф21 щ21 я102
ә012 е001 й012 ң01
с12 ф22 щ22 я110
ә021 е002 й021 ң02
с21 ф20 щ20 я112
ә022 е012 й022 ң10
с22 х01 ы001 я120
ә102 е021 й102 ң11
с20 х02 ы002 я122
ә110 е022 й110 ң12 т01 х10 ы012
бь
ә112 е102 й112 ң21 т02 х11 ы021
зь
ә120 е110 й120 ң22 т10 х12 ы022
ть
ә122 е112 й122 ң20 т11 х21 ы102 ль
б01 е120 к01 о001 т12 х22 ы110 нь
300
б02 е122 к02 о002 т21 х20 ы112
сь
б10 ё001 к10 о012 т22 һ01 ы120
съ
б11 ё002 к11 о021 т20 һ02 ы122 дъ
б12 ё012 к12 о022 у001 һ10 i001
бъ
б21 ё021 к21 о102 у002 һ11 i002
б22 ё022 к22 о110 у012 һ12 i012
б20 ё102 к20 о112 у021 һ21 i021
в01 ё110 қ01 о120 у022 һ22 i022
в02 ё112 қ02 о122 у102 һ20 i102
в10 ё120 қ10 ө001 у110 ц01 i110
в11 ё122 қ11 ө002 у112 ц02 i112
в12 ж01 қ12 ө012 у120 ц10 i120
в20 ж02 қ21 ө021 у122 ц11 i122
в21 ж10 қ22 ө022 ұ001 ц12 э001
в22 ж11 қ20 ө102 ұ002 ц21 э002
г01 ж12 л01 ө110 ұ012 ц22 э012
г02 ж20 л02 ө112 ұ021 ц20 э021
г10 ж21 л10 ө120 ұ022 ч01 э022
г11 ж22 л11 ө122 ұ102 ч02 э102
г12 з01 л12 п01 ұ110 ч10 э110
г20 з02 л21 п02 ұ112 ч11 э112
г21 з10 л22 п10 ұ120 ч12 э120
г22 з11 л20 п11 ұ122 ч21 э122
ғ01 з12 м01 п12 ү001 ч22 ю001
ғ02 з20 м02 п21 ү002 ч20 ю002
ғ10 з21 м10 п22 ү012 ш01 ю012
ғ11 з22 м11 п20 ү021 ш02 ю021
301
Буквы В, Ё, Ф, Х, h, Ц, Ч, Щ, Ъ, Ь, Э в исконно казахских словах не
употребляются. Из них буквы Ё, Ц, Ч, Щ, Ъ, Ь, Э используются для
произношения слов заимствованных из русского языка. Буква h используется в
словах заимствованных с арабо-персидских языков, и произносится как глухая
Х. Общее количество аллофонов казахского языка для синтеза речеподобных
сигналов составляет 361. Аллофоны, выделенные в таблице цветом не
относятся к чисто казахским и являются заимствованными из других языков,
поэтому их количество может быть сокращено, как редко встречающиеся в
казахском языке.
Список литературы
1. Киселев, В.В. Система синтеза русской речи на основе компиляционного
метода / В.В. Киселев, Б.М. Лобанов // Доклады БГУИР, 2004, №4, С.138 – 142.
2. Давыдов Г.В. Защита речевой информации шумовым речеподобным сигналом /
Г.В. Давыдов, В.А. Попов, А.В. Потапович // Известия Белорусской инженерной
академии. – 2000. – №1 (9) 71. – С. 146–148.
3. Хорев, А.А. Техническая защита информации: учеб. пособие для студ. вузов.
В 3 т. Т. 1. Технические каналы утечки информации / А.А. Корев. – М.: НПЦ
«Аналитика», 2008. – 436 с.
4. http://www.dialog-21.ru/digests/dialog2006/materials/html/Lobanov.htm, Лобанов
Б.М. Фонетико-акустическая база данных для многоязычного синтеза речи по
тексту на славянских языках / Б.М. Лобанов, Л.И. Цирульник, Б. Пьорковская,
Я. Рафалко, Э. Шпилевский.
5. Давыдов, Г.В. Аппаратный генератор случайных чисел / Г.В. Давыдов, А.И.
Кухаренко, В.А. Попов, А.А. Тереня // Тезисы докладов X Белорусско-
Российской научно-технической конференции «Технические средства защиты
информации», Минск, 29-30 мая 2012 г. – С.32.
6. Сучасная беларуская мова: Уводзiны. Фанетыка. Фаналогiя. Арфаэпiя.
Графiка. Арфаграфiя. Лексiкалогiя. Лексiкаграфiя. Фразеалогiя. Фразеаграфiя.
302
Вучэб. дапам. / Я.М. Камароускi, В.П. Красней, У.М. Лазоускi i iнш. – 2-е выд.
дапрац. i дап. – Мн.: Выш. школа, 1995. – 334 с.
7. Соломенник, А.И. Автоматизация процедуры подготовки нового голоса для
систем синтеза русской речи / А.И. Соломенник, П.Г. Чистиков, С.В. Рыбин,
А.О. Таланов, Н.А. Томашенко // Изв. вузов, Приборостроение, 2013, т. 56, №2,
С. 29 – 32.
8.Литературный энциклопедический словарь/Под общ. ред. В.М. Кожевникова,
П.А. Николаева. – М.: Сов. энциклопедия, 1987. –752 с. –(С.96-97: ст. Диалог;
Диалогическая и монологическая речь.).
9. Ястрежембский, В.Р. Методологические аспекты лингвистического анализа
диалога // Диалог. - М.: ИНИОН, 1991. - С. 82-110.
10.
Сорокин, В.Н. Сегментация и распознавание гласных / В.Н. Сорокин,
А.И. Цыплихин // Информационные процессы, 2004, т.4, №2, С. 202–220.
11.
Рылов, А.С. Анализ речи в распознающих системах / А.С. Рылов –
Мн.: Бестпринт, 2003. – 264 с.
12.
Дегтярев, Н.П.
Параметрическое и информационное описание
речевых сигналов / Н.П. Дегтярев. – Минск: Объединенный институт проблем
информатики Национальной академии наук Беларуси, 2003. – 216 с.
13.
Ермоленко Т., Шевчук В. Алгоритмы сегментации с применением
быстрого вейвлет–преобразования. // Диалог’2003. www.dialog-21.ru
14.
Медведев, М.С. Фонемная сегментация речевого сигнала с
использованием вейвлет–преобразования. // V Всероссийская конференция
молодых ученых по математическому моделированию и информационным
технологиям с участием иностранных ученых – 1-3 ноября, г. Новосибирск,
Россия.
15.
Лобанов, Б.М. Автоматизация клонирования персонального голоса и
дикции для систем синтеза речи по тексту. Б.М. Лобанов, В.В. Киселёв.
// Труды Международной конференции Диалог-2003, Москва, 2003, С. 417-424.
303
16.
Bradley, J.S. ; Gover, B.N. Designing and Assessing the Architectural
Speech Security of Meeting Rooms and Offices. Canada. 2006.
Сейткулов Е.Н., Боранбаев С.Н., Давыдов Г.В.
РАЗРАБОТКА АЛГОРИТМА СИНТЕЗА РЕЧЕПОДОБНЫХ СИГНАЛОВ
НА КАЗАХСКОМ ЯЗЫКЕ
Евразийский национальный университет им. Л.Н.Гумилева
Белорусский государственный университет информатики и радиоэлектроники
Трудности синтеза речеподобных сигналов на казахском языке связаны
с особенностями казахского языка в отличие от русского и белорусского
языков: фонетический закон сингармонизма; мягкость и твердость слов;
четкость произношения гласных и согласных, отсутствие смазывания; более
быстрый темп речи по сравнению с белорусским и русским языками; падение
ударения всегда на последний слог в слове; безударные гласные не
подвергаются редукции, а звучат несколько короче, чем ударные; соединение
нескольких слов в одно большое.
Фонетические закономерности казахского языка:
- звуки п, к, қ между гласными переходят в б, г, ғ;
- звуки п, к, қ вначале слова переходят в б, г, ғ, если предыдущее слово
окончилось на гласную букву;
- звук с переходит в звук ш, если после с следовала согласная ш или ж;
- звук а произносится мягко между ш-ш, ж-й, ш-й.
На рисунке 4 представлен алгоритм синтеза речеподобных сигналов на
казахском языке.
304
Рисунок 4 - Алгоритм синтеза речеподобных сигналов на казахском
языке.
Работа алгоритма синтеза речеподобных сигналов на казахском языке .
Генератор случайных чисел формирует целое случайное число в заданном
числовом диапазоне. По значению этого случайного числа, согласно таблице
вероятностей числа фраз в фоноабзаце и соответствующего им делению
диапазона случайных чисел на поддиапазоны, определяется поддиапазон в
который попадает это случайное число и соответствующее этому поддиапазону
305
значение числа фраз для заданного фоноабзаца. Далее для каждой фразы
необходимо определить число синтагм из которых она состоит. Для этого
формируется генератором случайных чисел новое случайное число. По
значению случайного числа в соответствии с таблицей вероятностей числа
синтагм во фразе и соответствующего им делению диапазона случайных чисел
на поддиапазоны, определяется поддиапазон в который попадает это случайное
число и соответствующее этому поддиапазону значение число синтагм во
фразе. По значению следующего случайного числа определяется аналогичным
образом число синтагм во второй фразе. Процесс продлается пока не будет
определено число синтагм для каждой фразы фоноабзаца.
После этого формируется новое случайное число, по значению которого
определяется число слов в первой синтагме согласно таблицы вероятностей
числа слов в синтагме и соответствующего им делению диапазона случайных
чисел на поддиапазоны. Так определяется число слов в первой синтагме.
Аналогично определяется число слов для каждой синтагмы.
После этого генератором случайных чисел формируется следующее
случайное число, по значению которого определяется число букв в первом
слове согласно таблицы вероятностей числа букв в слове и соответствующего
им делению диапазона случайных чисел на поддиапазоны. Аналогично
определяется число букв для каждого слова всех синтагм.
После этого генератором случайных чисел формируется следующее
случайное число, по значению которого определяется первая букв в первом
слове согласно таблицы вероятностей букв в слове и соответствующего им
делению диапазона случайных чисел на поддиапазоны. Аналогично
определяются последующие буквы для каждого слова. При этом необходимо
учитывать особенности казахского языка указанные выше. Если выбранная
буква в слове противоречит особенностям казахского языка, то формируется
генератором случайных чисел новое случайное число для выбора другой буквы
не вступающей в противоречие с особенностями казахского языка.
306
Особенности
казахского языка учтены в алгоритме синтеза
речеподобных сигналов на казахском языке. В блоке "Формирование слогов с
учетом предыдущего" происходит выбор гласных в слове по первой гласной в
этом слове. Если первая гласная в слове мягкая, то и остальные гласные в слове
должны быть мягкими.
Таким
образом,
формируется
текст
речеподобных
сигналов.
Акустическое воспроизведение текста выполняется по базе аллофонов путем
последовательного воспроизведения аллофона в виде wav файла, записанного в
базе аллофонов.
Список литературы
1.
Киселев, В.В. Система синтеза русской речи на основе
компиляционного метода / В.В. Киселев, Б.М. Лобанов // Доклады БГУИР,
2004, №4, С.138 – 142.
2. Давыдов Г.В. Защита речевой информации шумовым речеподобным
сигналом / Г.В. Давыдов, В.А. Попов, А.В. Потапович // Известия Белорусской
инженерной академии. – 2000. – №1 (9) 71. – С. 146–148.
3. Хорев, А.А. Техническая защита информации: учеб. пособие для студ.
вузов. В 3 т. Т. 1. Технические каналы утечки информации / А.А. Корев. – М.:
НПЦ «Аналитика», 2008. – 436 с.
4.
http://www.dialog-21.ru/digests/dialog2006/materials/html/Lobanov.htm,
Лобанов Б.М. Фонетико-акустическая база данных для многоязычного синтеза
речи по тексту на славянских языках / Б.М. Лобанов, Л.И. Цирульник, Б.
Пьорковская, Я. Рафалко, Э. Шпилевский.
5. Давыдов, Г.В. Аппаратный генератор случайных чисел / Г.В. Давыдов,
А.И. Кухаренко, В.А. Попов, А.А. Тереня // Тезисы докладов X Белорусско-
Российской научно-технической конференции «Технические средства защиты
информации», Минск, 29-30 мая 2012 г. – С.32.
307
6. Сучасная беларуская мова: Уводзiны. Фанетыка. Фаналогiя. Арфаэпiя.
Графiка. Арфаграфiя. Лексiкалогiя. Лексiкаграфiя. Фразеалогiя. Фразеаграфiя.
Вучэб. дапам. / Я.М. Камароускi, В.П. Красней, У.М. Лазоускi i iнш. – 2-е выд.
дапрац. i дап. – Мн.: Выш. школа, 1995. – 334 с.
7. Соломенник, А.И. Автоматизация процедуры подготовки нового
голоса для систем синтеза русской речи / А.И. Соломенник, П.Г. Чистиков, С.В.
Рыбин, А.О. Таланов, Н.А. Томашенко // Изв. вузов, Приборостроение, 2013, т.
56, №2, С. 29 – 32.
8.Литературный
энциклопедический
словарь/Под
общ.
ред.
В.М. Кожевникова, П.А. Николаева. – М.: Сов. энциклопедия, 1987. –752 с. –
(С.96-97: ст. Диалог; Диалогическая и монологическая речь.).
9. Ястрежембский, В.Р. Методологические аспекты лингвистического
анализа диалога // Диалог. - М.: ИНИОН, 1991. - С. 82-110.
10.
Сорокин, В.Н.
Сегментация
и
распознавание
гласных
/
В.Н. Сорокин, А.И. Цыплихин // Информационные процессы, 2004, т.4,
№2, С. 202–220.
11.
Рылов, А.С. Анализ речи в распознающих системах / А.С.
Рылов – Мн.: Бестпринт, 2003. – 264 с.
12.
Дегтярев, Н.П.
Параметрическое
и
информационное
описание речевых сигналов / Н.П. Дегтярев. – Минск: Объединенный
институт проблем информатики Национальной академии наук Беларуси,
2003. – 216 с.
13.
Ермоленко Т.,
Шевчук В. Алгоритмы
сегментации
с
применением
быстрого
вейвлет–преобразования.
//
Диалог’2003.
www.dialog-21.ru
14.
Медведев, М.С. Фонемная сегментация речевого сигнала с
использованием вейвлет–преобразования. // V Всероссийская конференция
молодых ученых по математическому моделированию и информационным
308
технологиям с участием иностранных ученых – 1-3 ноября, г.
Новосибирск, Россия.
15.
Лобанов, Б.М. Автоматизация клонирования персонального
голоса и дикции для систем синтеза речи по тексту. Б.М. Лобанов,
В.В. Киселёв. // Труды Международной конференции Диалог-2003,
Москва, 2003, С. 417-424.
16.
Bradley, J.S. ; Gover, B.N. Designing and Assessing the Architectural
Speech Security of Meeting Rooms and Offices. Canada. 2006.
Сейткулов Е.Н., Оспанов Р.М., Майманов Е.М.
СЕРВИС ШИФРОВАНИЯ ДАННЫХ НА ЗАДАННОЕ ВРЕМЯ
Факультет информационных технологий ЕНУ им. Л.Н. Гумилева,
НИИ информационной безопасности и криптологии ЕНУ им. Л.Н. Гумилева,
ТОО «Information Services Group»,
Астана, Республика Казахстан
Введение. В 1994 году в [1, chapter 14.5] Тимоти Мэй (Timothy C. May)
впервые предложил рассмотреть задачу отправки секретного сообщения в
будущее, т.е. задачу зашифрования сообщений, расшифрование которых
возможно только лишь по истечении заданного времени в будущем.
Решение этой задачи имеет ряд интересных практических приложений,
например:
1)
“запечатывание” дневников и записей на определенный срок,
причем таким образом, что даже их автор не мог бы их
“распечатать” раньше срока,
2)
защита данных, полученных в результате научных исследований
или экспериментов, до момента их завершения и опубликования с
309
целью предотвращения утечки информации или давления со
стороны заинтересованных лиц,
3)
сокрытие предложения цены участниками торгов до завершения
торговой сессии,
4)
защита промежуточных данных голосования до их завершения с
целью исключения влияния на ход голосования.
Область применения может быть весьма обширна и включает в себя не
только аукционы и голосование, а также финансовые рынки и их
регулирование, электронная коммерция, право.
Необходимость в таком криптографическом приложении имеется и в
Республике Казахстан. В частности, в 2015 году
Веб-портал государственных
закупок Республики Казахстан выразил свою потребность в средстве,
обеспечивающем шифрование данных пользователей портала (поставщиков), с
возможностью расшифрования не ранее заданного времени.
С 1994 года исследователи описали ряд интересных подходов к решению
задачи шифрования в будущее. В 1996 году в [2] Ривест, Шамир и Вагнер (R. L.
Rivest, A. Shamir, D. A. Wagner) применили “шарады” с временным замком
(“time-lock puzzles”). В 1997 году в [3] Беллар и Голдвассер (M. Bellare, S.
Goldwasser)
описали
схему
шифрования
с
частичным
условным
депонированием ключей (partial key escrow protocol). В 2005 году в [4] Блейк и
Чан (I. F. Blake, A. C.-F. Chan) использовали билинейные отображения на GDH
группах (Gap Diffie-Hellman groups). Существует ряд других работ в этом
направлении.
Отдельного внимания заслуживает следующий подход. В 2006 году в [5]
Рабин и Торп (M.O. Rabin and C. Thorpe) построили криптографический
протокол, обеспечивающий зашифрование сообщений, расшифрование
которых будет гарантированно не ранее заданного точного времени, даже если
310
это расшифрование окажется нежелательным для отправителя. Свое решение
авторы назвали Time-Lapse Cryptography (TLC), отмечая различие между
протоколами, подобным их, в которых время с момента зашифрования до
момента расшифрования фиксировано, и другими протоколами, в которых
дается лишь оценка этого времени или находится нижний предел оценки. На
свое изобретение авторы получили патент [6]. В 2009 году в [7] была
представлена реализация TLC на языке Erlang 5.6.5 на серверах под
управлением Debian 4.0 Linux на четырехъядерных процессорах Intel Xeon, 2.0
ГГц.
В 2015 году нами была разработана на языке Java программная
реализация протокола на основе TLC с целью создания программного
комплекса, обеспечивающего шифрование данных пользователей портала
государственных
закупок
Республики
Казахстан
,
с
возможностью
расшифрования не ранее заданного времени. В данной работе мы представляем
новый протокол, основанный на TLC, с применением криптографии на
эллиптических кривых над конечными полями.
Достарыңызбен бөлісу: |