170
4
ETU инфинитив
GSC
196
24 SIMB безличное
NSPC 157
5
ETK вспомогательный
P
8
25 SIMY отрицательное
NSPC 157
6
ETB вспом.,
отрицание P
8
26 SIMP собирательное
NSPC 157
7
KEL вспом.,
желательный
GT
6
Частица:
8
ESM причастие
GNSPC
314
27 KOM вспомогательное
имя
C
7
9
KSE деепричастие
G
2
28 SHS
предлог
-
1
Прилагательное:
29 SHZ
союз
-
1
10 SE
основное
P
8
30 SHD
частица
-
1
11 SES
сравнительное
P
8
Междометие:
12 SEA превосходное
P
8
31 OSP
обращение
-
1
Числительное:
32 OSQ
рассуждение
-
1
13 SN
количественное
NSPC
157
33 OSO
восклицание
-
1
14 SNR порядковое
NSPC
157
15 SNS собирательное
NSPC
157
34 ELK
Звукоподражание -
1
16 SNB дробное
NSPC
157
35 MOD Модальное слово -
1
Числительное:
17 US
основное
-
1
36 BOS
Иностранное
слово
-
1
18 USS сравнительное
-
1
19 USA превосходное
-
1
Суммарная
емкость:
3844
5 Речевой корпус
Многие современных систем обработки речи требуют большое количество аудио и
текстовых данных для создания акустических и языковых моделей. В зависимости от типы
приложений данные меняются от высококачественных микрофонных начитанных записей
(Garofalo et al., 2007) до разговорной телефонной речи (Godfrey and Holliman, 1997; Canavan
and Zipperlen, 1996), от непрерывной речи (Garofolo et al., 1993) до отдельных слов и фраз
(Leonard and Doddington, 1993; Pitrelli et al., 1995). В данной работе мы собрали более 40
часов высококачественной микрофонной казахской речи, начитанной 169 носителями языка,
для задач распознавания непрерывной речи.
5.1. Текстовые материалы
Текстовые материалы для озвучивания были тщательно отобраны из основной части
текстового корпуса и разделены на два раздела: предложения и статьи. Раздел
«Предложения» содержит более 12000 различных предложений, равномерно и случайным
образом извлеченных из пяти стилистических жанров корпуса. Предложения выбраны таким
образом, что они содержат более 120 тысяч наиболее часто встречаемых слов, которые
покрывают 95% всех текстов корпуса. Дополнительно, предложения сгруппированы по
количеству содержащих слов так, что первая группа содержит шесть слов, вторая – семь, и
так далее до длины предложения в 15 слов. Раздел «Статьи» содержит онлайн новости,
извлеченные из раздела публицистического жанра корпуса. Каждая статья состоит из не
более чем 300 слов.
Все материалы были разделены на непересекающиеся наборы, состоящих из 75
предложений и одной статьи. Из 75 предложений 50 представляют короткие предложения
(по 10 предложений из первых пяти групп), а 25 – длинные предложения (по 5 предложений
из последних пяти групп).
Достарыңызбен бөлісу: