Атты І халықаралық конференция ЕҢбектері



Pdf көрінісі
бет180/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   176   177   178   179   180   181   182   183   ...   326

Раздел → перечисление, прямая речь, предложение, фразеологизм, токен 
Документ → раздел. 
 
Таблица 3. Лексический тэгсет 
№  Тэг 
Описание 
ГС 
Емк.  №  Тэг 
Описание 
ГС 
Емк. 
 
 
Существительное:   
 
 
 
Местоимение: 
 
 

ZEP 
нарицательное  
ANSPC 
314 
20  SIMZ  личное 
NSPC  229 

ZEQ  собственное 
ANSPC 
314 
21  SIMU  указательное 
NSPC  157 
 
 
Глагол: 
 
 
22  SIMS  вопросительное 
NSPC  157 

ET 
основной 
GTMVP  840 
23  SIMD  возвратное 
NSPC  157 


170 
 

ETU  инфинитив 
GSC 
196 
24  SIMB  безличное 
NSPC  157 

ETK  вспомогательный 


25  SIMY  отрицательное 
NSPC  157 

ETB  вспом., отрицание  P 

26  SIMP  собирательное 
NSPC  157 

KEL  вспом., 
желательный 
GT 

 
 
Частица: 
 
 

ESM  причастие 
GNSPC 
314 
27  KOM  вспомогательное 
имя 



KSE  деепричастие 


28  SHS 
предлог 


 
 
Прилагательное: 
 
 
29  SHZ 
союз 


10  SE 
основное 


30  SHD 
частица 


11  SES 
сравнительное 


 
 
Междометие: 
 
 
12  SEA  превосходное 


31  OSP 
обращение 


 
 
Числительное: 
 
 
32  OSQ 
рассуждение 


13  SN 
количественное 
NSPC 
157 
33  OSO 
восклицание 


14  SNR  порядковое 
NSPC 
157 
 
 
 
 
 
15  SNS  собирательное 
NSPC 
157 
34  ELK 
Звукоподражание  - 

16  SNB  дробное 
NSPC 
157 
35  MOD  Модальное слово  - 

 
 
Числительное: 
 
 
 
 
 
 
 
17  US 
основное 


36  BOS 
Иностранное 
слово 


18  USS  сравнительное 


 
 
 
 
 
19  USA  превосходное 


 
 
Суммарная 
емкость: 
 
3844 
 
5 Речевой корпус 
Многие  современных  систем  обработки  речи  требуют  большое  количество  аудио  и 
текстовых данных для создания акустических и языковых моделей. В зависимости от типы 
приложений  данные  меняются  от  высококачественных  микрофонных  начитанных  записей 
(Garofalo et al., 2007) до разговорной телефонной речи (Godfrey and Holliman, 1997; Canavan 
and  Zipperlen,  1996),  от  непрерывной  речи  (Garofolo  et  al.,  1993)  до  отдельных  слов  и  фраз 
(Leonard  and  Doddington,  1993;  Pitrelli  et  al.,  1995).  В  данной  работе  мы  собрали  более  40 
часов высококачественной микрофонной казахской речи, начитанной 169 носителями языка, 
для задач распознавания непрерывной речи. 
5.1. Текстовые материалы 
Текстовые  материалы  для  озвучивания  были  тщательно  отобраны  из  основной  части 
текстового  корпуса  и  разделены  на  два  раздела:  предложения  и  статьи.  Раздел 
«Предложения»  содержит  более  12000  различных  предложений,  равномерно  и  случайным 
образом извлеченных из пяти стилистических жанров корпуса. Предложения выбраны таким 
образом,  что  они  содержат  более  120  тысяч  наиболее  часто  встречаемых  слов,  которые 
покрывают  95%  всех  текстов  корпуса.  Дополнительно,  предложения  сгруппированы  по 
количеству содержащих слов так, что первая группа содержит шесть слов, вторая  – семь, и 
так  далее  до  длины  предложения  в  15  слов.  Раздел  «Статьи»  содержит  онлайн  новости, 
извлеченные  из  раздела  публицистического  жанра  корпуса.  Каждая  статья  состоит  из  не 
более чем 300 слов.  
Все  материалы  были  разделены  на  непересекающиеся  наборы,  состоящих  из  75 
предложений  и  одной  статьи.  Из  75  предложений  50  представляют  короткие  предложения 
(по 10 предложений из первых пяти групп), а 25 – длинные предложения (по 5 предложений 
из последних пяти групп).  


Достарыңызбен бөлісу:
1   ...   176   177   178   179   180   181   182   183   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет