167
интерфейсом для аннотации . Мы позаботились о качестве аннотации, и для этого
разработали систему рекомендации, которая впоследствии увеличела скорость разметки.
В рамках КК мы также скомпилировали аннотированный корпус чтения речи (RSC ),
которая включает в себя аудио записи слов, фраз, предложений (от всех жанров), новостных
статей и отрывков из книг, которые были тщательно отобраны из основной части корпуса.
Все текстовые материалы были прочитаны добровольцами разных возрастов, полов, уровней
образования из разных регионов. Каждый аудиофайл сопровождается файлом этикетки и
соответствующим транскриптом текста. Кроме того, некоторые транскрипты были
грамматически аннотированными, т.е. в дополнение к словоуровневой сегментации
аудиоинформации часть наших данных имеет лексические и морфо-синтаксические
аннотации. В общей сложности RSC содержит 10GB или более чем 40 часов речи.
Эта статья организована следующим образом. Раздел 2 рассматривает существующую
работу. Раздел 3 предоставляет подробную информацию о первичном корпусе. Разделы 4 и 5
подробно описывают аннотированный текст и речь суб-корпуса соответственно. Наконец,
мы делаем выводы и обсуждаем будущую работу в разделе 6.
Достарыңызбен бөлісу: