172
сообщества, учитывая то, что корпус имеет богатую разно-уровневую разметку текстовых и
аудио данных. Более того, данная эти данные уже были использовании в наших
экспериментах по морфологической сегментации и автоматической корректировке слов.
Желающие могут пройти по ссылке http://kazcorpus.kz, чтобы ознакомиться с корпусом.
В качестве будущей работы мы планируем использовать данный корпус в решении таких
проблем как: 1) автоматическое определение частей речи; 2) снятие морфологической
омонимии; 3) машинный перевод текстов. Для последней задачи уже начаты работы по
сбору параллельных текстов на русском и английском языках.
Достарыңызбен бөлісу: