62
локатив (дағы/тағы), обладательности, лишительности, предельности, сравнительной
степени.
Глагольные морфологические признаки включают показатели следующих 11 категорий:
вопросительности, неопределенности, усиления, отрицания, наклонения, деепричастия,
причастия, имени действия, инфинитива, хабитуалиса (
сан/-сән: барыусан, үсегеүсән),
образования абстрактных субстантивов (-
лыҡ/-лек: етерлек, алырлыҡ).
В корпусе размечаются следующие подкатегории для глагольных форм: 1) времена
(настоящее время, будущее время: будущее неопределенное время, будущее определенное
время, прошедшее время: прошедшее неопределенное время, прошедшее определенное
время, предпрошедшее определенное время –
ғайным/-гәйнем); 2) подкатегория лица (1-3);
3) подкатегория числа (ед., мн.).
Для именных форм выделяются следующие подкатегории: 1) подкатегория лица (1-3); 2)
подкатегория числа (ед., мн.).
Морфологический
анализатор
корпуса
реализован
на
основе
алгоритма
последовательного вычленения из словоформы букв и сравнения остатка словоформы и
вычлененного фрагмента со словарями основ и аффиксов башкирского языка.
Для правильной идентификации основы и аффиксов используются грамматические
фильтры: 1. Фильтр соответствия фонетической структуры аффикса фонетической структуре
основы 2. Фильтр соответствия сочетаний аффиксов нормативным правилам. Данный
фильтр основывается на списках возможных моделей сочетания словоизменительных
аффиксов башкирского языка, которые были нами ранее рассмотрены в одной из наших
работ [60]. 3. Фильтр графической передачи на стыках фонем.
Словарь основ включает нарицательные и собственные слова. Нарицательная часть
словаря основ состоит из 60 тыс. единиц, включает лексику литературного башкирского
языка. Часть имен собственных словаря включает имена, фамилии, отчества, клички
животных и людей, географические названия башкирского и русского языков, имеет объем
порядка 20 тыс. единиц.
В словарях основ указаны части речи, типы нарушений сингармонизма и возможные
остатки основ при словоизменительных процессах и прочие варианты.
Прект национального корпуса башкирского языка художественной прозы позволяет
производить следующие операции:
•
поиск словоформы,
•
поиск леммы,
•
поиск грамматических категорий словоизменений,
•
поиск грамматических подкатегорий,
•
поиск сочетаний грамматических категорий,
•
поиск сочетаний грамматических подкатегорий,
•
поиск сочетаний словоформ,
•
поиск сочетаний лемм,
•
выдача списка небашкирской лексики (вкраплений по языкам источникам),
•
построение частотного словаря словоформ,
•
построение частотного словаря лемм.
Сегодня проект корпуса прозаических текстов активно используется сотрудниками отдела
языкознания при составлении многотомного академического толкового словаря башкирского
языка.
Перед коллективом лаборатории линвгистики и информационных технологий ИИЯЛ УНЦ
РАН в 2013 г. стоят следующие задачи:
1)
доведение объема корпуса до 20
миллиона словоупотреблений;
2)
разработка системы выдачи статистических распределений по любому заданному
пользователем подкорпусу;
3)
разработка системы выдачи графических представлений статистических
распределений.