Атты І халықаралық конференция ЕҢбектері



Pdf көрінісі
бет61/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   57   58   59   60   61   62   63   64   ...   326
Жанры текстов:  интервью,  беседа,  статья,  очерк,  репортаж,  обозрение,  советы,  письма, 
обзор  печати  (новости  из  других  источников),  поздравления,  художественно-
публицистические жанры (эссе, фельетон, рассказ, стихи, эпиграммы), рецензия. 
По  корпусу  же  прозаических  текстов  нами  выделяются  только  авторы,  названия 
произведений, год издания/завершения работы над произведением.  
Разрабатывемые корпусы текстов башкирского языка по классификации Захарова В.П. [2 
12-13] относятся к следующим типам: 
по типу языковых данных 
 
 
письменный 
по параллельности 
 
 
 
одноязычный 
по критерию литературности   
 
литературный 
по жанру   
 
 
 
 
литературный, публицистический 
по доступности   
 
 
 
свободный доступ 
по разметке 
 
 
 
 
размеченный 
по характеру разметки   
 
 
морфологический, семантический 
объем текстов 
 
 
 
 
полнотекстовый 
Система  морфологической  разметки  обоих  корпусов  ориентирована  на  представление 
всех  регулярных  словоизменительных  грамматических  форм,  не  всегда  отражаемых  и 
совпадающих  с  формами,  принятыми  в  академической  грамматике.  Морфологическая 
информация башкирской словоформы в корпусе включает: а) частеречную характеристику; 
б)  совокупность  морфологических  признаков  по  типу  агглютинативных  аффиксов 
словоизменения, которые подразделяются на именные и глагольные формы
*

Выделяются  12  частей  речи:  имена  существительные,  числительные,  прилагательные, 
наречия,  глаголы,  местоимения,  подражательные  слова,  междометия,  модальные  слова, 
союзы, частицы, послелоги. Эти характеристики указываются в словаре основ. 
Именные  морфологические  признаки  включают  показатели  следующих  15  категорий: 
числа,  падежа,  принадлежности,  сказуемости,  вопросительности,  неопределенности, 
усиления,  притяжательности,  уменьшительно-ласкательности,  уподобления,  атрибутивный 
                                                 
*
 Авторы выражают благодарность член-корреспонденту РАН А.В.Дыбо за ценные советы в разработке 
системы морфологических разметок башкирского языка. 


62 
 
локатив  (дағы/тағы),  обладательности,  лишительности,  предельности,  сравнительной 
степени. 
Глагольные  морфологические  признаки  включают  показатели  следующих  11  категорий: 
вопросительности,  неопределенности,  усиления,  отрицания,  наклонения,  деепричастия, 
причастия,  имени  действия,  инфинитива,  хабитуалиса  (сан/-сән:  барыусан,  үсегеүсән), 
образования абстрактных субстантивов (-лыҡ/-лек: етерлек, алырлыҡ). 
В  корпусе  размечаются  следующие  подкатегории  для  глагольных  форм:  1)  времена 
(настоящее  время,  будущее  время:  будущее  неопределенное  время,  будущее  определенное 
время,  прошедшее  время:    прошедшее  неопределенное  время,  прошедшее  определенное 
время, предпрошедшее определенное время –ғайным/-гәйнем); 2) подкатегория лица (1-3); 
3) подкатегория числа (ед., мн.). 
Для именных форм выделяются следующие подкатегории: 1) подкатегория лица (1-3); 2) 
подкатегория числа (ед., мн.).  
Морфологический 
анализатор 
корпуса 
реализован 
на 
основе 
алгоритма 
последовательного  вычленения  из  словоформы  букв  и  сравнения  остатка  словоформы  и 
вычлененного фрагмента со словарями основ и аффиксов башкирского языка.  
Для  правильной  идентификации  основы  и  аффиксов  используются  грамматические 
фильтры: 1. Фильтр соответствия фонетической структуры аффикса фонетической структуре 
основы  2.  Фильтр  соответствия  сочетаний  аффиксов  нормативным  правилам.  Данный 
фильтр  основывается  на  списках  возможных  моделей  сочетания  словоизменительных 
аффиксов  башкирского  языка,  которые  были  нами  ранее  рассмотрены  в  одной  из  наших 
работ [60]. 3. Фильтр графической передачи на стыках фонем. 
Словарь  основ  включает  нарицательные  и  собственные  слова.  Нарицательная  часть 
словаря  основ  состоит  из  60  тыс.  единиц,    включает  лексику  литературного    башкирского 
языка.  Часть  имен  собственных  словаря  включает  имена,  фамилии,  отчества,  клички 
животных и людей, географические названия башкирского и русского языков, имеет объем 
порядка 20 тыс. единиц.  
В  словарях  основ  указаны  части  речи,  типы  нарушений  сингармонизма  и  возможные 
остатки основ при словоизменительных процессах и прочие варианты.  
Прект  национального  корпуса  башкирского  языка  художественной  прозы  позволяет 
производить следующие операции: 
• 
поиск словоформы, 
• 
поиск леммы, 
• 
поиск грамматических категорий словоизменений, 
• 
поиск грамматических подкатегорий, 
• 
поиск сочетаний грамматических категорий,  
• 
поиск сочетаний грамматических подкатегорий, 
• 
поиск сочетаний словоформ, 
• 
поиск сочетаний лемм, 
• 
выдача списка небашкирской лексики (вкраплений по языкам источникам), 
• 
построение частотного словаря словоформ, 
• 
построение частотного словаря лемм. 
Сегодня проект корпуса прозаических текстов активно используется сотрудниками отдела 
языкознания при составлении многотомного академического толкового словаря башкирского 
языка. 
Перед коллективом лаборатории линвгистики и информационных технологий ИИЯЛ УНЦ 
РАН в 2013 г. стоят следующие задачи: 
1) 
доведение объема корпуса до 20 миллиона словоупотреблений
2) 
 разработка системы выдачи статистических распределений по любому заданному 
пользователем подкорпусу;  
3) 
разработка  системы  выдачи  графических  представлений  статистических 
распределений. 


63 
 


Достарыңызбен бөлісу:
1   ...   57   58   59   60   61   62   63   64   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет