3 Аннотированный под-корпус 3.1 Разработка тэгсетов Руководствуясь мировым опытом по созданию тэгсетов, и учитывая специфику
Казахского языка, мы разработали синтаксический (члены предложения) и лексический
(часть речи) тэгсеты.
Синтаксический тэгсет описан в таблице 1, содержащей наименование и описание тэгов,
а также эквиваленты из широко употребляемого тэгсета, Penn tagset.
Таблица 1. Синтаксический тэгсет
№
Тэг
Описание
Эквиваленты Penn tagset
1
S
Простое предложение
S
2
BSS
Главное предложение
S
3
BGS
Зависимое предложение
SBAR, SBARQ
4
BAS
Подлежащее
NP
5
BND
Сказуемое
VP
6
TOL
Дополнение
NP, WHNP
7
ANT
Определение
ADJP
8
PYS
Обстоятельство
PP, WHP, ADVP, WHADVP
9
X
Пустой/неоднозначный член
X
Синтаксическим тэгсетом также предусмотрена разметка фразеологизмов, путем
присвоения тэгу соответствующего бинарного атрибута.