3.2 Разработка структуры для разметки текстовых данных Руководствуясь международными стандартами хранения размеченных данных, учитывая
особенности разработанных тэгсетов, а также специфику собранных данных, был разработан
XMLшаблон разметки.
Согласно шаблону разметка хранится вместе с текстом, но при необходимости может
быть легко отделена. Структура документа подчинена следующей иерархии, выраженной в
наборе правил. Каждое правило состоит из отношения и двух аргументов, где отношения
между аргументами выражают понятие «включать себя» и обозначаются стрелкой, а
аргументами являются конструкции документа. Пример разметки дан в приложении I. Ниже
приведены правила описывающие иерархию конструкций документа:
Фразеологизм → предложение, токен (слово, пунктуация)
Предложение → предложение (главное/зависимое), фразеологизм, токен, прямая речь,
перечисление
Прямая речь → прямая речь, предложение, токен
Перечисление → перечисление, предложение, токен