Атты І халықаралық конференция ЕҢбектері


Разработка структуры для разметки текстовых данных



Pdf көрінісі
бет179/326
Дата07.01.2022
өлшемі8,57 Mb.
#19269
1   ...   175   176   177   178   179   180   181   182   ...   326
3.2 Разработка структуры для разметки текстовых данных 
Руководствуясь  международными  стандартами хранения  размеченных  данных,  учитывая 
особенности разработанных тэгсетов, а также специфику собранных данных, был разработан 
XMLшаблон разметки. 
Согласно  шаблону  разметка  хранится  вместе  с  текстом,  но  при  необходимости  может 
быть легко отделена. Структура документа подчинена следующей иерархии, выраженной в 
наборе  правил.  Каждое  правило  состоит  из  отношения  и  двух  аргументов,  где  отношения 
между  аргументами  выражают  понятие  «включать  себя»  и  обозначаются  стрелкой,  а 
аргументами являются конструкции документа. Пример разметки дан в приложении I. Ниже 
приведены правила описывающие иерархию конструкций документа: 
 
Фразеологизм → предложение, токен (слово, пунктуация) 
Предложение  →  предложение  (главное/зависимое),  фразеологизм,  токен,  прямая  речь, 
перечисление 
Прямая речь → прямая речь, предложение, токен 
Перечисление → перечисление, предложение, токен 

Достарыңызбен бөлісу:
1   ...   175   176   177   178   179   180   181   182   ...   326




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет