Сборник материалов VIІІ международной научной конференции студентов и молодых ученых «Наука и образование 2013»


НАПОЛНЕНИЕ КУРСОВ ПОРТАЛА ДИСТАНЦИОННОГО ОБУЧЕНИЯ



Pdf көрінісі
бет20/89
Дата03.03.2017
өлшемі15,22 Mb.
#7263
1   ...   16   17   18   19   20   21   22   23   ...   89

НАПОЛНЕНИЕ КУРСОВ ПОРТАЛА ДИСТАНЦИОННОГО ОБУЧЕНИЯ 

Кохан А.Ю., 

alexandrkohan@mail.ru

 

Восточно-Казахстанский государственный университет им. С.Аманжолова, Усть-

Каменогорск 

Научный руководитель – Г. Попова 

 

Обучение  -  это  целеустремленный,  систематический,  организованный  процесс 



вооружения  знаниями,  умениями,  навыками,  а  образование  -  это  результат  обучения, 

воспитания и развития личности. 

Дистанционное  обучение  (ДО)  является  формой  получения  образования,  наряду  с 

очной  и  заочной,  при  которой  в  образовательном  процессе  используются  лучшие 

традиционные  и  инновационные  методы,  средства  и  формы  обучения,  основанные  на 

компьютерных и телекоммуникационных технологиях. 

Основу  образовательного  процесса  при  ДО  составляет  целенаправленная  и 

контролируемая интенсивная самостоятельная работа обучаемого, который может учиться в 

удобном  для  себя  месте,  по  индивидуальному  расписанию,  имея  при  себе  комплект 


122 

специальных средств обучения и согласованную возможность контакта с преподавателем по 

телефону, электронной и обычной почте, а также очно. 

ДО  представляет  собой  целенаправленный  интерактивный,  асинхронный  процесс 

взаимодействия  субъектов  и  объектов  обучения  между  собой  и  со  средствами  обучения, 

причем процесс обучения индифферентен к их пространственному расположению.  

В  системе  образования  ДО  отвечает  принципу  гуманистичности,  согласно  которому 

никто  не  должен  быть  лишен  возможности  учиться  по  причине  бедности,  географической 

или  временной  изолированности,  социальной  незащищенности  и  невозможности  посещать 

образовательные  учреждения  в  силу  физических  недостатков  или  занятости 

производственными  и  личными  делами.  Являясь  следствием  объективного  процесса 

информатизации  общества  и  образования  и  вбирая  в  себя  лучшие  черты  других  форм,  ДО 

вошло в ХХI век как наиболее перспективная, синтетическая, гуманистическая, интегральная 

форма получения образования. 

Существуют  и  другие  трактовки  понятий  дистанционного  обучения  и  образования, 

отражающие многообразие подходов к их пониманию: 

Дистанционное  образование  -  особая,  совершенная  форма,  сочетающая  элементы 

очного, очно - заочного, заочного и вечернего обучения на основе новых информационных 

технологий и систем мультимедиа. Современные средства телекоммуникаций и электронных 

изданий позволяют преодолеть недостатки традиционных форм обучения, сохраняя при этом 

все их достоинства; 

Дистанционное  обучение  -  новая  организация  образовательного  процесса, 

базирующаяся  на  принципе  самостоятельного  обучения.  Среда  обучения  характеризуется 

тем, что учащиеся в основном, а часто и совсем, отдалены от преподавателя в пространстве и 

(или)  во  времени,  в  то  же  время  они  имеют  возможность  в  любой  момент  поддерживать 

диалог с помощью средств телекоммуникации. 

В  последние  годы  все  больше  говорят  об  использовании  Интернет  технологий  в 

качестве технологической основы дистанционного обучения (ДО), что связано с возросшими 

возможностями  технических  средств  связи  и  распространением  компьютерной  сети 

Интернет.  В  пользу  подобной  основы  для  различных  моделей  дистанционного  обучения 

говорят  следующие  факторы,  обусловленные  дидактическими  свойствами  этого  средства 

информационных технологий: 

 

Возможность  чрезвычайно  оперативной  передачи  на  любые  расстояния 



информации любого объема, любого вида (визуальной и звуковой, статичной и динамичной, 

текстовой и графической).  

 

Возможность оперативного изменения информации через сеть Интернет со своего 



рабочего места.  

 



Хранение  этой  информации  в  памяти  компьютера  в  течение  необходимой 

продолжительности времени, возможность ее редактирования, обработки, распечатки и т.д.  

 

Возможность интерактивности с помощью специально создаваемой для этих целей 



мультимедийной информации и оперативной обратной связи.  

 



Возможность  доступа  к  различным  источникам  информации,  в  первую  очередь 

Web-сайтам  Интернет,  удаленным  базам  данных,  многочисленным  конференциям  по  всему 

миру через систему Интернет, работы с этой информацией.  

 



Возможность  организации  электронных  конференций,  в  том  числе  в  режиме 

реального времени, компьютерных аудиоконференций и видеоконференций.  

 

Возможность диалога с любым партнером, подключенным к сети Интернет.  



 

Возможность  запроса  информации  по  любому  интересующему  вопросу  через 



электронные конференции.  

 



Возможность перенести полученные материалы на свою дискету, распечатать их и 

работать с ними так и тогда, когда и как это наиболее удобно пользователю.  



123 

 



Интернет  устранил  или  заметно  снизил  временные,  пространственные  и 

финансовые барьеры в распространении информации, создал собственные интегрированные 

информационные  структуры.  Естественно,  это  имеет  огромное  значение  для 

образовательной  системы,  ведь  информация  –  «среда  обитания»  всех  образовательных 

программ. 

Полноценный  проект  онлайнового  обучения  состоит  из:  инструктивного  блока, 

информационного  блока  (системы  информационного  наполнения  ресурса),  контрольного 

блока  (механизма  тестирования  и  оценки),  коммуникативного  блока  (системы 

интерактивного преподавания) и управляющей системы, объединяющей все это воедино. 

 

 



 

 

 



 

Курс ДО - это не только сам текст занятий, а целостный процесс, включающий поиск 

подходящей информации в сетях, обмен письмами, как с кураторам курса, так и с другими 

учащимися,  обращение  к  базам  данных,  периодическим  информационным  изданиям, 

распространяемых посредством Интернет. 

Дистанционное обучение, индивидуализированное по своей сути, не должно вместе с 

тем  исключать  возможностей  коммуникации  не  только  с  преподавателем,  но  и  с  другими 

обучающимися,  сотрудничества  в  процессе  разного  рода  познавательной  и  творческой 

деятельности. 

При  создании  курса  ДО  важно  учесть  особенности  целевой  группы,  для  которой 

создается  этот  курс  и  выбрать  методику  дистанционного  обучения  с  учетом  особенностей 

технического обеспечения обучаемого. 

Эффективность  дистанционного  обучения  зависит  от  качества  используемых 

материалов  (учебных  курсов)  и  мастерства  педагогов,  участвующих  в  этом  процессе. 

Поэтому  педагогическая,  содержательная  организация  дистанционного  обучения  (как  на 

этапе проектирования курса, так и в процессе его использования) является приоритетной.  

В настоящее время широко используется следующая структура курсов ДО: 

 



Авторы  курса,  с  фотографиями  автора  и  тьютора.  Краткая  творческая  биография 

автора курса, основные публикации. Возможно аудио или видео ролик.  

 

Введение  (Информация  о  курсе).  Дается  краткая  характеристика  курса,  кому  он 



предназначен,  что  необходимо  знать  и  уметь  для  успешного  усвоения,  расписание,  цели  и 

задачи курса, аннотация курса, организация курса, требуемая литература, порядок обучения, 

как работать с данным курсом, место и взаимосвязь с другими дисциплинами программы по 

специальности.  

 

Основной  текст  в  виде  модулей  с  иллюстрациями,  выделенными  ключевыми 



словами  (для  глоссария)  и  определениями,  ссылками  на  другие  страницы  курса,  и  другие 

источники  информации  в  сети  Интернет,  а  также  основные  выводы  по  разделу.  Каждый 

модуль  должен  иметь  заголовок.  Возможно  указание  перечня  вопросов,  относящихся  к 

данному разделу, но не вошедших в программу с указанием источников, где можно с ними 

ознакомиться факультативно и дополнительные лекционные материалы.  

 



Вопросов для самотестирования  после каждого раздела, контрольных работ и тем 

для обсуждения на форуме данного курса. Задачи с ответами для тренинга.  

 

Справочные  материалы  по  предметной  области  курса  (глоссарий),  связанный 



гиперссылками  с  основным  текстом.  Глоссарий,  по  возможности  должен  полно  отражать 

содержание курса. Список сокращений и аббревиатур.  

 

Литература  -  список  рекомендованной  основной  и  дополнительной  литературы, 



адреса Web-сайтов в сети Интернет с информацией, необходимой для обучения с аннотацией 

каждого ресурса.  

Инструктивный 

блок 


Информационный 

блок 


Контрольный 

блок 


Коммуникативный 

блок 


УПРАВЛЯЮЩАЯ СИСТЕМА 

124 

 



Средства  сотрудничества  обучаемого  с  преподавателем  и  другими  обучаемыми 

(электронная почта, видеоконференции, форум, чат).  

 

Практические  и  лабораторные  работы,  необходимые  для  качественного  усвоения 



курса.  

 



Творческие  задания  (курсовые  работы,  эссе,  задания,  ситуации  и  т.д.), 

направленные  на  самостоятельное  применение  усвоенных  знаний,  умений,  навыков, 

выполнение проектов индивидуально и в группах сотрудничества.  

 



Блок проблемных ситуаций (тексты задания на выявление глубины понимания).  

 



Web- работы обучаемых (или файлы презентаций, размещенные в Интернет).  

 



Наиболее часто задаваемые вопросы и ответы на них, размещенные на Web-сайте и 

доступные для обучающихся.  

 

Заключительный  тест.  Экзаменационные  материалы,  требования  к  уровню 



владения материалам.  

 



Блок мониторинга результатов учебной работы.  

 



Практикум для выработки умений и навыков применения теоретических знаний с 

примерами выполнения заданий и анализом наиболее часто встречающихся ошибок.  

 

Виртуальный лабораторный практикум.  



 

Портфолио – все, что написал обучаемый, помещается здесь, включая электронные 



письма, выполненные работы, задания, ответы преподавателя. 

 



«Классная  комната»  –  имена  и  E-mail  слушателей  класса,  преподавателя, 

ассистентов, с возможностью общения с любым из них или всех сразу. 

 

Учебные группы  - В зависимости от  требований преподавателя, обучаемые могут 



объединяться в небольшие группы, коллективно выполняющие отдельные проекты. 

 



Доска  объявлений  -  информация  для  всех  обучаемых  группы  и  для  конкретного 

обучаемого. 

 

Файлы для скачивания обучаемыми (презентации, файлы Word). 



 

Лабораторные  работы  (моделирование  лабораторных  работ  с  помощью  языков 



программирования  и  непосредственная  передача  данных  в  ходе  лабораторной  работы  в 

Интернет).    

При  создании  курса  необходимо  использовать  итерационный  подход.  Курс  должен 

изменяться и дорабатываться по результатам работы с материалами курса. 

Для организации дистанционных курсов разрабатывается специальный Web-сайт или 

Web-портал.  На  сайте  размещается  система  для  управления  процессом  дистанционного 

обучения, информация по организации обучения, представлен список предлагаемых курсов и 

сами курсы. Каждый курс размещается в своем разделе сайта. 

Для  представления  курсов  в  сети  Интернет  обычно  используется  типовая  оболочка 

курса  с  удобной  системой  навигации.  По  каждому  курса  создаются  тесты,  конференция 

(форум).  Создается  закрытая  и  открытые  области  для  размещения  курса  на  сайте. 

Информация о тестировании обучаемого заносится в базу данных. 

Размещение  курса  делается  многоуровневое.  На  первом  уровне  показывается 

структура  курса  и  аннотация  разделов.  Каждый  раздел  курса  разбивается  на  отдельные 

модули. 

По каждому курсу определяется календарь курса: срок обучения, сроки прохождения 

разделов,  сроки  тестирования,  даты  виртуальных  семинаров,  написания  рефератов, 

предельные сроки сдачи контрольных заданий и т.д.  

В  курсах  дистанционного  обучения  более,  чем  в  каких-либо  других  курсах,  должен 

использоваться  дружественный  интерфейс,  стимулирующий  учащихся  к  продолжению 

работы, успешному ее завершению. 

Требования к разработке Интернет-ресурса по дистанционному обучению: 



125 

 



Полноценный  проект  онлайнового  обучения  состоит  из:  инструктивного  блока, 

информационного  блока,  контрольного  блока,  коммуникативного  блока  и  управляющей 

системы, объединяющей все это воедино. 

 



При  создании  курсов  ДО  широко  используются  гипертекстовые  технологии  и 

мультимедийные средства.  

 

Материалы 



должны 

снабжаться 

необходимыми 

пояснениями, 

быть 

дружественными  к  пользователю  и  привлекательны,  все  трудности  процесса  изучения 



должны заранее предвидеться авторами. 

 



Необходимо, чтобы материал вас захватывал. Применение разнообразной графики, 

анимации  и  имитации  должно  способствовать  повышению  привлекательности 

дистанционных курсов. 

 



Курс  ДО  должен  быть  разбит  на  относительно  небольшие,  логически  замкнутые 

части (разделы).  

Структура курсов ДО: 

 



Авторы курса, с фотографиями автора и тьютора.  

 



Введение (Информация о курсе).  

 



Справочные материалы по предметной области курса.  

 



Литература.  

 



Средства  сотрудничества  обучаемого  с  преподавателем  и  другими  обучаемыми 

(электронная почта, видеоконференции, форум, чат).  

 

Практические и лабораторные работы.  



 

Наиболее часто задаваемые вопросы и ответы на них 



 

Заключительный тест 



 

Виртуальный лабораторный практикум.  



 

Портфолио.  



 

«Классная комната». 



 

Учебные группы. 



 

Файлы для скачивания обучаемыми.  



По каждому курсу определяется календарь курса: срок обучения, сроки прохождения 

разделов,  сроки  тестирования,  даты  виртуальных  семинаров,  написания  рефератов, 

предельные сроки сдачи контрольных заданий и т.д.  

В  курсах  дистанционного  обучения  более,  чем  в  каких-либо  других  курсах,  должен 

использоваться  дружественный  интерфейс,  стимулирующий  учащихся  к  продолжению 

работы, успешному ее завершению. 

Рекомендуется  использовать  принцип  единства  при  создании  курса:  выдерживать 

единую цветовую палитру по всему курса, одинаковое использование шрифтов, одинаковые 

цвета гиперссылок, единый стиль оформления и т.д. 

 



Web-страница в среднем не должна превышать по длине трех экранов.  

 



Фон страниц рекомендуется делать белый, буквы - черные.  

 



Текст должен быть коротким или поделен на абзацы; текст должен быть удобным 

для беглого ознакомления.  

 

Графические элементы должны дополнять текст. 



 

Возможно использование звуковых и видео фрагментов.  



Выше  отмечены  предпосылки  появления  дистанционного  обучения  (ДО), 

определение  понятия  ДО,  плюсы  и  минусы  ДО,  содержатся  рекомендациями  по  созданию 

Интернет-ресурса  по  ДО.  На  основе  из  этого  можно  сказать  о  достоинствах  и  недостатках 

ДО. 


Достоинства:  технологичность,  доступность  и  открытость  обучения,  меньшая  по 

сравнению с обычным образованием стоимость, свобода и гибкость, возможность обучения 

инвалидов и людей с различными отклонениями, индивидуальность и т.д. 


126 

Недостатки:  отсутствие  прямого  очного  общения  между  обучающимися  и 

преподавателем,  необходимость  в  персональном  компьютере  и  доступе  в  Интернет, 

проблема  аутентификации  пользователя  при  проверке  знаний,  недостаток  практических 

занятий и т.д. 

Исходя  из  выше  сказанного  очевидно,  что  процесс  дистанционно  обучения  должен 

включать  неклассические  формы  организации  учебного  процесса,  с  применением  новых 

информационных технологий и интеграцией в курс обучения новшеств ИКТ. 

В  качестве  средств  обучения  можно  использовать  видеоконференции  с 

возможностью,  не  выходя  из  дома,  попасть  в  «виртуальный  класс».  В  нем  обучающиеся 

имеют  возможность  видеть  и  слышать  учителя  и  своих  «одноклассников»,  активно 

учувствовать  в  ходе  урока.  Так  же  огромным  плюсом  является  возможность  организации 

парных  и  групповых  форм  работы,  организация  интерактивных  дебатов  и  т.д.  что  раньше 

трудно было представить.  

Такие  формы  организации  учебного  процесса  способствуют  значительному 

повышению 

коммуникативных 

и 

информационных 



компетенций, 

социализации 

обучающихся. 

В  рамках  данной  работы  было  апробировано  проведение  интерактивных  занятий  в 

режиме  «реального  времени»  (видеоконференции)  посредством  программного  обеспечения 

«Skype».  Спроектирован  портал  для  организации  дистанционного  и  дистанционно-

надомного  обучения,  разработанный  на  CMS  Joomla!,  с  интегрированием  модулей 

организации  потоковой  видео-передачи,  структурирование  и  распределение  занятий  в 

соответствии  с  учебными  планами.  Так  же  на  портале  планируется  интеграция  модулей 

«виртуальной  интерактивной  доски»  и  «виртуального  рабочего  стола»,  с  применением 

технологических решений на принципах таких модулей как WhiteBoard и SmartBoard. 

 

Список использованных источников 



 

1.

 



«Дистанционное образование». - №№1-12. – 2005. 

2.

 



Ибрагимов.  И.  М.  Информационные  технологии  и  средства  дистанционного  обучения: 

учебное пособие для студ. вузов. - М.:Академия,2005.-336 с . 

3.

 

Интернет в гуманитарном образовании: Учеб. пособие для вузов / Под ред. Е. С. Полат.- 



М.: Владос, 2001.-272 с. 

4.

 



В.  Канаво.  «Достоинства  и  недостатки  дистанционного  обучения  через  Интернет» 

(

http://www.curator.ru/doplus.html



5.

 



В.  Канаво.  «Методические  рекомендации  по  созданию  курса  дистанционного  обучения 

через Интернет» (

http://www.curator.ru/method.html

6.



 

Киреева,  Е.Д.  Анализ  перспективного  развития  существующих  форм  образовательных 

Интернет-проектов // Инновации в образовании.-2002.-№ 4. - С. 38-40. 

 

 



УДК 004.8 

WEB CONTENT MINING 

 

Кузнецов А.А., 

alexandr.kuz@mail.ru

 

ЦИТ Восточно-Казахстанского государственного университета им. С.Аманжолова,  

Усть-Каменогорск 

Научный руководитель – к.т.н. А. Сыздыкпаева 

 

Web  content  mining  –  это  процесс  извлечения  знаний  из  содержимого  веб-документов, 



одна из трех основных категорий Web mining–добычи знаний [1]. Данная технология имеет 

широкое применение в сфере аналитиков, социологов, психологов, политологов и так далее. 

Вообще, сам процесс извлечения знаний в современном мире имеет очень большое значение, 


127 

особенно  вследствие  того,  как  растет  и  расширяется  сеть  Internet,  как  растет  количество 

электронных источников информации. 

Web  content  mining  в  данной  статье  рассматривается  как  технология-источник 

кластеризованной информации, которую можно использовать для дальнейших исследований 

и выявления дополнительной информации. 

Данная  категория  описывает  автоматический  поиск  информации  в  Internet,  включая 

процесс добычи содержимого из просматриваемых данных. По своей сути, это аналог метода 

интеллектуального  анализа  данных  для  баз  данных,  где  источником  данных  выступают 

таблицы.  Веб-документы  могут  содержать  в  себе  как  частично  структурированные  данные 

(HTML/XML документы), так и полностью неструктурированные, текстовые данные. 

Наиболее  распространенный  метод  поиска  данных  –  использование  ключевых  слов. 

Метод широко используется в различных поисковых системах. 

Существует два подхода: подход c использованием агентов и подход, ориентированный 

на базу данных. В первом случае добычей занимаются программы-агенты, во втором данные 

рассматриваются как принадлежность к базе. 

 

Рисунок 1 - Схема процесса получения данных 



 

На  рисунке  1  представлена  упрощенная  общая  схема  анализатора  данных.  Программа-

сервис  («Процесс»)  запрашивает  из  базы  данных  список  активных  заданий.  Для  каждого 

задания есть входящие данные. Входящие данные это: 

a)

 

ключевые значения запроса; 



b)

 

связанные с ключевыми словами адреса (если есть). 



Вариантов  обхода  ресурсов  несколько.  В  одном  случае  процесс  обхода  ресурсов 

осуществляется  по  настраиваемому  списку  адресов  Internet-сайтов.  Начальный  список 

адресов  можно  сформировать  вручную  –  это  будет  базовый  список  адресов,  с  которых 

программа начнет свой поиск. В процессе обхода список автоматически пополняется новыми 

адресами, по которым нашлись интересующие нас данные. Так же есть возможность всегда 

дополнить данный список адресов новыми. 

Для  каждого  задания  формируется  список  сайтов,  который  нужно  обойти  для  анализа. 

Для  каждого  сайта  формируется  «паук»  –  подпрограмма-анализатор.  Далее,  каждый  паук 

обходит ресурсы, анализируя их содержимое по заданным критериям задания. 


128 

 

Рисунок 2 - Паук в развороте 



 

Каждый  паук  работает  через  провайдер  данных  и  обладает  обратной  связью  со  своим 

«родителем». Провайдер данных  –  «черный ящик», который  принимает решение, подходит 

ли  данный  текст  нам  или  нет.  Связь  используется  для  передачи  найденных  данных. 

Назначение  «паука»  –  пройти  по  указанным  ему  ресурсам,  найти  нужную  информацию  и 

передать  ее  управляющему  процессу.  Назначение  управляющего  процесса  –  управление 

сборщиками  информации  и  централизованная  обработка  поступающих  данных.  Под 

поступающими данными подразумеваются: 

1.

 

адрес, по которому данные были найдены; 



2.

 

дата добавления;  



3.

 

данные, в каком виде они были на странице



Причина  поступления  информации  «как  есть»  кроется  в  возможности  выявления 

дополнительной  информации  из  самой  структуры  документа.  Информация  может  быть 

получена  из  порядка  следования  заголовков  (связанные  подразделы),  в  информации  могут 

быть ссылки на другие сервисы (реакции из социальных сетей, ответы, и т.д.). 

Кроме  всего  прочего,  если  мы  будет  на  данном  этапе  приводить  информацию  к 

конечному, удобному для дальнейшего использования виду, наш процесс может быть крайне 

долгим и ресурсоемким. 

Другой  вариант  подразумевает  использование  API  (возможности  стороннего 

использования) существующих поисковых систем – Google, Yandex и т.д. Программа делает 

запрос, как его делает человек в строке поиска и получает результат. Дальнейшее поведение 

программы  идентично  поведению  в  вышеописанном  варианте  –  просмотр  и  добавление  к 

«сырым данным». 

Пауки в данном варианте ведут себя только лишь как собиратели данных, в провайдере-

анализаторе в данном случае нет нужды. 

У обоих вариантов есть свои плюсы и минусы. Плюсы первого варианта: 

1.

 



мы сами формируем зону поиска; 

2.

 



мы ограничены только своим временем и терпением; 

3.

 



мы не зависим от посредников и не принимаем на себя дополнительные ограничения 

поведения; 

4.

 

чаще всего, материальные затраты на поиск данных минимальны. 



Минусы первого варианта: 

1.

 



в целях экономии ресурсов несем затраты на алгоритмы поиска информации.  

2.

 



избыточность информации; 

3.

 



длительность поиска полезной информации; 

Плюсы второго варианта: 

1.

 

нет необходимости в инструментарии поиска информации  в тексте – система поиска 



делает это за нас; 

2.

 



достаточно  высокое  качество  найденной  информации  (зависит  от  сформированного 

запроса); 

3.

 

скорость поиска данных значительно выше; 



Минусы второго варианта: 

1.

 



платность полноценного использования; 

2.

 



зависимость от условий поставщиков результатов. 

129 

Как вариант, можно выбрать среднее – комбинирование первого и второго вариантов. 

Данные, которые представит паук, будут двух типов – либо обычный текст, либо HTML-

документ.  Есть  несколько  способов  проанализировать  данный  документ,  в  зависимости  от 

его структуры: 

1.

 



анализ  DOM-документа  с  помощью  обхода  узлов  (медленный)  или  с  помощью 

навигации по дереву с помощью XPath-запросов (больше к HTML-документам) [2]; 

2.

 

синтаксический  анализ  -  «парсинг»  документа  с  учетом,  на  какого  типа  узле 



находится значение, если такая информация доступна (больше к текстовым данным). 

Есть еще ряд способов, которые способны дать результат, но мы остановимся на этих. 

Анализ  DOM-документа  опирается  на  то,  что  большинство  документов  выполнено  по 

общей, типовой схеме. У документа есть общие блоки – заголовок, навигация, «подвал» или 

окончание  страницы.  Общие  блоки  имеют  стандартные  визуальные  позиции  –  заголовок 

обычно сверху, навигация – слева или справа. «Подвал», где обычно пишется информация о 

сайте,  его  владельце  и  продублированы  важные  ссылки  –  снизу.  А  то,  что  нам  нужно  –  в 

центре. Что еще характерно, данные блоки имеют чаще всего звучащие идентификаторы или 

классы оформления, по которым так же можно ориентироваться. 

Зная, что большинство информационных сайтов придерживается именно такого дизайна, 

мы можем организовать приемлемую обработку документов, отсекая ненужную часть. 

Подходов  для  поиска  основной  части  может  быть  несколько.  Можно  использовать 

алгоритм, опирающийся на разбивку документа на неделимые последовательности символов 

(токены) и удаление повторяющихся последовательностей из документов. Данный алгоритм 

предложили  в  своих  исследованиях  М.  С.  Агеев,  И.  В.  Вершинников,  Б.  В.  Добров, 

сотрудники Научно-исследовательского вычислительного центра МГУ им. М.В. Ломоносова 

и АНО Центра информационных исследований. Он хорош для страниц, собранных с одного 

ресурса, но применим и для других страниц. 

Можно так же использовать настраиваемый поиск, когда блоки ищутся по их «именам». 

В  данном  случае  под  именем  подразумевается  HTML-идентификаторы  и  (или)  CSS-классы 

узлов в DOM-дереве («sidebar», «left_sidebar», «right_sidebar», «content», «header», «footer», и 

т.д.). Распознание блока так же можно сделать на основе выводов, сделанных на основании 

использованной системы управления контентом. 

Получив  основную  часть,  можно  начать  ее  анализ  и  переработку  в  удобную  для 

дальнейшего использования форму. 

Резюмируя  все  вышесказанное,  можно  сделать  вывод  о  том,  что  возможностей 

получения данных из сети Internet достаточно много, все они имеют свои плюсы и минусы. 

Чем  больше  информации  требуется  получить  –  не  данных,  а  именно  информации,  -  тем 

больше  усилий  потребуется  приложить  к  данному  процессу.  Но,  результат  того  стоит. 

Применение  данных  технологий  несет  огромную  пользу,  как  для  аналитиков,  так  и  для 

обывателей. Не даром один из основателей Google сказал, что идеальный поисковый сервис 

– это искусственный интеллект [4]. 

 

Список использованных источников 

 

1.



 

Web mining –Википедия. 

http://ru.wikipedia.org/wiki/Web_mining

2.



 

М. С. Агеев, И.В. Вершинников, Б. В. Добров. Извлечение значимой информации из  web-

страниц для задач информационного поиска. 

3.

 



Синтаксический анализ. 

http://en.wikipedia.org/wiki/Parsing

4.

 



Larry Page Interview. 

http://www.achievement.org/autodoc/page/pag0int-3

 

 

 



 

 

 



130 

 

УДК 004.4 




Достарыңызбен бөлісу:
1   ...   16   17   18   19   20   21   22   23   ...   89




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет