«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
83
≡< ,
>
Мұндағы C – пәндік аумақтың концепттерінің жиыны; R-олардың арасындағы
қатынастың жиыны.Құрылатын ОМ аясында келесі концепт моделі ұсынылған:
≡<
,
, ,
, , ,
>
Мұндағы С-концепт; N-концепт аты; W-концептпен ассоциацияланған сөздер;F-
концепт анықтамасы; M-комментарийлер; D-концептпен байланысқан құжаттар;L- анықтама
мәтіндерінен және сәйкес концепттерге комментарийлерден гиперсілтемелер(кейде бұл
сілтемелер берілген концепт қатынастарын дубликаттауы мүмкін, алайда, қолданушы
ыңғайына қарай олар да көрсетіледі);P-концепт қасиеттерінің жиыны.
Онтологиялық модельді құруда бес кезеңді көрсетуге болады [6]:
1)пәндік аумақтың глоссариін құру, яғни, пәндік аумақтың негізгі түсініктерін -
концепттерді көрсету;
2) «онтология ағашының биіктігін» -абстракция деңгейлерінің санын анықтау;
3)концепттерді деңгейлер бойынша бөлу;
4)концепттер арасында қатынастар құру;
5)қарама-қайшылықтарды мен дәлсіздіктерді әр түрлі мамандардан консультация алу
арқылы шеттету.
Үлкен деректер бойынша зерттеулерді қолдау пәндік аумағын екі пәндік аумақтың
біріккен түрінде көрсетуге болады.Олар: Big Data бойынша ғылыми зерттеулердің пәндік
аумағы және зерттеулер нәтижесін мүмкін болатын қолданысқа енгізу пәндік аумағы.
Ғылыми зерттеулер бойынша пәндік аумақта келесі негізгі кластарды (концепттерді)
көрсетуге болады (Сурет 1).
1. Үлкен деректер әр түрлі форматты(құрылымданған , жартылай құрылымданған және
құрылымданбаған) өте үлкен көлемдегі деректер массивінен тұрады. Бұл деректер шешімдер
қабылдау және объекттерді басқару мақсатында пайдалы ақпарат пен заңдылықтарды
шығару үшін талдау, өңдеу қажетті болған ақпараттың әр түрлі көздерінен келеді.
2. Ақпарат көзі қолданушыға тапсырмалар қабылдау мақсатында деректердің әр түрлі
форматтағы деректерді беретін ақпарат генераторының рөлін атқарады.Оған әлеуметтік
желілер, мәтіндік ақпарат, датчиктерден келетін деректер,логи және т.б. жатады.
3. Жоба нәтижелері инновациялық құрулар болатын жобалар, зерттеулер, олардың
мерзімдері
туралы
ақпараттан
тұрады.
Жобалар
адамдар,ұйымдар,патенттер,
жарияланымдар, өнімдер және басқа да жүйенің объекттерімен байланысты басқа
жобалармен байланысуы мүмкін.
4. Ұйым жобаларға қатысы бар ұйымдар туралы ақпараттан тұрады. Ұйымның
сипаттамасы болады:есеп валютасы, қызметкерлер саны және т.б. Ұйымдар өзара байланыса
және жүйенің басқа объекттерімен байланыса алады.
5. Зерттеуші ғылыми жобаларға қатысқан адамдар туралы ақпараттардан тұрады.
Адамдар, сондай-ақ, өзара байланыса және жүйенің басқа объекттерімен байланыса алады.
6. Есімдер қосымша объектісі бір адамның есімін әр түрлі нұсқада жазу, әр түрлі тілде
жазу туралы ақпараттан тұрады.
7. Жарияланымдар зерттеулердің жарияланым түріндегі нәтижесі туралы ақпараттан
тұрады.Жарияланым туралы шығыс деректерінен тұрады: шығу күні, баспасы, сериясы,
беттері, ISBN, ISSN, қысқаша мазмұны, комментарийлер,т.б. Жарияланымдар өзара
байланыса
және
зерттеулердің
басқа
нәтижелерімен,
жүйенің
басқа
объекттерімен:жоба,ұйым, адамдармен байланыса алады.
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
84
Сурет 1. Big Data ғылыми зерттеулері бойынша пәндік аумақтың негізгі кластары
8. Патент зерттеулер нәтижелеріне берілген патенттер туралы ақпараттан тұрады.
Патент беруші мемлекет туралы,тіркеу күні, қысқа мазмұны туралы ақпараттан тұрады.
Патенттер жарияланымдар,жобалар, ұйымдар,адамдармен байланыса алады.
9. Кейс зерттеу нәтижесінде алынған өнімдер туралы, яғни, инновациялық
өнімдер,сондай-ақ
өнім
сипаттамасы
туралы
ақпарат
береді.
Өнімдер
жарияланым,жобалар,адамдар,ұйымдармен байланыса алады.
10. CERIF стандартымен алдын ла қарастырылған қосымша объекттер ішкі жүйеде
қатысады: Тіл деректер берілген тіл туралы ақпарат көрсетеді, Адрес адамдар мен
ұйымдардың физикалық адрестері туралы ақпарат береді, Электрондық адрес адамдар мен
ұйымдардың электрондық адрестері туралы ақпарат береді, Мемлекет елдер туралы ақпарат
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
85
көрсетеді, Қаржыландыру бағдарламасы жоба қандай бағдарлама аясында орындалатыны
туралы ақпарат береді.
Осылайша, құрылған онтологиялық модель үлкен деректерді талдау және өңдеу
саласындағы ғылыми зерттеулерді қолдайтын ақпараттық жүйені құруға, осы саладағы
ғылыми
зерттеулерді
жүйелеу
мен
құрылымдауға,
үлкен
деректер
мәселелерін
зерттеушілермен қатар инвесторларға да айқын зерттеулердің логикалық тізбегін құруға
мүмкіндік береді.
Құрылған онтологиялық модель үлкен деректер бойынша ғылыми зерттеулерді
қолдайтын
ақпараттық
жүйенің
архитектурасын
құруға,метадеректер
және
қолданушылардың сұратуларының семантикасын қолдауға арнап өзарабайланысқан
тезаурустер жиынтығын құруға мүмкіндік береді.
Қолданылған әдебиеттер:
1. В.Волохов, А.Прохоров, Е.Амосова «РАН институттарының инновациялық өнімдерін
қолдауға арналған ақпараттық жүйе пәндік аумағының онтологиялық моделі», «Ресейдің ақпараттық
ресурстары» журналы, №3,211.
2. Т. Гаврилова «Қолданбалы онтологияларды құру» , Жасанды интеллект бойынша Х
халықаралық КИИ халықаралық қатысуымен болған Ұлттық конференция еңбектері, -
М:ФизматМит,2006. Т.2.
УДК 004
КАЙРГАЛИЕВ А.С., САУХАНОВА Ж.С
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ НА ЯЗЫКЕ ПРОГРАММИРОВАНИЯ PYTHON
(Евразийский национальный университет им. Л.Н. Гумилева, г. Астана)
Выражение «коллективный разум» в ходу уже несколько десятилетий, но стало
важным и популярным с приходом новых коммуникационных технологий. Оно может
вызвать ассоциации с групповым сознанием или сверхъестественными явлениями, но
технически ориентированные люди обычно понимают под этим извлечение нового знания из
объединенных предпочтений, поведения и представлений некоторой группы людей.
Этапы в процессе интеллектуального анализа данных
Традиционно выделяются следующие этапы в процессе интеллектуального анализа
данных [3]:
1. Изучение предметной области, в результате которого формулируются основные
цели анализа.
2. Сбор данных.
3. Предварительная обработка данных :
-
Очистка данных – исключение противоречий и случайных “шумов” из
исходных данных
-
Интеграция данных – объединение данных из нескольких возможных
источников в одном хранилище
-
Преобразование данных. На данном этапе данные преобразуются к форме,
подходящей для анализа. Часто применяются к форме, подходящей для анализа. Часто
применяется агрегация данных, дискретизация атрибутов, сжатие данных и сокращение
размерности.
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
86
4.
Анализ
данных.
В
рамках
данного
этапа
применяются
алгоритмы
интеллектуального анализа с целью изучения паттернов.
5. Интерпретация найденных паттернов. Данный этап может включать визуализацию
извлеченных паттернов, определение действительно полезных паттернов на основе
некоторой функции полезности.
6. Использование новых данных [3].
Основные задачи интеллектуального анализа данных
Задача классификации заключается в том, что для каждого варианта определяется
категория или класс, которому он принадлежит. Для решения задачи необходимо, чтобы
множество классов было известно заранее и было бы конечным и счетным.
Задача регрессии во многом схожа с задачей классификации, но в ходе ее решения
производится поиск шаблонов для определения числового значения.
Задача прогнозирования новых значений на основании имеющихся значений
числовой последовательности.
Задача кластеризации - заключается в делении множества объектов на группы
(кластеры) схожих по параметрам. В отличие от классификации, число кластеров и их
характеристики могут быть заранее неизвестны и определяться в ходе построения кластеров
исходя из степени близости объединяемых объектов по совокупности параметров.
Почему лучше использовать Python в качестве языка программирования для
интеллектального анализа данных?
При выборе вариантов для осуществления интеллектуального анализа данных
возникает справедливый вопрос, какой язык программирования наиболее подходящий?
Существует много направлений в разработке ПО и, конечно же, всё зависит от собственных
предпочтений, но в этой статье мы рассмотрим Python и узнаем почему лучше всего
использовать этот язык для вышеописанной цели.
Чтобы начать понимать Python достаточно хотя бы немного знать английский язык.
Как показывают исследования Ассоциации Вычислительной Техники, язык Python занимает
лидирующие позиции в качестве первого языка программирования во многих американских
колледжах.
По опросу 39 передовых IT факультетов США, он сместил Java и стал первым языком
программирования общего назначения, на который обращают внимание начинающие
программисты. 8 из 10 передовых IT факультетов (80%) и 27 из 39 (69%) преподают Python
на первых этапах изучения профессии.
Сам язык был создан 23 года назад, но как отличный инструмент для обучения
новичков программированию, его открыли совсем недавно. Так же Raspberry Pi оказал свое
влияние на Python, но и не стоит забывать о том, что Python применяется ведущими
компаниями мира, а именно Google, Yahoo и Nasa, что делает его привлекательным и для
разработчиков с опытом за плечами. В настоящее время Python занимает устойчивое
положение среди восьми самых популярных языков программирования с 2008 года.
Существуют несколько ключевых моментов, благодаря которым Python так прост в
изучении. Рассмотрим эти причины:
1. Минимальная установка
2. Синтаксис Python состоит из простого английского
3. Ошибки выявляются в процессе запуска программы
4. Python очень легко освоить
В Python отсутствуют заголовки и излишний код, благодаря чему можно освоить
довольно сложные понятия, просто копируя структуру простых английских предложений.
Особенно часто выбирают Python те, кто не относит себя к людям с математическим складом
ума. И не секрет, что многие американские университеты выбирают его по той же причине
[4].
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
87
Задача кластеризации блогов
Рассматриваются наиболее посещаемые блоги в качестве множества кластеризуемых
объектов. Данные кластеризуются по количеству вхождений определенных слов в каждую
запись блога. Путем кластеризации блогов по частоте слов следует определить группы
блогов, в которых часто пишут на одни и те же темы или в похожем стиле. Такой результат
полезен для поиска, каталогизации и классификации огромного числа блогов Сети.
Почти все блоги можно читать напрямую или с помощью RSS-каналов. RSS-канал –
это простой XML-документ, содержащий информацию о блоге и всех записях в нем. Первый
шаг процедуры получения счетчиков слов – проанализировать эти каналы. Для этого
используется библиотека Universal Feed Parser.
Для осуществления интеллектуального анализа список url представляется в
текстовом файле .
Для предварительной обработки данных также необходим модуль регулярных
выражений. Регулярные выражения это, по существу, крошечный язык программирования,
встроенный в Python и доступный при помощи модуля re. При помощи re указываются
правила для множества возможных строк, которые необходимо проверить [5].
Для анализа в текстовом файле строится таблица по количеству вхождений
определенных слов в каждый блог.
В рамках этапа анализа данных применяется алгоритм иерархической кластеризации.
Данный алгоритм строит иерархию групп, объединяя на каждом шаге две самые похожие
группы. В начале, каждая группа состоит из одного элемента, в данном случае – одного
блога. На каждой итерации вычисляются попарные расстояния между группами, и группы,
оказавшиеся самыми близкими, объединяются в новую группу. Для определения близости
кластеризуемых объектов используется ккоэффициент Пирсона. Коэффициент корреляции
Пирсона – это мера скоррелированности двух переменных. Он принимает значения от 1 до –
1, где 1 означает, что корреляция между переменными идеальна, 0 – что корреляции нет, а –1
– что имеется идеальная обратная корреляция. Корреляция Пирсона рассчитывается по
формуле:
r =
∑
−
∑ ∗ ∑
∑
−
(∑ )(∑ )
∑
−
(∑ )(∑ )
Результаты иерархической кластеризации представляются в виде графа, который
называется дендрограммой. В [1] представлен код для рисования дендрограммы.
Вышеуказанный алгоритм протестирован для дополнительных url, где были
включены url сайта ЕНУ, КазНУ на английском языке, а также url livejournal.com/data/rss.
Как и ожидалось, сайты ЕНУ, КазНУ оказались в одном кластере.
Заключение
Интеллектуальный анализ данных является одним из наиболее актуальных и
востребованных направлений прикладной математики. Современные процессы бизнеса и
производства порождают огромные массивы данных, и людям становится все труднее
интерпретировать и реагировать на большое количество данных, которые динамически
изменяются во времени выполнения, не говоря уже о предупреждении критических
ситуаций.
Средства
«Интеллектуального
анализа
данных»
предохраняют
людей
от
информационной перегрузки, перерабатывая оперативные данные в полезную информацию
так, чтобы нужные действия могли быть приняты в нужные времена.
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
88
Список использованной литературы:
1. Сегаран. Т. Программируем коллективный разум. – Пер. с англ. – СПб: Символ-Плюс, 2008.
– 368 с., ил.
2. А.А. Барсегян, М.С. Куприянов, В.В. Степаненко. Методы и модели анализа данных OLAP
и Data Mining: И.И. Холод - СПб.: БХВ-Петербург, 2004.Р
3. Р.Г. Степанов. Технлогоия Data Mining: Интеллектуальный анализ данных. Казань, 2008.
58с. Аз
4.http://devacademy.ru/posts/pochemu-luchshe-ispolzovat-python-v-kachestve-pervogo-yazyika-
programmirovaniya/
5. https://habrahabr.ru/post/115825/
УДК 004
КАЛДЫБАЕВА Г.Н.
СОЗДАНИЕ БАЗЫ ЗНАНИЙ В PROTÉGÉ
(Евразийский национальный университет им. Л.Н. Гумилева, г. Астана)
Термин «онтология» был предложен Рудольфом Гоклениусом в 1613 году в его
«Философском словаре» (Lexicon philosophicum, quo tanquam clave philisophiae fores
aperiunter. Francofurti), и чуть позже Иоганом Клаубергом в 1656 году в работе Metaphysika
de ente, quae rectus Ontosophia, предложившем его (в варианте «онтософия») в качестве
эквивалента понятию «метафизика». В практическом употреблении термин был закреплён
Христианом фон Вольфом, явно разделившим семантику терминов «онтология» и
«метафизика».
В последние годы разработка онтологий - формальных явных описаний терминов
предметной области и отношений между ними – переходит из мира лабораторий по
искусственному интеллекту на рабочие столы экспертов по предметным областям. Во
всемирной паутине онтологии стали обычным явлением. Онтологии в сети варьируются от
больших таксономий, категоризирующих веб-сайты (как на сайте Yahoo!), до категоризаций
продаваемых товаров и их характеристик (как на сайте Amazon.com). Консорциум WWW
(W3C) разрабатывает RDF (Resource Description Framework) (Brickley and Guha 1999), язык
кодирования знаний на веб-страницах, для того, чтобы сделать их понятными для
электронных агентов, которые осуществляют поиск информации. Во многих дисциплинах
сейчас разрабатываются стандартные онтологии, которые могут использоваться экспертами
по предметным областям для совместного использования и аннотирования информации в
своей области. Например, в области медицины созданы большие стандартные,
структурированные словари, такие как snomed (Price and Spackman 2000) и семантическая
сеть Системы Унифицированного Медицинского Языка (the Unified Medical Language
System) (Humphreys and Lindberg 1993). Также появляются обширные общецелевые
онтологии. Например, Программа ООН по развитию (the United Nations Development
Program) и компания Dun & Bradstreet объединили усилия для разработки онтологии
UNSPSC, которая предоставляет терминологию товаров и услуг (http://www.unspsc.org/).
В литературе по искусственному интеллекту содержится много определений понятия
онтологии, многие из которых противоречат друг другу. Онтология – формальное явное
описание понятий в рассматриваемой предметной области (классов (иногда их называют
понятиями)), свойств каждого понятия, описывающих различные свойства и атрибуты
понятия (слотов (иногда их называют ролями или свойствами)), и ограничений, наложенных
на слоты (фацетов (иногда их называют ограничениями ролей)). Онтология вместе с набором
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
89
индивидуальных экземпляров классов образует базу знаний. В действительности, трудно
определить, где кончается онтология и где начинается база знаний.
Одна из первых разработок в этой области – это система Protégé с большим опытом
применения. Судя по тому, как строятся многие онтологии в виде файлов, Protégé является
наиболее распространенным инструментом. Система Protégé разработана в лаборатории КSL
Стэнфордского университета. Первоначально она разрабатывалась как программное
инструментальное средство для формирования словарей в области медицины, но оказалась
полезной для применений и в других областях. Protégé 2000 разработана уже для работы в
Web-браузерах. В настоящее время с ее помощью читаются и формируются OWL-файлы. На
конференции в Будапеште (июль 2007г.) [20] определены проблемы и некоторые
направления развития Protégé. Другая система, Chimaera, (также разработка подразделения
КSL Стэнфордского университета) предназначена для программной поддержки процесса
объединения больших онтологий. Это графический редактор, который выделяет
сомнительные места в объединенной онтологии и позволяет редактировать онтологию.
Тезаурус (от греч. Θησαυρός
-
сокровище),
в
общем
смысле
-
специальная терминология, более строго и предметно - словарь, собрание сведений, корпус
или свод, полномерно охватывающие понятия, определения и термины специальной области
знаний или сферы деятельности, что должно способствовать правильной лексической,
корпоративной коммуникации (пониманию в общении и взаимодействии лиц, связанных
одной
дисциплиной
или
профессией);
в
современной
лингвистике
-
особая
разновидность словарей,
в
которых
указаны семантические отношения
(синонимы, антонимы, паронимы, гипонимы, гиперонимы и т. п.)
между
лексическими
единицами. Тезаурусы являются одним из действенных инструментов для описания
отдельных предметных областей. В отличие от толкового словаря, тезаурус позволяет
выявить смысл не только с помощью определения, но и посредством соотнесения слова с
другими понятиями и их группами, благодаря чему может использоваться для
наполнения баз
знаний систем искусственного
интеллекта.
В
прошлом
термином тезаурус обозначались по преимуществу словари, с максимальной полнотой
представлявшие лексику языка с примерами её употребления в текстах. Также
термин тезаурус употребляется в теории информации для обозначения совокупности всех
сведений, которыми обладает субъект. В психологии тезаурус индивидуума характеризуют
восприятие и понимание информации. Теория коммуникации также рассматривает общий
тезаурус сложной системы, благодаря которому взаимодействуют её элементы.
Для
составления
тезауруса
используется
учебник
«Java
Промышленное
программирование», авторов И.Н. Блинов, В.С. Романчик, который состоит из 3 основных
глав.
В тезаурусе определены следующие поля, необходимые для заполнения:
1) термин;
2) определение данного термина;
3) отношение.
В результате составления тезауруса отобраны 269 основополагающих терминов с
определениями и отношениями. Пример таблицы показан на рисунке 1:
|