И анализ больших данных

Методики анализа больших данных

жүктеу/скачать 2,33 Mb.

Pdf көрінісі

бет	8/65
Дата	29.12.2023
өлшемі	2,33 Mb.
	#145048
түрі	Учебно-методическое пособие

1 ... 4 5 6 7 8 9 10 11 ... 65

Байланысты:
BIG дата книга

2.3 Методики анализа больших данных
При анализе информации часто сталкиваемся с тем, что теоретическое великолепие
методов анализа разбивается о действительность. Ведь вроде все давно решено, известно
множество методов решения задач анализа. Почему же довольно часто они не работают?

15
Дело в том, что безупречные с точки зрения теории методы имеют мало общего с
действительностью. Чаще всего аналитик сталкивается с ситуацией, когда трудно сделать
какие-либо четкие предположения относительно исследуемой задачи. Модель не известна,
и единственным источником сведений для ее построения является таблица
экспериментальных данных типа «вход – выход», каждая строка которой содержит
значения входных характеристик объекта и соответствующие им значения выходных
характеристик.
В результате они вынуждены использовать всякого рода эвристические или
экспертные предположения и о выборе информативных признаков, и о классе моделей, и
о параметрах выбранной модели. Эти предположения аналитика основываются на его
опыте, интуиции, понимании смысла анализируемого процесса. Выводы, получаемые при
таком подходе, базируются на простой, но фундаментальной гипотезе о монотонности
пространства решений, которую можно выразить так: «Похожие входные ситуации
приводят к похожим выходным реакциям системы». Идея на интуитивном уровне
достаточно понятная, и этого обычно достаточно для получения практически приемлемых
решений в каждом конкретном случае.
В результате применения такого метода решений академическая строгость
приносится в жертву реальному положению вещей. Собственно, в этом нет ничего нового.
Если какие – то подходы к решению задачи вступают в противоречие с реальностью, то
обычно их изменяют. Возвращаясь к анализу данных, или, вернее, к тому, что сейчас
называют Data Mining, следует обратить внимание еще на один момент: процесс
извлечения знаний из данных происходит по той же схеме, что и установление
физических законов: сбор экспериментальных данных, организация их в виде таблиц и
поиск такой схемы рассуждений, которая, во-первых, делает полученные результаты
очевидными и, во-вторых, дает возможность предсказать новые факты. При этом имеется
ясное понимание того, что наши знания об анализируемом процессе, как и любом
физическом явлении, в какой – то степени приближение. Вообще, всякая система
рассуждений о реальном мире предполагает разного рода приближения. Фактически
термин Data Mining – это попытка узаконить физический подход в отличие от
математического к решению задач анализа данных. Что же мы вкладываем в понятие
«физический подход»?
Это такой подход, при котором аналитик готов к тому, что анализируемый процесс
может оказаться слишком запутанным и не поддающимся точному анализу с помощью
строгих аналитических методов. Но можно все же получить хорошее представление о его
поведении в различных обстоятельствах, подходя к задаче с различных точек зрения,
руководствуясь знанием предметной области, опытом, интуицией и используя различные
эвристические подходы. При этом мы движемся от грубой модели ко все более точным
представлениям об анализируемом процессе. Слегка перефразировав Р. Фейнмана, скажем
так: можно идеально изучить характеристики анализируемой системы, стоит только не
гнаться за точностью.
Общая схема работы при этом выглядит следующим образом:

16
Рисунок 2 – Общая схема
Таким образом, данный подход подразумевает, что:
1.
При анализе нужно отталкиваться от опыта эксперта.
2.
Необходимо рассматривать проблему под разными углами и комбинировать
подходы.
3.
Не стоит стремиться сразу к высокой точности. Двигаться к решению нужно
от более простых и грубых моделей ко все более сложным и точным.
4.
Стоит останавливаться как только получим приемлемый результат, не
стремясь получить идеальную модель.
5.
По прошествии времени и накоплению новых сведений нужно повторять
цикл – процесс познания бесконечен.
Пример работы
В качестве примера можно в общих чертах рассмотреть процесс анализа рынка
недвижимости в г. Москве. Цель – оценка инвестиционной привлекательности проектов.
Одна из задач, решаемых при этом, – построение модели ценообразования для жилья в
новостройках, другими словами, количественную зависимость цены жилья от
ценообразующих факторов. Для типового жилья таковыми, в частности, являются:

местоположение дома (престижность района; инфраструктура района;
массовая или точечная застройка; окружение дома (напр. нежелательное соседство с
промышленными предприятиями, «хрущевками», рынками и т.д.); экология района
(близость к лесопарковым массивам));

местоположение квартиры (этаж – первые и последние этажи дешевле;
секция – квартиры в торцевых секциях дешевле; ориентация квартиры по сторонам света
– северная сторона дешевле; вид из окон).

Тип дома (самая популярная серия П-44Т).

Площадь квартиры.

Наличие лоджий (балконов)

Стадия строительства (чем ближе к сдаче дома, тем выше цена за кв.м).

Наличие отделки («черновая» отделка, частичная отделка, под ключ.
Большинство новостроек сдаются с черновой отделкой).

17

Телефонизация дома.

Транспортное сообщение (близость к метро, удаленность от крупных
магистралей, удобный подъезд, наличие автостоянки около дома (наличие парковочных
мест)).

Кто продает квартиру («из первых рук» (инвестор, застройщик) или
посредники (риэлтеры). Риэлтеры, как правило, берут за свои услуги – 3-6%).
Для начала из имеющейся истории продаж мы ограничились данными для одного
района Москвы. В качестве входных факторов взяли ограниченный набор характеристик с
точки зрения экспертов, очевидно влияющих на продажную цену жилья: серия дома,
отделка, этаж (первый, последний, средний), готовность объекта, количество комнат,
секция (угловая, обычная), метраж. Выходным значением являлась цена за квадратный
метр, по которой продавались квартиры. Получилась вполне обозримая таблица с
разумным количеством входных факторов.
На этих данных обучили нейросеть, то есть построили довольно грубую модель.
При всей своей приблизительности у нее было одно существенное достоинство: она
правильно отражала зависимость цены от учитываемых факторов. Например, при прочих
равных условиях квартира в угловой секции стоила дешевле, чем в обычной, а стоимость
квартир по мере готовности объекта возрастала. Теперь оставалось ее лишь
совершенствовать, делать более полной и точной.
На следующем этапе в обучающее множество были добавлены записи о продажах в
других районах Москвы. Соответственно, в качестве входных факторов стали
учитываться такие характеристики, как престижность района, экология района,
удаленность от метро. Так же в обучающую выборку была добавлена цена за аналогичное
жилье на вторичном рынке. Специалисты, имеющие опыт работы на рынке
недвижимости, имели возможность в процессе совершенствования модели безболезненно
экспериментировать, добавляя или исключая факторы, т. к., напомню, процесс поиска
более совершенной модели сводился к обучению нейросети на разных наборах данных.
Главное здесь вовремя понять, что процесс этот бесконечен.
Это пример, как нам кажется, довольно эффективного подхода к анализу данных:
использование опыта и интуиции специалиста в своей области для последовательного
приближения ко все более точной модели анализируемого процесса.
Описанный подход позволяет решать реальные задачи с приемлемым качеством.

жүктеу/скачать 2,33 Mb.

Достарыңызбен бөлісу:

1 ... 4 5 6 7 8 9 10 11 ... 65