И анализ больших данных



Pdf көрінісі
бет26/65
Дата29.12.2023
өлшемі2,33 Mb.
#145048
түріУчебно-методическое пособие
1   ...   22   23   24   25   26   27   28   29   ...   65
 
Канонический анализ 
Канонический анализ предназначен для анализа зависимостей между двумя 
списками признаков (независимых переменных), характеризующих объекты. Например, 
можно изучить зависимость между различными неблагоприятными факторами и 
появлением определенной группы симптомов заболевания, или взаимосвязь между двумя 


38 
группами клинико-лабораторных показателей (синдромов) больного. Канонический 
анализ является обобщением множественной корреляции как меры связи между одной 
переменной и множеством других переменных. Как известно, множественная корреляция 
есть максимальная корреляция между одной переменной и линейной функцией других 
переменных. Эта концепция была обобщена на случай связи между множествами 
переменных – признаков, характеризующих объекты. При этом достаточно ограничиться 
рассмотрением небольшого числа наиболее коррелированных линейных комбинаций из 
каждого множества. Пусть, например, первое множество переменных состоит из 
признаков у1, …, ур, второе множество состоит из – х1, …, хq, тогда взаимосвязь между 
данными множествами можно оценить как корреляцию между линейными комбинациями 
a1y1 + a2y2 + ... + apyp, b1x1 + b2x2 + ... + bqxq,, которая называется канонической 
корреляцией.
адача канонического анализа в нахождении весовых коэффициентов таким 
образом, чтобы каноническая корреляция была максимальной. 
Кластерный анализ 
Кластерный анализ – это метод классификационного анализа; его основное 
назначение – разбиение множества исследуемых объектов и признаков на однородные в 
некотором смысле группы, или кластеры. Это многомерный статистический метод, 
поэтому предполагается, что исходные данные могут быть значительного объема, т.е. 
существенно большим может быть как количество объектов исследования (наблюдений), 
так и признаков, характеризующих эти объекты. Большое достоинство кластерного 
анализа в том, что он дает возможность производить разбиение объектов не по одному 
признаку, а по ряду признаков. Кроме того, кластерный анализ в отличие от большинства 
математико-статистических методов не накладывает никаких ограничений на вид 
рассматриваемых объектов и позволяет исследовать множество исходных данных 
практически произвольной природы. Так как кластеры – это группы однородности, то 
задача кластерного анализа заключается в том, чтобы на основании признаков объектов 
разбить их множество на m (m – целое) кластеров так, чтобы каждый объект принадлежал 
только одной группе разбиения. При этом объекты, принадлежащие одному кластеру, 
должны быть однородными (сходными), а объекты, принадлежащие разным кластерам, – 
разнородными. Если объекты кластеризации представить как точки в n-мерном 
пространстве признаков (n – количество признаков, характеризующих объекты), то 
сходство между объектами определяется через понятие расстояния между точками, так 
как интуитивно понятно, что чем меньше расстояние между объектами, тем они более 
схожи. 


Достарыңызбен бөлісу:
1   ...   22   23   24   25   26   27   28   29   ...   65




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет