Требования к базе данных для многомерного статистического анализа. Матрица наблюдений с n строками по числу наблюдавшихся объектов в выборке и (k+l) столбцами по числу наблюдавшихся k входных факторов и l выходных параметров должна содержать только количественные данные в натуральных единицах измерения или баллах.
При отсутствии данных по какому-либо признаку его заменяют средним значением признака для всей выборки, хотя это приводит к искажению исходной информации. Следует также иметь в виду, что некоторые статистические пакеты не рассчитывают корреляционной матрицы в случае, когда число переменных превышает число наблюдений. Надежное решение можно получить, если в матрицах наблюдений число строк n в 3-5 раз превышает число столбцов (k+ l).
Все данные должны быть тщательно проверены: устраняются грубые ошибки, исключаются явно анормальные результаты наблюдения. Выборка должна быть, безусловно, репрезентативной по отношению к исследуемой генеральной совокупности.
В соответствии с целью и задачами исследованияв матрицу необходимо ввести дополнительные столбцы с группированными признаками, например, группированный признак G1 – контрольная группа с кодом 1, опытная группа с кодом 2; группированный признак пола G – мужчины с кодом 1, женщины с кодом 2 и т.п.
Задачи и содержание многомерного корреляционного анализаМногомерный корреляционный анализ проводится для количественной оценки направления, силы и значимости линейной связи между всеми переменными базы данных попарно. Такая связь характеризуется коэффициентом корреляции Пирсона.
В результате решения по опциям Descriptive statistics и Correlation на экран выводятся следующие результаты:
- таблица числовых характеристик переменных;
- корреляционная матрица, содержащая коэффициенты корреляции и уровни их значимости для всех пар переменных.
По таблице числовых характеристик анализируется соответствие распределений каждой переменной нормальному закону.
По корреляционной матрице, представляющей собой квадратную симметричную таблицу с размером (k+l)×(k+l), судят о направлении, силе и значимости корреляционной связи переменных попарно, в особенности о связи входных факторов с выходными параметрами.