И анализ больших данных



Pdf көрінісі
бет62/65
Дата29.12.2023
өлшемі2,33 Mb.
#145048
түріУчебно-методическое пособие
1   ...   57   58   59   60   61   62   63   64   65

разделилась на две группы. Одна группа справилась с большинством легких, а другая с 
большинством трудных заданий теста. 
Лабораторная работа 5 
 
Тема: Практическая работа в статистическом пакете STADIA версия 6.02 
 
Цель: 
рассмотреть принцип работы приложения STADIA версия 6.03 
 
Теоретические сведения 
1. Ввод данных 
Электронная таблица пакета Stadia представляет собой матрицу данных, в которой 
столбцы отвечают переменным, а строки – измерениям значений переменных. Элементы 
таблицы могут содержать как числовые, так и символьные значения, однако последние 
используются только лишь в информационных целях. 
Чтобы ввести или изменить значение в ячейке необходимо: 
сделать эту ячейку активной – щелкнув по ней указателем мыши или используя 
клавиши управления курсором; 
набрать новое значение с клавиатуры и нажать клавишу Enter для перехода к 
следующей позиции. 
Для изменения наименований переменной выделите ее имя щелчком мыши и 
произведите изменение имени в поле редактирования. 


78 
Переход к следующей позиции таблицы осуществляется клавишами перемещения 
курсора, а смена страниц – клавишами PageDown и PageUp. Для быстрого перемещения 
по таблице используются линейки прокрутки внизу и справа экрана, управляемые мышью. 
Удаление числа в текущей позиции производится клавишей Del.
В таблице также можно выделять отдельные фрагменты данных. Для этого 
подведите мышь к верхнему левому фрагменту данных, нажмите левую клавишу и, не 
отпуская ее, ведите мышь к правому нижнему краю фрагмента. Далее выделенный 
фрагмент можно удалить, забрать в буфер или скопировать. 
Для перемещения фрагмента нажмите правую кнопку мыши и, не отпуская ее, 
ведите указатель (он изменит свою привычную форму на стрелку с листком) до нужной 
ячейки. Далее отпустите кнопку мыши и переменная будет вставлена в указанное место.
Максимально возможное количество элементов (чисел) в таблице определяется 
поставленной версией пакета Stadia и может доходить до 20000, а число столбцов – до 
500. 
Операция 
записи 
содержимого 
страницы 
осуществляется 
нажатием 
функциональной клавиши F4. Чтобы очистить содержимое страницы нажмите F5. 
2. Преобразование данных 
Блок преобразования данных содержит обширный набор алгебраических, 
тригонометрических, матричных и других операций, необходимых для преобразования 
исходных данных в электронной таблице к нужному виду (рис. 1). 
Для вызова меню выбора преобразования нужно нажать клавишу F8 или 
выполнить пункт «Преобраз» в верхней экранной линейке команд. 
Операции преобразования разбиты на три группы в зависимости от того
изменяются ли при этом значения одной переменной, нескольких или всех переменных 
(матричные операции).
Операции над одной переменной 
Операции над одной переменной производятся над данными в текущей ячейке 
(там, где находится указатель мыши). Результат преобразования записывается в ту же 
самую переменную.
Рисунок 34 - Меню выбора преобразования 


79 
Выполнение данного пункта приводит к появлению меню выбора стандартных 
операций. Данное меню содержит также поля для ввода значений двух параметров a и b.
Задание 1. Найти логарифм 120. Ответ: 2,0791812 
Задание 2. Возвести 82 в степень 3. Ответ: 551368
функции, задаваемые по вводимой формуле 
Пункт «Задаваемая функция» приводит к появлению типового бланка формул 
(рисунок 35), в который необходимо ввести новую формулу преобразований или же 
выбрать одну из имеющихся и нажать Enter. 
Рисунок 35 - Меню задаваемых функций 
Рисунок 36 - Меню генератора чисел 
Задание 3. Найти произведение 64 и 15. Ответ: 960 
генератор чисел 


80 
Выполнение данного пункта приводит к появлению меню выбора типа генератора 
(рисунок 36).
В этом меню предоставляется выбор из следующих возможностей: 
1. генерация чисел по закону арифметической прогрессии (возрастающей или 
убывающей) a+b*i, i=0,n-1; 
2. генерация чисел по задаваемой формуле от аргумента X, где Х изменяет свои 
значения по арифметической прогрессии а+b*i, i=0,n-l, 
3. генераторы случайных чисел, распределенных по следующим законам: 
- по равномерному закону в диапазоне от a до b; 
- по нормальному закону со средним значением a и стандартным отклонением b; 
- по другим законам распределения. 
В верхнем поле ввода бланка необходимо предварительно указать количество п 
генерируемых чисел, а в двух нижних полях ввести значения параметров а, b, если они 
нужны для выбираемого генератора. 
Задание 4. Сгенерировать цепочку из 10 чисел от 0 до 1 по арифметической 
прогрессии, по равномерному и нормальному закону распределения сгенерировать 
цепочку чисел из 20 элементов от 1 до 25. 
Операции над несколькими переменными 
Кодирование значений 
Операция кодирования означает замену значений выбранных переменных 
некоторым кодом, которым может быть как число, так и символьное обозначение (слово, 
текст). Такая замена производится только для тех значений переменных, которые 
удовлетворяют вводимому логическому условию. 
Перед выполнением этой операции в меню преобразований, расположенном 
справа от кнопки кодирования, необходимо ввести код, а после нажатия на кнопку 
«Кодирование» – указать подлежащие выборке переменные. После этого появляется 
типовой бланк формул, в который надо ввести логическое условие или же выбрать одно 
из имеющихся и нажать Enter. В качестве переменных в формулах условий можно 
использовать не только наименования переменных из электронной таблицы, но и 
обозначения x[i]. 
Задание 5. В сгенерированной цепочке из 10 значений по арифметической 
прогрессии заменить все значения большие 6 на 1. 
2. Нормировка значений выбранных переменных в электронной таблице может 
производиться двумя способами: 
- по диапазону значений. Из каждого значения переменной вычитается 
минимальное значение и результат делится на диапазон значений (разность между 
максимальным и минимальным значениями). При этом все значения становятся 
положительными и меньше единицы; 
- по стандартному отклонению (нормализация или стандартизация). Из каждого 
значения переменной вычитается среднее значение и делится на стандартное отклонение 
данной переменной (полученные значения центрированы нулем). 
После выбора операции нормировки в окне необходимо указать подлежащие 
нормировке переменные.
3. Ранжирование осуществляет замену числовых значений выбранных переменных 
на их ранги, то есть на целые числа, являющиеся порядковыми номерами этих значений в 
соответствии с их величиной по возрастанию. Совпадающие значения заменяются 
средними рангами, которые могут принимать дробные значения.
4. Сортировка позволяет переупорядочить выборку из электронной таблицы по 
возрастанию значений сортирующих переменных. 
При выполнении этой операции появляется специальный экранный бланк, который 
включает следующие элементы: список переменных таблицы; список сортирующих 
переменных; список сортируемых переменных; кнопки переноса переменных из одного 


81 
списка в другой и обратно; кнопку выбора всех переменных в качестве сортируемых; 
фонарики режима сортировки: по возрастанию значений сортирующих переменных или 
по убыванию этих значений.
Задание 6. Отранжируйте цепочку из 20 элементов от 1 до 25, построенную по 
равномерному распределению и отсортируйте ее по убыванию значений. 
5. Отбор позволяет оставлять в электронной таблице только те измерения 
указанных переменных, которые удовлетворяют вводимому логическому условию.
Задание 7. Отберите в цепочке из 20 элементов, построенной с помощью 
генератора чисел по нормальному закону распределения, все значения >5. 
6. Выборка. При выполнении статистического анализа часто возникает следующая 
задача: имеется достаточно объемная выборка, то есть измеренные значения некоторой 
переменной. Однако исследователь не уверен, что эти значения получены достаточно 
случайным образом в ходе корректно организованных измерений. В таких случаях для 
повышения статистической точности полезно для анализа из такой выборки отобрать 
случайным образом некоторое подмножество значений (получить подвыборку). 
Перед выполнением этой операции в меню преобразований необходимо в 
расположенное справа поле ввести число отбираемых случайным образом измерений 
(размер подвыборки), а после нажатия на кнопку «Выборка» - указать подлежащие 
выборке переменные. 
Матричные операции (операции над всеми переменными) 
Эти операции производятся над всем содержимым электронной таблицы.
1. Транспонирование. В результате транспонирования матрицы данных в 
электронной таблице строки становятся столбцами, а столбцы — строками. 
Задание 8. Транспонировать следующую матрицу: 
х1 х2 х3 
2 3 
1 2 4 
1 2 5 
Анализ пропущенных значений. 
Даже в прекрасно организованных и проведенных экспериментах некоторые 
наблюдения могут быть зарегистрированы неверно или не зарегистрированы совсем. 
Например, экспериментальное животное может умереть, пациент — не придти на 
назначенный прием, очередной препарат - оказаться испорченным, а регистрирующий 
прибор — отказать. 
Замена пропущенных значений может быть произведена двумя возможными 
методами: замена каждого пропущенного значения средним значением, вычисленным для 
соответствующей переменной или замена регрессионными значениями. 
Второй метод обеспечивает более корректную и дифференцированную замену. В 
соответствии с этим методом для каждой анализируемой переменной, содержащей 
пропущенные значения выбирается парная переменная по условию максимума 
коэффициента корреляции. Затем по парной переменной вычисляется линейная регрессия. 
Все пропущенные значения заменяются регрессионными. Однако если парная переменная 
также содержит пропущенное значение, то замена производится по методу средних. 
Ввод пропущенных значений в электронную таблицу производится посредством 
набора любого нечислового значения.
При выполнении данной операции в экранную страницу результатов [Rez] 
выдается таблица пропущенных значений. По этой таблице можно визуально оценить 
характер распределения пропущенных элементов в матрице данных.
Задание 9. Ввести следующую матрицу: 
x1 
x2 
x3 
x4 

44 
-2 


48 




82 

51 




44 
-5 

35 



33 



32 

-3 

-1 


Произвести замену пропущенных значений (m) по методу средних и по методу 
регрессии, сравнить полученные результаты.
Ответ: 
Метод средних 

44 
-2 

4.8333333 
48 
7.5 


51 



34.571429 
44 
-5 
4.8333333 
35 
7.5 


33 



32 

-3 

-1 


Метод регрессии 

44 
-2 

2.1196388 48 
-0.0214695 


51 



6.53 
44 
-5 
3.7890645 
35 
0.1562574 


33 
2
1.6703157 

32 

-3 
80 

3. Визуализация данных (графические возможности) 
Пакет STADIA имеет все современные и необходимые возможности доступного 
отображения графической информации. 
Использование средств графического представления в системе STADIA возможно 
для: 
а) исходных данных (рисунок 37); 
б) результатов анализа. 
Построение графиков данных производится по нажатию клавиши F6 (или 
соответствующего пункта из верхней командной строки), а построение графика 
результатов анализа — при выполнении конкретного статистического метода. В обоих 
случаях график выдается в отдельную экранную страницу. 
При активизации экранной страницы с графиком в третьей инструментальной 
линейке экрана появляется ряд дополнительных кнопок общего назначения, посредством 
которых можно модифицировать уже построенный график (рисунок 38): 


83 
Рисунок 37 - Меню выбора типа графика данных 
Рисунок 38 - Дополнительное меню для графиков 
1. кнопка сохранения данных с графика в электронную таблицу 
2. кнопка изменения толщины линий на графике (действует не на все типы 
графиков); 
3. кнопка переключения: цветное/черно-белое изображение (полезно 
использовать перед выводом графика на принтер); 
4. кнопка добавления подрисуночных надписей и легенд; 
5. кнопка добавления/снятия координатной сетки; 
Наряду с этим, отдельно для категорий научной графики и деловой графики 
контекстно появляются еще и дополнительные инструментальные кнопки: 
6. кнопка изменения формы графика имеет четыре состояния, циклически 
изменяемые при каждом нажатии: 
— график в виде линий; 
— график в виде линий с маркерами точек; 
— график в виде маркированных точек; 
— график в виде столбиков; 
7. кнопка номера зависимости Y=f(X) устанавливает одну из нескольких 
экспонируемых на графике зависимостей в качестве активной.
Доступные в пакете графические формы разбиты на 4 группы: научная графика, 
деловая графика, многомерная графика и сплайны. 
Научная графика 
включает преимущественно наиболее употребительные в научных и инженерных 
исследованиях формы двухмерных графиков: 
1) функциональный график (рисунок 38) отображает одну или несколько 
экспериментальных или теоретических зависимостей вида Y=f(X), представленных 
множеством пар значений переменных X,Y. В бланке выбора переменной можно указать 
и одну переменную, тогда по оси абсцисс будут расположены порядковые номера. 
2) график с отклонениями, аналогичен функциональному, но в нем каждое 
значение Y интерпретируется, как некоторое среднее значение, и для него еще 


84 
указывается третья переменная dY, представляющая собой интервал ошибки или 
стандартное отклонение значений; 
3) в диаграмме рассеяния данные интерпретируются как множество пар значений 
X,Y, каждая из которых представляет координаты некоторой точки в двумерном 
пространстве; 
4) график распределения выборочных значений представляет изображение одной 
или нескольких выборок (переменных) в порядке возрастания их значений; 
5) ящики с усами являются модификацией получившего распространение способа 
компактного совместного изображения многих выборок с указанием их средних значений 
и стандартных отклонений. 
Рисунок 39 - Функциональный график в форме изображения: линиями, точками 
(диаграмма рассеяния) и столбиками (столбиковая диаграмма) 
Деловая графика 
Данный раздел объединяет наиболее употребительные формы изображения данных 
гуманитарного и экономического характера, представленных в виде матрицы со 
значениями нескольких переменных (столбцы), измеренных у ряда объектов (строки). Из 
меню деловая графика можно выбрать следующие типы диаграмм: 
1. столбиковая диаграмма обеспечивает последовательное линейное расположение 
значений переменных в виде столбиков; 
2. диаграмма-башня изображает значения переменных для каждого объекта одно 
над другим в виде башни; 
3. 100% -я башня представляет вариант диаграммы—башни, у которой каждая 
вертикальная колонка (значения переменных объекта) нормирована на 100%; такая 
диаграмма позволяет увидеть процентные сопоставимости каждой переменной у разных 
объектов; 
4. круговая диаграмма изображает значения некоторой переменной у разных 
объектов в виде секторов круга. 
Многомерная графика 
объединяет следующие формы представления многомерных данных: 
1. диаграмма рассеяния изображает множество триад значений X,Y,Z, в виде точек 
в трехмерном пространстве
2. поверхность представляет изображение поверхности в трехмерном| 
пространстве, заданной алгебраической формулой.
3. поверхность сглаживания представляет изображение поверхности в трехмерном 
пространстве, сглаживающую множество точек, заданных координатами X,Y,Z; 
4. картирование аналогично сглаживанию, но результат представляется в виде 
двумерной карты, на которой высоты сглаживающей поверхности представлены в 
цветной или черно-белой тональной шкале, приведенной справа от карты; 
5. супердиаграмма предназначена для визуализации многомерных данных (более 
трех измерений). Супердиаграмма – это динамичное четырехмерное изображение 
(суперкуб), представляющий срез многомерного пространства. 


85 
Задание 10. Произвести сглаживание следующего распределения точек: 





20 


100 


100 


200 


20


150 


50


20 
Рисунок 40 – Сглаживание точек 
Сплайны можно отнести к специальному разделу научной графики, где 
промежутки между экспериментальными точками сглаживаются/интерполируются 
посредством специальных кривых — сплайнов: 
1. сплайн-интерполяция обеспечивает прохождение сплайнов непосредственно 
через заданные точки; 
2. сплайн-сглаживание обеспечивает прохождение сплайнов на некотором 
удалении от заданных точек с меньшими колебаниями. 
Для графика сплайн-сглаживания в соседнем поле ввода дополнительно 
необходимо указать значение коэффициента сглаживания. Этот коэффициент указывает 
среднее расстояние, на которое сглаживающий сплайн будет отстоять от заданных точек. 
Чем ближе этот коэффициент к нулю, тем ближе к экспериментальным точкам будет 
проходить сплайн.
После нажатия клавиши сплайн-графика в бланке переменных необходимо выбрать 
две переменные из электронной таблицы в качестве X и Y. В бланке выбора можно 
указать и одну переменную Y, тогда по оси абсцисс будут расположены порядковые 
числа. 
4. Статистический анализ 
Блок статистического анализа в пакете Stadia 6.0 содержит набор процедур, 
реализующих широко применяемые методы анализа данных и представления результатов.
Чтобы 
провести 
статистический 
анализ 
необходимо 
выполнить 
ряд 
последовательных шагов: 
1. Ввести данные в электронную таблицу (пункт 1. Ввод данных). Обрабатываемые 
данные должны соответствовать выбранному методу анализа. 
2. Вызвать меню статистических методов (рисунок 41) нажатием клавиши F9. В 
этом меню нажмите на кнопку нужного метода. 


86 
Рисунок 41 - Меню выбора статистического метода 
3. Далее появляется блок выбора переменных, в котором надо определить 
подлежащие анализу переменные. Далее протекает диалог, характерный для выбранного 
Вами метода. 
4. Выдача числовых результатов и их интерпретация их происходит в экранной 
странице [Rez]. Результаты анализа можно перенести в электронную таблицу через буфер 
обмена.
При проверке статистических гипотез STADIA выводит на экран вычисленное зна-
чение уровня значимости Р и сообщение-подсказку о возможности принятия или неприня-
тия нулевой гипотезы по условию Р>0.05. (критический уровень 0.05 может быть изменен 
при настройке). 
STADIA выводит не только вычисленное значение уровня значимости Р, но и 
значение статистики критерия Т, а также значения специальных параметров 
распределения (обычно называемых числом степеней свободы). 
5. Результаты статистического анализа в виде графика появляются на экранной 
странице [Gri], i=1,8.
1 Параметрические критерии 
В группу параметрических процедур входят методы для вычисления описательных 
статистик, построения графиков на нормальность распределения, проверка гипотез о 
принадлежности двух выборок одной совокупности. Эти методы основываются на 
предположении о том, что распределение выборок подчиняется нормальному 
(гауссовому) закону распределения. 
Описательная статистика 
Данная процедура вычисляет общеупотребительные выборочные характеристики 
распределения. Размер выборки для данного метода должен быть больше 4 и меньше 100 
(Demo-версия). После запуска процедуры в типовом бланке необходимо выбрать для 
анализа одну, несколько или все переменные из электронной таблицы. Результатом 
выполнения будет выдача на экран следующих основных характеристик (рисунок 42):
Далее по подтверждению может быть выдана дополнительная статистика (рисунок 
42): 


87 
медиана, квартили, размах доверительного интервала, границы доверительного 
интервала для дисперсии, ошибка стандартного отклонения
коэффициенты асимметрии и эксцесса с уровнями значимости Р. Нулевая гипотеза 
определена как отсутствие различий данного распределения от нормального 
распределения по каждому из коэффициентов. Если Р>0,05 – нулевая гипотеза может 
быть принята. 
Рисунок 42 - Результат вычисления показателей описательной статистики 
Задание 11. Вычислить показатели описательной статистики и сделать выводы о 
нормальности данных распределений. 
х1 









491 
х2 
49 
51 
49 
51 
49 
51 
49 
51 
49 
51 
Гистограмма и проверка на нормальность 
Задание 12. Вычислить гистограмму и проверить выборку на нормальность для 
переменной х1 с построением результирующего графика 
51
73 
55 
40 
58 
48 
58 
69 
61
33 
Для выполнения данного задания необходимо ввести данные в таблицу и запустить 
процедуру 2=Гистограмма/нормальность в окне выбора Статистических методов. Далее 
выбрать переменную для анализа данных (х1) и нажать кнопку Утвердить.
Затем в бланке Гистограмма указать число интервалов и область определения 
гистограммы. В качестве числа интервалов программа Stadia показывает значение, 
вычисленное по формуле 
))
(
log
3
.
3
5
.
1
int(
10
N


. Область определения (левая граница 
и правая граница) равна диапазону значений. Если возникнет необходимость можно 
вручную с клавиатуры изменить число интервалов и область определения. 
После нажатия на кнопку Утвердить для каждого интервала на экран выводятся 
следующие значения (рисунок 43): левая граница интервала в исходных единицах и в 
единицах стандартного отклонения; число выборочных значений, попавших в интервал (в 
числовом и процентном выражении); накопленное число выборочных значений до 
текущего интервала включительно (в числовом и процентном выражении).
Затем проводится проверка нулевой гипотезы об отсутствии различий между 
выборочным и нормальным распределениями и выдача трех различных статистик: 
Колмогорова с уровнем значимости Р; 
Омега-квадрат с уровнем значимости Р; 
Хи-квадрат с уровнем значимости Р. 
При Р>0,05 нулевая гипотеза может быть принята. 


88 
Рисунок 43 - Гистограмма распределения и кривая нормального распределения 
9. Результаты выполнения задания 12 
Линейная корреляция 
Коэффициент корреляции определяет степень, тесноту линейной связи между 
величинами и может принимать значения от –1 до +1 — в зависимости от тесноты и 
характера связи между данными СВ. 
Задание 13. Вычислить значение коэффициента корреляции.
х1 
51
73 
55 
40 
58 
48 
58 
69 
61
33 
х2 
66 
69 
67 
58 
87 
54 
91 
95 
88 
55 
После запуска процедуры 3=Корреляция в окне выбора Статистических методов 
нужно выбрать для анализа несколько переменных из электронной таблицы и нажать 
кнопку Утвердить.
Процедура вычисляет (рисунок 44): 
коэффициент корреляции Пирсона
статистику Стьюдента с n-2 степенями свободы 
уровень значимости Р нулевой гипотезы; 
число степеней свободы. 
Рисунок 44 - Выдача результатов по заданию 13 
Задание 14. Вычислить значение коэффициента корреляции для данных 
тестирования из лабораторной работы №4: 


89 
Рисунок 45 – Результаты тестирования 
После запуска процедуры 3=Корреляция в окне выбора Статистических методов 
нужно выбрать для анализа ВСЕ переменные из электронной таблицы и нажать кнопку 
Утвердить. В окне электронный таблицы появятся результаты подсчета значений 
коэффициента корреляции между результатами по отдельным заданиям теста. (рисунок 
46)
Рисунок 46 - Матрица коэффициентов корреляции задания 14 
Анализ значений коэффициента корреляции позволяет выделить третье и восьмое 
задание теста, так как они отрицательно коррелируют с другими заданиями. 
Отрицательные значения коэффициента указывают на определенный просчет 
разработчиков в содержании этих заданий теста. 
Критерий Стьюдента и Фишера 
Критерий Фишера для двух выборок проверяет нулевую гипотезу о равенстве 
дисперсий двух выборок, а критерий Стьюдента – гипотезу о равенстве выборочных 
средних. 
Задание 15. В двух группах учащихся — экспериментальной и контрольной — 
получены следующие результаты по учебному предмету.
Требуется выявить различия этих двух методов по критерию Стьюдента и Фишера. 
После ввода исходных данных и запуска процедуры анализа в типовом бланке 
4=Стьюдента и Фишера в окне выбора Статистических методов нужно выбрать для 
анализа две переменные (х1, х2). Результатом выполнения процедуры будет выдача на 
экран в окне Rez значения следующих статистик (рисунок 47): 


90 
статистика Фишера F; 
статистика Стьюдента Т (в зависимости от результатов сравнения дисперсий 
применяются различные формулы вычисления статистики); 
в случае равенства размеров выборок выдается также статистика Стьюдента, 
применимая для парных переменных. 
Рисунок 47 - Выдача результатов по заданию 15 
Задание 16. Проверить эффективность проведенной работы по формированию 
ориентации на художественно-эстетические ценности до начала эксперимента и после: 
Рисунок 48 - Выдача результатов по заданию 16 


Достарыңызбен бөлісу:
1   ...   57   58   59   60   61   62   63   64   65




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет