5 Принципы компьютерной обработки и анализ данных
5.1 Особенности компьютерного анализа данных
В основе обработки и анализа данных лежат математические методы, которые в большинстве своем являются неизменными уже в течение многих десятилетий. Соответственно неизменны и общие принципы и последовательность действий при обработке данных. Однако технология обработки данных меняется, и существенно. В первую очередь это связано с совершенствованием технических средств проведения вычислений (листок бумаги, логарифмическая линейка, калькулятор, компьютер).
Компьютерный анализ медицинских данных предполагает некоторое математическое преобразование данных с помощью определенных программных средств. Необходимо иметь представление, как о математических методах обработки данных, так и о соответствующих программных средствах.
Как уже отмечалось, математические, статистические методы, реально применяемые на практике, за последние 30 лет существенно не изменились. Однако, благодаря использованию компьютеров, значительно расширился круг применяемых методов, и, соответственно, возникла необходимость в овладении основами этих методов медицинскими работниками.
Напротив, соответствующее программное обеспечение за это время изменилось очень сильно. Средства обработки данных появились одновременно с первыми вычислительными машинами - раньше операционных систем, редакторов 1 электронных таблиц. Со сменой поколений ЭВМ и даже чаще менялись поколения программных средств обработки данных, И, если возможности первых ЭВМ по анализу данных не превосходили возможности современных средних калькуляторов, то в 70-е годы появились пакеты, содержащие практически все те математические методы обработки, которые включены и в современные пакеты (88Р, ВМОР и др.). дальнейшее развитие пакетов обработки данных шло по пути совершенствования технологии обработки и анализа данных.).
Таблица 5.1 - Хронология развития пакетов анализа данных
Годы
|
Основные пакеты анализа данных
|
Типы ЭВМ
|
Операционные системы
|
1070 – 1985
|
SSP, BMDP, SAS, SPSS, различные библиотеки
|
EC, CM
|
|
1985 – 1995
|
Statgraphics, STATA, SPSS, SAS, Systat
|
IBM PC
|
DOS
|
1995 – 2000
|
Statgraphics, SPSS, SAS, STATISTICA
|
Pentium
|
Windows
|
5.2 Современная технология анализа данных
Совершенствование технических средств приводит к изменению относительной трудоемкости различных этапов процесса обработки анализа, что также ведет к изменению технологии обработки данных вообще и медицинских, в частности. В те сравнительно недавние времена, когда обработка данных осуществлялась в ручную, самым трудоемким процессом был этап собственно статистических вычислений, расчетов по различным формулам. На этом этапе было сосредоточено внимание специалистов, предлагались различные упрощенные варианты расчетов, более простые методы, специально приспособленные для ручного счета и т. д.
Затем с появлением первых компьютерных пакетов технология основывалась на принципе командной строки и требовала довольно приличных знаний статистики и владения компьютером на уровне программиста.
Далее развитие пошло по пути использования меню и готовых процедур, что резко снизило требования как к знанию статистики, так и к владению компьютером.
И, наконец, в последнее время продолжилось улучшение интерфейса с пользователем, активнее используется графический подход, важное значение приобретает визуализация данных, что еще больше облегчает обработку данных неспециалисту.
В настоящее время, благодаря использованию компьютеров, вы числительный этап стал наимёнее трудоемким. Облегчились и другие этапы обработки данных. На первое место по относительной трудоемкости вышли другие этапы: освоение статистического пакета, этап подготовки данных к анализу, этап предварительного анализа данных и этап интерпретации результатов. Все в целом привело к изменению технологии обработки и анализа данных. При этом для применения основных методов обработки данных от исполнителя требуется лишь выполнение определенных статистических правил и грамотное использование пакета. Врачу не нужно углубляться в сложность математических определений, а следует понять, для чего и как эти методы используются. Реализации такого подхода и будет посвящено дальнейшее изложение.
На практике для врача в настоящее время обработка и анализ данных сводится к решению следующих задач:
1) получение представления об основных статистических методах,
2) освоение пакета,
3) собственно анализ данных.
Если ограничиваться минимальными представлениями о статистических методах (см. п. 2.2), то освоение пакета анализа является одним из наиболее тру4оемких-эТаков обработки данных. -
Собственно анализ данных с использованием статистического пакета (работа с пакетом, собственно технология анализа данных) включает следующие разделы.
1. Планирование исследования
2. Подготовка данных к анализу
3. Предварительный (разведочный) анализ данных
4. Выбор метода анализа и его реализация
5. Интерпретация результатов
6. Представление результатов
Планирование исследования. Наиболее предпочтительным случаем является такой, когда еще до проведения исследования уже существует определенная ясность о предполагаемых к использованию в дальнейшем методах обработки данных. В этом случае обычно удается спланировать исследование с учетом последующей обработки данных и избежать ситуаций, когда оказывается, что какие-то наблюдения были лишними, а каких-то не хватает для реализации выбранных методов анализа.
К сожалению на практике на начальных этапах исследования часто еще нет полной ясности о методах обработки результатов исследований. Поэтому, следует представлять себе наиболее часто используемые методы обработки медицинских данных и требования к исходному материалу, предъявляемые ими. Для первоначального выбора метода обработки может быть использована таблица.
Подготовка данных к анализу — это крайне важный, зачастую недооцениваемый этап работы. Обычно он включает: ввод данных, предварительное преобразование данных, визуализацию данных с целью формирования представления об исследуемом материале. В настоящее время практически отпадает необходимость в предварительных структурировании, построении необходимых выборок, ранжировании и т. д. Все эти задачи в современных пакетах автоматизированы и выполняются непосредственно при реализации выбранного метода анализа. На этом этапе остаются только необходимые преобразования данных и их визуализация, которые тоже существенно облегчены. Важное значение приобретает предварительный анализ данных (или разведочный анализ данных). На этом этапе формируются представления о типе анализируемых данных, когда выясняется структура, определяются зависимости между данными, производится их группировка и, если это не было ясно с самого начала, осуществляется предварительный выбор методов анализа. В простейших случаях обработка данных может ограничиваться этапом предварительного анализа.
Выбор и реализация метода анализа в связи с многообразием методов может оказаться нетривиальной задачей. Однако в современных пакетах введенные данные достаточно просто обработать с использованием различных процедур, а затем можно выбрать метод, дающий наилучшие результаты.
Интерпретация результатов анализа часто вызывает затруднения у исследователей-медиков в связи с ограниченностью знаний в области статистики. Поэтому к этому этапу следует относиться особенно внимательно и, по возможности, быть предельно точными в следовании указаниям руководств. Это же относится и к практическим рекомендациям и выводам, которые делаются на основе результатов статистического анализа.
Представление результатов является одним из важнейших компонентов качества применения статистических методов. Поэтому пол нота и уровень описания, как самого анализа, так и его результатов, наглядность их представления не должны снижать общий уровень выполненной работы, что особенно важно при оформлении диссертаций.
Достарыңызбен бөлісу: |