Бірнеше тестілеу Жоғарыда айтқанымыздай, статистикада «Деректерді ұзақ қинасаң, ерте ме, кеш пе мойындайды» деген сөз бар. Бұл дегеніміз, егер сіз деректерді өте көп санды әртүрлі көзқарастардан қарасаңыз және тым көп сұрақтар қойсаңыз, сіз статистикалық маңызды әсер табасыз.
Негізгі терминдер 1-ші қателік (1-ші қате) эффект статистикалық маңызды деген қате тұжырым. Жалған ашу коэффициенті (false discovery rate) бірнеше тестілеу нәтижесінде 1-ші қатені жасау үлесі. P-мәндерін түзету (p-мәндерін түзету) бір деректер бойынша бірнеше тестілеуді орындау кезінде мәнді нақтылау. Қайта орнату (overfitting) шуға сәйкес келеді. Мысалы, егер 20 болжамды айнымалылар және бір алынған pe - белдік болса және олардың барлығы кездейсоқ түрде жасалса, онда α-деңгейінде 0,05-ке тең 20 маңыздылық тексерулерінің сериясын орындау арқылы кем дегенде бір болжаушының (жалған түрде) статистикалық маңызды болып шығуының жеткілікті жақсы мүмкіндігі бар. Бұрын талқыланғандай, бұл жағдай 1 - ші қателік деп аталады. Бұл ықтималдылықты алдымен барлық айнымалылардың 0,05 деңгейінде маңыздылығын дұрыс көрсете отырып, тексеруден өту ықтималдығын табу арқылы есептеуге болады. Айнымалылардың біреуінің маңыздылығын дұрыс көрсету арқылы тексеруден өту ықтималдығы 0,95, сондықтан барлық 20 болжаушының маңыздылығын дұрыс көрсету арқылы тексеруден өту ықтималдығы 0,95 0,95 0,95 болады... ×× немесе 20 0,95 0,36 = 1. Кем дегенде бір болжаушының (жалған) маңыздылығын көрсету ықтималдығы осы ықтималдыққа кері немесе 1 – (барлығының шамалы болу ықтималдығы) = 0,64. Бұл сұрақ деректерді терең талдаудағы немесе "модельді шуға сәйкестендірудегі" қайта құру мәселесімен байланысты. Неғұрлым көп айнымалыларды қоссаңыз немесе көбірек модельдер жасасаңыз, соғұрлым таза кездейсоқтықпен "мағыналы - менікі" ретінде көрінетін нәрсе пайда болады. Мұғаліммен оқыту тапсырмаларында модельдер бұрын көрмеген мәліметтерге диагноз қойылған кешіктірілген деректерді бақылау жиынтығы бұл тәуекелді азайтады. Белгіленген бақылау жиынтығымен ұштаспайтын статистикалық және машиналық оқыту міндеттерінде статистикалық шуға негізделген қорытындыларға келу қаупі сақталады.
Статистикада бұл мәселені өте нақты жағдайларда жеңуге арналған бірнеше процедуралар бар. Мысалы, көптеген бақылау топтарындағы нәтижелерді салыстыру кезінде көптеген сандық сұрақтар қоюға болады. Сонымен, A-C нұсқалары үшін сұрауға болады:
A B-ден өзгеше ме?
B С-дан өзгеше ме?
А С-дан өзгеше ме?
Немесе клиникалық сынақта сіз терапия нәтижелерін бірнеше сатыда көргіңіз келуі мүмкін. Әр жағдайда сіз көптеген сұрақтар қоясыз және әр сұраққа сіз кездейсоқтыққа алданып қалу мүмкіндігін арттырасыз. Бірақ бұл алдауды статистикадағы түзету процедуралары арқылы өтеуге болады, гипотезаны бір рет тексеру үшін белгіленгеннен гөрі статистикалық маңыздылыққа қатаң жолақ орнатылады. Мұндай түзету процедуралары, әдетте, тексерулер санына сәйкес "α-деңгейді бөлумен" байланысты. Бұл әдіс әрбір тексеру үшін α-деңгейінің төмендеуіне әкеледі (яғни статистикалық маңыздылық үшін қатаң жолақ). Осындай процедуралардың бірі, Бонферрониді түзету, жай ғана α-ны бақылаулар санына бөледі n. дегенмен, бірнеше салыстыру мәселесі осы жоғары құрылымдалған жағдайлардан асып түседі және деректерді қорлау туралы мәлімдеме тудырған деректерді бірнеше рет "тарау" құбылысымен байланысты. Басқаша айтқанда, егер сізде жеткілікті күрделі деректер болса және олардан қызықты ештеңе таппасаңыз, онда сіз оларға ұзақ және мұқият қарамадыңыз. Бүгінгі күні бұрынғыдан да көп деректер қол жетімді. Сонымен, 2002 және 2010 жылдар аралығында жарияланған журнал мақалаларының саны екі есеге жуық өсті. Біз деректерде қызықты нәрсені, соның ішінде көптік сұрақтарын табуға көптеген мүмкіндіктер аламыз, атап айтқанда:
барлық топтар бойынша көптеген жұптық айырмашылықтарды салыстыру;
көптеген кіші топтардың нәтижелерін қарастыру ("тұтастай алғанда, біз опция шарттарының маңызды әсерін таппадық, бірақ үйленбеген әйелдерге 30 - дан кіші әсер таптық");
әр түрлі сұрақтардың көп санын қою (яғни әр түрлі мүмкін нәтижелерді алу).
Бірқатар себептерге байланысты, әсіресе жалпы "көптік" мәселесін қоса алғанда, ең жақсы зерттеу міндетті түрде жақсы зерттеуді білдірмейді. Мысалы, Bayer фармацевтикалық компаниясы 2011 жылы 67 ғылыми зерттеулерді қайталауға тырысқанда, олардың тек 14-ін толығымен қайталай алатынын анықтады. 2/3 бөлігін мүлдем қайталау мүмкін болмады. Қалай болғанда да, егжей-тегжейлі анықталған және құрылымдалған статистикалық тексерулерге арналған түзету процедуралары деректерді талдаушылар арасында кеңінен қолдану үшін тым нақты және икемсіз. Құрғақ қалдықтағы көптікке қатысты деректер талдаушылары үшін келесілер болады:
болжалды модельдеу жағдайында айқын тиімділігі негізінен кездейсоқ мүмкіндіктің өнімі болып табылатын иллюзиялық модельді алу қаупі кросс-тексеру арқылы азаяды (бөлімді қараңыз. 4 - тараудың" қайта тексеру") және кейінге қалдырылған деректермен бақылау үлгісін пайдалану;
модельді тексеру үшін белгіленген бақылау жиынтығы жоқ басқа процедураларға келетін болсақ, сену керек:
деректерді неғұрлым көп сұрасаңыз және оны басқарсаңыз, жағдайдың пайда болу мүмкіндігі соғұрлым жоғары болатынын түсіну;
кездейсоқ эталондарды (эталондарды) қамтамасыз ету үшін қайта іріктеу мен модельдеуге байланысты эвристика.