Statistikas sapistika. |
[Jul. 16th, 2014|06:41 pm] |
Bez īpaša nolūka to darīt, sāku internetos šo un to lasīt par dažādiem uz novērojumiem balstītiem pētījumiem - nu, iz sērijas "cilvēkiem, kuri uzturā lieto baklažānus, ir par 24% lielāka iespēja līdz 20 gadu vecumam stāties nelaimīgā laulībā, salīdzinot ar cilvēkiem, kuri dienā vidēji 20 minūtes pavada stāvot uz galvas" (nosaukums izdomāts, bet gan jau ka nav neiespējami uzmeklēt vajadzīgos datus, lai atrastu kādu sakarību). Galvenā doma - pa lielam šie apgalvojumi ir nepamatoti un, visticamāk, aplami. Ir pieejams raksts, kura ietvaros atrastas 12 publikācijas, kurās klīniskos pētījumos pārbaudīti uz novērojumu statistiskas apstrādes rezultātiem balstīti apgalvojumi - kopskaitā 52. Nevienā no gadījumiem šie apgalvojumi nav apstiprināti. Vēl jo vairāk - 5 gadījumos atrasta apgalvojumiem pilnīgi pretēja statistiski nozīmīga sakarība. Autori gana daudz laika (t.i., teksta) veltī šīs problēmas skaidrojumam, un pamatā tā tiek izskaidrota ar, pirmkārt, nepieciešamību publicēt jebkādus jaunus datus, kas noved pie jebkādu sakarību meklēšanas, un (pilnīgi iespējams, un domājams, ka ļoti bieži - aplama un bezjēdzīga) statistiskā modeļa piemeklēšanas, un otrkārt, ar dažādām pētījumu dizaina kļūdām - netiek ņemti vērā visi nozīmīgie mainīgie, pētāmie objekti tiek grupēti nekorekti, netiek ievākti papildus dati iegūtā modeļa pārbaudei, utml.
Šķiet, ka vismaz daudzu šādu reizēm ziņās atspoguļotu pētījumu secinājumi ir balstīti uz iepriekšminēto "pirmkārt" - veicot lielu skaitu mērījumu, izvēloties lielu skaitu kritēriju pētāmo objektu grupēšanai, un izvēloties lielu skaitu pārbaudāmo apgalvojumu, kaut kāda to visu kombinācija noteikti dos statistiski nozīmīgu sakarību, un salipināt kopā konkrētai datu kopai derīgu, taču reāli bezjēdzīgu modeli ir stipri vienkārši - jo sevišķi mūsdienās, kad datu statistiskā analīze tiek veikta ar datora palīdzību. Līdz ar to, allaž der apgalvojumus, ka X izraisa Y, ja tie nav eksperimentāli pārbaudīti, uztvert kā potenciāli maldīgus. Ja ir bišķītis brīvā laika un interese, eksistē saits, kas ļauj sameklēt sakarības starp daudziem un dažādiem statistikas rādītājiem. Piemēram, laika periodā no 2000. līdz 2009. gadam šķirto laulību īpatsvars Meinas štatā izteikti korelē ar vidējo margarīna patēriņu ASV. Un tādā garā. |
|
|