Simpsonov paradoks

Símpsonov paradóks je znan statistični paradoks. Gre za navidezno protislovni pojav, ko so rezultati statistične raziskave na celotni populaciji povsem drugačni, kot pa če se populacijo razdeli na dve skupini (ali več) in se raziskavo opravi na posamičnih skupinah.

Pojav je že leta 1903 odkril Udny Yule, podrobneje pa ga je razisoval Edward H. Simpson s sodelavci leta 1951.

ZglediUredi

Uspešnost moških in ženskUredi

Šola ima dva oddelka (označi se ju A in B). Ob vpisu se na šolo prijavi 510 moških in 510 žensk. Od prijavljenih kandidatov jih sprejmejo samo nekaj – podatke prikazuje naslednja tabela:

moški ženske
oddelek A 500 prijav, 50% sprejetih 10 prijav, 90% sprejetih
oddelek B 10 prijav, 10% sprejetih 500 prijav, 20% sprejetih
skupaj 251/510 sprejetih = 49% 109/510 sprejetih = 21%

Opazi se, da je na oddelku A delež sprejetih med ženskami višji kot med moškimi, enako pa velja tudi za oddelek B. Zanimivo pa je za šolo kot celoto delež sprejetih višji med moškimi.

Ta rezultat je presenetljiv in na prvi pogled protisloven. Ob podrobnejšem pregledu podatkov pa se izkaže, da je bilo na oddelku A pravzaprav število sprejetih žensk zelo majhno (kljub visokemu odstotku); na oddelku B pa je bilo sicer procentualno sprejetih več žensk kot moških, vendar pa je delež sprejetih v celoti zelo nizek. Zato ne sme presenetiti ugotovitev, da je šola kot celota sprejela več moških kot žensk.

Ledvični kamniUredi

Simpsonov paradoks se pogosto sreča tudi v medicinskih statistikah.

Naslednji zgled prikazuje uspešnost zdravljenja ledvičnih kamnov po dveh metodah.

metoda A metoda B
78% (273/350) 83% (289/350)

Metoda B je videti uspešnejša – odstotek uspešnih ozdravljenj je višji kot pri metodi A.

Zdaj pa se odloči, da bodo paciente ločili glede na velikost ledvičnih kamnov. Rezultati za isto populacijo pacientov so zdaj takšni:

metoda A metoda B
majhni kamni 1. skupina
93% (81/87)
2. skupina
87% (234/270)
veliki kamni 3. skupina
73% (192/263)
4. skupina
69% (55/80)
skupaj 78% (273/350) 83% (289/350)

Zdaj pa je videti, da je uspešnejša metoda A, saj se je dobil višji odstotek uspešnosti po metodi A tako za majhne kot tudi za velike ledvične kamne.

Navidezno protislovje izhaja iz dejstva, da zdravniki dejansko uporabljajo metodo A (ki je zahtevnejša in dejansko boljša) zlasti pri težkih primerih velikih kamnov, metodo B (ki je preprostejša) pa pri lažjih primerih bolezni, tj. pri majhnih kamnih. Zato tudi sta v zgornji tabeli prevladujoči skupini 2 in 3, skupini 1 in 4 pa sta bistveno manjši. Ker pa so težki primeri dejanski teže ozdravljivi, jim niti boljša metoda A ne pomaga vedno in zato je v skupnem seštevku metoda A videti manj uspešna.