Simpsonov paradoks (Yule-Simpsonov učinek): definicija, primeri in pomen
Simpsonov paradoks je paradoks iz statistike. Imenuje se po Edwardu H. Simpsonu, britanskem statistiku, ki ga je prvi opisal leta 1951. Zelo podoben učinek je leta 1899 opisal statistik Karl Pearson, leta 1903 pa ga je opisal Udny Yule. Včasih ga imenujemo Yule-Simpsonov učinek. Pri pregledu statističnih rezultatov skupin se lahko ti rezultati spremenijo, odvisno od tega, ali se skupine obravnavajo ena za drugo ali pa so združene v večjo skupino. Ta primer se pogosto pojavlja v družboslovju in medicinski statistiki. Ljudi lahko zmoti, če se za razlago vzročno-posledične povezave uporabljajo podatki o pogostosti. Druga imena za ta paradoks vključujejo paradoks preobrata in paradoks združevanja.
Definicija in osnovna razlaga
Simpsonov paradoks nastane, ko se statistični zaključki iz različnih podskupin podatkov združijo in pri združitvi dobimo nasproten zaključek, kot pa ga kažejo posamezne podskupine. Ključno pri tem je, da so porazdelitve opazovanj med skupinami različne (na primer različen delež primerov v posameznih podskupinah) in da obstaja konfounder (skrivna spremenljivka), ki vpliva tako na razporeditev primerov kot na merjeno izidno spremenljivko.
Preprost numeričen primer
Razložimo z enostavnim številčnim primerom, kjer zdravilo A daje boljše rezultate kot zdravilo B v obeh podskupinah, a je pri združitvi obeh podskupin B videti boljše:
- V skupini 1: uspešnost A = 0,60 (n1A = 10 pacientov → 6 uspehov), uspešnost B = 0,50 (n1B = 90 pacientov → 45 uspehov)
- V skupini 2: uspešnost A = 0,40 (n2A = 90 pacientov → 36 uspehov), uspešnost B = 0,30 (n2B = 10 pacientov → 3 uspehi)
Izračun:
- Skupaj za A: (6 + 36) / (10 + 90) = 42 / 100 = 0,42 (42 %)
- Skupaj za B: (45 + 3) / (90 + 10) = 48 / 100 = 0,48 (48 %)
Torej, čeprav je za vsak posamezni podskupini uspešnost zdravila A večja kot pri B (0,60 > 0,50 in 0,40 > 0,30), agregirani podatki kažejo, da je B boljši (0,48 > 0,42). Obrat se zgodi zaradi različne razporeditve pacientov med skupinama za obe terapiji.
Vzrok: konfounderji in porazdelitev vzorcev
Glavni vzrok Simpsonovega paradoksa je prisotnost konfounderja (skrivna spremenljivka), ki vpliva na obe spremenljivki: tako na razporeditev posameznikov med podskupinami kot na izid (npr. resnost bolezni, starost, spol, izbira bolnišnice). Če se tega ne upošteva, lahko združeni podatki ustvarijo zmotne zaključke o povezanosti ali vzročnosti.
Klasični primeri iz prakse
- UC Berkeley (1973): v prvih analizah je združeni izhod pokazal, da so bile ženske manj sprejete kot moški, vendar so po pregledu po oddelkih ugotovili, da nobeden od oddelkov ni diskriminiral; razlika je nastala zaradi tega, da so ženske bistveno pogosteje kandidirale v oddelke z višjimi stopnjami zavrnitve.
- Medicinska statistika (zdravljenje kamnov): primeri, kjer je ena metoda zdravljenja imela višjo skupno stopnjo uspeha, vendar je bila znotraj vsake resnosti bolezni manj uspešna — posledica različne porazdelitve pacientov po resnosti med metodama.
Kako ga zaznati in kako se mu izogniti
- Stratificiranje: vedno preverite rezultate znotraj relevantnih podskupin (npr. glede na resnost bolezni, starostne skupine, bolnišnice).
- Pojasnite in vključite potencialne konfounderje: uporabite statistične metode, kot so standardizacija, Mantel–Haenszelova metoda ali regresijski modeli, ki kontrolirajo za pomembne spremenljivke.
- Preverite interakcije: v regresijskih modelih preverite, ali obstaja interakcija med zdravljenjem in skupino (tj. ali učinek zdravljenja variira po skupinah).
- Uporabite princip vzročnega modeliranja: uporabite diagrame vzročnosti (DAG), metode za identifikacijo vzročnih učinkov (npr. do-klauzula, propensity score) ali naključne kontrole (randomizirane raziskave), kjer je to mogoče.
- Jasno poročanje: vedno poročajte tako združene kot stratificirane rezultate in pojasnite, katere spremenljivke so bile upoštevane pri združevanju.
Pomen za interpretacijo podatkov in odločanje
Simpsonov paradoks opozarja, da se statistični rezultati lahko napačno interpretirajo, če se ignorirajo struktura podatkov in relevantne spremenljivke. V praksi to pomeni:
- Opozorilo za raziskovalce: nepremišljeno združevanje lahko vodi do napačnih zaključkov o učinkih, kar ima lahko resne posledice v medicini, politiki, ekonomiji in upravljanju.
- Opozorilo za odločevalce: pri sprejemanju odločitev na podlagi agregiranih metrik je treba preveriti, ali so ti rezultati skladni z rezultati v ključnih podskupinah.
- V strojni inteligenci in analitiki podatkov: meritve uspešnosti modelov in A/B testi lahko skrivajo neuspehe v podskupinah (problemi pravičnosti, varnosti ali robustnosti).
Zgodovina in poimenovanje
Paradoks je popularno povezan z imenom Edwarda H. Simpsona (1951), vendar so podobne ugotovitve prej omenili Karl Pearson (1899) in Udny Yule (1903). Poimenovanje Yule–Simpsonov učinek prepoznava zgodnje prispevke več avtorjev k tej ideji.
Ključne točke za povzetek
- Simpsonov paradoks je pojav, kjer se smer ali velikost učinka spremeni pri združitvi podskupin v celoto.
- Vzrok je običajno konfounding ali neenakomerna porazdelitev primerov med skupinami.
- Rešitev: stratificiranje, kontrola konfounderjev in vzročno modeliranje; kadar je mogoče, uporabite naključno dodeljevanje.
- Vedno poročajte in interpretirajte rezultate na več nivojih (podskupine in agregati) in jasno navedite, katere spremenljivke so bile upoštevane.
Primer: Zdravljenje ledvičnih kamnov
To je dejanski primer iz medicinske študije, v kateri so primerjali uspešnost dveh načinov zdravljenja ledvičnih kamnov.
V preglednici so prikazane stopnje uspešnosti in število zdravljenj pri zdravljenju majhnih in velikih ledvičnih kamnov, pri čemer zdravljenje A vključuje vse odprte postopke, zdravljenje B pa perkutano nefrolitotomijo:
Obravnava A | Obravnava B | |||
uspeh | neuspeh | uspeh | neuspeh | |
Majhni kamni | Skupina 1 | Skupina 2 | ||
število bolnikov | 81 | 6 | 234 | 36 |
93% | 7% | 87% | 13% | |
Veliki kamni | Skupina 3 | Skupina 4 | ||
število bolnikov | 192 | 71 | 55 | 25 |
73% | 27% | 69% | 31% | |
Obe spletni strani | Skupina 1+3 | Skupina 2+4 | ||
število bolnikov | 273 | 77 | 289 | 61 |
78% | 22% | 83% | 17% |
Paradoksalno je, da je zdravljenje A učinkovitejše, če ga uporabimo pri majhnih kamnih in tudi pri velikih kamnih, vendar je zdravljenje B učinkovitejše, če upoštevamo obe velikosti hkrati. V tem primeru ni bilo znano, da velikost ledvičnega kamna vpliva na rezultat. To se v statistiki imenuje skrita spremenljivka (ali prikrita spremenljivka).
Katero zdravljenje velja za boljše, se določi z neenakostjo med dvema razmerjema (uspehi/skupaj). Obrat neenakosti med razmerjema, ki povzroča Simpsonov paradoks, se zgodi, ker se dva učinka pojavita skupaj:
- Velikosti skupin, ki so združene, če se spremenljivka "lurking" ne upošteva, so zelo različne. Zdravniki težje primere (veliki kamni) praviloma obravnavajo bolje (A), lažje primere (majhni kamni) pa slabše (B). Zato v seštevku prevladujeta skupini tri in dve, ne pa dve veliko manjši skupini ena in štiri.
- Spremenljivka "lurking" ima velik vpliv na razmerja, kar pomeni, da na stopnjo uspešnosti bolj vpliva resnost primera kot izbira zdravljenja. Zato je skupina bolnikov z velikimi kamni, ki uporablja zdravljenje A (tretja skupina), uspešnejša od skupine z majhnimi kamni, čeprav je slednja uporabljala slabše zdravljenje B (druga skupina).