V statistiki in teoriji verjetnosti korelacija pomeni, kako tesno sta povezana dva niza podatkov. Korelacija meri usmerjenost in jakost zveze med spremenljivkama, vendar sama po sebi še ne pove nič o vzročnosti.

Definicija in osnovne lastnosti

Korelacija opisuje, ali se spremembe v eni spremenljivki ujemajo s spremembami v drugi spremenljivki in v katero smer. Glavne lastnosti korelacijskega koeficienta (npr. Pearsonovega r) so:

  • vrednost je običajno med -1 in +1;
  • +1 pomeni popolno pozitivno linearno zvezo (oba naraščata skupaj);
  • -1 pomeni popolno negativno linearno zvezo (ena narašča, druga pada);
  • 0 pomeni, da ni linearne zveze — lahko pa obstaja ne-linerna zveza.

Smeri in moč korelacije

Smer korelacije je določena s predznakom koeficienta (+ ali -). Moč korelacije opisuje, kako tesna je zveza: majhna, zmerna ali močna. Pogoste omejne smernice za Pearsonov r (Cohenove smernice) so približno:

  • |r| ≈ 0.1: majhen učinek;
  • |r| ≈ 0.3: zmeren;
  • |r| ≥ 0.5: velik (močan) učinek.

Te meje so zgolj smernice — njihovo smiselnost je odvisna od konteksta in raziskovalnega področja.

Merila povezanosti (pogosti koeficienti)

Za različne vrste podatkov in razmer se uporabljajo različna merila:

  • Pearsonov korelacijski koeficient (r) — meri linearno zvezo med dvema količinskima (intervalnima/razmerjnimi) spremenljivkama. Primer izračuna: r = Σ(xi - x̄)(yi - ȳ) / sqrt[Σ(xi - x̄)² Σ(yi - ȳ)²]. Predpostavlja linearnost, normalnost in občutljiv je na odmaknjene vrednosti (outlierje).
  • Spearmanov rang koeficient (ρ) — neparametrično merilo, ki temelji na rangih. Uporaben za monotone (ne nujno linearne) povezave ali kadar podatki niso normalno porazdeljeni.
  • Kendallov tau — še eno rangovno merilo, robustno in uporabno pri majhnih vzorcih ali številnih vezanih rangih.
  • Phi koeficient — za dve binarni (dvočleni) spremenljivki.
  • Cramér's V — za nominalne spremenljivke z več kot dvema kategorijama (na primer križna tabela).
  • Point-biserial — za povezavo med eno binarno in eno količinsko spremenljivko.
  • Polychorični/Polyserial koeficienti — za predpostavko latentne neprekinjene spremenljivke, ki se meri z ordinalnimi kategorijami.
  • Delna korelacija — meri zvezo med dvema spremenljivkama ob kontroliranju učinka ene ali več drugih spremenljivk.
  • Avtokorelacija in križna korelacija — uporabljeni pri časovnih vrstah za merjenje povezanosti iste spremenljivke (z zamikom) ali med dvema časovnima vrstama.

Interpretacija in statistično testiranje

Poleg vrednosti korelacijskega koeficienta je pomembno poročanje o:

  • velikosti vzorca (n) — majhni vzorci lahko dajejo nezanesljive ocene;
  • statistični značilnosti (p-vrednost) — pri Pearsonovem r se pogosto uporablja t-test z df = n - 2, vendar p-vrednosti niso vse, kar šteje;
  • intervalih zaupanja — pri oceni korelacije je priporočljivo navesti 95% interval zaupanja (Fisher-jeva z-transformacija je pogosto uporabljena za izračun CI).

Pomembno: korelacija ni vzročnost. Dva spremenljivka lahko korigirata zaradi tretjega dejavnika (konfounded), naključja ali sezonskih vzorcev. Primer: povezanost med prodajo sladoleda in številom utopitev je posledica skupnega dejavnika — temperature (poletje).

Predpostavke, pasti in kako se jim izogniti

  • Outlierji lahko močno vplivajo na Pearsonov r — preverite grafično razporeditev podatkov;
  • Ne-linearnost — močna nelinearna zveza lahko daje r blizu 0; v takih primerih uporabite graf ali transformacijo (npr. log), ali neparametrične koeficiente;
  • Heteroskedastičnost (spremenljiva varianca) lahko ogrozi interpretacijo in statistično testiranje;
  • Omejen razpon vrednosti (range restriction) znižuje opaženo korelacijo;
  • Mere napake in nezanesljive meritve slabšajo opazovan r.

Vizualizacija in praktični nasveti

Vedno si oglejte podatke grafično. Na primer:

  • na grafu razpršitve (scatterplot) narišite točke in črto najbolje prilegajoče se regresije, da vidite smer in morebitne odstopajoče točke;
  • uporabite matriko korelacij in heatmap za več spremenljivk hkrati;
  • poročajte korelacijo skupaj z n, p-vrednostjo in intervalom zaupanja;
  • če obstaja sum na zamisljen vzrok, razmislite o načinu zbiranja podatkov (eksperimentalni dizajn, kontrola spremenljivk) ali o metodah za oceno vzročnosti (npr. regresija s kontrolami, instrumentalne spremenljivke).

Kratek primer

Če merimo višino in težo skupine ljudi, bomo običajno dobili pozitivno korelacijo (višji ljudje imajo pogosto večjo težo). Pearsonov r bi lahko bil npr. približno 0.6 — to pomeni zmerno do močno pozitivno linearno zvezo. Kljub temu ta korelacija ne pomeni, da višina povzroča težo ali obratno — gre za opis statistične zveze.

Za pravilno uporabo korelacij: preverite predpostavke, poročajte dodatne informacije (n, p, CI), in vedno prikažite podatke grafično — to prepreči napačne zaključke in razkrije skrite vzorce.