V matematiki in statistiki je Spearmanov koeficient korelacije merilo korelacije, poimenovano po njegovem avtorju Charlesu Spearmanu. Na kratko se zapiše kot grška črka rho ( ρ {\displaystyle \rho }{\displaystyle \rho } ) ali včasih kot r s {\displaystyle r_{s}}. {\displaystyle r_{s}}. To je število, ki kaže, kako tesno sta povezana dva niza podatkov. Uporablja se lahko samo za podatke, ki jih je mogoče razvrstiti po vrstnem redu, na primer od najvišjega do najnižjega.

Splošna formula za r s {\displaystyle r_{s}}{\displaystyle r_{s}} je ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

Če imate na primer podatke o tem, kako dragi so različni računalniki, in podatke o tem, kako hitri so računalniki, lahko s pomočjo r s {\displaystyle r_{s}} ugotovite, ali so računalniki povezani in kako tesno so povezani. {\displaystyle r_{s}}.

Kaj pomeni rezultat

Spearmanov koeficient meri moč in smer monotone povezave med dvema spremenljivkama. Njegove osnovne lastnosti:

  • Vrednost je med -1 in +1.
  • ρ = +1: popolna rastoča (monotona) povezava – večja vrednost prve spremenljivke pomeni vedno večjo vrednost druge.
  • ρ = -1: popolna padajoča (monotona) povezava.
  • ρ ≈ 0: ni monotone povezave (lahko pa obstaja nelinearna, ne-monotona zveza).

Razlaga formule in koraki izračuna

Osnovna formula (ohranjena v zgornjem delu) je:

ρ = 1 − (6 Σ d²) / (n (n² − 1))

kjer je:

  • n število opazovanj (parov vrednosti),
  • d razlika med rangoma za posamezen par (rang(x) − rang(y)),
  • Σ d² vsota kvadratov razlik rangov za vse pare.

Koraki:

  1. Za vsako spremenljivko ločeno dodelite ränge (1 = najnižja ali 1 = najvišja, odvisno od izbire konsistentnega vrstnega reda).
  2. Če so vezi (enake vrednosti), jim dodelite povprečen rang (glej spodaj).
  3. Izračunajte razliko rangov d za vsak par in nato d².
  4. Seštejte d² in vstavite v formulo za ρ.

Primer izračuna (poenostavljen)

Imamo pet računalnikov z vrednostmi:

  • Cena (nižje = 1, višje = 5): A=300(1), B=400(2), C=500(3), D=700(4), E=1000(5)
  • Hitrost (nižje = 1, višje = 5): A=2(1), B=3(2), C=5(4), D=4(3), E=6(5)

Rangi za hitrost sem navedel v oklepajih. Izračun:

  • Razlike d: A:1−1=0, B:2−2=0, C:3−4=−1, D:4−3=1, E:5−5=0
  • d²: 0, 0, 1, 1, 0 → Σ d² = 2
  • Vstavimo: ρ = 1 − (6·2) / (5(25−1)) = 1 − 12 / (5·24) = 1 − 12 / 120 = 1 − 0,1 = 0,9

Torej ρ = 0,9 kaže močno pozitivno monotono povezavo med ceno in hitrostjo v tem poenostavljenem primeru.

Rukovanje s vezanimi vrednostmi (ties)

Če so v podatkih vezi (več enakih vrednosti), obična formula z 6Σd²/- popači rezultat. Priporočeni načini za obravnavo vezi:

  • Dodelite vezanim vrednostim povprečne ränge (npr. tri enake vrednosti, ki bi bile 2., 3. in 4., jim dodelite rang (2+3+4)/3 = 3).
  • Drugačnejši natančen popravki obstajajo, a praktično je najlažje izračunati Spearmanov koeficient kot Pearsonov koeficient med rangiranima spremenljivkama — to avtomatsko obravnava vezi pravilno.

Signifikanca in testiranje hipotez

Za preskušanje, ali je opaženi ρ statistično pomemben:

  • Za manjša n je uporaben natančen test (permutacijski/razporedni test), ki oceni verjetnost opazovanega ali bolj ekstremnega ρ pri ničelni hipotezi ničelne korelacije.
  • Za večja n je običajen približek: lahko uporabite t-statistiko (podobno kot za Pearsonov koeficient) ali normalno aproksimacijo. Pogosta formula za t je t = ρ sqrt((n−2)/(1−ρ²)), ki se primerja s t-porazdelitvijo z n−2 prostostnimi stopnjami; ta aproksimacija je smiselna pri zmerno velikih vzorcih.

Spearman proti Pearsonu

  • Spearman meri monotone zveze in je neparametričen — ne predpostavlja linearnosti ali normalnosti podatkov. Je odporen na outlierje, ker temelji na rangih.
  • Pearson meri linearno korelacijo in je najbolj primeren, če sta spremenljivki povezani linearno in sta približno normalno porazdeljeni.
  • Če je zveza monotona, a ne nujno linearna, bo Spearman zaznal moč povezave, medtem ko lahko Pearson podcenjuje korelacijo.

Uporaba in omejitve

Uporablja se v socialnih vedah, biologiji, ekonomiji, psihologiji in povsod, kjer so podatki ordinalni ali ko ne želimo močnih predpostavk o porazdelitvi. Omejitve:

  • Spearman meri le monotono zvezo — kompleksnejših nelinearnih, a ne-monotonih relacij ne bo ustrezno kvantificiral.
  • Veliko vezi zmanjša informacijo in natančnost ocene.

Hitri povzetek postopka

  1. Rangirajte obe spremenljivki (uporabite povprečne ränge pri vezah).
  2. Izračunajte razlike rangov d in d² za vsak par.
  3. Seštejte d² in uporabite formulo ρ = 1 − (6 Σ d²) / (n(n² − 1)).
  4. Interpretirajte rezultat: bliže +1 močna rastoča monotona zveza, bližje −1 močna padajoča zveza, okoli 0 ni monotone zveze.

Če želite izračun hitro preveriti, sodobna statistična orodja in programske knjižnice (R, Python/pandas/scipy, Excel z dodatki) običajno neposredno izračunajo Spearmanov koeficient in ustrezne p-vrednosti ter avtomatično obravnavajo vezi.