Spearmanov koeficient korelacije definicija, formula in uporaba

Spearmanov koeficient korelacije ρ definicija, formula in uporaba za rangirane podatke, razumevanje povezanosti spremenljivk, primeri in praktična uporaba v statistiki

Avtor: Leandro Alegsa

24-08-2025 22:37

V matematiki in statistiki je Spearmanov koeficient korelacije merilo korelacije, poimenovano po njegovem avtorju Charlesu Spearmanu. Na kratko se zapiše kot grška črka rho ( ρ {\displaystyle \rho } $\rho$ ) ali včasih kot r s {\displaystyle r_{s}}. $r_{s}$ . To je število, ki kaže, kako tesno sta povezana dva niza podatkov. Uporablja se lahko samo za podatke, ki jih je mogoče razvrstiti po vrstnem redu, na primer od najvišjega do najnižjega.

Splošna formula za r s {\displaystyle r_{s}} $r_{s}$ je ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} $\rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}$ .

Če imate na primer podatke o tem, kako dragi so različni računalniki, in podatke o tem, kako hitri so računalniki, lahko s pomočjo r s {\displaystyle r_{s}} ugotovite, ali so računalniki povezani in kako tesno so povezani. $r_{s}$ .

Kaj pomeni rezultat

Spearmanov koeficient meri moč in smer monotone povezave med dvema spremenljivkama. Njegove osnovne lastnosti:

Vrednost je med -1 in +1.
ρ = +1: popolna rastoča (monotona) povezava – večja vrednost prve spremenljivke pomeni vedno večjo vrednost druge.
ρ = -1: popolna padajoča (monotona) povezava.
ρ ≈ 0: ni monotone povezave (lahko pa obstaja nelinearna, ne-monotona zveza).

Razlaga formule in koraki izračuna

Osnovna formula (ohranjena v zgornjem delu) je:

ρ = 1 − (6 Σ d²) / (n (n² − 1))

kjer je:

n število opazovanj (parov vrednosti),
d razlika med rangoma za posamezen par (rang(x) − rang(y)),
Σ d² vsota kvadratov razlik rangov za vse pare.

Koraki:

Za vsako spremenljivko ločeno dodelite ränge (1 = najnižja ali 1 = najvišja, odvisno od izbire konsistentnega vrstnega reda).
Če so vezi (enake vrednosti), jim dodelite povprečen rang (glej spodaj).
Izračunajte razliko rangov d za vsak par in nato d².
Seštejte d² in vstavite v formulo za ρ.

Primer izračuna (poenostavljen)

Imamo pet računalnikov z vrednostmi:

Cena (nižje = 1, višje = 5): A=300(1), B=400(2), C=500(3), D=700(4), E=1000(5)
Hitrost (nižje = 1, višje = 5): A=2(1), B=3(2), C=5(4), D=4(3), E=6(5)

Rangi za hitrost sem navedel v oklepajih. Izračun:

Razlike d: A:1−1=0, B:2−2=0, C:3−4=−1, D:4−3=1, E:5−5=0
d²: 0, 0, 1, 1, 0 → Σ d² = 2
Vstavimo: ρ = 1 − (6·2) / (5(25−1)) = 1 − 12 / (5·24) = 1 − 12 / 120 = 1 − 0,1 = 0,9

Torej ρ = 0,9 kaže močno pozitivno monotono povezavo med ceno in hitrostjo v tem poenostavljenem primeru.

Rukovanje s vezanimi vrednostmi (ties)

Če so v podatkih vezi (več enakih vrednosti), obična formula z 6Σd²/- popači rezultat. Priporočeni načini za obravnavo vezi:

Dodelite vezanim vrednostim povprečne ränge (npr. tri enake vrednosti, ki bi bile 2., 3. in 4., jim dodelite rang (2+3+4)/3 = 3).
Drugačnejši natančen popravki obstajajo, a praktično je najlažje izračunati Spearmanov koeficient kot Pearsonov koeficient med rangiranima spremenljivkama — to avtomatsko obravnava vezi pravilno.

Signifikanca in testiranje hipotez

Za preskušanje, ali je opaženi ρ statistično pomemben:

Za manjša n je uporaben natančen test (permutacijski/razporedni test), ki oceni verjetnost opazovanega ali bolj ekstremnega ρ pri ničelni hipotezi ničelne korelacije.
Za večja n je običajen približek: lahko uporabite t-statistiko (podobno kot za Pearsonov koeficient) ali normalno aproksimacijo. Pogosta formula za t je t = ρ sqrt((n−2)/(1−ρ²)), ki se primerja s t-porazdelitvijo z n−2 prostostnimi stopnjami; ta aproksimacija je smiselna pri zmerno velikih vzorcih.

Spearman proti Pearsonu

Spearman meri monotone zveze in je neparametričen — ne predpostavlja linearnosti ali normalnosti podatkov. Je odporen na outlierje, ker temelji na rangih.
Pearson meri linearno korelacijo in je najbolj primeren, če sta spremenljivki povezani linearno in sta približno normalno porazdeljeni.
Če je zveza monotona, a ne nujno linearna, bo Spearman zaznal moč povezave, medtem ko lahko Pearson podcenjuje korelacijo.

Uporaba in omejitve

Uporablja se v socialnih vedah, biologiji, ekonomiji, psihologiji in povsod, kjer so podatki ordinalni ali ko ne želimo močnih predpostavk o porazdelitvi. Omejitve:

Spearman meri le monotono zvezo — kompleksnejših nelinearnih, a ne-monotonih relacij ne bo ustrezno kvantificiral.
Veliko vezi zmanjša informacijo in natančnost ocene.

Hitri povzetek postopka

Rangirajte obe spremenljivki (uporabite povprečne ränge pri vezah).
Izračunajte razlike rangov d in d² za vsak par.
Seštejte d² in uporabite formulo ρ = 1 − (6 Σ d²) / (n(n² − 1)).
Interpretirajte rezultat: bliže +1 močna rastoča monotona zveza, bližje −1 močna padajoča zveza, okoli 0 ni monotone zveze.

Če želite izračun hitro preveriti, sodobna statistična orodja in programske knjižnice (R, Python/pandas/scipy, Excel z dodatki) običajno neposredno izračunajo Spearmanov koeficient in ustrezne p-vrednosti ter avtomatično obravnavajo vezi.

Delo se je začelo

Prvi korak

Za določitev r s {\displaystyle r_{s}} $r_{s}$ morate najprej razvrstiti vsak podatek. Uporabili bomo primer iz uvoda o računalnikih in njihovi hitrosti.

Računalnik z najnižjo ceno je torej uvrščen na prvo mesto. Tisti, ki je višji od njega, bi bil na 2. mestu. Nato se vrstijo, dokler se ne razvrstijo vsi računalniki. To morate storiti za oba niza podatkov.

RAČUNALNIK	Cena ($)	R a n k 1 {\displaystyle Rank_{1}} $Rank_{1}$	Hitrost (GHz)	R a n k 2 {\displaystyle Rank_{2}} $Rank_{2}$
A	200	1	1.80	2
B	275	2	1.60	1
C	300	3	2.20	4
D	350	4	2.10	3
E	600	5	4.00	5

Drugi korak

Nato moramo poiskati razliko med obema vrstama. Razliko nato pomnožimo s samim seboj, kar imenujemo kvadratura. Razliko imenujemo d {\displaystyle d} $d$ , število, ki ga dobimo, ko d {\displaystyle d} $d$ kvadriramo, pa imenujemo d 2 {\displaystyle d^{2}}. $d^{2}$ .

R a n k 1 {\displaystyle Rank_{1}} $Rank_{1}$	R a n k 2 {\displaystyle Rank_{2}} $Rank_{2}$	d {\displaystyle d} $d$	d 2 {\displaystyle d^{2}} $d^{2}$
1	2	-1	1
2	1	1	1
3	4	-1	1
4	3	1	1
5	5	0	0

Tretji korak

Preštejte, koliko podatkov imamo. Ti podatki imajo stopnje od 1 do 5, torej imamo 5 podatkov. To število se imenuje n {\displaystyle n} .

Četrti korak

Na koncu uporabite vse, kar smo do zdaj ugotovili, v tej formuli: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} $r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}$ .

∑ d 2 {\displaystyle \sum d^{2}} $\sum d^{2}$ pomeni, da vzamemo vsoto vseh številk, ki so bile v stolpcu d 2 {\displaystyle d^{2}} $d^{2}$ . To pa zato, ker ∑ {\displaystyle \sum } $\sum$ pomeni skupaj.

Torej je ∑ d 2 {\displaystyle \sum d^{2}} $\sum d^{2}$ 1 + 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1} $1+1+1+1$ , kar je 4. Formula pravi, da ga pomnožimo s 6, kar je 24.

n ( n 2 - 1 ) {\displaystyle n(n^{2}-1)} $n(n^{2}-1)$ je 5 × ( 25 - 1 ) {\displaystyle 5\krat (25-1)}, $5\times (25-1)$ kar je 120.

Da bi ugotovili r s {\displaystyle r_{s}} $r_{s}$ preprosto naredimo 1 - 24 120 = 0,8 {\displaystyle 1-{\cfrac {24}{120}}=0,8} $1-{\cfrac {24}{120}}=0.8$ .

Zato je Spearmanov koeficient korelacije za ta niz podatkov 0,8.

Kaj pomenijo številke

r s {\displaystyle r_{s}} $r_{s}$ vedno daje odgovor med -1 in 1. Številke med njima so kot lestvica, kjer je -1 zelo močna povezava, 0 je brez povezave, 1 pa je prav tako zelo močna povezava. Razlika med 1 in -1 je v tem, da je 1 pozitivna povezava, -1 pa je negativna povezava. Graf podatkov z vrednostjo r s {\displaystyle r_{s}} $r_{s}$ -1 bi bil podoben prikazanemu grafu, le da bi črta in točke potekale od leve zgoraj proti desni spodaj.

Na primer, za podatke, ki smo jih obdelali zgoraj, je r s {\displaystyle r_{s}} $r_{s}$ znašal 0,8. To pomeni, da obstaja pozitivna korelacija. Ker je blizu vrednosti 1, to pomeni, da je povezava med obema nizoma podatkov močna. Torej lahko rečemo, da sta ta dva niza podatkov povezana in se skupaj dvigujeta. Če bi bila -0,8, bi lahko rekli, da sta povezana in da ko se eden povečuje, se drugi zmanjšuje.

Ta razpršeni graf ima pozitivno korelacijo. Vrednost r s {\displaystyle r_{s}} $r_{s}$ bi bila blizu 1 ali 0,9. Rdeča črta je črta najboljšega ujemanja.

Če sta dve števili enaki

Pri razvrščanju podatkov se včasih zgodi, da sta dve ali več številk enakih. Kadar se to zgodi v r s {\displaystyle r_{s}} $r_{s}$ , vzamemo povprečje ali sredino rangov, ki so enaki. To so tako imenovani vezani rangi. To storimo tako, da vezana števila razvrstimo, kot da ne bi bila vezana. Nato seštejemo vse rangove, ki bi jih imeli, in jih delimo s številom, kolikor jih je. Recimo, da razvrščamo, kako dobro so se različni ljudje odrezali na testu pravopisa.

Rezultat testa	Rang	Položaj (z vezanimi)
4	1	1
6	2	2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} ${\tfrac {2+3+4}{3}}=3$
6	3	2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} ${\tfrac {2+3+4}{3}}=3$
6	4	2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} ${\tfrac {2+3+4}{3}}=3$
8	5	5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}}=5,5} ${\tfrac {5+6}{2}}=5.5$
8	6	5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}}=5,5} ${\tfrac {5+6}{2}}=5.5$

Te številke se uporabljajo na enak način kot običajne stopnje.

Sorodne strani

Korelacija

Vprašanja in odgovori

V: Kaj je Spearmanov koeficient korelacije?

O: Spearmanov koeficient korelacije ranga je mera korelacije, ki kaže, kako tesno sta povezana dva niza podatkov. Uporablja se lahko samo za podatke, ki jih je mogoče razvrstiti po vrstnem redu, na primer od najvišjega do najnižjega.

V: Kdo je ustvaril Spearmanov korelacijski koeficient ranga?

O: Charles Spearman je ustvaril Spearmanov korelacijski koeficient ranga.

V: Kako je zapisana splošna formula za Spearmanov korelacijski koeficient ranga?

O: Splošna formula za Spearmanov koeficient korelacije ranga je zapisana kot ρ = 1 - 6∑d2/n(n2-1).

V: Kdaj je treba uporabiti Spearmanov korelacijski koeficient ranga?

O: Spearmanov koeficient korelacije ranga uporabite, kadar želite ugotoviti, kako tesno sta povezana dva niza podatkov in ali sta sploh povezana.

V: S katero vrsto podatkov deluje?

O: Deluje z vsemi vrstami podatkov, ki jih je mogoče razvrstiti po vrstnem redu, na primer od najvišjega do najnižjega.

V: Ali lahko navedete primer uporabe tega ukrepa?

O: Primer uporabe tega merila je, če imate podatke o tem, kako dragi so različni računalniki, in podatke o tem, kako hitri so računalniki, potem lahko s pomočjo r_s ugotovite, ali so povezani in kako tesno so povezani.

Iskati