V statistiki je interval zaupanja posebna oblika ocene določenega parametra. Pri tej metodi je namesto ene vrednosti podan celoten interval sprejemljivih vrednosti parametra in verjetnost, da bo dejanska (neznana) vrednost parametra v tem intervalu. Interval zaupanja temelji na opazovanjih iz vzorca in se zato razlikuje od vzorca do vzorca. Verjetnost, da bo parameter v intervalu, se imenuje stopnja zaupanja. Zelo pogosto je podana v odstotkih. Interval zaupanja je vedno podan skupaj s stopnjo zaupanja. Ljudje lahko govorijo o "95-odstotnem intervalu zaupanja". Končne točke intervala zaupanja se imenujejo meje zaupanja. Za določen postopek ocenjevanja v dani situaciji velja, da višja kot je raven zaupanja, širši je interval zaupanja.

Izračun intervala zaupanja na splošno zahteva predpostavke o naravi postopka ocenjevanja - gre predvsem za parametrično metodo. Ena od pogostih predpostavk je, da je porazdelitev populacije, iz katere je vzorec, normalna. Intervali zaupanja, kot so obravnavani v nadaljevanju, zato niso robustna statistika, čeprav se lahko spremenijo, da se doda robustnost.

Kaj pomeni interval zaupanja — pravilna interpretacija

Pomembno je razumeti, da interval zaupanja ne daje verjetnosti za posamezen izračunan interval v smislu klasične (frekventistične) statistike. Bolj pravilno je reči: če bi ponovili postopek vzorčenja in izračunali intervale zaupanja na enak način veliko krat, bi približno X% teh intervalov vsebovalo pravo (fiksno, vendar neznano) vrednost parametra, kjer je X stopnja zaupanja (npr. 95%).

Osnovne formule in primeri izračuna

Za različne parametre in situacije so formule različne. Spodaj so najpogostejši primeri.

  • Interval zaupanja za povprečje (σ znan):
    x̄ ± z_{α/2} * (σ / √n)
    kjer je x̄ vzorčno povprečje, σ standardni odklon populacije (če je znan), n velikost vzorca, z_{α/2} kvantila standardne normalne porazdelitve (npr. z_{0.025} ≈ 1.96 za 95 %).
  • Interval zaupanja za povprečje (σ neznan):
    x̄ ± t_{n-1, α/2} * (s / √n)
    kjer je s vzorčni standardni odklon, t_{n-1, α/2} kvantila Studentove t-porazdelitve z n−1 stopnjami svobode. Ta pristop se uporablja, kadar σ ni znan ali je n majhno.
  • Interval zaupanja za delež (binomski primer):
    p̂ ± z_{α/2} * sqrt( p̂(1−p̂) / n )
    kjer je p̂ delež v vzorcu. Za majhne n ali p̂ blizu 0 ali 1 so pogosto boljši Wilsonov ali exact (Clopper–Pearson) intervali.

Primer izračuna

1) Povprečje, σ znan:
Vzorec: n = 25, x̄ = 100, σ = 15. Za 95 % interval je z ≈ 1.96.
Margin of error = 1.96 * (15 / √25) = 1.96 * 3 = 5.88.
95 % CI = (100 − 5.88, 100 + 5.88) = (94.12, 105.88).

2) Delež:
Vzorec: n = 200, p̂ = 0.60. Za 95 % interval je z ≈ 1.96.
Standardna napaka = sqrt(0.6 * 0.4 / 200) ≈ 0.0346.
Margin = 1.96 * 0.0346 ≈ 0.0679.
95 % CI ≈ (0.532, 0.668).

Pogoste predpostavke in kdaj jih kršimo

  • Vzorec naj bo naključen in reprezentativen. Če ni, je interval lahko pristranski.
  • Neodvisnost opazovanj — če so opazovanja medsebojno odvisna (npr. časovne vrste), standardne formule ne veljajo brez prilagoditev.
  • Za metode, ki temeljijo na normalni porazdelitvi, velja približek bolje pri večjih n (centralni limitni izrek). Za majhne vzorce uporabimo t-porazdelitev ali neparametrične/Bootstrap metode.
  • Pri deležih je priporočljivo uporabit korekcije ali alternativne intervale, kadar je n majhen ali je p̂ blizu 0 ali 1.

Ukrepanje, ko predpostavke niso izpolnjene

  • Uporabite Bootstrap intervale zaupanja — delujejo pod manj strogimi predpostavkami in so preprosti za implementacijo računsko.
  • Za odvisne podatke uporabite ustrezne metode (npr. modeliranje časovnih vrst ali uporaba robustnih standardnih napak).
  • Pri binomskih podatkih z majhnim n raje uporabite Clopper–Pearson ali Wilsonov interval.

Dejavniki, ki vplivajo na širino intervala

  • Stopnja zaupanja: višja stopnja → širši interval (npr. 99 % > 95 %).
  • Velikost vzorca n: večji n → ožji interval (ker se deli s √n).
  • Variabilnost v populaciji (σ ali s): večja variabilnost → širši interval.

Izračun velikosti vzorca za dano natančnost

  • Za povprečje (σ ocenjen ali znan) in željeno absolutno napako E: n ≈ (z_{α/2} * σ / E)^2.
  • Za delež in željeno napako E: n ≈ p*(1−p) * (z_{α/2} / E)^2. Če p ni znan, se pogosto uporabi p = 0.5 za konservativno oceno.

Praktični nasveti

  • Vedno navedite stopnjo zaupanja skupaj z intervalom (npr. "95 % CI").
  • Izogibajte se napačnim trditvam, da "je 95 % verjetnosti, da je parameter v tem konkretnem intervalu" — to drži le v Bayesianinem okviru z ustreznimi predpostavkami.
  • Pri poročanju rezultatov vključite velikost vzorca, oceno variance in metodo izračuna intervala (z, t, bootstrap, Wilson ...).

Intervali zaupanja so temeljni pripomoček za ocenjevanje negotovosti v statistiki. Z razumevanjem predpostavk, pravilne interpretacije in primernih metod za dano situacijo lahko raziskovalci in odločevalci bolje presodijo zanesljivost ocenjenih parametrov.