Standardna napaka je standardni odklon vzorčne porazdelitve statistike. Izraz se lahko uporablja tudi za oceno (dobro domnevo) tega standardnega odklona, vzeto iz vzorca celotne skupine.

Povprečje nekega dela skupine (imenovanega vzorec) je običajen način za oceno povprečja celotne skupine. Merjenje celotne skupine je pogosto pretežko ali pa stane preveč denarja. Če pa izmerimo drug vzorec, bo njegovo povprečje nekoliko drugačno od povprečja prvega vzorca. Standardna napaka povprečja je način, kako ugotoviti, kako blizu je povprečje vzorca povprečju celotne skupine. To je način, s katerim lahko ugotovimo, koliko smo lahko prepričani o povprečju iz vzorca.

Pri resničnih meritvah prava vrednost standardnega odklona povprečja za celotno skupino običajno ni znana. Zato se izraz standardna napaka pogosto uporablja v pomenu približka dejanske vrednosti za celotno skupino. Več kot je meritev v vzorcu, bližje bo ugibanje resničnemu številu za celotno skupino.

Formula in izračun

Za povprečje vzorca (oznaka \u03bĉ ali \u03bc_z) je standardna napaka običajno:

SE = \u03c3 / \u221a n

kjer je \u03c3 standardni odklon populacije in n velikost vzorca. V praksi \u03c3 pogosto ni znan, zato uporabimo oceno iz vzorca (vzorečni standardni odklon s):

SE ≈ s / \u221a n

Primer: če je s = 10 in n = 25, je SE = 10 / 5 = 2.

Uporaba in interpretacija

  • Merilo negotovosti: SE pove, kako močno se lahko povprečje vzorca razlikuje od pravega povprečja populacije. Manjši SE pomeni večjo natančnost ocene.
  • Konfidencni intervali: Za oceno intervala zaupanja uporabimo SE. Na primer približen 95 % interval zaupanja za povprečje je: povprečje ± t_{n-1} · SE (uporabimo t-porazdelitev, če \u03c3 ni znan).
  • Hipotezno testiranje: Pri testih (npr. t-test) se razliko med opazovanim vzorčnim povprečjem in hipotezno vrednostjo deli z SE, da dobimo testno statistiko.
  • Vpliv velikosti vzorca: SE se zmanjšuje s \u221a n. To pomeni, da z večjim vzorcem hitreje povečamo natančnost kot z enakim proporcionalnim povečanjem variance.

Predpostavke in popravki

  • Neodvisnost in naključnost: Vzorec naj bo naključen in opazovanja med sabo neodvisna.
  • Končnost variance: Porazdelitev mora imeti končno varianco. Pri zelo težkih repih (brez končne variance) standardna napaka ni zanesljiva.
  • Centralni limitni izrek (CLT): Pri dovolj velikih vzorcih je porazdelitev vzorčnih povprečij približno normalna, kar upravičuje uporabo normalnih ali t-intervalov tudi, če je osnovna porazdelitev ne-normalna.
  • Popravek za končno populacijo: Če vzorčimo brez vračanja in je delež vzorca n/N pomemben (n/N > približno 0,05), uporabimo finično-populacijski popravek (FPC):

FPC = \u221a((N - n) / (N - 1))

Pravilna standardna napaka pri vzorčenju brez vračanja je torej: SE_corrected = (s / \u221a n) · FPC (ali uporabimo \u03c3, če je znan).

Hitri primer iz prakse

Recimo, da izmerimo višine 36 oseb in izračunamo vzorčno standardno odklon s = 9 cm, povprečje je 170 cm. Potem je SE = 9 / \u221a36 = 9 / 6 = 1,5 cm. Približen 95 % interval zaupanja (z uporabo t_{35} ≈ 2,03) je:

170 ± 2,03 · 1,5 ≈ 170 ± 3,05 → (166,95; 173,05) cm.

Povzetek

  • Standardna napaka meri, kako se statistika (pogosto povprečje) spreminja med možnimi vzorci.
  • Za povprečje velja SE = \u03c3 / \u221a n (ali SE ≈ s / \u221a n, kadar je \u03c3 neznan).
  • SE je osnova za konstruiranje intervalov zaupanja in za statistične teste; zmanjšuje se z večanjem vzorca.
  • Pri vzorčenju brez vračanja ali pri majhnih vzorcih je treba preveriti predpostavke in po potrebi uporabiti popravke (npr. FPC ali t-porazdelitev).