Vzorec (statistika)
V statistiki je vzorec del populacije. Vzorec je skrbno izbran. Vzorec mora pošteno in brez pristranskosti predstavljati celotno populacijo. Vzorci so potrebni zato, ker so populacije lahko tako velike, da štetje vseh posameznikov ni mogoče ali praktično.
Zato se reševanje problema v statistiki običajno začne z vzorčenjem. Pri vzorčenju gre za izbiro podatkov, ki jih bomo vzeli za poznejšo analizo. Kot primer lahko navedemo, da je treba za študijo analizirati onesnaženost jezera. Glede na to, kje so bili odvzeti vzorci vode, imajo lahko študije različne rezultate. Splošno pravilo je, da morajo biti vzorci naključni. To pomeni, da je možnost ali verjetnost izbire enega posameznika enaka možnosti izbire katerega koli drugega posameznika.
V praksi se naključni vzorci vedno izberejo po natančno določenem postopku. Postopek je niz pravil, zaporedje korakov, ki so zapisani na papirju in jih je treba dosledno upoštevati. Kljub temu lahko v vzorcu ostane nekaj pristranskosti. Poglejmo problem oblikovanja vzorca za napovedovanje izida volilne ankete. Vse znane metode imajo svoje težave in rezultati volitev se pogosto razlikujejo od napovedi na podlagi vzorca. Če mnenja zbiramo s telefoni ali s srečevanjem ljudi na ulici, je vzorec vedno pristranski. Zato v primerih, kot je ta, popolnoma nevtralen vzorec nikoli ni mogoč. V takšnih primerih statistik razmišlja o tem, kako izmeriti količino pristranskosti, in obstajajo načini, kako jo oceniti.
Podobno se zgodi, ko znanstveniki merijo fizikalno lastnost, na primer težo kosa kovine ali hitrost svetlobe. Če predmet stehtamo z občutljivo opremo, dobimo zelo različne rezultate. Noben merilni sistem ni popoln. Dobimo vrsto ocen, od katerih je vsaka meritev. To so vzorci z določeno stopnjo napake. Statistika je namenjena opisovanju napak in analizi tovrstnih podatkov.
Obstajajo različne vrste vzorcev:
Mejna policija s posebej izurjenim psom išče prepovedane droge: Če preverijo vsak deseti avtomobil, vzamejo nepristranski vzorec.
Stratificirano vzorčenje
Če ima populacija očitne podpopulacije, je treba vzorčiti vsako podpopulacijo. To se imenuje stratificirano vzorčenje. Stratificirano vzorčenje je znano tudi kot stratificirani naključni vzorec. Stratificirano vzorčenje se pogosto predstavlja kot delež, na primer odstotek (%).
Recimo, da bi s poskusom vzorčili dohodke odraslih. Očitno se lahko dohodki diplomantov višjih šol razlikujejo od dohodkov nediplomantov. Zdaj predpostavimo, da je bilo število moških diplomantov 30 % vseh odraslih moških (namišljene številke). Potem bi poskrbeli, da bi bilo 30 % celotnega vzorca naključno izbranih moških diplomantov, 70 % celotnega vzorca pa moških nediplomantov. Postopek ponovite za ženske, saj je odstotek diplomantk drugačen kot pri moških. Tako dobimo vzorec odrasle populacije, stratificiran po spolu in univerzitetni izobrazbi. Naslednji korak je razdelitev vsake od podskupin po starostnih skupinah, saj lahko (na primer) diplomanti v srednjih letih pridobijo več dohodka v primerjavi z nediplomanti.
Druga vrsta stratificiranega vzorca se ukvarja z variacijo. Pri tem se večji vzorci vzamejo iz bolj spremenljivih podpopulacij, tako da so zbirne statistike, kot so povprečja in standardni odkloni, bolj zanesljive.
Vprašanja in odgovori
V: Kaj je vzorec v statistiki?
O: V statistiki je vzorec del populacije, ki je bil skrbno izbran, da bi pošteno in nepristransko predstavljal celotno populacijo.
V: Zakaj potrebujemo vzorce?
O: Vzorci so potrebni, ker so populacije lahko tako velike, da štetje vseh posameznikov ni mogoče ali praktično. Zato se reševanje problema v statistiki običajno začne z vzorčenjem.
V: Kako je vzorec predstavljen?
O: Kadar se vzorec obravnava kot niz podatkov, se pogosto predstavlja z velikimi črkami, kot sta X in Y, njegovi elementi so predstavljeni z malimi črkami (npr. x3), velikost vzorca pa je predstavljena s črko n.
V: Kakšni morajo biti vzorci?
O: Splošno pravilo je, da morajo biti vzorci naključni, kar pomeni, da je možnost ali verjetnost izbire enega posameznika enaka možnosti izbire katerega koli drugega posameznika. V praksi se naključni vzorci vedno vzamejo z natančno določenim postopkom.
V: Ali lahko v vzorcih ostane pristranskost?
O: Tudi pri uporabi dobro opredeljenih postopkov za vzorčenje lahko v vzorcu ostane nekaj pristranskosti zaradi dejavnikov, kot so, na primer, kdo odgovarja na telefonske klice ali kdo hodi po določenih ulicah, ko se zbirajo mnenja za napoved volilne ankete. V takšnih primerih je težko dobiti popolnoma nevtralne vzorce, vendar lahko statistiki izmerijo, koliko pristranskosti ostaja prisotne.
V: Ali obstajajo različne vrste vzorcev?
O: Da, obstajajo različne vrste vzorcev, vključno s popolnimi vzorci, ki vključujejo vse elemente, ki imajo dane lastnosti, in nepristranskimi/reprezentativnimi vzorci, ki vključujejo izbiro elementov iz popolnih vzorcev brez odvisnosti od njihovih lastnosti. Način pridobivanja vzorcev in njihova velikost vplivata na način obravnavanja podatkov.