Histogram: definicija, pomen in prikaz porazdelitve v statistiki
Histogram je pojem iz statistike. Gre za grafični prikaz, ki nam pove, kakšna je porazdelitev vključenih vzorcev. Običajno je to slika, sestavljena iz stolpcev (»razredov« ali »binov«), kjer vsak stolpec prikazuje število ali delež opazovanj v določenem intervalu. Histogram pogosto nastane na podlagi tabele z veliko kategorijami; tabela pove, koliko vzorcev je v vsaki kategoriji.
Beseda histogram izhaja iz grških besed histos in gramma. Histos pomeni mrežo ali jambor. Gramma pomeni risanje, zapis ali pisanje. Histogram nečesa je torej etimološko gledano risba mreže tega nečesa.
Kaj prikazuje histogram
Histogram povzame porazdelitev vrednosti v podatkih. Glavne informacije, ki jih lahko razberemo iz histograma:
- Oblika porazdelitve: simetrična, levo ali desno odrezana (skewed), večvršna (multimodal) ali enovršinska (unimodal).
- Gostota ali frekvenca: višina stolpca predstavlja število (frekvenco) ali relativni delež opazovanj v tem intervalu. Histogram se lahko normalizira tako, da vsota površin stolpcev znaša 1 (takrat predstavlja oceno gostote verjetnosti).
- Izstopajoče vrednosti in razpon: široki repi ali oddaljene vrednosti nakazujejo outlierje ali velik razpon podatkov.
Kako zgradimo histogram
Postopek za izdelavo histograma:
- Razdelimo območje vrednosti na intervale (bine) — ti so običajno enake širine.
- Preštejemo število opazovanj, ki spadajo v vsak interval (to je frekvenca).
- Narišemo stolpce, pri čemer je širina stolpca enaka širini intervala, višina pa enaka frekvenci ali gostoti.
Pomembni odločitveni dejavniki
- Število binov / širina binov: ključna je izbira — preveč binov naredi histogram razdrobljen in težko berljiv, premalo binov pa prikrije podrobnosti. Pravila za izbiro vključujejo Sturgesovo pravilo, pravilo Freedman–Diaconis in sqrt(n) kot osnovne smernice.
- Frekvenca ali gostota: pri primerjanju histogramov z različnimi velikostmi vzorcev se uporablja normalizacija (relativna frekvenca ali gostota), da sta primerljiva.
- Meje binov: način, kako obravnavamo točke, ki ležijo natanko na meji med binoma, lahko vpliva na rezultat — standardni pristopi jasno določijo levo ali desno vključenost mej.
Različne vrste histogramov in sorodni prikazi
- Histogram za diskretne podatke: če so vrednosti diskretne (npr. število dogodkov), se stolpci pogosto naslonijo drug na drugega ali pa se uporabi stolpčni diagram (bar chart).
- Kumulativni histogram: prikazuje kumulativne frekvence do določene vrednosti; pomaga pri oceni kvantilov.
- Normaliziran histogram: površina stolpcev je enaka 1 in predstavlja oceno gostote verjetnosti; primeren za primerjavo z gostotno funkcijo (pdf).
- Glatki prikazi (npr. kernel density estimate): alternativa histogramskim stopničastim prikazom, kadar želimo gladko oceno gostote.
Interpretacija
Pri branju histograma lahko hitro ugotovimo:
- Ali so podatki simetrični ali poševno porazdeljeni (skewed).
- Prisotnost enega ali več vrhov (modality) — več vrhov lahko nakazuje mešanico različnih populacij.
- Razpon podatkov, koncentracije vrednosti in morebitne praznine (pomanjkanje opazovanj v določenih intervalih).
Omejitve in pogoste napake
- Izbira binov močno vpliva na videz histograma — napačna izbira lahko privede do napačnih zaključkov.
- Histogram prikazuje samo en dimenzijo; za odnose med spremenljivkami potrebujemo druge grafe (npr. razpršilni diagram).
- Pri majhnih vzorcih histogrami pogosto niso zanesljivi; bolje je uporabiti dodatne metode (npr. bootstrap ali kernel density estimate).
Primeri uporabe
- Analiza porazdelitve dohodkov, meritev v proizvodnji, rezultatov testa ali kakršnihkoli numeričnih podatkov.
- Preverjanje predpostavk modelov (npr. normalnost rezidualov pri regresiji).
- Vizualna odkrivanja skupin ali anomaličnih opazovanj v podatkih.
Priporočila in dobre prakse
- Vedno označite osi (vrednosti in frekvence ali gostoto) in vključite enote merjenja.
- Preizkusite več različnih šiřin binov in preverite, ali se sklep o obliki porazdelitve ohranja.
- Pri primerjavi več skupin uporabite enako delitev binov ali normalizirajte histograme, da bodo primerljivi.
- Ob uporabi histogramov v predstavitvah navedite velikost vzorca (n), saj to vpliva na zanesljivost vizualne ocene.
Orodja
Histogram lahko narišemo z veliko statističnimi in grafičnimi orodji, npr. Excel, R (funkcija hist, ggplot2), Python (matplotlib, seaborn), SPSS, Stata in drugi. Večina orodij omogoča enostavno nastavitev števila binov, način normalizacije in kombinacijo z glajenjem (kernel density).
Histogram je torej temeljno in zelo uporabno orodje za hitro vizualno oceno porazdelitve numeričnih podatkov, a ga je treba uporabljati previdno — predvsem z zavedanjem vpliva izbire binov in velikosti vzorca.


Primer histograma 100 normalno porazdeljenih naključnih vrednosti
Podobne ideje
Histogram je eno od sedmih osnovnih orodij za nadzor kakovosti, ki vključujejo tudi Paretov diagram, kontrolni list, kontrolni diagram, diagram vzrokov in posledic, diagram poteka in diagram razpršitve.
Posplošitev histograma so tehnike jedrnega glajenja. S tem se iz predloženih podatkov konstruira gladka funkcija gostote verjetnosti.
Vprašanja in odgovori
V: Kaj je histogram?
O: Histogram je grafični prikaz, ki nam pove, kakšna je porazdelitev vzorcev.
V: Kakšen je namen histograma?
O: Namen histograma je prikazati porazdelitev vključenih vzorcev.
V: Kaj pomeni beseda histogram?
O: Beseda histogram izhaja iz grških besed histos in gramma. Histos pomeni mrežo ali jambor. Gramma pomeni risanje, zapis ali pisanje.
V: Kaj pomeni izraz "histos" v grščini?
O: Izraz "histos" v grščini pomeni mrežo ali jambor.
V: Kaj v grščini pomeni izraz "gramma"?
O: Izraz "gramma" v grščini pomeni risbo, zapis ali pisanje.
V: Kaj je skupna značilnost histograma?
O: Skupna značilnost histograma je slika, narejena iz tabele s številnimi kategorijami.
V: Katere informacije zagotavlja tabela histograma?
O: Histogramska tabela vsebuje informacije o tem, koliko vzorcev je v vsaki kategoriji.