Statistika: definicija, metode in uporaba v znanosti, medicini, ekonomiji

Razložena definicija, ključne metode in praktične uporabe statistike v znanosti, medicini in ekonomiji — vodnik za razumevanje in uporabo podatkov.

Avtor: Leandro Alegsa

Statistika je veja uporabne matematike, ki se ukvarja z zbiranjem, urejanjem, analizo, razlago in predstavitvijo podatkov. Opisna statistika povzema podatke. Inferenčna statistika omogoča napovedovanje. Statistika pomaga pri preučevanju številnih drugih področij, kot so znanost, medicina, ekonomija, psihologija, politika in trženje. Nekdo, ki se ukvarja s statistiko, se imenuje statistik. Poleg tega, da je beseda "statistika" ime področja študija, se nanaša tudi na številke, ki se uporabljajo za opis podatkov ali odnosov.

Kaj zajema statistika

Statistika zajema metode in postopke za delo s podatki. Glavni cilji so:

  • Povzemanje podatkov (opisna statistika): predstavitev v obliki povprečij, razponov, histogramov, tabel in grafov;
  • Napovedovanje in sklepanje (inferenčna statistika): ocenjevanje lastnosti populacije na podlagi vzorca, testiranje hipotez, gradnja intervalov zaupanja;
  • Modeliranje: iskanje odnosov med spremenljivkami (npr. regresija, časovne vrste);
  • Odločanje pod negotovostjo: ocena tveganj in verjetnosti različnih izidov.

Osnovne metode in pojmi

  • Zbiranje podatkov: izbira ustreznega vzorca, eksperimentalni načrt ali opazovalne študije; pomembna sta reprezentativnost in velikost vzorca.
  • Meritve centralne lege: aritmetično povprečje, median (srednja vrednost) in modus (najpogostejša vrednost).
  • Meritve razpršenosti: variance, standardni odklon, medkvartilni razpon (IQR) in razpon (min–max).
  • Vizualizacija: histogrami, stolpčni grafikoni, tortni diagrami, škatlasti diagrami (boxplot), razsevni diagrami (scatterplot) — pomembni za hitro zaznavanje vzorcev in izstopajočih vrednosti.
  • Inferenčna orodja: intervali zaupanja, testi značilnosti (npr. t-test, χ2-test), analiza variance (ANOVA), regresijska analiza.
  • Napredne metode: multivariatna analiza, modeli časovnih vrst, strojno učenje in Bayesovske metode.

Tipični koraki pri statistični analizi

  • Opredelitev raziskovalnega vprašanja ali hipoteze.
  • Oblikovanje načrta zbiranja podatkov (vzorec, merila, instrumenti).
  • Zbiranje in čiščenje podatkov (ravnanje z izpusti, preverjanje napak).
  • Opisna analiza in vizualizacija za osnovno razumevanje podatkov.
  • Izbira ustreznih statističnih testov ali modelov.
  • Ugotavljanje veljavnosti predpostavk modela, ovrednotenje negotovosti (npr. standardne napake).
  • Interpretacija rezultatov in komunikacija ugotovitev na razumljiv način.

Uporaba v znanosti, medicini in ekonomiji

Statistika je temeljna pri odločanju in izvajanju raziskav v različnih disciplinah:

  • Znanost: načrtovanje eksperimentov, analiza podatkov in verifikacija hipotez; statično preverjanje ponovljivosti rezultatov.
  • Medicina, epidemiologija in javno zdravje: ocenjevanje učinkovitosti zdravljenja (klinične študije), analiza vzorcev bolezni, določanje zanesljivih diagnostičnih testov in tveganj.
  • Ekonomija: napovedi gospodarskih kazalnikov, ocenjevanje politik, analiza tržnih trendov in modeliranje rasti.

Primeri praktične uporabe

  • V kliničnem preskušanju se s statistiko oceni, ali je novo zdravilo bolj učinkovito od placebo skupine (testiranje hipotez, intervali zaupanja).
  • V ekonomiji se uporablja regresija za napovedovanje potrošnje glede na dohodek in obrestne mere.
  • V psihologiji merimo povprečje rezultatov testov in preverimo, ali so razlike med skupinami statistično pomembne.

Omejitve in pogoste pasti

  • Korelacija ni enaka vzročnosti: statistični odnos med dvema spremenljivkama ne dokazuje, da ena povzroča drugo.
  • Izbirni pristranost (selection bias): neustrezno izbran vzorec lahko povzroči zavajajoče sklepe.
  • P-hacking in multiple primerjave: izvajanje velikega števila testov povečuje verjetnost lažno pozitivnih rezultatov, zato je potrebna korekcija ali previdnost pri interpretaciji.
  • Prekomerno prileganje (overfitting) modelov: model, ki preveč sledi šumu v vzorcu, ne generalizira dobro na nove podatke.
  • Kakovost podatkov: slabi podatki (manjkajoče vrednosti, napačni vnosi) vodijo do nezanesljivih rezultatov.

Etika in odgovornost

Pri uporabi statistike je pomembno spoštovanje etičnih načel: zaščita zasebnosti podatkov, preglednost metod, ponovljivost analiz in pošteno poročanje rezultatov. Statistične ugotovitve je treba predstavljati jasno in ne zavajajoče, z navedbo negotovosti in omejitev.

Statistika je zato orodje za utemeljeno odločanje: z ustreznimi metodami in previdnostjo omogoča, da iz velikih in pogosto neurejenih količin podatkov izluščimo smiselne, uporabne in zanesljive informacije.

Zgodovina

Prvi znani statistični podatki so podatki iz popisa prebivalstva. Babilonci so popisovali okoli leta 3500 pred našim štetjem, Egipčani okoli leta 2500 pred našim štetjem, stari Kitajci pa okoli leta 1000 pred našim štetjem.

V 16. stoletju so matematiki, kot je bil Gerolamo Cardano, razvili teorijo verjetnosti, s katero je statistika postala znanost. Od takrat ljudje zbirajo in preučujejo statistične podatke o številnih stvareh. Drevesa, morske zvezde, zvezde, kamni, besede, skoraj vse, kar je mogoče prešteti, je bilo predmet statistike.

Zbiranje podatkov

Preden lahko svet opišemo s statističnimi podatki, moramo zbrati podatke. Podatki, ki jih zbiramo v statistiki, se imenujejo meritve. Ko zberemo podatke, za opis vsakega opazovanja ali meritve uporabimo eno ali več številk. Predpostavimo na primer, da želimo ugotoviti, kako priljubljena je določena televizijska oddaja. Iz celotne populacije gledalcev lahko izberemo skupino ljudi (imenovano vzorec). Nato vsakega gledalca v vzorcu vprašamo, kako pogosto gleda oddajo. Vzorec so podatki, ki jih lahko vidite, populacija pa so podatki, ki jih ne morete videti (ker niste vprašali vsakega gledalca v populaciji). Drug primer: če želimo vedeti, ali lahko določeno zdravilo pomaga pri zniževanju krvnega tlaka, lahko damo zdravilo ljudem za nekaj časa in izmerimo njihov krvni tlak pred in po tem.

Opisna in inferenčna statistika

Številke, ki opisujejo podatke, ki jih lahko vidite, se imenujejo opisna statistika. Številke, ki napovedujejo podatke, ki jih ne morete videti, se imenujejo inferenčna statistika.

Opisna statistika vključuje uporabo številk za opis značilnosti podatkov. Na primer, povprečna višina žensk v ZDA je opisna statistika, ki opisuje značilnost (povprečna višina) populacije (ženske v ZDA).

Ko so rezultati povzeti in opisani, jih je mogoče uporabiti za napovedovanje. To se imenuje sklepalna statistika. Na primer: velikost živali je odvisna od številnih dejavnikov. Nekateri od teh dejavnikov so odvisni od okolja, drugi pa od dednosti. Biolog lahko zato sestavi model, ki pravi, da obstaja velika verjetnost, da bo potomec majhen, če so bili starši majhni. Ta model verjetno omogoča, da se velikost predvidi na boljši način kot z naključnim ugibanjem. Preverjanje, ali je mogoče z določenim zdravilom zdraviti določeno stanje ali bolezen, se običajno opravi tako, da se primerjajo rezultati ljudi, ki dobijo zdravilo, z rezultati ljudi, ki dobijo placebo.

Metode

Statistične podatke najpogosteje zbiramo z anketami ali poskusi. Ena od vrst raziskav je na primer javnomnenjska raziskava. Izberemo majhno število ljudi in jim zastavimo vprašanja. Nato njihove odgovore uporabimo kot podatke.

Izbira posameznikov za raziskavo ali zbiranje podatkov je pomembna, saj neposredno vpliva na statistične podatke. Ko so statistični podatki pripravljeni, ni več mogoče določiti, kateri posamezniki so bili zajeti. Recimo, da želimo izmeriti kakovost vode v velikem jezeru. Če vzamemo vzorce ob odtoku za odpadke, bomo dobili drugačne rezultate, kot če vzorce vzamemo na oddaljenem, težko dostopnem mestu jezera.

Pri odvzemu vzorcev se pogosto pojavljata dve vrsti težav:

  1. Če je vzorcev veliko, bodo verjetno zelo podobni tistim v resnični populaciji. Če pa je vzorcev zelo malo, se lahko zelo razlikujejo od vzorcev v resnični populaciji. Ta napaka se imenuje naključna napaka (glej Napake in ostanki v statistiki).
  2. Posameznike za vzorce je treba skrbno izbrati, običajno so izbrani naključno. V nasprotnem primeru se lahko vzorci zelo razlikujejo od dejanskega stanja v celotni populaciji. To velja tudi v primeru, če je bilo izbranih veliko število vzorcev. Tovrstna napaka se imenuje pristranskost.

Napake

Naključne napake lahko zmanjšamo z večjim vzorcem, z naključno izbiro pa se lahko izognemo nekaterim pristranskostim. Vendar pa je včasih velike naključne vzorce težko sestaviti. Do pristranskosti pa lahko pride, če različnih ljudi ne vprašamo ali če nočejo odgovarjati na naša vprašanja ali če vedo, da so deležni lažnega zdravljenja. Te težave je težko odpraviti. Glej tudi standardna napaka.

Opisna statistika

Iskanje sredine podatkov

Sredina podatkov se imenuje povprečje. Povprečje nam govori o tipičnem posamezniku v populaciji. Pogosto se uporabljajo tri vrste povprečja: povprečje, mediana in modus.

V spodnjih primerih so uporabljeni ti vzorčni podatki:

 Ime | A B C D E F G H I J --------------------------------------------- rezultat| 23 26 49 49 57 64 66 78 82 92

Povprečje

Enačba za srednjo vrednost je

x¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + + x N N {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}} {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}

Pri čemer so x 1 , x 2 , ... , x N {\displaystyle x_{1},x_{2},\ldots ,x_{N}}{\displaystyle x_{1},x_{2},\ldots ,x_{N}} podatki in N {\displaystyle N}{\displaystyle N} velikost populacije. (glejte zapis Sigma).

To pomeni, da seštejete vse vrednosti in jih nato delite s številom vrednosti.

V našem primeru x¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58,6 {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58,6} {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6}

Težava s srednjo vrednostjo je, da ne pove ničesar o tem, kako so vrednosti porazdeljene. Vrednosti, ki so zelo velike ali zelo majhne, zelo spremenijo povprečje. V statistiki so te ekstremne vrednosti lahko napake merjenja, včasih pa populacija res vsebuje te vrednosti. Na primer, če je v sobi 10 ljudi, ki zaslužijo 10 dolarjev na dan, in 1, ki zasluži 1.000.000 dolarjev na dan. Srednja vrednost podatkov je 90 918 USD/dan. Čeprav gre za povprečni znesek, povprečje v tem primeru ni znesek, ki ga zasluži posamezna oseba, zato je za nekatere namene neuporabno.

To je "aritmetična sredina". Za nekatere namene so uporabne tudi druge vrste.

Mediana

Mediana je srednja vrednost podatkov. Da bi našli mediano, podatke razvrstimo od najmanjšega do največjega števila in nato izberemo število na sredini. Če je število podatkov sodo, ne bo številke ravno na sredini, zato izberemo dve srednji in izračunamo njuno sredino. V našem primeru je 10 podatkov, srednji dve sta "57" in "64", zato je srednja vrednost (57+64)/2 = 60,5. Drug primer, kot je bil predstavljen za povprečje dohodka, je primer sobe z 10 ljudmi, ki imajo dohodke 10, 20, 20, 40, 50, 60, 90, 90, 100 in 1.000.000 dolarjev, mediana je 55 dolarjev, ker je 55 dolarjev povprečje dveh srednjih številk, 50 in 60 dolarjev. Če zanemarimo skrajno vrednost 1.000.000 USD, je srednja vrednost 53 USD. V tem primeru je mediana blizu vrednosti, ki jo dobimo, če izločimo skrajno vrednost. Mediana rešuje problem ekstremnih vrednosti, kot je opisan v zgornji opredelitvi sredine.

Način

Način je najpogostejši podatek. Na primer, najpogostejša črka v angleščini je črka "e". Rekli bi, da je "e" način porazdelitve črk.

Če je na primer v sobi 10 ljudi z dohodki 10, 20, 20, 40, 50, 60, 90, 90, 90, 90, 100 in 1.000.000 USD, je način 90 USD, ker se 90 USD pojavi trikrat, vse druge vrednosti pa manj kot trikrat.

Načinov je lahko več. Če je na primer v sobi 10 ljudi z dohodki 10, 20, 20, 20, 20, 50, 60, 90, 90, 90, 90, 100 in 1.000.000 dolarjev, sta načina 20 in 90 dolarjev. To je dvomodalno ali z dvema načinoma. Bi-modalnost je zelo pogosta in pogosto pomeni, da so podatki kombinacija dveh različnih skupin. Na primer, povprečna višina vseh odraslih v ZDA ima dvomodalno porazdelitev. Razlog za to je, da imajo moški in ženske ločene povprečne višine: 1,763 m (5 ft 9 + 1⁄2 in) za moške in 1,622 m (5 ft 4 in) za ženske. Ti vrhovi so vidni, ko obe skupini združimo.

Modus je edina oblika povprečja, ki jo lahko uporabimo za podatke, ki jih ni mogoče urediti.

Ugotavljanje razpršenosti podatkov

Druga stvar, ki jo lahko rečemo o nizu podatkov, je, kako razpršen je. Običajen način za opis razpršenosti niza podatkov je standardni odklon. Če je standardni odklon niza podatkov majhen, je večina podatkov zelo blizu povprečja. Če pa je standardni odklon velik, se veliko podatkov zelo razlikuje od povprečja.

Če podatki sledijo običajnemu vzorcu, ki se imenuje normalna porazdelitev, je zelo koristno poznati standardni odklon. Če podatki sledijo temu vzorcu (rečemo, da so podatki normalno porazdeljeni), bo približno 68 od 100 podatkov odstopalo od povprečja za manj kot standardni odklon. Ne samo to, približno 95 od 100 meritev bo odstopalo od povprečja za manj kot dvakratnik standardnega odklona, približno 997 od 1000 meritev pa bo bližje povprečju kot trije standardni odkloni.

Druge opisne statistike

Statistiko lahko uporabimo tudi za ugotavljanje, da določen odstotek, percentil, število ali delež ljudi ali stvari v skupini nekaj počne ali spada v določeno kategorijo.

Družboslovci so na primer s statističnimi podatki ugotovili, da je 49 % ljudi na svetu moških.

Sorodna programska oprema

V podporo statistikom so bili razviti številni statistični programi:

  • SAS Institute
  • SPSS (izdelal IBM)

Vprašanja in odgovori

V: Kaj je statistika?


O: Statistika je veja uporabne matematike, ki se ukvarja z zbiranjem, urejanjem, analiziranjem, branjem in predstavljanjem podatkov.

V: Kateri sta dve vrsti statistike?


O: Dve vrsti statistike sta deskriptivna in inferenčna. Opisna statistika je povzetek podatkov, medtem ko inferenčna statistika omogoča napovedovanje.

V: Kako statistika pomaga na drugih področjih?


O: Statistika pomaga pri preučevanju številnih drugih področij, kot so znanost, medicina, ekonomija, psihologija, politika in trženje.

V: Kdo dela na področju statistike?


O: Nekdo, ki dela na področju statistike, se imenuje statistik.

V: Kaj pomeni beseda "statistika"?


O: Poleg tega, da je beseda "statistika" ime področja študija, lahko pomeni tudi številke, ki se uporabljajo za opis podatkov ali razmerij.

V: S katerimi dejavnostmi se ukvarjajo statistiki?


O: Statistiki se ukvarjajo z dejavnostmi, kot so zbiranje, urejanje, analiziranje, branje in predstavljanje podatkov.


Iskati
AlegsaOnline.com - 2020 / 2025 - License CC3