Statistika

Statistika je veja uporabne matematike, ki se ukvarja z zbiranjem, urejanjem, analizo, razlago in predstavitvijo podatkov. Opisna statistika povzema podatke. Inferenčna statistika omogoča napovedovanje. Statistika pomaga pri preučevanju številnih drugih področij, kot so znanost, medicina, ekonomija, psihologija, politika in trženje. Nekdo, ki se ukvarja s statistiko, se imenuje statistik. Poleg tega, da je beseda "statistika" ime področja študija, se nanaša tudi na številke, ki se uporabljajo za opis podatkov ali odnosov.

Zgodovina

Prvi znani statistični podatki so podatki iz popisa prebivalstva. Babilonci so popisovali okoli leta 3500 pred našim štetjem, Egipčani okoli leta 2500 pred našim štetjem, stari Kitajci pa okoli leta 1000 pred našim štetjem.

V 16. stoletju so matematiki, kot je bil Gerolamo Cardano, razvili teorijo verjetnosti, s katero je statistika postala znanost. Od takrat ljudje zbirajo in preučujejo statistične podatke o številnih stvareh. Drevesa, morske zvezde, zvezde, kamni, besede, skoraj vse, kar je mogoče prešteti, je bilo predmet statistike.

Zbiranje podatkov

Preden lahko svet opišemo s statističnimi podatki, moramo zbrati podatke. Podatki, ki jih zbiramo v statistiki, se imenujejo meritve. Ko zberemo podatke, za opis vsakega opazovanja ali meritve uporabimo eno ali več številk. Predpostavimo na primer, da želimo ugotoviti, kako priljubljena je določena televizijska oddaja. Iz celotne populacije gledalcev lahko izberemo skupino ljudi (imenovano vzorec). Nato vsakega gledalca v vzorcu vprašamo, kako pogosto gleda oddajo. Vzorec so podatki, ki jih lahko vidite, populacija pa so podatki, ki jih ne morete videti (ker niste vprašali vsakega gledalca v populaciji). Drug primer: če želimo vedeti, ali lahko določeno zdravilo pomaga pri zniževanju krvnega tlaka, lahko damo zdravilo ljudem za nekaj časa in izmerimo njihov krvni tlak pred in po tem.

Opisna in inferenčna statistika

Številke, ki opisujejo podatke, ki jih lahko vidite, se imenujejo opisna statistika. Številke, ki napovedujejo podatke, ki jih ne morete videti, se imenujejo inferenčna statistika.

Opisna statistika vključuje uporabo številk za opis značilnosti podatkov. Na primer, povprečna višina žensk v ZDA je opisna statistika, ki opisuje značilnost (povprečna višina) populacije (ženske v ZDA).

Ko so rezultati povzeti in opisani, jih je mogoče uporabiti za napovedovanje. To se imenuje sklepalna statistika. Na primer: velikost živali je odvisna od številnih dejavnikov. Nekateri od teh dejavnikov so odvisni od okolja, drugi pa od dednosti. Biolog lahko zato sestavi model, ki pravi, da obstaja velika verjetnost, da bo potomec majhen, če so bili starši majhni. Ta model verjetno omogoča, da se velikost predvidi na boljši način kot z naključnim ugibanjem. Preverjanje, ali je mogoče z določenim zdravilom zdraviti določeno stanje ali bolezen, se običajno opravi tako, da se primerjajo rezultati ljudi, ki dobijo zdravilo, z rezultati ljudi, ki dobijo placebo.

Metode

Statistične podatke najpogosteje zbiramo z anketami ali poskusi. Ena od vrst raziskav je na primer javnomnenjska raziskava. Izberemo majhno število ljudi in jim zastavimo vprašanja. Nato njihove odgovore uporabimo kot podatke.

Izbira posameznikov za raziskavo ali zbiranje podatkov je pomembna, saj neposredno vpliva na statistične podatke. Ko so statistični podatki pripravljeni, ni več mogoče določiti, kateri posamezniki so bili zajeti. Recimo, da želimo izmeriti kakovost vode v velikem jezeru. Če vzamemo vzorce ob odtoku za odpadke, bomo dobili drugačne rezultate, kot če vzorce vzamemo na oddaljenem, težko dostopnem mestu jezera.

Pri odvzemu vzorcev se pogosto pojavljata dve vrsti težav:

  1. Če je vzorcev veliko, bodo verjetno zelo podobni tistim v resnični populaciji. Če pa je vzorcev zelo malo, se lahko zelo razlikujejo od vzorcev v resnični populaciji. Ta napaka se imenuje naključna napaka (glej Napake in ostanki v statistiki).
  2. Posameznike za vzorce je treba skrbno izbrati, običajno so izbrani naključno. V nasprotnem primeru se lahko vzorci zelo razlikujejo od dejanskega stanja v celotni populaciji. To velja tudi v primeru, če je bilo izbranih veliko število vzorcev. Tovrstna napaka se imenuje pristranskost.

Napake

Naključne napake lahko zmanjšamo z večjim vzorcem, z naključno izbiro pa se lahko izognemo nekaterim pristranskostim. Vendar pa je včasih velike naključne vzorce težko sestaviti. Do pristranskosti pa lahko pride, če različnih ljudi ne vprašamo ali če nočejo odgovarjati na naša vprašanja ali če vedo, da so deležni lažnega zdravljenja. Te težave je težko odpraviti. Glej tudi standardna napaka.

Opisna statistika

Iskanje sredine podatkov

Sredina podatkov se imenuje povprečje. Povprečje nam govori o tipičnem posamezniku v populaciji. Pogosto se uporabljajo tri vrste povprečja: povprečje, mediana in modus.

V spodnjih primerih so uporabljeni ti vzorčni podatki:

 Ime | A B C D E F G H I J --------------------------------------------- rezultat| 23 26 49 49 57 64 66 78 82 92

Povprečje

Enačba za srednjo vrednost je

x¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + + x N N {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}} {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}

Pri čemer so x 1 , x 2 , ... , x N {\displaystyle x_{1},x_{2},\ldots ,x_{N}}{\displaystyle x_{1},x_{2},\ldots ,x_{N}} podatki in N {\displaystyle N}{\displaystyle N} velikost populacije. (glejte zapis Sigma).

To pomeni, da seštejete vse vrednosti in jih nato delite s številom vrednosti.

V našem primeru x¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58,6 {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58,6} {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6}

Težava s srednjo vrednostjo je, da ne pove ničesar o tem, kako so vrednosti porazdeljene. Vrednosti, ki so zelo velike ali zelo majhne, zelo spremenijo povprečje. V statistiki so te ekstremne vrednosti lahko napake merjenja, včasih pa populacija res vsebuje te vrednosti. Na primer, če je v sobi 10 ljudi, ki zaslužijo 10 dolarjev na dan, in 1, ki zasluži 1.000.000 dolarjev na dan. Srednja vrednost podatkov je 90 918 USD/dan. Čeprav gre za povprečni znesek, povprečje v tem primeru ni znesek, ki ga zasluži posamezna oseba, zato je za nekatere namene neuporabno.

To je "aritmetična sredina". Za nekatere namene so uporabne tudi druge vrste.

Mediana

Mediana je srednja vrednost podatkov. Da bi našli mediano, podatke razvrstimo od najmanjšega do največjega števila in nato izberemo število na sredini. Če je število podatkov sodo, ne bo številke ravno na sredini, zato izberemo dve srednji in izračunamo njuno sredino. V našem primeru je 10 podatkov, srednji dve sta "57" in "64", zato je srednja vrednost (57+64)/2 = 60,5. Drug primer, kot je bil predstavljen za povprečje dohodka, je primer sobe z 10 ljudmi, ki imajo dohodke 10, 20, 20, 40, 50, 60, 90, 90, 100 in 1.000.000 dolarjev, mediana je 55 dolarjev, ker je 55 dolarjev povprečje dveh srednjih številk, 50 in 60 dolarjev. Če zanemarimo skrajno vrednost 1.000.000 USD, je srednja vrednost 53 USD. V tem primeru je mediana blizu vrednosti, ki jo dobimo, če izločimo skrajno vrednost. Mediana rešuje problem ekstremnih vrednosti, kot je opisan v zgornji opredelitvi sredine.

Način

Način je najpogostejši podatek. Na primer, najpogostejša črka v angleščini je črka "e". Rekli bi, da je "e" način porazdelitve črk.

Če je na primer v sobi 10 ljudi z dohodki 10, 20, 20, 40, 50, 60, 90, 90, 90, 90, 100 in 1.000.000 USD, je način 90 USD, ker se 90 USD pojavi trikrat, vse druge vrednosti pa manj kot trikrat.

Načinov je lahko več. Če je na primer v sobi 10 ljudi z dohodki 10, 20, 20, 20, 20, 50, 60, 90, 90, 90, 90, 100 in 1.000.000 dolarjev, sta načina 20 in 90 dolarjev. To je dvomodalno ali z dvema načinoma. Bi-modalnost je zelo pogosta in pogosto pomeni, da so podatki kombinacija dveh različnih skupin. Na primer, povprečna višina vseh odraslih v ZDA ima dvomodalno porazdelitev. Razlog za to je, da imajo moški in ženske ločene povprečne višine: 1,763 m (5 ft 9 + 1⁄2 in) za moške in 1,622 m (5 ft 4 in) za ženske. Ti vrhovi so vidni, ko obe skupini združimo.

Modus je edina oblika povprečja, ki jo lahko uporabimo za podatke, ki jih ni mogoče urediti.

Ugotavljanje razpršenosti podatkov

Druga stvar, ki jo lahko rečemo o nizu podatkov, je, kako razpršen je. Običajen način za opis razpršenosti niza podatkov je standardni odklon. Če je standardni odklon niza podatkov majhen, je večina podatkov zelo blizu povprečja. Če pa je standardni odklon velik, se veliko podatkov zelo razlikuje od povprečja.

Če podatki sledijo običajnemu vzorcu, ki se imenuje normalna porazdelitev, je zelo koristno poznati standardni odklon. Če podatki sledijo temu vzorcu (rečemo, da so podatki normalno porazdeljeni), bo približno 68 od 100 podatkov odstopalo od povprečja za manj kot standardni odklon. Ne samo to, približno 95 od 100 meritev bo odstopalo od povprečja za manj kot dvakratnik standardnega odklona, približno 997 od 1000 meritev pa bo bližje povprečju kot trije standardni odkloni.

Druge opisne statistike

Statistiko lahko uporabimo tudi za ugotavljanje, da določen odstotek, percentil, število ali delež ljudi ali stvari v skupini nekaj počne ali spada v določeno kategorijo.

Družboslovci so na primer s statističnimi podatki ugotovili, da je 49 % ljudi na svetu moških.

Sorodna programska oprema

V podporo statistikom so bili razviti številni statistični programi:

  • SAS Institute
  • SPSS (izdelal IBM)

Vprašanja in odgovori

V: Kaj je statistika?


O: Statistika je veja uporabne matematike, ki se ukvarja z zbiranjem, urejanjem, analiziranjem, branjem in predstavljanjem podatkov.

V: Kateri sta dve vrsti statistike?


O: Dve vrsti statistike sta deskriptivna in inferenčna. Opisna statistika je povzetek podatkov, medtem ko inferenčna statistika omogoča napovedovanje.

V: Kako statistika pomaga na drugih področjih?


O: Statistika pomaga pri preučevanju številnih drugih področij, kot so znanost, medicina, ekonomija, psihologija, politika in trženje.

V: Kdo dela na področju statistike?


O: Nekdo, ki dela na področju statistike, se imenuje statistik.

V: Kaj pomeni beseda "statistika"?


O: Poleg tega, da je beseda "statistika" ime področja študija, lahko pomeni tudi številke, ki se uporabljajo za opis podatkov ali razmerij.

V: S katerimi dejavnostmi se ukvarjajo statistiki?


O: Statistiki se ukvarjajo z dejavnostmi, kot so zbiranje, urejanje, analiziranje, branje in predstavljanje podatkov.

AlegsaOnline.com - 2020 / 2023 - License CC3