ponedeljek, 2. julij 2018

Velika števila

Priznam, da je bila statistika tako brezpredmetna kot filozofija. Preveč vsega je bilo v zraku in vse nepovezano. Čeprav je marsikdo mislil, da sem jo razumel, oziroma jo obladam, jaz tega občutka nikoli nisem imel. Razumel sem osnove, potem pa se je izgubila vsaka sled. Zato sem v tem mesecu iz zanimanja prebral dve knjigi, da bi jo končno razumel, in lahko zaključim, da je jo je mogoče razdeliti na štiri dele: štetje, porazdelitve, testiranje hipotez in napovedovanje.

Najprej imamo podatke na katerih se izvedejo razne statistike. Statistika v bistvu pomeni kakršno koli operacijo ali skupek operacij nad podatki. Primeri statistk so izračun povprečja, izračun standardnega odklona, izračun interkvartilnega razmika ipd. Na kratko; vse gre po forumulah, kjer pa se sreča prvo izjemo. Kar naenkrat povsod delimo z n (številom podatkov) razen v primeru standardnega odklona, kjer delimo z n minus ena.

Vse te formule pridejo iz formul za cenilke izbrane porazdelitve. Največkrat se za podatke, ki si jo lahko prestavljamo kot tir, kjer je vlak slučajna spremenljivka, predpostavi normalna (Gaussova) porazditev, ki v resničnosti ne obstaja: nikoli ne bomo imeli podatkov iz resničnosti, ki bi tej porazdelitvi ustrezali, torej se v ozadju naredi nekaj predpostavk. Obstaja še cela vrsta porazdelitev, znana je naprimer: Studentova t-porazdelitev, in iz porazdelitev slučajnih spremenljivk nastanejo testi.

Testiranje hipotez sestoji iz ničelne hipoteze in alternativne. Pri ničelni hipotezi se vedno testira enakost z neko vrednostjo, zato so alternativne vedno enostanske ali obojestranske. Dve strani obstajajata zaradi intervala zaupanja, ta pa je odvisen od stopnje tveganja oziroma stopnje značilnosti. Če naš test zadane interval, nam test ničesar ne pove; če ne zadane, hipotezo zavrnemo. Ker se v nekaterih izračunih intervalov pojavljajo magične vrednosti, je testiranje eno samo preračunavanje po receptih, skratka nič zanimivega, naprimer iz Studentove t-porazdelitve nastane t-test, ki se uporablja za testiranje pričakovane vrednosti, kadar standardni odklon ni znan. Če je pa znan, pa se uporabi z-test. Čisti recepti. Nekaj več dela je z t.i. multivariatno analizo, kjer se primerja dve porazdelitvi ali več, ampak zopet gre vse po formulah.

Zadnja stvar, napovedovanje, je še najbolj zanimivo. Nekateri temu rečejo regresija. Postopki pa so popolnoma enaki tistim, ki jih v geodeziji poznajo pod pojmom izravnalni račun. K napovedovanju spada tudi umetna inteligenca, kjer je največji izziv podatke; naprimer sliko; pretvoriti v števila in potem nazaj.

Toliko o tem.

Ni komentarjev:

Objavite komentar