U ovom tekstu, fokusirat ćemo se na uzorke i uzorkovanje te važnost reprezentativnog uzorka. Potom ćemo se osvrnuti na središnji granični teorem i sampling distribucije te njihovo značenje kroz praktični primjer. Nakon toga razmatramo intervalnu procjenu prosjeka i proporcije, ali i vezane teorijske distribucije koje su potrebne za razumijevanje. Osvrnut ćemo se i na koncpet razine pouzdanosti i interpretaciju intervala pouzdanosti.

O uzorcima

Jedna od vrlo važnih odluka u svakom istraživanju je odabir uzorka. Odabrani uzorak mora biti reprezentativan za populaciju, to jest, mora sadržavati bitne karakteristike populacije. Dakle, cilj je da uzorak, odnosno podskup odabran iz populacije, na najbolji mogući način predstavlja cijelu populaciju. Populacija uključuje sve članove ili elemente koje istraživanje nastoji opisati, dok je uzorak manji dio populacije koji se koristi za prikupljanje podataka i donošenje zaključaka. Ako je uzorak reprezentativan, znači da su njegovi članovi odabrani na način koji osigurava da uzorak zadržava bitne karakteristike populacije. Drugim riječima, reprezentativan uzorak odražava demografske, socioekonomske, ponašajne i druge relevantne karakteristike cijele populacije.

Zašto je to važno? Ako uzorak nije reprezentativan, rezultati dobiveni analizom mogu biti pristrani ili pogrešni. Na primjer, ako istražujemo prosječnu potrošnju kućanstava u nekoj zemlji, uzorak koji uključuje samo kućanstva iz urbanih sredina ne bi bio reprezentativan za cijelu populaciju jer ne uključuje karakteristike i potrošačke obrasce ruralnih područja. U tom slučaju, zaključci doneseni iz takvog uzorka ne bi se mogli primijeniti na cijelu populaciju.

Slično, ako netko za istraživanje odabere samo svoje poznanike za uzorak, tada se rezultati vjerojatno neće moći smatrati reprezentativnima za cijelu populaciju koju istraživanje nastoji opisati. Ovakav način odabira uzorka naziva se prigodni uzorak i može dovesti do nekoliko problema:

  • Pristranost uzorka: Ovdje se ne misli samo na pristranost u obliku razlike između pokazatelja uzorka i parametra populacije. Prigodni uzorak često uvodi dodatne oblike pristranosti jer sudionici mogu dijeliti slične karakteristike (poput sličnog obrazovanja, životnog stila, interesa ili socioekonomskog statusa) zbog povezanosti s istraživačem. To znači da uzorak neće odražavati stvarnu raznolikost populacije. Na primjer, ako osoba odabire samo svoje prijatelje za istraživanje o potrošačkim navikama, zaključci bi mogli odražavati samo stil potrošnje te specifične grupe, a ne širu populaciju.

  • Ograničena generalizacija: S obzirom na to da uzorak nije reprezentativan, rezultati istraživanja se ne smiju generalizirati na širu populaciju. Zaključci istraživanja mogli bi se odnositi samo na grupu poznanika istraživača, a ne na sve članove populacije.

  • Niža vjerodostojnost istraživanja: Kada uzorak nije reprezentativan, rezultati istraživanja mogu biti osporavani zbog nedostatka objektivnosti i pristranosti uzorka, što može smanjiti vjerodostojnost istraživanja.

Povežimo ovo s percepcijom prosječne plaće. Na primjer, prema objavi iz Narodnih novina, „Prosječna mjesečna isplaćena neto plaća po zaposlenome u pravnim osobama Republike Hrvatske za razdoblje siječanj – kolovoz 2024. iznosila je 1302 eura“. Za kreiranje cjelovite slike, ovdje su prikazani kvartili plaća za kolovoz 2024 (u kunama) iz publikacije Državnog zavoda za statistiku Prosječne mjesečne neto i bruto plaće zaposlenih za kolovoz 2024. Sad već znamo protumačiti što znači razlika između medijana i prosjeka.

No, ovdje nije fokus na tumačenju distribucije plaća, nego kreiranju percepcija o plaćama, kao ilustraciju percepcija koje možemo imati vezano za bilo koju karakteristiku populacije. Kad stvaramo percepciju o prosječnoj plaći u društvu na temelju primanja ljudi koje poznajemo, naš zaključak može biti značajno iskrivljen ako ti ljudi ne predstavljaju u potpunosti širu populaciju. Na primjer, ako netko često komunicira s osobama koje imaju niže plaće od prosjeka, možda će stvoriti percepciju da su primanja u društvu općenito niža nego što zaista jesu. Kad čuju stvarni podatak o prosječnoj plaći, koja može biti viša od onoga što vide među svojim poznanicima, lako će pomisliti da je ta brojka pogrešna ili nerealna i da ne opisuje stvarno stanje. U ovom slučaju, pristran uzorak može navesti pojedinca da misli kako je prosječna plaća previsoka u odnosu na stvarnost. Suprotan efekt javlja se ako se osoba druži uglavnom s ljudima koji imaju znatno veće plaće od prosjeka. Njihova percepcija prosječne plaće tada može biti iskrivljena prema višim primanjima. Kada dođu do podatka o prosječnoj plaći koji je značajno niži od onoga što vide u svom krugu, mogli bi zaključiti da su prosječne plaće nerealno niske. Pristranost nastaje jer visoka primanja prijatelja i poznanika stvaraju dojam da bi prosječna plaća trebala biti bliža onome što oni u svojoj okolini primjećuju. Oba primjera pokazuju kako naš uzorak, odnosno skup ljudi iz našeg društvenog kruga, može oblikovati naše razumijevanje stvarnosti i utjecati na to kako percipiramo prosječnu plaću. Ako pogledamo publikacije Hrvatska u brojkama 2024., možemo vidjeti i da postoje razlike u plaći s obzirom na spol i sektor, a znamo da postoje i sezonske fluktuacije u plaćama zbog turizma, pa će potencijalno i vrijeme u godini utjecati na našu percepciju (ali i rezultate ako bismo prikupljali podatke o plaćama). Sve to, ali i druge stvari mogu utjecati na percepciju plaća. Ove pristranosti u percepciji nastaju jer naši društveni krugovi, u pravilu, nisu reprezentativni za cijelu populaciju – oni ne odražavaju sve socioekonomske slojeve i njihove karakteristike u društvu. Kada istražujemo društvene pojave, poput prihoda ili plaća, važno je koristiti reprezentativan uzorak kako bismo izbjegli ove pristranosti i dobili što točniju sliku stvarnosti.

Oblici pristranosti u uzorcima:

  • Samoizabrani uzorak (engl. self-selection bias): Ovdje sudionici sami odlučuju hoće li sudjelovati u istraživanju, što znači da u istraživanju sudjeluju oni koji su najviše motivirani ili zainteresirani za temu. To može dovesti do rezultata koji nisu reprezentativni za širu populaciju jer ljudi koji se sami jave često imaju specifična (ekstremna) mišljenja ili interese u vezi s temom.

  • Pristranost zbog izostanka odgovora (engl. non-response bias): Kada određeni dio populacije ili odabranih ispitanika ne odgovori na upitnik ili odbije sudjelovati u istraživanju, rezultati će se temeljiti samo na odgovorima onih koji su odlučili sudjelovati. Time se stvara iskrivljena slika o cijeloj populaciji, jer oni koji su izostavljeni mogu imati drugačija mišljenja ili karakteristike od onih koji su odgovorili.

  • Pristranost uzorka zbog pristupačnosti (engl. accessibility bias): Kada istraživač bira sudionike koji su mu najlakše dostupni (npr., samo ljude iz svoje tvrtke ili prijatelje), postoji rizik da uzorak neće dobro predstavljati širu populaciju. Ljudi s kojima istraživač lakše dolazi u kontakt mogu dijeliti specifične karakteristike koje neće biti prisutne u općoj populaciji.

  • Pristranost u okvirnoj populaciji (engl. sampling frame bias): Ova pristranost javlja se kad popis (okvir) iz kojeg se uzorak bira ne pokriva adekvatno cijelu populaciju. Na primjer, istraživanje koje koristi telefonski imenik isključit će sve osobe koje nisu upisane u imenik, što može rezultirati neprikladnim uzorkom.

  • Geografska pristranost (engl. geographical bias): Ako uzorak dolazi samo iz određenog geografskog područja, može odražavati specifične karakteristike toga područja, što rezultira ograničenim zaključcima za širu populaciju. Na primjer, istraživanje stavova o klimatskim promjenama provedeno u ruralnim područjima može dati drukčije rezultate od onog provedenog u urbanim sredinama.

  • Pristranost u vremenskom periodu (engl. temporal bias): Ako se istraživanje provodi u specifičnom vremenskom razdoblju (npr., tijekom praznika ili određenog događaja), rezultati mogu biti utjecani specifičnim okolnostima toga perioda i ne odražavati trajne karakteristike populacije.


Načini uzorkovanja

Načini uzorkovanja koji mogu dovesti do pristranosti:

  • Prigodni uzorak

    • Odabir ispitanika temelji se na njihovoj dostupnosti: istraživač može intervjuirati ljude koje sreće u trgovačkom centru; novinar intervjuira osobe zatečene na trgu tijekom prosvjeda; ispituje se zadovoljstvo pacijenata zatečenih u čekaonici u 13 h; studenti anketiraju svoje kolege.
    • Prednost: Lako i brzo za primjenu. Može biti primjereno za eksploracijska i preliminarna istraživanja (treba opravdati).
    • Nedostatak: Vrlo pristrano jer ne predstavlja širu populaciju, već samo dostupne osobe.
  • Kvotni uzorak

    • Populacija se dijeli na podskupine, a zatim se odabire unaprijed određen broj (kvota) iz svake podskupine: istraživač može odabrati po 50 muškaraca u dobi do 30 godina, 50 muškaraca u dobi od 30 do 50 godina, 50 muškaraca u dobi iznad 50 godina, 50 žena u dobi do 30 godina, 50 žena u dobi od 30 do 50 godina i 50 žena u dobi iznad 50 godina za uzorak, bez obzira na način njihova odabira.
    • Prednost: Omogućuje kontrolu nad zastupljenošću ključnih podskupina. Često se primjenjuje pri istraživanjima tržišta. Uz dovoljno veliki uzorak i kontrolu nad dovoljnim brojem karakteristika (npr. dob, spol, razina obrazovanja, plaća, mjesto stanovanja, sektor rada), može dati slične rezultate kao stratificirani uzorak.
    • Nedostatak: Pristrano jer se temelji na proizvoljnom, najčešće prigodnom odabiru unutar podskupina.
  • Prosudbeni uzorak

    • Istraživač odabire ispitanike za koje vjeruje da su reprezentativni za populaciju. Na primjer, ako istraživač želi proučavati stavove prema reciklaži, može intervjuirati ljude za koje smatra da su ekološki osviješteni. Posebni slučaj prosudbenog uzorka su osobe sa specifičnim znanjima ili interesima. Ako ih je malo, prosudbeni uzorak može predstavljati i populaciju (na primjer, svi suci Ustavnog suda; svi članovi savjetodavnog odbora koji savjetuje vladu o pandemijskim mjerama, svi istraživači u području arheologije ledenjaka i sl.).
    • Prednost: Može biti korisno u specifičnim istraživačkim slučajevima, gdje se istražuje vrlo specifično područje i samo ispitanici odabrani na taj način mogu uopće dati odgovor na pitanja.
      • Nedostatak: Visoka mogućnost pristranosti jer ovisi o subjektivnom sudu istraživača u slučaju da uzorak nije jednak populaciji.
  • Uzorkovanje metodom grude snijega

    • Prva osoba odabrana za uzorak preporučuje drugu, koja zatim preporučuje sljedeću, i tako dalje. Ova se metoda često koristi kod teško dostupnih populacija, poput osoba koje koriste određene usluge ili pripadnika specifičnih subkultura.
    • Prednost: Učinkovito za dosezanje rijetkih ili teško dostupnih populacija.
    • Nedostatak: Uzorak može biti vrlo pristran jer ovisi o poznanstvima i preporukama.

Na koji način onda treba odabrati uzorak? Svi ranije navedeni oblici uzorkovanja su bez primjene vjerojatnosti. Načini uzorkovanja koji doprinose odabiru reprezentativnog uzorka su oni uz primjenu vjerojatnosti, što još zovemo i slučajno uzorkovanje.

Da bismo razumjeli razliku između slučajnog i arbitrarnog odabira, važno je shvatiti što znači slučajnost u statistici i istraživanju. Iako svakodnevno koristimo riječi slučajno, nenamjerno, arbitrano i proizvoljno kao sinonime, one imaju vrlo različita značenja u kontekstu istraživanja i statističkih metoda.

Arbitrarni, proizvoljni ili namjerni odabir znači da osoba koja bira uzorak subjektivno odlučuje o tome tko će biti uključen, bez ikakvog sustava ili pravila koje osigurava jednaku vjerojatnost. Ovaj pristup uvodi pristranost jer osoba može, svjesno ili nesvjesno, favorizirati određene članove populacije. Ako, na primjer, istraživač bira uzorak prema vlastitom nahođenju ili preferencijama, odabir zapravo nije slučajan, nego proizvoljan.

Slučajni odabir znači da su svi članovi populacije imali jednaku vjerojatnost biti odabrani u uzorak. Drugim riječima, prilikom odabira uzorka koristimo određeni sustav ili postupak kako bismo osigurali jednakost tih šansi. Taj sustav može uključivati nasumično (random) odabrane brojeve, softver za generiranje slučajnih brojeva, ili metode poput izvlačenja kuglica s imenima. Ovim pristupom smanjujemo mogućnost pristranosti, što je preduvjet za pouzdanost rezultata.

  • Jednostavni slučajni uzorak

    • Ovdje svaki član populacije ima jednaku šansu biti odabran. Primjer bi bio izvući imena iz šešira kako bismo formirali uzorak studenata u razredu. U praksi se češće koristi generator slučajnih brojeva dostupan u softverima kao što su R ili MS Excel.
    • Prednost: U velikoj mjeri eliminira pristranost.
    • Nedostatak: Potreban je popis svih članova populacije iz kojeg se bira uzorak te može biti teško primjenjiv kod velikih populacija gdje nije praktično ili moguće imati popis svih članova.
  • Sistematski slučajni uzorak

    • Uzorkovanje se provodi odabirom svake n-te jedinice iz populacije, nakon slučajnog odabira prve jedinice. Na primjer, odabiremo svakog 10. posjetitelja muzeja.
    • Prednost: Ova metoda je jednostavnija za primjenu i štedi vrijeme.
    • Nedostatak: Ako postoji obrazac u populaciji koji se poklapa s intervalom uzorkovanja, to može dovesti do pristranosti (npr., ako svaki 10. posjetitelj ima slične karakteristike).
  • Stratificirani uzorak

    • Populacija se dijeli u podskupine (strate) na temelju relevantnih karakteristika (npr., dob, spol). Te relevantne karakteristike je izuzetno važno pravilno odrediti s obzirom na predmet istraživanja. Na primjer, ako se ispituju uvjeti rada zaposlenika škola, u obzir je potrebno uzeti geografsku zastupljenost škola po županijama, veličine škola prema broju učenika i zaposlenika i sl. Zatim se iz svake podskupine uzima slučajni uzorak u proporciji u kojoj se oni pojavljuju u populaciji.
    • Prednost: Povećava reprezentativnost jer osigurava da su sve ključne podskupine zastupljene u proporcionalnoj mjeri u kojoj su zastupljene u populaciji.
    • Nedostatak: Zahtijeva dodatne informacije o populaciji kako bi se definirale podskupine.
  • Uzorak skupina (klaster uzorak)

    • Populacija se dijeli na skupine ili klastere, a zatim se nasumično odabere nekoliko skupina. Svaka osoba unutar odabranih skupina postaje dio uzorka. Primjer bi bio odabrati nekoliko škola i intervjuirati sve učenike u tim školama.
    • Prednost: Učinkovito za velike i geografski disperzirane populacije.
    • Nedostatak: Skupine (klasteri) mogu se razlikovati jedna od druge, što može utjecati na reprezentativnost uzorka.

No, slučajni uzorak nije garancija reprezentativnosti. Iako slučajno odabran uzorak povećava šanse za reprezentativnost, postoje dodatni faktori koji moraju biti zadovoljeni kako bi uzorak doista vjerno predstavljao populaciju.

Veličina uzorka

Što je uzorak veći, veća je vjerojatnost da će pokriti različite karakteristike populacije. Premali uzorak može slučajno uključiti samo određene podskupine populacije, što može dovesti do iskrivljenih rezultata. Statistički je dokazano da veći uzorci smanjuju slučajne varijacije, ali se ipak mora paziti na efekt diminishing returns – kad određena veličina već pokriva populaciju dovoljno dobro, daljnje povećavanje može donijeti samo minimalne koristi dok povećava troškove i vrijeme provedbe. Što se tiče veličine uzorka, postoji općeprihvaćen pristup. Za određivanje veličine uzorka nužno je znati veličinu populacije, razinu povjerenja i postotnu pogrešku procjene (margin of error).

Postoje online kalkulatori za utvrđivanje potrebne veličine uzorka:

Sample size calculator

Sample size calculator & complete guide

S obzirom da utvrđivanje uzoraka podrazumijeva korištenje veličina o kojima ćemo učiti tek nešto kasnije, za sad se kao orijentir može koristiti sljedeća tablica:

Tablica 1. Veličine populacije i uzorka

Veličina populacije Veličina uzorka
200 132
500 218
1000 278
2000 323
5000 357
10000 370
50000 382
100000 383
1000000 385
5000000 385

Dakle, ako je veličina populacije 200, tada će reprezentativni uzorak imati najmanje 132 ispitanika. Ako je veličina populacije 1000000 ili veća, tada će reprezentativni uzorak činiti najmanje 385 ispitanika. Pretpostavlja se da je razina povjerenja 95%, a pogreška testiranja 5% (o tome nešto više kasnije). Također, pretpostavlja se da bar 50% populacije posjeduje karakteristiku koju želimo mjeriti. Uz veličinu populacije, to su parametri koji se mogu podesiti u online kalkulatorima.

Raznolikost unutar uzorka

Reprezentativnost se povećava ako uzorak uključuje sve važne varijable populacije, poput demografskih, socioekonomskih i drugih relevantnih karakteristika. Ako, primjerice, istražujemo stavove građana u Hrvatskoj, uzorak bi trebao uključivati ljude različitih dobnih skupina, razina obrazovanja, regija i socioekonomskih statusa.

Odsutnost pristranosti

Slučajnost u odabiru nije dovoljna ako postoji kakva druga pristranost u procesu prikupljanja podataka, tumačenju rezultata ili načinu postavljanja pitanja. Primjerice, ako se istraživanje provodi putem fiksnog telefona, isključuje se dio populacije koji nema fiksni telefon, što može dovesti do pristranih rezultata. Prije 15ak-20ak godina, takva je situacija bila vezana uz pristup internetu.


Također, izuzetno je važno na koji su način postavljena pitanja. Evo nekoliko primjera pogrešno postavljenih pitanja:


Primjer: S obzirom na to da su stručnjaci dokazali da redovita tjelovježba poboljšava zdravlje, slažete li se da je važno vježbati svaki dan?

Problem: Ovo pitanje sadrži sugestiju koja ispitanika navodi na pozitivan odgovor. Bolji oblik pitanja bio bi neutralan, npr. Smatrate li da je važno vježbati svaki dan? kako bi ispitanik mogao odgovoriti bez pritiska.


Primjer: Slažete li se da je važno da djeca jedu zdravo ili mislite da to nije presudno?

Problem: Ako se očekuje odgovor da ili ne, ponuđena alternativa zbunjuje i otežava jasno odgovaranje. Jasnije bi bilo postaviti pitanje u obliku Smatrate li da je važno da djeca jedu zdravo? s ponuđenim odgovorima da ili ne.


Primjer: Koliko sati tjedno vaš susjed provodi vježbajući?

Problem: Ispitanik najvjerojatnije nema točne podatke o navikama svog susjeda. Ovakva pitanja stvaraju nelagodu ili neprecizne odgovore. Pitanje bi trebalo biti postavljeno tako da ispitanik može odgovoriti o vlastitom iskustvu, npr. Koliko sati tjedno vi provodite vježbajući?


Primjer: Označite u kojoj se mjeri slažete s izjavom: Dobra organizacijska klima potiče moju produktivnost.

Ponuđeni odgovori: \(\bigcirc\) Uvijek; \(\bigcirc\) Vrlo često; \(\bigcirc\) Ponekad; \(\bigcirc\) Rijetko; \(\bigcirc\) Nikad.

Problem: Ovdje postoji nepovezanost između pitanja i mjerne ljestvice. Mjerna ljestvica ispituje učestalost, a u pitanju se traži iskaz slaganja. To može nepotrebno otežati odgovor na pitanje, ali i dovesti do pogrešnoj razumijevanja pitanja. Osim toga, pri tumačenju rezultata ovo bi stvorilo poteškoće. Ovdje bi primjerenija ljestvica bila klasična Likertova skala s 5 razina: \(\bigcirc\) U potpunosti se ne slažem; \(\bigcirc\) Donekle se ne slažem; \(\bigcirc\) Niti se slažem niti ne slažem; \(\bigcirc\) Donekle se slažem; \(\bigcirc\) U potpunosti se slažem.


Primjer: Slažete li se da bi u školama trebalo poboljšati nastavu tjelesnog odgoja i uvesti zdravije obroke?

Problem: Ispitanik može imati različite stavove o nastavi tjelesnog odgoja i školskim obrocima, pa je teško odgovoriti jednim odgovorom. Bolje bi bilo razdvojiti na dva pitanja: Slažete li se da bi u školama trebalo poboljšati nastavu tjelesnog odgoja? i Slažete li se da bi u školama trebalo uvesti zdravije obroke?


Primjer: Plaće su preniske i zato se medicinsko osoblje iseljava!

Problem: Problem s ovakvom izjavom je što ne predstavlja pitanje, nego zaključak – to je tvrdnja koja unaprijed pretpostavlja uzrok (niske plaće) kao jedino objašnjenje iseljavanja medicinskog osoblja. Takav pristup ograničava istraživanje i može dovesti do pristranih rezultata jer ne omogućuje ispitanicima da iznesu vlastite perspektive ili druge moguće razloge. Bolji pristup bio bi postaviti pitanje na neutralan način koji ne pretpostavlja uzrok iseljavanja, već omogućuje ispitanicima da sami navedu razloge. Na primjer, Koji su, prema vašem mišljenju, glavni razlozi iseljavanja medicinskog osoblja? ili U kojoj mjeri smatrate da su plaće razlog iseljavanja medicinskog osoblja? Ovakva pitanja omogućuju preciznije i nepristrane odgovore te bolje razumijevanje svih mogućih faktora koji utječu na iseljavanje medicinskog osoblja, uključujući radne uvjete, profesionalne prilike, kvalitetu života i druge moguće razloge.


Primjer: Jeste li za to da se implementira decentralizirana mreža za optimizaciju komunikacijskih kanala?

Problem: Ako ispitanici nisu stručnjaci u tom području, pitanje će biti nejasno i može dovesti do nasumičnih odgovora. Jednostavniji i jasniji oblik bio bi: Smatrate li da bi trebalo unaprijediti mrežu za bolje povezivanje unutar organizacije?


Primjer: Koliko zarađujete mjesečno?

Problem: Pitanje može biti preosobno i izazvati nelagodu, što vodi do izbjegavanja odgovora ili davanja netočnih podataka. Bolje bi bilo pružiti kontekst i eventualno omogućiti anonimnost: Odaberite interval u kojem se nalazi Vaša mjesečna plaća.


Primjer: Smatrate li da je obrazovni sustav dobar?

Problem: Pitanje je neprecizno i može izazvati različita tumačenja. Jasnije bi bilo specificirati područje: Smatrate li da je obrazovni sustav dobar u pripremi učenika za tržište rada?


Ovdje su ilustrirane neke od najčešćih grešaka pri postavljanju pitanja koje vode ka pristranosti prikupljenih podataka, pa tako i izračunatih pokazatelja temeljem tih podataka. Dakle, da bismo izbjegli pristranost, moramo paziti na način prikupljanja podataka, pitanja i tumačenja odgovora.

Niska stopa pogrešaka zbog izostanka odaziva

Ako se veći dio slučajno odabranih ispitanika ne odazove ili odbije sudjelovati, moguće je da određen tip ispitanika nije zastupljen u prikupljenim podacima, što može narušiti reprezentativnost. Na primjer, ako istražujemo stavove zaposlenih, ali u uzorku imamo velik broj ispitanika koji su se odazvali jer rade u određenoj industriji, to može utjecati na rezultate.

Prilagođenost specifičnim populacijama

Za neke populacije, potrebno je koristiti složenije tehnike uzorkovanja, poput stratificiranog uzorkovanja. Ako znamo da u populaciji postoje određene ključne skupine koje su važne za istraživanje (npr. različiti socioekonomski slojevi, regije ili etničke skupine), ponekad je potrebno osigurati da svaka od tih skupina bude zastupljena u uzorku proporcionalno.

Slučaj: Nekretnine

Sad ćemo se ponovo pozabaviti skupom podataka o nekretninama. Za potrebe ovog primjera, ovdje tretiramo skup podataka sa 1728 opažanja kao populaciju i bavit ćemo se samo varijablom cijene. Podsjetimo se izračunatih vrijednosti za tu varijablu.

Tablica 2. Pokazatelji deskriptivne statistike varijable cijena nekretnina

Descriptive statistics Price
Valid 1728
Missing 0
Minimum 5000
Maximum 775000
Modeᵃ 120000
Median 189900
25th Percentile 145000
75th Percentile 259000
Mean 211966.7054
Variance 9.6907×10⁹
Std. Deviation 98441.3910
IQR 114000
Range 770000
Skewness 1.5777
Kurtosis 4.1915

More than one mode exists, only the first is reported. Calculated with JASP.

Sve su ove mjere već tumačene u ranijim štivima te se sad neće ponavljati.

Zamislimo sad istraživača koji živi u SAD-u i zanima ga tema nekretnina, posebice cijene kuća i stanova u njegovoj regiji. Budući da poznaje mnogo ljudi, odlučuje započeti svoje istraživanje tako što će prikupiti podatke od svojih prijatelja i poznanika. Istraživač prikuplja podatke o vrijednosti nekretnina u svom društvenom krugu, pitajući svoje prijatelje koliko bi procijenili vrijednost svoje nekretnine. Kao rezultat, prikupio je 100 odgovora.

Tablica 3. Pokazatelji deskriptivne statistike uzorka varijable cijena nekretnina (n=100)

Pokazatelji Uzorak
Valid 100
Missing 0
Modeᵃ 220000
Median 156000
Mean 165141.1000
Std. Deviation 38410.4636
IQR 54375
Variance 1.4754×10⁹
Skewness 0.4340
Kurtosis -0.6793
Range 149235
Minimum 100600
Maximum 249835
25th Percentile 137975
75th Percentile 192350

ᵃ More than one mode exists, only the first is reported.

Napomena: Svi postupci uzorkovanja koji se prikazuju ovdje i u nastavku teksta provedeni su koristeći R i funkcije za odabir (slučajnog) uzorka.

Međutim, budući da su svi prijatelji istraživača u sličnoj socioekonomskoj situaciji, ovaj uzorak nije reprezentativan za cijelu populaciju nekretnina. Ograničavanje uzorka na prijatelje i poznanike istraživača može stvoriti pristranost jer su vrijednosti kuća u njegovom uzorku možda blizu određenog raspona, tj. između cca 100,000 i 250,000 dolara, što ne predstavlja široki spektar cijena nekretnina u zemlji, koji se prema originalnom skupu podataka kreće od 5000 do 775000$).




Prilikom usporedbe s populacijom, istraživač primjećuje da su i prosječne cijene u njegovom uzorku nešto niže u usporedbi s cijelom populacijom jer se ograničio na vrijednosti koje odgovaraju nekretninama njegovih poznanika. Ova pristranost može dovesti do iskrivljenih zaključaka o prosječnoj vrijednosti nekretnina u regiji ili zemlji.

Istraživač je ponovio prikupljanje podataka još četiri puta na isti način, ali je svaki put dobio slične pokazatelje. Možda su to zapravo pravi pokazatelji populacije? Jer, jednom može biti greška, ali pet puta dobiti slične rezultate čini se kao pravilnost, a ne greška, zar ne? Ne, zato jer se radi o prigodnom uzorku. Istraživač je svaki put primijenio istu metodu i ispitanike tražio samo među svojim poznanicima.

Tablica 4. Pokazatelji deskriptivne statistike pet uzoraka varijable cijena nekretnina (n=100, svaki)

Pokazatelji Uzorak1 Uzorak2 Uzorak3 Uzorak4 Uzorak5
Valid 100 100 100 100 100
Missing 0 0 0 0 0
Modeᵃ 220000 120000 225000 135000 165000
Median 156000 169950 161000 167000 173000
Mean 165141.1000 173141.4000 165987.2600 169286.9100 175806.8800
Std. Deviation 38410.4636 42549.5691 41642.8311 37147.5380 37780.3111
IQR 54375 74050 66850 60366 50900
Variance 1.4754×10⁹ 1.8105×10⁹ 1.7341×10⁹ 1.3799×10⁹ 1.4274×10⁹
Skewness 0.4340 0.1436 0.3175 0.2964 0.0580
Kurtosis -0.6793 -1.2221 -0.9048 -0.8879 -0.5842
Range 149235 146730 147900 142500 147800
Minimum 100600 102500 102000 107400 101000
Maximum 249835 249230 249900 249900 248800
25th Percentile 137975 136125 132375 135900 150000
75th Percentile 192350 210175 199225 196266 200900

ᵃ More than one mode exists, only the first is reported.

Ovaj primjer ilustrira koliko je važno koristiti reprezentativan uzorak. Prikupljanjem podataka samo iz svog društvenog kruga, istraživač riskira dobiti zaključke koji se odnose samo na specifičnu skupinu nekretnina (odnosno njihovih kupaca), dok mu možda promiču važne informacije o širem tržištu. Korištenje pristranog uzorka može dovesti do toga da istraživač podcijeni ili precijeni stvarnu prosječnu cijenu nekretnina u populaciji.




No, recimo da, nakon što smo prepoznali da je istraživač učinio pogrešku pristranosti, na slučajan način, odabiremo iz populacije (originalni skup podataka o nekretninama) 10 uzoraka veličine 100 te izračunavamo pokazatelje radi usporedbe.

Tablica 5. Pokazatelji deskriptivne statistike deset uzoraka varijable cijena nekretnina (n=100, svaki)

Pokazatelji Uzorak1 Uzorak2 Uzorak3 Uzorak4 Uzorak5 Uzorak6 Uzorak7 Uzorak8 Uzorak9 Uzorak10
Valid 100 100 100 100 100 100 100 100 100 100
Missing 0 0 0 0 0 0 0 0 0 0
Modeᵃ 130000 155000 135000 210000 120000 95000 120000 135000 169900 165000
Median 181926.5 189750 183140 201450 200000 184185 175000 180000 183675 194500
Mean 213963.97 218671.53 202749.12 210095.66 210112.92 223426.99 198939.04 208297.07 208488.86 223426.64
Std. Deviation 109766.8707 106581.0052 80421.9638 87891.3965 97570.4232 126955.4301 109918.0966 101284.2917 93541.6434 106717.3484
IQR 126200 130092.75 115921.5 127000 119225 119450 88025 135125 107316.25 110425
Variance 1.2049×10⁹ 1.1360×10⁹ 6.4677×10⁹ 7.7249×10⁹ 9.5200×10⁹ 1.6118×10¹⁰ 1.2082×10¹⁰ 1.0259×10¹⁰ 8.7500×10⁹ 1.1389×10¹⁰
Skewness 1.4336 1.7450 0.8292 0.4879 0.9481 1.8516 2.2239 1.2773 1.3098 1.9301
Kurtosis 2.2393 6.0287 0.3788 -0.1015 1.1419 4.2013 6.2497 2.3043 2.5703 6.4288
Range 563000 755000 411500 438700 497700 714700 659700 600000 572185 680100
Minimum 62000 5000 64500 10300 10300 10300 10300 25000 25000 79900
Maximum 625000 760000 476000 449000 508000 725000 670000 625000 597185 760000
Q1 139975 147407.25 139675 138000 137000 147925 131975 138000 148908.75 160000
Q3 266175 277500 255596.5 265000 256225 267375 220000 273125 256225 270425

ᵃ More than one mode exists, only the first is reported.

Slučajni uzorci iz populacije, s druge strane, imaju prosječne vrijednosti koje su bliže prosjeku originalnog skupa. Aritmetičke sredine ovih slučajnih uzoraka kreću se između 198939 i 223426 dolara, što je bliže prosjeku ‘cijele populacije’ (sjećate se, još uvijek zamišljamo da cjeloviti skup cijena nekretnina od 1728 opažanja predstavlja populaciju) i pokazuje da bolje predstavljaju cijeli raspon cijena nekretnina. Nasuprot ovim pokazateljima, uzorci prikupljeni od poznanika imaju prosječne cijene koje su značajno niže od prosjeka originalne populacije.

Slučajni uzorci imaju širi raspon cijena, često prelazeći 600000 dolara, što ukazuje na to da slučajni uzorci obuhvaćaju širi spektar nekretnina, uključujući i one ekstremne vrijednosti te bolje predstavljaju cijelu populaciju. Raspon varijacija u uzorcima poznanika je značajno uži (oko 100000 - 250000 dolara) u usporedbi s originalnim skupom podataka, gdje raspon varijacija cijena iznosi 770000 dolara. To ukazuje na ograničenje u cjenovnom spektru koji uzorci poznanika pokrivaju.

Uzorci poznanika imaju vrijednosti asimetrije (skewness) koje su znatno niže od onih u originalnom skupu podataka (1,578), što sugerira da su ekstremno visoke cijene manje zastupljene u uzorcima poznanika. Slučajni uzorci, međutim, pokazuju veću varijabilnost asimetrije, pri čemu neki uzorci imaju visoku pozitivnu asimetriju (iznad 1,5) i time bolje reflektiraju raspodjelu cijena u populaciji koja također ima izdužen desni krak.

Mjera zaobljenosti u uzorcima poznanika je uglavnom negativna ili blizu nule, što sugerira da ove distribucije imaju spljošteniji oblik. To može biti posljedica nedostatka ekstremno visokih ili niskih vrijednosti u ovom skupu, što rezultira manje izraženim vrhom distribucije. Kod slučajnih uzoraka, vrijednosti kurtosis variraju, pri čemu neki uzorci dosežu visoku vrijednost zaobljenosti (iznad 4), što više nalikuje originalnom skupu podataka (kurtosis od 4,1915). Ova varijabilnost sugerira da slučajni uzorci imaju veću tendenciju obuhvatiti nekretnine iz oba kraja cjenovnog spektra, čime bolje odražavaju stvarnu raspodjelu cijena.

Sad nam je još jasnije da uzorci poznanika očito pokazuju pristranost jer obuhvaćaju samo srednji dio cjenovnog spektra i ne uključuju jeftinije ili skuplje nekretnine. To znači da bi zaključci temeljeni na tim uzorcima bili ograničeni i nereprezentativni za cijelu populaciju nekretnina. Ali, vidimo i da uzorci ne moraju biti takvi.

Slučajni uzorci pokazuju veću raznolikost u statističkim pokazateljima, pri čemu su njihove vrijednosti bliže izračunatim vrijednostima za originalan skup podataka, što ukazuje na bolju reprezentativnost u odnosu na cijelu populaciju. Ovi uzorci daju precizniju sliku cjenovnog raspona, asimetrije, zaobljenosti i drugih karakteristika populacije te bi rezultati temeljeni na njima bili pouzdaniji i primjenjiviji na širu populaciju.




No, ovdje je ipak učinjena jedna pogreška, a to je da se pri odabiru veličine uzorka nije u obzir uzimala veličina populacije. S obzirom da je za naše potrebe primjera populacija originalni skup podataka, veličina populacije je 1728. Ako pogledamo u tablicu za odabir veličina uzoraka s obzirom na veličinu populacije, možemo vidjeti da nam treba približno 323 opažanja. Dakle, ponovit ćemo uzorkovanje cijena nekretnina na slučajan način uz odabir 323 opažanja.

Tablica 6. Pokazatelji deskriptivne statistike deset uzoraka varijable cijena nekretnina (n=323, svaki)

Pokazatelji Uzorak1 Uzorak2 Uzorak3 Uzorak4 Uzorak5 Uzorak6 Uzorak7 Uzorak8 Uzorak9 Uzorak10
Valid 323 323 323 323 323 323 323 323 323 323
Missing 0 0 0 0 0 0 0 0 0 0
Modeᵃ 170000 145000 135000 155000 150000 120000 120000 180000 120000 120000
Median 192000 190000 187000 194900 190400 188000 195000 180000 200000 191000
Mean 220088.55 213262.11 208389.03 208016.03 216413.10 207492.97 214806.16 204976.88 215299.49 216153.76
Std. Deviation 105321.73 99457.30 94543.65 97917.20 98684.10 88967.99 100071.24 99283.67 91420.35 100483.96
IQR 119788.50 111675 118550 114329.50 116800 106379.50 119017 111000 123170 120000
Variance 1.1093×10⁹ 9.8918×10⁹ 8.9385×10⁹ 9.5878×10⁹ 9.7386×10⁹ 7.9153×10⁹ 1.0014×10¹⁰ 9.8572×10⁹ 8.3577×10⁹ 1.0097×10¹⁰
Skewness 1.4687 1.4935 1.4805 1.8927 1.1484 1.3449 1.6625 1.6193 0.9459 1.6554
Kurtosis 2.6909 3.2774 3.8396 7.0553 1.5506 2.7146 5.1814 4.4168 0.5518 4.7766
Range 605613 639700 590500 730000 650000 588000 750000 749700 455500 725613
Minimum 49387 10300 64500 45000 5000 62000 25000 10300 64500 49387
Maximum 655000 650000 655000 775000 655000 650000 775000 760000 520000 775000
25th Percentile 147711.50 145000 144950 139500 150000 144950 147483 138950 141580 145000
75th Percentile 267500 256675 263500 253829.50 266800 251329.50 266500 249950 264750 265000

ᵃ More than one mode exists, only the first is reported.

Za usporedbu dovoljno velikog slučajnog uzorka (n = 323) s manjim slučajnim uzorkom (n = 100) i parametrima cijele populacije, možemo usporediti glavne pokazatelje kako bismo jasnije uočili razlike.

Prvo, razmotrimo aritmetičku sredinu. Prosječna vrijednost populacije iznosi 211967 dolara. U manjim slučajnim uzorcima (n = 100), prosječne vrijednosti kreću se između 198939 i 223427 dolara, što pokazuje određene oscilacije oko populacijskog prosjeka. Nasuprot tome, u većim slučajnim uzorcima (n = 323) prosječne vrijednosti su između 204977 i 220089 dolara, što je bliže stvarnom prosjeku populacije. Veći uzorak smanjuje oscilacije u prosjecima i bolje odražava stvarnu vrijednost cijele populacije.

Standardna devijacija u populaciji iznosi 98441 dolara. Kod manjih slučajnih uzoraka (n = 100), standardna devijacija varira između 80422 i 126955 dolara, što pokazuje širu varijabilnost među uzorcima. Kod većih slučajnih uzoraka (n = 323), standardna devijacija je između 88968 i 105322 dolara, što je bliže populacijskoj vrijednosti. To pokazuje stabilniju procjenu varijabilnosti. Jednim dijelom to proizlazi iz samog načina izračuna – veličina uzorka nalazi se u nazivniku varijance, pa veći uzorak smanjuje varijabilnost i približava se stvarnoj vrijednosti populacije.

Asimetrija populacije iznosi 1,578, što ukazuje na pozitivno asimetričnu distribuciju. U manjim uzorcima (n = 100) vrijednosti asimetrije variraju od 0,058 do 2,224, što pokazuje veću oscilaciju u bilježenju stvarnog oblika distribucije. Veći uzorci (n = 323) pokazuju stabilnije vrijednosti asimetrije, krećući se između 0,946 i 1,893, što je bliže stvarnoj vrijednosti populacije. Ponovo, veći uzorak pruža stabilniju procjenu asimetrije i smanjuje utjecaj varijabilnosti.

Zaobljenost distribucije (kurtosis) u populaciji iznosi 4,1915, što ukazuje na izduženiji vrh distribucije. U manjim uzorcima (n = 100), vrijednosti kurtosis značajno variraju, od -1,222 do 6,428. Kod većih uzoraka (n = 323), vrijednosti kurtosis su stabilnije i bliže vrijednosti populacije, krećući se između 0,552 i 7,055.

Raspon cijena u populaciji iznosi 770000 dolara. U manjim uzorcima (n = 100), raspon varira od oko 140000 do 755000 dolara, često ne obuhvaćajući ekstremne vrijednosti. Veći uzorci (n = 323) imaju raspon cijena od 455500 do 750000 dolara, što i dalje nije jednako rasponu varijacija populacije, ali se postiže napredak u reprezentativnosti uzorka.

Da rezimiramo, veći slučajni uzorci pružaju preciznije i stabilnije procjene statističkih pokazatelja poput prosjeka i standardne devijacije te asimetrije i zaobljenosti, smanjujući oscilacije i bolje predstavljajući karakteristike populacije.

No, može se uočiti da za niti jedan od ovih uzoraka nije izračunata, npr. aritmetička sredina ili standardna devijacija jednaka aritmetičkoj sredini ili standardnoj devijaciji uzoraka. Radi se o tome, da su aritmetička sredina i standardna devijacija parametri i bilo koja populacija ima točno jednu aritmetičku sredinu i jednu standardnu devijaciju. No, svaki uzorak koji se izabire iz te populacije može imati drugačiju aritmetičku sredinu.

Kako bismo bolje razumjeli ovaj fenomen, uvodimo koncept distribucije uzorkovanja (sampling distribucija) aritmetičkih sredina. Distribucija uzorkovanja aritmetičkih sredina predstavlja distribuciju prosjeka koje bismo dobili kad bismo iz populacije izvukli veliki broj uzoraka iste veličine, izračunali njihovu aritmetičku sredinu i zatim analizirali te prosjeke kao zasebnu distribuciju.

Primjer s uzorcima nekretnina dobro ilustrira ovaj koncept. Vidjeli smo da svaki slučajni uzorak ima drugačiju aritmetičku sredinu. Kad bismo nastavili uzimati uzorke iste veličine iz populacije, dobili bismo sve više različitih aritmetičkih sredina. Na taj način bismo kreirali distribuciju tih sredina koja će, prema centralnom graničnom teoremu, biti približno normalno distribuirana (pod uvjetom da je uzorak dovoljno velik). Štoviše, ta distribucija će imati prosjek koji je jednak prosjeku populacije te standardnu devijaciju koja je manja od standardne devijacije populacije i koja ovisi o veličini uzorka.

Aritmetička sredina aritmetičkih sredina uzoraka

Za populaciju veličine N, moguće je odrediti k različitih uzoraka veličine n:

\(k= \binom{N}{n} = \frac{N!}{n!(N-n)!}\) \(k=\frac{1728!}{323!(1728-323)!} = 811063558710205606185972151701241684420138224615174868539187449142896006404144791783703366929296869456134950847817637263660488758060481212708927813519189395280516136265375145084648596754218510550287083102045095251459076796898175894013508380897340776307339625666898084998143627596736222397756528595917326372657064754541715200537923080141196927158004259834446080\)

Ova vrijednost izračunata je koristeći R i funkciju chooseZ() iz paketa gmp. Klasični kalkulatori i većina softvera ne može izračunati rezultat s ovako velikim brojem. Također, kreiranje tog broja uzoraka bilo bi vremenski i računski izuzetno zahtjevno.

Zbog toga ćemo se za ilustraciju koncepta baviti s 50 uzoraka veličine 323 člana iz skupa podataka o nekretninama. Uzorci su skraćeno zapisani kao UC (uzorak cijena) od 1. do 50. i prikazani su histogramima.

Ovih 50 histograma prikazuje 50 različitih uzoraka iz skupa podataka o nekretninama. Iako je ovo jako mali broj uzoraka naspram broja mogućih uzoraka, pomoći će nam ilustrirati neke pravilnosti. Prvo, promotrimo aritmetičke sredine i standardne devijacije ovih uzoraka.

Tablica aritmetičkih sredina (ovo je transponirana tablica radi preglednijeg prikaza, gdje su uzorci cijena (varijable) zapisani u recima, a izračunati pokazatelji u stupcima) ilustrira koncept sampling distribucije aritmetičkih sredina, što je povezano s jednim od temeljnih statističkih pravila – centralnim graničnim teoremom. Svaki slučajni uzorak ima različitu aritmetičku sredinu. Kada bismo nastavili uzimati sve više uzoraka iste veličine iz populacije, dobivali bismo distribuciju tih sredina koja bi se, prema centralnom graničnom teoremu, oblikovala prema normalnoj distribuciji (pod uvjetom da je uzorak dovoljno velik).

Tablica 7. Prosjeci uzoraka

UC Aritmetička sredina
UC1 205416.2972
UC2 210795.0526
UC3 208565.3251
UC4 210101.6780
UC5 217705.6037
UC6 214994.8916
UC7 213786.5480
UC8 211892.9133
UC9 220787.6563
UC10 209718.5728
UC11 209144.1455
UC12 219055.1517
UC13 213084.3963
UC14 206067.6130
UC15 222927.2043
UC16 215203.9505
UC17 215874.1672
UC18 213255.8111
UC19 215062.8297
UC20 217471.8297
UC21 213453.5263
UC22 215834.0372
UC23 218090.1238
UC24 216180.3591
UC25 211176.5201
UC26 217020.7430
UC27 209448.8731
UC28 218752.4706
UC29 216152.7957
UC30 214201.8452
UC31 216335.4923
UC32 210211.0062
UC33 215711.6656
UC34 204885.4303
UC35 213296.4675
UC36 215610.3158
UC37 215957.4675
UC38 206632.4861
UC39 209838.5170
UC40 212329.2570
UC41 217773.2260
UC42 203534.8607
UC43 218595.1331
UC44 209203.4861
UC45 213569.1517
UC46 219154.4087
UC47 202175.5170
UC48 211231.6811
UC49 210218.6502
UC50 211622.8142

Sad ćemo niz aritmetičkih sredina uzoraka promatrati kao varijablu. Provjerom distribucije aritmetičkih sredina uočavamo tendenciju približavanja normalnoj distribuciji. Prosječna vrijednost aritmetičkih sredina svih uzoraka trebala bi biti blizu stvarnog prosjeka populacije, a standardna devijacija ove distribucije sredina (koja se naziva i standardna pogreška aritmetičke sredine) manja je od standardne devijacije distribucije pojedinačnih opažanja.

Tablica 8. Pokazatelji deskriptivne statistike aritmetičkih sredina uzoraka

Pokazatelj Aritmetičke sredine uzoraka
Mean 213182.1993
Std. Deviation 4583.7960
Skewness -0.3609
Kurtosis -0.2118
Shapiro-Wilk 0.9816
P-value of Shapiro-Wilk 0.6191
Minimum 202175.5170
Maximum 222927.2043

Kad usporedimo aritmetičke sredine 50 uzoraka, možemo primijetiti da su prosječne vrijednosti vrlo blizu prosjeka populacije, što pokazuje da slučajni uzorci, unatoč manjem broju, dobro predstavljaju populaciju. Prosjek aritmetičkih sredina prosjeka uzorkovanih cijena (213182 USD) vrlo je blizu prosjeku ‘populacije’ (211966 USD) s obzirom na rang veličina, standardna devijacija prosjeka pokazuje da su varijacije među uzorcima manje, što je također očekivano.

Distribucija aritmetičkih sredina uzoraka gotovo je simetrična, s blagom negativnom asimetrijom i relativno malom zaobljenošću, što je dodatno potvrđeno Shapiro-Wilk testom, čiji rezultat pokazuje da možemo pretpostaviti normalnost distribucije (P-vrijednost > 0,05).

Centralni granični teorem jedan je od najvažnijih principa u statistici, koji objašnjava ponašanje distribucije aritmetičkih sredina uzoraka uzetih iz bilo koje populacije. Prema teoremu, kada uzimamo dovoljno velike slučajne uzorke iz populacije s bilo kojom vrstom distribucije, distribucija aritmetičkih sredina tih uzoraka teži normalnoj distribuciji kako veličina uzorka raste. U praksi to znači da, čak i ako originalna distribucija populacije nije normalna, distribucija aritmetičkih sredina uzoraka (sampling distribucija) postaje normalna kada se uzimaju dovoljno veliki uzorci.

Sampling distribucija aritmetičkih sredina odnosi se na distribuciju prosjeka uzoraka kada iz populacije uzimamo beskonačno mnogo uzoraka iste veličine. Distribucija aritmetičkih sredina ima neke ključne karakteristike:

  • prosjek distribucije aritmetičkih sredina uzoraka jednak je prosjeku populacije. Drugim riječima, očekujemo da prosječna vrijednost aritmetičkih sredina iz uzoraka bude procjena populacijskog prosjeka. Stoga se sampling distribucija koristi kao osnova za procjenu parametra populacije.

  • osim toga, standardna devijacija sampling distribucije aritmetičkih sredina – poznata kao standardna pogreška – manja je od standardne devijacije same populacije. Prethodni primjer je ilustrirao taj koncept, iako nismo uzeli beskonačno mnogo uzoraka, nego samo 50 uzoraka.

Utvrđeno je da je aritmetička sredina aritmetičkih sredina uzoraka blizu prosjeka populacije, standardna devijacija aritmetičkih sredina uzoraka je manja od standardne devijacije populacije, a distribucija aritmetičkih sredina uzoraka je približno normalno distribuirana. Navedene pravilnosti bi bile dodatno naglašene odabirom većeg broja uzoraka, odnosno, kako bi se približavali beskonačnom broju uzoraka, distribucija prosjeka uzoraka ili sampling distribucija aritmetičkih sredina bi se u potpunosti ravnala prema teorijskim pravilnostima. No, nećemo nastaviti s daljnjim odabirom uzorka – bitna svojstva tog postupka smo već opazili.

Standardna pogreška aritmetičke sredine izračunava se kao standardna devijacija populacije podijeljena s korijenom iz veličine uzorka. O njoj se može razmišljati i kao o prilagođenoj standardnoj devijaciji. Ova vrijednost prikazuje koliko su prosjeci uzoraka blizu stvarnom populacijskom prosjeku. Kako se povećava veličina uzorka, standardna pogreška se smanjuje, što znači da uzorci postaju precizniji u predstavljanju populacije. Zbog toga centralni granični teorem posebno doprinosi razumijevanju kako veličina uzorka utječe na pouzdanost statističkih procjena. Kada je veličina uzorka velika, uzorci su u pravilu reprezentativniji za populaciju, a distribucija aritmetičkih sredina preciznije prati normalnu distribuciju.

U primjeru uzoraka cijena nekretnina, vidjeli smo kako svaki slučajni uzorak ima drugačiji prosjek, no prosječne vrijednosti uzoraka međusobno su vrlo blizu i imaju tendenciju normalne distribucije. Centralni granični teorem nam omogućava da na osnovi sampling distribucije prosjeka napravimo procjene prosjeka za cijelu populaciju, čak i ako pojedinačni uzorci pokazuju određene varijacije. Činjenica da će se prosjek svakog slučajnog uzorka naći na nekoj poziciji u teorijskoj normalnoj distribuciji prosjeka uzoraka omogućava korištenje statističkih testova, intervala pouzdanosti i drugih statističkih metoda temeljenih na pretpostavci normalne distribucije, čak i kad osnovna populacija nije normalno distribuirana.

Na primjer, kad bismo temeljem prvih 10 uzoraka veličine 323 htjeli procijeniti prosjek populacije, tada bismo koristili aritmetičke sredine uzoraka kao najbolje procjenitelje aritmetičke sredine populacije.

Teorijske distribucije vjerojatnosti

Osnovna ideja počiva na osnovama teorije vjerojatnosti i teorije skupova:

  • Svaki eksperiment sastoji se od događaja i pokusa
  • Eksperiment – proces promatranja i mjerenja
  • Ishod – stvarni rezultat eksperimenta
  • Svi ishodi (engl. sample space) popis svih mogućih pojedinačnih ishoda nekog pokusa.
  • Događaj – skup jednog ili više ishoda događaja. Svaki događaj sastoji se od ishoda. Događaj je bilo koji podskup tih ishoda (može sadržavati jedan ishod, više ishoda ili ni jedan).
  • Ako postoji \(n\) ishoda, tad postoji \(2^n\) događaja.

Radi se o činjenici da, ako skup svih mogućih ishoda (engl. sample space) ima n elemenata, onda je broj svih mogućih događaja (tj. podskupova skupa ishoda) jednak \(2^n\), jer svaki od ishoda može ili ne mora biti u nekom podskupu. Drugim riječima, ako vršimo promatranje (eksperiment), ono će imati neki ishod koji ćemo zabilježiti, a taj ishod se može odnositi na uočavanje događaja koji se promatra ili ne. Jednostavno rečeno, svaki eksperiment završava jednim konkretnim ishodom, a skup svih mogućih ishoda zove se sample space. Događaj je pak podskup skupa svih mogućih ishoda i može sadržavati bilo koji broj ishoda: nijedan, jedan ili više njih. Kada brojimo ukupni broj različitih događaja, primjećujemo da je za svaki ishod moguće napraviti dva izbora – uključiti ga ili ne uključiti u skup. Budući da u skupu svih mogućih ishoda ima \(n\) ishoda, ukupan broj načina na koji možemo izabrati (ili izostaviti) svaki ishod jest \(2^n\). To znači da, ako postoji \(n\) mogućih ishoda eksperimenta, postoji \(2^n\) mogućih događaja. Kada se eksperiment doista provede, on će završiti jednim od tih \(n\) ishoda, a za bilo koji događaj možemo reći da se „dogodio” (ostvario) ako taj ishod pripada podskupu (događaju) o kojem je riječ.

\[𝑝= \frac{ \text{𝑏𝑟𝑜𝑗 𝑝𝑜𝑣𝑜𝑙𝑗𝑛𝑖ℎ 𝑑𝑜𝑔𝑎đ𝑎𝑗𝑎}}{ \text{𝑢𝑘𝑢𝑝𝑛𝑖 𝑏𝑟𝑜𝑗 𝑑𝑜𝑔𝑎đ𝑎𝑗𝑎}}\]

Ova formula kaže da se vjerojatnost nekog događaja \(p\) određuje kao omjer između:

  • broja ishoda (događaja) koji nam odgovaraju (povoljni događaji),
  • i ukupnog broja svih mogućih ishoda u eksperimentu.

Drugim riječima, ako neki eksperiment ima ukupno \(n\) jednako mogućih ishoda, a od toga \(m\) ishoda predstavlja „uspjeh“ (odnosno ispunjava uvjet koji nas zanima), onda je vjerojatnost tog događaja \(\displaystyle p = \tfrac{m}{n}\).

Formulirano u teoriji skupova, pretpostavlja se da svaki ishod ima istu vjerojatnost pojavljivanja te da su svi ishodi međusobno isključivi i zajedno čine čitav skup mogućih ishoda. Tek kad su ti uvjeti zadovoljeni, možemo na ovaj način računati vjerojatnost jednostavnim omjerom.




Ako unutar cjelokupnog skupa ishoda (ukupni broj događaja) izdvojimo samo dvije kategorije – uspjeh ili neuspjeh (tj. „jedan povoljni” i „jedan nepovoljni”), dobivamo jednu specifičnu distribuciju. Kad postoji samo jedan povoljni događaj kojeg promatramo kao 1, a sve ostale kao 0, dolazimo do Bernoullijeve slučajne varijable koja prima vrijednost 1 s vjerojatnošću \(p\) (broj „povoljnih” ishoda podijeljen s ukupnim brojem ishoda), a 0 s vjerojatnošću \(1-p\).

Slučajna (randomska) varijabla je funkcija koja svakom ishodu slučajnog događaja pridružuje realan broj.

Dakle, ako imamo jedan pokus u kojem se ishod može razvrstati samo kao uspjeh ili neuspjeh, tada Bernoullijeva varijabla \(X\) (uspjeh/neuspjeh) poprima vrijednost 1 (uspjeh) s vjerojatnošću \(p\), a vrijednost 0 (neuspjeh) s vjerojatnošću \(1-p\). Razlika u odnosu na opći pojam „povoljnih i nepovoljnih događaja“ jest u tome što Bernoulli svodi sve ishode na samo dvije mogućnosti – 0 ili 1.

Bernoullijeva distribucija (nazvana prema Jacobu Bernoulliju) najosnovniji je oblik diskretne distribucije vjerojatnosti, a opisuje “pokuse” s dva ishoda: uspjeh (1) ili neuspjeh (0). Jacob Bernoulli je u svom djelu Ars Conjectandi (1713.) formalizirao ideju da se vjerojatnost pojedinačnog „uspjeha” (koja je ujedno i parametar Bernoullijeve distribucije \(p\)) može proučavati odvojeno od složenijih situacija s više ishoda. Njezini korijeni sežu u 17. i 18. stoljeće, kada su matematičari poput Pascala, Fermata i Huygensa istraživali igre na sreću. Osnovna misao bila je: ako postoji samo jedan pokus, u kojem se može dogoditi uspjeh ili neuspjeh, tada je slučajna varijabla koja opisuje taj ishod “najjednostavnija” moguća. Ona predstavlja uspjeh s vjerojatnošću \(p\) i neuspjeh s vjerojatnošću \(1 - p\). Za povijesni kontekst mogu se konzultirati primarni izvori poput Bernoulli (1713). Ars Conjectandi te sekundarni izvori poput Stigler (1986). The History of Statistics: The Measurement of Uncertainty before 1900.

Upravo iz analize ovakvih pojedinačnih Bernoullijevih pokusa kasnije je proizišla binomna distribucija (u slučaju više uzastopnih, neovisnih Bernoullijevih pokusa) te je time postavljen jedan od temelja moderne teorije vjerojatnosti.




Binomna distribucija vjerojatnosti, kao raspodjela broja „uspjeha” u \(n\) neovisnih Bernoullijevih pokusa, povezuje se s ranim radovima Blaisea Pascala i Pierra de Fermata na problemima kockanja te s kasnijim formalizacijama Jacoba Bernoullija u Ars Conjectandi (1713.). Temeljna ideja proizišla je iz opažanja da se ukupni broj povoljnih ishoda kod višestrukog ponavljanja pokusa (kod kojeg se ishodi mjere Bernoullijevom distribucijom) može opisati kombinacijama uspjeha i neuspjeha. Ključni matematički alat za to bilo je Pascalovo (ili „binomno”) stablo koje je omogućilo računanje koeficijenata potrebnih za vjerojatnosti različitih kombinacija uspjeha i neuspjeha.

Pascalovo binomno stablo

            1
          /   \
         1     1
        / \   / \
       1   2 2   1
     / \ / \ / \ / \
    1  3  3 3  3  3  1
   /\/\/\/\/\/\/\/\/\/\
  1  4  6 6  6   6  4  1 ... itd.
  • Svaka grana se račva na sljedeći red, što odgovara zbrajanju dviju vrijednosti iz gornjeg reda, kao u Pascalovu trokutu.
  • Numeričke vrijednosti u svakom čvoru odgovaraju binomnim koeficijentima, tj. koeficijentima u ekspanziji \((x+y)^n\).
  • Na primjer, treća razina (gledano od vrha, počevši od nule) ima vrijednosti 1, 3, 3, 1, što su koeficijenti \((x+y)^3\).

Abraham de Moivre je u The Doctrine of Chances (1738.) proširio tu ideju, pokazujući kako se binomna distribucija aproksimira normalnoj za velike \(n\). Time je binomna distribucija postala jedno od središnjih koncepata u kasnijem razvoju teorije vjerojatnosti, što se očituje i u njezinoj širokoj primjeni u statističkom modeliranju i analizi eksperimenata.

Primjer usporedbe Bernoullijeve i Binomne distribucije je bacanje novčića:

  • Bernoullijeva distribucija opisuje vjerojatnost ishoda samo jednog bacanja novčića – npr.

    • glava (uspjeh) s vjerojatnošću \(p\),
    • pismo (neuspjeh) s vjerojatnošću \(1-p\).

Dakle, Bernoullijeva slučajna varijabla ima samo dvije moguće vrijednosti (0 ili 1), i odnosi se na pojedini pokus. Primjenjiva je na sve situacije u kojima se može dogoditi uspjeh ili neuspjeh. Na primjer, Na primjer, bacanje novčića (glava/pismo), polaganje ispita (prolaz/pad), radni kvar (kvar/bez kvara), klik na internetski oglas (klik/nema klika) i općenito svaka situacija u kojoj se rezultat jednog pokusa ili promatranja može smatrati „uspjehom” ili „neuspjehom”.

  • Binomna distribucija opisuje vjerojatnost broja „glava” kod višestrukog bacanja novčića – npr. ako bacamo novčić \(n\) puta, binomna slučajna varijabla broji koliko se puta pojavi glava (uspjeh). Vjerojatnost da se pojavi k glava u \(n\) bacanja izračunava se pomoću formula koja uzima u obzir sve moguće kombinacije tih \(k\) uspjeha i \(n-k\) neuspjeha.

Dakle, Bernoullijeva distribucija bavi se jednim bacanjem novčića, dok binomna opisuje zbroj uspjeha nakon više neovisnih takvih bacanja.




Na primjer, znima nas distribucija vjerojatnosti prema kojoj će bačena kockica poprimiti vrijednost 5, a u obzir ćemo uzeti 3 promatranja.

  • „uspjeh” – pala je šestica, vjerojatnost uspjeha: 1/6
  • „neuspjeh” – nije pala šestica, vjerojatnost neuspjeha: 5/6

Kockica bačena tri puta može ‘pasti’ na broj 5 nula puta, jedamput, dva puta ili tri puta. Ne može pasti manje od nula puta, niti više od tri puta (jer postoje samo tri bacanja).

Svi izračuni koji se odnose na isti ukupan broj uspjeha zbrajaju se (tj. zbrajaju im se vjerojatnosti) da bismo dobili vjerojatnost \(p(xᵢ)\) za slučajnu varijablu \(X = \text{broj uspjeha u tri pokušaja}\). Tako nastaje prikazana tablica distribucije vjerojatnosti slučajne varijable koja predstavlja koliko puta kockica bačena tri puta ‘pada’ na broj 5.




Binomna distribucija vjerojatnosti primjenjiva je na situacije (eksperimente) za koje vrijede sljedeći uvjeti:

  • definirana je s 2 parametra (dvoparametarska), \(n\) i \(p\)
  • eksperiment se provodi kao serija identičnih pokušaja
  • moguća su samo 2 ishoda: uspjeh i neuspjeh
  • vjerojatnosti nastupa 2 ishoda ne mijenjaju se od pokušaja do pokušaja
  • pokušaji su nezavisni (jedan ishod ne utječe na drugi)

Za binomnu distribuciju vrijedi:

Vjerojatnost određenog ishoda

\[ p(x_i) = \frac{n!}{\,x!\,(n - x)!}\,p^x\,(1 - p)^{\,n - x} \]

Očekivana vrijednost

\[ \mu = np \]

Varijanca

\[ \sigma^2 = npq,\quad q = 1 - p \]

Koeficijent asimetrije

\[ \alpha_3 = \frac{1 - 2p}{\sqrt{npq}} \]

Koeficijent zaobljenosti

\[ \alpha_4 = 3 + \frac{1 - 6\,p\,q}{npq} \]

Koeficijent varijacije

\[ V = \frac{\sqrt{npq}}{\,np\,}\times 100 \]




Još jedan primjer. Izvršeno je testiranje prodajne službe. Izvršena su 4 promatranja, a utvrđena je vjerojatnost kupovine 0.25 po kupcu.

X ~ B(4, 0.25), \(p(x_i) = \frac{n!}{\,x!\,(n - x)!}\,p^x\,(1 - p)^{\,n - x}\).


Na ovoj slici vidimo binomnu raspodjelu prikazanu histogramom (plave „stupce”) i kontinuiranu aproksimaciju (normalnu krivulju u crvenoj boji). Temeljem ovog grafa možemo uočiti i komentirati povezanost triju koncepata:

  1. Vjerojatnost - svaki stupac predstavlja vjerojatnost određenog, diskretnog ishoda (npr. \(X = 0, 1, 2, \dots\)) i ima precizne granice koje daju širinu stupca (razreda) 1. Visina stupca odgovara upravo vjerojatnosti nastupa pojedinog ishoda (0.3164, 0.4219, 0.2109, 0.0469, 0.0039). Zbroj svih stupaca je 1, odnosno 100%.

  2. Površina - promatrajući histogram možemo uočiti da je površina svakog stupca (visina × širina) jednaka vjerojatnosti za taj ishod, jer je širina stupca (najčešće) uzeta kao 1 jedinica na x-osi. Kad prelazimo na približnu kontinuiranu distribuciju (crvena krivulja), područje ispod krivulje nad nekim intervalom na x-osi također prikazuje vjerojatnost.

  3. Frekvencija - ako bismo proveli mnoštvo pokusa (recimo, tisuće eksperimenata), relativna frekvencija broja uspjeha pojedinog ishoda mogla bi se prikazati upravo visinom pripadajućeg stupca. Veliki broj pokusa doveo bi do toga da se relativne frekvencije rasporede slično binomnoj raspodjeli (zakon velikih brojeva), a taj binomni raspored često (za velike veličine uzorka) nalikuje kontinuiranoj normalnoj krivulji. U praksi, ako bismo puno puta ponovili eksperiment koji generira ovu binomnu distribuciju, relativna frekvencija pojedinog ishoda (omjer broja pojavljivanja tog ishoda i ukupnog broja pokusa) sve bi se više približavala teorijskoj vjerojatnosti koju vidimo na grafu. Drugim riječima, visina stupca (vjerojatnost) govori koliko često bi se taj ishod, dugoročno gledano, pojavljivao među svim eksperimentima.

Vjerojatnost je teorijski koncept koji opisuje koliki je „udio“ slučajeva ili ishoda u kojima očekujemo da će se neki događaj pojaviti, kada bismo imali beskonačno mnogo ponavljanja. S druge strane, relativna frekvencija je empirijski (stvarni) omjer broja pojavljivanja događaja i ukupnog broja promatranja u konačnom nizu pokusa. U dugom nizu pokusa (ako je broj pokusa jako velik), relativna frekvencija se često približava vjerojatnosti, ali između te dvije veličine postoji konceptualna razlika:

  • Vjerojatnost se definira u okviru teorije vjerojatnosti i može biti poznata i bez izvođenja pokusa (apriori).
  • Relativna frekvencija mjeri stvarni ishod niza pokusa i, kako se broj pokusa povećava, konvergira teorijskoj vjerojatnosti.

U grafičkim prikazima oba koncepta možemo povezati s površinom (ili visinom stupca u slučaju diskontinuirane varijable). Na histogramu relativnih frekvencija, površina svakog stupca odražava proporciju opažanja tog ishoda unutar uzorka. Kod teorijskih raspodjela (bilo diskretnih ili kontinuiranih), površina predstavlja vjerojatnost (ili, kod kontinuiranih, gustoću vjerojatnosti). Iako se obje površine mogu uspoređivati, njihova je priroda ipak različita:

  • Kod histograma, riječ je o stvarnim podacima i njihovoj učestalosti.
  • Kod raspodjele vjerojatnosti, riječ je o teorijskoj vrijednosti koja predstavlja razmjere vjerojatnosti svih mogućih ishoda.

Zbog zakona velikih brojeva, ako se broj pokusa dovoljno poveća, relativna frekvencija (površina histograma) približavat će se teorijskoj vjerojatnosti (površini raspodjele), ali one ostaju različiti pojmovi – eksperimentalni prikaz naspram teorijskog modela.

Na taj se način diskretne vjerojatnosti (stupci), površina ispod krivulje i empirijske frekvencije (u velikom broju pokusa) međusobno “preklapaju” i nadopunjuju.

Ipak, ako računamo vjerojatnost temeljem stvarnih ishoda pokusa, tada je ta vjerojatnost ujedno i empirijska relativna frekvencija (broj uspjeha podijeljen s ukupnim brojem pokusa). Na taj se način u praksi često izjednačavaju vjerojatnost i relativna frekvencija, ali po definiciji ostaju dva različita pojma: jedna je teorijska (vjerojatnost), a druga empirijska (relativna frekvencija). Numerička razlika se smanjuje kako se broj pokusa povećava, što je i srž zakona velikih brojeva.

Ako ove ideje povežemo s ranije spomenutom veličinom uzorka i važnosti iste - veličina uzorka ovdje je upravo broj pokusa, promatranja ili mjerenja. Kad kažemo da „povećavamo broj pokusa”, u statističkom smislu radimo veće uzorke (više elemenata). Što je veći uzorak:

  • manja je slučajna varijabilnost procjene,
  • relativna frekvencija bolje aproksimira teorijsku vjerojatnost,
  • rezultati su pouzdaniji u smislu statističkih procjena i intervala pouzdanosti.


u ovoj distribuciji, X ~ B(4, 0.25), vjerojatnost bilo kojeg negativnog događaja ili bilo kojeg događaja većeg od 4 jednaka nuli. U binomnoj raspodjeli s \(n = 4\), broj uspjeha može biti samo 0, 1, 2, 3 ili 4, svi ishodi koji su manji od 0 ili veći od 4 nemogući su te im je vjerojatnost jednaka 0. Drugim riječima, ako imamo 4 promatranja, ne možemo zabilježiti 5 uspjeha.

  • Koliko iznosi vjerojatnost da nitko neće kupiti?

\(P(x=0) = 4! / [0!(4−0)!] · 0.25⁰ · 0.75⁴ = 0.3164\)

  • Koliko iznosi vjerojatnost da će 2 prodaje bit uspješne?

\(P(x=2) = 4! / [2!(4−2)!] · 0.25² · 0.75² = 0.2109\)

  • Koliko iznosi vjerojatnost da će bar 2 prodaje bit uspješne?

\(P(x≥2) = 1 − [P(1) + P(0)]\) - nastavite dalje sami.

Očekivana vrijednost ove distribucije iznosi \(μ = 4 \cdot 0.25 = 1\), a standardna devijacija \(σ = \sqrt{n\cdot p\cdot q} = 0.866\).

Normalna distribucija

Već smo u više navrata spominjali normalnu distribuciju. Abraham de Moivre je još 1733. godine (kasnije, detaljnije 1738.) uočio da se binomna raspodjela za velike veličine uzorka približava zvonolikom obliku, pa je time prvi nazirao ideju „normalne” krivulje, dok je Pierre-Simon Laplace 1812. godine u svojoj Théorie analytique des probabilités formalizirao važnost tog rezultata unutar šireg okvira teorije vjerojatnosti, naglašavajući kako se zbrojevi velikog broja slučajnih varijabli, pod određenim uvjetima, distribuiraju prema „normalnoj” raspodjeli. Carl Friedrich Gauss je, potaknut problemima astronomskih mjerenja, 1809. u djelu Theoria motus corporum coelestium predstavio koncept najmanjih kvadrata i time dao praktičnu primjenu zvonolike raspodjele u procjeni pogrešaka, zbog čega se normalna krivulja često naziva Gaussova distribucija. Premda su im motivacije bile različite (od pogrešaka mjerenja do binomnog pribrajanja vjerojatnosti), sva trojica su na temelju analize granica i aproksimacija za velike uzorke (u smislu asimptotskog ponašanja) došla do zaključka da „zvonolika” funkcija učinkovito opisuje širenje vrijednosti slučajnih odstupanja oko aritmetičke sredine. Za detaljniji povijesni osvrt mogu se konzultirati klasična izdanja i sekundarni izvori, na primjer: De Moivre (1738). The Doctrine of Chances; Laplace (1812). Théorie analytique des probabilités; Gauss (1809). Theoria motus corporum coelestium; te Stigler (1986). The History of Statistics: The Measurement of Uncertainty before 1900.

  • Normalna distribucija naziva se i Gaussova distribucija te bell curve (zvonolika krivulja) zbog svog karakterističnog, zvonolikog oblika.

  • Distribucija je simetrična oko aritmetičke sredine, što znači da se najveća gustoća nalazi upravo u centru raspodjele.

  • Česta pojava u prirodi i društvu

    • Visina ljudi: većina je ljudi visoka oko prosjeka, a vrlo niska i vrlo visoka populacija čine repove distribucije.
    • Pogreške mjerenja u znanosti: statističke fluktuacije često se mogu aproksimirati normalnom distribucijom.
    • IQ testovi i mnoga druga psihometrijska mjerenja također pokazuju približno normalnu raspodjelu rezultata.
  • Primjena u različitim područjima

    • Ekonomija i financije: mnoge se analize rizika i tržišnih fluktuacija (iako ne isključivo) temelje na pretpostavci normalnosti.
    • Kontrola kvalitete (npr. u proizvodnim procesima) često koristi normalnu raspodjelu za opisivanje varijabilnosti proizvoda.
    • Medicinska istraživanja često koriste normalnu distribuciju za analizu biometrijskih podataka (npr. tlak, kolesterol, tjelesna temperatura).
  • Ograničenja

    • Iako je vrlo korisna aproksimacija, nije uvijek idealna. Neke pojave imaju izduženije krakove nego što to opisuje normalna distribucija i ekstreme (npr. neke financijske serije, ekstremni vremenski uvjeti i sl.).
    • Unatoč tome, normalna distribucija u mnogim je slučajevima početna aproksimacija jer je matematički elegantna i praktična za rad.

Normalna distribucija je sveprisutna u znanosti, tehnici i društvu upravo zato što se u mnogim prirodnim, društvenim i eksperimentalnim uvjetima razna mjerenja i slučajni procesi mogu približno opisati ovim “zvonolikim” modelom.




  • Normalna distribucija opisuje ishode kontinuiranih numeričkih obilježja

  • Definirana je s dva parametra: očekivanjem i standardnom devijacijom, a to se zapisuje kao \(X \sim N(\mu, \sigma)\) (i čita se: slučajna varijabla X ravna se prema normalnoj distribuciji koja je definirana očekivanjem \(\mu\) i standardnom devijacijom \(\sigma\))

  • Krivulja je opisana funkcijom:

    \[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{\frac{1}{2} \left(\frac{x - \mu}{\sigma}\right)^2} \]

  • Očekivana vrijednost jednaka je aritmetičkoj sredini

  • Standardna devijacija jednaka je drugom korijenu iz varijance

  • Sve vrijednosti asimetrije iznose nula

Karakteristike normalne distribucije:

  1. ukupno područje ispod normalne krivulje iznosi 1

  2. krivulja je simetrična oko očekivanja

  3. područje ispod krivulje sa svake strane očekivanja iznosi 0,5

  4. krakovi krivulje protežu se u beskonačnost

  5. svaki par vrijednosti očekivanja i standardne devijacije određuje drugačiju normalnu krivulju

  6. najviša točka na normalnoj krivulji nalazi se kod očekivanja

  7. očekivanje, medijan i mod su jednaki

  8. očekivanje se nalazi u centru krivulje, a to može biti bilo koji realan broj, pozitivan, negativan ili nula

  9. standardna devijacija je pozitivna i ona određuje oblik normalne krivulje; što je standardna devijacija veća, to je krivulja šira i plosnatija

  10. 68,26% područja ispod normalne krivulje je unutar ±𝜎; 95,44% područja je unutar ±2𝜎; 99,72% je unutar ±3𝜎 od aritmetičke sredine (tj. vrijedi Empirijsko pravilo; vrijedi i pravilo Čebišova - koje vrijedi za distribucije različitih oblika).




Ovdje je za primjer prikazana normalna distribucija X ~ N(100, 15). Dakle, slučajna varijabla X ravna se prema normalnoj distribuciji s očekivanjem 100 i standardnom devijacijom 15.

Ova raspodjela ima karakterističan zvonoliki oblik, gdje se najveća gustoća nalazi oko očekivane vrijednosti, a vjerojatnosti postupno opadaju prema ekstremnim vrijednostima. Normalna distribucija je simetrična oko očekivanja, što znači da su jednako udaljene vrijednosti od sredine jednako vjerojatne.

Pojam gustoće u kontekstu normalne distribucije odnosi se na funkciju gustoće vjerojatnosti (engl. probability density function, PDF), koja opisuje relativnu vjerojatnost da će slučajna varijabla poprimiti određenu vrijednost.

Za kontinuirane slučajne varijable, poput onih koje slijede normalnu distribuciju, vjerojatnost da varijabla poprimi točno jednu vrijednost matematički je gotovo nula. Umjesto toga, razmatramo intervale vrijednosti i koristimo funkciju gustoće vjerojatnosti kako bismo izračunali vjerojatnost da slučajna varijabla padne unutar određenog raspona. Geometrijski, funkcija gustoće određuje oblik krivulje normalne distribucije. Površina ispod krivulje funkcije gustoće na nekom intervalu predstavlja vjerojatnost da će slučajna varijabla poprimiti vrijednost unutar tog intervala. Zato ukupna površina pod cijelom krivuljom mora iznositi 1 (jer vjerojatnosti ne mogu preći 100%). U praktičnom smislu, veća gustoća vjerojatnosti u nekoj točki znači da su vrijednosti u blizini te točke vjerojatnije, dok su područja s niskom gustoćom manje vjerojatna.

S obzirom da područje ispod krivulje normalne distribucije ima ukupnu površinu jednaku 1, to znači da se vjerojatnosti mogu interpretirati kao udjeli površine ispod krivulje unutar određenih intervala. Prema Empriijskom pravilu, približno 68% podataka nalazi se unutar jednog standardnog odstupanja od očekivanja (od 85 do 115), 95% podataka unutar dva standardna odstupanja (od 70 do 130), a 99.7% unutar tri standardna odstupanja (od 55 do 145). Ova svojstva omogućuju procjenu vjerojatnosti za različite intervale vrijednosti.

Osim toga, normalna distribucija ima koeficijent asimetrije jednak nuli, što znači da je jednako raspršena na obje strane od očekivanja. Standardna devijacija \(σ=15\) određuje širinu distribucije, pri čemu veća standardna devijacija rezultira širom distribucijom s nižim vrhom, dok manja standardna devijacija stvara užu distribuciju s višim vrhom.

U mnogim primjenama, poput društvenih, tehničkih i prirodnih znanosti, normalna distribucija se koristi za modeliranje podataka koji se u prirodi pojavljuju u obliku slučajnih varijacija oko neke središnje vrijednosti. Ova raspodjela također ima važnu ulogu u inferencijalnoj statistici, gdje se koristi za izračun intervala pouzdanosti i testiranje hipoteza.

Ipak, normalna distribucija ima različiti oblik za svaki različiti par očekivanja i standardne devijacije, pa samim time i površina pod krivuljom biva različito raspoređena. Pa ako bismo htjeli izračunavati površinu pod krivuljim za pojedini interval, trebali bismo svaki put izračunavati integral funkcije gustoće na određenom intervalu. Ali, postoji i jednostavniji način - standardizacija krivulje normalne distribucije.

Standardizirana normalna distribucija

Standardizacija podrazumijeva transformaciju normalne distribucije s proizvoljnim očekivanjem i standardnom devijacijom u standardnu normalnu distribuciju, koja ima očekivanje 0 i standardnu devijaciju 1. To se postiže korištenjem z-vrijednosti, koje predstavljaju broj standardnih devijacija za koje određena vrijednost odstupa od očekivanja.

\[z = \frac{x_i - \mu}{\sigma}\]

Na taj način, sve normalne distribucije mogu se svesti na zajednički oblik, što omogućava korištenje jedinstvenih tablica i alata za određivanje vjerojatnosti i područja ispod krivulje. Ovaj pristup pojednostavljuje analizu i interpretaciju podataka koji slijede normalnu distribuciju.

  • Standardizirana normalna distribucija opisuje ishode kontinuiranih numeričkih obilježja

  • Funkcija gustoće vjerojatnosti:

    \[ f(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \]

  • Standardizacija varijable:

    \[ z = \frac{x - \mu}{\sigma} \]

Karakteristike standardizirane normalne distribucije

  • Aritmetička sredina iznosi 0, a standardna devijacija iznosi 1

  • Ukupno područje ispod krivulje iznosi 1

  • Krivulja je simetrična oko očekivanja

  • Područje ispod krivulje sa svake strane očekivane vrijednosti iznosi 0,5

  • Krakovi krivulje protežu se u beskonačnost

  • Standardizirana normalna krivulja ne mijenja oblik s obzirom na distribuciju koja je standardizirana

  • \(\alpha_4\) iznosi 3 ili 0, ovisno o načinu izračuna (ovo je referentna krivulja s obzirom na koju se tumači zaobljenost)

  • Najveća točka na normalnoj krivulji nalazi se kod očekivane vrijednosti

  • Očekivanje, medijan i mod su jednaki

  • Vrijede Empirijsko i pravilo Čebiševa.

Primjer primjene. Proizvođač guma razvio je novu vrstu gume s felgama od aluminija učvršćenog čelikom, koje su distribuirane u prodavaonice. Menadžment razmišlja o mogućnosti davanja jamstva na gume s obzirom na kilometražu.

Provedena testiranja guma na cesti ukazuju da gume traju prosječno 36 500 km, uz standardnu devijaciju od 5000 km. Pretpostavljaju da je distribucija normalna.

Žele preispitati uvjerenje u kojem se postotku može očekivati da će gume trajati bar 40 000 km. Za definiranje jamstva, menadžment je procijenio da jamstvo mora biti procijenjeno na takvu kilometražu da će najviše 10% kupaca ostvariti pravo na reklamaciju.

\[z= \frac{x_i - \mu}{\sigma} = \frac{40000-36500}{5000}= 0,7 \cdot \sigma\]

Gume koje traju 40 000 km predstavljaju odstupanje od 0.7 standardnih devijacija od prosjeka. Ako iščitamo vjerojatnost iz statističkih tablica, dobivamo:

\[ p(z=0.7) \approx 0,258\]

Navedena vjerojatnost označava kumulativnu vjerojatnost da će gume trajati od 0 do 0.7 standardnih devijacija – odnosno od 36500 km do 40000 km.. Ali, menadžment zanima vjerojatnost da će gume trajati bar 40000km, odnosno 40000 km ili duže…

Vjerojatnost može poprimiti isključivo vrijednosti u intervalu od 0 do 1.

S obzirom da distribucija prikazuje vjerojatnost, to također vrijedi za površine ispod grafa krivulje (koje možemo utvrditi računanjem integrala ili iščitavanjem iz tablica). Ukupna površina ispod grafa funkcije jednaka je 1. To znači da je lijeva strana jednaka 0.5, i da je desna strana jednaka 0.5.

Odgovor na pitanje menadžmenta o vjerojatnosti da će gume trajati bar 40000km, odnosno 40000 km ili duže…

\[p(𝑧≥0.7)=0,5−0,2580=0,242\]

Vjerojatnost da će gume trajati 40 000 km ili duže iznosi 24,2%.

Drugo pitanje menadžmenta odnosi se na procjenu kilometraže za jamstvo, takvu da će najviše 10% kupaca ostvariti pravo na reklamaciju.

U ovom slučaju, zadana je vjerojatnost od 10%. To znači da se gume u 90% slučajeva neće pohabati do te kilometraže. Zanima nas kilometraža (tj. pripadajuća z vrijednost) koja je vezana uz vjerojatnost 10 % ili manje.

Temeljem zadane vjerojatnosti, iz tablice se iščitava z- vrijednost, koja će se nalaziti na lijevom kraku distribucije (prvih 10%) i poprimiti će negativni predznak,
\[𝑧=−1,28\]

pa je

\(x=𝜇−1,28 \cdot𝜎=36500−1,28 \cdot 5000 \approx 30 100\) km.

Garantirana kilometraža može iznositi približno 30 100 km.

Standardizirana normalna distribucija omogućava jednostavno računanje vjerojatnosti i određivanje područja ispod krivulje, ali njezina korisnost ne završava tu. Ona ima važnu ulogu u statističkoj inferenciji, posebno kod procjene parametara populacije.

U praksi, često imamo uzorak podataka i želimo temeljem njega donijeti zaključke o cijeloj populaciji. Međutim, uzorci variraju, a procjene populacijskih parametara, poput prosjeka ili proporcije, nisu uvijek točne. Tu dolazi do izražaja centralna uloga standardizirane normalne distribucije u statistici – omogućava nam kvantificiranje nesigurnosti i postavljanje intervala pouzdanosti.

Budući da se distribucija prosjeka velikih uzoraka približava normalnoj distribuciji prema centralnom graničnom teoremu, možemo koristiti standardizaciju kako bismo procijenili intervale unutar kojih s određenom vjerojatnošću očekujemo da se nalazi pravi parametar populacije. Drugim riječima, umjesto da radimo s nepoznatim distribucijama, koristimo poznatu standardnu normalnu distribuciju za određivanje intervala pouzdanosti, ali i testiranje statističkih hipoteza.

Kako to izgleda, istražit ćemo kroz procjenu aritmetičke sreine i proporcije populacije pomoću standardizirane normalne distribucije.

Procjena aritmetičke sredine populacije

Kad procjenjujemo parametar populacije, poput prosjeka, koristimo uzorke. Procjena parametara je metoda inferencijalne statistike pomoću koje inferiramo (lat. inferre znači nositi, donijeti; inferirati znači izvesti/izvoditi zaključak) ili zaključujemo o parametrima populacije temeljem pokazatelja uzorka. Aritmetička sredina uzorka je najbolji procjenitelj populacijskog prosjeka. Međutim, zbog varijacija između uzoraka, uzorci neće imati uvijek prosjek identičan populacijskom, pa je važno da uz procjenu pružimo i informaciju o tome koliko smo ‘sigurni’ da je ta procjena blizu stvarnog populacijskog prosjeka. Ovdje nam pomaže koncept intervalne procjene parametara, koji se naziva još i intervalom pouzdanosti.

Upotrijebljen je novi pojam, pouzdanost, s kojim se moramo detaljnije upoznati prije daljnjih koraka. Razina pouzdanosti (engl. confidence level; u izlazu softvera često se označava kao CI) je postotak ili vjerojatnost koja odražava koliko smo ‘sigurni’ da interval pouzdanosti obuhvaća stvarnu vrijednost populacijskog parametra, poput prosjeka ili proporcije. Iako je ovo nespretno rečeno i nije posve točno, ova se interpretacija najčešće koristi u praksi. Da bi nam bilo posve jasno što razina pouzdanosti uistinu označava, moramo razumjeti odakle proizlazi.

Razina pouzdanosti zapravo proizlazi iz sampling distribucije i centralnog graničnog teorema. Preciznije rečeno, centralni granični teorem nam omogućava da, za velike uzorke, bez obzira na oblik početne distribucije populacije, distribucija uzorka prosjeka (sampling distribucija) teži normalnoj distribuciji. Dakle, pokazatelj uzorka - prosjek uzorka - predstavljat će jedno ‘opažanje’ u distribuciji prosjeka uzoraka, koja se ravna prema normalnoj distribuciji. To je ključno za razumijevanje razine pouzdanosti jer nam omogućava korištenje normalne distribucije za konstrukciju intervala pouzdanosti, čak i kada izvorna populacija možda nije normalno distribuirana.

Ispravna i potpuna interpretacija razine pouzdanosti je sljedeća: kada bismo beskonačno puta uzorkovali iz iste populacije i svaki put izračunali interval pouzdanosti za prosjek, očekivali bismo da će približno 95% tih intervala obuhvatiti pravi prosjek populacije (ako koristimo razinu pouzdanosti od 95%). Drugim riječima, uz dovoljan broj ponavljanja, 95% takvih intervala obuhvaćat će stvarnu aritmetičku sredinu populacije.

To ne znači da 95% uzorka prosjeka pada unutar intervala, nego da će 95% intervala pouzdanosti koje konstruiramo za uzorke prosjeka obuhvatiti pravi prosjek populacije. Dakle, razina pouzdanosti nije svojstvo određenog intervala, nego dugoročno svojstvo svih intervala konstruiranih na isti način kroz višestruka uzorkovanja.

Što nam onda govori intervalna procjena parametra populacije temeljem jednog uzorka? Uz jedan jedini uzorak, intervalna procjena nam pokazuje raspon u kojem bismo očekivali da se nalazi stvarna vrijednost parametra, pod uvjetima uzorkovanja i metode koje smo primijenili, znajući pri tome da 95% pouzdanost nije doslovna vjerojatnost za taj pojedini interval, već rezultat načina na koji su svi takvi intervali, ponavljanih uzorkovanja dugoročno gledano, konstruirani. No, kako se procjene relativno često koriste u praksi, zaključivanje se pritom često “skraćuje” (vjerojatno, podrazumijevajući da je čitatelj/slušatelj upoznat s teorijskom pozadinom) i onda ćete najčešće čuti zaključivanje koje reflektira sljedeću ideju: kada imamo samo jedan uzorak, intervalna procjena nam daje raspon mogućih vrijednosti parametra populacije koji se procjenjuje (npr. prosjeka ili proporcije) s određenom razinom pouzdanosti (npr. 95%). Dakle, ključno je razumijevanje teorijske podloge koja je sadržana u dijelu zaključivanja “na razini 95% pouzdanosti”.

Najčešće korištene razine pouzdanosti su 90%, 95% i 99%, što znači da vjerujemo da će, kod mnogih ponovljenih uzorkovanja i izračuna intervala, odgovarajući postotak intervala pouzdanosti obuhvatiti stvarnu vrijednost parametra. Ako koristimo razinu pouzdanosti od 95%, to znači da bismo, kada bismo beskonačno mnogo puta uzimali uzorke iz populacije i računali intervale pouzdanosti za svaki od tih uzoraka, očekivali da će 95% tih intervala obuhvatiti stvarnu vrijednost populacijskog parametra. Razina pouzdanosti se često izražava kao (1-α)⋅100%, gdje je α stopa pogreške ili vjerojatnost da interval ne sadrži stvarnu vrijednost parametra. Primjerice, za razinu pouzdanosti od 95%, α=0.05, što znači da postoji 5% vjerojatnosti da interval neće obuhvatiti stvarnu vrijednost parametra.

Kad govorimo o razini pouzdanosti u kontekstu normalne distribucije ili standardizirane normalne distribucije, ona se odnosi na dio površine ispod krivulje koji obuhvaća interval pouzdanosti. Na primjer, ako želimo razinu pouzdanosti od 95%, to znači da želimo konstruirati interval koji će obuhvatiti 95% mogućih vrijednosti prosjeka uzorka. Drugim riječima, površina ispod krivulje koja odgovara ovom intervalu trebala bi iznositi 95%, odnosno 0,95. Interval pouzdanosti se postavlja oko sredine distribucije, tako da ostavlja po α/2 površine na svakom kraju distribucije. Ako je razina pouzdanosti 95%, tada je \(α=1-0.95=0.05\), što znači da je po \(α/2=0,025\) ili 2,5% površine na svakom kraju distribucije izvan intervala pouzdanosti. Ta područja od α/2 predstavljaju ekstremne vrijednosti u krakovima distribucije koje nisu obuhvaćene intervalom. Možemo reći da interval pouzdanosti s razinom pouzdanosti od 95% pokriva područje ispod krivulje između \(-z_{\alpha/2}=-z_{0.025}\) i \(+z_{\alpha/2}=+z_{0.025}\) standardnih devijacija od prosjeka, jer \(z_{0.025}\) (oko \(±1.96\) za 95% razinu pouzdanosti) označava kritičnu vrijednost koja odgovara 2.5% površine s obje strane distribucije.

Tako su \(\pm z_{\alpha/2}\) kritične vrijednosti za utvrđivanje intervala pouzdanosti, a u kontekstu intervalne procjene parametara populacije naziva se koeficijent povjerenja ili koeficijent pouzdanosti. Te vrijednosti označavaju granice na standardiziranoj normalnoj krivulji koje omeđuju površinu pod krivuljom ili vjerojatnost, tako da ona iznosi točno \((1- \alpha)\).

Dakle, površina od 95% ispod krivulje normalne distribucije između \(-z_{0.025}\) i \(+z_{0.025}\) standardnih devijacija od prosjeka, pokazuje nam raspon unutar kojeg bismo, s 95% pouzdanosti, uz beskonačno mnogo ponavljanja uzorkovanja, očekivali da će u približno 95 % slučajeva biti obuhvaćen pravi prosjek populacije. To je osnova za korištenje normalne distribucije u konstrukciji intervala pouzdanosti. U praksi, za jedan određeni, izračunati interval, ili taj interval obuhvaća parametar ili ne – razina pouzdanosti je zapravo izjava o dugoročnom prosjeku svih mogućih intervala, a ne o specifičnom intervalu. Zbog toga se u praksi interval pouzdanosti temeljen na jednom uzorku najčešće interpretira kao interval koji, s određenom razinom ‘sigurnosti’, obuhvaća pravi nepoznati populacijski prosjek, ali ne možemo biti apsolutno sigurni ako nam je prosjek populacije nepoznat.

Viša razina pouzdanosti zahtijeva širi interval procjene jer uključuje veću ‘sigurnost’ da će interval obuhvatiti populacijski parametar. Na primjer, razina pouzdanosti od 99% daje širi interval od razine pouzdanosti od 95% jer mora pokriti veći dio distribucije. To znači da, što želimo višu razinu pouzdanosti, to moramo proširiti interval unutar kojeg očekujemo stvarnu vrijednost parametra.

Na primjer, ako bismo htjeli 100%-tni interval pouzdanosti za neki parametar, u klasičnom pristupu taj interval „mora“ pokriti sve moguće vrijednosti parametra kako bismo mogli biti „100% sigurni“ da se prava vrijednost nalazi unutar intervala. To znači da bi interval bio \([−∞,+∞]\). Naravno, takav beskonačno širok interval nam ne pruža nikakvu praktičnu informaciju. Čim malo spustimo razinu pouzdanosti ispod 100%, npr. na 99%, eliminiramo malo vjerojatne ishode koji se protežu u beskonaćnost (tehnički, uz tu razinu pouzdanosti eliminira se 0.5% ishoda s rubova svake strane distribucije) i dobivamo uži, korisniji interval. Najčešće se koriste razine pouzdanosti od 90%, 95% ili 99% upravo zato da interval bude razumno širok (da i dalje sadrži većinu vjerodostojnih vrijednosti) i istovremeno dovoljno uzak da bude koristan u donošenju zaključaka.

Ako odaberemo razinu pouzdanosti od 95%, tada koristimo kritičnu vrijednost \(z_{α/2}=1.96\), dok za razinu pouzdanosti od 99% koristimo kritičnu vrijednost \(z_{α/2}=2.58\). Ova kritična vrijednost odgovara “odsječenim” dijelovima distribucije sa svake strane intervala, gdje \(α/2\) označava rubne dijelove distribucije koje ne uključujemo u interval. Ukupna pogreška je α i ravnomjerno ju dijelimo na oba kraka distribucije, odnosno, \(α/2\).

Izraz za intervalnu procjenu aritmetičke sredine populacije:

\[P[(\bar{x}-z_{α/2} \cdot \sigma_\bar{x} )< μ<(\bar{x}+z_{α/2} \cdot \sigma_\bar{x} )]=(1-α)\]

Koraci (općenito, za intervalne procjene):

  • Izbor procjene parametara: Prvo definiramo koji parametar želimo procijeniti (npr., prosjek populacije) i odabiremo odgovarajući izraz za procjenu.

  • Izračun parametara uzorka: Izračunamo potrebne pokazatelje iz uzorka, kao što su aritmetička sredina uzorka (\(\bar{x}\)) i standardna devijacija uzorka. Na temelju veličine uzorka možemo izračunati standardnu pogrešku (\(s_\bar{x} =\frac{s}{\sqrt{n}}\)).

  • Ako je izabran relativno veliki uzorak iz konačne populacije, pri izračunu standardne pogreške, primjenjuje se faktor korekcije, \(\sqrt \frac{N-n}{N-1}\). Kriterij za to je frakcija izbora \(f=\frac{n}{N}\), odnosno veličina uzorka podijeljena s veličinom populacije. Ako je \(f>0.05\), primjenjuje se faktor korekcije, pa se standardna pogreška izračunava kao \(s_\bar{x} =\frac{s}{\sqrt{n}} \cdot \frac{N-n}{N-1}\).

  • Pogreška procjene (\(z_{α/2} \cdot s_\bar{x}\)) predstavlja maksimalno odstupanje prosjeka uzorka od stvarnog populacijskog prosjeka uz danu razinu pouzdanosti. Drugim riječima, to je dio intervala pouzdanosti koji se dodaje i oduzima od prosjeka uzorka kako bismo dobili gornju i donju granicu intervala.

  • Interval procjene računamo uvrštavajući vrijednosti u izraz za intervalnu procjenu parametra kako bismo dobili donju i gornju granicu intervala procjene.

  • Tumačenje intervala procjene: Na kraju, interpretiramo interval procjene u kontekstu podataka. Na primjer, možemo reći: “Na razini 95% pouzdanosti, smatra se da se prosjek populacije nalazi između donje i gornje granice intervala procjene.” Time izražavamo da je to raspon unutar kojeg bismo, na razini pouzdanosti 95%, uz beskonačno mnogo ponavljanja uzorkovanja, očekivali da će u približno 95 % slučajeva biti obuhvaćen pravi prosjek populacije.

Navedene korake ćemo prikazati na primjeru prvog uzorka veličine 323 cijena nekretnina. Dakle odabiremo intervalnu procjenu aritmetičke sredine populacije na razini pouzdanosti 95 %.

\[P[(\bar{x}-z_{α/2} \cdot s_\bar{x} )< μ<(\bar{x}+z_{α/2} \cdot s_\bar{x} )]=(1-α)\]

Nakon toga, ispisujemo poznate vrijednosti.

\[\bar{x}=220088,55\]

\[s=105321,73\]

\[n=323\]

\[f=\frac{n}{N}=\frac{323}{1728}=0.1869 ⟹f>0.05\]

Temeljem poznatih veličina, izračunavamo standardnu pogrešku aritmetičke sredine te utvrđujemo razinu pouzdanosti.

\[s_\bar{x} =\frac{s}{\sqrt{n}} \cdot \frac{N-n}{N-1} = \frac{105321,73}{√323} \sqrt{\frac{1728-323}{1728-1}}=5860,258 \cdot 0.90197=5285.78\] \[1-α=0,95\]

\[α=0,05\]

\[α/2=0,025\]

\[z_{α/2}=1,96\]

Na slici vidimo standardiziranu normalnu distribuciju (prosjek 0, standardna devijacija 1) i područje između −1.96 i +1.96 standardnih devijacija od sredine, koje pokriva 95% površine ispod krivulje. Ovaj prikaz nam omogućava da generaliziramo intervale pouzdanosti za sve distribucije gdje koristimo z-vrijednosti.

\[z_{α/2} \cdot s_\bar{x} = 1,96 \cdot 5285.78=10360.13\]

Pogreška procjene određuje širinu intervala procjene. Možemo vidjeti da će ta širina intervala ovisiti o standardnoj devijaciji, veličini uzorka i razini pouzdanosti. Što je varijabilnost u uzorku veća, to će biti širi interval procjene – ali, na to ne možemo utjecati. Što je uzorak veći, interval procjene će biti uži – a na to možemo utjecati na način da povećamo uzorak. Nadalje, što je razina pouzdanosti ili povjerenja veća, to je interval procjene širi.

Nakon što smo izračunali sve potrebne vrijednosti, uvrštavamo ih u izraz za intervalnu procjenu prosjeka populacije i dobivamo:

\[P[209728.42< μ<230448.68]=95 \%\]

Na razini pouzdanosti 95%, procjenjuje se će prosjek populacije cijena nekretnina biti između 209728,42 dolara i 230448,68 dolara.

Na ovoj slici, prikazana je normalna distribucija približno prilagođena za naše uzorke cijena nekretnina, s procijenjenim intervalom između 209728,42$ i 230448,68$. Ovdje koristimo stvarne vrijednosti prosjeka i standardne pogreške. Grafički prikaz je kreiran koristeći geogebru, a ovakvi prikazi nam pomažu pri vizualizaciji i povezivanju teorijskih s praktičnim konceptima.

Sljedeća tablica prikazuje poznate podatke te izračunate veličine potrebne za intervalnu procjenu temeljem preostalih uzoraka. U posljednja dva stupca izračunate su donje i gornje granice intervala temeljem svakog od ovih deset uzoraka.

Tablica 9. Intervalne procjene aritmetičke sredine populacije temeljem 10 uzoraka

Uzorak Broj opažanja Prosjek Standardna devijacija \(s_\hat{x}\) \(z_{α/2}\) \(z_{α/2} \cdot s_{\bar{x}} \cdot \sqrt{\frac{N-n}{N-1}}\) Donja granica intervala procjene Gornja granica intervala procjene
uzorak1 323 220088.55 105321.73 5860.25791 1.96 10360.12 209728.43 230448.67
uzorak2 323 213262.1053 99457.299 5533.95214 1.96 9783.26 203478.85 223045.36
uzorak3 323 208389.031 94543.646 5260.54921 1.96 9299.92 199089.11 217688.95
uzorak4 323 208016.0341 97917.205 5448.25902 1.96 9631.77 198384.27 217647.80
uzorak5 323 216413.0991 98684.096 5490.92997 1.96 9707.20 206705.90 226120.30
uzorak6 323 207492.9659 88967.991 4950.31143 1.96 8751.46 198741.50 216244.43
uzorak7 323 214806.1641 100071.24 5568.11290 1.96 9843.65 204962.51 224649.81
uzorak8 323 204976.8793 99283.668 5524.29104 1.96 9766.18 195210.70 214743.06
uzorak9 323 215299.4923 91420.352 5086.76446 1.96 8992.69 206306.80 224292.19
uzorak10 323 216153.7585 100483.96 5591.07726 1.96 9884.25 206269.51 226038.01

Prosjek uzorka predstavlja najboljeg procjenitelja za prosjek populacije, no intervali procjene uključuju granice unutar kojih bi se pravi prosjek trebao naći uz određenu vjerojatnost. Na primjer, interval za drugi uzorak pokazuje da, na razini pouzdanosti 95%, procjenjuje se da će prosjek populacije iznositi između 203478.85 dolara i 223045.36 dolara.

Prosjek populacije svih cijena nekretnina je 211966.71 dolara i možemo s lakoćom potvrditi da je ta vrijednost sadržana u svih deset intervala procjene.




Procjena proporcije populacije

U nastavku ćemo se baviti kvalitativnom opisnom varijablom Novogradnja, iz istog skupa podataka, koja je mjerena na nominalnoj razini. Ova je varijabla prekodirana u binarnu varijablu, gdje 1 označava da je u pitanju novogradnja, a 0 označava izostanak tog promatranog svojstva. Binarna varijabla, poput ove, u kojoj promatramo pojavljivanje određenog svojstva, slijedi Bernoullijevu distribuciju, pri čemu svaka jedinica može poprimiti samo jednu od dvije moguće vrijednosti: da ili ne, odnosno 1 ili 0.

Proučavajući ovu binarnu varijablu, možemo analizirati učestalost i postotak novogradnje unutar populacije i unutar različitih uzoraka. U populaciji od 1728 jedinica, 4.6875% jedinica čini novogradnju, dok 95.3125% nije novogradnja. Ovi postoci pružaju uvid u zastupljenost novogradnje u cjelokupnom skupu podataka.

Tablica 10. Tablica frekvencija novogradnje

Novogradnja Frekvencija Postotak Kumulativni postotak
0 1647 95.3125 95.3125
1 81 4.6875 100.0000
Total 1728 100.0000

Za proporcije, središnji granični teorem nam omogućava primjenu koncepta sampling distribucije proporcija (odnosno distribucije proporcije uzoraka) na specifične situacije u kojima mjerimo učestalost pojavljivanja određenog svojstva u uzorku, poput novogradnje. Kada uzimamo velik broj uzoraka iste veličine iz populacije i računamo proporciju pojave tog svojstva u svakom uzorku (u ovom slučaju, udio novogradnje), ove uzorkovne proporcije teže normalnoj distribuciji, iako je pojedinačna distribucija binarna (tj. Bernoullijeva).

Sampling distribucija proporcija odnosi se na distribuciju uzorkovnih proporcija kada se beskonačno puta uzimaju slučajni uzorci iste veličine iz populacije. Dakle, slično kao za sampling distribuciju aritmetičkih sredina, samo ovdje računamo proporcije, a ne prosjeke.

Na primjer, u populaciji od 1728 jedinica, postotak novogradnje iznosi 4.6875%. Kako bi se proučila varijabilnost ove proporcije kroz uzorke, generirano je smo deset slučajnih uzoraka veličine 323 jedinice. U svakom od ovih uzoraka izračunali smo frekvenciju i postotak novogradnje. Rezultati pokazuju male očekivane varijacije u postotku novogradnje među uzorcima. Na primjer, u uzorku 3, proporcija novogradnje iznosi 6.5%, dok je u uzorku 6 ona nešto niža, 3.41%. Ove oscilacije su očekivane i ukazuju na slučajnu varijabilnost koja se javlja između uzoraka.

Kada uzimamo uzorke veličine 323 iz te populacije i računamo proporciju novogradnje u svakom uzorku, svaka od tih proporcija može se malo razlikovati zbog slučajnih oscilacija, ali bi se proporcija svih tih proporcija približila stvarnoj populacijskoj proporciji.

Tablica 11. Tablica frekvencija novogradnje temeljem 1. uzorka nekretnina

Novogradnja Frekvencija Postotak Kumulativni postotak
0 313 96.9040 96.9040
1 10 3.0960 100.0000
Total 323 100.0000

Tablica 12. Tablica frekvencija novogradnje temeljem 2. uzorka nekretnina

Novogradnja Frekvencija Postotak Kumulativni postotak
0 310 95.9752 95.9752
1 13 4.0248 100.0000
Total 323 100.0000

Tablica 13. Tablica frekvencija novogradnje temeljem 3. uzorka nekretnina

Novogradnja Frekvencija Postotak Kumulativni postotak
0 302 93.4985 93.4985
1 21 6.5015 100.0000
Total 323 100.0000

Tablica 14. Tablica frekvencija novogradnje temeljem 4. uzorka nekretnina

Novogradnja Frekvencija Postotak Kumulativni postotak
0 307 95.0464 95.0464
1 16 4.9536 100.0000
Total 323 100.0000

Tablica 15. Tablica frekvencija novogradnje temeljem 5. uzorka nekretnina

Novogradnja Frekvencija Postotak Kumulativni postotak
0 308 95.3560 95.3560
1 15 4.6440 100.0000
Total 323 100.0000

Tablica 16. Tablica frekvencija novogradnje temeljem 6. uzorka nekretnina

Novogradnja Frekvencija Postotak Kumulativni postotak
0 312 96.5944 96.5944
1 11 3.4056 100.0000
Total 323 100.0000

Tablica 17. Tablica frekvencija novogradnje temeljem 7. uzorka nekretnina

Novogradnja Frekvencija Postotak Kumulativni postotak
0 307 95.0464 95.0464
1 16 4.9536 100.0000
Total 323 100.0000

Tablica 18. Tablica frekvencija novogradnje temeljem 8. uzorka nekretnina

Novogradnja Frekvencija Postotak Kumulativni postotak
0 306 94.7368 94.7368
1 17 5.2632 100.0000
Total 323 100.0000

Tablica 19. Tablica frekvencija novogradnje temeljem 9. uzorka nekretnina

Novogradnja Frekvencija Postotak Kumulativni postotak
0 307 95.0464 95.0464
1 16 4.9536 100.0000
Total 323 100.0000

Tablica 20. Tablica frekvencija novogradnje temeljem 10. uzorka nekretnina

Novogradnja Frekvencija Postotak Kumulativni postotak
0 308 95.3560 95.3560
1 15 4.6440 100.0000
Total 323 100.0000

Prema središnjem graničnom teoremu, kako veličina uzorka raste, distribucija tih uzorkovnih proporcija sve više nalikuje normalnoj distribuciji, bez obzira na početnu binarnu prirodu podataka. Ova normalnost sampling distribucije omogućava primjenu intervala pouzdanosti i statističkih testova za proporcije.

Standardna pogreška proporcije \(s_{\hat{p}}\) pokazuje kolika je prosječna udaljenost uzorkovne proporcije od stvarne populacijske proporcije. Izračunava se prema formuli:

\[ s_{\hat{p}} = \sqrt{\frac{\hat{p} \cdot \hat{q}}{n}} \]

gdje je:

  • \(\hat{p}\) — uzorkovna proporcija (npr., proporcija novogradnje u jednom uzorku),
  • \(\hat{q} = 1 - \hat{p}\) — komplementarna proporcija uzorka,
  • \(n\) — veličina uzorka.

U slučaju odabira relativno velikog uzorka iz konačne populacije \((f > 0.05)\), koristi se faktor korekcije konačne populacije.

Ova vrijednost nam daje mjeru varijabilnosti proporcija između različitih uzoraka. Veći uzorci smanjuju standardnu pogrešku, jer tad proporcija u uzorku postaje bolji procjenitelj stvarne proporcije u populaciji.

\[ P\left[\hat{p} - z_{\alpha/2} \cdot s_{\hat{p}} < p < \hat{p} + z_{\alpha/2} \cdot s_{\hat{p}} \right] = (1 - \alpha) \]

gdje je:

  • N — veličina populacije,
  • n — veličina uzorka,
  • m — broj povoljnih događaja u uzorku,
  • \(\hat{p} = \frac{m}{n}\) — proporcija uzorka, koja označava udio povoljnih događaja u uzorku,
  • \(\hat{q} = 1 - \hat{p}\) — komplementarna proporcija uzorka, koja označava omjer nepovoljnih događaja (onih koji nemaju svojstvo koje promatramo),
  • \(f = \frac{n}{N}\) — frakcija uzorka (ako je veća od 0.05, koristi se faktor korekcije),
  • Standardna pogreška proporcije s faktorom korekcije:

\[ s_{\hat{p}} = \sqrt{\frac{\hat{p} \cdot \hat{q}}{n} \cdot \frac{N-n}{N-1}} \]

Tablica 21. Intervalne procjene proporcije populacije temeljem 10 uzoraka

\(p̂\) \(q̂\) \(s_{p̂} = \sqrt \frac{p̂\cdot q̂}{n} \sqrt \frac{N-n}{N-1}\) \(z_{α/2}\) \(s_{p̂} \cdot z_{α/2}\) Donja granica intervala procjene Gornja granica intervala procjene
0.03096 0.96904 0.008693 1.96 0.017038 0.013922 0.047998
0.040248 0.959752 0.009864 1.96 0.019333 0.020915 0.059581
0.065015 0.934985 0.012374 1.96 0.024252 0.040763 0.089267
0.049536 0.950464 0.01089 1.96 0.021344 0.028192 0.07088
0.04644 0.95356 0.010561 1.96 0.0207 0.02574 0.06714
0.034056 0.965944 0.009103 1.96 0.017841 0.016215 0.051897
0.049536 0.950464 0.01089 1.96 0.021344 0.028192 0.07088
0.052632 0.947368 0.011207 1.96 0.021965 0.030667 0.074597
0.049536 0.950464 0.01089 1.96 0.021344 0.028192 0.07088
0.04644 0.95356 0.010561 1.96 0.0207 0.02574 0.06714

Na sličan način kao i ranije, izračunate su donja i gornja granica intervala procjene temeljem 10 uzoraka. Podsjetimo se, u populaciji nekretnina, proporcija novogradnje je 0,46875 i brzim pregledom donjih i gornjih granica intervala, možemo uočiti da se ta proporcija nalazi unutar svakog intervala. Na primjer, temeljem pokazatelja prvog uzorka, utvrđene su granice intervala u prvom retku. Na razini povjerenja od 95% procjenjuje se kako će više od 1,39%, a manje od 4,8% nekretnina biti novogradnja. Temeljem drugog uzorka, na razini povjerenja 95% procjenjuje se kako će novogradnje činiti između 2,09% i 5,96%.

Napomena vezana uz faktor korekcije konačne populacije

Softverski alati najčešće pretpostavljaju beskonačnu populaciju (ili dovoljno veliku da se korekcijski faktor može zanemariti) i standardno ga ne uključuju osim ako korisnik ne unese veličinu populacije (a neki softveri nemaju predviđenu tu mogućnost). To je važna razlika koju treba naglasiti:

  • Ako je veličina populacije poznata i frakcija uzorka veća od 5% (\(f>0.05\)), istraživač mora ručno prilagoditi izračune koristeći korekcijski faktor.

  • Ako veličina populacije nije poznata ili nije navedena, softver će izračunati standardnu pogrešku bez korekcijskog faktora, što je u redu ako se stvarno radi o jako velikoj populaciji (ili ako nije poznata stvarna veličina populacije, ali se pretpostavlja da je u pitanju veliki broj) u kombinaciji s relativno malenim uzorkom tj. frakcija izbora je realno manja od 5%.

Interval pouzdanosti kada nije ispunjen uvjet velikog uzorka

Kad je veličina uzorka relativno mala (\(n<30\)) ili kad ne znamo standardnu devijaciju populacije, σ, klasična z-aproksimacija (temeljena na standardnoj normalnoj distribuciji) nije pouzdana. U takvim situacijama obično se koristimo t-distribucijom, koja ima “šire” krakove od normalne distribucije i time bolje obuhvaća dodatnu neizvjesnost zbog malog uzorka. Pri tome je ključno da populacija iz koje uzorak dolazi bude barem približno normalno distribuirana ili da postoji razumna pretpostavka o normalnosti (posebno ako je uzorak manji od 30).

t-distribucija ovisi o broju stupnjeva slobode (\(df=n−1\)) – što je manji uzorak, to su krakovi t-distribucije deblji i kritična vrijednost za konstrukciju intervala veća u odnosu na z-vrijednost. Na taj način dobivamo širi interval pouzdanosti, kojim koeficijent pouzdanosti pokušava uvažiti dodatnu neizvjesnost zbog malog uzorka i/ili nepoznate populacijske standardne devijacije.

U praksi to znači da pri izračunu intervala pouzdanosti za prosjek, ako se istodobno koristi uzorak male veličine i nepoznata populacijska standardna devijacija, moramo:

  • Zamijeniti σ standardnom devijacijom uzorka s.
  • Umjesto z-vrijednosti u formulu uključiti t-vrijednost, preuzetu iz tablica t-distribucije (ili dobivenu koristeći odgovarajuću programsku podršku), za željenu razinu pouzdanosti i (n−1) stupnjeva slobode.

Ovakav pristup (koristeći t-distribuciju) omogućava nam relativno pouzdanu intervalnu procjenu prosjeka čak i kada uzorak nije velik, uz uvjet da su ispunjene pretpostavke o (barem približnoj) normalnosti ishodišne populacije.

\[P[(\bar{x}-t_{α/2} \cdot s_\bar{x} )< μ<(\bar{x}+t_{α/2} \cdot s_\bar{x} )]=(1-α)\]


Studentova t-distribucija nastala je početkom 20. stoljeća zahvaljujući Williamu Sealyju Gossetu, koji je radio kao statističar u pivovari Guinness. Njegov cilj bio je razviti statističke metode koje bi omogućile analizu malih uzoraka—posebno u kontroli kvalitete piva, gdje su podaci često bili ograničeni. Gosset je otkrio da kad uzorak dolazi iz normalne distribucije, ali je njegova veličina mala, standardna normalna distribucija ne daje pouzdane rezultate za procjene populacijskih parametara. Ključan problem bio je što procijenjena varijanca uzorka nije bila identična stvarnoj varijanci populacije, već je varirala od uzorka do uzorka.

Kako bi to riješio, Gosset je razvio novu distribuciju koja uzima u obzir dodatnu nesigurnost u procjeni varijance i objavio ju je 1908. godine pod pseudonimom Student (zbog pravila pivovare koja su mu zabranjivala objavu pod vlastitim imenom). Ova distribucija postala je poznata kao Studentova t-distribucija i danas je neizostavan alat u statistici, posebno kod testiranja hipoteza i izračuna intervala pouzdanosti kad je uzorak mali i kada je varijanca populacijenepoznata. Za više detalja, pogledajte Gosset (1908). The probable error of a mean. Biometrika. i Stigler (1986). The History of Statistics: The Measurement of Uncertainty before 1900.

Zašto trebamo t-distribuciju?

  • Nepoznata standardna devijacija

    • Kod normalne distribucije često pretpostavljamo da znamo \(\sigma\) (standardnu devijaciju populacije) ili da je uzorak dovoljno velik da je možemo dobro procijeniti.
    • U praksi je \(\sigma\) često nepoznata, a posebno kada je uzorak mali (npr. \(n < 30\)).
  • Dodatna nesigurnost kod malog uzorka

    • Kad je uzorak mali, procjena standardne devijacije iz uzorka (\(s\)) nije dovoljno “stabilna”.
    • t-distribucija dodaje korekciju na repove (ima “deblje repove” od normalne), čime priznajemo dodatnu nesigurnost.
  • Slična normalnoj, ali “šira”

    • t-distribucija izgleda kao zvonasta krivulja, nalik na normalnu, ali joj je sredina nešto “niža”, a repovi “viši” (deblji).
    • Kako se veličina uzorka povećava, t-distribucija se sve više približava normalnoj distribuciji.

Stupnjevi slobode (degrees of freedom)

Ključni pojam kod t-distribucije je broj stupnjeva slobode (engl. degrees of freedom, često označeni s \(df\)).

  • U najjednostavnijem slučaju (procjena prosjeka), \(df = n - 1\), gdje je \(n\) veličina uzorka.
  • Što je \(df\) veći, krivulja t-distribucije postaje sve sličnija standardnoj normalnoj distribuciji.

Kako čitati \(t_{\alpha/2}\)?

Kada računamo interval pouzdanosti ili provodimo t-test, tražimo “kritičnu” vrijednost \(t_{\alpha/2}\) iz tablice t-distribucije ili iz softvera (npr. Excel, R, Python…).

  1. Odredimo razinu pouzdanosti:

    • Primjerice, za 95% pouzdanost, \(\alpha = 1 - 0,95 = 0,05\).
    • Tada trebamo \(t_{\alpha/2} = t_{0,025}\) (jer dijelimo \(\alpha\) na dva repa distribucije, po \(\alpha/2\) svaki).
  2. Nađemo broj stupnjeva slobode:

    • Kod jednostavne procjene prosjeka iz malog uzorka, \(df = n - 1\).
  3. Očitamo vrijednost iz tablice:

    • U tablici t-distribucije, u retku tražimo odgovarajući \(df\).
    • U stupcu potražimo \(t\)-vrijednost koja odgovara traženom \(\alpha/2\).
    • Rezultat je \(t_{\alpha/2}\) za te stupnjeve slobode.

Primjer:

  • Za interval pouzdanosti od 95% i uzorak od 10 elemenata \((n=10)\)\(df = 9\).
  • Pogledamo tablicu t-distribucije za \(df=9\) i \(\alpha/2 = 0,025\).
  • Moguća vrijednost \(t_{0,025,9}\) iznosi oko 2,26 (ovisno o zaokruživanju).

Glavne razlike: t-distribucija vs.normalna distibucija

  • Kada se koristi?

    • t-distribucija: Kad je uzorak mali i/ili \(\sigma\) nepoznata.
    • Normalna distribucija (standardna z): Kad je uzorak dovoljno velik (npr. \(n>30\)) ili kad poznajemo \(\sigma\).
  • Oblik krivulje

    • t: Zvonasta, ali spljištenija u sredini i s težim repovima.
    • Normalna: Zvonasta s “tanjim” repovima.
  • Ovisnost o stupnjevima slobode

    • t-distribucija se “mijenja” ovisno o broju stupnjeva slobode.
    • Normalna distribucija je uvijek ista (kad govorimo o standardnoj normalnoj sa sredinom 0 i std.dev. 1).
  • Kako t prelazi u normalnu

    • Kako \(df\) raste (uzorak sve veći), t-distribucija “prianja” uz standardnu normalnu.

Pojednostavljena t-tablica za intervale pouzdanosti (dvostrana)

U nastavku je skraćena tablica kritičnih vrijednosti t-distribucije za dvostrane procjene i testiranja, pri najčešće korištenim razinama pouzdanosti (90%, 95%, 99%).

Vrijednosti su aproksimacije i mogu se blago razlikovati između različitih izvora/tablica, ovisno o zaokruživanju.

df (stupnjevi slobode) 90% (α=0.10) 95% (α=0.05) 99% (α=0.01)
5 2.015 2.571 4.032
10 1.812 2.228 3.169
30 1.697 2.042 2.750
50 1.676 2.009 2.678
100 1.660 1.984 2.626
300 1.649 1.968 2.580
500 1.647 1.965 2.580
1000 1.646 1.962 2.579
5000 1.645 1.960 2.577
∞ (beskonačno) 1.645 1.960 2.576

Objašnjenje:

  • df (stupnjevi slobode): u pravilu, vrijedi \(df = n - 1\), gdje je \(n\) veličina uzorka.

  • 90% (α=0.10): Ovo znači da je ukupna pogreška (\(α\)) = 0.10, a na svakom kraku ($ α/2$) = 0.05.

  • 95% (α=0.05): Ukupna pogreška (\(α\)) = 0.05, pa je na svakom kraku (\(α/2\)) = 0.025.

  • 99% (α=0.01): Ukupna pogreška (\(α\)) = 0.01, a na svakom kraku ($ α/2$) = 0.005.

  • Redak ∞ (beskonačno) odgovara vrijednostima iz standardne normalne distribucije (jer se t-distribucija približava normalnoj kako raste broj stupnjeva slobode).

  • Ove vrijednosti koristimo primjerice kod konstruiranja intervala pouzdanosti za mali uzorak s nepoznatom populacijskom standardnom devijacijom.

  • Omogućuje točnost procjene - ako koristimo normalnu distribuciju za vrlo male uzorke, podcijenit ćemo širinu intervala i time riskirati netočan (preuzak) interval pouzdanosti.


t-distribucija je “prilagođena” verzija normalne krivulje za slučajeve male veličine uzorka i/ili nepoznate populacijske standardne devijacije.
- Njezina osnovna karakteristika jesu deblji krakovi, što povećava kritičnu vrijednost \(t_{\alpha/2}\) u odnosu na \(z_{\alpha/2}\).
- Ključni parametar su stupnjevi slobode (\(df\)), jer oni određuju točan oblik t-distribucije.
- Za “iščitavanje” vrijednosti \(t_{\alpha/2}\) trebamo:
1. željenu razinu pouzdanosti (ili razinu značajnosti \(\alpha\)),
2. broj stupnjeva slobode \((n - 1\) kod procjene prosjeka),
3. odgovarajuću tablicu ili softver.

Uz to znanje, možemo ispravno konstruirati intervale pouzdanosti i provoditi testove za prosjek i ostale parametre u situacijama gdje je uzorak malen i varijabilnost nije prethodno poznata.

Zašto to nije potrebno raditi za procjenu proporcije?

U procjeni proporcije \((p)\) ne koristimo t-distribuciju jer se u pozadini ne nalazi (barem približno) normalna distribucija s nepoznatom standardnom devijacijom, nego binomna distribucija, koja ima specifičnu formu varijance ovisnu o \(p\). Za razliku od slučaja procjene prosjeka \(\mu\), kod proporcije:

  1. Standardna devijacija nije nepoznata u smislu da je moramo dodatno procjenjivati iz uzorka (kao \(\sigma\) u slučaju prosjeka), nego je u binomnom modelu definirana s \(p(1-p)\).

  2. Kod većih uzoraka (kada su zadovoljeni uvjeti za normalnu aproksimaciju binomne distribucije) dovoljno je koristiti z-aproksimaciju. Tada je interval pouzdanosti:

    \[ \hat{p} \pm z_{\alpha/2} \sqrt{ \frac{\hat{p}(1 - \hat{p})}{n} }, \]

    pri čemu \(\hat{p}\) predstavlja proporciju uspjeha u uzorku, a \(\sqrt{\hat{p}(1-\hat{p}) / n}\) procijenjenu standardnu pogrešku.

  3. Kod manjih uzoraka (kada normalna aproksimacija nije pouzdana) koriste se tzv. “točniji” pristupi poput:

    • Clopper–Pearsonovog intervala
    • Wilsonovog intervala

Ti pristupi izravno koriste binomnu distribuciju (ili neke prilagođene aproksimacije), a t-distribucija nema ulogu jer nije riječ o procjeni prosjeka normalne distribucije, već o procjeni vjerojatnosti (proporcije) uspjeha kod binomnih ishoda.

\[ P\left[\hat{p} - z_{\alpha/2} \cdot s_{\hat{p}} < p < \hat{p} + z_{\alpha/2} \cdot s_{\hat{p}} \right] = (1 - \alpha) \]

Procjena prosjeka i proporcija varijabli nekretnina

Vraćamo se na izvorni skup podataka i promatramo ga kao uzorak (što i jest).

Tablica

Variable Valid Mean Std. Error of Mean Std. Deviation
Price 1728 211966.7054 2368.1318 98441.3910
Lot.Size 1728 0.5002 0.0168 0.6987
Waterfront 1728 0.0087 0.0022 0.0928
Age 1728 27.9161 0.7027 29.2100
Land.Value 1728 34557.1875 842.4784 35021.1681
New.Construct 1728 0.0469 0.0051 0.2114
Central.Air 1728 0.3675 0.0116 0.4823
Fuel.Type 1728 2.4323 0.0169 0.7041
Heat.Type 1728 2.5278 0.0187 0.7763
Sewer.Type 1728 2.6950 0.0114 0.4754
Living.Area 1728 1754.9757 14.9133 619.9356
Pct.College 1728 55.5677 0.2486 10.3336
Bedrooms 1728 3.1545 0.0197 0.8174
Fireplaces 1728 0.6019 0.0134 0.5561
Bathrooms 1728 1.9002 0.0158 0.6584
Rooms 1728 7.0417 0.0557 2.3165

U tablici vidimo pokazatelj Std. Error of Mean - predstavlja standardnu pogrešku aritmetičke sredine \(s_\bar{x}\). To možemo i provjeriti. Na primjer, za varijablu cijene, \(s=98441.391\), \(n=1728\), pa je \(s_\bar{x}= \frac{s}{\sqrt{n}}=\frac{98441,391}{\sqrt{1728}}=2368,132\).

Što je sljedeći korak?

\[P[(\bar{x}-t_{α/2} \cdot s_\bar{x} )< μ<(\bar{x}+t_{α/2} \cdot s_\bar{x} )]=(1-α)\]

Da bismo mogli utvrditi interval procjene prosjeka populacije trebaju nam \(\bar{x}\), \(z_{α/2}\) i \(s_\bar{x}\). Temeljem podataka iz tablice pokazatelja već imamo \(\bar{x}\) i \(s_\bar{x}\), pa preostaje izračunati \(z_{α/2}\).

S obzirom da se radi o standardiziranoj normalnoj distribuciji, i ovdje možemo koristiti “prečicu” za utvrđivanje koeficijenata pouzdanosti. Za standardne razine pouzdanosti, vrijedi:


Razina pouzdanosti \(\pm z_{α}\) \(\pm z_{α/2}\)
90 % 1.28 1.65
95 % 1.64 1.96
99 % 2.33 2.58


Za t-vrijednosti , u situaciji kada imamo uzorak veličine \(n = 1728\), stupnjevi slobode se računaju kao \(df = n - 1 = 1727\). Slijedi pojednostavljeni ispis kritičnih t-vrijednosti (koeficijenti pouzdanosti) za tri uobičajene razine pouzdanosti:


df 90% (α=0.10) 95% (α=0.05) 99% (α=0.01)
1727 \(1.646 \approx 1.65\) \(1.961 \approx 1.96\) \(2.579 \approx 2.58\)


Ovo je primjer velikog uzorka, koji ilustrira kako za velike vrijednosti \(df\)-a t-distribucija konvergira standardiziranoj normalnoj distribuciji.

Izračunajmo interval pouzdanosti procjene prosječne cijene nekretnina

Slijedi uvrštavanje. Za cijenu, dobivamo interval:

\[P[(211966.71-1.96 \cdot 2368.13 )< μ<(211966.71+1.96 \cdot 2368.13 )]=95\%\]

\[P[207348,9< μ<216584,6]=95\%\]

Na razini pouzdanosti 95% procjenjuje se da je prosječna cijena nekretnina između 207348,9 i 216584,6 dolara.


Izračunajmo interval pouzdanosti procjene prosječne veličine zemljišta nekretnina

\[P[(0.5-1.96 \cdot 0.0168 )< μ<(0.5+1.96 \cdot 0.0168 )]=95\%\]

\[P[0.467072< μ<0.532928]=95\%\]

Na razini pouzdanosti 95% procjenjuje se da je prosječna veličina zemljišta nekretnina veća od 0.467 i manja od 0.533 hektara.


Izračunajmo interval pouzdanosti procjene prosječne starosti nekretnina

\[P[(27.91-1.96 \cdot 0.7027 )< μ<(27.91+1.96 \cdot 0.7027 )]=95\%\]

\[P[26.53271< μ<29.28729]=95\%\]

Na razini pouzdanosti 95% procjenjuje se da je prosječna starost nekretnina između 26.5 i 29.3 godine.


Na sličan način funkcioniraju i procjene proporcije.

\[ P\left[\hat{p} - z_{\alpha/2} \cdot s_{\hat{p}} < p < \hat{p} + z_{\alpha/2} \cdot s_{\hat{p}} \right] = (1 - \alpha) \]

Prema izrazu za izračun, trebaju nam \(\hat{p}\), \(z_{\alpha/2}\) i \(s_{\hat{p}}\). Promotrimo što od toga možemo dobiti iz tablice statističkih pokazatelja.

Variable Valid Mean Std. Error of Mean Std. Deviation
Waterfront 1728 0.0087 0.0022 0.0928
New.Construct 1728 0.0469 0.0051 0.2114

Vrijednost u tablici izračunata kao prosjek zapravo daje udio opažanja s vrijednošću 1 u ukupnom broju opažanja. Pa je 0.0087 ili 0.87% nekretnina smješteno uz obalu, a 4,69% su novogradnja.

Komplementarne proporcije dobivaju se oduzimanjem proporcija \(\hat{p}\) od 1.

\[\hat{q}=1- \hat{p}\]

U slučaju pozicije uz obalu, to je

\[\hat{q}=1- \hat{p}=1-0,0087=0,9913\]

U slučaju novogradnje, to je

\[\hat{q}=1- \hat{p}=1-0,0469=0,9531\]

\[ s_{\hat{p}} = \sqrt{\frac{\hat{p} \cdot \hat{q}}{n}} =\sqrt{\frac{{0,0087} \cdot {0,9913}}{1728}}=0.002234 \]

\[ s_{\hat{p}} = \sqrt{\frac{\hat{p} \cdot \hat{q}}{n}} =\sqrt{\frac{{0,0469} \cdot {0,9531}}{1728}}=0.005086 \]

Ako izračunate vrijednosti usporedimo sa standardnom pogreškom navedenom u tablici, vidimo podudaranje na razini 4 decimalna mjesta. Za potrebe naših izračuna, to je prihvatljiva razina podudarnosti (dakle, koristit ćemo standardne pogreške proporcije izračunate pomoću softvera). Slijedi uvrštavanje.

Izračunajmo interval pouzdanosti procjene proporcije nekratnina smještenih uz obalu

\[ P[0.0087 - 1.96 \cdot 0.0022 < p < 0.0087 + 1.96 \cdot 0.0022] = 95 \% \]

\[ P[0.00478 < p < 0.01262] = 95 \% \]

Na razini pouzdanosti 95% procjenjuje se da je između 0.478% i 1.26% nekretnina pozicionirano uz obalu.

Izračunajmo interval pouzdanosti procjene proporcije novoizgrađenih nekretnina

\[ P[0.0469 - 1.96 \cdot 0.0051 < p < 0.0469 + 1.96 \cdot 0.0051] = 95 \% \]

\[ P[0.036904 < p < 0.056896] = 95 \% \]

Na razini pouzdanosti 95% procjenjuje se da je više od 3.69%, a manje od 5.69% novoizgrađenih nekretnina.


Sigurno ste uočili da se ovdje koristi skraćena varijanta tumačenja intervala procjene parametra populacije. Ipak, nakon čitanja ovog štiva, imate temeljitije razumijevanje teorijske podloge i punog značenja u pozadini dijela tumačenja: na razini pouzdanosti 95%.


Pitanja za ponavljanje


  1. Koja je temeljna razlika između sampling distribucije aritmetičke sredine i distribucije originalne populacije?

A. Sampling distribucija uvijek ima manje odstupanje (standardnu devijaciju) od populacije, dok populacija u pravilu ima veće.
B. Sampling distribucija pokazuje raspodjelu pojedinačnih opažanja u populaciji, a populacija raspodjelu prosjeka uzoraka.
C. Sampling distribucija odnosi se na raspodjelu svih mogućih točkastih procjena (npr. \(\bar{x}\)) dobivenih iz uzoraka, dok populacijska prikazuje raspodjelu stvarnih vrijednosti obilježja u populaciji.
D. Ne postoji stvarna razlika: “sampling distribucija” je samo drugo ime za “populacijsku distribuciju”.


  1. U tekstu je spomenuto da su uzorci prijatelja istraživača o vrijednosti nekretnina imali uži raspon cijena od populacije. Koja je najvjerojatnija posljedica toga za procjenu populacijskog prosjeka?

A. Procijenjena sredina bit će bliža stvarnom prosjeku jer manja varijabilnost osigurava preciznije rezultate.
B. Procijenjena sredina može sustavno podcijeniti ili precijeniti pravi prosjek jer uzorci ne obuhvaćaju sav raspon vrijednosti. C. Procijenjeni raspon intervala pouzdanosti bit će širi jer su uzorci manje raznoliki. D. Uopće se ne mijenja procjena prosjeka, samo se smanjuje standardna pogreška.


  1. Ako je uzorak je vrlo velik (npr. \(n=1000\)), ali populacija ima asimetričnu distribuciju zašto svejedno smijemo koristiti z-distribuciju i centralni granični teorem za intervalnu procjenu?

A. Centralni granični teorem kaže da će se distribucija uzorka uvijek promijeniti u točno dvostranu t-distribuciju, bez obzira na asimetriju.
B. Velik uzorak “ispravlja” populaciju, pa time populacija postaje normalna.
C. Svi statistički skupovi s više od 100 elemenata su po definiciji normalno distribuirani. D. Iako je ishodišna populacija asimetrična, sampling distribucija aritmetičke sredine kod velikog uzorka približava se normalnoj raspodjeli.


  1. Koji bi bio najispravniji zaključak kada, za određeni uzorak i interval pouzdanosti 95%, vidimo da pravi parametar populacije (npr. stvarni \(\mu\)) ne upada u taj interval?

A. Besmisleno je govoriti o “pravom” parametru – parametar je uvijek nepoznat.
B. Statistika je pogriješila; treba vratiti novac ili ponoviti cijelu studiju.
C. Interval pouzdanosti od 95% nije garantirao da će baš ovaj interval obuhvatiti \(\mu\); jednostavno se dogodilo da je baš u tih 5% slučajeva gdje interval ne sadrži \(\mu\).
D. To znači da je razina pouzdanosti trebala biti 99% umjesto 95%.


  1. Koji oblik uzorkovanja opisuje situaciju: “Istraživač intervjura ljude na ulici koji mu izgledaju ‘reprezentativno’, smatrajući da oni predstavljaju prosječne građane”?

A. Prigodni uzorak.
B. Sistematski slučajni uzorak.
C. Kvotni uzorak.
D. Stratificirani uzorak.


  1. Zašto kod procjene proporcije najčešće ne koristimo t-distribuciju, nego z-aproksimaciju?

A. Jer u procjeni proporcije broj stupnjeva slobode nikad ne prelazi 1, pa se t-tablice ne mogu primijeniti.
B. Jer se varijanca binomne distribucije izračunava temeljem proporcija, pa ne trebamo dodatno računati \(\sigma_\bar{x}\) iz uzorka.
C. Jer su t-i z-vrijednosti zapravo uvijek jednake kod proporcija.
D. Jer se centralni granični teorem ne primjenjuje na binomne podatke.


  1. Koja je razlika između “vjerojatnosti” i “relativne frekvencije” ishoda, objašnjena i u tekstu?

A. Vjerojatnost se odnosi na opis teorijskog modela, dok je relativna frekvencija empirijska mjera broja pojavljivanja događaja u konačnom broju pokusa.
B. Dvije su to riječi za isti koncept; nema praktične razlike.
C. Vjerojatnost uvijek daje veće vrijednosti od relativne frekvencije, jer je teorijska.
D. Relativna frekvencija postoji samo u beskonačno mnogo ponavljanja, dok je vjerojatnost uvijek konačna.


  1. Ako u uzorku od 323 jedinice, \(\hat{p} = 0,04\) (4%) ispitanika pokazuju “uspjeh”, i ako je \(z_{0,025}=1,96\), kako približno izgleda interval pouzdanosti na razini 95% (bez konačne korekcije populacije)?

A. Otprilike \(p[0 \% < \hat{p} < 8 \%] = 95 \%\).
B. Otprilike \(p[1 \% < \hat{p} < 7 \%] = 95 \%\).
C. Otprilike \(p[2 \% < \hat{p} < 6 \%] = 95 \%\). D. Otprilike \(p[3,8 \% < \hat{p} < 4,2 \%] = 95 \%\).


  1. U situaciji kada je \(\hat{p} = 0.2\) i tražimo 95% CI za populacijsku proporciju, kako povećanje veličine uzorka (npr. s 50 na 2000) utječe na širina intervala pouzdanosti?

A. Širina intervala se uopće ne mijenja; CI ovisi samo o \(\hat{p}\).
B. Širina se smanjuje jer se standardna pogreška smanjuje s većim \(n\).
C. Širina se povećava jer sad pokrivamo veći broj ispitanika, pa treba širi interval.
D. Širina se najprije povećava, a zatim se smanjuje nakon što n prijeđe 500.


  1. Koji statistički koncept osigurava da se distribucija aritmetičkih sredina uzoraka (sampling distribucija) konvergira prema normalnoj distribuciji, čak i ako početna populacija nije normalna?

A. Zakon velikih brojeva.
B. Centralni granični teorem.
C. Teorem o uniformnoj konvergenciji.
D. Čebiševljeva nejednakost.


  1. U tablicama t-distribucije uvijek tražimo i “broj stupnjeva slobode” (df). Za interval pouzdanosti prosjeka kod uzorka veličine \(n\), zašto se df obično uzima kao \(n-1\)?

A. Zato što je odabrani uzorak uvijek barem za 1 manji od populacije. B. Zato što \(n-1\) definira dimenziju vektorskog prostora reziduala, s obzirom da jednu vrijednost “gubimo” procjenjujući prosjek iz samog uzorka.
C. To je konvencija koju je uveo Student (W. S. Gosset) bez posebnog opravdanja, u članku iz 1908. S obzirom da funkcionira, to se nastavilo koristiti.
D. Stupnjevi slobode ovise o \(\alpha\), ne o veličini uzorka.


  1. Ako je uzorak reprezentativan, koji zaključak ne vrijedi?

A. Procjene koje računamo iz uzorka (npr. \(\bar{x}\), \(\hat{p}\)) moći ćemo proširiti na populaciju uz prihvatljivu razinu pouzdanosti.
B. Svi ispitanici u uzorku sigurno pokrivaju cijeli raspon mogućih obilježja koje susrećemo u populaciji.
C. Postoji mala vjerojatnost da smo značajno “promašili” pravu vrijednost parametra populacije.
D. Uzorak zadržava bitne demografske i druge karakteristike populacije.


  1. Istraživač provodi anketu o prosječnim plaćama tako da upitnik pošalje samo prijateljima s društvenih mreža. Rezultat ankete pokazuje \(\bar{x} = 3000\) € neto. Nakon toga, usporedi s objavljenim državnim statistikama koje govore o \(\mu=1500\) € za prosječnu plaću. Koji problem najtočnije opisuje ovu situaciju?

A. Problem je isključivo u veličini uzorka; premali uzorak uzrokuje podcjenjivanje.
B. Problem je pristranost prigodnog uzorka (engl. convenience sampling).
C. Državni podaci zasigurno nisu točni, jer se radi o ogromnom odstupanju.
D. Zbog standardne pogreške od 1700 eura, interval pouzdanosti će vjerojatno sadržavati vrijednost 1500 eura.


  1. Kod velikih populacija često zanemarujemo faktor korekcije \(\sqrt{\frac{N-n}{N-1}}\). Koji je glavni kriterij da to smijemo učiniti?

A. Ako nemamo točno definiran broj \(N\) (veličinu populacije), uvijek je bolje izostaviti korekciju.
B. Ako je \(\hat{p}\approx 0.5\), onda \(\sqrt{\frac{n}{N}}\) nije potreban.
C. Ako je \(\frac{n}{N} \leq 0.05\) (tj. 5%), faktor korekcije se uobičajeno smatra zanemarivim. D. Nikada se ne primjenjuje faktor korekcije kada je uzorak > 30 jedinica.


  1. U prikazu binomne distribucije s \(n=4\), \(p=0.25\), zašto crvena krivulja (aproksimacija normalne distribucije) nije savršeno poravnata s diskretnim stupcima (histogram vjerojatnosti)?

A. Greška je u programu za crtanje: jedna od njih je pogrešno skalirana.
B. Kontinuirana krivulja approximira diskretnu raspodjelu, ali ne može točno preklopiti točke gdje su pojedinačne binomne vjerojatnosti.
C. Binomna distribucija zapravo jest identična normalnoj, ali boja krivulje stvara optičku iluziju.
D. Ovdje crvena krivulja predstavlja kumulativne vjerojatnosti, a stupci diskretne.


  1. Istraživač želi proširiti interval pouzdanosti (učiniti ga širim). Što od navedenog nije u skladu s tim ciljem?

A. Povećati razinu pouzdanosti s 95% na 99%.
B. Koristiti manji uzorak.
C. Pri izračunu koristiti t-vrijednost umjesto z, ako su ispunjeni uvjeti (n je malen).
D. Ukloniti faktor korekcije (u slučaju \(f>0.05\)).


  1. Jedan uzorak od 30 opažanja daje \(\bar{x} = 100\) i \(s=10\). Želimo interval pouzdanosti (dvostrani) za prosjek \(\mu\) na razini 95%, ali \(\sigma\) je nepoznata i pretpostavlja se da su podaci (barem približno) normalni. Koji koeficijent pouzdanosti koristimo?

A. \(t_{0.025,29}\) – iz t-tablice za 29 stupnjeva slobode.
B. \(z_{0.025} \approx 1.96\). C. Bilo koji koeficijent \(\ge 2\).
D. S obzirom na velik uzorak (30), možemo uzeti \(z_{0.05}=1.65\).


  1. Zašto se kod procjene prosjeka i procjene proporcije često primjenjuje 90%, 95% ili 99% razina pouzdanosti, a ne primjerice 100%?

A. Niže razine pouzdanosti su lakše za računanje, 100% je previše složeno izračunati.
B. Kod 100% pouzdanosti, interval bi bio beskonačno širok, što je neupotrebljivo u praksi.
C. Postoje zakonske odredbe da se smije koristiti samo najviše 99% pouzdanosti.
D. 100% interval poklopio bi se s populacijskom varijancom, što je nepotrebno.


  1. U skladu s centralnim graničnim teoremom, koji je uvjet potreban da bi se raspodjela prosjeka uzorka približila normalnoj kad je uzorak velik?

A. Da je uzorak izabran slučajnim putem.
B. Da podaci nemaju ekstremno izdužene repove u populaciji.
C. Da ishodišna distribucija ne bude izuzetno asimetrična.
D. Da veličina uzorka bude dovoljno mala (u praksi <30, ovisno o asimetriji).


  1. U sklopu srednjoškolske nastave statistike, učenici žele procijeniti prosječan broj komadića čokolade u generičkom brendu keksa s komadićima čokolade. Prikupili su slučajni uzorak keksa, pobrojali broj komadića čokolade u svakom keksu i izračunali interval procjene prosječnog broja komadića čokolade po keksu na razini pouzdanosti 95 %. Izračunati interval je [18.6, 21.3]. Sljedeće izjave predstavljaju različite interpretacije rezultata. Procijenite jesu li interpretacije valjane i za svaku tvrdnju odaberite po jedan odgovor.

Tvrdnja 1) Mi smo 95 % sigurni da svaki keks ovog brenda sadrži približno između 18.6 i 21.3 komadića čokolade.

A. Valjana interpretacija.

B. Nije valjana interpretacija.

Tvrdnja 2) Očekujemo da 95 % keksa ima između 18.6 i 21.3 komadića čokolade.

C. Valjana interpretacija.

D. Nije valjana interpretacija.

Tvrdnja 3) Očekujemo da otprilike 95 % prosjeka svih mogućih uzoraka iz ove populacije bude točno između 18.6 i 21.3. komadića čokolade po keksu.

E. Valjana interpretacija.

F. Nije valjana interpretacija.

Tvrdnja 4) Kada bismo iz ove populacije mnogo puta uzeli uzorke iste veličine i za svaki uzorak izračunali interval pouzdanosti od 95% (postupkom koji smo ovdje koristili), otprilike 95% tih intervala sadržavalo bi prosjek komadića čokolade po keksu. Sukladno tome, i interval [18.6, 21.3] – dobiven iz našeg uzorka – smatramo jednim od onih intervala koji (na 95 % razini pouzdanosti) obuhvaća pravi prosjek.

G. Valjana interpretacija.

H. Nije valjana interpretacija.


  1. Utvrđeno je da pod normalnim okolišnim uvjetima, odrasli grgeč koji živi u Silver Lake-u ima prosječnu dužinu od 31.24 centimetra uz standardnu devijaciju od 7.62 centimetra. Ribiči na tom jezeru tvrde da su ove godine uhvatili grgeče manje veličine nego inače. Istraživačka grupa na slučajan je način odabrala 100 odraslih grgeča i utvrdila prosječnu dužinu grgeča iz uzorka od 28.45 centimetra. Koja od sljedećih izjava označava najprikladniji statistički zaključak?

A. Istraživači ne mogu zaključiti da su grgeči manji od uobičajenih jer je 28.45 centimetara manje od jedne standardne devijacije udaljeno od utvrđenog prosjeka za ovu vrstu.

B. Istraživači mogu zaključiti da su ribe manje od uobičajenog prosjeka zato jer bi prosjek uzorka trebao biti gotovo identičan prosjeku populacije za veliki uzorak od 100 riba.

C. Istraživači mogu zaključiti da su ribe prosječno manje, zato je razlika između 31.24 centimetra i 28.45 centimetra veća od očekivane pogreške procjene.


  1. Predstavljena su četiri grafa. Graf na vrhu je distribucija rezultata na testu za populaciju. Prosjek je 6.4, a standardna devijacija je 4.1.

22.1. Što mislite, koji od grafova A, B ili C predstavlja jedan slučajan uzorak od 500 vrijednosti iz dane populacije?

A. Graf A

B. Graf B

C. Graf C

22.2. Što mislite, koji od grafova A, B ili C predstavlja distribuciju 500 prosjeka uzoraka veličine 9, iz dane populacije?

D. Graf A

E. Graf B

F. Graf C

Repliciranje analize koristeći različite alate

Repliciranje analize će se obuhvatiti samo one dijelove koje je moguće ostvariti pojedinim alatima.

Provedba postupka koristeći JASP

Temeljem dostupnih izračuna u JASP-u, možemo utvrditi standardnu pogrešku aritmetičke sredine. Potrebno je označiti S.E. mean u sekciji ‘Statistics’, podsekciji ‘Dispersion’.

Izračunate pokazatelje potrebno je uvrstiti u interval za procjenu parametara. Ostatak možete izračunati koristeći kalkulator ili neki od prikladnih softvera (npr. R ili MS Excel, Sheets, Libre Calc, itd.)


Provedba postupka koristeći R

Prvo ćemo učitati sve podatkovne skupove, pa pogledati kako podaci izgledaju koristeći head().

> nekretnine <- read.delim("http://sites.williams.edu/rdeveaux/files/2014/09/Saratoga.txt")
> head(nekretnine, 10)
##     Price Lot.Size Waterfront Age Land.Value New.Construct Central.Air
## 1  132500     0.09          0  42      50000             0           0
## 2  181115     0.92          0   0      22300             0           0
## 3  109000     0.19          0 133       7300             0           0
## 4  155000     0.41          0  13      18700             0           0
## 5   86060     0.11          0   0      15000             1           1
## 6  120000     0.68          0  31      14000             0           0
## 7  153000     0.40          0  33      23300             0           0
## 8  170000     1.21          0  23      14600             0           0
## 9   90000     0.83          0  36      22200             0           0
## 10 122900     1.94          0   4      21200             0           0
##    Fuel.Type Heat.Type Sewer.Type Living.Area Pct.College Bedrooms Fireplaces
## 1          3         4          2         906          35        2          1
## 2          2         3          2        1953          51        3          0
## 3          2         3          3        1944          51        4          1
## 4          2         2          2        1944          51        3          1
## 5          2         2          3         840          51        2          0
## 6          2         2          2        1152          22        4          1
## 7          4         3          2        2752          51        4          1
## 8          4         2          2        1662          35        4          1
## 9          3         4          2        1632          51        3          0
## 10         2         2          1        1416          44        3          0
##    Bathrooms Rooms
## 1        1.0     5
## 2        2.5     6
## 3        1.0     8
## 4        1.5     5
## 5        1.0     3
## 6        1.0     8
## 7        1.5     8
## 8        1.5     9
## 9        1.5     8
## 10       1.5     6

Nasumični odabir 10 uzoraka veličine 100 (Tablica 5. u štivu). S obzirom na element slučajnosti, odabrani uzorci se vjerojatno neće poklapati s ranijim uzorkovanjem predstavljanim u štivu.

> uzorak_100_1 <- sample(nekretnine$Price, size = 100)
> uzorak_100_2 <- sample(nekretnine$Price, size = 100)
> uzorak_100_3 <- sample(nekretnine$Price, size = 100)
> uzorak_100_4 <- sample(nekretnine$Price, size = 100)
> uzorak_100_5 <- sample(nekretnine$Price, size = 100)
> uzorak_100_6 <- sample(nekretnine$Price, size = 100)
> uzorak_100_7 <- sample(nekretnine$Price, size = 100)
> uzorak_100_8 <- sample(nekretnine$Price, size = 100)
> uzorak_100_9 <- sample(nekretnine$Price, size = 100)
> uzorak_100_10 <- sample(nekretnine$Price, size = 100)
> library(psych)
> 
> uzorci_100 <- cbind(uzorak_100_1, uzorak_100_2, uzorak_100_3, uzorak_100_4, uzorak_100_5,
+                     uzorak_100_6, uzorak_100_7, uzorak_100_8, uzorak_100_9, uzorak_100_10)
> 
> describe(uzorci_100)
##               vars   n     mean        sd median  trimmed      mad   min    max
## uzorak_100_1     1 100 207895.7  93339.72 192500 197461.7 87473.40 62500 535000
## uzorak_100_2     2 100 210493.8  94919.51 185000 200771.9 65605.05 86060 775000
## uzorak_100_3     3 100 210392.2 109698.80 181250 195313.5 74204.13 60000 725000
## uzorak_100_4     4 100 200719.7  94325.89 172000 188773.0 75612.60 58500 597185
## uzorak_100_5     5 100 207710.5  96248.61 188450 198107.4 86657.97 64500 647000
## uzorak_100_6     6 100 230978.9 119537.13 199500 214245.1 92291.85 20000 670000
## uzorak_100_7     7 100 219931.1 109894.34 194950 204173.0 83025.60 72000 760000
## uzorak_100_8     8 100 221946.4 115881.38 199900 209381.4 87947.83 25000 725000
## uzorak_100_9     9 100 213363.2 109489.09 188750 202494.0 98222.25 20000 775000
## uzorak_100_10   10 100 215706.2  85650.50 197000 208394.0 76205.64 25000 435000
##                range skew kurtosis       se
## uzorak_100_1  472500 1.09     1.08  9333.97
## uzorak_100_2  688940 2.37    10.67  9491.95
## uzorak_100_3  665000 2.20     6.74 10969.88
## uzorak_100_4  538685 1.30     2.11  9432.59
## uzorak_100_5  582500 1.40     3.27  9624.86
## uzorak_100_6  650000 1.52     2.87 11953.71
## uzorak_100_7  688000 2.08     6.40 10989.43
## uzorak_100_8  700000 1.31     2.63 11588.14
## uzorak_100_9  755000 1.65     5.43 10948.91
## uzorak_100_10 410000 0.67    -0.08  8565.05

Potom ponavljamo postupak za uzorke sa 323 člana. Mogli bismo koristiti isti pristup, ali kako bi proširili i mogućnosti rada u R-u, prikazat će se alternativni pristup. Postupak će biti opisan u komentarima uz kod.

> uzorci_323 <- replicate(
+   10,                                # koliko puta se ponavlja postupak
+   sample(nekretnine$Price, 323),    # postupak - naredba kojom se uzima uzorak (ista kao u prethodnom primjeru)
+   simplify = "matrix"               # vektore pojedinačnih uzoraka slaže kao stupce matrice 
+                                         # (ne možemo direktno pohraniti u data.frame, a matricu možemo jednostavno pretvoriti u df)
+ )
> 
> # Nazivi stupaca
> colnames(uzorci_323) <- paste0("Uzorak_", seq_len(ncol(uzorci_323)))
> 
> # 'uzorci_323' je sada matrica od 323 redaka (svaki redak = jedna jedinica)
> # i 50 stupaca (svaki stupac = jedan uzorak)
> 
> library(psych)
> 
> # describe() prepoznaje stupce kao varijable,
> # pa je potrebno pretvoriti u data.frame da dobijemo klasičan prikaz
> 
> uzorci_323 <- as.data.frame(uzorci_323)
> 
> describe(uzorci_323)
##           vars   n     mean        sd median  trimmed      mad   min    max
## Uzorak_1     1 323 212305.8  98049.46 192500 201811.7 85397.76 20000 658300
## Uzorak_2     2 323 211765.7  96815.09 192000 201408.4 78577.80 10300 760000
## Uzorak_3     3 323 213190.1  93408.41 195000 203535.6 80060.40 64500 725000
## Uzorak_4     4 323 204370.1  90244.77 190000 193834.8 77243.46 60000 670000
## Uzorak_5     5 323 217606.1 100092.81 189000 205503.1 75612.60 65000 650000
## Uzorak_6     6 323 207090.2  88047.14 189000 197850.2 75464.34 25000 600000
## Uzorak_7     7 323 210028.6  95892.39 190000 199053.9 75538.47  5000 725000
## Uzorak_8     8 323 212559.2  98406.62 198900 203702.9 87325.14 10300 775000
## Uzorak_9     9 323 208019.6  96767.21 185000 196528.2 74130.00 25000 775000
## Uzorak_10   10 323 215685.1 104906.76 190000 204631.3 85249.50  5000 760000
##            range skew kurtosis      se
## Uzorak_1  638300 1.36     3.15 5455.62
## Uzorak_2  749700 1.62     4.86 5386.94
## Uzorak_3  660500 1.26     2.72 5197.38
## Uzorak_4  610000 1.43     3.50 5021.35
## Uzorak_5  585000 1.38     2.44 5569.31
## Uzorak_6  575000 1.11     1.72 4899.07
## Uzorak_7  720000 1.56     4.26 5335.60
## Uzorak_8  764700 1.65     5.95 5475.49
## Uzorak_9  750000 1.79     5.65 5384.27
## Uzorak_10 755000 1.43     3.60 5837.17

Možete vidjeti da je drugi pristup brži - automatizira postupak uzorkovanja, što je osobito korisno ako to treba ponoviti veći broj puta.

> uzorci_323_50 <- replicate(
+   50, 
+   sample(nekretnine$Price, 323),
+   simplify = "matrix"
+ )
> 
> colnames(uzorci_323_50) <- paste0("UC", seq_len(ncol(uzorci_323_50)))
> 
> library(psych)
> uzorci_323_50 <- as.data.frame(uzorci_323_50)
> describe(uzorci_323_50)
##      vars   n     mean        sd median  trimmed      mad   min    max  range
## UC1     1 323 204741.0  92931.67 182000 193153.2 68199.60 20000 658300 638300
## UC2     2 323 211223.1  91392.56 191000 202157.2 83173.86 60000 650000 590000
## UC3     3 323 221264.7 105767.53 195000 207693.5 84508.20 62000 670000 608000
## UC4     4 323 216958.9 108474.85 190000 201749.4 79319.10 45000 775000 730000
## UC5     5 323 214726.7 111333.73 182000 200067.9 81543.00 25000 775000 750000
## UC6     6 323 211219.5 101687.60 183855 196878.5 75590.36 60000 655000 595000
## UC7     7 323 206427.6  90085.09 186000 197188.1 75612.60 25000 775000 750000
## UC8     8 323 219520.9 105613.19 199900 205757.4 81691.26 25000 775000 750000
## UC9     9 323 213886.3  95493.46 187500 201599.0 70423.50 70500 760000 689500
## UC10   10 323 208296.7 101887.13 178000 195328.6 77095.20 20000 760000 740000
## UC11   11 323 207101.6  91887.30 189900 196222.3 76946.94 25000 775000 750000
## UC12   12 323 209086.0  98053.20 182000 197593.8 69682.20  5000 760000 755000
## UC13   13 323 218865.0  95921.28 195000 207327.5 77095.20 25000 670000 645000
## UC14   14 323 226048.1 114302.75 196000 209673.6 80060.40 10300 775000 764700
## UC15   15 323 209124.8  96849.03 188500 196540.2 76353.90 10300 670000 659700
## UC16   16 323 202565.0  87313.40 187500 194452.6 73388.70 10300 650000 639700
## UC17   17 323 211518.8  99873.58 186000 198852.3 72647.40 10300 775000 764700
## UC18   18 323 210700.1  95344.60 190000 199782.5 72647.40  5000 760000 755000
## UC19   19 323 210287.2 104605.93 182500 195770.3 76353.90 20000 775000 755000
## UC20   20 323 209571.3  91302.08 185000 199958.0 74130.00  5000 649000 644000
## UC21   21 323 202715.1  88339.56 182000 193356.7 74723.04  5000 597185 592185
## UC22   22 323 213988.8  98338.41 191000 201883.3 77836.50 65000 775000 710000
## UC23   23 323 206643.0  97699.17 187500 195418.8 77836.50 58500 670000 611500
## UC24   24 323 210579.3  88066.02 191000 201814.0 77095.20 10300 597185 586885
## UC25   25 323 217829.0  98166.22 199000 207274.1 85027.11  5000 649000 644000
## UC26   26 323 207722.9  91804.30 189100 198219.2 73536.96 10300 625000 614700
## UC27   27 323 206968.7  91144.77 183855 196357.0 76138.92 10300 597185 586885
## UC28   28 323 202474.8  90916.59 183500 192714.6 73388.70 20000 760000 740000
## UC29   29 323 210359.1  91207.37 189000 200877.3 72795.66  5000 597185 592185
## UC30   30 323 213536.5  97165.71 194670 202241.9 79067.06  5000 760000 755000
## UC31   31 323 217410.3 103759.46 193000 203993.4 81543.00 60000 775000 715000
## UC32   32 323 211704.9  92231.99 190000 200211.2 74130.00 70500 655000 584500
## UC33   33 323 207670.4  94600.01 182500 197204.2 65975.70  5000 658300 653300
## UC34   34 323 218063.9  98261.14 199100 208155.3 86139.06  5000 670000 665000
## UC35   35 323 212892.2 101267.80 189900 200992.4 81543.00 49387 725000 675613
## UC36   36 323 200998.4  89241.91 181500 191136.6 64641.36  5000 760000 755000
## UC37   37 323 207333.9  94788.20 182500 194757.9 71164.80 49387 650000 600613
## UC38   38 323 216368.0  99024.33 192000 203829.1 84508.20 45000 670000 625000
## UC39   39 323 205736.8  95069.56 185000 194047.5 74130.00 45000 725000 680000
## UC40   40 323 204189.2  96147.12 182000 192068.1 74723.04  5000 647000 642000
## UC41   41 323 216968.3  99008.79 195000 206059.0 85249.50 58500 649000 590500
## UC42   42 323 218051.5  95051.96 191900 207399.8 74278.26 58500 725000 666500
## UC43   43 323 212638.5  97140.07 190000 201139.3 79319.10 10300 658300 648000
## UC44   44 323 217095.9 105879.89 200000 204954.0 82284.30  5000 760000 755000
## UC45   45 323 208239.3  87129.27 195160 199327.8 74367.22 10300 549254 538954
## UC46   46 323 209139.5  93915.65 191000 200378.5 83025.60 10300 775000 764700
## UC47   47 323 222935.4 104974.44 195000 210344.3 81394.74 45000 775000 730000
## UC48   48 323 211953.7  99971.15 187900 201128.4 76946.94  5000 670000 665000
## UC49   49 323 206995.3  96702.33 189100 196305.2 75464.34  5000 775000 770000
## UC50   50 323 220591.0 102974.68 199000 208591.8 80505.18 10300 658300 648000
##      skew kurtosis      se
## UC1  1.52     3.47 5170.86
## UC2  1.12     1.92 5085.22
## UC3  1.44     2.63 5885.06
## UC4  1.81     4.75 6035.70
## UC5  1.70     4.32 6194.77
## UC6  1.63     3.48 5658.05
## UC7  1.52     4.92 5012.47
## UC8  1.73     4.94 5876.48
## UC9  2.02     6.80 5313.40
## UC10 1.45     3.12 5669.15
## UC11 1.65     5.41 5112.75
## UC12 1.71     5.06 5455.83
## UC13 1.48     3.50 5337.20
## UC14 1.76     4.27 6359.98
## UC15 1.57     3.74 5388.82
## UC16 1.30     3.33 4858.25
## UC17 1.74     4.99 5557.11
## UC18 1.52     4.29 5305.12
## UC19 1.81     4.91 5820.43
## UC20 1.09     1.47 5080.18
## UC21 1.16     1.91 4915.34
## UC22 1.72     4.93 5471.70
## UC23 1.42     3.01 5436.13
## UC24 1.03     1.38 4900.12
## UC25 1.19     2.00 5462.11
## UC26 1.22     2.32 5108.13
## UC27 1.08     1.09 5071.43
## UC28 1.63     5.41 5058.73
## UC29 1.20     1.93 5074.91
## UC30 1.57     4.51 5406.44
## UC31 1.63     4.07 5773.33
## UC32 1.44     3.00 5131.92
## UC33 1.44     3.35 5263.69
## UC34 1.21     2.43 5467.40
## UC35 1.60     4.07 5634.69
## UC36 1.67     5.56 4965.55
## UC37 1.52     3.11 5274.16
## UC38 1.46     2.91 5509.86
## UC39 1.61     4.22 5289.81
## UC40 1.40     2.68 5349.77
## UC41 1.28     2.37 5509.00
## UC42 1.42     3.27 5288.83
## UC43 1.48     3.39 5405.02
## UC44 1.61     4.56 5891.31
## UC45 1.10     1.73 4848.00
## UC46 1.38     4.34 5225.61
## UC47 1.70     4.94 5840.93
## UC48 1.24     2.22 5562.54
## UC49 1.88     6.80 5380.66
## UC50 1.46     3.28 5729.66

Da ne bismo morali kreirati jedan po jedan histogram, možemo koristiti peetlju for kako bismo ih kreirali sve odjednom. Naredba par(mfrow = c(3,4)) određuje prikaz, pri čemu se na jednom zaslonu kreiraju histogrami u tri retka i četiri stupca.

> par(mfrow = c(3,4))
> 
> for(i in seq_len(ncol(uzorci_323_50))) {
+   hist(
+     uzorci_323_50[[i]], 
+     main = paste("Histogram uzorka UC", i),
+     xlab = "Cijene nekretnina"
+   )
+ }

Za prikaz prosjeka uzoraka (u štivu je to Tablica 7 - s obzirom na randomizaciju, ovi se prosjeci neće poklapati - sjetite se broja mogućih uzoraka za ovaj slučaj), pohranjujemo treći rezultat (prosjek) kreiran funkcijom describe().

> prosjeci_uzoraka_323 <- describe(uzorci_323_50)[3]
> prosjeci_uzoraka_323
##          mean
## UC1  204741.0
## UC2  211223.1
## UC3  221264.7
## UC4  216958.9
## UC5  214726.7
## UC6  211219.5
## UC7  206427.6
## UC8  219520.9
## UC9  213886.3
## UC10 208296.7
## UC11 207101.6
## UC12 209086.0
## UC13 218865.0
## UC14 226048.1
## UC15 209124.8
## UC16 202565.0
## UC17 211518.8
## UC18 210700.1
## UC19 210287.2
## UC20 209571.3
## UC21 202715.1
## UC22 213988.8
## UC23 206643.0
## UC24 210579.3
## UC25 217829.0
## UC26 207722.9
## UC27 206968.7
## UC28 202474.8
## UC29 210359.1
## UC30 213536.5
## UC31 217410.3
## UC32 211704.9
## UC33 207670.4
## UC34 218063.9
## UC35 212892.2
## UC36 200998.4
## UC37 207333.9
## UC38 216368.0
## UC39 205736.8
## UC40 204189.2
## UC41 216968.3
## UC42 218051.5
## UC43 212638.5
## UC44 217095.9
## UC45 208239.3
## UC46 209139.5
## UC47 222935.4
## UC48 211953.7
## UC49 206995.3
## UC50 220591.0

Potom možemo prosjeke uzoraka tretirati kao zasebnu varijablu za koji izračunavamo pokazatelje.

> describe(prosjeci_uzoraka_323)
##      vars  n     mean      sd   median  trimmed     mad      min      max
## mean    1 50 211658.5 5761.08 210959.8 211490.6 5798.89 200998.4 226048.1
##         range skew kurtosis     se
## mean 25049.74 0.33    -0.58 814.74
> hist(prosjeci_uzoraka_323$mean, main = NULL, xlab = "Aritmetička sredina")

> plot(density(prosjeci_uzoraka_323$mean))

Za binomnu distribuciju - primjer testiranja prodajne službe, pri čemu su izvršena 4 promatranja, a utvrđena je vjerojatnost kupovine 0.25 po kupcu - mogu se koristiti ugrađene funkcije dbinom() i pbinom().

> # vjerojatnost X=0:
> dbinom(0, size=4, prob=0.25)
## [1] 0.3164063
> # vjerojatnost X=2:
> dbinom(2, size=4, prob=0.25)
## [1] 0.2109375
> # vjerojatnost X >= 2:
> # to je isto sto i 1 - P(X <= 1)
> 1 - pbinom(1, size=4, prob=0.25)
## [1] 0.2617188

Za prosjek i standardnu devijaciju binomne distribucije koristimo formule dane u tekstu.

> n <- 4
> p <- 0.25
> mi <- n*p
> sd <- sqrt(n * p * (1-p))
> 
> mi
## [1] 1
> sd
## [1] 0.8660254

Za primjenu normalne i standardizirane normalne na primjeru proizvođača guma, također se mogu koristiti ugrađene funkcije: pnorm(q, mean, sd) - daje kumulativnu vjerojatnost \(P(X≤q)\), qnorm(p, mean, sd) - daje kvantilnu vrijednost (inverznu kumulativnu funkciju), tj. vrijednost x tako da je \(P(X≤x)=p\) i dnorm(x, mean, sd) daje gustoću.

> mi <- 36500
> sd <- 5000
> 
> # vjerojatnost da X <= 40000:
> p_le_40000 <- pnorm(40000, mean = mi, sd = sd)
> 
> # vjerojatnost da X >= 40000:
> p_ge_40000 <- 1 - p_le_40000
> p_ge_40000
## [1] 0.2419637
> # Tražimo x takav da je P(X <= x) = 0.10
> x_90 <- qnorm(0.10, mean = mi, sd = sd)
> x_90
## [1] 30092.24

Za određivanje koeficijenata pouzdanosti u R-u, prvo moramo odabrati koju ćemo distribuciju koristiti, a onda biramo prikladnu funkciju:

  • qnorm(p) vraća vrijednost z (u standardnoj normalnoj distribuciji) za koju je \(P(Z≤z)=p\).
  • qt(p, df) vraća vrijednost t (u t-distribuciji s df stupnjeva slobode) za koju je \(P(T≤t)=p\).

Na primjer, to može izgledati ovako:

> alpha <- 0.05
> n <- 100
> df <- n - 1
> 
> z_alpha_2 <- qnorm(1 - alpha/2)
> z_alpha_2
## [1] 1.959964
> t_alpha_2 <- qt(1 - alpha/2, df)
> t_alpha_2
## [1] 1.984217

Ovaj postupak ovisi o početnim vrijednostima, pa je njih potrebno korigirati, dok ostatak koda može ostati isti.

> alpha <- 0.01
> n <- 5000
> df <- n - 1
> 
> z_alpha_2 <- qnorm(1 - alpha/2)
> z_alpha_2
## [1] 2.575829
> t_alpha_2 <- qt(1 - alpha/2, df)
> t_alpha_2
## [1] 2.576813

Za izračune nalik onima u poglavlju ‘Procjena prosjeka i proporcija varijabli nekretnina’, \(n=1728\) i \((1-\alpha)=0.95\).

> alpha <- 0.05
> n <- 1728
> df <- n - 1
> 
> z_alpha_2 <- qnorm(1 - alpha/2)
> z_alpha_2
## [1] 1.959964
> t_alpha_2 <- qt(1 - alpha/2, df)
> t_alpha_2
## [1] 1.961339

Osim toga, potrebni su prosjeci i standardne pogreške aritmetičke sredine za pojedinu varijablu.

> nekretnine_za_procjene <- describe(nekretnine)[, c(3,13)]
> nekretnine_za_procjene
##                    mean      se
## Price         211966.71 2368.13
## Lot.Size           0.50    0.02
## Waterfront         0.01    0.00
## Age               27.92    0.70
## Land.Value     34557.19  842.48
## New.Construct      0.05    0.01
## Central.Air        0.37    0.01
## Fuel.Type          2.43    0.02
## Heat.Type          2.53    0.02
## Sewer.Type         2.70    0.01
## Living.Area     1754.98   14.91
## Pct.College       55.57    0.25
## Bedrooms           3.15    0.02
## Fireplaces         0.60    0.01
## Bathrooms          1.90    0.02
## Rooms              7.04    0.06

Nakon što su izračunati potrebni pokazatelji, pristupamo izračunu donje i gornje granice intervala pouzdanosti te ispisu intervala pouzdanosti. S obzirom da ovdje nema zaokruživanja (kao u rezultatima prikazanim u štivu), možemo očekivati manje razlike (ovisno o rangu veličine brojeva) u odnosu na ranije rpikazane rezultate.

> L1_price <- nekretnine_za_procjene$mean[1] - t_alpha_2*nekretnine_za_procjene$se[1]
> L2_price <- nekretnine_za_procjene$mean[1] + t_alpha_2*nekretnine_za_procjene$se[1]
> 
> paste0("Cijene nekretnina: p[" , L1_price, " < μ < ", L2_price, " ] = 95% ")
## [1] "Cijene nekretnina: p[207321.997172424 < μ < 216611.413707206 ] = 95% "
> L1_lot <- nekretnine_za_procjene$mean[2] - t_alpha_2*nekretnine_za_procjene$se[2]
> L2_lot <- nekretnine_za_procjene$mean[2] + t_alpha_2*nekretnine_za_procjene$se[2]
> 
> paste0("Veličina zemljišta nekretnina: p[" , L1_lot, " < μ < ", L2_lot, " ] = 95% ")
## [1] "Veličina zemljišta nekretnina: p[0.467248675895129 < μ < 0.533179564845612 ] = 95% "
> L1_waterfront <- nekretnine_za_procjene$mean[3] - t_alpha_2*nekretnine_za_procjene$se[3]
> L2_waterfront <- nekretnine_za_procjene$mean[3] + t_alpha_2*nekretnine_za_procjene$se[3]
> 
> paste0("Udio nekretnina pozicioniranih uz obalu: p[" , L1_waterfront, " < μ < ", L2_waterfront, " ] = 95% ")
## [1] "Udio nekretnina pozicioniranih uz obalu: p[0.00430244249491509 < μ < 0.013058668616196 ] = 95% "
> L1_age <- nekretnine_za_procjene$mean[4] - t_alpha_2*nekretnine_za_procjene$se[4]
> L2_age <- nekretnine_za_procjene$mean[4] + t_alpha_2*nekretnine_za_procjene$se[4]
> 
> paste0("Starost nekretnina: p[" , L1_age, " < μ < ", L2_age, " ] = 95% ")
## [1] "Starost nekretnina: p[26.5378884840449 < μ < 29.294287441881 ] = 95% "
> L1_value <- nekretnine_za_procjene$mean[5] - t_alpha_2*nekretnine_za_procjene$se[5]
> L2_value <- nekretnine_za_procjene$mean[5] + t_alpha_2*nekretnine_za_procjene$se[5]
> 
> paste0("Vrijednost zemljišta nekretnina: p[" , L1_value, " < μ < ", L2_value, " ] = 95% ")
## [1] "Vrijednost zemljišta nekretnina: p[32904.802186003 < μ < 36209.572813997 ] = 95% "
> L1_new <- nekretnine_za_procjene$mean[6] - t_alpha_2*nekretnine_za_procjene$se[6]
> L2_new <- nekretnine_za_procjene$mean[6] + t_alpha_2*nekretnine_za_procjene$se[6]
> 
> paste0("Udio novogranje: p[" , L1_new, " < μ < ", L2_new, " ] = 95% ")
## [1] "Udio novogranje: p[0.0368991026742086 < μ < 0.0568508973257914 ] = 95% "

Provedba postupka koristeći MS Excel

Postoji više načina na koje možemo izvršiti odabir uzorka koristeći MS Excel. U prvom ćemo koristiti generator slučajnih brojeva. Za to nam je potreban udio uzorka u populaciji, a to dobivamo dijeljenjem veličine uzorka \(n=100\) a veličinom populacije \(N=1728\).

Iz ‘Data’ u alatnoj traci odabiremo ‘Data Analysis’, a potom ‘Random Number Generator’.

pod ‘Number of Variables’ upisujemo 1 (ili više, ako se želi kreirati više nizova). Pod ‘Number of Random Numbers’ upisujemo 1728, jer želimo da uz svako opažanje bude navedena po jedna vrijednost 0 ili 1, što će odrediti odabir vrijednosti u uzorak. Odabiremo Bernoullijevu distribuciju (koja ima ishode 0 i 1), uz vjerojatnost 0.0579. To je udio uzorka u populaciji, a u ovom kontekstu vjerojatnost nastupa “povoljnih” događaja kojima će biti pripisana jedinica. To će nam kasnije omogućiti sortiranje podataka i odabir samo onih kojima je pripisana jedinica.

Excelov generator slučajnih brojeva temelji se na pseudorandom algoritmu koji generira uniformno raspoređene brojeve iz intervala [0,1]. Da bi se dobila Bernoullijeva varijabla, Excel uspoređuje svaki generirani broj s vjerojatnošću p te vraća 1 ako je vrijednost manja ili jednaka p, u suprotnom 0. Time se uniformno generirani brojevi “preslikavaju” u Bernoullijevu distribuciju.

Rezultat ove radnje izgledat će otprilike kao što je prikazano sljedećom slikom. Nekim brojevima pridružene su 0, a drugima 1. Brojevi kojima su pripisane jedinice, odabrani su u uzorak. No, da bi ih bilo lakše izdvojiti, podatke ćemo sortirati prema ‘Random num.’.

Označite podatke i iz ‘Sort & Filter’ odaberite ‘Custom sort’. Poredajte po varijabli ‘Random num.’.

Dobit ćete prikaz nalik sljedećem.

Potom odaberite samo one vrijednosti varijable Price pored kojih stoji 1, kopirajte ih i zalijepite u zaseban stupac. Za njih izračunajte potrebne pokazatelje.

Rezultati će izgledati otpilike ovako:

Ako na isti način želimo odabrati uzorak veličine 323, promjenit će se frakcija izbora.

Ponovo iz ‘Data’ u alatnoj traci odabiremo ‘Data Analysis’, a potom ‘Random Number Generator’.

Pod ‘Number of Variables’ upisujemo 1 (ili više, ako se želi kreirati više nizova). Pod ‘Number of Random Numbers’ upisujemo 1728.

Odabiremo Bernoullijevu distribuciju (koja ima ishode 0 i 1), uz vjerojatnost 0.1869.

Alternativni način uzorkovanja.

Alternativno, iz ‘Data’ u alatnoj traci odabiremo ‘Data Analysis’, ali onda biramo ‘Sampling’.

Unosimo raspon varijable pod ‘Input Range’, označavamo ‘Labels’. Odabiremo ‘Random’ kao metodu i pod ‘Number od Samples’ upisujemo broj opažanja koji želimo izdvojiti u uzorak. Ovdje je odabran izlaz u ćelijama na istom listu, ali možete odabrati i druge opcije, ako vam više odgovaraju.

Dobiva se prikaz nalik sljedećem.

Neovisno o načinu uzorkovanja, nastavak je isti - za podatke uzorka izračunamo potrebne pokazatelje i potom ih koristimo pri izračunu donje i gornje granice intervala pouzdanosti.

Izračunate vrijednosti prikazane su sljedećom slikom.

Za problem izračuna vjerojatnosti s bacanjem kockica, možemo koristiti ugrađenu funkciju =BINOM.DIST(). Kao argumenti unose se: 1) vrijednost slučajne varijable za koju se vjerojatnost računa; 2) broj promatranja/eksperimenata; 3) vjerojatnost povoljnog događaja; i 4) TRUE za kumulativ i FALSE za izračun vjerojatnosti za diskretnu vrijednost.

Izračunate su sljedeće vjerojatnosti:

Za primjer s proizvođačem guma, to će izgledati na sljedeći način.

Koriste se ugrađene funkcije =NORM.DIST() s argumentima x, mean, standard deviation, cumulative te =NORM.INV() s argumentima probability, mean, standard deviation. Prvu koristimo kad želimo utvrditi vjerojatnost za određeni interval. Drugu koristimo kad temeljem vjerojatnosti želimo utvrditi vrijednost koja označava granicu intervala na koji se odnosi ta vjerojatnost (površina pod krivuljom).

Za izračun intervala pouzdanosti procjene parametara populacije svih varijabli, prvo je potrebno izračunati pokazatelje deskriptivne statistike.

Na sljedećem listu prikazuju se izračunati pokazatelji. Žuto je označena ‘Srandard Error’ koja predstavlja standardnu pogrešku aritmetičke sredine, koju uz prosjek, koristimo pri izračunu intervala pouzdanosti.

Osim toga, potrebna je još t-vrijednost, za koju je potrebna razina pouzdanosti i broj opažanja (odnosno df): =T.INV.2T(B17, B15-1).

Ovo je primjer izračunatih vrijednosti.

Upotreba Geogebre za prikaze teorijskih distribucija vjerojatnosti

GeoGebra je besplatni, interaktivni softver za matematiku koji obuhvaća geometriju, algebru, statistiku i računalnu algebru. Može se koristiti za vizualizaciju i dinamičko prikazivanje teorijskih raspodjela vjerojatnosti tako da korisnik mijenja parametre (npr. očekivanje, standardnu devijaciju) i odmah vidi kako se mijenja krivulja ili histogram. Na taj način olakšava razumijevanje oblika i svojstava različitih distribucija te omogućava interaktivno učenje statističkih koncepata.

Kalkulator i vizualizacija teorijskih distribucija vjerojatnosti dostupni su putem linka https://www.geogebra.org/classic#probability.

Prikaz binomne distribucije, za npr. slučajnu varijablu X ~ B(4, 0.25) izgleda ovako. Iz izbornika se odabire ‘Binomial’ za distribuciju, a potom se unose parametri n i p. Ispod toga se može podesiti raspon za koji se izračunava vjerojatnost, a u gornjem desnom uglu je raspodjela vjerojatnosti za diskretne vrijednosti slučajne varijable.

Sami možete mijenjati parametre i intervale kako biste dobili dojam kako te promjene mijenjaju oblik distribucije.

Sljedeća je prikazana varijabla X~N(100, 15). Odabire se ‘Normal’ kao distribucija i unose se parametri - prosjek i standardna devijacija. Ovdje je, za primjer, odabran interval tipičnih odstupanja.

Za kreiranje standardizirane normalne distribucije također odabiremo ‘Normal’, ali će prosjek iznositi 0, a standardna devijacija 1. Također su prikazana tipična odstupanja. U usporedbi s prethodnim grafom, može se vidjeti da je vjerojatnost (plavo obojana površina) jednaka u oba slučaja.

Sljedeći je primjer t - distribucije. Odabire se ‘Student’ i unosi parametar df. Ovdje je dan primjer za df=10, što znači da ove vrijednosti vrijede za uzorak veličine 11. Ovdje je također prikazan interval od -2 do 2, ali možete uočiti da uz njega više nije vezana jednaka vjerojatnost.

Možete sami mijenjati vrijednosti u t-distribuciji i isprobavati različite intervale. Sljedeći primjer ima df=1727 (za primjer iz štiva n=1728). Iako je grafički prikaz sad teško iščitati, vidimo da se vjerojatnost vezana uz interval od -2 do 2 sad približava vjerojatnosti za isti interval u normalnoj distribuciji. To i očekujemo vidjeti s povećanjem veličine uzorka, odnosno df.


Provjera odgovora

  1. C; 2. B; 3. D; 4. C; 5. A; 6. B; 7. A; 8. C; 9. B; 10. B; 11. B; 12. B; 13. B; 14. C; 15. B; 16. D; 17. B; 18. B; 19. A; 20. A, C, E, G; 21. C; 22. A, E.

Korišteni izvori i literatura

Bernoulli, J. (1713). [Jacobi Bernoulli,… Ars conjectandi, opus posthumum. Accedit Tractatus de seriebus infinitis, et epistola Gallice scripta De ludo pilae reticularis. impensis Thurnisiorum, fratrum.](https://books.google.hr/books?hl=hr&lr=&id=zek95OYw1BAC&oi=fnd&pg=PA1&dq=bernoulli+Ars+Conjectandi+(1713.&ots=pcrnWz7tCu&sig=IlysW5cRL78XzhIiBXSAVEVM5Ww&redir_esc=y#v=onepage&q=bernoulli%20Ars%20Conjectandi%20(1713.&f=false)

De Veaux, D. (2015). How much is a Fireplace Worth? Stats 101 Public Library.https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=e4f8d3f1-41a3-4f01-9f8b-f8fbe1562c15&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401

De Veaux, D. (2015). What Makes Diamonds so Expensive? Stats 101 Public Library. https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=b8671ff3-a2d2-4ea4-a3f2-7c82dac7151f&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401

Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.

Gauss, C. F. (1809). Theoria motus corporum coelestum. Werke.

Hohenwarter, M., & Hohenwarter, M. (2002). GeoGebra. Available on-line at http://www.geogebra.org/cms/en.

Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.

Horton, N.J., & Ben Baumer B. (2015) Better flight experiences with data (airline delays in New York City). Stats 101 Public Library. https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=a3536a72-1caa-44ae-8172-4975c2ef50d0&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401

Horton, N. J., Baumer, B. S., & Wickham, H. (2015). Setting the stage for data science: integration of data management skills in introductory and second courses in statistics (nycflights13). https://nhorton.people.amherst.edu/precursors/nycflights13.pdf

Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.

JASP Team (2024). JASP (Version 0.19.3)[Computer software].

Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://bookdown.org/kakoste/Uvod_u_R_i_RStudio/

Laplace, P. S. (1820). Théorie analytique des probabilités. Courcier.

De Moivre, A. (1738). The Doctrine of Chances, Or, A Method of Calculating the Probabilites of Events in Play.

Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf

Stigler, S. M. (1990). The history of statistics: The measurement of uncertainty before 1900. Harvard University Press. http://www.med.mcgill.ca/epidemiology/hanley/bios601/GaussianModel/CombiningObservationsStiglerCh1.pdf

Student. (1908). The probable error of a mean. Biometrika, 1-25.

Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb.

Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.

Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.

Zabell, S. L. (2008). On student’s 1908 article “the probable error of a mean”. Journal of the American Statistical Association, 103(481), 1-7.