U ovom tekstu, razmatra se odnos teorijskih i statističkih hipoteza te postupak odabira i provođenja odgovarajućih statističkih testova. Također, kroz primjere se prikazuju koraci u odabiru i provođenju odgovarajućih statističkih testova, s naglaskom na provjeri pretpostavki, izboru testa te interpretaciji rezultata. Razmatra se uloga konteksta te tijek rezoniranja u statističkoj analizi uz praktičnu primjenu naučenih metoda.


Od istraživačkog pitanja do hipoteze – osnovna razmatranja

Zamislimo istraživača koji želi proučiti utječe li povećana fizička aktivnost na smanjenje razine stresa kod odraslih osoba i postavlja hipotezu:

Povećana fizička aktivnost smanjuje razinu stresa kod odraslih osoba.

No, ovdje se radi o teorijskoj hipotezi, koju treba preoblikovati u statističku hipotezu kako bismo mogli utvrditi kakve podatke trebamo prikupiti.

Ovom problemu možemo pristupiti iz različitih perspektiva. Ovo su neke od statističkih hipoteza koje bismo mogli formirati temeljem dane teorijske hipoteze.


Primjer:

\(H_0…\) ne postoji razlika u prosječnoj razini stresa između osoba koje vježbaju i osoba koje ne vježbaju

\(H_1…\) postoji razlika u prosječnoj razini stresa između osoba koje vježbaju i osoba koje ne vježbaju


Primjer:

\(H_0…\) varijable razina stresa i razina vježbanja su neovisne

\(H_1…\) varijable razina stresa i razina vježbanja su ovisne


Primjer:

\(H_0…\) ne postoji razlika u medijalnoj razini stresa između osoba koje vježbaju i osoba koje ne vježbaju

\(H_1…\) postoji razlika u medijalnoj razini stresa između osoba koje vježbaju i osoba koje ne vježbaju


Primjer:

\(H_0…\) ne postoji razlika u obliku distribucije stresa između vježbača i nevježbača

\(H_1…\) postoji razlika u obliku distribucije stresa između vježbača i nevježbača


Primjer:

\(H_0…\) Distribucija razina stresa ne razlikuje se između različitih razina fizičke aktivnosti.

\(H_1…\) Distribucija razina stresa razlikuje se između različitih razina fizičke aktivnosti.


Primjer:

\(H_0…\) Postotak osoba s visokom razinom stresa je jednak kod osoba koje vježbaju i osoba koje ne vježbaju.

\(H_1…\) Postotak osoba s visokom razinom stresa razlikuje se između osoba koje vježbaju i osoba koje ne vježbaju.


Primjer:

\(H_0…\) Ne postoji razlika u prosječnoj razini stresa prije i nakon uvođenja programa fizičke aktivnosti.

\(H_1…\) Postoji razlika u prosječnoj razini stresa prije i nakon uvođenja programa fizičke aktivnosti.


Primjer:

\(H_0…\) Vrsta fizičke aktivnosti (npr.,aerobna,anaerobna) nije povezana s razinom stresa.

\(H_1…\) Vrsta fizičke aktivnosti (npr.,aerobna,anaerobna) je povezana s razinom stresa.


Iako bi se moglo naći još primjera statističkih hipoteza koji se uklapaju u navedenu teorijsku hipotezu, ovih osam ilustrira ideju kako teorijska i statistička hipoteza nisu jedno te isto. Statistička hipoteza iziskuje preciznost u izražavanju i povezanost sa statističkim parametrom ili oblikom distribucije populacije koji se testira. Štoviše, u kasnijim primjerima ćemo umjesto verbalnog zapisa koristiti matematički zapis. Osim toga, u svakom slučaju, potreban je reprezentativan uzorak – odabran na slučajan način, dovoljno velik i odražava bitne karakteristike populacije o kojoj se zaključuje. Bez reprezentativnosti uzorka, i najpreciznije formulirana statistička hipoteza može dovesti do pogrešnih zaključaka.

Napomena: naziv „nul“ u nul hipotezi (\(H_0\)) izveden je iz latinske riječi nullus, što znači „nema“, „bez vrijednosti“. Označava hipotezu koja ne pretpostavlja nikakav učinak, odnos ili razliku u statističkom kontekstu. Ne odnosi se na redni broj hipoteze, pa ju NE čitamo nulta hipoteza, nego nul hipoteza.


S druge strane, hipoteze su neodvojive od odabranog statističkog testa. A odabir statističkog testa usko je vezan uz karakteristike podataka. Dakle, o podacima koje želimo prikupiti kako bismo pružili dokaze u korist teorijske hipoteze, moramo razmišljati puno prije no što počnemo prikupljati podatke. U suprotnom, možemo prikupiti podatke koji neće u potpunosti odgovoriti na istraživačko pitanje koje smo postavili, niti u potpunosti pružiti dokaze u korist teorijske hipoteze.

Ako koristimo već prikupljene podatke bez poveznice s teorijskom hipotezom, onda je to tzv. data-driven pristup. U tom pristupu:

  • Hipoteze se formiraju na temelju podataka. Umjesto da se prije prikupljanja podataka postavi jasna teorijska hipoteza, u data-driven pristupu hipoteze se često generiraju ili otkrivaju tijekom ili nakon analize podataka.

  • Odluke se donose isključivo na temelju uzoraka podataka, a može se dogoditi da se otkriju statistički značajni odnosi koji zapravo proizlaze iz slučajnosti ili specifičnih karakteristika uzorka, a ne nužno iz teorijski očekivanih veza.

  • Data-driven pristup povećava rizik od “data mining” problema (pretjeranog “kopanja” u podatke), gdje se pronalaze odnosi koji nemaju stvarnu teorijsku potporu, što može dovesti do prekomjerne interpretacije ili pogrešnih zaključaka.

  • Data-driven pristup se često koristi u poslovnoj analitici, znanosti o podacima i sličnim područjima. U tim kontekstima, odluke i strategije temelje se na analizi velikih količina podataka (big data, velik broj opažanja – deseci tisuća, stotine tisuća ili čak milijuni podataka), pri čemu se hipoteze i modeli često generiraju na temelju opažanja iz postojećih podataka.

S druge strane, klasični ili theory-driven pristup (koji se preferira u akademskom svijetu) oslanja se na prethodno postavljene teorijske hipoteze koje usmjeravaju prikupljanje podataka i analizu, čime se omogućuje preciznija interpretacija rezultata u kontekstu postojeće teorije. Data-driven pristup u potpunosti se oslanja na big data. U područjima u kojima imamo ogroman broj opažanja, to omogućuje otkrivanje obrazaca i trendova bez unaprijed postavljenih teorijskih okvira. Međutim, ako nemamo na raspolaganju big data, tada taj pristup nije prikladan. U malim uzorcima ne možemo pouzdano izvući značajne zaključke samo na temelju podataka, već je tada potrebno koristiti theory-driven pristup – gdje se hipoteze postavljaju unaprijed i prikupljanje podataka je usklađeno s tim teorijskim okvirima. Takav pristup osigurava da su rezultati interpretirani u kontekstu prethodno definirane teorije, što je ključno kada podaci sami po sebi nisu dovoljno opsežni za robustnu data-driven analizu.

Dakle, nakon utvrđivanja međuovisnosti podataka uzorka, odabira statističkog testa, statističke hipoteze i teorijske hipoteze, sljedeći je korak detaljnije se upoznati s mogućnostima odabira statističkih testova.


Parametrijski testovi testiraju parametre, a to će najčešće biti prosjeci. Za provođenje parametrijskih testova moraju biti ispoštovane određene pretpostavke. Najčešće se radi o pretpostavci o normalnosti i pretpostavci o jednakosti varijanci. Pretpostavka o normalnosti dolazi u nekoliko različitih oblika i ovisi o broju uzoraka i statističkom testu koji se provodi. U najjednostavnijoj inačici s jednim uzorkom, varijabla čiji se parametar testira mora biti približno normalno distribuirana. Ako su u pitanju dva uzorka, razlike uzoraka trebale bi biti normalno distribuirane. No, u određenoj skupini testova s dva ili više uzoraka, procedura se temelji na linearnom modelu u podlozi i tada se iziskuje normalnost reziduala (a ne normalnost same varijable koja se testira). O tome će svakako biti više riječi u nastavku. Nadalje, test jednakosti varijanci postaje relevantan samo ako imamo dva ili više uzoraka (ako je u pitanju jedan uzorak, nemamo ga s čim usporediti).

z-test: Testira hipoteze o prosjeku kad je standardna devijacija populacije poznata ili testira proporcije osnovnog skupa.

  • Pretpostavke (Illowsky & Dean, 2018):
    • Podaci su prikupljeni iz populacije koja je normalno distribuirana ili je uzorak dovoljno velik.
    • Poznata je standardna devijacija populacije (\(σ\)).
  • Hipoteze:
    • \(H₀: μ = μ_o\)
    • \(H₁: μ ≠ μ₀\) (ili ako je u pitanju jednosmjerni test, ovisno o istraživačkom pitanju, tada imamo \(H_o: \mu \leq \mu_o\) i \(H_1: \mu > \mu_o\) ili \(H_o: \mu \geq \mu_o\) i \(H_1: \mu < \mu_o\))
    • Ako je u pitanju testiranje proporcija, onda će biti \(H_0: p = p_0\), odnosno \(H_1: p ≠ p_0\)
  • Primjena:
    • Z-test se koristi kod velikih uzoraka kad je standardna devijacija populacije (σ) poznata. To je tipično u slučajevima kao što su kontrola kvalitete u proizvodnim procesima (gdje su parametri populacije jasno definirani) ili kod službenih statističkih podataka prikupljenih od državnih institucija.
    • Na primjer, u proizvodnji vijaka često se mjeri promjer vijaka. Ako se, na temelju dugoročnih kontrola, zna da je standardna devijacija populacije promjera vijaka σ poznata (npr. 0,05 mm), onda se z-test može primijeniti na uzorku proizvedenih vijaka kako bi se testiralo je li prosječna širina jednaka ciljanoj vrijednosti (npr. 5,00 mm). To omogućuje brzu procjenu jesu li proizvodni procesi u skladu s propisanim standardima.
    • Drugi primjer je ispitivanje prosječnih plaća u velikoj populaciji. Ako državna agencija ili zavod za statistiku iz prethodnih istraživanja ima podatke o standardnoj devijaciji populacije plaća (npr. σ = 500 EUR), onda se z-test može koristiti na velikom uzorku plaća kako bi se provjerilo je li prosječna plaća jednaka nekoj zadanoj vrijednosti (npr. 1500 EUR). Ovakav pristup je primjeren kad se podaci prikupljaju službenim putem i kad su uvjeti za primjenu z-testa zadovoljeni.
    • U financijskim studijama, kad se analiziraju velike količine podataka, kao što su dnevne cijene dionica ili kamatne stope, a dugoročno su utvrđene varijance populacije, z-test se može primijeniti za testiranje hipoteze o prosjeku tih financijskih pokazatelja.
    • Z-test se također koristi u medicinskim istraživanjima kad su prikupljeni podaci u velikim uzorcima, a standardna devijacija populacije je poznata iz prethodnih studija. Na primjer, ako su prethodne studije utvrdile da je standardna devijacija populacije izdisajnog volumena (izražena npr. u mililitrima po sekundi) poznata, z-test se može koristiti za testiranje hipoteze o prosječnom izdisajnom volumenu kod pacijenata. Ili, na primjer, u istraživanjima gustoće kostiju, kad su referentni podaci dostupni i standardna devijacija populacije poznata, z-test se može primijeniti za provjeru je li prosječna gustoća kostiju u određenoj skupini pacijenata različita od zadane referentne vrijednosti.

t-test: Testira hipoteze o prosjeku kad standardna devijacija populacije nije poznata.

  • Varijante:
    • T-test za jedan uzorak: \(H₀: μ = μ₀\)
    • t-test dva nezavisna uzorka: $H₀: μ₁ = μ₂ $
    • t-test uparenih podataka: \(H₀: μ_d = 0\) (gdje je \(μ_d\) prosjek razlika između uparenih mjerenja)
  • Pretpostavke (Illowsky & Dean, 2018):
    • Podaci (ili razlike kod uparenih mjerenja) su prikupljeni iz populacije koja je približno normalno distribuirana.
    • Varijabla je mjerena na omjernoj ili intervalnoj ljestvici.
    • Opažanja su neovisna (osim kod uparenih mjerenja).
  • Primjena:
    • Koristi se kad je standardna devijacija populacije nepoznata, a uzorak nije dovoljno velik da se oslanja na z-test.
    • U situaciji kad se mjeri, primjerice, promjer proizvedenih dijelova iz male serije (npr. 25 dijelova) i standardna devijacija populacije nije poznata, koristi se t-test za jedan uzorak. Testira se hipoteza da je prosječni promjer jednak zadanoj vrijednosti (npr. 5,00 mm) prema specifikacijama.
    • Ako se proučavaju razlike s obzirom na korištenje novog lijeka na krvni tlak kod relativno malog uzorka (npr. 30 pacijenata) te standardna devijacija populacije nije poznata, primjenjuje se t-test za jedan uzorak ili upareni t-test (ako se mjerenja vrše prije i poslije primjene lijeka). Na taj način se testira je li prosječni krvni tlak nakon tretmana značajno različit od referentne vrijednosti ili od mjerenja prije tretmana.
    • Kad istraživač želi utvrditi je li prosječna plaća u manjoj tvrtki (npr. uzorak od 20 zaposlenika) različita od nacionalnog prosjeka, a standardna devijacija populacije plaća nije poznata, koristi se t-test za jedan uzorak kako bi se usporedili prosjeci plaća u tvrtki s poznatom referentnom vrijednošću.
    • U istraživanjima u obrazovanju, istraživač može usporediti rezultate dviju različitih nastavnih metoda. Ako su, primjerice, 30 učenika raspoređeno u svaku od dvije grupe, nezavisni t-test se koristi za testiranje hipoteze (\(H₀: μ₁ = μ₂\)), tj. da su prosječne ocjene učenika jednake u obje skupine.
    • U psihološkim istraživanjima, kad se mjeri, npr. vrijeme reakcije istih ispitanika prije i poslije trening programa, koristi se upareni t-test. Ovim testom se ispituje je li prosječna razlika u vremenu reakcije (prije i poslije) statistički značajna (\(H₀: μ_d = 0\), gdje je \(μ_d\) prosjek razlika).

F-test: Uspoređuje varijance između dvije ili više skupina; često se koristi kao temelj za ANOVA-u.

  • Pretpostavke:
    • Postoje barem dvije skupine za koje su prikupljeni podaci.
    • Podaci su normalno distribuirani.
    • Opažanja su neovisna.
    • Varijance su jednake ako se primjenjuje standardni F-test.
  • Hipoteze:
    • \(H₀: σ₁² = σ₂\)² (ili da su sve varijance jednake)
    • \(H₁: σ₁² ≠ σ₂²\)
  • Primjena:
    • Koristi se za provjeru homogenosti varijanci, što je često uvjet prije provođenja ANOVA-e.
    • U proizvodnom procesu, primjerice, u seriji vijaka, F-test se može koristiti za usporedbu varijance promjera vijaka između dvije proizvodne linije. Testira se hipoteza: \(H₀\): Varijance (\(σ²\)) između linija su jednake, odnosno \(H₁\): Varijance se razlikuju. Ovo pomaže u utvrđivanju jesu li procesi na obje linije konzistentni.
    • U studiji koja bi ispitivala izdisajni volumen kod dvije skupine pacijenata (npr. liječeni vs. neliječeni), F-test bi se koristio za usporedbu varijabilnosti mjerne vrijednosti između skupina. Time se provjerava je li razlika u varijancama (npr. zbog različitih odgovora na tretman) statistički značajna.
    • Ako se uspoređuju dnevni povrati dionica iz dvije industrije, F-test može testirati hipotezu da su varijance (volatilnost) povrata slične u obje industrije. Ovo omogućuje investitorima da procijene relativne rizike.

ANOVA (Analiza varijance): Ispituje razlike u prosjecima između tri ili više grupa.

  • Varijante:
    • Jednofaktorska ANOVA: Uspoređuje prosjeke jedne varijable među više skupina.
    • Dvostruka ANOVA: Uključuje dva faktora i ispituje njihove glavne efekte te interakcije (u slučaju ponovljenih mjerenja).
  • Pretpostavke (Illowsky & Dean, 2018):
    • Uzorci podataka prikupljeni su iz populacija koje su normalno distribuirane.
    • Reziduali (razlike između opaženih vrijednosti i grupnih prosjeka) trebaju biti približno normalno distribuirani.
    • Varijance (standardne devijacije) među grupama trebaju biti jednake (homogenost varijanci).
    • Opažanja su neovisna i uzorkovana na slučajan način.
    • Faktor je kvalitativna varijabla koja se koristi kao kriterij odabira u pojedini uzorak (npr. mjesto stanovanja, spol, i sl.)
  • Hipoteze:
    • \(H₀: μ₁ = μ₂ = … = μₖ\) (prosjeci svih grupa su jednaki)
    • \(H₁: \mu_i ≠ \mu_j\) za neki \(i≠j\), odnosno postoje barem dva prosjeka grupa \(\mu_1, \mu_2, \mu_3,...,\mu_k\) koji su međudobno značajno različiti.
  • Primjena:
    • Koristi se kad se uspoređuju tri ili više skupina i kad su zadovoljene pretpostavke normalnosti i homogenosti.
    • Npr., istraživač želi usporediti prosječne ocjene učenika iz triju različitih obrazovnih sustava. Prikupljaju se uzorci iz svake skupine, a ANOVA testira hipotezu: \(H₀: μ₁ = μ₂ = μ₃\) (prosječne ocjene su jednake u svim sustavima), odnosno \(H₁\): Postoji barem jedna skupina s prosjekom koji se razlikuje. Ako se dobije značajan rezultat, primjenjuju se post–hoc testovi (npr. Tukeyjev test) za identifikaciju između kojih se skupina razlikuju.
    • U istraživanju se ispituju glavne razlike u krvnom tlaku s obzirom na korištenje različitih doza lijeka i spola pacijenata. Višefaktorska ANOVA se koristi za: testiranje glavnih efekata doze lijeka i spola (npr. \(H₀\): Nema razlike u krvnom tlaku između različitih doza ili između spolova), ili npr. testiranje interakcije između doze i spola (rezultat bi pokazao je li kombinirani učinak doze i spola statistički značajan).
    • Analiza cijena nekretnina može uključivati više faktora, npr. lokaciju (urbana, prigradska, ruralna) i broj soba.
    • Koristi se za usporedbu prosječnih cijena nekretnina između različitih lokacija (\(H₀\): Prosječne cijene su jednake u svim lokacijama).
    • Ispituje se uloga dvije varijable (npr. lokacija i broj soba) u formiranju cijena nekretnina.


Neparametrijski testovi su statistički testovi koji ne zahtijevaju stroge pretpostavke o distribuciji podataka (npr. normalnost ili homogenost varijanci). Umjesto da rade s apsolutnim vrijednostima, oni obično koriste rangove podataka, što ih čini robusnijima u prisutnosti ekstremnih vrijednosti, asimetrije ili kada su podaci mjerljivi na ordinalnoj skali.

Osnovni neparametrijski testovi:

  • Mann–Whitney U test (Wilcoxon Rank–Sum test):
    • Namjena: Uspoređuje dvije nezavisne skupine.
    • Hipoteze:
      • \(H₀\): Distribucije (ili medijani) dviju grupa su jednake.
      • \(H₁\): Distribucije (ili medijani) se razlikuju.
  • Wilcoxonov test uparenih rangova:
    • Namjena: Uspoređuje uparene (zavisne) podatke – npr. mjerenja prije i poslije tretmana.
    • Hipoteze:
      • \(H₀\): Medijan razlika između parova je 0.
      • \(H₁\): Medijan razlika nije 0.
  • Kruskal–Wallis test:
    • Namjena: Proširuje Mann–Whitney U test na tri ili više nezavisnih skupina.
    • Hipoteze:
      • \(H₀\): Distribucije svih skupina su jednake (ili su medijani jednaki).
      • \(H₁\): Postoji barem jedna skupina čija se distribucija (ili medijan) razlikuje.
  • Friedman test:
    • Namjena: Uspoređuje tri ili više povezanih (uparenih) skupina.
    • Hipoteze:
      • \(H₀\): Rangovi mjerenja su jednako raspoređeni među uvjetima.
      • \(H₁\): Postoji značajna razlika u rasporedu rangova između uvjeta.

Ključne pretpostavke neparametrijskih testova:

  • Ne zahtijevaju normalnost: Ne moraju se zadovoljavati stroge pretpostavke o normalnoj distribuciji podataka.

  • Mogu se koristiti ordinalni podaci: Pogodni su za podatke koji nisu mjerljivi na intervalnoj ili omjernoj skali.

  • Manja osjetljivost na ekstremne vrijednosti: Rangiranjem podataka utječe se na smanjenje utjecaja outliera.

  • Sličnost oblika distribucija: Za neke testove (npr. Kruskal–Wallis) je poželjno da grupe imaju sličan oblik distribucije kako bi se medijani mogli uspoređivati.


Kad se koji test koristi?

  • Mann–Whitney U test: Kad uspoređujete dvije nezavisne skupine, a podaci ne zadovoljavaju pretpostavke parametrijskih testova ili su ordinalni.

  • Wilcoxonov test uparenih rangova: Kad uspoređujete parove opažanja (npr. prije i poslije mjerenja na istim ispitanicima) i distribucija razlika nije normalna.

  • Kruskal–Wallis test: Kad uspoređujete tri ili više nezavisnih skupina čiji podaci ne zadovoljavaju normalnost.

  • Friedman test: Kad uspoređujete tri ili više povezanih mjerenja na istim ispitanicima.


Općenite formulacije hipoteza:

  • Nul hipoteza (H₀): Ne postoji značajna razlika – npr. distribucije ili medijani su jednaki među skupinama.

  • Alternativna hipoteza (H₁): Postoji značajna razlika – barem jedna skupina se razlikuje.

Ovi neparametrijski testovi nude pouzdanu alternativu kada pretpostavke parametrijskih metoda nisu zadovoljene ili kada radimo s podacima na ordinalnoj skali.


Hi-kvadrat testovi predstavljaju vrstu neparametrijskih testova koji se koriste za usporedbu opaženih frekvencija s očekivanim frekvencijama u kvalitativnim varijablama.

  • Test sukladnosti (Goodness-of-fit)
    • Namjena: Testira se jesu li opažene frekvencije u jednoj kvalitativnoj varijabli u skladu s očekivanim (teorijskim, pretpostavljenim) frekvencijama.
    • Hipoteze:
      • \(H₀\): Opažene frekvencije odgovaraju očekivanim frekvencijama.
      • \(H₁\): Opažene frekvencije značajno se razlikuju od očekivanih.
  • Test homogenosti
    • Namjena: Koristi se za usporedbu distribucije jedne kvalitativne varijable između dvije ili više populacija ili skupina.
    • Hipoteze:
      • \(H₀\): Distribucija varijable je ista u svim skupinama.
      • \(H₁\): Postoji razlika u distribuciji među skupinama.
  • Test neovisnosti
    • Namjena: Ispituje se postoji li veza (ovisnost) između dvije kvalitativne varijable u jednoj populaciji.
    • Hipoteze:
      • \(H₀\): Varijable su neovisne (nema povezanosti).
      • \(H₁\): Varijable su povezane (ovisne).

  • Pretpostavke hi-kvadrat testova (Illowsky & Dean, 2018):
    • Očekivane frekvencije: U svakoj ćeliji tablice kontingence, očekivana frekvencija treba biti najmanje 5.
    • Neovisnost opažanja: Podaci moraju biti prikupljeni nasumično, a svako opažanje mora biti neovisno.

Primjeri primjene hi-kvadrat testova:

  • Test sukladnosti: Ispitivanje je li distribucija boja automobila u određenoj populaciji u skladu s teorijskim očekivanjima (npr. 40 % crvenih, 30 % plavih, 30 % zelenih).

  • Test homogenosti: Usporedba distribucije tipa automobila s ozbirom na dohodovni razred. \(H₀\) bi ovdje glasila da su distribucije tipa automobila jednake u svim dohodovnim razredima.

  • Test neovisnosti: Ispitivanje povezanosti između spola menadžera i provedbe načela društveno odgovornog poslovanja poduzeća. \(H₀\) bi tvrdila da su ove dvije varijable neovisne.

Hi-kvadrat testovi omogućuju nam da na temelju frekvencija procijenimo postoji li statistički značajna razlika između opaženih i očekivanih raspodjela ili jesu li su dvije kvalitativne varijable povezane.


Razmotrimo kako bismo u danom primjeru mogli pristupiti postavljanju hipoteza.

Za testiranje hipoteze o razlikama u prosječnoj razini stresa između osoba koje vježbaju i osoba koje ne vježbaju, potrebno je jasno definirati tko čini koju grupu. Prvo bismo identificirali kriterije za klasifikaciju sudionika u vježbače i nevježbače. Primjerice, vježbači bi mogli biti definirani kao osobe koje provode najmanje 150 minuta tjedno radeći umjerene fizičke aktivnosti, dok bi nevježbači bili oni koji ne ispunjavaju taj kriterij. Podaci o razinama stresa trebali bi se prikupljati korištenjem standardiziranog upitnika koji mjeri percipirani stres, poput Perceived Stress Scale (PSS), a nakon toga izračunati prosječne vrijednosti u obje grupe. Važno je osigurati reprezentativnost obje grupe i prikupiti podatke iz uzorka koji pokriva široki raspon demografskih karakteristika. U ovom opisu, radi se o usporedbi pokazatelja prosjeka dva nezavisna uzorka, pa bismo najvjerojatnije koristili t-test. No, t-test iziskuje provjeru dviju pretpostavki: jednakosti varijanci u uzorcima i normalnost (simetriju) distribucije. Ako bi jednakost varijanci bila narušena, a želi se koristiti parametrijski test, postoje testovi s korekcijama za različitu varijabilnost uzoraka, dok se u slučaju narušene obje pretpostavke može koristiti neparametrijska alternativa (ovo bi iziskivalo preoblikovanje statističkih hipoteza).

Ovdje se spominje i podjela uzroka na skupine ili odabir više uzoraka. Podjela uzoraka na podskupine vezana je uz istraživačko pitanje i dizajn studije. Kad imamo podatke za uzorak koji želimo analizirati, dijeljenje na podskupine omogućuje nam istraživanje odnosa između različitih varijabli ili proučavanje efekata specifičnih uvjeta na varijable od interesa. Ove podskupine mogu se definirati prema različitim kriterijima, kao što su demografske značajke (dob, spol, obrazovanje, rang prihoda), karakteristike ispitanika (status bolesti, životne navike) ili eksperimentalne uvjete (npr. kontrolna i eksperimentalna grupa).

Očito, dizajn istraživanja je usko povezan s ovom podjelom – u eksperimentalnim istraživanjima, podskupine često predstavljaju različite eksperimentalne uvjete, gdje svaka skupina podliježe drugačijem tretmanu. U takvim slučajevima, jasna i precizna podjela ispitanika u uzorke prije provođenja istraživanja omogućuje kontrolu nad varijablama koje bi mogle utjecati na rezultate te povećava unutarnju valjanost istraživanja. Ako su u pitanju opservacijska istraživanja, podskupine se mogu formirati prema prirodnim varijacijama unutar uzorka. Na primjer, ako istražujemo razlike u zdravlju između različitih dobnih skupina, prirodna podjela prema dobi pruža temelj za formiranje podskupina. Ovaj pristup omogućuje istraživaču da analizira razlike unutar uzorka i identificira potencijalne obrasce ili povezanosti. Za formiranje i analizu ovih podskupina, ključnu ulogu imaju faktori.

Faktori su tip podataka koji predstavljaju kategoričke varijable koje definiraju podskupine unutar uzorka (češće se spominju u softverima pod nazivom faktori). U statističkim analizama, faktori omogućuju grupiranje opažanja i usporedbu između različitih kategorija (npr. dob, spol, obrazovanje, itd.). Metodologija podjela uzorka na podskupine (odnosno kreiranje dva ili više poduzorka) nije samo tehnički korak već i filozofija istraživanja. Definiranjem podskupina i korištenjem faktora možemo strukturirati svoje podatke i oblikovati način na koji ti podaci odgovaraju na istraživačka pitanja.


Ako, na primjer, testiramo neovisnost između varijabli razina stresa i razina vježbanja, moramo osigurati da imamo ordinalne mjere obje varijable. Za razinu vježbanja mogli bismo odrediti stupnjeve za raspone podataka inicijalno izraženih u obliku broja minuta tjedne aktivnosti (ili to možemo učiniti navođenjem intervala već u upitniku). Razinu stresa mjerili bismo standardiziranim upitnikom. S obzirom na specifičnost ovih hipoteza, koristio bi se Hi-kvadrat test neovisnosti.

Na primjer, za testiranje razlika u medijalnim vrijednostima stresa između vježbača i nevježbača, prikupljanje podataka slijedilo bi sličan obrazac kao za prosječne vrijednosti, ali bismo koristili drugi test, Mann-Whitney U test. Ovaj se test može koristiti za ordinalne varijable, ali i kad pretpostavka normalnosti distribucija kvantitativnih varijabli nije ispunjena. Zbog toga je ovaj test često zamjenska opcija z-testu ili t-testu, u slučaju da se ne može ispoštovati pretpostavka normalnosti podataka. Mann-Whitney U test je neparametrijski test koji kombinira podatke iz oba uzorka i dodjeljuje rangove svim opažanjima, a potom uspoređuje distribuciju rangova dvaju skupina. Testom se pretpostavlja da, ako medijani nisu različiti, onda će raspodjela rangova u dvjema skupinama biti slična.

Ako, na primjer, želimo testirati razlike u obliku distribucije razina stresa između vježbača i nevježbača, cilj bi bio utvrditi postoje li razlike u obrascima raspodjele stresa, primjerice je li jedna grupa sklona imati više ekstremne vrijednosti ili veću varijabilnost. Takvo testiranje ne pretpostavlja specifičan oblik distribucije podataka (npr., normalnost), što ga čini fleksibilnim za širok raspon primjena. Primarno se koristi za usporedbu kontinuiranih kvantitativnih varijabli. Iako je Kolmogorov-Smirnov test neparametrijski, njegova interpretacija za ordinalne varijable može biti problematična, jer ne razlikuje pravilno udaljenosti između rangova kao što bi to učinio za kontinuirane kvantitativne varijable. U praksi, za ordinalne varijable, testovi poput Mann-Whitney U testa ili Wilcoxonovog testa često su prikladniji.

Za hipotezu koja ispituje razlike u distribuciji razina stresa među različitim razinama fizičke aktivnosti, sudionike bismo podijelili u tri ili više kategorija prema intenzitetu ili učestalosti aktivnosti (npr., niska, umjerena i visoka razina fizičke aktivnosti). Prikupljanje podataka uključivalo bi mjerenje razine stresa za sve sudionike, kao i podatke o razini vježbanja. Ovdje bi se mogao primijeniti Hi-kvadrat test homogenosti, neparametrijski test koji se primjenjuje na kvalitativnim varijablama, a u ovom bi se slučaju koristile stupnjevite varijable.

Kod ispitivanja razlika u postotku osoba s visokom razinom stresa među vježbačima i nevježbačima, potrebno je definirati što smatramo visokom razinom stresa. Na primjer, mogli bi koristiti prag bodova na upitniku poput PSS-a. Podaci bi se prikupljali tako da uključuju broj osoba u svakoj grupi koje prelaze taj prag i broj onih koji ga ne prelaze. Ovaj bi dizajn zahtijevao jasnu kategorizaciju sudionika i korištenje metoda za usporedbu proporcija između grupa, a tu stoje na raspolaganju različite opcije, na primjer z-test ili Hi-kvadrat testovi.

Ako želimo testirati razlike u razini stresa prije i nakon uvođenja programa fizičke aktivnosti, trebali bismo mjeriti razine stresa kod istih sudionika u dva vremenska trenutka: prije početka programa i nakon njegova završetka. Sudionici bi trebali biti nasumično odabrani ili stratificirani prema ključnim demografskim čimbenicima kako bismo osigurali valjanost rezultata. Ovdje bismo koristili test za uparene podatke, kao što su t-test za uparene podatke ili Wilcoxon signed-rank test (neparametrijska varijanta).

Za testiranje povezanosti vrste fizičke aktivnosti (npr., aerobne i anaerobne) s razinom stresa, morali bismo od sudionika prikupiti podatke o njihovim dominantnim vrstama aktivnosti. To bi moglo uključivati standardizirane upitnike o vrstama vježbi koje najčešće prakticiraju. To bi bile opisne varijable, pa nužno moramo koristiti neparametrijski test, najvjerojatnije Hi-kvadrat test homogenosti. Podaci o razini stresa trebali bi se prikupljati validiranim upitnikom, kao i u ranijim primjerima. U ovoj situaciji, važno je osigurati i dovoljno sudionika u svakoj kategoriji vrste aktivnosti kako bismo mogli provesti pouzdanu analizu i usporediti razine stresa između kategorija.


Ovaj kratki uvid ilustrira kako je potrebno razumijevanje da teorijske i statističke hipoteze imaju različite uloge, ali se međusobno oslanjaju i preklapaju. Teorijska hipoteza izražava širu, konceptualnu ideju ili očekivanje o vezi između fenomena, dok statistička hipoteza zahtijeva precizno kvantitativno izražavanje te ideje u formatu pogodnom za testiranje, uz jasnu definiciju tvrdnju o parametru populacije ili obliku distribucije, što za sobom povlači pitanja o tipu podataka, pretpostavkama i vezanim testovima.


Teorijska hipoteza oblikuje istraživačko pitanje i postavlja širi okvir za interpretaciju rezultata. Statistička hipoteza operacionalizira tu ideju tako da omogućava testiranje temeljem konkretnih podataka i metoda. Na primjer, teorijska hipoteza Povećana fizička aktivnost smanjuje razinu stresa kod odraslih osoba može se preoblikovati u niz statističkih hipoteza. Svaka od ovih statističkih hipoteza definira specifičan aspekt odnosa između fizičke aktivnosti i stresa koji se može testirati pomoću odgovarajućih testova.

Parametrijski testovi oslanjaju se na određene pretpostavke (poput normalne distribucije ili homogenosti varijanci) i obično testiraju specifične parametre populacije, poput aritmetičke sredine. kad su te pretpostavke narušene, često se koriste neparametrijski testovi, poput Mann-Whitney U testa ili Wilcoxon signed-rank testa, koji ne pretpostavljaju specifičan oblik distribucije.

Međutim, iako su parametrijski i neparametrijski testovi na prvi pogled zamjenjivi u određenim situacijama, oni ne mjere potpuno iste stvari. Parametrijski testovi usmjereni su na razlike u specifičnim parametrima, dok neparametrijski testovi često uspoređuju rangove ili distribucije. Na primjer, t-test za nezavisne uzorke testira razliku u prosjecima, dok Mann-Whitney U test uspoređuje distribucije i medijane.

Ova razlika ističe potrebu za preoblikovanjem hipoteza u situacijama kad pretpostavke parametrijskih testova nisu zadovoljene. Na primjer, ako je teorijska hipoteza da Povećana fizička aktivnost smanjuje razinu stresa kod odraslih osoba, a podaci pokazuju da distribucija razine stresa nije normalna, onda se hipoteza može preformulirati iz:

Ne postoji razlika u prosječnoj razini stresa između vježbača i nevježbača (testirano t-testom), u:

Ne postoji razlika u distribucijama razine stresa između vježbača i nevježbača (testirano Mann-Whitney U testom).

Kada koristimo neparametrijske testove zbog narušenih pretpostavki, ključno je razumjeti da se tada testiraju različiti aspekti istog problema (npr., medijani umjesto prosjeka, distribucije umjesto parametara). Ovo zahtijeva precizno preoblikovanje statističkih hipoteza kako bi se osigurala njihova valjanost i povezanost s teorijskom hipotezom te omogućilo pravilno tumačenje rezultata.

Dakle, istraživačko pitanje, uzorci i karakteristike podataka neodvojivi su od načina postavljanja statističkih hipoteza. Istraživačko pitanje definira fokus analize i određuje što želimo saznati, dok uzorci predstavljaju (odnosno, reprezentativni su za) populaciju iz koje se prikupljaju podaci za odgovaranje na to pitanje. Karakteristike podataka, poput vrste varijabli (kategorijske ili kvantitativne), distribucije i veličine uzoraka, utječu na izbor odgovarajućih statističkih testova, koji su pak vezani uz postavljanje hipoteza. Statističke hipoteze oblikuju se kao izrazi - tvrdnje o parametru populacije ili obliku distribucije - koje je moguće testirati i koji sadrže pretpostavke istraživača. Ipak, njihova valjanost ovisi i o usklađenosti s prirodom podataka i dizajnom istraživanja. Stoga je cijeli proces donekle iterativan i zahtijeva pažljivo usklađivanje između istraživačkog pitanja, uzoraka i metoda, osiguravajući da rezultati istraživanja budu interpretativno valjani i relevantni.


Slučaj: Heart rate

U JASP-ovoj biblioteci podataka postoji skup podataka o otkucajima srca (Open \(\implies\) Data \(\implies\) Library \(\implies\) ANOVA \(\implies\) Heart rate). Skup podataka sadrži 800 opažanja za tri varijable: otkucaji srca, spol i grupa. Otkucaji srca su kvantitativna diskontinuirana varijabla mjerena na omjernoj razini i kreću se u rasponu od 69 do 196. Spol je kvalitativna opisna varijabla mjerena na nominalnoj razini i sadrži dva modaliteta – muški i ženski, svaki s po 400 opažanja. Grupa je kvalitativna opisna varijabla mjerena na nominalnoj razini i ima dva modaliteta: kontrolnu skupinu i trkače, od kojih svaka skupina ima po 400 opažanja.

Tablica 1. Tablica kontingence ispitanika prema spolu i aktivnosti

Gender Control Runners Total
Female 200 200 400
Male 200 200 400
Total 400 400 800

Ovdje je očito u pitanju kvotni uzorak, pri čemu je kvota za svaku skupinu iznosila 200. Pa tako postoji 200 žena u kontrolnoj skupini, 200 trkačica, 200 muškaraca u kontrolnoj skupini i 200 trkača.

Recimo da istraživačko pitanje glasi: Postoji li razlika u otkucajima srca između trkača i kontrolne skupine (ispitanici u ovoj skupini vode pretežito sjedilački stil života)? Temeljem toga se može postaviti teorijska hipoteza da će trkači imati niži broj otkucaja srca u minuti. Prije nego postavimo statističke hipoteze, pozabavit ćemo se deskriptivnom statistikom, kako bismo dobili uvid u varijable.

Tablica 2. Tablica statističkih pokazatelja

Control Runners All
Valid 400 400 800
Missing 0 0 0
Mode 143 109 128
Median 139 109 124
Mean 139 109.98 124.49
Std. Deviation 18.9496 15.5338 22.5969
IQR 25 22 34
Skewness -0.1118 0.3753 0.2504
Kurtosis 0.0088 -0.0042 -0.5407
Shapiro-Wilk 0.9973 0.9890 0.9878
P-value of Shapiro-Wilk 0.7723 0.0041 <0.001
Minimum 77 69 69
Maximum 196 164 196
25th percentile 127 98 107
50th percentile 139 109 124
75th percentile 152 120 141

Izračunati pokazatelji uzorka pružaju uvid u distribucije otkucaja srca kontrolne skupine i trkača. Osobe u kontrolnoj skupini imaju prosječno 139 otkucaja u minuti, uz standardno odstupanje od prosjeka za 18.95 otkucaja srca u minuti. Trkači imaju prosječno 109,98 otkucaja u minuti uz standardno odstupanje od prosjeka za 15.53 otkucaja srca u minuti.

U obje skupine, medijan je gotovo jednak prosjeku. Mod je nešto viši u prvoj skupini i ukazuje da su ispitanici u kontrolnoj skupini najčešće imali 143 otkucaja srca u minuti. U drugoj skupini, mod je jednak medijanu. Iako se prema mjerama središnje tendencije čini da je u pitanju približno normalna distribucija, mjera asimetrije sugerira blagu negativnu asimetriju distribucije otkucaja srca u kontrolnoj skupini te blagu do umjereno pozitivnu asimetriju distribucije otkucaja srca trkača. Prema zaobljenosti, obje su distribucije vrlo blizu normalne distribucije, a to se može potvrditi uvidom u histogram.

Provjera normalnosti distribucije pomoću Shapiro-Wilk testa pokazuje da su podaci u kontrolnoj skupini u skladu s normalnom distribucijom (p-vrijednost: 0,7723), dok kod trkača distribucija odstupa od normalnosti (p-vrijednost: 0,0041).

Prikazani boxplot jasno ilustrira razlike u distribuciji otkucaja srca između kontrolne skupine i trkača. U kontrolnoj skupini medijan i čitav interkvartil poprimaju veće vrijednosti u odnosu na medijan i interkvartil trkača.. Osim toga, kontrolna skupina ima veći interkvartil i raspon varijacija, što ukazuje na veću varijabilnost u podacima. Kontrolna skupina također pokazuje više ekstremnih vrijednosti iznad i ispod interkvartilnog raspona, u odnosu na distribuciju otkucaja srca trkača.


Jedan uzorak

Imaju li ljudi prosječno 120 otkucaja srca u minuti?

Za potrebe primjera, ovdje će se prvo svi podaci tretirati kao 1 uzorak. Pretpostavimo da ispitanici prosječno imaju 120 otkucaja srca u minuti. Ovo možemo direktno zapisati u obliku statističkih hipoteza.

\[H_0… μ=120\] \[H_1…μ≠120\]

Na ovaj način, u nul hipotezi zapisana je tvrdnja da ispitanici prosječno imaju 120 otkucaja srca u minuti. Alternativna tvrdi da ispitanici imaju različit broj otkucaja srca u minuto od 120.

Tablica 3. Shapiro-Wilkov test normalnosti distribucije

W p
Heart Rate 0.9878 < .001

Note. Significant results suggest a deviation from normality.

Iako Shapiro-Wilkov test sugerira odbacivanje pretpostavke da je varijabla normalno distribuirana, nastavit ćemo s postupkom radi ilustracije koraka i to ćemo učiniti za ovaj jednostavan primjer za svaku vrstu testa (uključujući z-test), jer nam to omogućuje povezivanje procjena parametara populacije (prethodno štivo) s testiranjem hipoteza.

U prošlom smo štivu detaljno razmatrali procjenu prosjeka i proporcija populacije na temelju uzorka. Proporcije i hipoteze usko su povezane u statističkoj analizi jer oba koncepta koriste slične temelje – uzorkovanje, distribucije i inferenciju. Međutim, dok je cilj procjene proporcija kvantificirati nepoznati parametar populacije (npr. udio novogradnje), cilj testiranja hipoteza je ispitati specifične tvrdnje o populaciji.

U procjeni proporcija, fokusirali smo se na populacijski parametar, odnosno cijene nekretnina i udio novogradnje, koristeći prosjek i proporciju uzorka kao procjenitelje. S druge strane, kod testiranja hipoteza, parametar (p,μ,σ, itd.) služi kao polazište za formiranje nul hipoteze (H_0).

  • Sličnosti: Oba koncepta koriste pokazatelje uzorka kao osnovu za donošenje zaključaka o populaciji.

  • Razlike: Procjena proporcija fokusira se na kvantifikaciju populacijskog parametra, dok testiranje hipoteza uključuje postavljanje tvrdnji koje želimo provjeriti.

  • Primjer: Kod prosjeka smo procjenjivali da je prosječna cijena nekretnina \(P[209728.42< μ<230448.68]=95 \%\), dok bismo u testiranju hipoteza mogli postaviti, npr. \(H_0… μ=215000\) i testirati tu tvrdnju.

Sampling distribucija aritmetičkih sredina i sampling distribucija proporcija bile su osnovni koncepti u procjeni proporcija. Kod testiranja hipoteza, sampling distribucije omogućuju nam da izračunamo testnu veličinu i procijenimo značajnost vezanu uz nul hipoteze.

Za razliku od razine povjerenja, kod testiranja hipoteza postoji razina značajnosti, α. Razina značajnosti se koristi za donošenje odluke o tome hoćemo li odbaciti nul hipotezu na temelju prikupljenih podataka. Ona predstavlja prag tolerancije za pogrešku tipa jedan, odnosno za vjerojatnost da pogrešno odbacimo nul hipotezu kad je zapravo istinita.

Kod donošenja odluke o nul hipotezi, postoje četiri moguća ishoda: dvije vrste ispravnih odluka i dvije vrste pogrešaka. Ove odluke ovise o tome je li \(H_0\) istinita ili neistinita u stvarnosti te o zaključku koji donosimo na temelju podataka.

Mogući ishodi:

  1. Odbacivanje istinite nul hipoteze
  • Ovo je pogreška tipa jedan, gdje odbacujemo \(H_0\), iako je ona u stvarnosti istinita.
    • Ova pogreška se događa s obzirom na kriterij koji postavimo kao razinu vjerojatnosti, odnosno, vjerojatnošću koja je jednaka razini značajnosti (α).
    • Na primjer, ako je \(α=0.05\), postoji 5% vjerojatnosti da ćemo učiniti pogrešku ako odbacimo \(H_0\) (jer je istinita).
  1. Neodbacivanje istinite nul hipoteze

    • Ovo je ispravna odluka jer nismo odbacili \(H_0\), što je u skladu sa stvarnom situacijom u populaciji.
    • Ova odluka se događa s vjerojatnošću od \(1-α\).
  2. Odbacivanje neistinite nul hipoteze

    • Ovo je također ispravna odluka jer smo pravilno odbacili \(H_0\) i tumačimo za alternativnu hipotezu.
    • Ova odluka se događa s vjerojatnošću koja je povezana s snagom testa (\(1-β1\)), gdje \(β\) označava vjerojatnost pogreške tipa dva.
  3. Neodbacivanje neistinite nul hipoteze

    • Ovo je pogreška tipa dva, gdje ne odbacujemo \(H_0\), iako je u stvarnosti \(H_0\) neistinita.
    • Pogreška drugog tipa nastupa s vjerojatnošću \(β\).

Više o pogreškama tipa I i II, možete pročitati u Introduction to Business Statistics, Introductory Statistics ili Statistics. Ovo su javno dostupni udžbenici putem openstax.org platforme.


U većini istraživanja, istraživači postavljaju istraživačku hipotezu koja se obično nalazi u alternativnoj hipotezi. U tim slučajevima, odbacivanje nul hipoteze omogućava podršku alternativnoj hipotezi, što može biti cilj istraživanja. U nekim istraživanjima, istraživači žele dokazati da je efekt nepostojeći ili da je razlika zanemariva. U tom slučaju, neodbacivanje nul hipoteze može biti u skladu s interesima istraživanja. Iako se često smatra da je u interesu istraživača da odbaci nul hipotezu kako bi podržao svoju teorijsku hipotezu, stvarni cilj statističkog testiranja je donijeti točne zaključke na temelju podataka, bilo da to uključuje odbacivanje ili neodbijanje nul hipoteze. Fokus bi trebao biti na kvaliteti podataka i analize, a ne na željenom ishodu.

Postoji jedno važno pitanje pri donošenju odluke o nul hipotezi: Zašto ne smijemo ‘prihvatiti’ nul hipotezu?

  • Nul hipoteza nije dokaz istine, već početna pretpostavka:

    • kad ne odbacimo \(H_0\) , to u pravilu ne znači da je \(H_0\) istinita, već da nemamo dovoljno dokaza protiv nje.

      • Statistički testovi ne mogu dokazati nultu hipotezu; oni samo ocjenjuju jesu li podaci dovoljni za njezino odbacivanje.
  • Ograničenja uzorka i statističkih testova:

    • Kad ne odbacimo \(H_0\), to može značiti:

      • \(H_0\) je istinita.
      • Uzorak nije dovoljno velik da detektira odstupanja.
      • Varijabilnost uzorka je prevelika.
    • S obzirom na ove neizvjesnosti, statističari se pridržavaju termina ‘ne odbacujemo \(H_0\)’ (i ne koriste ‘prihvaćamo \(H_0\)’, jer to treba argumentirati dodatnim dokazima).

  • Pristranost u tumačenju:

    • Ako bismo rekli da prihvaćamo \(H_0\), impliciramo da smo sigurni u njezinu istinitost, što nije točno jer statistički testovi ne provjeravaju \(H_0\) direktno. Oni procjenjuju vjerojatnost da su prikupljeni podaci konzistentni s \(H_0\).
  • Primjer:

    • Ako testiramo \(H_0… μ=100\) i dobijemo \(p=0.07\), ne možemo odbaciti \(H_0\) na razini značajnosti$ α=0.05$. No, to ne znači da je \(H_0… μ=100\) istinita, već samo da nemamo dovoljno dokaza protiv nje. Kad ne odbacimo \(H_0\), ostajemo agnostični prema tvrdnji koju ona postavlja – zapravo nemamo novih saznanja i ne zaključujemo da je tvrdnja istinita.


Prije nastavka, rezimirajmo pogreške pri donošenju odluke o nul hipotezi. Pogreška tipa jedan označava “lažno pozitivan” zaključak – dolazimo do zaključka da je efekt prisutan iako u stvarnosti nije. Pogreška tipa dva označava “lažno negativan” zaključak – dolazimo do zaključka da nema efekta iako on postoji. Smanjenjem \(α\) (strožom razinom značajnosti) smanjujemo vjerojatnost pogreške prvog tipa, ali povećavamo rizik pogreške drugog tipa (\(β\)). Snaga testa (\(1-β\)) označava vjerojatnost da će test pravilno odbaciti \(H_0\) kad je neistinita. Snaga raste s većim uzorkom, manjim varijacijama u podacima ili boljim dizajnom studije.

Za razliku od razine povjerenja, koja se koristi u procjeni parametara kako bi se izgradili intervali unutar kojih se parametar s određenom sigurnošću nalazi (najčešće 95% ili 99%), razina značajnosti određuje granicu prema kojoj zaključujemo o odbacivanju ili ne-odbacivanju \(H_0\). Najčešće korištene razine značajnosti su \(α=0.05\) ili \(α=0.01\), što znači da smo spremni tolerirati 5% ili 1% vjerojatnosti da donesemo pogrešan zaključak odbacivanjem istinite nul hipoteze.

Provođenje z-testa koristi standardiziranu normalnu distribuciju, kao i intervalna procjena parametara. Pri provedbi z-testa, važno je odrediti je li u pitanju dvosmjerni ili jednosmjerni test. Ako je u \(H_0\) zapisana jednakost, onda se radi o dvosmjernom testu. Ako je u \(H_1\) zapisana nejednakost, onda je u pitanju jednosmjerni test, i to ako je veće ili jednako, radi se o testu na gornju granicu, a ako je manje ili jednako, u pitanju je jednosmjerni test na donju granicu. U ovom slučaju, hipoteze su zadane:

\[H_0… μ=120\]

\[H_1…μ≠120\]

Što znači da je u pitanju dvosmjerni test. Dvosmjerni test znači da će se razina značajnosti \(α\), koja mjeri pogrešku tipa jedan, simetrično podijeliti na rubne dijelove krakova distribucije. Na primjer, ako je \(α=0.05\), onda je to

Kada se provodi dvosmjerni test, eliminiraju se vrijednosti koje se nalaze u ekstremnim dijelovima distribucije, tj. vrijednosti koje su vrlo malo vjerojatne pod pretpostavkom da je \(H_0\) točna. Ove vrijednosti, smještene u rubnim dijelovima distribucije, su izvan granica povjerenja koje definiramo razinom značajnosti \(α\). Ako je izračunata vrijednost test statistike unutar kritičnog područja, onda odbacujemo \(H_0\) u korist \(H_1\).

Na slici je prikazana standardizirana distribucija testne statistike (z-testa) koja se temelji na distribuciji svih mogućih prosjeka uzoraka pod pretpostavkom da je \(H₀\) točna. Drugim riječima:

  • Početna distribucija (prije standardizacije) odnosi se na sve moguće prosjeke koje bismo mogli dobiti iz beskonačno mnogo uzorka veličine \(n\), ako je \(H₀\) istinita. U praksi se, naravno, ne uzima „beskonačno mnogo“ uzoraka, ali u teorijskom modelu za potrebe statističkog testiranja pretpostavljamo da bismo mogli izvući neograničen broj uzoraka, i gledamo kako bi se oni raspodijelili ako je \(H₀\) istinita.
  • Standardizacija (oduzimanjem hipotetskog prosjeka i dijeljenjem sa standardnom pogreškom) dovodi do toga da se ta distribucija pretvara u standardiziranu normalnu distribuciju (\(Z(0,1)\)), što je prikazano na slici.
  • Okomite crte na lijevom i desnom kraju označavaju kritične vrijednosti (\(±zα/2\)) ispod kojih ili iznad kojih odbacujemo \(H₀\).

Zapravo se ovdje oslanjamo na reprezentativnost uzorka. Pretpostavljamo da su podaci iz uzorka valjani pokazatelji populacije. Ako je uzorak reprezentativan, onda je vrlo mala vjerojatnost da bi stvarna vrijednost populacijskog parametra μ ‘pala’ u kritično područje, pod uvjetom da je \(H_0\) točna. Stoga, dvosmjerni test omogućuje rigorozno testiranje hipoteze bez prevelikog rizika pogrešnog zaključivanja, jer razina značajnosti ograničava vjerojatnost da dođe do pogreške tipa I.

Nadalje, \(α/2=0.025\) nam pomaže utvrditi vrijednosti na apscisi standardizirane normalne distribucije koje dijele distribuciju na područje nedobacivanja i područja odbacivanja. Statistički softveri će ovo učiniti automatski, a ‘ručno’ bismo to učinili iščitavajući vrijednost iz statističkih tablica. Također, alati poput geogebre ili MS Excela, omogućuju utvrđivanje vrijednosti standardiziranog obilježja temeljem vjerojatnosti.

\(z_0.025= \pm 1.96\)

\(z_(α/2)\) je koeficijent značajnosti, a naziva se još i teorijska z-vrijednost te kritična z-vrijednost.

U sljedećem koraku, potrebno je izračunati standardnu pogrešku aritmetičke sredine. S obzirom da ne znamo veličinu populacije, ne tretiramo ju kao konačnu populaciju, pa stoga ne možemo izračunati frakciju izbora. I posljedično, ne primjenjuje se faktor korekcije.

Tablica 4. Pokazatelji otkucaja srca

Value
Valid 800
Mean 124.4900
Std. Deviation 22.5969

\[s_\bar{x} =\frac{s}{\sqrt{n}}=\frac{22.5969}{\sqrt{800}}=0.7989\]

Potom bismo izračunali pogrešku testiranja:

\[z_{α/2} \cdot s_\bar{x} =1,96 \cdot 0,7989=1,5658\]

z-test se izračunava temeljem izraza:

\[z=\frac{\bar{x}- \mu_o}{s_\bar{x}} = \frac{124,49-120}{0,7989}=5,62\]

Tablica 5. Rezultati dvosmjenih testova

Test Statistic df p Effect Size SE Effect Size
Heart Rate
Student 5.6201 799 < .001 0.1987 0.0357
Wilcoxon 186278.5 < .001 0.1924 0.0410
Z 5.6218 < .001 0.1988 0.0357

Note. For the Student t-test and Z-test, the alternative hypothesis specifies that the mean is different from 120. For the Wilcoxon test, the alternative hypothesis specifies that the median is different from 120. For the Student t-test, effect size is given by Cohen’s d. For the Wilcoxon test, effect size is given by the matched rank biserial correlation. For the Z test, effect size is given by Cohen’s d (based on the provided population standard deviation).

Na razini značajnosti 5%, odbacuje se pretpostavka da ljudi imaju prosječno 120 otkucaja srca u minuti. P-vrijednost od 0.0357, znači da postoji 3.57% vjerojatnosti da ćemo učiniti pogrešku ako odbacimo nul hipotezu. S obzirom da je ta vjerojatnost manja od razine značajnosti (koja mjeri pogrešku tipa jedan i razina koju smo sami odabrali na početku), donosi se odluka o odbacivanju nul hipoteze. Zaključuje se da je prosječan broj otkucaja srca u minuti ljudi različit od 120.

Da bismo ovo mogli izračunati u JASP-u, morali smo unijeti vrijednost koja se testira, standardnu devijaciju populacije, odabrati testove te hipotezu.

Iako namjerno, za potrebe primjera, ipak je učinjena pogreška. Naime, za potrebe izračuna, ovdje je unesena standardna devijacija uzorka kao standardna devijacija populacije. Iako će z-test često biti prvi test koji se uči pri testiranju hipoteza (zbog povezivanja s procjenom parametara i standardiziranom normalnom distribucijom), u praksi se rjeđe koristi upravo zbog toga jer nam neće biti poznata standardna devijacija populacije (osim ako imamo pristup službenim podacima ili iznimno velikoj količini podataka o određenoj pojavi).

Dakle, z-test ‘otpada’, iz dva razloga: prekršena je pretpostavka normalnosti i nije nam poznata standardna devijacija populacije.

Kad započnemo analizu, uvijek prvo provjeravamo mogućnosti provedbe parametrijskih testova - z-test, pa t-test i ANOVA, a tek onda, ako pretpostavke nisu zadovoljene, koristimo neparametrijske varijante. Zašto je to tako?

Parametrijski testovi se preferiraju jer, kad su njihove pretpostavke zadovoljene, omogućuju (Conover, 1999; Hollander i sur., 2013):

  • Veću snagu testa: Parametrijski testovi koriste sve informacije iz podataka (npr. stvarne vrijednosti umjesto rangova), što rezultira većom preciznošću i manjom vjerojatnošću pogreške tipa II.

Snaga testa označava vjerojatnost da će statistički test ispravno odbaciti nul hipotezu kad je ona lažna. Drugim riječima, to je sposobnost testa da prepozna razliku ili učinak ako on stvarno postoji. Statistička snaga je definirana kao \(1−β\), gdje je \(β\) vjerojatnost pogreške tipa II.

Statistička snaga ovisi o nekoliko čimbenika:

  • Veći uzorak povećava snagu testa.
  • Veći efekt (razlika između skupina ili odstupanje od očekivane vrijednosti) povećava snagu.
  • Manja varijabilnost podataka (manje šuma) povećava snagu testa.
  • Postavljanje niže razine značajnosti (npr. 0.05 umjesto 0.01) može povećati snagu, ali povećava i rizik od pogreške tipa I.
  • Preciznije procjene: Omogućuju direktno testiranje populacijskih parametara (kao što su prosjek i varijanca), što pomaže u formuliranju preciznijih zaključaka i interpretaciji rezultata u kontekstu teorije.

  • Manje podataka potrebnih za istu snagu testa: Kad su pretpostavke zadovoljene, parametrijski testovi mogu pružiti pouzdane rezultate čak i sa manjim uzorcima, dok neparametrijski testovi obično zahtijevaju veće uzorke da bi postigli istu razinu snage.

  • Specifičnost u testiranju teorijskih modela: Budući da parametrijski testovi koriste konkretne parametre, oni su bolje usklađeni s teorijski postavljenim hipotezama, što olakšava interpretaciju rezultata u kontekstu prethodno definiranih očekivanja.

Kako biste bolje razumjeli ove tvrdnje, možete se poigrati odnosima \(\alpha\), \(\beta\), veličine uzorka i odabira testa koristeći online kalkulatore snage testa i veličine uzorka.

Zbog ovih raloga, kad započnemo analizu, prvo provjeravamo mogućnost primjene parametrijskih testova (npr. z-test, t-test, ANOVA) jer oni nude preciznije, moćnije i efikasnije metode testiranja hipoteza. Tek ako se utvrdi da pretpostavke (npr. normalnost i homogenost varijanci) nisu zadovoljene, prelazimo na neparametrijske testove kao alternativu, iako oni, zbog rangiranja podataka, obično imaju nižu statističku snagu.


Z-test je definiran kao test koji pretpostavlja da je standardna devijacija populacije poznata. Ovo dolazi iz povijesnog razvoja statističkih metoda, gdje je z-test primarno razvijen za situacije kad imamo čvrste informacije o populaciji, primjerice u proizvodnim procesima ili kad se radi s velikim, dobro poznatim populacijama. Na taj način, z-test omogućuje precizne proračune jer ne uključuje dodatnu varijabilnost koja nastaje procjenom standardne devijacije na temelju uzorka.

Sljedeći po redu je Studentov test. Studentov t-test je prikladniji jer:

  • Ne zahtijeva poznavanje standardne devijacije populacije.
  • Prilagođen je za analizu uzorka veličine \(n\), uz pretpostavku da podaci dolaze iz normalne distribucije.

U stvarnim uvjetima, standardna devijacija populacije (σ) rijetko je poznata. Umjesto toga, istraživači koriste standardnu devijaciju uzorka (s) kao procjenu. kad se koristi s, uvodi se dodatna neizvjesnost, jer s samo približno opisuje σ, posebno kod manjih uzoraka. To zahtijeva prilagodbu u distribuciji testne statistike, čime nastaje t-distribucija. Formula za t-testnu statistiku je:

\[t=\frac{\bar{x}-μ}{s/\sqrt{n}}=\frac{x ̅-μ}{s_\bar{x}} \]

Izraz za testovnu veličinu praktično je isti kao za z-test (izuzev korištenja standardne devijacije uzorka), ali je razlika u utvrđivanju koeficijenta značajnosti, \(t_{α/2}\) ili \(t_α\). Koeficijent značajnosti i dalje određuje granice područja odbacivanja za određenu razinu značajnosti (\(α\)). Prvo definiramo razinu značajnosti (\(α\)), koja obično iznosi \(α=0.05\) ili \(α=0.01\).

Kao i kod z-testa, za dvosmjerni test, podijelit ćemo α na dva dijela, jer nas zanimaju rubna područja s obje strane distribucije, \(α/2\), dok za jednosmjerni test, koristimo cijelu \(α\) na jednom kraku distribucije za određivanje koeficijenta značajnosti. Ali, koeficijent značajnosti tražimo pomoću Studentove distribucije.

Studentova t-distribucija je definirana pomoću omjera dviju nezavisnih slučajnih varijabli:

  • Brojnik: Standardizirana normalna slučajna varijabla (\(Z\)), koja se ravna prema distribuciji \(Z(0,1)\)
  • Nazivnik: Korijen kvocijenta slučajne varijable \(χ^2\) i k stupnjeva slobode .

Izraz za t-distribuciju:

\[t= \frac{Z}{\sqrt{χ^2/k}}\]

gdje:

\(Z \sim N(0,1)\) – standardizirana normalna distribucija s prosjekom 0 i standardnom devijacijom 1, \(χ^2 \sim χ_k^2\) - Hi-kvadrat distribucija s k stupnjeva slobode.

Dakle, osim \(α\), potrebni su nam i stupnjevi slobode. Za t-test, stupnjevi slobode se izračunavaju kao:

\(df=n-1\),

gdje je \(n\) veličina uzorka.

Stupnjevi slobode određuju oblik t-distribucije, koja se mijenja ovisno o veličini uzorka. Manji uzorci rezultiraju širim krakovima distribucije, a veći uzorci približavaju t-distribuciju normalnoj distribuciji.

T-distribucija ima ‘teže’ krakove od normalne distribucije (spljoštenija je/ zaobljenija), što odražava dodatnu neizvjesnost u procjeni σ pomoću s. Kako uzorak raste (\(n \rightarrow ∞\)), t-distribucija konvergira prema normalnoj distribuciji jer procjena s postaje sve preciznija (ali i dalje vrijede pravila Studentove distribucije). Koeficijent značajnosti, \(t_{α/2}=\pm 1,965\), vrlo je blizu koeficijentu \(z_{α/2}\). Ovo svojstvo možete provjeriti koristeći Geogebru prema uputama iz prošlog štiva.

\[t=\frac{\bar{x}- \mu_o}{s_\bar{x}} = \frac{124,49-120}{22,5696/ \sqrt{800}} = \frac{4,49}{0,7989}=5,62\]

U ovom slučaju, izračunata testna veličina je \(t=5.62\) i nalazi se u području odbacivanja nul hipoteze (bijelo obojana površina pod krivuljom).


Iako je ovo poslužilo za ilustraciju provedbe t-testa i utvrđivanje vezanog koeficijenta značajnosti, s obzirom da je narušena pretpostavka normalnosti podataka, ni Studentov test ovdje nije primjeren odabir. S obzirom da smo provjerili dostupne parametrijske varijante prikladne za testiranje jednog uzorka, prelazimo na neparametrijske testove.


Preostaje provjeriti još Wilcoxon Signed Rank test, koji je neparametrijska alternativa t-testu za jedan uzorak. Wilcoxon Signed Rank test ne zahtijeva pretpostavku o normalnosti podataka jer se temelji na rangiranju vrijednosti, a ne na njihovim apsolutnim vrijednostima. Test procjenjuje razliku između medijana uzorka i hipotetske vrijednosti.

Ovaj test je osobito prikladan za:

  • Kvantitativne podatke koji nisu normalno distribuirani.

  • Uzorke kod kojih želimo testirati medijan, umjesto aritmetičke sredine.

Hipoteze za Wilcoxonov test:

Nul hipoteza: Medijan razlika broja otkucaja srca u minuti od pretpostavljene vrijednosti (120), jednak je nuli

\[H_0…D=0\]

Alternativna hipoteza: Medijan razlika broja otkucaja srca u minuti od pretpostavljene vrijednosti (120), različit je od nule

\[H_1…D≠0\]

Općenitije postavljene statističke hipoteze Wilcoxonovog signed rank testa glase:

Nul hipoteza: Medijan razlika (D) od pretpostavljene vrijednosti (ili između uparenih vrijednosti) je jednak nuli.

\[H_0…D=0\]

Alternativna hipoteza: Medijan razlika (D) od pretpostavljene vrijednosti (ili između uparenih vrijednosti) nije jednak nuli.

\[H_1…D ≠0\]

Potom se izračunavaju se razlike između svakog para opažanja, odnosno, u ovom slučaju: vrijednosti opažanja iz uzorka i referentne vrijednosti:

\[D_i=x_i-μ_0\]

pri čemu je u našem slučaju \(μ_0=120\).

U sljedećem koraku se rangiraju apsolutne vrijednosti razlika (\(|D_i |\)) od najmanje do najveće. Nakon toga se rangovima dodjeljuju znakovi iz izvornih razlika:

  • Ako je razlika (\(D_i>0\)), rang dobiva pozitivan znak.

  • Ako je razlika (\(D_i<0\)), rang dobiva negativan znak.

Testna veličina, W, je suma pozitivnih rangova (ili suma negativnih rangova, ovisno o softveru):

\(W=∑\text{Pozitivni rangovi}\).

Za male uzorke, koeficijent značajnosti iščitava se iz Wilcoxonove tablice i ovisi o veličini uzorka (\(n\)) i razini značajnosti (\(α\)). Za velike uzorke, koristi se aproksimacija pomoću normalne distribucije, a isto vrijedi i za izračun testne veličine. Odlučivanje o \(H_0\) funkcionira na isti način kao i za ostale testove - ako W prelazi apsolutnu vrijednost koeficijenta značajnosti, odbacuje se \(H_0\).

Izvor: https://www.statology.org/wilcoxon-signed-rank-test-critical-values-table/

Dakle, ako je uzorak maleni, na primjer, \(n=20\) i \(α=0.05\), koeficijent značajnosti bio bi \(W_{α/2}=45\). Za male uzorke se koristi tablica s kritičnim vrijednostima W na njihovoj originalnoj skali. Na toj skali, kritične vrijednosti rastu s veličinom uzorka.

U praksi ne postoji apsolutno strogi prag kad se s tabličnih vrijednosti prelazi na aproksimaciju standardiziranom normalnom distribucijom, ali se često prihvaća da se aproksimacija (tj. standardizacija Wilcoxonove testne statistike) počinje koristiti kada je broj parova s nenultim razlikama veći od 20. Neki autori navode prag već kod \(n \geq 10\), no u većini slučajeva, da bi se osigurala adekvatna preciznost, koristi se prag oko 20-25 opažanja. Statistički softveri obično prelaze na normalnu aproksimaciju kad broj relevantnih parova premaši taj prag.

Za velike uzorke se očekuje da će taj prag biti premašen, pa Wilcoxon Signed Rank test prelazi na aproksimaciju normalnom distribucijom, a to se temelji na centralnom graničnom teoremu, koji kaže da se distribucija suma (ili razlika) rangova približava normalnoj distribuciji s povećanjem uzorka. U ovom slučaju bi za \(α=0.05\) koeficijent značajnosti iznosio \(W_{α/2}=±1.96\).

Testna veličina W se standardizira korištenjem očekivanog prosjeka (\(μ_W\)) i standardne devijacije (\(σ_W\)) testne statistike pod \(H_0\):

\[z=\frac{W-μ_W}{σ_W}\]

Gdje su:

  • \(μ_W=\frac{n(n+1)}{4}\)

  • \(σ_W=\sqrt{\frac{n(n+1)(2n+1)}{24})}\).

Dakle, za male uzorke, distribucija testne statistike W temelji se na svojstvima rangova, a za velike uzorke, aproksimacija normalnom distribucijom omogućuje jednostavniju primjenu testa i izračun p-vrijednosti.

Budući da je p-vrijednost manja od razine značajnosti (\(α=0.05\)), odbacujemo nul hipotezu. To znači da je medijan broja otkucaja srca u ovom uzorku značajno različit od 120. Efekt veličina (\(d=0.1924\)) ukazuje na mali efekt prema Cohenovim kriterijima za Wilcoxonov test. Iako je statistički značajan, efekt nije jako izražen, što ukazuje na to da razlika do 120 možda nije praktično značajna.

Za ovakve situacije, Wilcoxonov test pruža pouzdanu alternativu t-testu, omogućujući istraživaču da donese zaključke o uzorku bez oslanjanja na pretpostavke o distribuciji podataka. U ovom primjeru, na temelju rezultata Wilcoxonovog testa, možemo zaključiti da je medijalni broj otkucaja srca različit od 120.

Dakle, da rezimiramo – započeli smo s hipotezom da je prosječan broj otkucaja srca jednak 120 otkucaja u minuti. Ilustrativno su prikazani postupci za z-test i t-test, a potom Wilcoxonov test. S obzirom da sad znamo pretpostavke, odnosno uvjete koji moraju biti zadovoljeni za provedbu svakog testa, odmah bismo odabrali samo Wilcoxonov test.


Imaju li ljudi prosječno manje od 120 otkucaja srca u minuti?

Hipoteza može glasiti i da je:

\[H_0… μ≥120\] \[H_1…μ<120\]

I u ovom slučaju, morali bismo preformulirati hipotezu za korištenje Wilcoxonovog Signed Rank testa, pa bismo u nul hipotezi pretpostavili da je medijan razlika od pretpostavljene vrijednosti veći od nule:

\[H_0… D≥0\]

\[H_1…D<0\]

Glavna razlika je u tome, što će za provođenje jednosmjernog testa, čitava razina značajnosti biti smještena na jednu stranu, i to na onu stranu koju vezujemo uz alternativnu hipotezu. Koeficijent značajnosti dijeli distribuciju vjerojatnosti na raspon u kojem se \(H_0\) ne odbacuje i raspon u kojem se \(H_0\) odbacuje. Ovdje će se raditi o samo jednoj vrijednosti (neće biti \(\pm\) kao kod dvosmjernog testa).

U ovom slučaju će koeficijent značajnosti (s obzirom da je u pitanju veliki uzorak) biti \(z_α \approx t_α \approx W_α \approx -1.645\). Dakle, iako je standardizirana normalna distribucija izvorno vezana uz provođenje z-testa, vidimo da se ona koristi za aproksimaciju koeficijenta značajnosti i u drugim testovima, ako radimo s velikim uzorcima.

Temeljem rezultata provedenih testova putem JASPa, možemo uočiti da na razini značajnosti 5% ne možemo odbaciti \(H_0\). To iščitavamo iz stupca ‘p’, u kojem je navedena p-vrijednost. Uz Wilcoxonov test, stoji \(p=1\), što znači da postoji vjerojatnost od približno 100% da bismo učinili pogrešku ako odbacimo \(H_0\). S obzirom da ne želimo napraviti takvu pogrešku i da je razina pogreške koju smo na početku odabrali \(α=5 \%\), donosimo odluku ne odbaciti nul hipotezu. Temeljem toga, zaključujemo da nismo prikupili dovoljno dokaza u korist odbacivanja \(H_0\).

Tablica 6. Rezultati jednosmjernih testova na donju granicu

Test Statistic df p Effect Size SE Effect Size
Student 5.6201 799 1 0.1987 0.0357
Wilcoxon 186278.5 1 0.1924 0.0410
Z 5.6203 1 0.1987 0.0357

Note. For the Student t-test and Z-test, the alternative hypothesis specifies that the mean is less than 120. For the Wilcoxon test, the alternative hypothesis specifies that the median is less than 120. For the Student t-test, effect size is given by Cohen’s d. For the Wilcoxon test, effect size is given by the matched rank biserial correlation. For the Z test, effect size is given by Cohen’s d (based on the provided population standard deviation).

Imaju li ljudi prosječno više od 120 otkucaja srca u minuti?

Alternativno, može se dogoditi i da nas zanima obrnuta situacija i u nul hipotezi pretpostavljamo da je prosječan broj otkucaja srca manji od 120. Odnosno, u Wilcoxonovom testu, pretpostavljamo da je medijan razlika rangova manji od nule.

\[H_0… μ≤120\]

\[H_1…μ>120\]

Odnosno,

\[H_0… D≤0\]

\[H_1…D>0\]

Testna veličina je i dalje ista, jer računamo razlike od istih vrijednosti, ali se područje odbacivanja i neodbacivanja mijenja, pa se sad nalazi u području odbacivanja nul hipoteze. To vidimo i u p-vrijednosti, koja sad iznosi \(p<0.001\). To znači da vjerojatnost da ćemo učiniti pogrešku ako odbacimo nul hipotezu iznosi manje od 0,1%. Na razini značajnosti 5% donosimo odluku o odbacivanju nul hipoteze. Zaključujemo da je medijalni broj otkucaja srca u minuti veći od 120.

U ovom slučaju, nul hipoteza je odbačena, ali imamo i jasan ‘smjer’ zaključivanja. Ako smo \(H_0\) odbacili, možemo smisleno zaključivati o onom što preostaje.



Ovdje su se spominjali Cohenovi kriteriji, pa ćemo se još kratko pozabaviti time. Cohenovi kriteriji odnose se na procjenu veličine učinka (effect size) u statističkim analizama. Razvio ih je Jacob Cohen i koriste se za standardiziranu interpretaciju veličine učinka u različitim kontekstima, poput t-testova, korelacija i ANOVA testova.

Cohenovi kriteriji pružaju smjernice za interpretaciju veličine učinka kako bi se kvantitativno izrazila praktična ili znanstvena značajnost rezultata, neovisno o veličini uzorka. Veličina učinka pokazuje koliko je jaka razlika, povezanost ili učinak, iako ne određuje je li rezultat statistički značajan. Cohen je definirao pragove za tri razine veličine učinka: mali, srednji i veliki. Ovi pragovi nisu apsolutni, već smjernice koje ovise o kontekstu istraživanja.

Cohenov d mjeri standardiziranu razliku između prosjeka dviju grupa. Izračunava se kao razlika u prosjecima podijeljena standardnom devijacijom:

\[d=\frac{\bar{x}_1-\bar{x}_2}{s}\]

gdje je \(s\) standardna devijacija (najčešće kombinirana).

Kriteriji:

  • \(d \approx 0.2 \rightarrow\) Mali učinak

  • \(d \approx 0.5 \rightarrow\) Srednji učinak

  • \(d \approx 0.8 \rightarrow\) Veliki učinak

Slično, postoji \(η^2\) (eta – kvadrat), koja mjeri postotak varijabilnosti u zavisnoj varijabli koji se može objasniti nekom nezavisnom varijablom i češće se koristi za ANOVA testove (više o tim testovima kasnije).

Kriteriji:

  • \(\eta \approx 0.01 \rightarrow\) Mali učinak

  • \(\eta \approx 0.06 \rightarrow\) Srednji učinak

  • \(\eta \approx 0.14 \rightarrow\) Veliki učinak

Također, postoji Wilcoxon Rank biserial korelacija, koja je neparametrijska alternativa Cohenovom d i koristi se kod Wilcoxonovih testova.

  • \(r \approx 0.1 \rightarrow\) Mali učinak

  • \(r \approx 0.3 \rightarrow\) Srednji učinak

  • \(r \approx 0.5 \rightarrow\) Veliki učinak

Efekti se prema veličini mogu interpretirati na sljedeći način:

  • Mali učinak – efekti koje bi bilo teško primijetiti u stvarnom životu, ali će vjerojatno biti statistički značajni u velikim uzorcima.

  • Srednji učinak – efekti se mogu primijetiti u stvarnosti bez obzira na veličinu uzorka.

  • Veliki učinak – očigledni efekti u stvarnosti, koji su praktično važni.

Ovi kriteriji omogućuju istraživačima interpretaciju koja nije usmjerena samo na statističku značajnost, nego i na praktičnu važnost rezultata. Iako nisu univerzalno primjenjivi na svaku situaciju, Cohenovi kriteriji su općenito prihvaćeni kao smjernice u istraživačkom radu.



Dodatna napomena po pitanju korištenja pojma značajnost.


Značajno u općem smislu riječi znači da nešto ima važnost ili utjecaj u stvarnom životu. Također, može značiti da je čin, promjena ili razlika dovoljno velika da bude primjetna i korisna u praksi.

Statistički značajno znači da je, na temelju statističkog testa, utvrđeno da je razlika ili veza između varijabli malo vjerojatno nastala slučajno. Do takvog se zaključka dolazi kad je p-vrijednost manja od odabrane razine značajnosti.

Praktično značajno znači da su utvrđeni efekti toliko izraženi da će biti vidljiva njihova praktična uloga. Do takvog se zaključka dolazi se pomoću Cohenovog d-a ili sličnih mjera efekata.


Primjer: Recimo da vam netko pokloni čokoladu. Osobno, to vam može biti vrlo značajno – možda vam popravlja raspoloženje ili vam daje do znanja da vas netko cijeni. Međutim, ako bismo proučavali efekte na raspoloženje poklanjanja čokolade u velikom uzorku ljudi, mogli bismo otkriti da se takvi događaji javljaju vrlo često ili vrlo rijetko, ili s vrlo velikom ili malom veličinom efekta. Temeljem statističke analize, mogli bismo saznati, na primjer:

  • Rezultat testa pokazuje \(p<0.05\), što znači da je vjerojatnost da je učinak (npr. promjena u raspoloženju zbog čokolade) nastao slučajno vrlo mala. Onda bi to bilo i statistički značajno.
  • Istovremeno, efekt veličine može biti vrlo mali, recimo \(d=0.1\), što ukazuje da, iako je rezultat statistički značajan, promjena u raspoloženju nije dovoljno velika ili dugotrajna da bi imala stvarnu, praktičnu važnost.

Dakle, dok je za vas poklon čokolade osobno značajan, u statističkoj analizi takav mali efekt možda neće biti praktično važan – to je primjer kako nešto može biti značajno u osobnom smislu, ali ne nužno statistički ili praktično značajno (i obrnuto).

Važno je napomenuti da:

  • Rezultat može biti statistički značajan, ali ako je veličina efekta vrlo mala, praktična važnost može biti zanemariva.
  • S druge strane, nešto što je praktično značajno (ili se čini praktično značajnim) može, zbog ograničenog uzorka ili velike varijabilnosti, dati statistički neznatan rezultat.


Dakle, statistička značajnost pokazuje da rezultati nisu posljedica slučajnosti, dok praktična značajnost govori o stvarnom utjecaju ili važnosti tog rezultata u kontekstu primjene. Zbog toga se pri tumačenju temeljem p-vrijednosti preferira koristiti termin statistički značajno kako bi se izbjegle nedoumice oko značenja i pogrešne interpretacije. Pri tumačenju Cohenovog d, koristi se termin praktična značajnost rezultata.

Dva nezavisna uzorka

Jesi li prosjeci otkucaja srca jednaki u dvije skupine?

Prelazimo na sljedeću skupinu testova koji će se baviti usporedbom dva nezavisna uzorka. Ako isti niz podataka o otkucajima srca o minuti, koji smo do sad tretirali kao jedan uzorak, podijelimo na skupinu sa sjedećim načinom života i skupinu trkača, zašto to sad smiju biti dva nezavisna uzorka? Podaci o otkucajima srca zapravo su prikupljeni iz dviju različitih skupina ispitanika: kontrolne skupine (osobe sa sjedilačkim načinom života) i trkača (osobe s visokim stupnjem fizičke aktivnosti). Ove dvije skupine su jasno definirane i međusobno se ne preklapaju. Osobe iz kontrolne skupine nemaju zajedničke karakteristike s trkačima u smislu tjelesne aktivnosti, osim eventualnih demografskih sličnosti. Budući da je svaka osoba u uzorku član isključivo jedne skupine, a skupine su neovisne jedna o drugoj (trkači ne trče zbog toga što ovi drugi sjede ili obrnuto), podaci se mogu tretirati kao dva nezavisna uzorka.

Za usporedbu dviju skupina, potrebno je definirati statističke hipoteze:

Nul hipoteza: Ne postoji razlika u prosječnom broju otkucaja srca između kontrolne skupine i trkača.

\[H_0… μ_{kontrolna}= μ_{trkači}\]

Alternativna hipoteza: Postoji razlika u prosječnom broju otkucaja srca između kontrolne skupine i trkača.

\[H_1… μ_{kontrolna}≠ μ_{trkači}\]

No, slično kao i za testove koje provodimo na jednom uzorku, odabir testova koje provodimo na dva uzorka ovisit će o tome jesu li zadovoljene određene pretpostavke.

Kao i ranije, tu je pretpostavka o normalnosti podataka, no ovdje se ona testira zasebno za svaku skupinu. Kontrolna skupina ima izračunate vrijednosti W=0.9973 i p=0.7723, što upućuje na to da ne možemo odbaciti pretpostavku da je distribucija približno normalno distribuirana. Nama to otvara mogućnost korištenja parametrijskih testova.

U skupini trkača, izračunate su veličine W=0.989 i p=0.0041, što znači da postoji statistički značajna razlika između distribucije otkucaja srca trkača i normalne distribucije, pa ne možemo nastaviti s pretpostavkom normalne distribucije. Iz ovoga zaključujemo da je pretpostavka normalnosti zadovoljena za kontrolnu skupinu, ali nije za trkače.

Tablica 7. Shapiro-wilkov test normalnosti podataka

W p
Heart Rate (Control) 0.9973 0.7723
Heart Rate (Runners) 0.9890 0.0041

Note. Significant results suggest a deviation from normality.

Sljedeći test ispituje postoji li razlika u varijancama dviju skupina. U nul hipotezi zapisana je homogenost varijanci (tj. varijance su jednake), dok alternativna hipoteza tvrdi da su različite.

Tablica 8. Brown-Forsythe test jednakosti varijanci

F df1 df2 p
Heart Rate 13.2383 1 798 < .001

Homogenost varijanci je pretpostavka za određene parametrijske testove, kao što su Studentov t-test za nezavisne uzorke, jednosmjerna ANOVA, dvosmjerna ANOVA i druge. Naime, jednakost varijanci među grupama osigurava pouzdanost procjena testne statistike. kad ta pretpostavka nije ispunjena, rezultati testova mogu biti nepouzdani, što može dovesti do pogrešnih zaključaka.

Tako kršenje pretpostavke homogenosti varijanci može povećati vjerojatnost pogreške tipa I, odnosno donošenja zaključka da postoji statistički značajna razlika kad je zapravo nema. Na primjer, kod Studentovog t-testa za nezavisne uzorke, razlike u varijancama između dviju grupa mogu favorizirati jednu grupu, čime se umjetno ‘povećava’ statistička značajnost.

Također, može doći i do povećanja vjerojatnosti pogreške tipa II, gdje test ne uspijeva detektirati stvarne razlike među grupama zbog velikih i neujednačenih varijacija u podacima. Ovo se događa jer nejednake varijance narušavaju preciznost procjene testne statistike, smanjujući snagu testa.

Jedan od problema koji se osobito javlja kod testova poput ANOVE je to što testna veličina (F-statistika) postaje nepouzdana ako su varijance među grupama nejednake, što može rezultirati ili lažno pozitivnim zaključcima ili nemogućnošću otkrivanja stvarnih razlika.

Kada su varijance nejednake, jedan od pristupa je korištenje testova koji ne pretpostavljaju homogenost varijanci. Primjerice, Welchov t-test i Welchova ANOVA dizajnirani su tako da se mogu primijeniti kad varijance među grupama nisu jednake. Ovi testovi prilagođavaju procjene varijabilnosti kako bi rezultati ostali pouzdani. Dodatno, neparametrijski testovi poput Mann-Whitney U testa za dvije grupe ili Kruskal-Wallis testa za više grupa ne oslanjaju se na pretpostavke o homogenosti varijanci, što ih čini robusnijim u takvim situacijama.

Druga strategija za rješavanje problema nejednakih varijanci uključuje transformaciju podataka. Transformacije, poput logaritmiranja ili korjenovanja, često mogu smanjiti razlike u varijancama između grupa. Međutim, takve transformacije mogu promijeniti interpretaciju rezultata, pa je potrebno pažljivo razmotriti njihovu primjenu. Ovo spada u naprednije teme, pa se ovdje nećemo time baviti.


Dakle, umjesto da se nastavi s neprikladnim testovima, trebali bismo razmotriti alternativne metode poput Welchovih testova ili Mann-Whitney U testa. Mi ćemo ipak to namjerno prekršiti za potrebe primjera, kako bi se prikazao postupak za sve testove. Rezultati testova usporedbi dviju grupa prikazani su tablicom. Primjetite i to, da će softveri izračunati i pružiti rezultate onih testova koje zatražite, neovisno o tome jesu li pretpostavke ispoštovane. Dakle, odabir testa je i dalje naš posao.


Tablica 9. Rezultati testiranja razlika u broju otkucaja srca između skupina

Test Statistic df p Effect Size SE Effect Size
Student 23.6871 798 < .001 1.6749 0.0922
Welch 23.6871 768.4229 < .001 1.6749 0.0922
Mann-Whitney 140747 < .001 0.7593 0.0408

Note. For the Student t-test and Welch t-test, effect size is given by Cohen’s d. For the Mann-Whitney test, effect size is given by the rank biserial correlation.

Prvo razmatramo Studentov t-test, koji pretpostavlja homogenost varijanci i normalnu distribuciju podataka. Za provedbu Studentovog testa, hipoteze bi glasile:

\[H_o… μ_{kontrolna}= μ_{trkači}\]

\[H_1… μ_{kontrolna}≠ μ_{trkači}\]

Ponovimo, kako se radi o dvosmjernom testu, razina značajnosti je podijeljena i smještena na rubne dijelove krakova distribucije. Na prvom grafu, plava površina obuhvaća 0.95 (područje neodbacivanja \(H_0\)), dok je po 0.025 smješteno na rubnim dijelovima krakova (područja odbacivanja \(H_0\); razina značajnosti \(α=0.05\)). Koeficijent značajnosti je \(\pm 1.96\). Na drugom grafu, plava površina obuhvaća 0.99 (područje odbacivanja \(H_0\)), dok je razina značajnosti \(α=0.01\) podijeljena i 0.005 smješteno je na rubne dijelove krakova distribucije (područja odbacivanja \(H_0\)) uz koeficijent značajnosti od \(\pm 2.58\).

t-test izračunava se kao:

\[t=\frac{(\bar{x}_1-\bar{x}_2)}{\sqrt{s^2 (\frac{1}{n_1} +\frac{1}{n_2})}}\]

ili \[t=\frac{x ̅_1-x ̅_2}{s \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\]

Gdje su:

  • \(\bar{x}_1\) i \(\bar{x}_2\) prosjeci dvaju uzoraka
  • \(n_1\) i \(n_2\) su veličine prvog i drugog uzorka
  • \(s^2\) je zajednička (engl. pooled) varijanca temeljem varijanci uzorka \(s_1^2\) i \(s_2^2\), koja se izračunava kao:

\[s^2=\frac{(n_1-1) s_1^2+(n_2-1) s_2^2}{n_1+n_2-2}\]

A pritom se koriste ukupni stupnjevi slobode:

\[df=n_1 +n_2 -2\]

Dakle, upravo zbog pretpostavke o jednakosti varijanci, Studentov test koristi zajedničku varijancu za izračun standardne pogreške. Zbog takvog izračuna, ovaj test se naziva i Pooled t-test.

Rezultati ukazuju na statističku značajnost razlike između dvije grupe (t = 23.6871, df = 798, p < 0.001). Dakle, kad bismo na bilo kojoj od ovih distribucija naznačili t = 23.6871, vidimo da bi se ta testna veličina nalazila daleko u području odbacivanja nul hipoteze. Veličina učinka, izražena Cohenovim d, iznosi 1.6749, što ukazuje na veliki efekt prema Cohenovim kriterijima. Međutim, s obzirom na narušenu pretpostavku homogenosti varijanci (kao što je utvrđeno Brown-Forsythe testom), interpretacija ovog testa je ograničena i nepouzdana.


Welchov test je prilagođen situacijama gdje varijance među grupama nisu jednake. Pretpostavlja se da su podaci unutar svake grupe približno normalno distribuirani. Međutim, test je relativno robustan na manja odstupanja od normalnosti, osobito kod većih uzoraka (n > 30 po grupi), zahvaljujući centralnom graničnom teoremu.

Hipoteze su formulirane na isti način kao za studentov test:

\[H_o… μ_{kontrolna}= μ_{trkači}\] \[H_1… μ_{kontrolna}≠ μ_{trkači}\]

Welchov t-test je zapravo modifikacija klasičnog t-testa za nezavisne uzorke i ta se modifikacija prvenstveno odnosi na način kako se tretira varijanca. Welchov t-test računa se prema izrazu:

\[t= \frac{\bar{x}_1-\bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} +\frac{s_2^2}{n_2}}}\]

Welchov t-test koristi prilagođeni broj stupnjeva slobode df, koji se izračunava na način da uzima u obzir varijabilnost i veličinu uzoraka te rezultira vrijednostima stupnjeva slobode koji nisu cijeli brojevi.

\[ df = \frac{\left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2} {\frac{\left( \frac{s_1^2}{n_1} \right)^2}{n_1 - 1} + \frac{\left( \frac{s_2^2}{n_2} \right)^2}{n_2 - 1}} \]

Rezultati ovog testa su gotovo identični rezultatima Studentovog t-testa (t = 23.6871, df = 768.4229, p < 0.001), ali zbog prilagodbe za nejednake varijance, zaključci izvedeni iz Welchovog testa su pouzdaniji. Veličina učinka ostaje ista (Cohenov d = 1.6749), što ukazuje na snažan učinak razlike između kontrolne skupine i trkača. Ipak, s obzirom na narušenu pretpostavku o normalnosti, ne možemo se pouzdati niti u ove rezultate.


Preostaje još Mann-Whitney U test, neparametrijska alternativa t-testu, koja koristi rangove umjesto apsolutnih vrijednosti podataka, čime eliminira potrebu za pretpostavkama o homogenosti varijanci i normalnosti distribucije.

\[H_0…\text{distribucije dviju grupa su jednake}\] \[H_1…\text{distribucije dviju grupa su različite}\]

U slučaju da se testiraju distribucije koje su sličnog oblika i simetrične, hipoteze se smiju postaviti na sljedeći način:

\[H_0…\text{medijani dviju grupa su jednaki}\] \[H_1…\text{medijani dviju grupa su različiti}\]

Potrebno je provjeriti skewness i kurtosis obje grupe, pri čemu se uobičajeno tolerira skewness od \(\pm 0.5\), a kurtosis mora ukazivati na isti oblik distribucije. Ako distribucije dviju grupa imaju značajno različite skewness ili kurtosis, usporedba medijana postaje manje pouzdana jer Mann-Whitney U test zapravo testira razliku u distribucijama, a ne isključivo medijane.

Postupak izračuna se sastoji od objedinjavanja podataka iz obje grupe, nakon čega se svakom opažanju dodjeljuje rang, od najmanje do najveće vrijednosti. Potom se izračunavaju sume rangova za svaku grupu.

R1: Suma rangova za prvu grupu

R2: Suma rangova za drugu grupu.

Nakon toga se računa testna veličina:

\[U_1=n_1 \cdot n_2+\frac{n_1 (n_1+1)}{2}-R_1\]

\[U_2=n_1 \cdot n_2+\frac{n_1 (n_1+1)}{2}-R_2\]

\[U=min⁡(U_1,U_2)\]

Nakon što su izračunate veličine \(U_1\) i \(U_2\), odabire se manja vrijednost i pristupa se postupku standardizacije:

\[z= \frac{U-μ_U}{σ_U} \]

Gdje su:

  • \(μ_U=\frac{n_1 n_2}{2}\) (tumači se kao očekivana vrijednost U uz pretpostavku \(H_0\))

  • \(σ_U=\sqrt{\frac{n_1 n_2 (n_1+n_2+1)}{12}}\) (standardna devijacija U)

Dobivena testna veličina uspoređuje se s koeficijentom značajnosti (ili se p-vrijednost uspoređuje s razinom značajnosti) i donosi se odluka o nul hipotezi. Rezultat (U = 140747, p < 0.001) također ukazuje na značajnu razliku između grupa, no veličina učinka, izražena Wilcoxon Rank biserial korelacijom (r = 0.7593), pokazuje nešto manju vrijednost od Cohenovog d, iako i dalje ukazuje na velik učinak.


Dva ili više nezavisna uzorka

Postoji li razlika u prosječnom broju otkucaja srca s obzirom na skupine? A postoji li razlika u prosječnom broju otkucaja srca s obzirom na skupine i spol?

Dok je t-test ograničen na usporedbu dviju grupa, ANOVA (engl. ANalysis Of VAriance) i Kruskal-Wallis test omogućuju procjenu varijacija između dvije ili više grupa, čime pružaju širu analitičku perspektivu ako istraživački dizajn uključuje više nezavisnih grupa. Ova skupina testova proširuje mogućnosti analize podataka, omogućujući istraživačima da odgovore na složenija istraživačka pitanja.

ANOVA se često koristi kao sinonim za analizu varijance, iako analiza varijance zapravo podrazumijeva skupinu testova i modela, pri čemu je moguće testirati postoji li razlika između prosjeka ili varijanci više populacija. Dakle, analiza varijance je širi pojam od ANOVE, pa je poželjno ne koristiti ih kao sinonime.

Parametrijski testovi poput ANOVA i Welchove ANOVA fokusiraju se na razlike u prosjecima grupa, pa će prosjeci biti zapisani i u nul hipotezi. Za razliku od testova koji direktno uspoređuju prosjeke, ANOVA uspoređuje odstupanja od prosjeka u grupama. No, krenimo redom.

ANOVA dopušta usporedbu s obzirom na jedan ili dva faktora (nazivaju se još i varijablama tretmana). Faktori su nezavisne kategoričke varijable (kvalitativne, kodirane), a preispituje se njihova uloga u razlikama u zavisnoj varijabli koja mora biti kontinuirana varijabla. Broj modaliteta kategoričke varijable određuje broj grupa za usporedbu prosjeka. U našem slučaju, kvalitativna varijabla (ili faktor) Group ima samo dva modaliteta i temeljem njih uzorak će biti podijeljen na dva podskupa koji će se uspoređivati.

Jednofaktorska analiza (one-way) varijance može se primijeniti pri utvrđivanju, na primjer, postoji li razlika u prosječnom vremenu izrade proizvoda koristeći dvije ili više vrsta strojeva; postoji li razlika u smanjenju simptoma ovisno o korištenju lijeka ili placeba, i slično. Dakle, koristi se jedan faktor (kvalitativna varijabla) koji ima dva ili više modaliteta. Modaliteti predstavljaju karakteristiku kojom se pojedino opažanje pripisuje odgovarajućoj grupi.

Ako je ovdje faktor Group, što zapravo možemo razumjeti kao ‘vježbanje’, koje ima dva modaliteta - osobe koje ne vježbaju i osobe koje vježbaju, onda možemo uočiti da je u pitanju jedan faktor prema čijim modalitetima dijelimo ispitanike (tj. njihove opažene otkucaje srca) u skupinu vježbača i nevježbača.

Potrebno je izračunati aritmetičku sredinu za svaku grupu, a zatim aritmetičku sredinu svih grupa zajedno. Nakon toga izračunavaju se sume kvadrata odstupanja unutar grupa (engl. Within), između grupa (engl. Between) i ukupan zbroj kvadrata odstupanja (total).

\[ SS_W = \sum_{j=1}^{k} \sum_{i=1}^{n_j} (x_{ij} - \bar{x}_j)^2 \]

\[ SS_B = \sum_{j=1}^{k} n_j (\bar{x}_j - \bar{x})^2 \]

\[ SS_T = \sum_{j=1}^{k} \sum_{i=1}^{n_j} (x_{ij} - \bar{x})^2 \]

gdje je i vrijednost zavisne varijable j-te grupe. Pojedini zbroj kvadrata odstupanja dijeli se s pripadnim brojem stupnjeva slobode i na taj se način dobivaju prosječni kvadrati (engl. mean squares) i empirijska F-veličina:

\[ F = \frac{MSB}{MSW} = \frac{SSB / (k-1)}{SSW / (n-k)} \]

F-veličina vezuje se uz teorijsku F-distribuciju. F-distribucija je omjerna distribucija, što znači da je sastavljena od omjera slučajnih varijabli koje se ravnaju prema druge dvije distribucije. Teorijska distribucija određena je stupnjevima slobode oba uzorka, stoga će oblik funkcije gustoće ovisiti o broju opažanja u oba uzorka. Distribucija sadrži pozitivne vrijednosti i pozitivno (desnostrano) je asimetrična za manje vrijednosti stupnjeva slobode. Kako raste broj stupnjeva slobode, distribucija se oblikom sve više približava normalnoj distribuciji.

Varijabilnost unutar grupa (SSW) predstavlja komponentu pogreške, jer se pretpostavlja da predstavlja da, uz pretpostavku da je \(H_0\) istinita, te varijabilnosti mogu biti samo rezultat slučajnosti.

Ako je SSB značajno veći od SSW, to će se očitovati i u testnoj veličini i pripisanoj p-vrijednosti, a nul hipoteza će se odbaciti. Statistička hipoteza glasi:

\[H_0:μ_1=μ_2=⋯μ_j\]

\[H_1:μ_i≠μ_{j^*}\] - za najmanje jedan par \(μ_i,μ_{j^*}\)

Gdje je

  • μ - prosjek skupine
  • k - broj grupa.

Po pitanju normalnosti, kod ANOVA-e se primarno pretpostavlja normalna distribucija reziduala, a ne nužno same zavisne varijable unutar svake kategorije nezavisne varijable. To znači da je glavni fokus na procjeni distribucije reziduala, za što Q-Q plot omogućuje brz i intuitivan način uvida u potencijalna odstupanja.

Dakle, za ispitivanje normalnosti podataka, u ovom slučaju reziduala, možemo koristiti i Q-Q plot. Q-Q plot (quantile-quantile plot) služi za vizualnu procjenu odstupanja distribucije podataka od normalne distribucije. Na ovom grafu, standardizirani reziduali prikazani su na y-osi, dok se na x-osi nalaze kvantili teorijske normalne distribucije. Ako su reziduali normalno distribuirani, točke na grafu trebale bi slijediti pravac koji je označen crvenom linijom.

Na grafu se vidi da većina točaka leži vrlo blizu pravca, što sugerira da su reziduali približno normalno distribuirani. Takav obrazac upućuje na to da pretpostavka o normalnosti reziduala, koja je jedna od pretpostavki za valjanost ANOVA-e, nije narušena. Manja odstupanja (nekoliko odstupanja) od pravca na rubnim dijelovima obično se smatraju prihvatljivima, posebno ako ne utječu značajno na središnji dio distribucije.

Kod ANOVA-e, normalnost zavisne varijable (otkucaji srca) unutar kategorija nije stroga pretpostavka, jer je analiza relativno robusna na umjerena odstupanja od normalnosti ako su veličine grupa jednake i uzorak dovoljno velik. U tom kontekstu, statistički testovi normalnosti, poput Shapiro-Wilk, provedeni na zavisnoj varijabli mogu čak navesti na pogrešan zaključak. Na primjer, u velikim uzorcima čak i mala odstupanja mogu rezultirati statistički značajnim rezultatima, iako ti rezultati praktično ne narušavaju pouzdanost analize, a osim toga, bitna je normalnost reziduala, a ne zavisne varijable. Suprotno tome, kod malih uzoraka ovi testovi često nemaju dovoljno snage da otkriju stvarna odstupanja.

Glavni prioritet kod ANOVA-e je homogenost varijanci između grupa. Ova se pretpostavka ispituje metodama poput Leveneovog testa. Ako je homogenost varijanci narušena, onda su rezultati ANOVA-e manje pouzdani.

Tablica 10. Leveneov test jednakosti varijanci

F df1 df2 p
12.8073 1 798 < .001

Levenov test homogenosti varijanci pretpostavlja da su varijance u dvjema skupinama su jednake. Alternativna hipoteza glasi da varijance u dvjema skupinama nisu jednake. Budući da je p-vrijednost manja od razine značajnosti (\(α=0.05\)), odbacujemo \(H_0\). Zaključujemo da varijance dviju skupina (kontrolne skupine i trkača) nisu jednake.

Ovo znači da je narušena pretpostavka homogenosti varijanci, što ima implikacije na provođenje ANOVA testa, posebno klasične verzije koja pretpostavlja jednake varijance. Iako ne bismo smjeli nastaviti s provođenjem ANOVA testa (osobito klasične ANOVA-e), ponovo ćemo to namjerno prekršiti kako bi se prikazala tumačenja radi ilustracije.


Međutim, i u takvim slučajevima postoje opcije koje omogućuju nastavak analize, a da pritom rezultati ostanu valjani. To uključuje varijante ANOVA-e s korekcijama poput Brown-Forsythe i Welch ANOVA. Brown-Forsythe ANOVA korigira klasičnu ANOVA metodu tako da smanjuje utjecaj nejednakih varijanci među grupama. Fokusira se na srednje apsolutne devijacije (MAD, umjesto standardne devijacije) i bolje funkcionira u situacijama s heterogenim varijancama. To čini rezultate robusnijima u situaciji narušene homogenosti varijanci. Welchova ANOVA još je jedna alternativa koja se često koristi kad su varijance među grupama značajno različite. Za razliku od klasične ANOVA-e, Welchova metoda prilagođava stupnjeve slobode kako bi se kompenzirale nejednake varijance. Ova metoda je također robusna na narušenu pretpostavku homogenosti i često se koristi kad postoje značajne razlike u veličini grupa (npr., jedna grupa ima mnogo više opažanja od druge).


Važno je napomenuti da, iako su ove korekcije korisne, one ne ‘popravljaju’ podatke, već samo prilagođavaju statističke izračune kako bi rezultati bili pouzdaniji. No, ako su varijance među grupama izrazito heterogene, trebali bismo odabrati neparametrijski test, kao što je Kruskal-Wallis test, koji ne zahtijeva pretpostavku homogenosti varijanci.


Tablica 11. Rezultati ANOVA testiranja za Heart rate

Homogeneity Correction Cases Sum of Squares df Mean Square F p η²
None Group 168432.0800 1 168432.0800 561.0797 < .001 0.4128
Residuals 239553.8400 798 300.1928
Brown-Forsythe Group 168432.0800 1 168432.0800 561.0797 < .001 0.4128
Residuals 239553.8400 768.4229 311.7474
Welch Group 168432.0800 1 168432.0800 561.0797 < .001 0.4128
Residuals 239553.8400 768.4229 311.7474

Note. Type III Sum of Squares.


Tablica 12. Kruskal-Wallis test

Factor Statistic df p
Group 345.5941 1 < .001

Rezultate „klasičnog“ ANOVA pristupa iščitavamo iz tablice u recima None (bez korekcije). Rezultat (\(F=561.0797\), \(p<0.001\), \(η^2=0.4128\)) ukazuje na odluku o odbacivanju \(H_0\). Zaključili bismo da postoji statistički značajna razlika u prosječnim otkucajima srca između dviju skupina. \(η^2=0.4128\) ukazuje na veliki efekt (prema Cohenovim kriterijima). To znači da je preko 41% varijabilnosti u broju otkucaja srca objašnjeno pripadnošću grupi (kontrolna ili trkači).

S obzirom na prekršenu pretpostavku homogenosti varijanci (Leveneov test), bolja je opcija koristiti korektivne modele ANOVA.

Brown-Forsythe ANOVA koristi modifikaciju varijance kako bi bila manje osjetljiva na heterogenost varijanci, a hipoteza ostaje ista. Rezultat (\(F=561.0797\), \(p<0.001\)) upućuje na to da zaključak ostaje isti – statistički značajna razlika između skupina.

Welchova ANOVA ne oslanja se na pretpostavku homogenosti varijanci i koristi ponderirane prosjeke. Rezultat (\(F=561.0797\), \(p<0.001\)) opet upućuje na isti zaključak – statistički značajna razlika između skupina.

Dakle, korekcije su osigurale pouzdanost rezultata unatoč narušenoj pretpostavci homogenosti varijanci. Razlika između skupina ostaje statistički značajna. Ipak, nemamo normalno distribuirana opažanja o obje grupe, što znači da trebamo isprobati neparametrijske testove.

Kruskal-Wallis test je neparametrijska alternativa ANOVA testu, prikladna za usporedbu više grupa bez pretpostavki o normalnosti i homogenosti varijanci, jer koristi rangove podataka umjesto stvarnih vrijednosti. Kad se Kruskal–Wallis test koristi za usporedbu medijana među grupama, implicitno se pretpostavlja da su oblici distribucija u svim grupama slični (tj. da bi se uspoređivali medijani, oblici distribucija grupa moraju biti slični). Ako su distribucije sličnog oblika, tada razlike u rangovima prvenstveno odražavaju razlike u medijanima. Međutim, ako distribucije značajno odstupaju u obliku ili rasponu, tada test zapravo uspoređuje cjelokupnu distribuciju, a ne nužno samo medijane.

Hipoteze glase:

\[H_0 : \text{Distribucije broja otkucaja srca u grupama su jednake.}\]

\[H_1 : \text{Distribucije broja otkucaja srca u grupama su različite.}\]

Testna veličina za Kruskal-Wallis test temelji se na rangovima podataka i izračunava se prema sljedećoj formuli:

\[H=\frac{12}{N(N+1)} ∑_{i=1}^k \frac{R_i^2}{n_i} -3(N-1)\]

Gdje je:

\(N\) – ukupan broj opažanja (suma svih veličina grupa).

\(k\) – broj grupa koje se uspoređuju.

\(R_i\) – ukupna suma rangova za i-tu grupu.

\(n_i\) – broj opažanja u i-toj grupi.

Pri izračunu, prvo se objedinjavaju podaci obje grupe, poredaju po veličini i rangiraju. Potom se računa suma rangova za svaku grupu, \(R_i\), a nakon toga slijedi uvrštavanje u prikazanu formulu. Ako postoje podaci s istim vrijednostima, koriste se tzv. povezani rangovi (engl. tied ranks). Korekcija za vezane rangove izračunava se prema faktoru:

\[T=1- \frac{∑(t_j^3-t_j)}{N^3-N}\]

Gdje je \(t_j\) broj vezanih opažanja za \(j\)-tu grupu vezanih rangova. Korekcija se primjenjuje množenjem izračunate testne veličine H s T kako bi se dobila prilagođena testna vrijednost.

\[H_{adjusted}=H \cdot T\]

Rezultat (\(χ^2=345.5941\), \(df=1\), \(p<0.001\)) upućuje na odbacivanje \(H_0\). Zaključujemo da distribucije broja otkucaja srca između kontrolne skupine i trkača nisu jednake. Kruskal-Wallis test potvrđuje razliku između skupina, ali ne pruža specifične informacije o veličini ili smjeru razlika (kao što to čini \(η2\) u ANOVA testu).


Kruskal-Wallis vs. ANOVA

Podaci:

  • ANOVA zahtijeva kvantitativne podatke (na intervalnoj ili omjernoj skali), dok Kruskal-Wallis može raditi i s podacima mjerenim na ordinalnoj razini.
  • Neparametrijski testovi koriste rangove podataka, eliminirajući izraziti utjecaj ekstremnih vrijednosti.

Pretpostavke:

  • ANOVA pretpostavlja normalnost distribucije unutar grupa i homogenost varijanci. Kruskal-Wallis ne zahtijeva ove pretpostavke, ali za pretpostavku o jednakostima medijana pretpostavlja da su oblici distribucija u grupama slični (u suprotnom, uspoređuje cjelovite distribucije).

Zaključci:

  • ANOVA testira razlike u prosjecima, dok Kruskal-Wallis testira razlike u distribucijama ili medijanima.
  • ANOVA omogućuje izračun veličine efekta (η^2) za procjenu praktične značajnosti, dok Kruskal-Wallis ne pruža sličnu mjeru.

Homogenost varijanci je pretpostavka ANOVA-e i klasičnih t-testova, ali Brown-Forsythe ANOVA i Welchova ANOVA mogu pružiti valjano testiranje i kad je pretpostavka narušena (iako ne u ekstremnim situacijama), dok Kruskal-Wallis test ne zahtijeva ovu pretpostavku.

Osim toga, testovi se razlikuju i prema mogućnostima testiranja različitih podataka i njihovih distribucija. ANOVA, Brown-Forsythe ANOVA i Welchova ANOVA su parametrijski testovi koji pretpostavljaju normalnu distribuciju podataka reziduala i koriste se za kontinuirane kvantitativne varijable. Nasuprot tome, Kruskal-Wallis test je neparametrijski, pa se koristi kad distribucije nisu normalno distrubuirane ili kad podaci nisu kvantitativne varijable, čime pruža veću fleksibilnost u analizi. Ali, zato Kruskal-Wallis test analizira razlike u distribucijama podataka među grupama (a ne razlike u prosjecima), što može pružiti uvide samo u obrasce podataka.

Za identifikaciju specifičnih parova grupa s razlikama nakon ovih testova, nužne su post – hoc analize, poput Tukeyevog testa za ANOVA testove, dok Kruskal-Wallis test koristi neparametrijske post – hoc metode, kao što je Dunnov test.


Tablica 13. Post Hoc usporedbe - skupina

Mean Difference SE t ptukey
Control - Runners 29.0200 1.2251 23.6871 < .001

Tablica 14. Dunnove Post Hoc usporedbe - skupina

Comparison z Wi Wj p pbonf pholm
Control - Runners 18.5902 552.3675 248.6325 < .001 < .001 < .001

Tukeyjev post-hoc test koristi se za identifikaciju parova grupa koje se značajno razlikuju nakon što je ANOVA pokazala ukupnu značajnu razliku među grupama. Prosječna razlika u broju otkucaja srca između kontrolne skupine i trkača iznosi 29.02. Standardna pogreška razlike aritmetičkih sredina iznosi 1.2251. P-vrijednost manja od 0.001 potvrđuje da je vrlo malo vjerojatno da je razlika u prosjeku između grupa rezultat slučajnosti, čime se daje potvrda odbacivanju nul hipoteze o jednakosti prosječnih otkucaja srca. Zaključuje se da postoji statistički značajna razlika između prosjeka otkucaja srca kontrolne skupine i trkača.

Dunnov post-hoc test koristi rangove podataka i često se koristi kao post – hoc test nakon Kruskal-Wallis testa, posebno u situacijama kad pretpostavke parametrijskih testova nisu zadovoljene. Standardizirana testna veličina (\(z=18.5902\)) pokazuje značajnu razliku između kontrolne skupine i trkača. Sume rangova za kontrolnu skupinu (\(W_i=552.3675\)) i za trkače (\(W_j=248.6325\)) dodatno potvrđuju tu razliku. P-vrijednosti, uključujući nekorigiranu, Bonferronijevu korekciju i Holmovu korekciju, sve su manje od 0.001. Ovo znači da rezultati ostaju značajni čak i nakon korekcija za višestruka testiranja, čime se smanjuje vjerojatnost pogrešne odluke o nul hipotezi.




Sada ćemo provesti višefaktorsku ANOVA-u za skupine (Group) i spola (Gender) u odnosu na broj otkucaja srca. Također se provjerava homogenost varijanci i značajnost glavnih efekata.

Tablica 15. Leveneov test jednakosti varijanci

F df1 df2 p
5.5619 3 796 < .001

Pretpostavka homogenosti varijanci nije zadovoljena. Iako ANOVA može tolerirati blago narušenu homogenost varijanci, značajno odstupanje može narušiti točnost rezultata, posebno za glavne efekte i interakcije. Dakle, ovaj je primjer samo ilustrativan.

Rezultati analize ukazuju na nekoliko ključnih elemenata koji opisuju odnos između skupina (Group), spola (Gender) i broja otkucaja srca, kao i interakciju između ovih faktora. Interakciju dvaju faktora možemo interpretirati samo ako je kreirana ANOVA s replikacijom, što znači da postoji više opažanja unutar svake kombinacije faktora (kao što je slučaj ovdje).

Bez replikacija po kombinaciji faktora, nije moguće pouzdano procijeniti varijabilnost, što znači da se interakcijski efekt ne može razlučiti od slučajnog šuma U takvom slučaju, „Interaction“ nije standardna procjena pogreške ni kombinirani učinak dva faktora. Ako se takva „interakcija“ pokaže značajnom, to zapravo može značiti bilo kakvo odstupanje od additivnog modela, ali bez replikacija se ne može razlikovati stvarna interakcija od slučajne pogreške. U praksi, svo „odstupanje“ od zbroja glavnih efekata (u aditivnom modelu) završava u onome što softver zove “Interaction” i tu se ne može razlučiti što je slučajni šum, a što je stvarna interakcija. Ovo je relevantno zbog toga što postoji ANOVA s i bez replikacije (ANOVA bez replikacije se rjeđe koristi, a u tekstu Two Factor ANOVA without Replication možete više pročitati o postupku i primjeni).

Glavni efekti analizirani su za skupinu i spol. Efekt skupine pokazuje značajnu razliku u broju otkucaja srca između kontrolne skupine i trkača (\(F=695.6470\), \(p<0.001\)). Suma kvadrata za skupinu iznosi 168432.08, što sugerira velik doprinos grupe ukupnoj varijabilnosti. Efekt spola također je značajan (\(F=185.9799\), \(p<0.001\)), što ukazuje da muškarci i žene imaju statistički značajno različit broj otkucaja srca. Vrijednost SS za spol iznosi 45030.005, što dodatno podupire zaključak o važnosti ovog faktora.

Tablica 16. Rezultat ANOVA testiranja otkucaja srca s obzirom na skupinu i spol

Cases Sum of Squares df Mean Square F p
Group 168432.0800 1 168432.0800 695.6470 < .001
Gender 45030.0050 1 45030.0050 185.9799 < .001
Group ✻ Gender 1794.0050 1 1794.0050 7.4095 0.0066
Residuals 192729.8300 796 242.1229

Note. Type III Sum of Squares.

Interakcija između skupine i spola također je značajna (\(F=7.4095\), \(p=0.0066\)). To znači da učinak skupine (trkači i kontrolna skupina) na broj otkucaja srca nije jednak za muškarce i žene. Dakle, mogli bismo zaključivati da razlike u otkucajima srca između skupina ovise o spolu ispitanika.

Rezidualna varijanca (Residuals), koja predstavlja dio varijabilnosti koji se ne može objasniti grupom, spolom ili njihovom interakcijom, iznosi \(SS = 192729.83\). Ovo sugerira da značajan dio razlika u otkucajima srca proizlazi iz slučajnih faktora i individualnih razlika koje nisu obuhvaćene analizom.

Type III Sum of Squares uobičajeno se koristi kako bi se kompenzirale neravnoteže u broju opažanja među grupama, čime se osigurava da procjene glavnih efekata i interakcija nisu iskrivljene – što je posebno važno u dizajnima s nejednakim veličinama grupa. Type III Sum of Squares se razlikuju od “klasičnog” pristupa (često označenog kao Type I Sum of Squares) po načinu na koji se računa doprinos svakog faktora. Iako obje verzije koriste iste osnovne matematičke komponente (sume kvadrata odstupanja), Type I (klasični) SS računa se sekvencijalno – redoslijedom unosa faktora (tako da svaki faktor objašnjava varijabilnost koja nije objašnjena prethodnim faktorima) – dok Type III SS mjeri doprinos svakog faktora kao da je unesen zadnji, tj. kontrolirajući sve ostale varijable u modelu. Time se osigurava da procjene glavnih efekata i interakcija odražavaju „čisti“ doprinos svakog faktora, bez utjecaja redoslijeda unosa varijabli. To znači da se, posebno u nesimetričnim (neortogonalnim) dizajnima, rezultati mogu značajno razlikovati.

Tablica 17. Post Hoc usporedbe - skupina

Mean Difference SE t ptukey
Control - Runners 29.0200 1.1003 26.3751 < .001

Note. Results are averaged over the levels of: Gender

Prosječna razlika između kontrolne skupine i trkača iznosi 29.02 otkucaja u minuti, uz standardnu pogrešku (SE) od 1.1003. Testna veličina iznosi 26.3751, a p-vrijednost (\(p_{tukey}<0.001\)) pokazuje značajnu razliku. Ova usporedba ukazuje da kontrolna skupina ima viši broj otkucaja srca u odnosu na trkače. Rezultati su ujednačeni u odnosu na sve razine spola, što znači da spol nije uključen kao zaseban faktor u ovoj analizi.

Tablica 18. Post Hoc usporedbe - spol

Mean Difference SE t ptukey
Female - Male 15.0050 1.1003 13.6374 < .001

Note. Results are averaged over the levels of: Group

Prosječna razlika između žena i muškaraca iznosi 15.005 otkucaja u minuti, uz SE od 1.1003. Testna veličina je 13.6374, a \(p_{tukey}<0.001\). Ovo sugerira da žene u prosjeku imaju značajno viši broj otkucaja srca u odnosu na muškarce. Analiza je ujednačena prema razinama grupa, što znači da grupa (kontrolna ili trkači) ovdje nije specifično razmatrana.

Tablica 19. Post Hoc usporedbe - skupina*spol

Mean Difference SE t ptukey
Control Female - Runners Female 32.0150 1.5560 20.5748 < .001
Control Female - Control Male 18 1.5560 11.5679 < .001
Control Female - Runners Male 44.0250 1.5560 28.2932 < .001
Runners Female - Control Male -14.0150 1.5560 -9.0069 < .001
Runners Female - Runners Male 12.0100 1.5560 7.7184 < .001
Control Male - Runners Male 26.0250 1.5560 16.7253 < .001

Note. P-value adjusted for comparing a family of 4

Interakcije tumačimo na sljedeći način:

  • Control Female vs. Runners Female: Žene iz kontrolne skupine imaju prosječno 32.015 otkucaja srca u minuti više od trkačica, uz \(t=20.5748\) i \(p_{tukey}<0.001\).

  • Control Female vs. Control Male: Žene u kontrolnoj skupini imaju prosječno 18 otkucaja srca u minuti više od muškaraca u kontrolnoj skupini, \(t=11.5679\), \(p_{tukey}<0.001\).

  • Runners Female vs. Control Male: Trkačice imaju prosječno 14.015 otkucaja srca u minuti manje u odnosu na muškarce iz kontrolne skupine.

  • Runners Female vs. Runners Male: Trkačice imaju prosječno 12.01 otkucaja srca u minuti više od trkača, \(t=7.7184\), \(p_{tukey}<0.001\).

  • Control Male vs. Runners Male: Muškarci u kontrolnoj skupini imaju prosječno 26.025 otkucaja srca u minuti više od trkača, \(t=16.7253\), \(p_{tukey}<0.001\).


Tablica 20. Kruskal-Wallis test

Factor Statistic df p
Group 345.5941 1 < .001
Gender 85.1882 1 < .001

Rezultati Kruskal-Wallis testa prikazuju analizu dva faktora – skupine (Group) i spola (Gender) – u odnosu na broj otkucaja srca. Za faktor Group, testna veličina iznosi \(H=345.5941\), stupanj slobode \(df=1\), a \(p<0.001\). Ovi rezultati ukazuju na značajnu razliku u distribucijama broja otkucaja srca između trkača i kontrolne skupine. S obzirom na nisku p-vrijednost, možemo odbaciti nul hipotezu, što znači da distribucije otkucaja srca nisu jednake između ove dvije skupine.

Za faktor Gender, testna veličina iznosi \(H=85.1882\), \(df=1\), i \(p<0.001\). To pokazuje da postoji značajna razlika u distribucijama otkucaja srca između muškaraca i žena. I u ovom slučaju, p-vrijednost je izrazito mala, što opravdava odbacivanje nul hipoteze o jednakosti distribucija između spolova.

Rezultati Kruskal-Wallis testa potvrđuju značajne razlike u distribucijama broja otkucaja srca za oba ispitana faktora. Ova metoda je prikladna za analizu jer ne zahtijeva pretpostavke o normalnosti ili homogenosti varijanci, čime osigurava pouzdane rezultate i u slučajevima kad su ove pretpostavke narušene.

Tablica 21. Dunnove Post Hoc usporedbe - skupina

Comparison z Wi Wj p pbonf pholm
Control - Runners 18.5902 552.3675 248.6325 < .001 < .001 < .001


Tablica 22. Dunnove Post Hoc usporedbe - Gender

Comparison z Wi Wj p pbonf pholm
Female - Male 9.2297 475.9000 325.1000 < .001 < .001 < .001

Z-vrijednost za usporedbu kontrolne skupine i trkača iznosi \(18.5902\), što ukazuje na značajnu razliku u distribuciji rangova između ove dvije grupe. Sume rangova (\(W_i=552.3675\) za kontrolnu skupinu i \(W_j=248.6325\) za trkače) potvrđuju da kontrolna skupina ima više rangirane vrijednosti otkucaja srca. P-vrijednosti (\(p,p_{bonf},p_{holm}<0.001\)) ostaju značajne čak i uz korekcije.

Z-vrijednost za usporedbu žena i muškaraca iznosi 9.2297, uz sume rangova \(W_i=475.9\) za žene i \(W_j=325.1\) za muškarce. Ovo sugerira da žene imaju više rangirane vrijednosti otkucaja srca u odnosu na muškarce. Sve p-vrijednosti (\(p,p_{bonf},p_{holm}<0.001\)) ostaju značajne.


Dakle, možemo uočiti da je pomoću ANOVE moguće detaljnije testirati razlike, ali da i Kruskal-Wallis uz post-hoc testove može omogućiti gotovo jednako detaljne uvide, osim interakcija. Ono što se ovdje može uočiti (čak i temeljem Kruskal-Wallisa) jest da skupina trkača općenito ima niže otkucaje srca u minuti nego kontrolna skupina. Nadalje, muškarci općenito imaju niže otkucaje srca u minuti od žena. Ako bismo htjeli detaljnije rezultate od toga, onda bismo za Kruskal-Wallis test trebali pripremiti još jednu varijablu s četiri kategorije, koja bi imala zasebnu numeričku oznaku za kontrolnu skupinu žena, kontrolnu skupinu muškaraca, trkačice i trkače.


Slučaj: Weight gain

Postoji još jedna specifična skupina testova koja se odnosi na uparene podatke. Testovi za uparene podatke (poznati i kao testovi za ponovljene mjere) koriste se kad su podaci u dva uzorka povezani, tj. kad svako opažanje u jednom uzorku odgovara specifičnom opažanju u drugom uzorku. To je često slučaj kod dizajna ‘prije-poslije’ (gdje se ista grupa mjeri prije i poslije nekog tretmana).

Glavne karakteristike i pretpostavke:

  • Zavisnost podataka: Opažanja u oba uzorka nisu nezavisna, nego svaki par opažanja dolazi (u pravilu) od istog sudionika.

  • Primjena: Cilj je procijeniti razliku između parova, obično izraženu kroz razlike između vrijednosti izmjerenih prije i nakon

  • Pretpostavke:

  • Podaci trebaju biti kvantitativni ili stupnjeviti.

  • Razlike između parova trebaju slijediti približno normalnu distribuciju (za parametrijske testove) ili distribucija razlika treba biti sličnog oblika i simetrična (za neparametrijske testove).

  • Jednak broj podataka u obje skupine.

Za potrebe prikaza ovih testova, mogu se koristiti skupovi podataka iz JASP-ove biblioteke (Data Library) iz sekcije t-tests (Open \(\implies\) Data Library \(\implies\) t-tests), pod nazivom Weight gain. Weight gain prikazuje podatke 16 ispitanika prije i nakon osmotjednog perioda konzumacije pretjerane količine kalorija.

Tablica 23. Pokazatelji deskriptivne statistike

Weight Before Weight After Difference
Valid 16 16 16
Mean 144.6362 155.0450 10.4087
Std. Deviation 22.7049 21.4381 3.8406
Skewness 0.9771 0.7773 -0.3917
Kurtosis 1.0300 0.1531 -1.0560
Shapiro-Wilk 0.9086 0.9265 0.9380
P-value of Shapiro-Wilk 0.1107 0.2148 0.3254
Minimum 117.2600 129.3600 3.0800
Maximum 201.7400 204.8200 15.6200

Temeljem uvida u podatke o stjecanju težine, može se vidjeti da je prosječna težina prije tretmana iznosila 144,63 funti (lbs, 144,64 × 0,453592 ≈ 65,6 kg), uz standardno odstupanje od prosjeka od 22,7 funti (≈ 10.2966 kg). Prosječna težina nakon tretmana iznosila je 155 funti (lbs, 155,05 × 0,453592 ≈ 70,3 kg) uz standardno odstupanje od prosjeka za 21,44 funte (≈ 9.725 kg). Iako postoji razlika u standardnoj devijaciji između skupina, ona nije jako izražena.

Postoji li statistički značajna razlika u težini ispitanika prije i nakon tretmana?

Iako možemo iz tablice iščitati jesu li ove varijable normalno distribuirane, zapravo nas zanima je li razlika opažanja normalno distribuirana. Pretpostavka t-testa za uparene podatke je normalnost distribucije razlika, a ne originalnih vrijednosti.

To možemo učiniti na dva načina – izračunamo varijablu razlika i provjerimo normalnost distribucije ili iskoristimo test provjere pretpostavke o normalnosti dostupne u konzoli t-testa za uparene podatke. Možete uočiti da su izračunate vrijednosti jednake (rezultat Shapiro-Wilk testa za varijablu Differences u tablici pokazatelja deskriptivne statistike i rezultati testa niže) te ukazuju na to da se ne može odbaciti pretpostavka o normalnoj distribuciji.

Tablica 24. Shapiro-Wilkov test normalnosti distribucije

W p
Weight Before - -
Weight After 0.9380 0.3254

Dakle, nastavljamo uz pretpostavku o normalnoj distribuciji. To znači da možemo koristiti t-test za uparene podatke, a ako želimo, tu je na raspolaganju i Wilcoxonov signed rank test. To vrijedi zbog toga što neparametrijske testove možemo primjenjivati i za podatke za koje vrijede pretpostavke normalnosti i jednakosti varijanci, dok ne vrijedi obrnuto za parametrijske testove. Ipak, ako je cilj utvrditi razlike između prosječnih vrijednosti, prednost će imati parametrijski testovi.

Za t-test, hipoteze glase:

\[H_0… μ_1=μ_2\]

\[H_1… μ_1≠μ_2\]

Za Wilcoxonov signed rank test, možemo zapisati:

\[H_0… \text{distribucije težina prije i nakon perioda povećanog unosa kalorija su jednake}\] \[H_1…\text{distribucije težina prije i nakon perioda povećanog unosa kalorija nisu jednake}\]

Tablica 25. test uparenih podataka (ili parova opažanja)

Measure 1 Measure 2 Test Statistic z df p
Weight Before Weight After Student -10.8406 - 15 < .001
Wilcoxon 0 -3.5162 - < .001

Note. For the Student t-test, effect size is given by Cohen. For the Wilcoxon test, effect size is given by the matched rank biserial correlation.

Za upareni t-test, Wilcoxon signed-rank test ili bilo koji drugi test specifičan za uparene podatke, osnovni princip izračuna testne statistike ostaje sličan onome za nezavisne testove, ali s razlikama u načinu na koji se odstupanja tretiraju.

U uparenom t-testu fokus je na odstupanjima ili razlikama između vrijednosti prije i poslije (ili, općenito, između dvije uparene mjere):

\[t= \frac{\bar{D}}{s_D/\sqrt{n}}\] Gdje je

  • \(\bar{D}\) prosječna razlika parova opažanja \(x_{1,i}-x_{2,i}\)

  • \(s_D\) je standardna devijacija razlika

  • \(n\) je broj parova

Što se tiče Wilcoxon signed-rank testa, postupak je gotovo isti, samo što se prvo izračunavaju apsolutne razlike između parova opažanja, a potom se rangiraju i pripisuje im se izvorni predznak. Nakon toga se računaju sume pozitivnih i negativnih rangova i bira se manja vrijednost za testnu statistiku.

Kod nezavisnih uzoraka testovi uspoređuju grupe kao cjeline (npr., prosječne vrijednosti ili distribucije dviju grupa), dok je kod uparenih testova fokus na razlikama između parova, čime se smanjuje utjecaj individualnih varijacija između članova para. Isto tako, testne statistike u osnovi prate iste matematičke principe kao ranije opisani testovi, ali su prilagođene uparenoj strukturi podataka.

Dakle, na razini značajnosti 5% odbacuje se pretpostavka da nema razlike u težini s obzirom na povećan unos kalorija. Zaključuje se da postoji statistički značajna razlika u težini uslijed povećanog unosa kalorija. Ovaj zaključak podupiru rezultati t-testa i Wilcoxon signed-rank testa.


Slučaj: Nekretnine

Nakon što smo prošli osnovne vrste testova, možemo naučeno ponoviti na skupu podataka o nekretninama. Za taj je skup podataka već prikazana deskriptivna statistika, pa ćemo se ovdje usredotočiti na nekoliko istraživačkih pitanja. Već smo ranije uočili kako izgleda da postoje pravilnosti u cijenama nekretnina, ali nismo to mogli tvrditi uz određenu razinu statističke značajnosti. Uz to, postavit ćemo i neka pitanja da proširimo uvide i zaključke. Stoga ćemo sad odgovoriti na sljedeća pitanja:

  1. Postoji li statistički značajna razlika u cijeni s obzirom na to nalazi li se nekretnina uz obalu?
  2. Postoji li statistički značajna razlika u cijeni s obzirom na to koliko kamina ima nekretnina?
  3. Postoji li statistički značajna razlika u veličini zemljišta s obzirom na to nalazi li se nekretnina uz obalu?
  4. Postoji li statistički značajna razlika u veličini zemljišta s obzirom na to koliko kamina ima nekretnina?
  5. Je li barem 5% promatranih nekretnina novogradnja?
  6. Je li distribucija tipa goriva (fuel.type) je ista među nekretninama koje imaju i onima koje nemaju središnji sustav za klimatizaciju (central.air)?
  7. Jesu li varijable Fuel.type i Heat.type međusobno neovisne?

Postoji li statistički značajna razlika u cijeni s obzirom na to nalazi li se nekretnina uz obalu?

Za odgovor na prvo pitanje, prvo ćemo se usredotočiti na varijablu koja bilježi nalazi li se nekretnina uz obalu (Waterfront). To je binarna kategorička varijabla, s vrijednostima 0 i 1. Svaka nekretnina označena je s 1 ili 0 te nema preklapanja. Dakle, podskupine nekretnina koje se nalaze uz obalu i one koje nisu uz obalu možemo tretirati kao nezavisne uzorke. Dakle, možemo koristiti t-test za nezavisne podatke. Sljedeće, moramo provjeriti pretpostavke.

Tablica 29. Shapiro-Wilkov test normalnosti distribucije

W p
Price (0) 0.8973 < .001
Price (1) 0.9195 0.1890

Tablica 30. Brown-Forsythe test jednakosti varijanci

F df1 df2 p
Price 4.9160 1 1726 0.0267

Temeljem provedenih provjera, vidimo da se pretpostavka o normalnosti odbacuje za podskup nekretnina koje nisu uz obalu, a nije zadovoljena ni pretpostavka o jednakosti varijanci na razini značajnosti 5%. Dakle, prikladno je koristiti neparametrijsku varijantu ovog testa.

\[H_0…\text{ne postoji razlika u distribuciji cijena nekretnina smještenih uz obalu i dalje od obale}\]

\[H_1…\text{postoji razlika u distribuciji cijena nekretnina smještenih uz obalu i dalje od obale}\]

Tablica 31. Mann-Whitney U test

W df p Rank-Biserial Correlation SE Rank-Biserial Correlation
Price 4241.5000 - < .001 -0.6699 0.1487

Note. For the Mann-Whitney test, effect size is given by the rank biserial correlation.

Na razini značajnosti 5% odbacuje se pretpostavka o tome da su distribucije cijena nekretnina uz i dalje od obale jednake. Zaključuje se da postoji statistički značajna razlika u cijenama nekretnina s obzirom na to nalaze li se uz obalu ili ne. Rank-biserial korelacija (-0.6699) pokazuje veličinu i smjer učinka - negativni znak sugerira da su rangovi jedne grupe u prosjeku niži od rangova druge grupe, a veličina sugerira da se radi o izraženom učinku.

Postoji li statistički značajna razlika u cijeni s obzirom na to koliko kamina ima nekretnina?

Za odgovor na drugo pitanje, promatramo varijablu kamina. Iako se radi o cjelobrojnoj kvantitativnoj varijabli, s obzirom na mali broj modaliteta, možemo ju tretirati kao faktor, koji tad poprima 5 modaliteta (od 0 do 4). S obzirom da tih 5 modaliteta dijeli uzorak na 5 podskupina, ne možemo koristiti t-test za nezavisne uzorke, nego moramo koristiti testove koji dopuštaju više od dvije skupine, to jest ANOVA skupinu testova, bilo parametrijsku ili neparametrijsku varijantu.

Za klasičnu ANOVA-u, treba biti ispoštovana pretpostavka o homogenosti varijanci. Temeljem Leveneovog testa možemo uočiti da ta pretpostavka nije ispoštovana.

Tablica 32. Leveneov test jednakosti varijanci

F df1 df2 p
14.6588 4 1723 < .001

Na Q-Q grafu, stvarni podaci (standardizirani reziduali) prikazani su na y-osi, dok se na x-osi nalaze kvantili teorijske normalne distribucije. Ako su reziduali normalno distribuirani, točke na grafu trebale bi slijediti pravac koji je označen crvenom linijom.

Uvidom u Q-Q plot, primjećujemo da točke bitno odstupaju od crvene linije, posebno na krajevima distribucije. To ukazuje na prisutnost odstupanja od normalnosti u podacima, pri čemu reziduali na krajevima imaju veću ili manju vrijednost nego što bi se očekivalo pod pretpostavkom normalne distribucije. Ovakav obrazac često sugerira da distribucija podataka ima “deblje” repove (leptokurtičnost) ili asimetričnost. Ovaj Q-Q plot jasno ukazuje da pretpostavka normalnosti nije potpuno zadovoljena.

To znači da možemo koristiti samo neparametrijski Kruskal-Wallis test. Za Kruskal-Wallis test, hipoteze glase:

\[H_0…\text{ne postoji razlika u distribuciji cijena nekretnina s obzirom na broj kamina}\]

\[H_1…\text{postoji razlika u distribuciji cijena nekretnina s obzirom na broj kamina}\]

Tablica 33. Kruskal-Wallis test

Factor Statistic df p
Fireplaces 267.5653 4 < .001

Na razini značajnosti 5% odbacuje se pretpostavka da ne postoji razlika u distribuciji cijena s obzirom na broj kamina. Zaključujemo da postoji razlika u distribuciji cijena nekretnina s obzirom na to koliko kamina imaju.

Tablica 34. Dunnov post-hoc test

Comparison z Wi Wj p pbonf pholm
0 - 1 -14.9223 646.6264 1012.3737 < .001 < .001 < .001
0 - 2 -8.4059 646.6264 1311.9286 < .001 < .001 < .001
0 - 3 -2.6291 646.6264 1575.5000 0.0086 0.0856 0.0514
0 - 4 -3.0445 646.6264 1722.2500 0.0023 0.0233 0.0163
1 - 2 -3.8068 1012.3737 1311.9286 < .001 0.0014 0.0011
1 - 3 -1.5944 1012.3737 1575.5000 0.1109 1 0.4434
1 - 4 -2.0098 1012.3737 1722.2500 0.0444 0.4445 0.2222
2 - 3 -0.7299 1311.9286 1575.5000 0.4655 1 0.9310
2 - 4 -1.1362 1311.9286 1722.2500 0.2559 1 0.7676
3 - 4 -0.2941 1575.5000 1722.2500 0.7687 1 0.9310

Dunnova post-hoc analiza za Kruskal-Wallis test omogućuje detaljniju usporedbu parova grupa kako bi se utvrdilo između kojih specifičnih grupa postoji značajna razlika u distribucijama cijena nekretnina s obzirom na broj kamina. Rezultati pokazuju da postoji statistički značajna razlika u distribuciji cijena između grupa 0 kamina i 1 kamina, 0 kamina i 2 kamina te 1 kamina i 2 kamina, pri prilagođenim p-vrijednostima koje ostaju značajne čak i nakon Bonferroni i Holm korekcija za višestruke usporedbe. Ovo ukazuje da broj kamina ima značajan utjecaj na cijene nekretnina između ovih specifičnih parova grupa.

Međutim, nije utvrđena statistički značajna razlika između grupa: 1 kamin i 3 kamina te 2 kamina i 3 kamina, što sugerira da se cijene nekretnina u tim parovima grupa ne razlikuju značajno. Također, parovi grupa s većim brojem kamina (npr., 3 kamina i 4 kamina) pokazuju još manje razlike, što se očituje u visokim p-vrijednostima, prilagođenim na temelju višestrukih usporedbi. Ovo ukazuje da dodavanje dodatnih kamina (više od dva ili tri) ne donosi značajnu promjenu u distribuciji cijena. Dakle, uočena razlika u cijenama nekretnina s obzirom na broj kamina postoji, ali je izraženija među grupama s manjim brojem kamina (0, 1, 2), dok kod nekretnina s tri ili više kamina ta razlika postaje manje izražena ili zanemariva. Ovi rezultati mogu pružiti korisne uvide o tome kako kupci percipiraju vrijednost dodatnih kamina i gdje taj efekt prestaje biti značajan.

Postoji li statistički značajna razlika u veličini zemljišta s obzirom na to nalazi li se nekretnina uz obalu?

Treće pitanje bilo je postoji li statistički značajna razlika u veličini zemljišta s obzirom na to nalazi li se nekretnina uz obalu. Varijabla lokacije (uz obalu ili ne) ima dva modaliteta, pa će podijeliti uzorak na dvije podskupine. To znači da možemo birati između nekog oblika t-testa ili ANOVA-e. Ova dva testa imaju različite pretpostavke: klasični t-test iziskuje normalnu distribuciju varijabli, a ANOVA iziskuje normalnu distribuciju reziduala, dok oba iziskuju homogenost varijanci. Također, oba pristupa imaju i svoje neparametrijske varijante, pa u slučaju da su distribucije opažanja u podskupinama sličnog oblika, smijemo postaviti hipoteze o medijanima i koristiti Man-Whitney U test. Ako nas zanima parametar populacije, preferirat ćemo parametrijske testove, a ako nas zanima distribucija, preferirat ćemo neparametrijske testove.

Dakle, prvi korak je ispitati sve te pretpostavke, pa ćemo onda odabrati.

Tablica 35. Pokazatelji deskriptivne statistike za Lot.Size

Lot.Size (0) Lot.Size (1)
Valid 1713 15
Mean 0.5005 0.4627
Std. Deviation 0.7009 0.3756
Skewness 7.1814 1.1026
Kurtosis 78.0859 0.6712
Shapiro-Wilk 0.4581 0.9043
P-value of Shapiro-Wilk < .001 0.1109

Uvidom u rezultate Shapiro-Wilk testa, možemo zaključiti da podskup veličina zemljišta koja se ne nalaze uz obalu nisu normalno distribuirana. To znači da se neće moći koristiti klasični t-test.

Nadalje, uvidom u oblik distribucija varijable veličine zemljišta za podskupinu koja nije uz obalu i one koja je smještena uz obalu, vidimo da oblici nisu slični. Dakle, čak ni upotreba Man-Whitney-U testa nije dobar odabir, jer pretpostavka o sličnosti oblika distribucija nije ispunjena.

Tablica 36. Leveneov test jednakosti varijance

F df1 df2 p
0.0595 1 1726 0.8073

Test jednakosti varijanci (p=0.8073) ukazuje na neodbacivanje nul hipoteze o jednakosti varijanci. Dakle, može se smatrati da je taj uvjet realiziran.

Ipak, Q-Q plot ukazuje na bitna odstupanja reziduala od normalne distribucije.

Dakle, s obzirom na sve ove uvide, odabrat ćemo provest Kruskal-Wallis test uz Dunnov post – hoc test.

\[H_o…\text{distribucije veličina zemljišta nekretnina su jednake s obzirom na to nalazi li se uz obalu}\]

\[H_1…\text{distribucije veličina zemljišta nekretnina nisu jednake s obzirom na to nalazi li se uz obalu}\]

Tablica 37. Kruskal-Wallis test

Factor Statistic df p
Waterfront 0.0065 1 0.9360

Na razini značajnosti 5%, ne odbacuje se pretpostavka da su veličine zemljišta podjednake uz obalu i dalje od obale. Odnosno, ne postoji statistički značajna razlika između distribucija veličina zemljišta nekretnina koje su smještene uz obalu u odnosu na one koje nisu smještene uz obalu.

Tablica 38. Dunnove post-hoc usporedbe

Comparison z Wi Wj p pbonf pholm
0 - 1 -0.0803 864.4098 874.8000 0.9360 0.9360 0.9360

Dunnov post – hoc test pokazuje da je razlika između suma rangova vrlo malena (malo manja od 10) i nije statistički značajna.

Postoji li statistički značajna razlika u veličini zemljišta s obzirom na to koliko kamina ima nekretnina?

Tražimo odgovor na sljedeće pitanje: Postoji li statistički značajna razlika u veličini zemljišta s obzirom na to koliko kamina ima nekretnina? S obzirom da varijabla Kamin ima pet modaliteta, podijelit će uzorak na pet podskupina. To znači da možemo koristiti samo skupinu ANOVA testova ili prikladnih alternativa. No, moramo ponovo provjeriti pretpostavke, zato jer je sad osnovni uzorak drugačije raspodijeljen.

Tablica 39. Leveneov test jednakosti varijanci

F df1 df2 p
4.4719 4 1723 0.0013

Temeljem Leveneovog testa zaključujemo da varijance nisu jednake u podskupinama. Također, brzim pregledom rasporeda reziduala u Q-Q plotu uočavamo da reziduali nisu normalno distribuirani.

Dakle, provodimo Kruskal-Wallis test.

\[H_o…\text{distribucije veličina zemljišta nekretnina su jednake s obzirom na broj kamina}\]

\[H_1…\text{distribucije veličina zemljišta nekretnina nisu jednake s obzirom na broj kamina}\]

Tablica 40. Kruskal-Wallis test

Factor Statistic df p
Fireplaces 73.1323 4 < .001

Na razini značajnosti 5% odbacuje se pretpostavka kako su distribucije veličina zemljišta nekretnina jednake s obzirom na broj kamina. Dakle, postoji statistički značajna razlika u veličini zemljišta nekretnina s obzirom na broj kamina.

Tablica 41. Dunnove post hoc usporedbe

Comparison z Wi Wj p pbonf pholm
0 - 1 -6.7264 761.8547 926.6837 < .001 < .001 < .001
0 - 2 -6.0019 761.8547 1236.7857 < .001 < .001 < .001
0 - 3 -2.1237 761.8547 1512 0.0337 0.3369 0.2359
0 - 4 -0.9269 761.8547 1089.2500 0.3540 1 1
1 - 2 -3.9417 926.6837 1236.7857 < .001 < .001 < .001
1 - 3 -1.6575 926.6837 1512 0.0974 0.9741 0.5845
1 - 4 -0.4604 926.6837 1089.2500 0.6453 1 1
2 - 3 -0.7623 1236.7857 1512 0.4459 1 1
2 - 4 0.4086 1236.7857 1089.2500 0.6828 1 1
3 - 4 0.8474 1512 1089.2500 0.3968 1 1

Rezultati Dunnovog post hoc testa za Kruskal-Wallis analizu pokazuju kako postoje statistički značajne razlike između određenih grupa s obzirom na broj kamina i veličinu zemljišta nekretnina. Test je proveden nakon što je utvrđeno da postoji općenita razlika u distribucijama veličina zemljišta među grupama koje se razlikuju po broju kamina.

Prva usporedba, između grupa s 0 i 1 kaminom, pokazuje značajnu razliku (z = -6.7264, p <0.001), što ukazuje da su distribucije veličina zemljišta između tih grupa statistički značajno različite. Slično tome, usporedba između grupa s 0 i 2 kamina također je statistički značajna (z = -6.0019, p < .001). Ove razlike ostaju značajne čak i nakon Bonferronijeve i Holmove korekcije, što dodatno potvrđuje njihovu robustnost.

Slično, usporedba između grupa s 0 i 3 kamina također pokazuje statistički značajnu razliku, ali nakon Bonferronijeve i Holmove korekcije, razlika više nije statistički značajna (p_bonf = 0.3369; p_holm = 0.2359). Ovo sugerira da, iako postoji određeni signal razlike, ona nije dovoljno izražena da izdrži strožu kontrolu pogrešaka višestrukog testiranja.

Za ostale usporedbe, uključujući parove kao što su 0 i 4 kamina, 1 i 3 kamina, ili 2 i 4 kamina, z-vrijednosti su male, a p-vrijednosti nisu značajne, što znači da nema dokaza o statistički značajnim razlikama između tih grupa, ni prije ni nakon korekcija.

Najveće i najjasnije razlike u distribucijama veličine zemljišta nalaze se između grupa s 0 i 1 kaminom te 0 i 2 kamina. Ovakvi rezultati sugeriraju da se broj kamina može povezati s određenim promjenama u veličini zemljišta, ali samo za određene kombinacije grupa.

Je li barem 5% promatranih nekretnina novogradnja?

Prelazimo na sljedeće pitanje, je li barem 5% promatranih nekretnina novogradnja. Ovdje, za promjenu, testiramo proporciju.

\[H_0…p≥0.05\]

\[H_1…p<0.05\]

Ovdje se koristi binomni test, koji se koristi za ispitivanje proporcije jedne kategorije u diskretnoj varijabli u odnosu na očekivanu proporciju. U ovom slučaju testira se hipoteza je li proporcija nekretnina koje su novogradnja manja od 5% (0.05). Test se temelji na binomnoj distribuciji, koja opisuje vjerojatnost postizanja određenog broja uspjeha (u ovom slučaju, nekretnina označenih kao novogradnja) u određenom broju promatranja (ovdje ukupni broj nekretnina), uz zadanu vjerojatnost uspjeha u populaciji.

Binomni test uspoređuje promatranu proporciju (0.0469) s očekivanom proporcijom (0.05). U testu se koriste sljedeći elementi:

  • Broj uspjeha (\(k\)): Ukupan broj nekretnina označenih kao novogradnja, ovdje 81.

  • Ukupan broj promatranja (\(n\)): Ukupan broj nekretnina, ovdje 1728.

  • Očekivana proporcija (\(p_0\)): Pretpostavljena proporcija u nul hipotezi, ovdje 0.05.

Testna veličina binomnog testa nije poput t-testa, već je funkcija kumulativne binomne distribucije. Na taj način se utvrđuje i p-vrijednost, čime se dobiva vjerojatnost postizanja točno k ili manje od k uspjeha (jer je riječ o jednostranom testu s \(H_1\) koja predviđa manje od).

Tablica 42. Binomni test

Variable Level Counts Total Proportion p
New Construct 0 1647 1728 0.9531 1
1 81 1728 0.0469 0.2984

Dakle, nul hipoteza se ne može odbaciti. To znači da nema dovoljno dokaza da bi se opovrgnula tvrdnja kako je proporcija novih nekretnina barem 5%.

Je li distribucija tipa goriva (fuel.type) je ista među nekretninama koje imaju i onima koje nemaju središnji sustav za klimatizaciju (central.air)?

Na sljedeće pitanje, je li distribucija tipa goriva (fuel.type) je ista među nekretninama koje imaju i onima koje nemaju središnji sustav za klimatizaciju (central.air), možemo odgovoriti pomoću Hi-kvadrat testa. S obzirom da su obje varijable kvalitativne, ovdje nije primjereno koristiti parametrijske testove (ni njihove alternative). Ali možemo koristiti test homogenosti. To je jedan od Hi-kvadrat testova koji je moguće izračunati temeljem tablice kontingencije, odnosno, pri izračunu se koriste apsolutne frekvencije. S obzirom na taj pristup, Hi-kvadrat testovi na drugačiji način identificiraju razlike nego neparametrijski testovi koji koriste postupak rangiranja te direktno uspoređuju opažene i očekivane frekvencije.

Hi-kvadrat test homogenosti koristi se za usporedbu distribucija jedne kvalitativne varijable između različitih podskupina definiranih drugom kvalitativnom varijablom (ne smije biti preklapanja). U ovom slučaju, testira se je li distribucija tipova kanalizacije proporcionalna s obzirom na to je li nekretnina smještena uz obalu ili ne.

\[H_0… \text{Distribucija tipa goriva (fuel.type)je ista među nekretninama koje imaju i onima koje nemaju središnji sustav za klimatizaciju (central.air)}\]

\[H_1… \text{Distribucija tipa goriva (fuel.type)nije ista među nekretninama koje imaju i onima koje nemaju središnji sustav za klimatizaciju}\] (central.air)

Postupak započinje kreiranjem tablice kontingencije.

Tablica 43. Tablica kontingencije - Central Air & Fuel Type

Fuel Type Central Air (0) Central Air (1) Total
1 666 531 1197
2 248 67 315
3 179 37 216
Total 1093 635 1728

Da bismo uspješno proveli ovaj test, potrebno je najmanje 5 opažanja u svakoj ćeliji tablice, a ako više od 20% ćelija ima očekivane frekvencije manje od 5, onda se Hi-kvadrat test smatra nepouzdanim.

Izračun funkcionira na način da se kreiraju još dvije pomoćne tablice. U prvoj pomoćnoj tablici izračunavaju se očekivane frekvencije i to temeljem suma redaka i stupaca za pripadajuću poziciju. \[e_{ij}=\frac{R_i \cdot C_j}{N}\]

Gdje je

\(e_{ij}\): očekivana frekvencija za ćeliju na \(i\)-tom retku i \(j\)-tom stupcu,

\(R_i\): ukupna frekvencija za \(i\)-ti redak,

\(C_j\): ukupna frekvencija za j-ti stupac,

\(N\): ukupan broj opažanja.

To bi izgledalo ovako:

Tablica 44. Očekivane frekvencije

Fuel Type Central Air (0) Central Air (1) Total
1 \(\frac{1093×1197}{1728} = 757.13\) 439.87 1197
2 199.24 \(\frac{635×315}{1728} = 115.76\) 315
3 \(\frac{1093×216}{1728} = 136.63\) 79.38 216
Total 1093 635 1728

Postupci su prikazani samo za tri ćelije, da dobijemo dojam kako to funkcionira. Testna statistika za Hi-kvadrat test računa se prema formuli:

\[e_{ij}=\sum_{i=1}^n \sum_{j=1}^k\frac{(f_{ij}-e_{ij} )^2}{e_{ij}} \]

Gdje su:

\(f_{ij}\): opažena frekvencija za ćeliju na \(i\)-tom retku i \(j\)-tom stupci,

\(e_{ij}\): očekivana frekvencija za istu ćeliju.

Tablica 45. Izračun Hi-kvadrat testne veličine

Fuel Type Central Air (0) Central Air (1) Total
1 \(\frac{(666-757.13)^2}{757.13} = 10.97\) 18.88 29.85
2 11.93 \(\frac{(67-115.76)^2}{115.76} = 20.54\) 32.47
3 13.14 22.62 35.77
Total 36.04 62.04 98.08

Stupnjevi slobode za Hi-kvadrat test izračunavaju se kao:

\[df=(r-1)(c-1)\]

Gdje su \(r\) broj redaka, a \(c\) broj stupaca u tablici kontingencije. U ovom slučaju, \(df=(3-1)(2-1)=2\). Uz \(α=0.05\), teorijska distribucija na koju se oslanjamo pri donošenju odluke o nul hipotezi izgleda ovako:

Koeficijent značajnosti je \(χ_α^2=5.99\) te dijeli distribuciju na područje odbacivanja (neobojani dio) i nedobacivanja (obojani dio) nul hipoteze.

Tablica 46. Hi-kvadrat test (koristeći JASP)

Value df p
Χ² 98.0794 2 < .001
N 1728 - -

Na razini značajnosti od 5%, odbacujemo nul hipotezu. To znači da postoji statistički značajna razlika u distribuciji vrsta goriva između nekretnina s i bez središnjeg sustava za klimatizaciju. To znači da razlike u frekvencijama među modalitetima vrste goriva nisu rezultat slučajnosti, nego postoji razlika s obzirom na prisutnost ili odsutnost centralnog sustava klimatizacije. Ova povezanost sugerira da je vrsta goriva neproporcionalno distribuirana između grupa definiranih postojenjem (ili ne) centralnog sustava za klimatizaciju.

Jesu li varijable Fuel.type i Heat.type međusobno neovisne?

Sljedeće po redu je pitanje - jesu li varijable Fuel.type i Heat.type međusobno nezavisne. S obzirom da se radi o kvalitativnim varijablama, na ovakva pitanja odgovaramo Hi-kvadrat testom neovisnosti. Iako je postupak izračuna isti kao za test homogenosti, hipoteze su drugačije postavljene.

\[H_0… \text{varijable vrsta goriva i vrsta grijanja međusobno su neovisne}\]

\[H_1… \text{varijable vrsta goriva i vrsta grijanja međusobno su ovisne}\]

Tablica 47. Tablica kontingencije Fuel Type & Heat Type

Fuel Type Heat Type (2) Heat Type (3) Heat Type (4)
2 961 230 6
3 16 1 298
4 144 71 1
Total 1121 302 305

S obzirom da ovdje imamo manje od 5 opažanja u dvije ćelije (\(\approx 22 \%\)), nećemo se moći pouzdati u rezultate provedenog testa. No, radi ilustracije tumačenja, svejedno nastavljamo.

Ovdje su \(df=(3-1)(3-1)=4\). Uz \(α=0.05\), teorijska distribucija na koju se oslanjamo pri donošenju odluke o nul hipotezi izgleda ovako:

Koeficijent značajnosti je \(χ_α^2=9.49\) te dijeli distribuciju na područje odbacivanja (neobojani dio) i nedobacivanja (obojani dio) nul hipoteze. Izračunata testna veličina je \(χ^2=1594.379\) i nalazi se duboko u području odbacivanja. To potvrđuje i p-vrijednost (\(p<0.001\)).

Tablica 48. Hi-kvadrat test

Value df p
Χ² 1594.3791 4 < .001
N 1728 - -

Na razini značajnosti 5% odbacuje se pretpostavka da su varijable vrsta goriva i vrsta grijanja međusobno neovisne. Zaključuje se da su ove varijable međusobno ovisne.

Tablica 49. Mjere povezanosti nominalnih varijabli

Measure Value
Contingency Coefficient 0.6927
Phi-Coefficient NaN
Cramer’s V 0.6792
Lambda (rows) 0.4646
Lambda (columns) 0.5499
Lambda (symmetric) 0.5072

Posljednja tablica predstavlja različite mjere povezanosti (engl. association measures) koje se koriste za procjenu snage veze između varijabli u tablici kontingencije.

Contingency koeficijent mjeri jačinu povezanosti između dviju varijabli. Kreće se od 0 (nema povezanosti) do približno 1 (snažna povezanost), ali rijetko doseže 1 zbog ovisnosti o dimenzijama tablice.Vrijednost od 0.6927 ukazuje na umjerenu do jaku povezanost između vrste goriva i vrste grijanja.

Cramerov V je standardizirana mjera povezanosti koja nije ograničena brojem redaka i stupaca tablice. Mjeri povezanost između varijabli, ali se može koristiti za tablice različitih dimenzija. Vrijednost V=0.6792 sugerira umjerenu do jaku povezanost između vrste goriva i vrste grijanja.

Lambda (rows) mjeri koliko informacija o varijabli u redovima možemo objasniti poznavanjem varijable u stupcima. Vrijednost 0.4646 znači da se 46.46% neizvjesnosti u vrsti goriva može objasniti vrstom grijanja.

Lambda (Columns) za stupce mjeri koliko informacija o varijabli u stupcima možemo objasniti poznavanjem varijable u redovima. Vrijednost 0.5499 sugerira da se 54.99% neizvjesnosti u vrsti grijanja može objasniti vrstom goriva.

Lambda (Symmetric) je prosjek Lambdi izračunatih za retke i stupce. Vrijednost 0.5072 sugerira da, u prosjeku, poznavanjem jedne varijable možemo smanjiti neizvjesnost o drugoj za 50.72%.

Memento

Na različitim mrežnim stranicama naći ćete različite pristupe po pitanju odlučivanja o odabiru testa. Ovdje je ponuđen jedan od načina kojim se možete voditi pri odabiru testa. U svakom slučaju, postoji nekoliko pitanja na koja treba dati odgovor prije odabira testa:

  1. Koje je vrste varijabla koja se testira i na kojoj je razini mjerena?
  2. Postoji li jedan uzorak, dva ili više njih?
  3. Ako postoje dva ili više uzoraka, jesu li opažanja nezavisna ili uparena?
  4. Koliko je opažanja prikupljeno?
  5. Jesu li podaci (ili razlike/reziduali) normalno distribuirani?
  6. Ako postoje dva ili više uzoraka, jesu li varijance jednake?




Tablica 50. Češće korišteni statistički testovi

Test Izračun Hipoteze Distribucija (vrsta testa) Pretpostavke
z-test \(s_{\bar{x}} = \frac{\sigma}{\sqrt{n}}\)

\(z = \frac{\bar{x} - \mu_o}{s_{\bar{x}}}\)
\(z = \frac{\bar{x}_1 - \bar{x}_2}{s_{\bar{x}}}\)

\(z = \frac{\hat{p} - p_o}{s_{\hat{p}}}\)
\(z = \frac{\hat{p}_1 - \hat{p}_2}{s_{\hat{p}}}\)
\(H_0: \mu = \mu_0\)
\(H_1: \mu \neq \mu_0\)
\(H_0: \mu \leq \mu_0\)
\(H_1: \mu > \mu_0\)
\(H_0: \mu \geq \mu_0\)
\(H_1: \mu < \mu_0\)
\(H_0: \mu_1 = \mu_2\)
\(H_1: \mu_1 \neq \mu_2\)

\(H_0: p = p_0\)
\(H_1: p \neq p_0\)
\(H_0: p \leq p_0\)
\(H_1: p > p_0\)
\(H_0: p \geq p_0\)
\(H_1: p < p_0\)
\(H_0: p_1 = p_2\)
\(H_1: p_1 \neq p_2\)
Normalna
Parametrijski
Varijabla je kvantitativna i normalno (ili približno normalno) distribuirana.
Opažanja su međusobno neovisna i \(n>30\).
Poznata je standardna devijacija populacije.
Uzorak je kreiran slučajnim uzorkovanjem.
Uzorak je odabran iz normalne distribucije (ako se testira prosjek).
Za testiranje proporcije, uvjetima za normalnu aproksimaciju kod binarnog rasporeda su \(np_0≥5\) i \(n(1−p_0)≥5\)
t-test
(jedan uzorak)
\(t=\frac{\bar{x}-μ}{s/\sqrt{n}}=\frac{x ̅-μ}{s_\bar{x}}\)

\(df=n-1\)
\(H_0: \mu = \mu_0\)
\(H_1: \mu \neq \mu_0\)
\(H_0: \mu \leq \mu_0\)
\(H_1: \mu > \mu_0\)
\(H_0: \mu \geq \mu_0\)
\(H_1: \mu < \mu_0\)
Studentova
Parametrijski
Varijabla je kvantitativna i normalno distribuirana.
Opažanja su međusobno neovisna.
Nije poznata standardna devijacija populacije ili je uzorak malen.
Uzorak je kreiran slučajnim uzorkovanjem.
Uzorak je odabran iz normalne distribucije.
Wilcoxon test
(za jedan uzorak)
(Wilcoxon Signed-Rank test)
\(D_i=x_i-μ_0\)
\(W=∑\)Pozitivni rangovi
\(z=\frac{W-μ_W}{σ_W}\)
\(μ_W=\frac{n(n+1)}{4}\)
\(σ_W=\sqrt{\frac{n(n+1)(2n+1)}{24})}\)
\(H_0:\) medijan razlika je 0
\(H_1:\) medijan razlika \(\neq 0\)
Normalna, aproksimacija
Neparametrijski
Neparametrijska alternativa t-testu za jedan uzorak.
Podaci mogu biti mjereni na ordinalnoj, intervalnoj ili omjernoj razini.
Opažanja su međusobno neovisna.
Varijance uzoraka ne moraju biti jednake.
Podaci ne moraju biti normalno distribuirani.
t-test
(dva uzorka)
(pooled t-test)
\(t=\frac{x ̅_1-x ̅_2}{s \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\)
\(s^2=\frac{(n_1-1) s_1^2+(n_2-1) s_2^2}{n_1+n_2-2}\)
\(df=n_1 +n_2 -2\)
\(H_0: \mu_1 = \mu_2\)
\(H_1: \mu_1 \neq \mu_2\)
Studentova
Parametrijski
Varijabla/e su kvantitativna/e i normalno distribuirana/e.
Opažanja su međusobno neovisna.
Nije poznata standardna devijacija populacije.
Varijance uzoraka su jednake.
Uzorci su kreirani slučajnim uzorkovanjem.
t-test za uparena opažanja \(t= \frac{\bar{D}}{s_D/\sqrt{n}}\) \(H_0: \mu_d = 0\)
\(H_1: \mu_d \neq 0\)
Studentova
Parametrijski
Varijabla je kvantitativna i normalno distribuirana.
Ponovljena opažanja na istim ispitanicima.
Uzorci su jednake veličine (nužan uvjet; po definiciji uparenih podataka, oba niza moraju imati isti broj mjerenja).
Uzorak je kreiran slučajnim uzorkovanjem.
Welchov t-test \(t= \frac{\bar{x}_1-\bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} +\frac{s_2^2}{n_2}}}\)
\(df = \frac{\left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2}{\frac{\left( \frac{s_1^2}{n_1} \right)^2}{n_1 - 1} + \frac{\left( \frac{s_2^2}{n_2} \right)^2}{n_2 - 1}}\)
\(H_0: \mu_1 = \mu_2\)
\(H_1: \mu_1 \neq \mu_2\)
Studentova
Parametrijski
Varijabla je kvantitativna i normalno distribuirana.
Opažanja su međusobno neovisna.
Varijance uzoraka nisu jednake.
Uzorak je kreiran slučajnim uzorkovanjem.
Mann-Whitney U-test \(R1\): Suma rangova za prvu grupu
\(R2\): Suma rangova za drugu grupu
\(U_1=n_1 \cdot n_2+\frac{n_1 (n_1+1)}{2}-R_1\)
\(U_2=n_1 \cdot n_2+\frac{n_1 (n_1+1)}{2}-R_2\)
\(U=min⁡(U_1,U_2)\)
\(z= \frac{U-μ_U}{σ_U}\)
\(μ_U=\frac{n_1 n_2}{2}\)
\(σ_U=\sqrt{\frac{n_1 n_2 (n_1+n_2+1)}{12}}\)
\(H_0…\) distribucije dviju grupa su jednake
\(H_1…\) distribucije dviju grupa su različite

\(H_0…\) medijani dviju grupa su jednaki
\(H_1…\) medijani dviju grupa su različiti
Normalna, aproksimacija
Neparametrijski
Neparametrijska alternativa t-testu za dva uzorka.
Podaci su mjereni na ordinalnoj, intervalnoj ili omjernoj razini.
Podaci ne moraju biti normalno distribuirani.
Varijance uzoraka ne moraju biti jednake.
McNemar test \(\chi^2 = \frac{(b-c)^2}{b+c}\) \(H_0: p_b = p_c\)
\(H_1: p_b \neq p_c\)

\(H_0:\) p(uspjeh) je jednak u dva povezana uvjeta
\(H_1:\) p(uspjeh) se razlikuje
\(\chi^2\)-distribucija
Neparametrijski
Postoji nominalna varijabla s dvije kategorije.
Primjenjuje se na uparene ili ponovljene mjere s binarnom (dihotomnom) varijablom.
Uobičajeno za procjenu promjene odgovora prije/poslije kod istih ispitanika.
Uzorak mora biti slučajan i parovi (prije/poslije) moraju biti jasno definirani.
Wilcoxon test (upareni podaci)
(Wilcoxon Signed-Rank test)
\(W=\min\Bigl(\sum^+\) rangovi, \(\sum^-\) rangovi \(\Bigr)\)
(ili se računa razlika, rangira, pa z-aproksimacija za veće n)
\(H_0:\) medijan razlika je 0
\(H_1:\) medijan razlika \(\neq\) 0
Normalna, aproksimacija
Neparametrijski
Podaci su mjereni na ordinalnoj, intervalnoj ili omjernoj razini.
Koristi se za usporedbu dviju povezanih (uparenih) mjera.
Ne zahtijeva normalnost razlika.
Podaci su odabrani nasumično i neovisno.
Za veće uzorke koristi se z-aproksimacija.
Test se koristi i za jedan uzorak (kada se testira razlika od neke fiksne vrijednosti) i za uparene uzorke (kada se testira razlika dvaju povezanih mjerenja).
F-test jednakosti varijanci \(F = \frac{s_1^2}{s_2^2}\) \(H_0: \sigma_1^2 = \sigma_2^2\)
\(H_1: \sigma_1^2 \neq \sigma_2^2\)
F-distribucija
Parametrijski
Varijabla je kvantitativna i normalno distribuirana.
Opažanja su međusobno neovisna i \(n > 30\).
Uzorak je kreiran slučajnim uzorkovanjem.
ANOVA \(SS_W = \sum_{j=1}^{k} \sum_{i=1}^{n_j} (x_{ij} - \bar{x}_j)^2\)
\(SS_B = \sum_{j=1}^{k} n_j (\bar{x}_j - \bar{x})^2\)
\(SS_T = \sum_{j=1}^{k} \sum_{i=1}^{n_j} (x_{ij} - \bar{x})^2\)
\(F = \frac{MSB}{MSW} = \frac{SSB / (k-1)}{SSW / (n-k)}\)
\(H_0: \mu_1 = \mu_2 = \dots = \mu_K\)
\(H_1\): Postoji razlika između prosjeka populacija
F-distribucija
Parametrijski
Varijabla je kvantitativna i normalno distribuirana.
Opažanja su međusobno neovisna i \(n > 30\).
Reziduali su približno normalno distribuirani.
Varijance uzoraka su približno jednake.
Uzorci su kreirani slučajnim uzorkovanjem.
Friedmanova analiza varijance \(\chi^2=\frac{12N}{k(k+1)}\sum_{j=1}^k \Bigl(\bar{R}_j-\frac{k+1}{2}\Bigr)^2\)
(gdje su \(\bar{R}_j\) prosječni rangovi po stupcima)
\(H_0:\) sve tretirane jedinice imaju jednake medijane
\(H_1:\) barem jedan tretman (faktor) ima drugačiji učinak
\(\chi^2\)-aproksimacija
Neparametrijski
Podaci trebaju biti upareni ili ponovljena mjerenja (npr. Likertova ljestvica).
Ne zahtijeva normalnost ni homogenost varijanci.
Koristi rangove unutar svakog bloka (ispitanika).
Kruskal-Wallis test \(H = \frac{12}{N(N+1)} \sum \frac{R_k^2}{n_k} - 3(N+1)\) \(H_0\): nema razlike među populacijama
\(H_1\): postoji razlika među populacijama

\(H_0:\) postoji jednakost raspodjela (ili medijana) među k skupina
\(H_1:\) barem jedna skupina se razlikuje
\(\chi^2\)-distribucija
Neparametrijski
Dizajn nezavisnih varijabli s dvije ili više skupina (nezavisne grupe).
Test se često koristi kada su uvjeti za ANOVA narušeni.
Podaci su mjereni na ordinalnoj, intervalnoj ili omjernoj razini.
Grupe trebaju imati slične oblike distribucije (ako se testira jednakost medijana).
Hi-kvadrat test sukladnosti \(\chi^2 = \sum \frac{(m_i - e_i)^2}{e_i}\) \(H_0\): distribucija se ravna prema pretpostavljenoj distribuciji
\(H_1\): distribucija se razlikuje
\(\chi^2\)-distribucija
Neparametrijski
Uzorak je kreiran slučajnim uzorkovanjem.
Opažanja su međusobno neovisna.
Varijable su tipično kategorijske (ili prekodirane u kategorijske).
Očekivana vrijednost polja u tablici mora biti veća od 5 u barem 80% polja tablice.
Hi-kvadrat test homogenosti \(\chi^2 = \sum_{i,j} \frac{(O_{ij}-E_{ij})^2}{E_{ij}}\) \(𝐻_0: 𝑝_1=𝑝_2=…=𝑝_𝑛\)
\(𝐻_1: p_1≠𝑝_2≠…≠𝑝_𝑛\)

\(H_0:\) distribucija jedne kategorijalne varijable je ista u više populacija
\(H_1:\) postoji razlika
\(\chi^2\)-distribucija
Neparametrijski
Uzorci su međusobno nezavisni.
Varijable su tipično kategorijske (ili prekodirane u kategorijske).
Očekivane frekvencije trebaju biti \(\ge 5\) u većini ćelija.
Broj kategorija (modaliteta varijable) \(\geq 2\).
Broj populacija \(\geq 2\).
Hi-kvadrat test neovisnosti \(\chi^2 = \sum_{i,j} \frac{(O_{ij}-E_{ij})^2}{E_{ij}}\) \(H_0:\) varijable su međusobno neovisne
\(H_1:\) varijable su međusobno ovisne
\(\chi^2\)-distribucija
Neparametrijski
Uzorak je kreiran slučajnim uzorkovanjem.
Varijable su tipično kategorijske (ili prekodirane u kategorijske).
Očekivane frekvencije u ćelijama \(\ge 5\) (barem 80% ćelija)
Opažanja su neovisna.
Broj kategorija (modaliteta pojedine varijable) \(\geq 2\).


Pitanja za ponavljanje


  1. Imate uzorak od 40 opažanja (mjerenja otkucaja srca, kvantitativna varijabla). Shapiro–Wilk test daje p-vrijednost 0,03, a histogram pokazuje blagu asimetriju. Želite testirati je li populacijski prosjek otkucaja srca različit od 120. Koji je test najprikladniji?

A. t-test za jedan uzorak
B. z-test za jedan uzorak
C. Wilcoxonov test
D. Hi‑kvadrat test

  1. Istraživač uspoređuje prosječne otkucaje srca između dvije nezavisne skupine (trkači i nekontrolna skupina), pri čemu svaka grupa ima 400 opažanja. Leveneov test pokazuje da su varijance značajno različite (p < 0,001), a pretpostavlja se normalnost. Koji test biste koristili?

A. Studentov t-test za nezavisne uzorke
B. Welchov t-test
C. Mann–Whitney U test
D. Upareni t-test

  1. U studiji se mjeri težina prije i poslije osmotjednog razdoblja pretjeranog unosa kalorija za iste ispitanike. Koji od sljedećih koraka nije potreban za provođenje uparenog t-testa?

A. Izračunati razliku između težina prije i poslije.
B. Provjeriti normalnost distribucije razlika.
C. Pretpostaviti da su dvije mjere neovisne.
D. Izračunati prosjek i standardnu devijaciju razlika.

  1. Jednofaktorska ANOVA se koristi za usporedbu prosjeka među trima skupinama. Koje pretpostavke je potrebno provjeriti? (Odaberite sve točne)

A. Reziduali unutar svake grupe trebaju biti normalno distribuirani.
B. Varijance među grupama trebaju biti jednake.
C. Opažanja moraju biti neovisna.
D. Populacijski prosjeci moraju biti jednaki.

  1. U kojem od sljedećih slučajeva biste odabrali neparametrijski test umjesto parametrijskog? (Odaberite sve točne)

A. kad je veličina uzorka vrlo mala.
B. kad su podaci izrazito asimetrični i sadrže ekstremne vrijednosti.
C. kad su podaci kvantitativni i normalno distribuirani.
D. kad je mjerna skala podataka ordinalna.

  1. Dva nezavisna uzorka imaju prosjeke 139 i 110 otkucaja, standardna odstupanja 18,95 i 15,53 te veličine uzoraka 400. Cohenov d izračunava se kao
    \[ d = \frac{139 - 110}{s_{\text{pool}}} \] Ako je \(s_{\text{pool}}\) otprilike 17,3, koja je interpretacija veličine efekta?

A. Mali efekt
B. Srednji efekt
C. Veliki efekt
D. Nema dovoljno informacija za procjenu

  1. Ako podaci ne zadovoljavaju pretpostavku normalnosti, ali je veličina uzorka vrlo velika (n > 1000), koja je najtočnija tvrdnja?

A. Centralni granični teorem osigurava da je distribucija prosjeka približno normalna.
B. Neparametrijski testovi se uvijek moraju koristiti bez obzira na veličinu uzorka.
C. Podatke je potrebno transformirati prije testiranja.
D. Nepoštivanje normalnosti uvijek čini t-test nevažećim.

  1. U stablu odluke za odabir testa postavljeno je pitanje: “Je li varijabla kvantitativna?” Ako je odgovor NE i varijabla ima dva modaliteta, koji se test preporučuje?

A. t-test za jedan uzorak
B. Binomni test proporcija
C. Mann–Whitney U test
D. Wilcoxonov test potpisanih rangova

  1. Za testiranje proporcije, kad se koristi z-test za proporcije, koji je ispravan postupak?

A. Izračunati standardnu pogrešku pomoću promatrane proporcije, izračunati z-vrijednost te usporediti s kritičnom vrijednošću z.
B. Pretpostaviti da je promatrana proporcija jednaka populacijskoj te koristiti t-test.
C. Izravno primijeniti binomnu formulu bez izračuna standardne pogreške.
D. Prvo izračunati interval povjerenja, a zatim p-vrijednost.

  1. Koji uvjet je ključan za valjanost Hi‑kvadrat testa u tablici kontingence?

A. Očekivana frekvencija u svakoj ćeliji mora biti najmanje 5.
B. Ukupna veličina uzorka mora biti manja od 100.
C. Podaci moraju biti upareni.
D. Varijable moraju biti kvantitativne.

  1. Zašto se, kad je standardna devijacija populacije nepoznata, koristi t-test umjesto z-testa?

A. Zbog toga što t-test ne zahtijeva pretpostavku normalnosti.
B. Zbog dodatne neizvjesnosti koju uzrokuje korištenje standardne devijacije uzorka.
C. Jer je z-test primjenjiv samo na kvalitativne podatke.
D. Jer t-test uvijek daje manju p-vrijednost.

  1. Za uparene podatke kod kojih razlike ne slijede normalnu distribuciju, koji test je najprikladniji?

A. Upareni t-test
B. Wilcoxonov test potpisanih rangova
C. Nezavisni t-test
D. Mann–Whitney U test

  1. Studija daje p-vrijednost 0,04 pri testiranju hipoteze na razini značajnosti od 5%. Koji zaključak je najprikladniji?

A. Postoji snažan dokaz da je alternativna hipoteza istinita.
B. Nedovoljno dokaza za odbacivanje nul hipoteze.
C. Postoji dovoljno dokaza za odbacivanje nul hipoteze.
D. Nul hipoteza je dokazano lažna.

  1. Kako se razlikuju teorijske i statističke hipoteze?

A. Teorijske hipoteze izražavaju širu, konceptualnu ideju, dok ju statističke hipoteze precizno kvantificiraju.
B. Statističke hipoteze su šire od teorijskih.
C. Teorijske hipoteze se direktno testiraju statističkim metodama.
D. Nema razlike; one su identične.

  1. Što Q–Q graf pokazuje pri procjeni normalnosti podataka?

A. Ako točke približno slijede pravac, podaci su približno normalno distribuirani.
B. Ako je graf zvonoliki, podaci su ravnomjerno distribuirani.
C. Outlieri ne utječu na Q–Q graf.
D. Q–Q graf se koristi samo za kvalitativne podatke.

  1. Ako ANOVA daje vrlo visoku F-statistiku s p-vrijednošću < 0,001, što to implicira?

A. Postoji značajna razlika između barem jednog para grupa.
B. Svi grupni prosjeci su jednaki.
C. Pretpostavke ANOVA-e su narušene.
D. Test ima nisku snagu.

  1. U kojem slučaju biste koristili Welchov t-test umjesto standardnog t-testa za nezavisne uzorke?

A. Kad su varijance jednake.
B. Kad su veličine uzoraka jednake.
C. Kad pretpostavka jednakosti varijanci nije zadovoljena.
D. Kad su podaci upareni.

  1. Dunnov post–hoc test primjenjuje se nakon značajnog rezultata Kruskal–Wallis testa. Koja je njegova karakteristika?

A. Uspoređuje se direktno prosjeke grupa.
B. Koristi rangirane podatke za usporedbu suma rangova između grupa.
C. Koristi se samo kad Kruskal–Wallis test nije značajan.
D. Ne zahtijeva prilagodbu za višestruka uspoređivanja.

  1. Koja od sljedećih mjera nije prikladna za procjenu povezanosti između dvije kvalitativne varijable?

A. Cramerov V
B. Phi koeficijent
C. Cohenov d
D. Kontingencijski koeficijent

  1. Ako odluka stabla za odabir testa pokazuje da je varijabla mjerena na ordinalnoj razini, ali imamo dva nezavisna uzorka, koji test je prikladniji?

A. t-test
B. Mann–Whitney U test
C. Hi‑kvadrat test
D. z-test za jedan uzorak

  1. Testira se pretpostavka kako turisti u Hrvatskoj provedu prosječno 7.5 dana tijekom svog ljetovanja. Izabran je uzorak od 200 turista gdje je ispitivanjem utvrđeno kako je broj dana provedenih u hrvatskoj tijekom ljetovanja normalno distribuiran uz prosjek od 6.9 dana. Standardno odstupanje populacije je 4 dana. Pretpostavka se testira na razini 5% znčajnosti. Odaberite sve točne tvrdnje.
  1. Za ovaj problem treba primijeniti z-test za jedan uzorak, jer je poznata standardna devijacija populacije (4 dana).
  2. Budući da je standardna devijacija uzorka jednaka 4, primjenjujemo t-test za jedan uzorak.
  3. Na razini značajnosti 5%, kritična vrijednost za dvostrani z-test iznosi otprilike \(±1.96\).
  4. Nul hipoteza treba biti: \(H_0: μ = 6.9\), a \(H_1: μ ≠ 6.9\).
  5. Ako je p-vrijednost manja od 0.05, zaključujemo da prosječno trajanje nije 7.5 dana.
  6. Ako ne odbacimo \(H_0\), to znači da je prosječno trajanje putovanja točno 7.5 dana.
  7. Ako je z-statistika veća od 1.96, prihvaćamo \(H_0\).
  8. Budući da je \(n=200\), pretpostavka normalne distribucije nije potrebna.
  9. Za dvostrani test, ako je \(|z| < 1.96\), ne odbacujemo \(H_0\) na razini 5%.
  10. Ako je p-vrijednost manja od 0.05, to znači da je prosječni boravak točno 7.5 dana.
  1. Testira se tvrdnja jedne pizzerie oglašena na njihovom letku kako će pizza biti dostavljena u manje od 30 minuta. U slučajan uzorak odabrano je 20 narudžbi i mjereno je vrijeme potrebno za dostavu. Temeljem uzorka utvrđeno je da pizzeria isporučuje pizze u prosjeku za 33 minute, uz standardno odstupanje od 15 minuta. Dostavlja li pizzeria hranu za duže za 30 minuta? Razina značajnosti je 10%. Odaberite sve točne tvrdnje.
  1. Budući da je \(α=10%\), jednostrani test se ne može primijeniti.
  2. Zbog malog uzorka i nepoznate varijance populacije, primijenit ćemo t-test za jedan uzorak.
  3. Nul hipoteza: \(H_0: μ \leq 30\) minuta, a alternativna \(H_1: μ > 30\) minuta.
  4. Ako je p-vrijednost veća od 0.1, odbacujemo \(H_0\) i zaključujemo da je dostava sporija od 30 minuta.
  5. Pretpostavka normalnosti ovdje nije potrebna jer je uzorak slučajan.
  6. Točna nul hipoteza trebala bi glasiti: \(H_0: μ = 33\), a \(H_1: μ ≠ 33\).
  7. Ako je t-statistika unutar intervala kritičnih vrijednosti za 10%, ne odbacujemo \(H_0\).
  8. Ako se p-vrijednost pokaže manjom od 0.10, odbacujemo \(H_0\) i zaključujemo da pizzeria ne isporučuje u manje od 30 minuta.
  9. Budući da je uzorak manji od 30, potrebno je koristiti isključivo z-test.
  10. Ako odbacimo \(H_0\), to znači da pizzeria ne prelazi statistički značajno deklariranih 30 minuta dostave.
  1. Jedno poduzeće izvršilo je testiranje svojih zaposlenika kako bi utvrdio jesu li zaposlenici dovoljno učinkoviti. Smatra se da su zaposlenici učinkoviti ako proizvedu bar 6 proizvoda po satu. Istraživanje na uzorku od 50 zaposlenika pokazalo je da zaposlenici prosječno naprave 5.8 proizvoda po satu. Poznato je standardno odstupanje populacije od 1.7 proizvoda. Razina značajnosti je 5%. Odaberite sve točne tvrdnje.
  1. Razina značajnosti 5% znači da je kritična vrijednost z-distribucije ±2.58.
  2. Nul hipoteza: \(H_0: μ < 6\), alternativna hipoteza \(H_1: μ ≥ 6\).
  3. Budući da je poznata populacijska devijacija (1.7), koristimo z-test za jedan uzorak.
  4. Ako je p-vrijednost manja od 0.05, zaključujemo da zaposlenici proizvedu manje od 6 proizvoda po satu.
  5. Ovaj je test dvostrani jer nas zanima je li \(μ ≠ 6\).
  6. Pretpostavlja se normalna raspodjela broja proizvoda po satu, što opravdava z-test.
  7. Ako ne odbacimo \(H_0\), to znači da radnici proizvode točno 6 proizvoda po satu.
  8. Za ovakav test nije potrebna nikakva pretpostavka o slučajnom odabiru uzorka.
  9. U slučaju da je testna statistika manja od \(−z_\alpha\), odbacujemo \(H_0\) i tvrdimo da radnici ne dosežu 6 proizvoda po satu.
  10. Na razini značajnosti 5%, ako je p-vrijednost veća od 0.05, zaključujemo da nema dokaza da se radnici razlikuju od 6 proizvoda po satu.
  1. Želi se utvrditi razlika u zagađivanju okoliša bacanjem smeća izvan koša za smeće u dva grada, uz pretpostavku da se bacanje smeća ravna prema normalnoj distribuciji. U gradu a ispitano je 170 stanovnika. U tom su gradu stanovnici prosječno bacilli smeće izvan koša 6 puta, uz standardnu devijaciju od 2 bacanja. U gradu bispitano je 150 osoba, a stanovnici su prosječno bacilli smeće izvan koša 7 puta, uz standardnu devijaciju 1. Postoji li razlika između navika bacanja smeća u gradovima a i b? testiranje i zaključak provode se na razini značajnosti 5%. Odaberite sve točne tvrdnje.
  1. Ovdje se radi o dvostrukom testu proporcija, jer je riječ o bacanju smeća.
  2. Primijenit će se t-test za dva nezavisna uzorka s jednakim varijancama.
  3. Budući da \(s_A ≠ s_B\), moramo primijeniti upareni t-test.
  4. \(H_0: μ_A = μ_B\), \(H_1: μ_A ≠ μ_B\).
  5. Razina značajnosti je 0.05, pa za dvostrani test kritična vrijednost t-distribucije (df ≈ 318) iznosi otprilike ±1.96.
  6. Ako se p-vrijednost pokaže većom od 0.05, zaključujemo da ne postoji razlika između gradova A i B.
  7. Budući da je \(n=170\) i \(n=150\), test treba biti isključivo neparametrijski.
  8. Pretpostavka normalnosti nije bitna za t-test.
  9. Ako je test statistika unutar intervala (\(−t_{\alpha}, t_{\alpha}\)), ne odbacujemo \(H_0\).
  10. Za upareni t-test treba da uzorci imaju istu veličinu, što ovdje nije slučaj.
  1. Zavod za zapošljavanje objavio je da osobe s visokom stručnom spremom čekaju na posao najviše 3 mjeseca. Provedeno je istraživanje na uzorku 20 osoba s visokom stručnom spremom i utvrđeno je da su u prosjeku čekali na zapošljavanje 3.5 mjeseci. Poznato je standardno odstupanje populacije i iznosi 1.5 mjeseci. Zaključak se donosi na razini 5% značajnosti. Odaberite sve točne tvrdnje.
  1. Ako je z-statistika manja od 1.645, prihvaćamo \(H_0\).
  2. Budući da je varijabla normalno distribuirana, ne smijemo koristiti z-test.
  3. Razina značajnosti je 5%, što implicira jednostrani test s kritičnom vrijednošću z oko 1.645.
  4. Ako je p-vrijednost manja od 0.05, odbacujemo \(H_0\) i tvrdimo da se čeka duže od 3 mjeseca.
  5. U ovom je slučaju t-test obvezan, jer je uzorak malen (\(n=20\)).
  6. Ako ne odbacimo \(H_0\), to znači da je prosječno čekanje točno 3.5 mjeseci.
  7. Budući da je poznata populacijska devijacija (1.5), koristimo z-test za jedan uzorak.
  8. Nul hipoteza: \(H_0: μ ≤ 3\), a alternativna: \(H_1: μ > 3\).
  9. Ovaj test je dvostrani jer nas zanima je li \(μ ≠ 3\).
  10. Ako dobijemo p-vrijednost veću od 0.05, ne odbacujemo \(H_0\) i zaključujemo da nema dokaza da se prelazi 3 mjeseca.
  1. Pretpostavlja se kako nema razlike u brzini čitanja studenata ekonomskog fakulteta, medicinskog fakulteta i fakulteta odgojno obrazovnih znanosti. U uzorak je uzeto 300 studenata sa svakog fakulteta. Potrebno je donijeti zaključak na razini značajnosti 5%. Odaberite sve točne tvrdnje.
  1. Budući da postoje 3 nezavisne skupine, primijenit ćemo ANOVA test.
  2. Za ovakvu situaciju ispravno je koristiti t-test za jedan uzorak.
  3. Nul hipoteza glasi: \(H_0: μ1 = μ2 = μ3\), a \(H_1\): barem jedna skupina odstupa.
  4. Ovo je primjer dvostrukog testiranja proporcija, jer se radi o brzini čitanja.
  5. Ako p-vrijednost < 0.05, odbacujemo \(H_0\) i zaključujemo da postoje razlike.
  6. Ako je p-vrijednost > 0.10, možemo zaključiti da razlike postoje.
  7. Za ANOVA je nužno da su varijance skupina različite.
  8. ANOVA se ne može primijeniti ako je veličina uzorka u svakoj skupini veća od 100.
  9. Kod α=5%, ako je F-statistika u kritičnom području, ne odbacujemo \(H_0\).
  10. Ako je p-vrijednost < 0.05, to znači da su sve skupine jednake.
  1. Preispituje se sklonost prepisivanju studenata Sveučilišta Jurja Dobrile u Puli. Ukoliko je manje od 15% studenata koji prepisuju, Sveučilište neće uvoditi nova, stroža pravila. U uzorku od 500 studenata utvrđena je proporcija prepisivača 0.14. Na razini značajnosti 1%, testira se tvrdnja da će Sveučilište morati uvesti stroža pravila zbog prepisivanja. Odaberite sve točne tvrdnje.
  1. Riječ je o testu jedne proporcije, pa se koristi z-test za proporciju.
  2. Ako je p-vrijednost > 0.01, odbacujemo \(H_0\) i tvrdimo da prepisuje manje od 15%.
  3. Ako je test statistika veća od \(z_{\alpha}\), odbacujemo \(H_0\) i tvrdimo da p < 0.15.
  4. Budući da je α=1%, dvostrani test je obavezan.
  5. Za normalnu aproksimaciju trebamo np0 ≥ 5 i n(1−p0) ≥ 5.
  6. Nul hipoteza: \(H_0: p ≥ 0.15\), \(H_1: p < 0.15\).
  7. Ako ne odbacimo \(H_0\), znači da je p=0.14.
  8. Kritična vrijednost za jednostrani test na 1% je otprilike z=1.645.
  9. Ako je p-vrijednost < 0.01, odbacujemo \(H_0\) i tvrdimo da je manje od 15% studenata koji prepisuju.
  10. Test varijance je ovdje prikladniji jer se radi o postotku.
  1. Dva tima studenata pripremala su se za ispit iz programiranja. Tim A koristio je interaktivne online lekcije, dok je Tim B učio iz skripte. Nakon četiri tjedna, testirano je 50 studenata iz Tima A i utvrđeno je da su u prosjeku postigli 78% bodova na ispitu od mogućih 100 bodova. Iz Tima B testirano je 65 studenata i utvrđeno je da su postigli 82% bodova od mogućih 100 bodova. Na razini značajnosti 10% provjerite može li se zaključiti da su studenti u oba tima postigli podjednak uspjeh. Odaberite sve točne tvrdnje:
  1. Budući da imamo dvije nezavisne skupine i mjerimo prosječni broj postignutih bodova, koristimo t-test za dvije nezavisne skupine.
  2. Nul hipoteza: \(H_0:μ_1=μ_2\), a \(H_1:μ_1≠μ_2\).
  3. Ako je p-vrijednost > 0.1, zaključujemo da se postignuti bodovi značajno razlikuju.
  4. Za testiranje razlike dviju proporcija trebamo znati standardnu devijaciju populacije.
  5. Budući da su varijance vjerojatno jednake, primijenit ćemo varijantu testa za jednake varijance (pooled).
  6. Ako se ispostavi da je p-vrijednost < 0.1, odbacujemo \(H_0\).
  7. Ovdje bi hi-kvadrat test bio primjereniji jer su to dvije skupine.
  8. Razina značajnosti 10% znači da je kritična vrijednost za dvostrani test t oko \(±2.576\).
  9. Ako je test statistika unutar intervala (\(−t_α,t_α\)), ne odbacujemo \(H_0\).
  10. Ako je p-vrijednost < 0.10, tvrdimo da su studenti u oba tima postigli jednake rezultate.
  1. Na letku osobe koja drži instrukcije iz statistike stoji tvrdnja da će barem 80% osoba nakon instrukcija proći kolegij otprve. Intervjuirano je 37 osoba koje su bile na instrukcijama i utvrđeno je da ih je 77% položilo kolegij otprve. Na razini značajnosti 7% donosimo zaključak o tvrdnji instruktora. Odaberite sve točne tvrdnje.
  1. Budući da je \(α=7%\), kritična z vrijednost jednostranog testa je otprilike 1.645.
  2. Za normalnu aproksimaciju nije potrebna nikakva pretpostavka o \(n\).
  3. Ovo je test jedne proporcije, z-test za \(p_0 = 0.80\).
  4. Ako je p-vrijednost > 0.07, ne odbacujemo \(H_0\) i tvrdimo da nema dokaza protiv 80%.
  5. Nul hipoteza: \(H_0: p ≥ 0.80\), \(H_1: p < 0.80\).
  6. Ako je test statistika unutar intervala (\(−z_{\alpha}, z_{\alpha}\)), odbacujemo H_0.
  7. Ako je p-vrijednost < 0.07, odbacujemo \(H_0\) i zaključujemo o \(p < 0.80\).
  8. Ovdje je primjeren dvostrani test jer nas zanima je li \(p ≠ 0.80\).
  9. Ako je z-statistika pozitivna i veća od \(z_{\alpha}\), onda ne odbacujemo \(H_0\).
  10. Ovaj test je neparametrijski i temelji se na normalnoj aproksimaciji.
  1. Bolnički odjel želi provjeriti pošiljku od 100 pakiranja lijekova od jednog dobavljača. Pošiljka se može prihvatiti kao ispravna ako ima manje od 1% oštećenih pakiranja. Zaključak se donosi na 1% razini signifikantnosti. Odaberite sve točne tvrdnje.
  1. Riječ je o testu jedne proporcije (\(p < 0.01\)).
  2. Nul hipoteza: \(H_0: p ≥ 0.01\), \(H_1: p < 0.01\).
  3. Ako je p-vrijednost < 0.01, odbacujemo \(H_0\).
  4. Kod α=1%, jednostrani test ima kritičnu vrijednost z otprilike 1.28.
  5. Ako je test statistika manja od \(−z_{\alpha/2}\), odbacujemo \(H_0\) i prihvaćamo da je p < 10%.
  6. Za normalnu aproksimaciju treba vrijediti \(n≥30\) i \(p≥0.05\).
  7. Ovdje se radi o dvostrukom t-testu jer je veličina uzorka 100.
  8. Ako ne odbacimo \(H_0\), to znači da je pošiljka prihvatljiva.
  9. Ako je p-vrijednost veća od 0.01, nema dokaza da je p veće od 1%.
  10. Za p-vrijednost manju od 0.10, zaključujemo da je udio oštećenih manji od 1%.
  1. MUP je prikupio podatke o 200 prometnih nezgoda prema danima tijekom jednog mjeseca. Pretpostavlja se kako se prometne nezgode događaju ravnomjerno prema danima u tjednu. Odaberite sve točne tvrdnje.
  1. Ako je test statistika unutar kritične vrijednosti, ne odbacujemo \(H_0\).
  2. Nema potrebe za sumom \((O−E)²/E\) jer je varijabla normalno distribuirana.
  3. Ako je p-vrijednost > 0.05, odbacujemo \(H_0\).
  4. Varijabla je kvantitativna, pa je primjeren ANOVA test.
  5. Za hi-kvadrat treba da je očekivana frekvencija po danu \(≥ 5\).
  6. Ovaj test ne zahtijeva slučajni uzorak.
  7. Koristi se hi-kvadrat test sukladnosti.
  8. Nul hipoteza: \(H_0\): nezgode su ravnomjerno raspoređene po danima.
  9. Ako je \(\alpha=5\%\) i p-vrijednost < 0.05, tvrdimo da raspodjela nije ravnomjerna.
  10. Hi-kvadrat test se ne može koristiti jer je \(n=200\) premalo.
  1. Temeljem na slučajan način prikupljenih 100 čokolada od po 100 g, Testira se tvrdnja proizvođača čokolada kako njihove čokolada sadrže 40% kaka, 30% lješnjaka, 2% badema i 28% mlijeka u prahu. Odaberite sve točne tvrdnje.
  1. Ako je p-vrijednost < 0.05, to znači da se raspodjela točno podudara s deklaracijom.
  2. Budući da je \(n=100\), primijenit ćemo t-test za jedan uzorak.
  3. Primjenjuje se hi-kvadrat test sukladnosti s pretpostavljenim postocima.
  4. Očekivana frekvencija svake kategorije treba biti \(≥ 5\).
  5. Nul hipoteza: \(H_0\): udjeli sastojaka su 40%, 30%, 2%, 28%.
  6. Alternativna hipoteza: \(H_1\): barem jedan sastojak odstupa od deklaracije.
  7. Kod hi-kvadrat testa sukladnosti, test statistika je \((O−E)/σ\).
  8. Uvijek kad je p-vrijednost > 0.05, ne odbacujemo \(H_0\).
  9. Za dvostrani test varijance treba nam standardna devijacija sastojaka.
  10. Ako je test statistika unutar kritičnog intervala, odbacujemo \(H_0\).
  1. Zavod za zapošljavanje proveo je istraživanje o zapošljavanju u području sestrinstva s obzirom na završenu stručnu spremu i spol, kako bi utvrdili postoji li veza među ta dva obilježja na razini značajnosti 5%. Odaberite sve točne tvrdnje.
  1. Riječ je o hi-kvadrat testu neovisnosti.
  2. Nul hipoteza: \(H_0\): varijable spol i stručna sprema su međusobno neovisne.
  3. Ako je p-vrijednost < 0.05, tvrdimo da ne postoji veza.
  4. Za hi-kvadrat test, očekivane frekvencije u ćelijama trebaju biti ≥ 50.
  5. Budući da su to ordinalne varijable, treba primijeniti Mann-Whitney test.
  6. Ako je hi-kvadrat statistika veća od kritične vrijednosti, odbacujemo \(H_0\).
  7. Ovaj test se može provesti i s ANOVA, jer su dvije kategorijske varijable.
  8. Ako je p-vrijednost veća od 0.05, ne odbacujemo \(H_0\) i tvrdimo da nema dokaza o povezanosti.
  9. Varijance dviju skupina moraju biti jednake.
  10. Pretpostavka normalnosti mora biti ispoštovana za hi-kvadrat test.
  1. U saboru moraju ispoštovati rodne kvote osoba angažiranih u saborskim odborima. Radi provjere ispitane su osobe iz tri saborska odbora te je zabilježen broj muškaraca i žena, a testiranje se provodi na razini značajnosti 1%. Odaberite sve točne tvrdnje.
  1. Za hi-kvadrat test treba da je barem 80% očekivanih frekvencija ≥ 15.
  2. Nul hipoteza: \(H_0\): nema razlike u proporcijama zastupljenosti rodova među odborima.
  3. Na razini značajnosti 1 %, uz p-vrijednost = 0.07, može se zaključiti da su osobe prema rodu proporcionalno zastupljene u saborskim odborima.
  4. Radi se o hi-kvadrat testu homogenosti, jer je rod jedna kategorijska varijabla mjerena za tri populacije (saborska odbora).
  5. Budući da su to tri odbora, ispravno je koristiti ANOVA test.
  6. Za test varijance neophodno je da su varijance jednake.
  7. Ako je p-vrijednost < 0.05, odbacujemo \(H_0\).
  8. \(H_1\): postoji razlika u proporciji zastupljenosti prema rodu u saborskim odborima.
  9. Ovo je dvostrani test proporcija.
  10. Ako je p-vrijednost < 0.05, tvrdimo da postoji razlika u rodnim kvotama među odborima.
  1. Općenito, smatra se da je vrijeme spavanja ljudi normalno distribuirano. Neka su za kliničko ispitivanje nesanice odabrane 122 osobe. Te su osobe na slučajan način podijeljene u dvije grupe. U prvoj grupi je 60 osoba i dobivaju placebo. U drugoj grupi su 62 osobe koje dobivaju lijek. Osobe u prvoj grupi prosječno su spavale 5 sati uz standardnu devijaciju od 2.5 sati. U drugoj grupi osobe su prosječno spavale 7 sati uz standardnu devijaciju od 0.5 sati. Želi se testirati djeluje li lijek protiv nesanice. Odaberite sve točne tvrdnje.
  1. Za dvostrani test \(α=5%\), kritična vrijednost za \(t\) s \(df ≈ 120\) je otprilike \(±1.98\).
  2. Ako su varijance jednake, ispravnije je odabrati Mann-Whitney test.
  3. Ako je testna statistika izvan kritičnog intervala, znači da ne postoji razlika u prosječnom broju sati spavanja.
  4. Ako je p-vrijednost < 0.05, ne odbacujemo \(H_0\) i tvrdimo da lijek djeluje.
  5. Riječ je o dvama nezavisnim uzorcima s različitim standardnim devijacijama, pa treba odabrati Welchov t-test.
  6. Nul hipoteza: \(H_0: μ_1 = μ_2\), \(H_1: μ_1 ≠ μ_2\).
  7. Ako je p-vrijednost veća od 0.05, zaključujemo da nema dokaza o razlici.
  8. U ovom slučaju, hi-kvadrat test je primjereniji jer se radi o satima spavanja.
  9. Ako je test statistika unutar (\(−t_{\alpha/2}, t_{\alpha/2}\)), odbacujemo \(H_0\).
  10. Budući da su \(s_1\) i \(s_2\) prilično različite, nije primjereno koristiti “klasični” t-test za dva nezavisna uzorka.
  1. Prikupljene su cijene kruha u Hrvatskoj, Sloveniji i Italiji, pri čemu je varijabla kvantitativna i normalno distribuirana u svakoj skupini. Odaberite sve točne tvrdnje.
  1. Ako je p-vrijednost > α, ne odbacujemo \(H_0\), što znači da se prosječne cijene kruha po državama razlikuju.
  2. Nul hipoteza glasi: \(H_0: \mu_{HR} = \mu_{SI} = \mu_{IT}\), odnosno države imaju jednake prosječne cijene kruha.
  3. Budući da se radi o više od dvije nezavisne skupine (države), primijenit ćemo ANOVA.
  4. Test varijance (F-test) se ne može koristiti za više od dvije skupine.
  5. Pretpostavlja se da je varijabla (cijena) je kvantitativna i normalno distribuirana u svakoj skupini.
  6. Kod α=5%, dvostrani t-test je prikladniji za pet država.
  7. Ako su varijance približno jednake, ANOVA se može provesti.
  8. Pretpostavka testa je da su cijene kruha normalno distribuirane u svakoj državi, što se uvijek može osigurati u praksi..
  9. Za parametrijski test nije potrebna slučajnost uzorka.
  10. Ako je p-vrijednost < α, zaključujemo da nema razlike među državama.
  1. Istraživače zanima ravna li se broj ozljeda na radu prema vrsti ozljeda ravnomjerno prema gospodarskim djelatnostima i žele zaključivati na razini značajnosti 5%. Odaberite sve točne tvrdnje.
  1. Potreban je hi-kvadrat test homogenosti.
  2. Nul hipoteza: \(H_0\): vrste ozljeda su ravnomjerno raspoređene po djelatnostima.
  3. Ako je p-vrijednost < α, zaključujemo da vrste ozljeda nisu ravnomjerno raspoređene.
  4. Budući da se broj ozljeda može prebrojati, varijabla je kvantitativna i treba provesti t-test.
  5. Očekivane frekvencije u svakoj djelatnosti moraju biti ≥ 5%.
  6. Ako je test statistika unutar kritičnog intervala, odbacujemo \(H_0\).
  7. Kod hi-kvadrat testa sukladnosti uspoređujemo distribuciju varijable s normalnom distribucijom.
  8. Ako je p-vrijednost manja od α, nema dokaza da se djelatnosti razlikuju po vrstama ozljeda.
  9. Za dvostrani test s \(df=k-1\), kritična vrijednost je ±3.96.
  10. Ovaj test je parametrijski i zahtijeva poznatu varijancu populacije.
  1. Mjerena je brzina izrada pivot tablica prije i nakon što su zaposlenici prošli edukaciju. Varijable vremena izrada tablica prije i nakon su slične i imaju pozitivno asimetričnu distribuciju. Želi testirati postoji li razlika u vremenu izrade tablica prije i nakon edukacije na razini značajnosti 1%. Rezultati će se koristiti pri planiranju budućih edukacija.
  1. Budući da su mjerenja uparena, potrebno je koristiti test za nezavisne uzorke.
  2. Pri planiranju budućih edukacija, testiranje utjecaja edukacije se može zanemariti zbog pozitivne asimetrije.
  3. Nul hipoteza se postavlja kao \(H_0: \text{medijan razlika} = 0\), što implicira da edukacija nema utjecaja na vrijeme izrade pivot tablica.
  4. Unatoč pozitivnoj asimetriji, treba primijeniti upareni t-test jer je on robustan na odstupanja od normalnosti.
  5. Razina značajnosti od 1% predstavlja manje strogu granicu za odbacivanje nulte hipoteze u odnosu na 5%.
  6. Budući da su mjerenja vremena izrade pivot tablica obavljena na istim zaposlenicima prije i nakon edukacije, potrebno je koristiti test za uparena opažanja.
  7. Wilcoxon Signed-Rank test zahtijeva normalnu distribuciju podataka, pa nije prikladan za ove podatke.
  8. Zbog pozitivne asimetrije distribucije vremena, najprikladniji je neparametrijski Wilcoxon Signed-Rank test.
  9. Nul hipoteza se postavlja kao \(H_0: \mu_{\text{prije}} > \mu_{\text{nakon}}\), što sugerira da edukacija povećava vrijeme izrade tablica.
  10. Ako je p-vrijednost veća od 0.01, zaključujemo da edukacija nema značajan utjecaj na vrijeme izrade pivot tablica.
  1. Zadana je tvrdnja da minimalno 70% polaznika tečaja informatike svlada rad u Excelu u roku od 2 tjedna. Uzorak 40 polaznika, utvrđeno 25 njih to svlada u 2 tjedna. Razina značanosti je 5%. Odaberite sve točne tvrdnje.
  1. Riječ je o testu jedne proporcije: \(p ≥ 0.7\).
  2. \(H_0: p < 0.7\), \(H_1: p ≥ 0.7\).
  3. Ako je p-vrijednost < 0.05, odbacujemo \(H_0\) i tvrdimo da \(p>0.7\).
  4. Očekivane frekvencije moraju biti > 5 (\(np≥5\) i \(n(1−p)≥5\)).
  5. Potreban je upareni t-test i trebamo varijance dviju skupina.
  6. Ako je test statistika unutar (−z_{/2}, z_{}), odbacujemo \(H_0\).
  7. Budući da je α=5%, jednostrani test ima \(z_{\alpha/2} ≈ 1.645\).
  8. Ako je p-vrijednost > 0.05, nema dokaza da za \(p≥0.7\).
  9. Za takvu hipotezu treba Mann-Whitney U-test.
  10. Ako je z-statistika manja od −1.645, prihvaćamo \(H_1\).
  1. Osiguravajuća kuća želi utvrditi je li nastupilo povećanje u razini kolesterola za pojedince starije od 40 godina, za koji je pretpostavljena prosječna vrijednost 150 mg, a standardna devijacija populacije 20 mg. Slučajni uzorak od 100 ispitanika odabran je iz ciljne populacije. Sljedeći su pokazatelji utvrđeni: aritmetička sredina = 158 mg, medijan = 159 mg, standardna devijacija = 20 mg.
  1. Budući da je standardna devijacija populacije poznata (20 mg) i uzorak je dovoljno velik (n = 100), primjeren je z-test za jedan uzorak za ispitivanje promjene u prosjeku.
  2. Nul hipoteza se postavlja kao \(H_0: \mu = 150\) mg, dok se alternativna hipoteza postavlja kao \(H_1: \mu > 150\) mg, jer se očekuje samo povećanje u razini kolesterola.
  3. Za jednosmjerni test u ovom primjeru, uz razinu značajnosti od 5%, \(z_{\alpha}\) će iznositi približno 1.65.
  4. Izračunata veličina z-testa je \(z = \frac{158 - 150}{20/\sqrt{100}} = 4\); budući da je 4 veće od 1.96, odbacujemo nultu hipotezu.
  5. Zbog pozitivne asimetrije potrebno je koristiti neparametrijski test poput Wilcoxon Signed-Rank testa umjesto z-testa.
  6. Ako je p-vrijednost manja od 0.05, zaključujemo da nema statistički značajne promjene u prosjeku kolesterola.
  7. Podaci su prikupljeni slučajnim uzorkom, ali zbog pozitivne asimetrije se mora primijeniti test za nezavisne uzorke umjesto uparenog testa.
  8. Postoji vrlo mala razlika između prosjeka i medijana, a to sugerira da je kolesterol simetrično distribuiran.
  9. Testiranje se vrši na temelju srednje vrijednosti, što znači da se uspoređuju medijani podataka, a ne prosjeci.
  10. Na temelju rezultata se zaključuje da prosječna razina kolesterola nije značajno različita od 150 mg.


Repliciranje analize koristeći različite alate


Kliknite na odabrani način repliciranja analize koristeći različite alate:

Provedba postupka koristeći JASP

Provedba postupka koristeći R

Provedba postupka koristeći MS Excel

Na posljednjem linku možete naći i Provjeru odgovora.


Korišteni izvori i literatura

Arnholt, A. T., & Evans, B. (2017). Package ‘BSDA’. https://cran.r-project.org/web/packages/BSDA/index.html

Ben-Shachar, M. S., Lüdecke, D., & Makowski, D. (2020). effectsize: Estimation of effect size indices and standardized parameters. Journal of open source software, 5(56), 2815. https://dominiquemakowski.github.io/publication/benshachar2020effectsize/benshachar2020effectsize.pdf, https://CRAN.R-project.org/package=effectsize

Conover, W. J. (1999). Practical nonparametric statistics (Vol. 350). John Wiley & sons.

De Veaux, D. (2015). How much is a Fireplace Worth? Stats 101 Public Library.https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=e4f8d3f1-41a3-4f01-9f8b-f8fbe1562c15&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401

Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.

Hohenwarter, M., & Hohenwarter, M. (2002). GeoGebra. Available on-line at http://www.geogebra.org/cms/en.

Hollander, M., Wolfe, D. A. & Chicken, E. (2013). Nonparametric statistical methods. John Wiley & Sons Inc.

Holmes, A., Illowsky, B., & Dean, S. (2017). Introductory Business Statistics 2e. OpenStax. https://openstax.org/books/introductory-business-statistics/pages/preface

Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.

Horton, N. J., Baumer, B. S., & Wickham, H. (2015). Setting the stage for data science: integration of data management skills in introductory and second courses in statistics (nycflights13). https://nhorton.people.amherst.edu/precursors/nycflights13.pdf

Hothorn, T., Hornik, K., & Hothorn, M. T. (2022). Package ‘exactRankTests’. https://CRAN.R-project.org/package=exactRankTests

Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.

Illowsky, B., & Dean, S. (2018). Introductory statistics. https://openstax.org/books/introductory-statistics-2e/pages/preface

JASP Team (2024). JASP (Version 0.19.3)[Computer software].

Kassambara, A. (2019). rstatix: Pipe-friendly framework for basic statistical tests. CRAN: Contributed Packages. https://CRAN.R-project.org/package=rstatix

Kassambara, A. (2023) ggpubr: ‘ggplot2’ Based Publication Ready Plots. CRAN https://CRAN.R-project.org/package=ggpubr

Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://bookdown.org/kakoste/Uvod_u_R_i_RStudio/

Moore, D. S., McCabe, G. P., and Craig, B. A. (2012). Introduction to the Practice of Statistics (7th ed.). New York: Freeman

Okoye, K., & Hosseini, S. (2024). Analysis of variance (ANOVA) in R: one-way and two-way ANOVA. In R Programming: Statistical Data Analysis in Research (pp. 187-209). Singapore: Springer Nature Singapore. https://link.springer.com/chapter/10.1007/978-981-97-3385-9_9

Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf

Signorell, A. (2025) DescTools: Tools for Descriptive Statistics. CRAN. https://CRAN.R-project.org/package=DescTools

Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb.

Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.

Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.