U ovom tekstu, razmatra se odnos teorijskih i statističkih hipoteza te postupak odabira i provođenja odgovarajućih statističkih testova. Također, kroz primjere se prikazuju koraci u odabiru i provođenju odgovarajućih statističkih testova, s naglaskom na provjeri pretpostavki, izboru testa te interpretaciji rezultata. Razmatra se uloga konteksta te tijek rezoniranja u statističkoj analizi uz praktičnu primjenu naučenih metoda.
Zamislimo istraživača koji želi proučiti utječe li povećana fizička aktivnost na smanjenje razine stresa kod odraslih osoba i postavlja hipotezu:
Povećana fizička aktivnost smanjuje razinu stresa kod odraslih osoba.
No, ovdje se radi o teorijskoj hipotezi, koju treba preoblikovati u statističku hipotezu kako bismo mogli utvrditi kakve podatke trebamo prikupiti.
Ovom problemu možemo pristupiti iz različitih perspektiva. Ovo su neke od statističkih hipoteza koje bismo mogli formirati temeljem dane teorijske hipoteze.
Primjer:
\(H_0…\) ne postoji razlika u prosječnoj razini stresa između osoba koje vježbaju i osoba koje ne vježbaju
\(H_1…\) postoji razlika u prosječnoj razini stresa između osoba koje vježbaju i osoba koje ne vježbaju
Primjer:
\(H_0…\) varijable razina stresa i razina vježbanja su neovisne
\(H_1…\) varijable razina stresa i razina vježbanja su ovisne
Primjer:
\(H_0…\) ne postoji razlika u medijalnoj razini stresa između osoba koje vježbaju i osoba koje ne vježbaju
\(H_1…\) postoji razlika u medijalnoj razini stresa između osoba koje vježbaju i osoba koje ne vježbaju
Primjer:
\(H_0…\) ne postoji razlika u obliku distribucije stresa između vježbača i nevježbača
\(H_1…\) postoji razlika u obliku distribucije stresa između vježbača i nevježbača
Primjer:
\(H_0…\) Distribucija razina stresa ne razlikuje se između različitih razina fizičke aktivnosti.
\(H_1…\) Distribucija razina stresa razlikuje se između različitih razina fizičke aktivnosti.
Primjer:
\(H_0…\) Postotak osoba s visokom razinom stresa je jednak kod osoba koje vježbaju i osoba koje ne vježbaju.
\(H_1…\) Postotak osoba s visokom razinom stresa razlikuje se između osoba koje vježbaju i osoba koje ne vježbaju.
Primjer:
\(H_0…\) Ne postoji razlika u prosječnoj razini stresa prije i nakon uvođenja programa fizičke aktivnosti.
\(H_1…\) Postoji razlika u prosječnoj razini stresa prije i nakon uvođenja programa fizičke aktivnosti.
Primjer:
\(H_0…\) Vrsta fizičke aktivnosti (npr.,aerobna,anaerobna) nije povezana s razinom stresa.
\(H_1…\) Vrsta fizičke aktivnosti (npr.,aerobna,anaerobna) je povezana s razinom stresa.
Iako bi se moglo naći još primjera statističkih hipoteza koji se uklapaju u navedenu teorijsku hipotezu, ovih osam ilustrira ideju kako teorijska i statistička hipoteza nisu jedno te isto. Statistička hipoteza iziskuje preciznost u izražavanju i povezanost sa statističkim parametrom ili oblikom distribucije populacije koji se testira. Štoviše, u kasnijim primjerima ćemo umjesto verbalnog zapisa koristiti matematički zapis. Osim toga, u svakom slučaju, potreban je reprezentativan uzorak – odabran na slučajan način, dovoljno velik i odražava bitne karakteristike populacije o kojoj se zaključuje. Bez reprezentativnosti uzorka, i najpreciznije formulirana statistička hipoteza može dovesti do pogrešnih zaključaka.
Napomena: naziv „nul“ u nul hipotezi (\(H_0\)) izveden je iz latinske riječi nullus, što znači „nema“, „bez vrijednosti“. Označava hipotezu koja ne pretpostavlja nikakav učinak, odnos ili razliku u statističkom kontekstu. Ne odnosi se na redni broj hipoteze, pa ju NE čitamo nulta hipoteza, nego nul hipoteza.
S druge strane, hipoteze su neodvojive od odabranog statističkog testa. A odabir statističkog testa usko je vezan uz karakteristike podataka. Dakle, o podacima koje želimo prikupiti kako bismo pružili dokaze u korist teorijske hipoteze, moramo razmišljati puno prije no što počnemo prikupljati podatke. U suprotnom, možemo prikupiti podatke koji neće u potpunosti odgovoriti na istraživačko pitanje koje smo postavili, niti u potpunosti pružiti dokaze u korist teorijske hipoteze.
Ako koristimo već prikupljene podatke bez poveznice s teorijskom hipotezom, onda je to tzv. data-driven pristup. U tom pristupu:
Hipoteze se formiraju na temelju podataka. Umjesto da se prije prikupljanja podataka postavi jasna teorijska hipoteza, u data-driven pristupu hipoteze se često generiraju ili otkrivaju tijekom ili nakon analize podataka.
Odluke se donose isključivo na temelju uzoraka podataka, a može se dogoditi da se otkriju statistički značajni odnosi koji zapravo proizlaze iz slučajnosti ili specifičnih karakteristika uzorka, a ne nužno iz teorijski očekivanih veza.
Data-driven pristup povećava rizik od “data mining” problema (pretjeranog “kopanja” u podatke), gdje se pronalaze odnosi koji nemaju stvarnu teorijsku potporu, što može dovesti do prekomjerne interpretacije ili pogrešnih zaključaka.
Data-driven pristup se često koristi u poslovnoj analitici, znanosti o podacima i sličnim područjima. U tim kontekstima, odluke i strategije temelje se na analizi velikih količina podataka (big data, velik broj opažanja – deseci tisuća, stotine tisuća ili čak milijuni podataka), pri čemu se hipoteze i modeli često generiraju na temelju opažanja iz postojećih podataka.
S druge strane, klasični ili theory-driven pristup (koji se preferira u akademskom svijetu) oslanja se na prethodno postavljene teorijske hipoteze koje usmjeravaju prikupljanje podataka i analizu, čime se omogućuje preciznija interpretacija rezultata u kontekstu postojeće teorije. Data-driven pristup u potpunosti se oslanja na big data. U područjima u kojima imamo ogroman broj opažanja, to omogućuje otkrivanje obrazaca i trendova bez unaprijed postavljenih teorijskih okvira. Međutim, ako nemamo na raspolaganju big data, tada taj pristup nije prikladan. U malim uzorcima ne možemo pouzdano izvući značajne zaključke samo na temelju podataka, već je tada potrebno koristiti theory-driven pristup – gdje se hipoteze postavljaju unaprijed i prikupljanje podataka je usklađeno s tim teorijskim okvirima. Takav pristup osigurava da su rezultati interpretirani u kontekstu prethodno definirane teorije, što je ključno kada podaci sami po sebi nisu dovoljno opsežni za robustnu data-driven analizu.
Dakle, nakon utvrđivanja međuovisnosti podataka uzorka, odabira statističkog testa, statističke hipoteze i teorijske hipoteze, sljedeći je korak detaljnije se upoznati s mogućnostima odabira statističkih testova.
Parametrijski testovi testiraju parametre, a to će najčešće biti prosjeci. Za provođenje parametrijskih testova moraju biti ispoštovane određene pretpostavke. Najčešće se radi o pretpostavci o normalnosti i pretpostavci o jednakosti varijanci. Pretpostavka o normalnosti dolazi u nekoliko različitih oblika i ovisi o broju uzoraka i statističkom testu koji se provodi. U najjednostavnijoj inačici s jednim uzorkom, varijabla čiji se parametar testira mora biti približno normalno distribuirana. Ako su u pitanju dva uzorka, razlike uzoraka trebale bi biti normalno distribuirane. No, u određenoj skupini testova s dva ili više uzoraka, procedura se temelji na linearnom modelu u podlozi i tada se iziskuje normalnost reziduala (a ne normalnost same varijable koja se testira). O tome će svakako biti više riječi u nastavku. Nadalje, test jednakosti varijanci postaje relevantan samo ako imamo dva ili više uzoraka (ako je u pitanju jedan uzorak, nemamo ga s čim usporediti).
z-test: Testira hipoteze o prosjeku kad je standardna devijacija populacije poznata ili testira proporcije osnovnog skupa.
t-test: Testira hipoteze o prosjeku kad standardna devijacija populacije nije poznata.
F-test: Uspoređuje varijance između dvije ili više skupina; često se koristi kao temelj za ANOVA-u.
ANOVA (Analiza varijance): Ispituje razlike u prosjecima između tri ili više grupa.
Neparametrijski testovi su statistički testovi koji ne zahtijevaju stroge pretpostavke o distribuciji podataka (npr. normalnost ili homogenost varijanci). Umjesto da rade s apsolutnim vrijednostima, oni obično koriste rangove podataka, što ih čini robusnijima u prisutnosti ekstremnih vrijednosti, asimetrije ili kada su podaci mjerljivi na ordinalnoj skali.
Osnovni neparametrijski testovi:
Ključne pretpostavke neparametrijskih testova:
Ne zahtijevaju normalnost: Ne moraju se zadovoljavati stroge pretpostavke o normalnoj distribuciji podataka.
Mogu se koristiti ordinalni podaci: Pogodni su za podatke koji nisu mjerljivi na intervalnoj ili omjernoj skali.
Manja osjetljivost na ekstremne vrijednosti: Rangiranjem podataka utječe se na smanjenje utjecaja outliera.
Sličnost oblika distribucija: Za neke testove (npr. Kruskal–Wallis) je poželjno da grupe imaju sličan oblik distribucije kako bi se medijani mogli uspoređivati.
Kad se koji test koristi?
Mann–Whitney U test: Kad uspoređujete dvije nezavisne skupine, a podaci ne zadovoljavaju pretpostavke parametrijskih testova ili su ordinalni.
Wilcoxonov test uparenih rangova: Kad uspoređujete parove opažanja (npr. prije i poslije mjerenja na istim ispitanicima) i distribucija razlika nije normalna.
Kruskal–Wallis test: Kad uspoređujete tri ili više nezavisnih skupina čiji podaci ne zadovoljavaju normalnost.
Friedman test: Kad uspoređujete tri ili više povezanih mjerenja na istim ispitanicima.
Općenite formulacije hipoteza:
Nul hipoteza (H₀): Ne postoji značajna razlika – npr. distribucije ili medijani su jednaki među skupinama.
Alternativna hipoteza (H₁): Postoji značajna razlika – barem jedna skupina se razlikuje.
Ovi neparametrijski testovi nude pouzdanu alternativu kada pretpostavke parametrijskih metoda nisu zadovoljene ili kada radimo s podacima na ordinalnoj skali.
Hi-kvadrat testovi predstavljaju vrstu neparametrijskih testova koji se koriste za usporedbu opaženih frekvencija s očekivanim frekvencijama u kvalitativnim varijablama.
Primjeri primjene hi-kvadrat testova:
Test sukladnosti: Ispitivanje je li distribucija boja automobila u određenoj populaciji u skladu s teorijskim očekivanjima (npr. 40 % crvenih, 30 % plavih, 30 % zelenih).
Test homogenosti: Usporedba distribucije tipa automobila s ozbirom na dohodovni razred. \(H₀\) bi ovdje glasila da su distribucije tipa automobila jednake u svim dohodovnim razredima.
Test neovisnosti: Ispitivanje povezanosti između spola menadžera i provedbe načela društveno odgovornog poslovanja poduzeća. \(H₀\) bi tvrdila da su ove dvije varijable neovisne.
Hi-kvadrat testovi omogućuju nam da na temelju frekvencija procijenimo postoji li statistički značajna razlika između opaženih i očekivanih raspodjela ili jesu li su dvije kvalitativne varijable povezane.
Razmotrimo kako bismo u danom primjeru mogli pristupiti postavljanju hipoteza.
Za testiranje hipoteze o razlikama u prosječnoj razini stresa između osoba koje vježbaju i osoba koje ne vježbaju, potrebno je jasno definirati tko čini koju grupu. Prvo bismo identificirali kriterije za klasifikaciju sudionika u vježbače i nevježbače. Primjerice, vježbači bi mogli biti definirani kao osobe koje provode najmanje 150 minuta tjedno radeći umjerene fizičke aktivnosti, dok bi nevježbači bili oni koji ne ispunjavaju taj kriterij. Podaci o razinama stresa trebali bi se prikupljati korištenjem standardiziranog upitnika koji mjeri percipirani stres, poput Perceived Stress Scale (PSS), a nakon toga izračunati prosječne vrijednosti u obje grupe. Važno je osigurati reprezentativnost obje grupe i prikupiti podatke iz uzorka koji pokriva široki raspon demografskih karakteristika. U ovom opisu, radi se o usporedbi pokazatelja prosjeka dva nezavisna uzorka, pa bismo najvjerojatnije koristili t-test. No, t-test iziskuje provjeru dviju pretpostavki: jednakosti varijanci u uzorcima i normalnost (simetriju) distribucije. Ako bi jednakost varijanci bila narušena, a želi se koristiti parametrijski test, postoje testovi s korekcijama za različitu varijabilnost uzoraka, dok se u slučaju narušene obje pretpostavke može koristiti neparametrijska alternativa (ovo bi iziskivalo preoblikovanje statističkih hipoteza).
Ovdje se spominje i podjela uzroka na skupine ili odabir više uzoraka. Podjela uzoraka na podskupine vezana je uz istraživačko pitanje i dizajn studije. Kad imamo podatke za uzorak koji želimo analizirati, dijeljenje na podskupine omogućuje nam istraživanje odnosa između različitih varijabli ili proučavanje efekata specifičnih uvjeta na varijable od interesa. Ove podskupine mogu se definirati prema različitim kriterijima, kao što su demografske značajke (dob, spol, obrazovanje, rang prihoda), karakteristike ispitanika (status bolesti, životne navike) ili eksperimentalne uvjete (npr. kontrolna i eksperimentalna grupa).
Očito, dizajn istraživanja je usko povezan s ovom podjelom – u eksperimentalnim istraživanjima, podskupine često predstavljaju različite eksperimentalne uvjete, gdje svaka skupina podliježe drugačijem tretmanu. U takvim slučajevima, jasna i precizna podjela ispitanika u uzorke prije provođenja istraživanja omogućuje kontrolu nad varijablama koje bi mogle utjecati na rezultate te povećava unutarnju valjanost istraživanja. Ako su u pitanju opservacijska istraživanja, podskupine se mogu formirati prema prirodnim varijacijama unutar uzorka. Na primjer, ako istražujemo razlike u zdravlju između različitih dobnih skupina, prirodna podjela prema dobi pruža temelj za formiranje podskupina. Ovaj pristup omogućuje istraživaču da analizira razlike unutar uzorka i identificira potencijalne obrasce ili povezanosti. Za formiranje i analizu ovih podskupina, ključnu ulogu imaju faktori.
Faktori su tip podataka koji predstavljaju kategoričke varijable koje definiraju podskupine unutar uzorka (češće se spominju u softverima pod nazivom faktori). U statističkim analizama, faktori omogućuju grupiranje opažanja i usporedbu između različitih kategorija (npr. dob, spol, obrazovanje, itd.). Metodologija podjela uzorka na podskupine (odnosno kreiranje dva ili više poduzorka) nije samo tehnički korak već i filozofija istraživanja. Definiranjem podskupina i korištenjem faktora možemo strukturirati svoje podatke i oblikovati način na koji ti podaci odgovaraju na istraživačka pitanja.
Ako, na primjer, testiramo neovisnost između varijabli razina stresa i razina vježbanja, moramo osigurati da imamo ordinalne mjere obje varijable. Za razinu vježbanja mogli bismo odrediti stupnjeve za raspone podataka inicijalno izraženih u obliku broja minuta tjedne aktivnosti (ili to možemo učiniti navođenjem intervala već u upitniku). Razinu stresa mjerili bismo standardiziranim upitnikom. S obzirom na specifičnost ovih hipoteza, koristio bi se Hi-kvadrat test neovisnosti.
Na primjer, za testiranje razlika u medijalnim vrijednostima stresa između vježbača i nevježbača, prikupljanje podataka slijedilo bi sličan obrazac kao za prosječne vrijednosti, ali bismo koristili drugi test, Mann-Whitney U test. Ovaj se test može koristiti za ordinalne varijable, ali i kad pretpostavka normalnosti distribucija kvantitativnih varijabli nije ispunjena. Zbog toga je ovaj test često zamjenska opcija z-testu ili t-testu, u slučaju da se ne može ispoštovati pretpostavka normalnosti podataka. Mann-Whitney U test je neparametrijski test koji kombinira podatke iz oba uzorka i dodjeljuje rangove svim opažanjima, a potom uspoređuje distribuciju rangova dvaju skupina. Testom se pretpostavlja da, ako medijani nisu različiti, onda će raspodjela rangova u dvjema skupinama biti slična.
Ako, na primjer, želimo testirati razlike u obliku distribucije razina stresa između vježbača i nevježbača, cilj bi bio utvrditi postoje li razlike u obrascima raspodjele stresa, primjerice je li jedna grupa sklona imati više ekstremne vrijednosti ili veću varijabilnost. Takvo testiranje ne pretpostavlja specifičan oblik distribucije podataka (npr., normalnost), što ga čini fleksibilnim za širok raspon primjena. Primarno se koristi za usporedbu kontinuiranih kvantitativnih varijabli. Iako je Kolmogorov-Smirnov test neparametrijski, njegova interpretacija za ordinalne varijable može biti problematična, jer ne razlikuje pravilno udaljenosti između rangova kao što bi to učinio za kontinuirane kvantitativne varijable. U praksi, za ordinalne varijable, testovi poput Mann-Whitney U testa ili Wilcoxonovog testa često su prikladniji.
Za hipotezu koja ispituje razlike u distribuciji razina stresa među različitim razinama fizičke aktivnosti, sudionike bismo podijelili u tri ili više kategorija prema intenzitetu ili učestalosti aktivnosti (npr., niska, umjerena i visoka razina fizičke aktivnosti). Prikupljanje podataka uključivalo bi mjerenje razine stresa za sve sudionike, kao i podatke o razini vježbanja. Ovdje bi se mogao primijeniti Hi-kvadrat test homogenosti, neparametrijski test koji se primjenjuje na kvalitativnim varijablama, a u ovom bi se slučaju koristile stupnjevite varijable.
Kod ispitivanja razlika u postotku osoba s visokom razinom stresa među vježbačima i nevježbačima, potrebno je definirati što smatramo visokom razinom stresa. Na primjer, mogli bi koristiti prag bodova na upitniku poput PSS-a. Podaci bi se prikupljali tako da uključuju broj osoba u svakoj grupi koje prelaze taj prag i broj onih koji ga ne prelaze. Ovaj bi dizajn zahtijevao jasnu kategorizaciju sudionika i korištenje metoda za usporedbu proporcija između grupa, a tu stoje na raspolaganju različite opcije, na primjer z-test ili Hi-kvadrat testovi.
Ako želimo testirati razlike u razini stresa prije i nakon uvođenja programa fizičke aktivnosti, trebali bismo mjeriti razine stresa kod istih sudionika u dva vremenska trenutka: prije početka programa i nakon njegova završetka. Sudionici bi trebali biti nasumično odabrani ili stratificirani prema ključnim demografskim čimbenicima kako bismo osigurali valjanost rezultata. Ovdje bismo koristili test za uparene podatke, kao što su t-test za uparene podatke ili Wilcoxon signed-rank test (neparametrijska varijanta).
Za testiranje povezanosti vrste fizičke aktivnosti (npr., aerobne i anaerobne) s razinom stresa, morali bismo od sudionika prikupiti podatke o njihovim dominantnim vrstama aktivnosti. To bi moglo uključivati standardizirane upitnike o vrstama vježbi koje najčešće prakticiraju. To bi bile opisne varijable, pa nužno moramo koristiti neparametrijski test, najvjerojatnije Hi-kvadrat test homogenosti. Podaci o razini stresa trebali bi se prikupljati validiranim upitnikom, kao i u ranijim primjerima. U ovoj situaciji, važno je osigurati i dovoljno sudionika u svakoj kategoriji vrste aktivnosti kako bismo mogli provesti pouzdanu analizu i usporediti razine stresa između kategorija.
Ovaj kratki uvid ilustrira kako je potrebno razumijevanje da teorijske i statističke hipoteze imaju različite uloge, ali se međusobno oslanjaju i preklapaju. Teorijska hipoteza izražava širu, konceptualnu ideju ili očekivanje o vezi između fenomena, dok statistička hipoteza zahtijeva precizno kvantitativno izražavanje te ideje u formatu pogodnom za testiranje, uz jasnu definiciju tvrdnju o parametru populacije ili obliku distribucije, što za sobom povlači pitanja o tipu podataka, pretpostavkama i vezanim testovima.
Teorijska hipoteza oblikuje istraživačko pitanje i postavlja širi okvir za interpretaciju rezultata. Statistička hipoteza operacionalizira tu ideju tako da omogućava testiranje temeljem konkretnih podataka i metoda. Na primjer, teorijska hipoteza Povećana fizička aktivnost smanjuje razinu stresa kod odraslih osoba može se preoblikovati u niz statističkih hipoteza. Svaka od ovih statističkih hipoteza definira specifičan aspekt odnosa između fizičke aktivnosti i stresa koji se može testirati pomoću odgovarajućih testova.
Parametrijski testovi oslanjaju se na određene pretpostavke (poput normalne distribucije ili homogenosti varijanci) i obično testiraju specifične parametre populacije, poput aritmetičke sredine. kad su te pretpostavke narušene, često se koriste neparametrijski testovi, poput Mann-Whitney U testa ili Wilcoxon signed-rank testa, koji ne pretpostavljaju specifičan oblik distribucije.
Međutim, iako su parametrijski i neparametrijski testovi na prvi pogled zamjenjivi u određenim situacijama, oni ne mjere potpuno iste stvari. Parametrijski testovi usmjereni su na razlike u specifičnim parametrima, dok neparametrijski testovi često uspoređuju rangove ili distribucije. Na primjer, t-test za nezavisne uzorke testira razliku u prosjecima, dok Mann-Whitney U test uspoređuje distribucije i medijane.
Ova razlika ističe potrebu za preoblikovanjem hipoteza u situacijama kad pretpostavke parametrijskih testova nisu zadovoljene. Na primjer, ako je teorijska hipoteza da Povećana fizička aktivnost smanjuje razinu stresa kod odraslih osoba, a podaci pokazuju da distribucija razine stresa nije normalna, onda se hipoteza može preformulirati iz:
Ne postoji razlika u prosječnoj razini stresa između vježbača i nevježbača (testirano t-testom), u:
Ne postoji razlika u distribucijama razine stresa između vježbača i nevježbača (testirano Mann-Whitney U testom).
Kada koristimo neparametrijske testove zbog narušenih pretpostavki, ključno je razumjeti da se tada testiraju različiti aspekti istog problema (npr., medijani umjesto prosjeka, distribucije umjesto parametara). Ovo zahtijeva precizno preoblikovanje statističkih hipoteza kako bi se osigurala njihova valjanost i povezanost s teorijskom hipotezom te omogućilo pravilno tumačenje rezultata.
Dakle, istraživačko pitanje, uzorci i karakteristike podataka neodvojivi su od načina postavljanja statističkih hipoteza. Istraživačko pitanje definira fokus analize i određuje što želimo saznati, dok uzorci predstavljaju (odnosno, reprezentativni su za) populaciju iz koje se prikupljaju podaci za odgovaranje na to pitanje. Karakteristike podataka, poput vrste varijabli (kategorijske ili kvantitativne), distribucije i veličine uzoraka, utječu na izbor odgovarajućih statističkih testova, koji su pak vezani uz postavljanje hipoteza. Statističke hipoteze oblikuju se kao izrazi - tvrdnje o parametru populacije ili obliku distribucije - koje je moguće testirati i koji sadrže pretpostavke istraživača. Ipak, njihova valjanost ovisi i o usklađenosti s prirodom podataka i dizajnom istraživanja. Stoga je cijeli proces donekle iterativan i zahtijeva pažljivo usklađivanje između istraživačkog pitanja, uzoraka i metoda, osiguravajući da rezultati istraživanja budu interpretativno valjani i relevantni.
U JASP-ovoj biblioteci podataka postoji skup podataka o otkucajima srca (Open \(\implies\) Data \(\implies\) Library \(\implies\) ANOVA \(\implies\) Heart rate). Skup podataka sadrži 800 opažanja za tri varijable: otkucaji srca, spol i grupa. Otkucaji srca su kvantitativna diskontinuirana varijabla mjerena na omjernoj razini i kreću se u rasponu od 69 do 196. Spol je kvalitativna opisna varijabla mjerena na nominalnoj razini i sadrži dva modaliteta – muški i ženski, svaki s po 400 opažanja. Grupa je kvalitativna opisna varijabla mjerena na nominalnoj razini i ima dva modaliteta: kontrolnu skupinu i trkače, od kojih svaka skupina ima po 400 opažanja.
Tablica 1. Tablica kontingence ispitanika prema spolu i aktivnosti
Gender | Control | Runners | Total |
---|---|---|---|
Female | 200 | 200 | 400 |
Male | 200 | 200 | 400 |
Total | 400 | 400 | 800 |
Ovdje je očito u pitanju kvotni uzorak, pri čemu je kvota za svaku skupinu iznosila 200. Pa tako postoji 200 žena u kontrolnoj skupini, 200 trkačica, 200 muškaraca u kontrolnoj skupini i 200 trkača.
Recimo da istraživačko pitanje glasi: Postoji li razlika u otkucajima srca između trkača i kontrolne skupine (ispitanici u ovoj skupini vode pretežito sjedilački stil života)? Temeljem toga se može postaviti teorijska hipoteza da će trkači imati niži broj otkucaja srca u minuti. Prije nego postavimo statističke hipoteze, pozabavit ćemo se deskriptivnom statistikom, kako bismo dobili uvid u varijable.
Tablica 2. Tablica statističkih pokazatelja
Control | Runners | All | |
---|---|---|---|
Valid | 400 | 400 | 800 |
Missing | 0 | 0 | 0 |
Mode | 143 | 109 | 128 |
Median | 139 | 109 | 124 |
Mean | 139 | 109.98 | 124.49 |
Std. Deviation | 18.9496 | 15.5338 | 22.5969 |
IQR | 25 | 22 | 34 |
Skewness | -0.1118 | 0.3753 | 0.2504 |
Kurtosis | 0.0088 | -0.0042 | -0.5407 |
Shapiro-Wilk | 0.9973 | 0.9890 | 0.9878 |
P-value of Shapiro-Wilk | 0.7723 | 0.0041 | <0.001 |
Minimum | 77 | 69 | 69 |
Maximum | 196 | 164 | 196 |
25th percentile | 127 | 98 | 107 |
50th percentile | 139 | 109 | 124 |
75th percentile | 152 | 120 | 141 |
Izračunati pokazatelji uzorka pružaju uvid u distribucije otkucaja srca kontrolne skupine i trkača. Osobe u kontrolnoj skupini imaju prosječno 139 otkucaja u minuti, uz standardno odstupanje od prosjeka za 18.95 otkucaja srca u minuti. Trkači imaju prosječno 109,98 otkucaja u minuti uz standardno odstupanje od prosjeka za 15.53 otkucaja srca u minuti.
U obje skupine, medijan je gotovo jednak prosjeku. Mod je nešto viši u prvoj skupini i ukazuje da su ispitanici u kontrolnoj skupini najčešće imali 143 otkucaja srca u minuti. U drugoj skupini, mod je jednak medijanu. Iako se prema mjerama središnje tendencije čini da je u pitanju približno normalna distribucija, mjera asimetrije sugerira blagu negativnu asimetriju distribucije otkucaja srca u kontrolnoj skupini te blagu do umjereno pozitivnu asimetriju distribucije otkucaja srca trkača. Prema zaobljenosti, obje su distribucije vrlo blizu normalne distribucije, a to se može potvrditi uvidom u histogram.
Provjera normalnosti distribucije pomoću Shapiro-Wilk testa pokazuje da su podaci u kontrolnoj skupini u skladu s normalnom distribucijom (p-vrijednost: 0,7723), dok kod trkača distribucija odstupa od normalnosti (p-vrijednost: 0,0041).
Prikazani boxplot jasno ilustrira razlike u distribuciji otkucaja srca između kontrolne skupine i trkača. U kontrolnoj skupini medijan i čitav interkvartil poprimaju veće vrijednosti u odnosu na medijan i interkvartil trkača.. Osim toga, kontrolna skupina ima veći interkvartil i raspon varijacija, što ukazuje na veću varijabilnost u podacima. Kontrolna skupina također pokazuje više ekstremnih vrijednosti iznad i ispod interkvartilnog raspona, u odnosu na distribuciju otkucaja srca trkača.
Imaju li ljudi prosječno 120 otkucaja srca u minuti?
Za potrebe primjera, ovdje će se prvo svi podaci tretirati kao 1 uzorak. Pretpostavimo da ispitanici prosječno imaju 120 otkucaja srca u minuti. Ovo možemo direktno zapisati u obliku statističkih hipoteza.
\[H_0… μ=120\] \[H_1…μ≠120\]
Na ovaj način, u nul hipotezi zapisana je tvrdnja da ispitanici prosječno imaju 120 otkucaja srca u minuti. Alternativna tvrdi da ispitanici imaju različit broj otkucaja srca u minuto od 120.
Tablica 3. Shapiro-Wilkov test normalnosti distribucije
W | p | |
---|---|---|
Heart Rate | 0.9878 | < .001 |
Note. Significant results suggest a deviation from normality.
Iako Shapiro-Wilkov test sugerira odbacivanje pretpostavke da je varijabla normalno distribuirana, nastavit ćemo s postupkom radi ilustracije koraka i to ćemo učiniti za ovaj jednostavan primjer za svaku vrstu testa (uključujući z-test), jer nam to omogućuje povezivanje procjena parametara populacije (prethodno štivo) s testiranjem hipoteza.
U prošlom smo štivu detaljno razmatrali procjenu prosjeka i proporcija populacije na temelju uzorka. Proporcije i hipoteze usko su povezane u statističkoj analizi jer oba koncepta koriste slične temelje – uzorkovanje, distribucije i inferenciju. Međutim, dok je cilj procjene proporcija kvantificirati nepoznati parametar populacije (npr. udio novogradnje), cilj testiranja hipoteza je ispitati specifične tvrdnje o populaciji.
U procjeni proporcija, fokusirali smo se na populacijski parametar, odnosno cijene nekretnina i udio novogradnje, koristeći prosjek i proporciju uzorka kao procjenitelje. S druge strane, kod testiranja hipoteza, parametar (p,μ,σ, itd.) služi kao polazište za formiranje nul hipoteze (H_0).
Sličnosti: Oba koncepta koriste pokazatelje uzorka kao osnovu za donošenje zaključaka o populaciji.
Razlike: Procjena proporcija fokusira se na kvantifikaciju populacijskog parametra, dok testiranje hipoteza uključuje postavljanje tvrdnji koje želimo provjeriti.
Primjer: Kod prosjeka smo procjenjivali da je prosječna cijena nekretnina \(P[209728.42< μ<230448.68]=95 \%\), dok bismo u testiranju hipoteza mogli postaviti, npr. \(H_0… μ=215000\) i testirati tu tvrdnju.
Sampling distribucija aritmetičkih sredina i sampling distribucija proporcija bile su osnovni koncepti u procjeni proporcija. Kod testiranja hipoteza, sampling distribucije omogućuju nam da izračunamo testnu veličinu i procijenimo značajnost vezanu uz nul hipoteze.
Za razliku od razine povjerenja, kod testiranja hipoteza postoji razina značajnosti, α. Razina značajnosti se koristi za donošenje odluke o tome hoćemo li odbaciti nul hipotezu na temelju prikupljenih podataka. Ona predstavlja prag tolerancije za pogrešku tipa jedan, odnosno za vjerojatnost da pogrešno odbacimo nul hipotezu kad je zapravo istinita.
Kod donošenja odluke o nul hipotezi, postoje četiri moguća ishoda: dvije vrste ispravnih odluka i dvije vrste pogrešaka. Ove odluke ovise o tome je li \(H_0\) istinita ili neistinita u stvarnosti te o zaključku koji donosimo na temelju podataka.
Mogući ishodi:
Neodbacivanje istinite nul hipoteze
Odbacivanje neistinite nul hipoteze
Neodbacivanje neistinite nul hipoteze
Više o pogreškama tipa I i II, možete pročitati u Introduction to Business Statistics, Introductory Statistics ili Statistics. Ovo su javno dostupni udžbenici putem openstax.org platforme.
U većini istraživanja, istraživači postavljaju istraživačku hipotezu koja se obično nalazi u alternativnoj hipotezi. U tim slučajevima, odbacivanje nul hipoteze omogućava podršku alternativnoj hipotezi, što može biti cilj istraživanja. U nekim istraživanjima, istraživači žele dokazati da je efekt nepostojeći ili da je razlika zanemariva. U tom slučaju, neodbacivanje nul hipoteze može biti u skladu s interesima istraživanja. Iako se često smatra da je u interesu istraživača da odbaci nul hipotezu kako bi podržao svoju teorijsku hipotezu, stvarni cilj statističkog testiranja je donijeti točne zaključke na temelju podataka, bilo da to uključuje odbacivanje ili neodbijanje nul hipoteze. Fokus bi trebao biti na kvaliteti podataka i analize, a ne na željenom ishodu.
Postoji jedno važno pitanje pri donošenju odluke o nul hipotezi: Zašto ne smijemo ‘prihvatiti’ nul hipotezu?
Nul hipoteza nije dokaz istine, već početna pretpostavka:
kad ne odbacimo \(H_0\) , to u pravilu ne znači da je \(H_0\) istinita, već da nemamo dovoljno dokaza protiv nje.
Ograničenja uzorka i statističkih testova:
Kad ne odbacimo \(H_0\), to može značiti:
S obzirom na ove neizvjesnosti, statističari se pridržavaju termina ‘ne odbacujemo \(H_0\)’ (i ne koriste ‘prihvaćamo \(H_0\)’, jer to treba argumentirati dodatnim dokazima).
Pristranost u tumačenju:
Primjer:
Prije nastavka, rezimirajmo pogreške pri donošenju odluke o nul hipotezi. Pogreška tipa jedan označava “lažno pozitivan” zaključak – dolazimo do zaključka da je efekt prisutan iako u stvarnosti nije. Pogreška tipa dva označava “lažno negativan” zaključak – dolazimo do zaključka da nema efekta iako on postoji. Smanjenjem \(α\) (strožom razinom značajnosti) smanjujemo vjerojatnost pogreške prvog tipa, ali povećavamo rizik pogreške drugog tipa (\(β\)). Snaga testa (\(1-β\)) označava vjerojatnost da će test pravilno odbaciti \(H_0\) kad je neistinita. Snaga raste s većim uzorkom, manjim varijacijama u podacima ili boljim dizajnom studije.
Za razliku od razine povjerenja, koja se koristi u procjeni parametara kako bi se izgradili intervali unutar kojih se parametar s određenom sigurnošću nalazi (najčešće 95% ili 99%), razina značajnosti određuje granicu prema kojoj zaključujemo o odbacivanju ili ne-odbacivanju \(H_0\). Najčešće korištene razine značajnosti su \(α=0.05\) ili \(α=0.01\), što znači da smo spremni tolerirati 5% ili 1% vjerojatnosti da donesemo pogrešan zaključak odbacivanjem istinite nul hipoteze.
Provođenje z-testa koristi standardiziranu normalnu distribuciju, kao i intervalna procjena parametara. Pri provedbi z-testa, važno je odrediti je li u pitanju dvosmjerni ili jednosmjerni test. Ako je u \(H_0\) zapisana jednakost, onda se radi o dvosmjernom testu. Ako je u \(H_1\) zapisana nejednakost, onda je u pitanju jednosmjerni test, i to ako je veće ili jednako, radi se o testu na gornju granicu, a ako je manje ili jednako, u pitanju je jednosmjerni test na donju granicu. U ovom slučaju, hipoteze su zadane:
\[H_0… μ=120\]
\[H_1…μ≠120\]
Što znači da je u pitanju dvosmjerni test. Dvosmjerni test znači da će se razina značajnosti \(α\), koja mjeri pogrešku tipa jedan, simetrično podijeliti na rubne dijelove krakova distribucije. Na primjer, ako je \(α=0.05\), onda je to
Kada se provodi dvosmjerni test, eliminiraju se vrijednosti koje se nalaze u ekstremnim dijelovima distribucije, tj. vrijednosti koje su vrlo malo vjerojatne pod pretpostavkom da je \(H_0\) točna. Ove vrijednosti, smještene u rubnim dijelovima distribucije, su izvan granica povjerenja koje definiramo razinom značajnosti \(α\). Ako je izračunata vrijednost test statistike unutar kritičnog područja, onda odbacujemo \(H_0\) u korist \(H_1\).
Na slici je prikazana standardizirana distribucija testne statistike (z-testa) koja se temelji na distribuciji svih mogućih prosjeka uzoraka pod pretpostavkom da je \(H₀\) točna. Drugim riječima:
Zapravo se ovdje oslanjamo na reprezentativnost uzorka. Pretpostavljamo da su podaci iz uzorka valjani pokazatelji populacije. Ako je uzorak reprezentativan, onda je vrlo mala vjerojatnost da bi stvarna vrijednost populacijskog parametra μ ‘pala’ u kritično područje, pod uvjetom da je \(H_0\) točna. Stoga, dvosmjerni test omogućuje rigorozno testiranje hipoteze bez prevelikog rizika pogrešnog zaključivanja, jer razina značajnosti ograničava vjerojatnost da dođe do pogreške tipa I.
Nadalje, \(α/2=0.025\) nam pomaže utvrditi vrijednosti na apscisi standardizirane normalne distribucije koje dijele distribuciju na područje nedobacivanja i područja odbacivanja. Statistički softveri će ovo učiniti automatski, a ‘ručno’ bismo to učinili iščitavajući vrijednost iz statističkih tablica. Također, alati poput geogebre ili MS Excela, omogućuju utvrđivanje vrijednosti standardiziranog obilježja temeljem vjerojatnosti.
\(z_0.025= \pm 1.96\)
\(z_(α/2)\) je koeficijent značajnosti, a naziva se još i teorijska z-vrijednost te kritična z-vrijednost.
U sljedećem koraku, potrebno je izračunati standardnu pogrešku aritmetičke sredine. S obzirom da ne znamo veličinu populacije, ne tretiramo ju kao konačnu populaciju, pa stoga ne možemo izračunati frakciju izbora. I posljedično, ne primjenjuje se faktor korekcije.
Tablica 4. Pokazatelji otkucaja srca
Value | |
---|---|
Valid | 800 |
Mean | 124.4900 |
Std. Deviation | 22.5969 |
\[s_\bar{x} =\frac{s}{\sqrt{n}}=\frac{22.5969}{\sqrt{800}}=0.7989\]
Potom bismo izračunali pogrešku testiranja:
\[z_{α/2} \cdot s_\bar{x} =1,96 \cdot 0,7989=1,5658\]
z-test se izračunava temeljem izraza:
\[z=\frac{\bar{x}- \mu_o}{s_\bar{x}} = \frac{124,49-120}{0,7989}=5,62\]
Tablica 5. Rezultati dvosmjenih testova
Test | Statistic | df | p | Effect Size | SE Effect Size |
---|---|---|---|---|---|
Heart Rate | |||||
Student | 5.6201 | 799 | < .001 | 0.1987 | 0.0357 |
Wilcoxon | 186278.5 | < .001 | 0.1924 | 0.0410 | |
Z | 5.6218 | < .001 | 0.1988 | 0.0357 |
Note. For the Student t-test and Z-test, the alternative hypothesis specifies that the mean is different from 120. For the Wilcoxon test, the alternative hypothesis specifies that the median is different from 120. For the Student t-test, effect size is given by Cohen’s d. For the Wilcoxon test, effect size is given by the matched rank biserial correlation. For the Z test, effect size is given by Cohen’s d (based on the provided population standard deviation).
Na razini značajnosti 5%, odbacuje se pretpostavka da ljudi imaju prosječno 120 otkucaja srca u minuti. P-vrijednost od 0.0357, znači da postoji 3.57% vjerojatnosti da ćemo učiniti pogrešku ako odbacimo nul hipotezu. S obzirom da je ta vjerojatnost manja od razine značajnosti (koja mjeri pogrešku tipa jedan i razina koju smo sami odabrali na početku), donosi se odluka o odbacivanju nul hipoteze. Zaključuje se da je prosječan broj otkucaja srca u minuti ljudi različit od 120.
Da bismo ovo mogli izračunati u JASP-u, morali smo unijeti vrijednost koja se testira, standardnu devijaciju populacije, odabrati testove te hipotezu.
Iako namjerno, za potrebe primjera, ipak je učinjena pogreška. Naime, za potrebe izračuna, ovdje je unesena standardna devijacija uzorka kao standardna devijacija populacije. Iako će z-test često biti prvi test koji se uči pri testiranju hipoteza (zbog povezivanja s procjenom parametara i standardiziranom normalnom distribucijom), u praksi se rjeđe koristi upravo zbog toga jer nam neće biti poznata standardna devijacija populacije (osim ako imamo pristup službenim podacima ili iznimno velikoj količini podataka o određenoj pojavi).
Dakle, z-test ‘otpada’, iz dva razloga: prekršena je pretpostavka normalnosti i nije nam poznata standardna devijacija populacije.
Kad započnemo analizu, uvijek prvo provjeravamo mogućnosti provedbe parametrijskih testova - z-test, pa t-test i ANOVA, a tek onda, ako pretpostavke nisu zadovoljene, koristimo neparametrijske varijante. Zašto je to tako?
Parametrijski testovi se preferiraju jer, kad su njihove pretpostavke zadovoljene, omogućuju (Conover, 1999; Hollander i sur., 2013):
Snaga testa označava vjerojatnost da će statistički test ispravno odbaciti nul hipotezu kad je ona lažna. Drugim riječima, to je sposobnost testa da prepozna razliku ili učinak ako on stvarno postoji. Statistička snaga je definirana kao \(1−β\), gdje je \(β\) vjerojatnost pogreške tipa II.
Statistička snaga ovisi o nekoliko čimbenika:
Preciznije procjene: Omogućuju direktno testiranje populacijskih parametara (kao što su prosjek i varijanca), što pomaže u formuliranju preciznijih zaključaka i interpretaciji rezultata u kontekstu teorije.
Manje podataka potrebnih za istu snagu testa: Kad su pretpostavke zadovoljene, parametrijski testovi mogu pružiti pouzdane rezultate čak i sa manjim uzorcima, dok neparametrijski testovi obično zahtijevaju veće uzorke da bi postigli istu razinu snage.
Specifičnost u testiranju teorijskih modela: Budući da parametrijski testovi koriste konkretne parametre, oni su bolje usklađeni s teorijski postavljenim hipotezama, što olakšava interpretaciju rezultata u kontekstu prethodno definiranih očekivanja.
Kako biste bolje razumjeli ove tvrdnje, možete se poigrati odnosima \(\alpha\), \(\beta\), veličine uzorka i odabira testa koristeći online kalkulatore snage testa i veličine uzorka.
Zbog ovih raloga, kad započnemo analizu, prvo provjeravamo mogućnost primjene parametrijskih testova (npr. z-test, t-test, ANOVA) jer oni nude preciznije, moćnije i efikasnije metode testiranja hipoteza. Tek ako se utvrdi da pretpostavke (npr. normalnost i homogenost varijanci) nisu zadovoljene, prelazimo na neparametrijske testove kao alternativu, iako oni, zbog rangiranja podataka, obično imaju nižu statističku snagu.
Z-test je definiran kao test koji pretpostavlja da je standardna devijacija populacije poznata. Ovo dolazi iz povijesnog razvoja statističkih metoda, gdje je z-test primarno razvijen za situacije kad imamo čvrste informacije o populaciji, primjerice u proizvodnim procesima ili kad se radi s velikim, dobro poznatim populacijama. Na taj način, z-test omogućuje precizne proračune jer ne uključuje dodatnu varijabilnost koja nastaje procjenom standardne devijacije na temelju uzorka.
Sljedeći po redu je Studentov test. Studentov t-test je prikladniji jer:
U stvarnim uvjetima, standardna devijacija populacije (σ) rijetko je poznata. Umjesto toga, istraživači koriste standardnu devijaciju uzorka (s) kao procjenu. kad se koristi s, uvodi se dodatna neizvjesnost, jer s samo približno opisuje σ, posebno kod manjih uzoraka. To zahtijeva prilagodbu u distribuciji testne statistike, čime nastaje t-distribucija. Formula za t-testnu statistiku je:
\[t=\frac{\bar{x}-μ}{s/\sqrt{n}}=\frac{x ̅-μ}{s_\bar{x}} \]
Izraz za testovnu veličinu praktično je isti kao za z-test (izuzev korištenja standardne devijacije uzorka), ali je razlika u utvrđivanju koeficijenta značajnosti, \(t_{α/2}\) ili \(t_α\). Koeficijent značajnosti i dalje određuje granice područja odbacivanja za određenu razinu značajnosti (\(α\)). Prvo definiramo razinu značajnosti (\(α\)), koja obično iznosi \(α=0.05\) ili \(α=0.01\).
Kao i kod z-testa, za dvosmjerni test, podijelit ćemo α na dva dijela, jer nas zanimaju rubna područja s obje strane distribucije, \(α/2\), dok za jednosmjerni test, koristimo cijelu \(α\) na jednom kraku distribucije za određivanje koeficijenta značajnosti. Ali, koeficijent značajnosti tražimo pomoću Studentove distribucije.
Studentova t-distribucija je definirana pomoću omjera dviju nezavisnih slučajnih varijabli:
Izraz za t-distribuciju:
\[t= \frac{Z}{\sqrt{χ^2/k}}\]
gdje:
\(Z \sim N(0,1)\) – standardizirana normalna distribucija s prosjekom 0 i standardnom devijacijom 1, \(χ^2 \sim χ_k^2\) - Hi-kvadrat distribucija s k stupnjeva slobode.
Dakle, osim \(α\), potrebni su nam i stupnjevi slobode. Za t-test, stupnjevi slobode se izračunavaju kao:
\(df=n-1\),
gdje je \(n\) veličina uzorka.
Stupnjevi slobode određuju oblik t-distribucije, koja se mijenja ovisno o veličini uzorka. Manji uzorci rezultiraju širim krakovima distribucije, a veći uzorci približavaju t-distribuciju normalnoj distribuciji.
T-distribucija ima ‘teže’ krakove od normalne distribucije (spljoštenija je/ zaobljenija), što odražava dodatnu neizvjesnost u procjeni σ pomoću s. Kako uzorak raste (\(n \rightarrow ∞\)), t-distribucija konvergira prema normalnoj distribuciji jer procjena s postaje sve preciznija (ali i dalje vrijede pravila Studentove distribucije). Koeficijent značajnosti, \(t_{α/2}=\pm 1,965\), vrlo je blizu koeficijentu \(z_{α/2}\). Ovo svojstvo možete provjeriti koristeći Geogebru prema uputama iz prošlog štiva.
\[t=\frac{\bar{x}- \mu_o}{s_\bar{x}} = \frac{124,49-120}{22,5696/ \sqrt{800}} = \frac{4,49}{0,7989}=5,62\]
U ovom slučaju, izračunata testna veličina je \(t=5.62\) i nalazi se u području odbacivanja nul hipoteze (bijelo obojana površina pod krivuljom).
Iako je ovo poslužilo za ilustraciju provedbe t-testa i utvrđivanje vezanog koeficijenta značajnosti, s obzirom da je narušena pretpostavka normalnosti podataka, ni Studentov test ovdje nije primjeren odabir. S obzirom da smo provjerili dostupne parametrijske varijante prikladne za testiranje jednog uzorka, prelazimo na neparametrijske testove.
Preostaje provjeriti još Wilcoxon Signed Rank test, koji je neparametrijska alternativa t-testu za jedan uzorak. Wilcoxon Signed Rank test ne zahtijeva pretpostavku o normalnosti podataka jer se temelji na rangiranju vrijednosti, a ne na njihovim apsolutnim vrijednostima. Test procjenjuje razliku između medijana uzorka i hipotetske vrijednosti.
Ovaj test je osobito prikladan za:
Kvantitativne podatke koji nisu normalno distribuirani.
Uzorke kod kojih želimo testirati medijan, umjesto aritmetičke sredine.
Hipoteze za Wilcoxonov test:
Nul hipoteza: Medijan razlika broja otkucaja srca u minuti od pretpostavljene vrijednosti (120), jednak je nuli
\[H_0…D=0\]
Alternativna hipoteza: Medijan razlika broja otkucaja srca u minuti od pretpostavljene vrijednosti (120), različit je od nule
\[H_1…D≠0\]
Općenitije postavljene statističke hipoteze Wilcoxonovog signed rank testa glase:
Nul hipoteza: Medijan razlika (D) od pretpostavljene vrijednosti (ili između uparenih vrijednosti) je jednak nuli.
\[H_0…D=0\]
Alternativna hipoteza: Medijan razlika (D) od pretpostavljene vrijednosti (ili između uparenih vrijednosti) nije jednak nuli.
\[H_1…D ≠0\]
Potom se izračunavaju se razlike između svakog para opažanja, odnosno, u ovom slučaju: vrijednosti opažanja iz uzorka i referentne vrijednosti:
\[D_i=x_i-μ_0\]
pri čemu je u našem slučaju \(μ_0=120\).
U sljedećem koraku se rangiraju apsolutne vrijednosti razlika (\(|D_i |\)) od najmanje do najveće. Nakon toga se rangovima dodjeljuju znakovi iz izvornih razlika:
Ako je razlika (\(D_i>0\)), rang dobiva pozitivan znak.
Ako je razlika (\(D_i<0\)), rang dobiva negativan znak.
Testna veličina, W, je suma pozitivnih rangova (ili suma negativnih rangova, ovisno o softveru):
\(W=∑\text{Pozitivni rangovi}\).
Za male uzorke, koeficijent značajnosti iščitava se iz Wilcoxonove tablice i ovisi o veličini uzorka (\(n\)) i razini značajnosti (\(α\)). Za velike uzorke, koristi se aproksimacija pomoću normalne distribucije, a isto vrijedi i za izračun testne veličine. Odlučivanje o \(H_0\) funkcionira na isti način kao i za ostale testove - ako W prelazi apsolutnu vrijednost koeficijenta značajnosti, odbacuje se \(H_0\).
Izvor: https://www.statology.org/wilcoxon-signed-rank-test-critical-values-table/
Dakle, ako je uzorak maleni, na primjer, \(n=20\) i \(α=0.05\), koeficijent značajnosti bio bi \(W_{α/2}=45\). Za male uzorke se koristi tablica s kritičnim vrijednostima W na njihovoj originalnoj skali. Na toj skali, kritične vrijednosti rastu s veličinom uzorka.
U praksi ne postoji apsolutno strogi prag kad se s tabličnih vrijednosti prelazi na aproksimaciju standardiziranom normalnom distribucijom, ali se često prihvaća da se aproksimacija (tj. standardizacija Wilcoxonove testne statistike) počinje koristiti kada je broj parova s nenultim razlikama veći od 20. Neki autori navode prag već kod \(n \geq 10\), no u većini slučajeva, da bi se osigurala adekvatna preciznost, koristi se prag oko 20-25 opažanja. Statistički softveri obično prelaze na normalnu aproksimaciju kad broj relevantnih parova premaši taj prag.
Za velike uzorke se očekuje da će taj prag biti premašen, pa Wilcoxon Signed Rank test prelazi na aproksimaciju normalnom distribucijom, a to se temelji na centralnom graničnom teoremu, koji kaže da se distribucija suma (ili razlika) rangova približava normalnoj distribuciji s povećanjem uzorka. U ovom slučaju bi za \(α=0.05\) koeficijent značajnosti iznosio \(W_{α/2}=±1.96\).
Testna veličina W se standardizira korištenjem očekivanog prosjeka (\(μ_W\)) i standardne devijacije (\(σ_W\)) testne statistike pod \(H_0\):
\[z=\frac{W-μ_W}{σ_W}\]
Gdje su:
\(μ_W=\frac{n(n+1)}{4}\)
\(σ_W=\sqrt{\frac{n(n+1)(2n+1)}{24})}\).
Dakle, za male uzorke, distribucija testne statistike W temelji se na svojstvima rangova, a za velike uzorke, aproksimacija normalnom distribucijom omogućuje jednostavniju primjenu testa i izračun p-vrijednosti.
Budući da je p-vrijednost manja od razine značajnosti (\(α=0.05\)), odbacujemo nul hipotezu. To znači da je medijan broja otkucaja srca u ovom uzorku značajno različit od 120. Efekt veličina (\(d=0.1924\)) ukazuje na mali efekt prema Cohenovim kriterijima za Wilcoxonov test. Iako je statistički značajan, efekt nije jako izražen, što ukazuje na to da razlika do 120 možda nije praktično značajna.
Za ovakve situacije, Wilcoxonov test pruža pouzdanu alternativu t-testu, omogućujući istraživaču da donese zaključke o uzorku bez oslanjanja na pretpostavke o distribuciji podataka. U ovom primjeru, na temelju rezultata Wilcoxonovog testa, možemo zaključiti da je medijalni broj otkucaja srca različit od 120.
Dakle, da rezimiramo – započeli smo s hipotezom da je prosječan broj otkucaja srca jednak 120 otkucaja u minuti. Ilustrativno su prikazani postupci za z-test i t-test, a potom Wilcoxonov test. S obzirom da sad znamo pretpostavke, odnosno uvjete koji moraju biti zadovoljeni za provedbu svakog testa, odmah bismo odabrali samo Wilcoxonov test.
Imaju li ljudi prosječno manje od 120 otkucaja srca u minuti?
Hipoteza može glasiti i da je:
\[H_0… μ≥120\] \[H_1…μ<120\]
I u ovom slučaju, morali bismo preformulirati hipotezu za korištenje Wilcoxonovog Signed Rank testa, pa bismo u nul hipotezi pretpostavili da je medijan razlika od pretpostavljene vrijednosti veći od nule:
\[H_0… D≥0\]
\[H_1…D<0\]
Glavna razlika je u tome, što će za provođenje jednosmjernog testa, čitava razina značajnosti biti smještena na jednu stranu, i to na onu stranu koju vezujemo uz alternativnu hipotezu. Koeficijent značajnosti dijeli distribuciju vjerojatnosti na raspon u kojem se \(H_0\) ne odbacuje i raspon u kojem se \(H_0\) odbacuje. Ovdje će se raditi o samo jednoj vrijednosti (neće biti \(\pm\) kao kod dvosmjernog testa).
U ovom slučaju će koeficijent značajnosti (s obzirom da je u pitanju veliki uzorak) biti \(z_α \approx t_α \approx W_α \approx -1.645\). Dakle, iako je standardizirana normalna distribucija izvorno vezana uz provođenje z-testa, vidimo da se ona koristi za aproksimaciju koeficijenta značajnosti i u drugim testovima, ako radimo s velikim uzorcima.
Temeljem rezultata provedenih testova putem JASPa, možemo uočiti da na razini značajnosti 5% ne možemo odbaciti \(H_0\). To iščitavamo iz stupca ‘p’, u kojem je navedena p-vrijednost. Uz Wilcoxonov test, stoji \(p=1\), što znači da postoji vjerojatnost od približno 100% da bismo učinili pogrešku ako odbacimo \(H_0\). S obzirom da ne želimo napraviti takvu pogrešku i da je razina pogreške koju smo na početku odabrali \(α=5 \%\), donosimo odluku ne odbaciti nul hipotezu. Temeljem toga, zaključujemo da nismo prikupili dovoljno dokaza u korist odbacivanja \(H_0\).
Tablica 6. Rezultati jednosmjernih testova na donju granicu
Test | Statistic | df | p | Effect Size | SE Effect Size |
---|---|---|---|---|---|
Student | 5.6201 | 799 | 1 | 0.1987 | 0.0357 |
Wilcoxon | 186278.5 | 1 | 0.1924 | 0.0410 | |
Z | 5.6203 | 1 | 0.1987 | 0.0357 |
Note. For the Student t-test and Z-test, the alternative hypothesis specifies that the mean is less than 120. For the Wilcoxon test, the alternative hypothesis specifies that the median is less than 120. For the Student t-test, effect size is given by Cohen’s d. For the Wilcoxon test, effect size is given by the matched rank biserial correlation. For the Z test, effect size is given by Cohen’s d (based on the provided population standard deviation).
Imaju li ljudi prosječno više od 120 otkucaja srca u minuti?
Alternativno, može se dogoditi i da nas zanima obrnuta situacija i u nul hipotezi pretpostavljamo da je prosječan broj otkucaja srca manji od 120. Odnosno, u Wilcoxonovom testu, pretpostavljamo da je medijan razlika rangova manji od nule.
\[H_0… μ≤120\]
\[H_1…μ>120\]
Odnosno,
\[H_0… D≤0\]
\[H_1…D>0\]
Testna veličina je i dalje ista, jer računamo razlike od istih vrijednosti, ali se područje odbacivanja i neodbacivanja mijenja, pa se sad nalazi u području odbacivanja nul hipoteze. To vidimo i u p-vrijednosti, koja sad iznosi \(p<0.001\). To znači da vjerojatnost da ćemo učiniti pogrešku ako odbacimo nul hipotezu iznosi manje od 0,1%. Na razini značajnosti 5% donosimo odluku o odbacivanju nul hipoteze. Zaključujemo da je medijalni broj otkucaja srca u minuti veći od 120.
U ovom slučaju, nul hipoteza je odbačena, ali imamo i jasan ‘smjer’ zaključivanja. Ako smo \(H_0\) odbacili, možemo smisleno zaključivati o onom što preostaje.
Ovdje su se spominjali Cohenovi kriteriji, pa ćemo se još kratko pozabaviti time. Cohenovi kriteriji odnose se na procjenu veličine učinka (effect size) u statističkim analizama. Razvio ih je Jacob Cohen i koriste se za standardiziranu interpretaciju veličine učinka u različitim kontekstima, poput t-testova, korelacija i ANOVA testova.
Cohenovi kriteriji pružaju smjernice za interpretaciju veličine učinka kako bi se kvantitativno izrazila praktična ili znanstvena značajnost rezultata, neovisno o veličini uzorka. Veličina učinka pokazuje koliko je jaka razlika, povezanost ili učinak, iako ne određuje je li rezultat statistički značajan. Cohen je definirao pragove za tri razine veličine učinka: mali, srednji i veliki. Ovi pragovi nisu apsolutni, već smjernice koje ovise o kontekstu istraživanja.
Cohenov d mjeri standardiziranu razliku između prosjeka dviju grupa. Izračunava se kao razlika u prosjecima podijeljena standardnom devijacijom:
\[d=\frac{\bar{x}_1-\bar{x}_2}{s}\]
gdje je \(s\) standardna devijacija (najčešće kombinirana).
Kriteriji:
\(d \approx 0.2 \rightarrow\) Mali učinak
\(d \approx 0.5 \rightarrow\) Srednji učinak
\(d \approx 0.8 \rightarrow\) Veliki učinak
Slično, postoji \(η^2\) (eta – kvadrat), koja mjeri postotak varijabilnosti u zavisnoj varijabli koji se može objasniti nekom nezavisnom varijablom i češće se koristi za ANOVA testove (više o tim testovima kasnije).
Kriteriji:
\(\eta \approx 0.01 \rightarrow\) Mali učinak
\(\eta \approx 0.06 \rightarrow\) Srednji učinak
\(\eta \approx 0.14 \rightarrow\) Veliki učinak
Također, postoji Wilcoxon Rank biserial korelacija, koja je neparametrijska alternativa Cohenovom d i koristi se kod Wilcoxonovih testova.
\(r \approx 0.1 \rightarrow\) Mali učinak
\(r \approx 0.3 \rightarrow\) Srednji učinak
\(r \approx 0.5 \rightarrow\) Veliki učinak
Efekti se prema veličini mogu interpretirati na sljedeći način:
Mali učinak – efekti koje bi bilo teško primijetiti u stvarnom životu, ali će vjerojatno biti statistički značajni u velikim uzorcima.
Srednji učinak – efekti se mogu primijetiti u stvarnosti bez obzira na veličinu uzorka.
Veliki učinak – očigledni efekti u stvarnosti, koji su praktično važni.
Ovi kriteriji omogućuju istraživačima interpretaciju koja nije usmjerena samo na statističku značajnost, nego i na praktičnu važnost rezultata. Iako nisu univerzalno primjenjivi na svaku situaciju, Cohenovi kriteriji su općenito prihvaćeni kao smjernice u istraživačkom radu.
Dodatna napomena po pitanju korištenja pojma značajnost.
Značajno u općem smislu riječi znači da nešto ima važnost ili utjecaj u stvarnom životu. Također, može značiti da je čin, promjena ili razlika dovoljno velika da bude primjetna i korisna u praksi.
Statistički značajno znači da je, na temelju statističkog testa, utvrđeno da je razlika ili veza između varijabli malo vjerojatno nastala slučajno. Do takvog se zaključka dolazi kad je p-vrijednost manja od odabrane razine značajnosti.
Praktično značajno znači da su utvrđeni efekti toliko izraženi da će biti vidljiva njihova praktična uloga. Do takvog se zaključka dolazi se pomoću Cohenovog d-a ili sličnih mjera efekata.
Primjer: Recimo da vam netko pokloni čokoladu. Osobno, to vam može biti vrlo značajno – možda vam popravlja raspoloženje ili vam daje do znanja da vas netko cijeni. Međutim, ako bismo proučavali efekte na raspoloženje poklanjanja čokolade u velikom uzorku ljudi, mogli bismo otkriti da se takvi događaji javljaju vrlo često ili vrlo rijetko, ili s vrlo velikom ili malom veličinom efekta. Temeljem statističke analize, mogli bismo saznati, na primjer:
Dakle, dok je za vas poklon čokolade osobno značajan, u statističkoj analizi takav mali efekt možda neće biti praktično važan – to je primjer kako nešto može biti značajno u osobnom smislu, ali ne nužno statistički ili praktično značajno (i obrnuto).
Važno je napomenuti da:
Dakle, statistička značajnost pokazuje da rezultati nisu posljedica slučajnosti, dok praktična značajnost govori o stvarnom utjecaju ili važnosti tog rezultata u kontekstu primjene. Zbog toga se pri tumačenju temeljem p-vrijednosti preferira koristiti termin statistički značajno kako bi se izbjegle nedoumice oko značenja i pogrešne interpretacije. Pri tumačenju Cohenovog d, koristi se termin praktična značajnost rezultata.
Jesi li prosjeci otkucaja srca jednaki u dvije skupine?
Prelazimo na sljedeću skupinu testova koji će se baviti usporedbom dva nezavisna uzorka. Ako isti niz podataka o otkucajima srca o minuti, koji smo do sad tretirali kao jedan uzorak, podijelimo na skupinu sa sjedećim načinom života i skupinu trkača, zašto to sad smiju biti dva nezavisna uzorka? Podaci o otkucajima srca zapravo su prikupljeni iz dviju različitih skupina ispitanika: kontrolne skupine (osobe sa sjedilačkim načinom života) i trkača (osobe s visokim stupnjem fizičke aktivnosti). Ove dvije skupine su jasno definirane i međusobno se ne preklapaju. Osobe iz kontrolne skupine nemaju zajedničke karakteristike s trkačima u smislu tjelesne aktivnosti, osim eventualnih demografskih sličnosti. Budući da je svaka osoba u uzorku član isključivo jedne skupine, a skupine su neovisne jedna o drugoj (trkači ne trče zbog toga što ovi drugi sjede ili obrnuto), podaci se mogu tretirati kao dva nezavisna uzorka.
Za usporedbu dviju skupina, potrebno je definirati statističke hipoteze:
Nul hipoteza: Ne postoji razlika u prosječnom broju otkucaja srca između kontrolne skupine i trkača.
\[H_0… μ_{kontrolna}= μ_{trkači}\]
Alternativna hipoteza: Postoji razlika u prosječnom broju otkucaja srca između kontrolne skupine i trkača.
\[H_1… μ_{kontrolna}≠ μ_{trkači}\]
No, slično kao i za testove koje provodimo na jednom uzorku, odabir testova koje provodimo na dva uzorka ovisit će o tome jesu li zadovoljene određene pretpostavke.
Kao i ranije, tu je pretpostavka o normalnosti podataka, no ovdje se ona testira zasebno za svaku skupinu. Kontrolna skupina ima izračunate vrijednosti W=0.9973 i p=0.7723, što upućuje na to da ne možemo odbaciti pretpostavku da je distribucija približno normalno distribuirana. Nama to otvara mogućnost korištenja parametrijskih testova.
U skupini trkača, izračunate su veličine W=0.989 i p=0.0041, što znači da postoji statistički značajna razlika između distribucije otkucaja srca trkača i normalne distribucije, pa ne možemo nastaviti s pretpostavkom normalne distribucije. Iz ovoga zaključujemo da je pretpostavka normalnosti zadovoljena za kontrolnu skupinu, ali nije za trkače.
Tablica 7. Shapiro-wilkov test normalnosti podataka
W | p | |
---|---|---|
Heart Rate (Control) | 0.9973 | 0.7723 |
Heart Rate (Runners) | 0.9890 | 0.0041 |
Note. Significant results suggest a deviation from normality.
Sljedeći test ispituje postoji li razlika u varijancama dviju skupina. U nul hipotezi zapisana je homogenost varijanci (tj. varijance su jednake), dok alternativna hipoteza tvrdi da su različite.
Tablica 8. Brown-Forsythe test jednakosti varijanci
F | df1 | df2 | p | |
---|---|---|---|---|
Heart Rate | 13.2383 | 1 | 798 | < .001 |
Homogenost varijanci je pretpostavka za određene parametrijske testove, kao što su Studentov t-test za nezavisne uzorke, jednosmjerna ANOVA, dvosmjerna ANOVA i druge. Naime, jednakost varijanci među grupama osigurava pouzdanost procjena testne statistike. kad ta pretpostavka nije ispunjena, rezultati testova mogu biti nepouzdani, što može dovesti do pogrešnih zaključaka.
Tako kršenje pretpostavke homogenosti varijanci može povećati vjerojatnost pogreške tipa I, odnosno donošenja zaključka da postoji statistički značajna razlika kad je zapravo nema. Na primjer, kod Studentovog t-testa za nezavisne uzorke, razlike u varijancama između dviju grupa mogu favorizirati jednu grupu, čime se umjetno ‘povećava’ statistička značajnost.
Također, može doći i do povećanja vjerojatnosti pogreške tipa II, gdje test ne uspijeva detektirati stvarne razlike među grupama zbog velikih i neujednačenih varijacija u podacima. Ovo se događa jer nejednake varijance narušavaju preciznost procjene testne statistike, smanjujući snagu testa.
Jedan od problema koji se osobito javlja kod testova poput ANOVE je to što testna veličina (F-statistika) postaje nepouzdana ako su varijance među grupama nejednake, što može rezultirati ili lažno pozitivnim zaključcima ili nemogućnošću otkrivanja stvarnih razlika.
Kada su varijance nejednake, jedan od pristupa je korištenje testova koji ne pretpostavljaju homogenost varijanci. Primjerice, Welchov t-test i Welchova ANOVA dizajnirani su tako da se mogu primijeniti kad varijance među grupama nisu jednake. Ovi testovi prilagođavaju procjene varijabilnosti kako bi rezultati ostali pouzdani. Dodatno, neparametrijski testovi poput Mann-Whitney U testa za dvije grupe ili Kruskal-Wallis testa za više grupa ne oslanjaju se na pretpostavke o homogenosti varijanci, što ih čini robusnijim u takvim situacijama.
Druga strategija za rješavanje problema nejednakih varijanci uključuje transformaciju podataka. Transformacije, poput logaritmiranja ili korjenovanja, često mogu smanjiti razlike u varijancama između grupa. Međutim, takve transformacije mogu promijeniti interpretaciju rezultata, pa je potrebno pažljivo razmotriti njihovu primjenu. Ovo spada u naprednije teme, pa se ovdje nećemo time baviti.
Dakle, umjesto da se nastavi s neprikladnim testovima, trebali bismo razmotriti alternativne metode poput Welchovih testova ili Mann-Whitney U testa. Mi ćemo ipak to namjerno prekršiti za potrebe primjera, kako bi se prikazao postupak za sve testove. Rezultati testova usporedbi dviju grupa prikazani su tablicom. Primjetite i to, da će softveri izračunati i pružiti rezultate onih testova koje zatražite, neovisno o tome jesu li pretpostavke ispoštovane. Dakle, odabir testa je i dalje naš posao.
Tablica 9. Rezultati testiranja razlika u broju otkucaja srca između skupina
Test | Statistic | df | p | Effect Size | SE Effect Size |
---|---|---|---|---|---|
Student | 23.6871 | 798 | < .001 | 1.6749 | 0.0922 |
Welch | 23.6871 | 768.4229 | < .001 | 1.6749 | 0.0922 |
Mann-Whitney | 140747 | < .001 | 0.7593 | 0.0408 |
Note. For the Student t-test and Welch t-test, effect size is given by Cohen’s d. For the Mann-Whitney test, effect size is given by the rank biserial correlation.
Prvo razmatramo Studentov t-test, koji pretpostavlja homogenost varijanci i normalnu distribuciju podataka. Za provedbu Studentovog testa, hipoteze bi glasile:
\[H_o… μ_{kontrolna}= μ_{trkači}\]
\[H_1… μ_{kontrolna}≠ μ_{trkači}\]
Ponovimo, kako se radi o dvosmjernom testu, razina značajnosti je podijeljena i smještena na rubne dijelove krakova distribucije. Na prvom grafu, plava površina obuhvaća 0.95 (područje neodbacivanja \(H_0\)), dok je po 0.025 smješteno na rubnim dijelovima krakova (područja odbacivanja \(H_0\); razina značajnosti \(α=0.05\)). Koeficijent značajnosti je \(\pm 1.96\). Na drugom grafu, plava površina obuhvaća 0.99 (područje odbacivanja \(H_0\)), dok je razina značajnosti \(α=0.01\) podijeljena i 0.005 smješteno je na rubne dijelove krakova distribucije (područja odbacivanja \(H_0\)) uz koeficijent značajnosti od \(\pm 2.58\).
t-test izračunava se kao:
\[t=\frac{(\bar{x}_1-\bar{x}_2)}{\sqrt{s^2 (\frac{1}{n_1} +\frac{1}{n_2})}}\]
ili \[t=\frac{x ̅_1-x ̅_2}{s \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\]
Gdje su:
\[s^2=\frac{(n_1-1) s_1^2+(n_2-1) s_2^2}{n_1+n_2-2}\]
A pritom se koriste ukupni stupnjevi slobode:
\[df=n_1 +n_2 -2\]
Dakle, upravo zbog pretpostavke o jednakosti varijanci, Studentov test koristi zajedničku varijancu za izračun standardne pogreške. Zbog takvog izračuna, ovaj test se naziva i Pooled t-test.
Rezultati ukazuju na statističku značajnost razlike između dvije grupe (t = 23.6871, df = 798, p < 0.001). Dakle, kad bismo na bilo kojoj od ovih distribucija naznačili t = 23.6871, vidimo da bi se ta testna veličina nalazila daleko u području odbacivanja nul hipoteze. Veličina učinka, izražena Cohenovim d, iznosi 1.6749, što ukazuje na veliki efekt prema Cohenovim kriterijima. Međutim, s obzirom na narušenu pretpostavku homogenosti varijanci (kao što je utvrđeno Brown-Forsythe testom), interpretacija ovog testa je ograničena i nepouzdana.
Welchov test je prilagođen situacijama gdje varijance među grupama nisu jednake. Pretpostavlja se da su podaci unutar svake grupe približno normalno distribuirani. Međutim, test je relativno robustan na manja odstupanja od normalnosti, osobito kod većih uzoraka (n > 30 po grupi), zahvaljujući centralnom graničnom teoremu.
Hipoteze su formulirane na isti način kao za studentov test:
\[H_o… μ_{kontrolna}= μ_{trkači}\] \[H_1… μ_{kontrolna}≠ μ_{trkači}\]
Welchov t-test je zapravo modifikacija klasičnog t-testa za nezavisne uzorke i ta se modifikacija prvenstveno odnosi na način kako se tretira varijanca. Welchov t-test računa se prema izrazu:
\[t= \frac{\bar{x}_1-\bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} +\frac{s_2^2}{n_2}}}\]
Welchov t-test koristi prilagođeni broj stupnjeva slobode df, koji se izračunava na način da uzima u obzir varijabilnost i veličinu uzoraka te rezultira vrijednostima stupnjeva slobode koji nisu cijeli brojevi.
\[ df = \frac{\left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2} {\frac{\left( \frac{s_1^2}{n_1} \right)^2}{n_1 - 1} + \frac{\left( \frac{s_2^2}{n_2} \right)^2}{n_2 - 1}} \]
Rezultati ovog testa su gotovo identični rezultatima Studentovog t-testa (t = 23.6871, df = 768.4229, p < 0.001), ali zbog prilagodbe za nejednake varijance, zaključci izvedeni iz Welchovog testa su pouzdaniji. Veličina učinka ostaje ista (Cohenov d = 1.6749), što ukazuje na snažan učinak razlike između kontrolne skupine i trkača. Ipak, s obzirom na narušenu pretpostavku o normalnosti, ne možemo se pouzdati niti u ove rezultate.
Preostaje još Mann-Whitney U test, neparametrijska alternativa t-testu, koja koristi rangove umjesto apsolutnih vrijednosti podataka, čime eliminira potrebu za pretpostavkama o homogenosti varijanci i normalnosti distribucije.
\[H_0…\text{distribucije dviju grupa su jednake}\] \[H_1…\text{distribucije dviju grupa su različite}\]
U slučaju da se testiraju distribucije koje su sličnog oblika i simetrične, hipoteze se smiju postaviti na sljedeći način:
\[H_0…\text{medijani dviju grupa su jednaki}\] \[H_1…\text{medijani dviju grupa su različiti}\]
Potrebno je provjeriti skewness i kurtosis obje grupe, pri čemu se uobičajeno tolerira skewness od \(\pm 0.5\), a kurtosis mora ukazivati na isti oblik distribucije. Ako distribucije dviju grupa imaju značajno različite skewness ili kurtosis, usporedba medijana postaje manje pouzdana jer Mann-Whitney U test zapravo testira razliku u distribucijama, a ne isključivo medijane.
Postupak izračuna se sastoji od objedinjavanja podataka iz obje grupe, nakon čega se svakom opažanju dodjeljuje rang, od najmanje do najveće vrijednosti. Potom se izračunavaju sume rangova za svaku grupu.
R1: Suma rangova za prvu grupu
R2: Suma rangova za drugu grupu.
Nakon toga se računa testna veličina:
\[U_1=n_1 \cdot n_2+\frac{n_1 (n_1+1)}{2}-R_1\]
\[U_2=n_1 \cdot n_2+\frac{n_1 (n_1+1)}{2}-R_2\]
\[U=min(U_1,U_2)\]
Nakon što su izračunate veličine \(U_1\) i \(U_2\), odabire se manja vrijednost i pristupa se postupku standardizacije:
\[z= \frac{U-μ_U}{σ_U} \]
Gdje su:
\(μ_U=\frac{n_1 n_2}{2}\) (tumači se kao očekivana vrijednost U uz pretpostavku \(H_0\))
\(σ_U=\sqrt{\frac{n_1 n_2 (n_1+n_2+1)}{12}}\) (standardna devijacija U)
Dobivena testna veličina uspoređuje se s koeficijentom značajnosti (ili se p-vrijednost uspoređuje s razinom značajnosti) i donosi se odluka o nul hipotezi. Rezultat (U = 140747, p < 0.001) također ukazuje na značajnu razliku između grupa, no veličina učinka, izražena Wilcoxon Rank biserial korelacijom (r = 0.7593), pokazuje nešto manju vrijednost od Cohenovog d, iako i dalje ukazuje na velik učinak.
Postoji li razlika u prosječnom broju otkucaja srca s obzirom na skupine? A postoji li razlika u prosječnom broju otkucaja srca s obzirom na skupine i spol?
Dok je t-test ograničen na usporedbu dviju grupa, ANOVA (engl. ANalysis Of VAriance) i Kruskal-Wallis test omogućuju procjenu varijacija između dvije ili više grupa, čime pružaju širu analitičku perspektivu ako istraživački dizajn uključuje više nezavisnih grupa. Ova skupina testova proširuje mogućnosti analize podataka, omogućujući istraživačima da odgovore na složenija istraživačka pitanja.
ANOVA se često koristi kao sinonim za analizu varijance, iako analiza varijance zapravo podrazumijeva skupinu testova i modela, pri čemu je moguće testirati postoji li razlika između prosjeka ili varijanci više populacija. Dakle, analiza varijance je širi pojam od ANOVE, pa je poželjno ne koristiti ih kao sinonime.
Parametrijski testovi poput ANOVA i Welchove ANOVA fokusiraju se na razlike u prosjecima grupa, pa će prosjeci biti zapisani i u nul hipotezi. Za razliku od testova koji direktno uspoređuju prosjeke, ANOVA uspoređuje odstupanja od prosjeka u grupama. No, krenimo redom.
ANOVA dopušta usporedbu s obzirom na jedan ili dva faktora (nazivaju se još i varijablama tretmana). Faktori su nezavisne kategoričke varijable (kvalitativne, kodirane), a preispituje se njihova uloga u razlikama u zavisnoj varijabli koja mora biti kontinuirana varijabla. Broj modaliteta kategoričke varijable određuje broj grupa za usporedbu prosjeka. U našem slučaju, kvalitativna varijabla (ili faktor) Group ima samo dva modaliteta i temeljem njih uzorak će biti podijeljen na dva podskupa koji će se uspoređivati.
Jednofaktorska analiza (one-way) varijance može se primijeniti pri utvrđivanju, na primjer, postoji li razlika u prosječnom vremenu izrade proizvoda koristeći dvije ili više vrsta strojeva; postoji li razlika u smanjenju simptoma ovisno o korištenju lijeka ili placeba, i slično. Dakle, koristi se jedan faktor (kvalitativna varijabla) koji ima dva ili više modaliteta. Modaliteti predstavljaju karakteristiku kojom se pojedino opažanje pripisuje odgovarajućoj grupi.
Ako je ovdje faktor Group, što zapravo možemo razumjeti kao ‘vježbanje’, koje ima dva modaliteta - osobe koje ne vježbaju i osobe koje vježbaju, onda možemo uočiti da je u pitanju jedan faktor prema čijim modalitetima dijelimo ispitanike (tj. njihove opažene otkucaje srca) u skupinu vježbača i nevježbača.
Potrebno je izračunati aritmetičku sredinu za svaku grupu, a zatim aritmetičku sredinu svih grupa zajedno. Nakon toga izračunavaju se sume kvadrata odstupanja unutar grupa (engl. Within), između grupa (engl. Between) i ukupan zbroj kvadrata odstupanja (total).
\[ SS_W = \sum_{j=1}^{k} \sum_{i=1}^{n_j} (x_{ij} - \bar{x}_j)^2 \]
\[ SS_B = \sum_{j=1}^{k} n_j (\bar{x}_j - \bar{x})^2 \]
\[ SS_T = \sum_{j=1}^{k} \sum_{i=1}^{n_j} (x_{ij} - \bar{x})^2 \]
gdje je i vrijednost zavisne varijable j-te grupe. Pojedini zbroj kvadrata odstupanja dijeli se s pripadnim brojem stupnjeva slobode i na taj se način dobivaju prosječni kvadrati (engl. mean squares) i empirijska F-veličina:
\[ F = \frac{MSB}{MSW} = \frac{SSB / (k-1)}{SSW / (n-k)} \]
F-veličina vezuje se uz teorijsku F-distribuciju. F-distribucija je omjerna distribucija, što znači da je sastavljena od omjera slučajnih varijabli koje se ravnaju prema druge dvije distribucije. Teorijska distribucija određena je stupnjevima slobode oba uzorka, stoga će oblik funkcije gustoće ovisiti o broju opažanja u oba uzorka. Distribucija sadrži pozitivne vrijednosti i pozitivno (desnostrano) je asimetrična za manje vrijednosti stupnjeva slobode. Kako raste broj stupnjeva slobode, distribucija se oblikom sve više približava normalnoj distribuciji.
Varijabilnost unutar grupa (SSW) predstavlja komponentu pogreške, jer se pretpostavlja da predstavlja da, uz pretpostavku da je \(H_0\) istinita, te varijabilnosti mogu biti samo rezultat slučajnosti.
Ako je SSB značajno veći od SSW, to će se očitovati i u testnoj veličini i pripisanoj p-vrijednosti, a nul hipoteza će se odbaciti. Statistička hipoteza glasi:
\[H_0:μ_1=μ_2=⋯μ_j\]
\[H_1:μ_i≠μ_{j^*}\] - za najmanje jedan par \(μ_i,μ_{j^*}\)
Gdje je
Po pitanju normalnosti, kod ANOVA-e se primarno pretpostavlja normalna distribucija reziduala, a ne nužno same zavisne varijable unutar svake kategorije nezavisne varijable. To znači da je glavni fokus na procjeni distribucije reziduala, za što Q-Q plot omogućuje brz i intuitivan način uvida u potencijalna odstupanja.
Dakle, za ispitivanje normalnosti podataka, u ovom slučaju reziduala, možemo koristiti i Q-Q plot. Q-Q plot (quantile-quantile plot) služi za vizualnu procjenu odstupanja distribucije podataka od normalne distribucije. Na ovom grafu, standardizirani reziduali prikazani su na y-osi, dok se na x-osi nalaze kvantili teorijske normalne distribucije. Ako su reziduali normalno distribuirani, točke na grafu trebale bi slijediti pravac koji je označen crvenom linijom.
Na grafu se vidi da većina točaka leži vrlo blizu pravca, što sugerira da su reziduali približno normalno distribuirani. Takav obrazac upućuje na to da pretpostavka o normalnosti reziduala, koja je jedna od pretpostavki za valjanost ANOVA-e, nije narušena. Manja odstupanja (nekoliko odstupanja) od pravca na rubnim dijelovima obično se smatraju prihvatljivima, posebno ako ne utječu značajno na središnji dio distribucije.
Kod ANOVA-e, normalnost zavisne varijable (otkucaji srca) unutar kategorija nije stroga pretpostavka, jer je analiza relativno robusna na umjerena odstupanja od normalnosti ako su veličine grupa jednake i uzorak dovoljno velik. U tom kontekstu, statistički testovi normalnosti, poput Shapiro-Wilk, provedeni na zavisnoj varijabli mogu čak navesti na pogrešan zaključak. Na primjer, u velikim uzorcima čak i mala odstupanja mogu rezultirati statistički značajnim rezultatima, iako ti rezultati praktično ne narušavaju pouzdanost analize, a osim toga, bitna je normalnost reziduala, a ne zavisne varijable. Suprotno tome, kod malih uzoraka ovi testovi često nemaju dovoljno snage da otkriju stvarna odstupanja.
Glavni prioritet kod ANOVA-e je homogenost varijanci između grupa. Ova se pretpostavka ispituje metodama poput Leveneovog testa. Ako je homogenost varijanci narušena, onda su rezultati ANOVA-e manje pouzdani.
Tablica 10. Leveneov test jednakosti varijanci
F | df1 | df2 | p |
---|---|---|---|
12.8073 | 1 | 798 | < .001 |
Levenov test homogenosti varijanci pretpostavlja da su varijance u dvjema skupinama su jednake. Alternativna hipoteza glasi da varijance u dvjema skupinama nisu jednake. Budući da je p-vrijednost manja od razine značajnosti (\(α=0.05\)), odbacujemo \(H_0\). Zaključujemo da varijance dviju skupina (kontrolne skupine i trkača) nisu jednake.
Ovo znači da je narušena pretpostavka homogenosti varijanci, što ima implikacije na provođenje ANOVA testa, posebno klasične verzije koja pretpostavlja jednake varijance. Iako ne bismo smjeli nastaviti s provođenjem ANOVA testa (osobito klasične ANOVA-e), ponovo ćemo to namjerno prekršiti kako bi se prikazala tumačenja radi ilustracije.
Međutim, i u takvim slučajevima postoje opcije koje omogućuju nastavak analize, a da pritom rezultati ostanu valjani. To uključuje varijante ANOVA-e s korekcijama poput Brown-Forsythe i Welch ANOVA. Brown-Forsythe ANOVA korigira klasičnu ANOVA metodu tako da smanjuje utjecaj nejednakih varijanci među grupama. Fokusira se na srednje apsolutne devijacije (MAD, umjesto standardne devijacije) i bolje funkcionira u situacijama s heterogenim varijancama. To čini rezultate robusnijima u situaciji narušene homogenosti varijanci. Welchova ANOVA još je jedna alternativa koja se često koristi kad su varijance među grupama značajno različite. Za razliku od klasične ANOVA-e, Welchova metoda prilagođava stupnjeve slobode kako bi se kompenzirale nejednake varijance. Ova metoda je također robusna na narušenu pretpostavku homogenosti i često se koristi kad postoje značajne razlike u veličini grupa (npr., jedna grupa ima mnogo više opažanja od druge).
Važno je napomenuti da, iako su ove korekcije korisne, one ne ‘popravljaju’ podatke, već samo prilagođavaju statističke izračune kako bi rezultati bili pouzdaniji. No, ako su varijance među grupama izrazito heterogene, trebali bismo odabrati neparametrijski test, kao što je Kruskal-Wallis test, koji ne zahtijeva pretpostavku homogenosti varijanci.
Tablica 11. Rezultati ANOVA testiranja za Heart rate
Homogeneity Correction | Cases | Sum of Squares | df | Mean Square | F | p | η² |
---|---|---|---|---|---|---|---|
None | Group | 168432.0800 | 1 | 168432.0800 | 561.0797 | < .001 | 0.4128 |
Residuals | 239553.8400 | 798 | 300.1928 | ||||
Brown-Forsythe | Group | 168432.0800 | 1 | 168432.0800 | 561.0797 | < .001 | 0.4128 |
Residuals | 239553.8400 | 768.4229 | 311.7474 | ||||
Welch | Group | 168432.0800 | 1 | 168432.0800 | 561.0797 | < .001 | 0.4128 |
Residuals | 239553.8400 | 768.4229 | 311.7474 |
Note. Type III Sum of Squares.
Tablica 12. Kruskal-Wallis test
Factor | Statistic | df | p |
---|---|---|---|
Group | 345.5941 | 1 | < .001 |
Rezultate „klasičnog“ ANOVA pristupa iščitavamo iz tablice u recima None (bez korekcije). Rezultat (\(F=561.0797\), \(p<0.001\), \(η^2=0.4128\)) ukazuje na odluku o odbacivanju \(H_0\). Zaključili bismo da postoji statistički značajna razlika u prosječnim otkucajima srca između dviju skupina. \(η^2=0.4128\) ukazuje na veliki efekt (prema Cohenovim kriterijima). To znači da je preko 41% varijabilnosti u broju otkucaja srca objašnjeno pripadnošću grupi (kontrolna ili trkači).
S obzirom na prekršenu pretpostavku homogenosti varijanci (Leveneov test), bolja je opcija koristiti korektivne modele ANOVA.
Brown-Forsythe ANOVA koristi modifikaciju varijance kako bi bila manje osjetljiva na heterogenost varijanci, a hipoteza ostaje ista. Rezultat (\(F=561.0797\), \(p<0.001\)) upućuje na to da zaključak ostaje isti – statistički značajna razlika između skupina.
Welchova ANOVA ne oslanja se na pretpostavku homogenosti varijanci i koristi ponderirane prosjeke. Rezultat (\(F=561.0797\), \(p<0.001\)) opet upućuje na isti zaključak – statistički značajna razlika između skupina.
Dakle, korekcije su osigurale pouzdanost rezultata unatoč narušenoj pretpostavci homogenosti varijanci. Razlika između skupina ostaje statistički značajna. Ipak, nemamo normalno distribuirana opažanja o obje grupe, što znači da trebamo isprobati neparametrijske testove.
Kruskal-Wallis test je neparametrijska alternativa ANOVA testu, prikladna za usporedbu više grupa bez pretpostavki o normalnosti i homogenosti varijanci, jer koristi rangove podataka umjesto stvarnih vrijednosti. Kad se Kruskal–Wallis test koristi za usporedbu medijana među grupama, implicitno se pretpostavlja da su oblici distribucija u svim grupama slični (tj. da bi se uspoređivali medijani, oblici distribucija grupa moraju biti slični). Ako su distribucije sličnog oblika, tada razlike u rangovima prvenstveno odražavaju razlike u medijanima. Međutim, ako distribucije značajno odstupaju u obliku ili rasponu, tada test zapravo uspoređuje cjelokupnu distribuciju, a ne nužno samo medijane.
Hipoteze glase:
\[H_0 : \text{Distribucije broja otkucaja srca u grupama su jednake.}\]
\[H_1 : \text{Distribucije broja otkucaja srca u grupama su različite.}\]
Testna veličina za Kruskal-Wallis test temelji se na rangovima podataka i izračunava se prema sljedećoj formuli:
\[H=\frac{12}{N(N+1)} ∑_{i=1}^k \frac{R_i^2}{n_i} -3(N-1)\]
Gdje je:
\(N\) – ukupan broj opažanja (suma svih veličina grupa).
\(k\) – broj grupa koje se uspoređuju.
\(R_i\) – ukupna suma rangova za i-tu grupu.
\(n_i\) – broj opažanja u i-toj grupi.
Pri izračunu, prvo se objedinjavaju podaci obje grupe, poredaju po veličini i rangiraju. Potom se računa suma rangova za svaku grupu, \(R_i\), a nakon toga slijedi uvrštavanje u prikazanu formulu. Ako postoje podaci s istim vrijednostima, koriste se tzv. povezani rangovi (engl. tied ranks). Korekcija za vezane rangove izračunava se prema faktoru:
\[T=1- \frac{∑(t_j^3-t_j)}{N^3-N}\]
Gdje je \(t_j\) broj vezanih opažanja za \(j\)-tu grupu vezanih rangova. Korekcija se primjenjuje množenjem izračunate testne veličine H s T kako bi se dobila prilagođena testna vrijednost.
\[H_{adjusted}=H \cdot T\]
Rezultat (\(χ^2=345.5941\), \(df=1\), \(p<0.001\)) upućuje na odbacivanje \(H_0\). Zaključujemo da distribucije broja otkucaja srca između kontrolne skupine i trkača nisu jednake. Kruskal-Wallis test potvrđuje razliku između skupina, ali ne pruža specifične informacije o veličini ili smjeru razlika (kao što to čini \(η2\) u ANOVA testu).
Kruskal-Wallis vs. ANOVA
Podaci:
Pretpostavke:
Zaključci:
Homogenost varijanci je pretpostavka ANOVA-e i klasičnih t-testova, ali Brown-Forsythe ANOVA i Welchova ANOVA mogu pružiti valjano testiranje i kad je pretpostavka narušena (iako ne u ekstremnim situacijama), dok Kruskal-Wallis test ne zahtijeva ovu pretpostavku.
Osim toga, testovi se razlikuju i prema mogućnostima testiranja različitih podataka i njihovih distribucija. ANOVA, Brown-Forsythe ANOVA i Welchova ANOVA su parametrijski testovi koji pretpostavljaju normalnu distribuciju podataka reziduala i koriste se za kontinuirane kvantitativne varijable. Nasuprot tome, Kruskal-Wallis test je neparametrijski, pa se koristi kad distribucije nisu normalno distrubuirane ili kad podaci nisu kvantitativne varijable, čime pruža veću fleksibilnost u analizi. Ali, zato Kruskal-Wallis test analizira razlike u distribucijama podataka među grupama (a ne razlike u prosjecima), što može pružiti uvide samo u obrasce podataka.
Za identifikaciju specifičnih parova grupa s razlikama nakon ovih testova, nužne su post – hoc analize, poput Tukeyevog testa za ANOVA testove, dok Kruskal-Wallis test koristi neparametrijske post – hoc metode, kao što je Dunnov test.Tablica 13. Post Hoc usporedbe - skupina
Mean Difference | SE | t | ptukey | |
---|---|---|---|---|
Control - Runners | 29.0200 | 1.2251 | 23.6871 | < .001 |
Tablica 14. Dunnove Post Hoc usporedbe - skupina
Comparison | z | Wi | Wj | p | pbonf | pholm |
---|---|---|---|---|---|---|
Control - Runners | 18.5902 | 552.3675 | 248.6325 | < .001 | < .001 | < .001 |
Tukeyjev post-hoc test koristi se za identifikaciju parova grupa koje se značajno razlikuju nakon što je ANOVA pokazala ukupnu značajnu razliku među grupama. Prosječna razlika u broju otkucaja srca između kontrolne skupine i trkača iznosi 29.02. Standardna pogreška razlike aritmetičkih sredina iznosi 1.2251. P-vrijednost manja od 0.001 potvrđuje da je vrlo malo vjerojatno da je razlika u prosjeku između grupa rezultat slučajnosti, čime se daje potvrda odbacivanju nul hipoteze o jednakosti prosječnih otkucaja srca. Zaključuje se da postoji statistički značajna razlika između prosjeka otkucaja srca kontrolne skupine i trkača.
Dunnov post-hoc test koristi rangove podataka i često se koristi kao post – hoc test nakon Kruskal-Wallis testa, posebno u situacijama kad pretpostavke parametrijskih testova nisu zadovoljene. Standardizirana testna veličina (\(z=18.5902\)) pokazuje značajnu razliku između kontrolne skupine i trkača. Sume rangova za kontrolnu skupinu (\(W_i=552.3675\)) i za trkače (\(W_j=248.6325\)) dodatno potvrđuju tu razliku. P-vrijednosti, uključujući nekorigiranu, Bonferronijevu korekciju i Holmovu korekciju, sve su manje od 0.001. Ovo znači da rezultati ostaju značajni čak i nakon korekcija za višestruka testiranja, čime se smanjuje vjerojatnost pogrešne odluke o nul hipotezi.
Sada ćemo provesti višefaktorsku ANOVA-u za skupine (Group) i spola (Gender) u odnosu na broj otkucaja srca. Također se provjerava homogenost varijanci i značajnost glavnih efekata.
Tablica 15. Leveneov test jednakosti varijanci
F | df1 | df2 | p |
---|---|---|---|
5.5619 | 3 | 796 | < .001 |
Pretpostavka homogenosti varijanci nije zadovoljena. Iako ANOVA može tolerirati blago narušenu homogenost varijanci, značajno odstupanje može narušiti točnost rezultata, posebno za glavne efekte i interakcije. Dakle, ovaj je primjer samo ilustrativan.
Rezultati analize ukazuju na nekoliko ključnih elemenata koji opisuju odnos između skupina (Group), spola (Gender) i broja otkucaja srca, kao i interakciju između ovih faktora. Interakciju dvaju faktora možemo interpretirati samo ako je kreirana ANOVA s replikacijom, što znači da postoji više opažanja unutar svake kombinacije faktora (kao što je slučaj ovdje).
Bez replikacija po kombinaciji faktora, nije moguće pouzdano procijeniti varijabilnost, što znači da se interakcijski efekt ne može razlučiti od slučajnog šuma U takvom slučaju, „Interaction“ nije standardna procjena pogreške ni kombinirani učinak dva faktora. Ako se takva „interakcija“ pokaže značajnom, to zapravo može značiti bilo kakvo odstupanje od additivnog modela, ali bez replikacija se ne može razlikovati stvarna interakcija od slučajne pogreške. U praksi, svo „odstupanje“ od zbroja glavnih efekata (u aditivnom modelu) završava u onome što softver zove “Interaction” i tu se ne može razlučiti što je slučajni šum, a što je stvarna interakcija. Ovo je relevantno zbog toga što postoji ANOVA s i bez replikacije (ANOVA bez replikacije se rjeđe koristi, a u tekstu Two Factor ANOVA without Replication možete više pročitati o postupku i primjeni).
Glavni efekti analizirani su za skupinu i spol. Efekt skupine pokazuje značajnu razliku u broju otkucaja srca između kontrolne skupine i trkača (\(F=695.6470\), \(p<0.001\)). Suma kvadrata za skupinu iznosi 168432.08, što sugerira velik doprinos grupe ukupnoj varijabilnosti. Efekt spola također je značajan (\(F=185.9799\), \(p<0.001\)), što ukazuje da muškarci i žene imaju statistički značajno različit broj otkucaja srca. Vrijednost SS za spol iznosi 45030.005, što dodatno podupire zaključak o važnosti ovog faktora.
Tablica 16. Rezultat ANOVA testiranja otkucaja srca s obzirom na skupinu i spol
Cases | Sum of Squares | df | Mean Square | F | p |
---|---|---|---|---|---|
Group | 168432.0800 | 1 | 168432.0800 | 695.6470 | < .001 |
Gender | 45030.0050 | 1 | 45030.0050 | 185.9799 | < .001 |
Group ✻ Gender | 1794.0050 | 1 | 1794.0050 | 7.4095 | 0.0066 |
Residuals | 192729.8300 | 796 | 242.1229 |
Note. Type III Sum of Squares.
Interakcija između skupine i spola također je značajna (\(F=7.4095\), \(p=0.0066\)). To znači da učinak skupine (trkači i kontrolna skupina) na broj otkucaja srca nije jednak za muškarce i žene. Dakle, mogli bismo zaključivati da razlike u otkucajima srca između skupina ovise o spolu ispitanika.
Rezidualna varijanca (Residuals), koja predstavlja dio varijabilnosti koji se ne može objasniti grupom, spolom ili njihovom interakcijom, iznosi \(SS = 192729.83\). Ovo sugerira da značajan dio razlika u otkucajima srca proizlazi iz slučajnih faktora i individualnih razlika koje nisu obuhvaćene analizom.
Type III Sum of Squares uobičajeno se koristi kako bi se kompenzirale neravnoteže u broju opažanja među grupama, čime se osigurava da procjene glavnih efekata i interakcija nisu iskrivljene – što je posebno važno u dizajnima s nejednakim veličinama grupa. Type III Sum of Squares se razlikuju od “klasičnog” pristupa (često označenog kao Type I Sum of Squares) po načinu na koji se računa doprinos svakog faktora. Iako obje verzije koriste iste osnovne matematičke komponente (sume kvadrata odstupanja), Type I (klasični) SS računa se sekvencijalno – redoslijedom unosa faktora (tako da svaki faktor objašnjava varijabilnost koja nije objašnjena prethodnim faktorima) – dok Type III SS mjeri doprinos svakog faktora kao da je unesen zadnji, tj. kontrolirajući sve ostale varijable u modelu. Time se osigurava da procjene glavnih efekata i interakcija odražavaju „čisti“ doprinos svakog faktora, bez utjecaja redoslijeda unosa varijabli. To znači da se, posebno u nesimetričnim (neortogonalnim) dizajnima, rezultati mogu značajno razlikovati.
Tablica 17. Post Hoc usporedbe - skupina
Mean Difference | SE | t | ptukey | |
---|---|---|---|---|
Control - Runners | 29.0200 | 1.1003 | 26.3751 | < .001 |
Note. Results are averaged over the levels of: Gender
Prosječna razlika između kontrolne skupine i trkača iznosi 29.02 otkucaja u minuti, uz standardnu pogrešku (SE) od 1.1003. Testna veličina iznosi 26.3751, a p-vrijednost (\(p_{tukey}<0.001\)) pokazuje značajnu razliku. Ova usporedba ukazuje da kontrolna skupina ima viši broj otkucaja srca u odnosu na trkače. Rezultati su ujednačeni u odnosu na sve razine spola, što znači da spol nije uključen kao zaseban faktor u ovoj analizi.
Tablica 18. Post Hoc usporedbe - spol
Mean Difference | SE | t | ptukey | |
---|---|---|---|---|
Female - Male | 15.0050 | 1.1003 | 13.6374 | < .001 |
Note. Results are averaged over the levels of: Group
Prosječna razlika između žena i muškaraca iznosi 15.005 otkucaja u minuti, uz SE od 1.1003. Testna veličina je 13.6374, a \(p_{tukey}<0.001\). Ovo sugerira da žene u prosjeku imaju značajno viši broj otkucaja srca u odnosu na muškarce. Analiza je ujednačena prema razinama grupa, što znači da grupa (kontrolna ili trkači) ovdje nije specifično razmatrana.
Tablica 19. Post Hoc usporedbe - skupina*spol
Mean Difference | SE | t | ptukey | |
---|---|---|---|---|
Control Female - Runners Female | 32.0150 | 1.5560 | 20.5748 | < .001 |
Control Female - Control Male | 18 | 1.5560 | 11.5679 | < .001 |
Control Female - Runners Male | 44.0250 | 1.5560 | 28.2932 | < .001 |
Runners Female - Control Male | -14.0150 | 1.5560 | -9.0069 | < .001 |
Runners Female - Runners Male | 12.0100 | 1.5560 | 7.7184 | < .001 |
Control Male - Runners Male | 26.0250 | 1.5560 | 16.7253 | < .001 |
Note. P-value adjusted for comparing a family of 4
Interakcije tumačimo na sljedeći način:
Control Female vs. Runners Female: Žene iz kontrolne skupine imaju prosječno 32.015 otkucaja srca u minuti više od trkačica, uz \(t=20.5748\) i \(p_{tukey}<0.001\).
Control Female vs. Control Male: Žene u kontrolnoj skupini imaju prosječno 18 otkucaja srca u minuti više od muškaraca u kontrolnoj skupini, \(t=11.5679\), \(p_{tukey}<0.001\).
Runners Female vs. Control Male: Trkačice imaju prosječno 14.015 otkucaja srca u minuti manje u odnosu na muškarce iz kontrolne skupine.
Runners Female vs. Runners Male: Trkačice imaju prosječno 12.01 otkucaja srca u minuti više od trkača, \(t=7.7184\), \(p_{tukey}<0.001\).
Control Male vs. Runners Male: Muškarci u kontrolnoj skupini imaju prosječno 26.025 otkucaja srca u minuti više od trkača, \(t=16.7253\), \(p_{tukey}<0.001\).
Tablica 20. Kruskal-Wallis test
Factor | Statistic | df | p |
---|---|---|---|
Group | 345.5941 | 1 | < .001 |
Gender | 85.1882 | 1 | < .001 |
Rezultati Kruskal-Wallis testa prikazuju analizu dva faktora – skupine (Group) i spola (Gender) – u odnosu na broj otkucaja srca. Za faktor Group, testna veličina iznosi \(H=345.5941\), stupanj slobode \(df=1\), a \(p<0.001\). Ovi rezultati ukazuju na značajnu razliku u distribucijama broja otkucaja srca između trkača i kontrolne skupine. S obzirom na nisku p-vrijednost, možemo odbaciti nul hipotezu, što znači da distribucije otkucaja srca nisu jednake između ove dvije skupine.
Za faktor Gender, testna veličina iznosi \(H=85.1882\), \(df=1\), i \(p<0.001\). To pokazuje da postoji značajna razlika u distribucijama otkucaja srca između muškaraca i žena. I u ovom slučaju, p-vrijednost je izrazito mala, što opravdava odbacivanje nul hipoteze o jednakosti distribucija između spolova.
Rezultati Kruskal-Wallis testa potvrđuju značajne razlike u distribucijama broja otkucaja srca za oba ispitana faktora. Ova metoda je prikladna za analizu jer ne zahtijeva pretpostavke o normalnosti ili homogenosti varijanci, čime osigurava pouzdane rezultate i u slučajevima kad su ove pretpostavke narušene.
Tablica 21. Dunnove Post Hoc usporedbe - skupina
Comparison | z | Wi | Wj | p | pbonf | pholm |
---|---|---|---|---|---|---|
Control - Runners | 18.5902 | 552.3675 | 248.6325 | < .001 | < .001 | < .001 |
Tablica 22. Dunnove Post Hoc usporedbe - Gender
Comparison | z | Wi | Wj | p | pbonf | pholm |
---|---|---|---|---|---|---|
Female - Male | 9.2297 | 475.9000 | 325.1000 | < .001 | < .001 | < .001 |
Z-vrijednost za usporedbu kontrolne skupine i trkača iznosi \(18.5902\), što ukazuje na značajnu razliku u distribuciji rangova između ove dvije grupe. Sume rangova (\(W_i=552.3675\) za kontrolnu skupinu i \(W_j=248.6325\) za trkače) potvrđuju da kontrolna skupina ima više rangirane vrijednosti otkucaja srca. P-vrijednosti (\(p,p_{bonf},p_{holm}<0.001\)) ostaju značajne čak i uz korekcije.
Z-vrijednost za usporedbu žena i muškaraca iznosi 9.2297, uz sume rangova \(W_i=475.9\) za žene i \(W_j=325.1\) za muškarce. Ovo sugerira da žene imaju više rangirane vrijednosti otkucaja srca u odnosu na muškarce. Sve p-vrijednosti (\(p,p_{bonf},p_{holm}<0.001\)) ostaju značajne.
Dakle, možemo uočiti da je pomoću ANOVE moguće detaljnije testirati razlike, ali da i Kruskal-Wallis uz post-hoc testove može omogućiti gotovo jednako detaljne uvide, osim interakcija. Ono što se ovdje može uočiti (čak i temeljem Kruskal-Wallisa) jest da skupina trkača općenito ima niže otkucaje srca u minuti nego kontrolna skupina. Nadalje, muškarci općenito imaju niže otkucaje srca u minuti od žena. Ako bismo htjeli detaljnije rezultate od toga, onda bismo za Kruskal-Wallis test trebali pripremiti još jednu varijablu s četiri kategorije, koja bi imala zasebnu numeričku oznaku za kontrolnu skupinu žena, kontrolnu skupinu muškaraca, trkačice i trkače.
Postoji još jedna specifična skupina testova koja se odnosi na uparene podatke. Testovi za uparene podatke (poznati i kao testovi za ponovljene mjere) koriste se kad su podaci u dva uzorka povezani, tj. kad svako opažanje u jednom uzorku odgovara specifičnom opažanju u drugom uzorku. To je često slučaj kod dizajna ‘prije-poslije’ (gdje se ista grupa mjeri prije i poslije nekog tretmana).
Glavne karakteristike i pretpostavke:
Zavisnost podataka: Opažanja u oba uzorka nisu nezavisna, nego svaki par opažanja dolazi (u pravilu) od istog sudionika.
Primjena: Cilj je procijeniti razliku između parova, obično izraženu kroz razlike između vrijednosti izmjerenih prije i nakon
Pretpostavke:
Podaci trebaju biti kvantitativni ili stupnjeviti.
Razlike između parova trebaju slijediti približno normalnu distribuciju (za parametrijske testove) ili distribucija razlika treba biti sličnog oblika i simetrična (za neparametrijske testove).
Jednak broj podataka u obje skupine.
Za potrebe prikaza ovih testova, mogu se koristiti skupovi podataka iz JASP-ove biblioteke (Data Library) iz sekcije t-tests (Open \(\implies\) Data Library \(\implies\) t-tests), pod nazivom Weight gain. Weight gain prikazuje podatke 16 ispitanika prije i nakon osmotjednog perioda konzumacije pretjerane količine kalorija.
Tablica 23. Pokazatelji deskriptivne statistike
Weight Before | Weight After | Difference | |
---|---|---|---|
Valid | 16 | 16 | 16 |
Mean | 144.6362 | 155.0450 | 10.4087 |
Std. Deviation | 22.7049 | 21.4381 | 3.8406 |
Skewness | 0.9771 | 0.7773 | -0.3917 |
Kurtosis | 1.0300 | 0.1531 | -1.0560 |
Shapiro-Wilk | 0.9086 | 0.9265 | 0.9380 |
P-value of Shapiro-Wilk | 0.1107 | 0.2148 | 0.3254 |
Minimum | 117.2600 | 129.3600 | 3.0800 |
Maximum | 201.7400 | 204.8200 | 15.6200 |
Temeljem uvida u podatke o stjecanju težine, može se vidjeti da je prosječna težina prije tretmana iznosila 144,63 funti (lbs, 144,64 × 0,453592 ≈ 65,6 kg), uz standardno odstupanje od prosjeka od 22,7 funti (≈ 10.2966 kg). Prosječna težina nakon tretmana iznosila je 155 funti (lbs, 155,05 × 0,453592 ≈ 70,3 kg) uz standardno odstupanje od prosjeka za 21,44 funte (≈ 9.725 kg). Iako postoji razlika u standardnoj devijaciji između skupina, ona nije jako izražena.
Postoji li statistički značajna razlika u težini ispitanika prije i nakon tretmana?
Iako možemo iz tablice iščitati jesu li ove varijable normalno distribuirane, zapravo nas zanima je li razlika opažanja normalno distribuirana. Pretpostavka t-testa za uparene podatke je normalnost distribucije razlika, a ne originalnih vrijednosti.
To možemo učiniti na dva načina – izračunamo varijablu razlika i provjerimo normalnost distribucije ili iskoristimo test provjere pretpostavke o normalnosti dostupne u konzoli t-testa za uparene podatke. Možete uočiti da su izračunate vrijednosti jednake (rezultat Shapiro-Wilk testa za varijablu Differences u tablici pokazatelja deskriptivne statistike i rezultati testa niže) te ukazuju na to da se ne može odbaciti pretpostavka o normalnoj distribuciji.
Tablica 24. Shapiro-Wilkov test normalnosti distribucije
W | p | |
---|---|---|
Weight Before | - | - |
Weight After | 0.9380 | 0.3254 |
Dakle, nastavljamo uz pretpostavku o normalnoj distribuciji. To znači da možemo koristiti t-test za uparene podatke, a ako želimo, tu je na raspolaganju i Wilcoxonov signed rank test. To vrijedi zbog toga što neparametrijske testove možemo primjenjivati i za podatke za koje vrijede pretpostavke normalnosti i jednakosti varijanci, dok ne vrijedi obrnuto za parametrijske testove. Ipak, ako je cilj utvrditi razlike između prosječnih vrijednosti, prednost će imati parametrijski testovi.
Za t-test, hipoteze glase:
\[H_0… μ_1=μ_2\]
\[H_1… μ_1≠μ_2\]
Za Wilcoxonov signed rank test, možemo zapisati:
\[H_0… \text{distribucije težina prije i nakon perioda povećanog unosa kalorija su jednake}\] \[H_1…\text{distribucije težina prije i nakon perioda povećanog unosa kalorija nisu jednake}\]
Tablica 25. test uparenih podataka (ili parova opažanja)
Measure 1 | Measure 2 | Test | Statistic | z | df | p |
---|---|---|---|---|---|---|
Weight Before | Weight After | Student | -10.8406 | - | 15 | < .001 |
Wilcoxon | 0 | -3.5162 | - | < .001 |
Note. For the Student t-test, effect size is given by Cohen. For the Wilcoxon test, effect size is given by the matched rank biserial correlation.
Za upareni t-test, Wilcoxon signed-rank test ili bilo koji drugi test specifičan za uparene podatke, osnovni princip izračuna testne statistike ostaje sličan onome za nezavisne testove, ali s razlikama u načinu na koji se odstupanja tretiraju.
U uparenom t-testu fokus je na odstupanjima ili razlikama između vrijednosti prije i poslije (ili, općenito, između dvije uparene mjere):
\[t= \frac{\bar{D}}{s_D/\sqrt{n}}\] Gdje je
\(\bar{D}\) prosječna razlika parova opažanja \(x_{1,i}-x_{2,i}\)
\(s_D\) je standardna devijacija razlika
\(n\) je broj parova
Što se tiče Wilcoxon signed-rank testa, postupak je gotovo isti, samo što se prvo izračunavaju apsolutne razlike između parova opažanja, a potom se rangiraju i pripisuje im se izvorni predznak. Nakon toga se računaju sume pozitivnih i negativnih rangova i bira se manja vrijednost za testnu statistiku.
Kod nezavisnih uzoraka testovi uspoređuju grupe kao cjeline (npr., prosječne vrijednosti ili distribucije dviju grupa), dok je kod uparenih testova fokus na razlikama između parova, čime se smanjuje utjecaj individualnih varijacija između članova para. Isto tako, testne statistike u osnovi prate iste matematičke principe kao ranije opisani testovi, ali su prilagođene uparenoj strukturi podataka.
Dakle, na razini značajnosti 5% odbacuje se pretpostavka da nema razlike u težini s obzirom na povećan unos kalorija. Zaključuje se da postoji statistički značajna razlika u težini uslijed povećanog unosa kalorija. Ovaj zaključak podupiru rezultati t-testa i Wilcoxon signed-rank testa.
Nakon što smo prošli osnovne vrste testova, možemo naučeno ponoviti na skupu podataka o nekretninama. Za taj je skup podataka već prikazana deskriptivna statistika, pa ćemo se ovdje usredotočiti na nekoliko istraživačkih pitanja. Već smo ranije uočili kako izgleda da postoje pravilnosti u cijenama nekretnina, ali nismo to mogli tvrditi uz određenu razinu statističke značajnosti. Uz to, postavit ćemo i neka pitanja da proširimo uvide i zaključke. Stoga ćemo sad odgovoriti na sljedeća pitanja:
Za odgovor na prvo pitanje, prvo ćemo se usredotočiti na varijablu koja bilježi nalazi li se nekretnina uz obalu (Waterfront). To je binarna kategorička varijabla, s vrijednostima 0 i 1. Svaka nekretnina označena je s 1 ili 0 te nema preklapanja. Dakle, podskupine nekretnina koje se nalaze uz obalu i one koje nisu uz obalu možemo tretirati kao nezavisne uzorke. Dakle, možemo koristiti t-test za nezavisne podatke. Sljedeće, moramo provjeriti pretpostavke.
Tablica 29. Shapiro-Wilkov test normalnosti distribucije
W | p | |
---|---|---|
Price (0) | 0.8973 | < .001 |
Price (1) | 0.9195 | 0.1890 |
Tablica 30. Brown-Forsythe test jednakosti varijanci
F | df1 | df2 | p | |
---|---|---|---|---|
Price | 4.9160 | 1 | 1726 | 0.0267 |
Temeljem provedenih provjera, vidimo da se pretpostavka o normalnosti odbacuje za podskup nekretnina koje nisu uz obalu, a nije zadovoljena ni pretpostavka o jednakosti varijanci na razini značajnosti 5%. Dakle, prikladno je koristiti neparametrijsku varijantu ovog testa.
\[H_0…\text{ne postoji razlika u distribuciji cijena nekretnina smještenih uz obalu i dalje od obale}\]
\[H_1…\text{postoji razlika u distribuciji cijena nekretnina smještenih uz obalu i dalje od obale}\]
Tablica 31. Mann-Whitney U test
W | df | p | Rank-Biserial Correlation | SE Rank-Biserial Correlation | |
---|---|---|---|---|---|
Price | 4241.5000 | - | < .001 | -0.6699 | 0.1487 |
Note. For the Mann-Whitney test, effect size is given by the rank biserial correlation.
Na razini značajnosti 5% odbacuje se pretpostavka o tome da su distribucije cijena nekretnina uz i dalje od obale jednake. Zaključuje se da postoji statistički značajna razlika u cijenama nekretnina s obzirom na to nalaze li se uz obalu ili ne. Rank-biserial korelacija (-0.6699) pokazuje veličinu i smjer učinka - negativni znak sugerira da su rangovi jedne grupe u prosjeku niži od rangova druge grupe, a veličina sugerira da se radi o izraženom učinku.
Za odgovor na drugo pitanje, promatramo varijablu kamina. Iako se radi o cjelobrojnoj kvantitativnoj varijabli, s obzirom na mali broj modaliteta, možemo ju tretirati kao faktor, koji tad poprima 5 modaliteta (od 0 do 4). S obzirom da tih 5 modaliteta dijeli uzorak na 5 podskupina, ne možemo koristiti t-test za nezavisne uzorke, nego moramo koristiti testove koji dopuštaju više od dvije skupine, to jest ANOVA skupinu testova, bilo parametrijsku ili neparametrijsku varijantu.
Za klasičnu ANOVA-u, treba biti ispoštovana pretpostavka o homogenosti varijanci. Temeljem Leveneovog testa možemo uočiti da ta pretpostavka nije ispoštovana.
Tablica 32. Leveneov test jednakosti varijanci
F | df1 | df2 | p |
---|---|---|---|
14.6588 | 4 | 1723 | < .001 |
Na Q-Q grafu, stvarni podaci (standardizirani reziduali) prikazani su na y-osi, dok se na x-osi nalaze kvantili teorijske normalne distribucije. Ako su reziduali normalno distribuirani, točke na grafu trebale bi slijediti pravac koji je označen crvenom linijom.
Uvidom u Q-Q plot, primjećujemo da točke bitno odstupaju od crvene linije, posebno na krajevima distribucije. To ukazuje na prisutnost odstupanja od normalnosti u podacima, pri čemu reziduali na krajevima imaju veću ili manju vrijednost nego što bi se očekivalo pod pretpostavkom normalne distribucije. Ovakav obrazac često sugerira da distribucija podataka ima “deblje” repove (leptokurtičnost) ili asimetričnost. Ovaj Q-Q plot jasno ukazuje da pretpostavka normalnosti nije potpuno zadovoljena.
To znači da možemo koristiti samo neparametrijski Kruskal-Wallis test. Za Kruskal-Wallis test, hipoteze glase:
\[H_0…\text{ne postoji razlika u distribuciji cijena nekretnina s obzirom na broj kamina}\]
\[H_1…\text{postoji razlika u distribuciji cijena nekretnina s obzirom na broj kamina}\]
Tablica 33. Kruskal-Wallis test
Factor | Statistic | df | p |
---|---|---|---|
Fireplaces | 267.5653 | 4 | < .001 |
Na razini značajnosti 5% odbacuje se pretpostavka da ne postoji razlika u distribuciji cijena s obzirom na broj kamina. Zaključujemo da postoji razlika u distribuciji cijena nekretnina s obzirom na to koliko kamina imaju.
Tablica 34. Dunnov post-hoc test
Comparison | z | Wi | Wj | p | pbonf | pholm |
---|---|---|---|---|---|---|
0 - 1 | -14.9223 | 646.6264 | 1012.3737 | < .001 | < .001 | < .001 |
0 - 2 | -8.4059 | 646.6264 | 1311.9286 | < .001 | < .001 | < .001 |
0 - 3 | -2.6291 | 646.6264 | 1575.5000 | 0.0086 | 0.0856 | 0.0514 |
0 - 4 | -3.0445 | 646.6264 | 1722.2500 | 0.0023 | 0.0233 | 0.0163 |
1 - 2 | -3.8068 | 1012.3737 | 1311.9286 | < .001 | 0.0014 | 0.0011 |
1 - 3 | -1.5944 | 1012.3737 | 1575.5000 | 0.1109 | 1 | 0.4434 |
1 - 4 | -2.0098 | 1012.3737 | 1722.2500 | 0.0444 | 0.4445 | 0.2222 |
2 - 3 | -0.7299 | 1311.9286 | 1575.5000 | 0.4655 | 1 | 0.9310 |
2 - 4 | -1.1362 | 1311.9286 | 1722.2500 | 0.2559 | 1 | 0.7676 |
3 - 4 | -0.2941 | 1575.5000 | 1722.2500 | 0.7687 | 1 | 0.9310 |
Dunnova post-hoc analiza za Kruskal-Wallis test omogućuje detaljniju usporedbu parova grupa kako bi se utvrdilo između kojih specifičnih grupa postoji značajna razlika u distribucijama cijena nekretnina s obzirom na broj kamina. Rezultati pokazuju da postoji statistički značajna razlika u distribuciji cijena između grupa 0 kamina i 1 kamina, 0 kamina i 2 kamina te 1 kamina i 2 kamina, pri prilagođenim p-vrijednostima koje ostaju značajne čak i nakon Bonferroni i Holm korekcija za višestruke usporedbe. Ovo ukazuje da broj kamina ima značajan utjecaj na cijene nekretnina između ovih specifičnih parova grupa.
Međutim, nije utvrđena statistički značajna razlika između grupa: 1 kamin i 3 kamina te 2 kamina i 3 kamina, što sugerira da se cijene nekretnina u tim parovima grupa ne razlikuju značajno. Također, parovi grupa s većim brojem kamina (npr., 3 kamina i 4 kamina) pokazuju još manje razlike, što se očituje u visokim p-vrijednostima, prilagođenim na temelju višestrukih usporedbi. Ovo ukazuje da dodavanje dodatnih kamina (više od dva ili tri) ne donosi značajnu promjenu u distribuciji cijena. Dakle, uočena razlika u cijenama nekretnina s obzirom na broj kamina postoji, ali je izraženija među grupama s manjim brojem kamina (0, 1, 2), dok kod nekretnina s tri ili više kamina ta razlika postaje manje izražena ili zanemariva. Ovi rezultati mogu pružiti korisne uvide o tome kako kupci percipiraju vrijednost dodatnih kamina i gdje taj efekt prestaje biti značajan.
Treće pitanje bilo je postoji li statistički značajna razlika u veličini zemljišta s obzirom na to nalazi li se nekretnina uz obalu. Varijabla lokacije (uz obalu ili ne) ima dva modaliteta, pa će podijeliti uzorak na dvije podskupine. To znači da možemo birati između nekog oblika t-testa ili ANOVA-e. Ova dva testa imaju različite pretpostavke: klasični t-test iziskuje normalnu distribuciju varijabli, a ANOVA iziskuje normalnu distribuciju reziduala, dok oba iziskuju homogenost varijanci. Također, oba pristupa imaju i svoje neparametrijske varijante, pa u slučaju da su distribucije opažanja u podskupinama sličnog oblika, smijemo postaviti hipoteze o medijanima i koristiti Man-Whitney U test. Ako nas zanima parametar populacije, preferirat ćemo parametrijske testove, a ako nas zanima distribucija, preferirat ćemo neparametrijske testove.
Dakle, prvi korak je ispitati sve te pretpostavke, pa ćemo onda odabrati.
Tablica 35. Pokazatelji deskriptivne statistike za Lot.Size
Lot.Size (0) | Lot.Size (1) | |
---|---|---|
Valid | 1713 | 15 |
Mean | 0.5005 | 0.4627 |
Std. Deviation | 0.7009 | 0.3756 |
Skewness | 7.1814 | 1.1026 |
Kurtosis | 78.0859 | 0.6712 |
Shapiro-Wilk | 0.4581 | 0.9043 |
P-value of Shapiro-Wilk | < .001 | 0.1109 |
Uvidom u rezultate Shapiro-Wilk testa, možemo zaključiti da podskup veličina zemljišta koja se ne nalaze uz obalu nisu normalno distribuirana. To znači da se neće moći koristiti klasični t-test.
Nadalje, uvidom u oblik distribucija varijable veličine zemljišta za podskupinu koja nije uz obalu i one koja je smještena uz obalu, vidimo da oblici nisu slični. Dakle, čak ni upotreba Man-Whitney-U testa nije dobar odabir, jer pretpostavka o sličnosti oblika distribucija nije ispunjena.
Tablica 36. Leveneov test jednakosti varijance
F | df1 | df2 | p |
---|---|---|---|
0.0595 | 1 | 1726 | 0.8073 |
Test jednakosti varijanci (p=0.8073) ukazuje na neodbacivanje nul hipoteze o jednakosti varijanci. Dakle, može se smatrati da je taj uvjet realiziran.
Ipak, Q-Q plot ukazuje na bitna odstupanja reziduala od normalne distribucije.
Dakle, s obzirom na sve ove uvide, odabrat ćemo provest Kruskal-Wallis test uz Dunnov post – hoc test.
\[H_o…\text{distribucije veličina zemljišta nekretnina su jednake s obzirom na to nalazi li se uz obalu}\]
\[H_1…\text{distribucije veličina zemljišta nekretnina nisu jednake s obzirom na to nalazi li se uz obalu}\]
Tablica 37. Kruskal-Wallis test
Factor | Statistic | df | p |
---|---|---|---|
Waterfront | 0.0065 | 1 | 0.9360 |
Na razini značajnosti 5%, ne odbacuje se pretpostavka da su veličine zemljišta podjednake uz obalu i dalje od obale. Odnosno, ne postoji statistički značajna razlika između distribucija veličina zemljišta nekretnina koje su smještene uz obalu u odnosu na one koje nisu smještene uz obalu.
Tablica 38. Dunnove post-hoc usporedbe
Comparison | z | Wi | Wj | p | pbonf | pholm |
---|---|---|---|---|---|---|
0 - 1 | -0.0803 | 864.4098 | 874.8000 | 0.9360 | 0.9360 | 0.9360 |
Dunnov post – hoc test pokazuje da je razlika između suma rangova vrlo malena (malo manja od 10) i nije statistički značajna.
Tražimo odgovor na sljedeće pitanje: Postoji li statistički značajna razlika u veličini zemljišta s obzirom na to koliko kamina ima nekretnina? S obzirom da varijabla Kamin ima pet modaliteta, podijelit će uzorak na pet podskupina. To znači da možemo koristiti samo skupinu ANOVA testova ili prikladnih alternativa. No, moramo ponovo provjeriti pretpostavke, zato jer je sad osnovni uzorak drugačije raspodijeljen.
Tablica 39. Leveneov test jednakosti varijanci
F | df1 | df2 | p |
---|---|---|---|
4.4719 | 4 | 1723 | 0.0013 |
Temeljem Leveneovog testa zaključujemo da varijance nisu jednake u podskupinama. Također, brzim pregledom rasporeda reziduala u Q-Q plotu uočavamo da reziduali nisu normalno distribuirani.
Dakle, provodimo Kruskal-Wallis test.
\[H_o…\text{distribucije veličina zemljišta nekretnina su jednake s obzirom na broj kamina}\]
\[H_1…\text{distribucije veličina zemljišta nekretnina nisu jednake s obzirom na broj kamina}\]
Tablica 40. Kruskal-Wallis test
Factor | Statistic | df | p |
---|---|---|---|
Fireplaces | 73.1323 | 4 | < .001 |
Na razini značajnosti 5% odbacuje se pretpostavka kako su distribucije veličina zemljišta nekretnina jednake s obzirom na broj kamina. Dakle, postoji statistički značajna razlika u veličini zemljišta nekretnina s obzirom na broj kamina.
Tablica 41. Dunnove post hoc usporedbe
Comparison | z | Wi | Wj | p | pbonf | pholm |
---|---|---|---|---|---|---|
0 - 1 | -6.7264 | 761.8547 | 926.6837 | < .001 | < .001 | < .001 |
0 - 2 | -6.0019 | 761.8547 | 1236.7857 | < .001 | < .001 | < .001 |
0 - 3 | -2.1237 | 761.8547 | 1512 | 0.0337 | 0.3369 | 0.2359 |
0 - 4 | -0.9269 | 761.8547 | 1089.2500 | 0.3540 | 1 | 1 |
1 - 2 | -3.9417 | 926.6837 | 1236.7857 | < .001 | < .001 | < .001 |
1 - 3 | -1.6575 | 926.6837 | 1512 | 0.0974 | 0.9741 | 0.5845 |
1 - 4 | -0.4604 | 926.6837 | 1089.2500 | 0.6453 | 1 | 1 |
2 - 3 | -0.7623 | 1236.7857 | 1512 | 0.4459 | 1 | 1 |
2 - 4 | 0.4086 | 1236.7857 | 1089.2500 | 0.6828 | 1 | 1 |
3 - 4 | 0.8474 | 1512 | 1089.2500 | 0.3968 | 1 | 1 |
Rezultati Dunnovog post hoc testa za Kruskal-Wallis analizu pokazuju kako postoje statistički značajne razlike između određenih grupa s obzirom na broj kamina i veličinu zemljišta nekretnina. Test je proveden nakon što je utvrđeno da postoji općenita razlika u distribucijama veličina zemljišta među grupama koje se razlikuju po broju kamina.
Prva usporedba, između grupa s 0 i 1 kaminom, pokazuje značajnu razliku (z = -6.7264, p <0.001), što ukazuje da su distribucije veličina zemljišta između tih grupa statistički značajno različite. Slično tome, usporedba između grupa s 0 i 2 kamina također je statistički značajna (z = -6.0019, p < .001). Ove razlike ostaju značajne čak i nakon Bonferronijeve i Holmove korekcije, što dodatno potvrđuje njihovu robustnost.
Slično, usporedba između grupa s 0 i 3 kamina također pokazuje statistički značajnu razliku, ali nakon Bonferronijeve i Holmove korekcije, razlika više nije statistički značajna (p_bonf = 0.3369; p_holm = 0.2359). Ovo sugerira da, iako postoji određeni signal razlike, ona nije dovoljno izražena da izdrži strožu kontrolu pogrešaka višestrukog testiranja.
Za ostale usporedbe, uključujući parove kao što su 0 i 4 kamina, 1 i 3 kamina, ili 2 i 4 kamina, z-vrijednosti su male, a p-vrijednosti nisu značajne, što znači da nema dokaza o statistički značajnim razlikama između tih grupa, ni prije ni nakon korekcija.
Najveće i najjasnije razlike u distribucijama veličine zemljišta nalaze se između grupa s 0 i 1 kaminom te 0 i 2 kamina. Ovakvi rezultati sugeriraju da se broj kamina može povezati s određenim promjenama u veličini zemljišta, ali samo za određene kombinacije grupa.
Prelazimo na sljedeće pitanje, je li barem 5% promatranih nekretnina novogradnja. Ovdje, za promjenu, testiramo proporciju.
\[H_0…p≥0.05\]
\[H_1…p<0.05\]
Ovdje se koristi binomni test, koji se koristi za ispitivanje proporcije jedne kategorije u diskretnoj varijabli u odnosu na očekivanu proporciju. U ovom slučaju testira se hipoteza je li proporcija nekretnina koje su novogradnja manja od 5% (0.05). Test se temelji na binomnoj distribuciji, koja opisuje vjerojatnost postizanja određenog broja uspjeha (u ovom slučaju, nekretnina označenih kao novogradnja) u određenom broju promatranja (ovdje ukupni broj nekretnina), uz zadanu vjerojatnost uspjeha u populaciji.
Binomni test uspoređuje promatranu proporciju (0.0469) s očekivanom proporcijom (0.05). U testu se koriste sljedeći elementi:
Broj uspjeha (\(k\)): Ukupan broj nekretnina označenih kao novogradnja, ovdje 81.
Ukupan broj promatranja (\(n\)): Ukupan broj nekretnina, ovdje 1728.
Očekivana proporcija (\(p_0\)): Pretpostavljena proporcija u nul hipotezi, ovdje 0.05.
Testna veličina binomnog testa nije poput t-testa, već je funkcija kumulativne binomne distribucije. Na taj način se utvrđuje i p-vrijednost, čime se dobiva vjerojatnost postizanja točno k ili manje od k uspjeha (jer je riječ o jednostranom testu s \(H_1\) koja predviđa manje od).
Tablica 42. Binomni test
Variable | Level | Counts | Total | Proportion | p |
---|---|---|---|---|---|
New Construct | 0 | 1647 | 1728 | 0.9531 | 1 |
1 | 81 | 1728 | 0.0469 | 0.2984 |
Dakle, nul hipoteza se ne može odbaciti. To znači da nema dovoljno dokaza da bi se opovrgnula tvrdnja kako je proporcija novih nekretnina barem 5%.
Na sljedeće pitanje, je li distribucija tipa goriva (fuel.type) je ista među nekretninama koje imaju i onima koje nemaju središnji sustav za klimatizaciju (central.air), možemo odgovoriti pomoću Hi-kvadrat testa. S obzirom da su obje varijable kvalitativne, ovdje nije primjereno koristiti parametrijske testove (ni njihove alternative). Ali možemo koristiti test homogenosti. To je jedan od Hi-kvadrat testova koji je moguće izračunati temeljem tablice kontingencije, odnosno, pri izračunu se koriste apsolutne frekvencije. S obzirom na taj pristup, Hi-kvadrat testovi na drugačiji način identificiraju razlike nego neparametrijski testovi koji koriste postupak rangiranja te direktno uspoređuju opažene i očekivane frekvencije.
Hi-kvadrat test homogenosti koristi se za usporedbu distribucija jedne kvalitativne varijable između različitih podskupina definiranih drugom kvalitativnom varijablom (ne smije biti preklapanja). U ovom slučaju, testira se je li distribucija tipova kanalizacije proporcionalna s obzirom na to je li nekretnina smještena uz obalu ili ne.
\[H_0… \text{Distribucija tipa goriva (fuel.type)je ista među nekretninama koje imaju i onima koje nemaju središnji sustav za klimatizaciju (central.air)}\]
\[H_1… \text{Distribucija tipa goriva (fuel.type)nije ista među nekretninama koje imaju i onima koje nemaju središnji sustav za klimatizaciju}\] (central.air)
Postupak započinje kreiranjem tablice kontingencije.
Tablica 43. Tablica kontingencije - Central Air & Fuel Type
Fuel Type | Central Air (0) | Central Air (1) | Total |
---|---|---|---|
1 | 666 | 531 | 1197 |
2 | 248 | 67 | 315 |
3 | 179 | 37 | 216 |
Total | 1093 | 635 | 1728 |
Da bismo uspješno proveli ovaj test, potrebno je najmanje 5 opažanja u svakoj ćeliji tablice, a ako više od 20% ćelija ima očekivane frekvencije manje od 5, onda se Hi-kvadrat test smatra nepouzdanim.
Izračun funkcionira na način da se kreiraju još dvije pomoćne tablice. U prvoj pomoćnoj tablici izračunavaju se očekivane frekvencije i to temeljem suma redaka i stupaca za pripadajuću poziciju. \[e_{ij}=\frac{R_i \cdot C_j}{N}\]
Gdje je
\(e_{ij}\): očekivana frekvencija za ćeliju na \(i\)-tom retku i \(j\)-tom stupcu,
\(R_i\): ukupna frekvencija za \(i\)-ti redak,
\(C_j\): ukupna frekvencija za j-ti stupac,
\(N\): ukupan broj opažanja.
To bi izgledalo ovako:
Tablica 44. Očekivane frekvencije
Fuel Type | Central Air (0) | Central Air (1) | Total |
---|---|---|---|
1 | \(\frac{1093×1197}{1728} = 757.13\) | 439.87 | 1197 |
2 | 199.24 | \(\frac{635×315}{1728} = 115.76\) | 315 |
3 | \(\frac{1093×216}{1728} = 136.63\) | 79.38 | 216 |
Total | 1093 | 635 | 1728 |
Postupci su prikazani samo za tri ćelije, da dobijemo dojam kako to funkcionira. Testna statistika za Hi-kvadrat test računa se prema formuli:
\[e_{ij}=\sum_{i=1}^n \sum_{j=1}^k\frac{(f_{ij}-e_{ij} )^2}{e_{ij}} \]
Gdje su:
\(f_{ij}\): opažena frekvencija za ćeliju na \(i\)-tom retku i \(j\)-tom stupci,
\(e_{ij}\): očekivana frekvencija za istu ćeliju.
Tablica 45. Izračun Hi-kvadrat testne veličine
Fuel Type | Central Air (0) | Central Air (1) | Total |
---|---|---|---|
1 | \(\frac{(666-757.13)^2}{757.13} = 10.97\) | 18.88 | 29.85 |
2 | 11.93 | \(\frac{(67-115.76)^2}{115.76} = 20.54\) | 32.47 |
3 | 13.14 | 22.62 | 35.77 |
Total | 36.04 | 62.04 | 98.08 |
Stupnjevi slobode za Hi-kvadrat test izračunavaju se kao:
\[df=(r-1)(c-1)\]
Gdje su \(r\) broj redaka, a \(c\) broj stupaca u tablici kontingencije. U ovom slučaju, \(df=(3-1)(2-1)=2\). Uz \(α=0.05\), teorijska distribucija na koju se oslanjamo pri donošenju odluke o nul hipotezi izgleda ovako:
Koeficijent značajnosti je \(χ_α^2=5.99\) te dijeli distribuciju na područje odbacivanja (neobojani dio) i nedobacivanja (obojani dio) nul hipoteze.
Tablica 46. Hi-kvadrat test (koristeći JASP)
Value | df | p | |
---|---|---|---|
Χ² | 98.0794 | 2 | < .001 |
N | 1728 | - | - |
Na razini značajnosti od 5%, odbacujemo nul hipotezu. To znači da postoji statistički značajna razlika u distribuciji vrsta goriva između nekretnina s i bez središnjeg sustava za klimatizaciju. To znači da razlike u frekvencijama među modalitetima vrste goriva nisu rezultat slučajnosti, nego postoji razlika s obzirom na prisutnost ili odsutnost centralnog sustava klimatizacije. Ova povezanost sugerira da je vrsta goriva neproporcionalno distribuirana između grupa definiranih postojenjem (ili ne) centralnog sustava za klimatizaciju.
Sljedeće po redu je pitanje - jesu li varijable Fuel.type i Heat.type međusobno nezavisne. S obzirom da se radi o kvalitativnim varijablama, na ovakva pitanja odgovaramo Hi-kvadrat testom neovisnosti. Iako je postupak izračuna isti kao za test homogenosti, hipoteze su drugačije postavljene.
\[H_0… \text{varijable vrsta goriva i vrsta grijanja međusobno su neovisne}\]
\[H_1… \text{varijable vrsta goriva i vrsta grijanja međusobno su ovisne}\]
Tablica 47. Tablica kontingencije Fuel Type & Heat Type
Fuel Type | Heat Type (2) | Heat Type (3) | Heat Type (4) |
---|---|---|---|
2 | 961 | 230 | 6 |
3 | 16 | 1 | 298 |
4 | 144 | 71 | 1 |
Total | 1121 | 302 | 305 |
S obzirom da ovdje imamo manje od 5 opažanja u dvije ćelije (\(\approx 22 \%\)), nećemo se moći pouzdati u rezultate provedenog testa. No, radi ilustracije tumačenja, svejedno nastavljamo.
Ovdje su \(df=(3-1)(3-1)=4\). Uz \(α=0.05\), teorijska distribucija na koju se oslanjamo pri donošenju odluke o nul hipotezi izgleda ovako:
Koeficijent značajnosti je \(χ_α^2=9.49\) te dijeli distribuciju na područje odbacivanja (neobojani dio) i nedobacivanja (obojani dio) nul hipoteze. Izračunata testna veličina je \(χ^2=1594.379\) i nalazi se duboko u području odbacivanja. To potvrđuje i p-vrijednost (\(p<0.001\)).
Tablica 48. Hi-kvadrat test
Value | df | p | |
---|---|---|---|
Χ² | 1594.3791 | 4 | < .001 |
N | 1728 | - | - |
Na razini značajnosti 5% odbacuje se pretpostavka da su varijable vrsta goriva i vrsta grijanja međusobno neovisne. Zaključuje se da su ove varijable međusobno ovisne.
Tablica 49. Mjere povezanosti nominalnih varijabli
Measure | Value |
---|---|
Contingency Coefficient | 0.6927 |
Phi-Coefficient | NaN |
Cramer’s V | 0.6792 |
Lambda (rows) | 0.4646 |
Lambda (columns) | 0.5499 |
Lambda (symmetric) | 0.5072 |
Posljednja tablica predstavlja različite mjere povezanosti (engl. association measures) koje se koriste za procjenu snage veze između varijabli u tablici kontingencije.
Contingency koeficijent mjeri jačinu povezanosti između dviju varijabli. Kreće se od 0 (nema povezanosti) do približno 1 (snažna povezanost), ali rijetko doseže 1 zbog ovisnosti o dimenzijama tablice.Vrijednost od 0.6927 ukazuje na umjerenu do jaku povezanost između vrste goriva i vrste grijanja.
Cramerov V je standardizirana mjera povezanosti koja nije ograničena brojem redaka i stupaca tablice. Mjeri povezanost između varijabli, ali se može koristiti za tablice različitih dimenzija. Vrijednost V=0.6792 sugerira umjerenu do jaku povezanost između vrste goriva i vrste grijanja.
Lambda (rows) mjeri koliko informacija o varijabli u redovima možemo objasniti poznavanjem varijable u stupcima. Vrijednost 0.4646 znači da se 46.46% neizvjesnosti u vrsti goriva može objasniti vrstom grijanja.
Lambda (Columns) za stupce mjeri koliko informacija o varijabli u stupcima možemo objasniti poznavanjem varijable u redovima. Vrijednost 0.5499 sugerira da se 54.99% neizvjesnosti u vrsti grijanja može objasniti vrstom goriva.
Lambda (Symmetric) je prosjek Lambdi izračunatih za retke i stupce. Vrijednost 0.5072 sugerira da, u prosjeku, poznavanjem jedne varijable možemo smanjiti neizvjesnost o drugoj za 50.72%.
Na različitim mrežnim stranicama naći ćete različite pristupe po pitanju odlučivanja o odabiru testa. Ovdje je ponuđen jedan od načina kojim se možete voditi pri odabiru testa. U svakom slučaju, postoji nekoliko pitanja na koja treba dati odgovor prije odabira testa:
Tablica 50. Češće korišteni statistički testovi
Test | Izračun | Hipoteze | Distribucija (vrsta testa) | Pretpostavke |
---|---|---|---|---|
z-test | \(s_{\bar{x}} =
\frac{\sigma}{\sqrt{n}}\) \(z = \frac{\bar{x} - \mu_o}{s_{\bar{x}}}\) \(z = \frac{\bar{x}_1 - \bar{x}_2}{s_{\bar{x}}}\) \(z = \frac{\hat{p} - p_o}{s_{\hat{p}}}\) \(z = \frac{\hat{p}_1 - \hat{p}_2}{s_{\hat{p}}}\) |
\(H_0: \mu =
\mu_0\) \(H_1: \mu \neq \mu_0\) \(H_0: \mu \leq \mu_0\) \(H_1: \mu > \mu_0\) \(H_0: \mu \geq \mu_0\) \(H_1: \mu < \mu_0\) \(H_0: \mu_1 = \mu_2\) \(H_1: \mu_1 \neq \mu_2\) \(H_0: p = p_0\) \(H_1: p \neq p_0\) \(H_0: p \leq p_0\) \(H_1: p > p_0\) \(H_0: p \geq p_0\) \(H_1: p < p_0\) \(H_0: p_1 = p_2\) \(H_1: p_1 \neq p_2\) |
Normalna Parametrijski |
Varijabla je kvantitativna i normalno (ili približno
normalno) distribuirana. Opažanja su međusobno neovisna i \(n>30\). Poznata je standardna devijacija populacije. Uzorak je kreiran slučajnim uzorkovanjem. Uzorak je odabran iz normalne distribucije (ako se testira prosjek). Za testiranje proporcije, uvjetima za normalnu aproksimaciju kod binarnog rasporeda su \(np_0≥5\) i \(n(1−p_0)≥5\) |
t-test (jedan uzorak) |
\(t=\frac{\bar{x}-μ}{s/\sqrt{n}}=\frac{x
̅-μ}{s_\bar{x}}\) \(df=n-1\) |
\(H_0: \mu =
\mu_0\) \(H_1: \mu \neq \mu_0\) \(H_0: \mu \leq \mu_0\) \(H_1: \mu > \mu_0\) \(H_0: \mu \geq \mu_0\) \(H_1: \mu < \mu_0\) |
Studentova Parametrijski |
Varijabla je kvantitativna i normalno
distribuirana. Opažanja su međusobno neovisna. Nije poznata standardna devijacija populacije ili je uzorak malen. Uzorak je kreiran slučajnim uzorkovanjem. Uzorak je odabran iz normalne distribucije. |
Wilcoxon test (za jedan uzorak) (Wilcoxon Signed-Rank test) |
\(D_i=x_i-μ_0\) \(W=∑\)Pozitivni rangovi \(z=\frac{W-μ_W}{σ_W}\) \(μ_W=\frac{n(n+1)}{4}\) \(σ_W=\sqrt{\frac{n(n+1)(2n+1)}{24})}\) |
\(H_0:\) medijan
razlika je 0 \(H_1:\) medijan razlika \(\neq 0\) |
Normalna, aproksimacija Neparametrijski |
Neparametrijska alternativa t-testu za jedan uzorak.
Podaci mogu biti mjereni na ordinalnoj, intervalnoj ili omjernoj razini. Opažanja su međusobno neovisna. Varijance uzoraka ne moraju biti jednake. Podaci ne moraju biti normalno distribuirani. |
t-test (dva uzorka) (pooled t-test) |
\(t=\frac{x ̅_1-x ̅_2}{s
\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\) \(s^2=\frac{(n_1-1) s_1^2+(n_2-1) s_2^2}{n_1+n_2-2}\) \(df=n_1 +n_2 -2\) |
\(H_0: \mu_1 =
\mu_2\) \(H_1: \mu_1 \neq \mu_2\) |
Studentova Parametrijski |
Varijabla/e su kvantitativna/e i normalno
distribuirana/e. Opažanja su međusobno neovisna. Nije poznata standardna devijacija populacije. Varijance uzoraka su jednake. Uzorci su kreirani slučajnim uzorkovanjem. |
t-test za uparena opažanja | \(t= \frac{\bar{D}}{s_D/\sqrt{n}}\) | \(H_0: \mu_d =
0\) \(H_1: \mu_d \neq 0\) |
Studentova Parametrijski |
Varijabla je kvantitativna i normalno
distribuirana. Ponovljena opažanja na istim ispitanicima. Uzorci su jednake veličine (nužan uvjet; po definiciji uparenih podataka, oba niza moraju imati isti broj mjerenja). Uzorak je kreiran slučajnim uzorkovanjem. |
Welchov t-test | \(t=
\frac{\bar{x}_1-\bar{x}_2}{\sqrt{\frac{s_1^2}{n_1}
+\frac{s_2^2}{n_2}}}\) \(df = \frac{\left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2}{\frac{\left( \frac{s_1^2}{n_1} \right)^2}{n_1 - 1} + \frac{\left( \frac{s_2^2}{n_2} \right)^2}{n_2 - 1}}\) |
\(H_0: \mu_1 =
\mu_2\) \(H_1: \mu_1 \neq \mu_2\) |
Studentova Parametrijski |
Varijabla je kvantitativna i normalno
distribuirana. Opažanja su međusobno neovisna. Varijance uzoraka nisu jednake. Uzorak je kreiran slučajnim uzorkovanjem. |
Mann-Whitney U-test | \(R1\): Suma rangova
za prvu grupu \(R2\): Suma rangova za drugu grupu \(U_1=n_1 \cdot n_2+\frac{n_1 (n_1+1)}{2}-R_1\) \(U_2=n_1 \cdot n_2+\frac{n_1 (n_1+1)}{2}-R_2\) \(U=min(U_1,U_2)\) \(z= \frac{U-μ_U}{σ_U}\) \(μ_U=\frac{n_1 n_2}{2}\) \(σ_U=\sqrt{\frac{n_1 n_2 (n_1+n_2+1)}{12}}\) |
\(H_0…\)
distribucije dviju grupa su jednake \(H_1…\) distribucije dviju grupa su različite \(H_0…\) medijani dviju grupa su jednaki \(H_1…\) medijani dviju grupa su različiti |
Normalna, aproksimacija Neparametrijski |
Neparametrijska alternativa t-testu za dva uzorka.
Podaci su mjereni na ordinalnoj, intervalnoj ili omjernoj razini. Podaci ne moraju biti normalno distribuirani. Varijance uzoraka ne moraju biti jednake. |
McNemar test | \(\chi^2 = \frac{(b-c)^2}{b+c}\) | \(H_0: p_b =
p_c\) \(H_1: p_b \neq p_c\) \(H_0:\) p(uspjeh) je jednak u dva povezana uvjeta \(H_1:\) p(uspjeh) se razlikuje |
\(\chi^2\)-distribucija Neparametrijski |
Postoji nominalna varijabla s dvije kategorije. Primjenjuje se na uparene ili ponovljene mjere s binarnom (dihotomnom) varijablom. Uobičajeno za procjenu promjene odgovora prije/poslije kod istih ispitanika. Uzorak mora biti slučajan i parovi (prije/poslije) moraju biti jasno definirani. |
Wilcoxon test (upareni podaci) (Wilcoxon Signed-Rank test) |
\(W=\min\Bigl(\sum^+\) rangovi, \(\sum^-\) rangovi \(\Bigr)\) (ili se računa razlika, rangira, pa z-aproksimacija za veće n) |
\(H_0:\) medijan
razlika je 0 \(H_1:\) medijan razlika \(\neq\) 0 |
Normalna, aproksimacija Neparametrijski |
Podaci su mjereni na ordinalnoj, intervalnoj ili
omjernoj razini. Koristi se za usporedbu dviju povezanih (uparenih) mjera. Ne zahtijeva normalnost razlika. Podaci su odabrani nasumično i neovisno. Za veće uzorke koristi se z-aproksimacija. Test se koristi i za jedan uzorak (kada se testira razlika od neke fiksne vrijednosti) i za uparene uzorke (kada se testira razlika dvaju povezanih mjerenja). |
F-test jednakosti varijanci | \(F = \frac{s_1^2}{s_2^2}\) | \(H_0: \sigma_1^2 =
\sigma_2^2\) \(H_1: \sigma_1^2 \neq \sigma_2^2\) |
F-distribucija Parametrijski |
Varijabla je kvantitativna i normalno
distribuirana. Opažanja su međusobno neovisna i \(n > 30\). Uzorak je kreiran slučajnim uzorkovanjem. |
ANOVA | \(SS_W = \sum_{j=1}^{k}
\sum_{i=1}^{n_j} (x_{ij} - \bar{x}_j)^2\) \(SS_B = \sum_{j=1}^{k} n_j (\bar{x}_j - \bar{x})^2\) \(SS_T = \sum_{j=1}^{k} \sum_{i=1}^{n_j} (x_{ij} - \bar{x})^2\) \(F = \frac{MSB}{MSW} = \frac{SSB / (k-1)}{SSW / (n-k)}\) |
\(H_0: \mu_1 = \mu_2 =
\dots = \mu_K\) \(H_1\): Postoji razlika između prosjeka populacija |
F-distribucija Parametrijski |
Varijabla je kvantitativna i normalno
distribuirana. Opažanja su međusobno neovisna i \(n > 30\). Reziduali su približno normalno distribuirani. Varijance uzoraka su približno jednake. Uzorci su kreirani slučajnim uzorkovanjem. |
Friedmanova analiza varijance | \(\chi^2=\frac{12N}{k(k+1)}\sum_{j=1}^k
\Bigl(\bar{R}_j-\frac{k+1}{2}\Bigr)^2\) (gdje su \(\bar{R}_j\) prosječni rangovi po stupcima) |
\(H_0:\) sve
tretirane jedinice imaju jednake medijane \(H_1:\) barem jedan tretman (faktor) ima drugačiji učinak |
\(\chi^2\)-aproksimacija Neparametrijski |
Podaci trebaju biti upareni ili ponovljena mjerenja
(npr. Likertova ljestvica). Ne zahtijeva normalnost ni homogenost varijanci. Koristi rangove unutar svakog bloka (ispitanika). |
Kruskal-Wallis test | \(H = \frac{12}{N(N+1)} \sum \frac{R_k^2}{n_k} - 3(N+1)\) | \(H_0\): nema
razlike među populacijama \(H_1\): postoji razlika među populacijama \(H_0:\) postoji jednakost raspodjela (ili medijana) među k skupina \(H_1:\) barem jedna skupina se razlikuje |
\(\chi^2\)-distribucija Neparametrijski |
Dizajn nezavisnih varijabli s dvije ili više skupina
(nezavisne grupe). Test se često koristi kada su uvjeti za ANOVA narušeni. Podaci su mjereni na ordinalnoj, intervalnoj ili omjernoj razini. Grupe trebaju imati slične oblike distribucije (ako se testira jednakost medijana). |
Hi-kvadrat test sukladnosti | \(\chi^2 = \sum \frac{(m_i - e_i)^2}{e_i}\) | \(H_0\):
distribucija se ravna prema pretpostavljenoj distribuciji \(H_1\): distribucija se razlikuje |
\(\chi^2\)-distribucija Neparametrijski |
Uzorak je kreiran slučajnim uzorkovanjem. Opažanja su međusobno neovisna. Varijable su tipično kategorijske (ili prekodirane u kategorijske). Očekivana vrijednost polja u tablici mora biti veća od 5 u barem 80% polja tablice. |
Hi-kvadrat test homogenosti | \(\chi^2 = \sum_{i,j} \frac{(O_{ij}-E_{ij})^2}{E_{ij}}\) | \(𝐻_0: 𝑝_1=𝑝_2=…=𝑝_𝑛\) \(𝐻_1: p_1≠𝑝_2≠…≠𝑝_𝑛\) \(H_0:\) distribucija jedne kategorijalne varijable je ista u više populacija \(H_1:\) postoji razlika |
\(\chi^2\)-distribucija Neparametrijski |
Uzorci su međusobno nezavisni. Varijable su tipično kategorijske (ili prekodirane u kategorijske). Očekivane frekvencije trebaju biti \(\ge 5\) u većini ćelija. Broj kategorija (modaliteta varijable) \(\geq 2\). Broj populacija \(\geq 2\). |
Hi-kvadrat test neovisnosti | \(\chi^2 = \sum_{i,j} \frac{(O_{ij}-E_{ij})^2}{E_{ij}}\) | \(H_0:\) varijable
su međusobno neovisne \(H_1:\) varijable su međusobno ovisne |
\(\chi^2\)-distribucija Neparametrijski |
Uzorak je kreiran slučajnim uzorkovanjem. Varijable su tipično kategorijske (ili prekodirane u kategorijske). Očekivane frekvencije u ćelijama \(\ge 5\) (barem 80% ćelija) Opažanja su neovisna. Broj kategorija (modaliteta pojedine varijable) \(\geq 2\). |
Kliknite na odabrani način repliciranja analize koristeći različite alate:
Provedba postupka koristeći JASP
Provedba postupka koristeći MS Excel
Na posljednjem linku možete naći i Provjeru odgovora.
Arnholt, A. T., & Evans, B. (2017). Package ‘BSDA’. https://cran.r-project.org/web/packages/BSDA/index.html
Ben-Shachar, M. S., Lüdecke, D., & Makowski, D. (2020). effectsize: Estimation of effect size indices and standardized parameters. Journal of open source software, 5(56), 2815. https://dominiquemakowski.github.io/publication/benshachar2020effectsize/benshachar2020effectsize.pdf, https://CRAN.R-project.org/package=effectsize
Conover, W. J. (1999). Practical nonparametric statistics (Vol. 350). John Wiley & sons.
De Veaux, D. (2015). How much is a Fireplace Worth? Stats 101 Public Library.https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=e4f8d3f1-41a3-4f01-9f8b-f8fbe1562c15&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401
Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.
Hohenwarter, M., & Hohenwarter, M. (2002). GeoGebra. Available on-line at http://www.geogebra.org/cms/en.
Hollander, M., Wolfe, D. A. & Chicken, E. (2013). Nonparametric statistical methods. John Wiley & Sons Inc.
Holmes, A., Illowsky, B., & Dean, S. (2017). Introductory Business Statistics 2e. OpenStax. https://openstax.org/books/introductory-business-statistics/pages/preface
Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.
Horton, N. J., Baumer, B. S., & Wickham, H. (2015). Setting the stage for data science: integration of data management skills in introductory and second courses in statistics (nycflights13). https://nhorton.people.amherst.edu/precursors/nycflights13.pdf
Hothorn, T., Hornik, K., & Hothorn, M. T. (2022). Package ‘exactRankTests’. https://CRAN.R-project.org/package=exactRankTests
Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.
Illowsky, B., & Dean, S. (2018). Introductory statistics. https://openstax.org/books/introductory-statistics-2e/pages/preface
JASP Team (2024). JASP (Version 0.19.3)[Computer software].
Kassambara, A. (2019). rstatix: Pipe-friendly framework for basic statistical tests. CRAN: Contributed Packages. https://CRAN.R-project.org/package=rstatix
Kassambara, A. (2023) ggpubr: ‘ggplot2’ Based Publication Ready Plots. CRAN https://CRAN.R-project.org/package=ggpubr
Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://bookdown.org/kakoste/Uvod_u_R_i_RStudio/
Moore, D. S., McCabe, G. P., and Craig, B. A. (2012). Introduction to the Practice of Statistics (7th ed.). New York: Freeman
Okoye, K., & Hosseini, S. (2024). Analysis of variance (ANOVA) in R: one-way and two-way ANOVA. In R Programming: Statistical Data Analysis in Research (pp. 187-209). Singapore: Springer Nature Singapore. https://link.springer.com/chapter/10.1007/978-981-97-3385-9_9
Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf
Signorell, A. (2025) DescTools: Tools for Descriptive Statistics. CRAN. https://CRAN.R-project.org/package=DescTools
Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb.
Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.
Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.