Ovo je nastavak 7. štiva: Testiranje hipoteza kroz primjere i odnosi se na repliciranje analize koristeći MS Excel. Osim toga, ovdje možete provjeriti odgovore na pitanja iz štiva.


Provedba postupka koristeći MS Excel

Prvo ćemo preuzeti sve podatkovne skupove. JASP ima koristi GitHub repozitorij za kod i podatke, tako da podacima možemo pristupiti i direktno putem https://github.com/jasp-stats/jasp-data-library/tree/main.

Pregledajte repozitorij dok ne nađete podatke koji vam trebaju. To će prvo biti Heart rate, pa ćemo kliknuti na taj direktorij. Otvara nam se prikaz nalik sljedećem:

Potom, od ponuđenih formata biramo onaj koji je najprikladinij za nastavak analize. U ovom slučaju, to je .csv. Na slici je crvenom bojom zaokružena opcija za preuzimanje. Kliknite i preuzmite datoteku. Isti postupak ponovite za Weight gain.

Po preuzimanju i otvaranju datoteke koristeći MS Excel, dobiva se sljedeći prikaz:

Koristeći alate za tablice, možemo relativno jednostavno dobiti potreban prikaz.

Po učitavanju podataka u preglednik za tablice odaberite podjelu podataka, a potom podesite podjelu prema svakom zarezu i izlaz bez navođenja unutar navodnih znakova.

Nakon što su podaci uređeni, pregledajte ih još jednom je li sve u redu, a potom zatvorite ovaj preglednik i učitajte ih u glavni dokument.

Nakon što ste to učinili, kopirajte podatke na sljedeći list zadržavajući samo brojeve. U novijim verzijama Excela, kad se podaci učitaju kao Table (tablica), Excel koristi tzv. structured references (npr. “Table1[Column1]”) umjesto klasičnih referenci na retke i stupce (npr. A2:A100). To može dovesti do neočekivanih poteškoća pri pisanju formula i provođenju složenijih analiza, jer se Excelove funkcije i reference tada ponašaju drukčije nego kod običnog raspona ćelija. Ako tablicu kopirate kao običan raspon, Excel više neće koristiti Table strukturu, pa ćete imati potpunu kontrolu nad formulama i referencama.

MS Excel nudi nekoliko mogućnosti za provođenje testova hipoteza, a one se mogu podijeliti u tri skupine:

  • Ugrađene funkcije

    • Excel ima funkcije T.TEST, Z.TEST, CHISQ.TEST i F.TEST, koje se koriste za osnovne statističke testove.
  • Data Analysis i Data Analysis Toolpak

    • Ako instalirate ovaj dodatak, dobit ćete pristup alatima koji omogućuju provođenje:
      • t-testova (dva nezavisna uzorka – s pretpostavkom jednakih ili nejednakih varijanci te upareni t-test)
      • ANOVA-e (jednofaktorska, dvofaktorska s replikacijama i bez replikacija)
  • Dodaci treće strane (npr. Real Statistics)

    • Za naprednije ili neparametrijske testove, kao što su Mann-Whitney U test, Wilcoxon Signed-Rank test ili Kruskal-Wallis test, Excel standardno ne pruža ugrađene funkcije.
    • Ti testovi dostupni su putem plaćenih dodataka.
    • Besplatni dodatak Real Statistics Resource Pack Charlesa Zaiontza možete preuzeti putem linka ugrađenog u naziv. No, ovo nije službeni MS dodatak te dolazi bez bilo koje vrste jamstva (čl. 5 End-user license agreement (EULA) for the Real Statistics Resource Pack - ne jamči niti preuzima odgovornost za točnost ili potpunost bilo koje informacije, teksta, grafike, poveznica ili drugih stavki sadržanih u softverskom proizvodu; nikakva jamstva u pogledu bilo kakve štete koja bi mogla biti uzrokovana prijenosom računalnog virusa, crva, tempirane bombe, logičke bombe ili drugog sličnog računalnog programa.)

Mi ćemo ovdje koristiti ugrađene funkcije i Data Analysis, dok će se za većinu ostalih testova prikazati “ručni” postupak izračuna.

Na početku je uvijek korisno dobiti uvid u pokazatelje deskriptivne statistike.

I ranije smo već mogli uočiti da Descriptive Statistics u MS Excelu ne nudi mogućnosti testiranja normalnosti distribucije. To znači da, ako nećemo posebno za to koristiti neki drugi softver, zaključci o normalnosti donose se temeljem usporedbe veličina aritmetičke sredine, medijana i moda te koeficijenta asimetrije. Uz to, vizualni prikazi poput histograma ili box-plota mogu pomoći pri vizualnoj provjeri simetrije raspodjele podataka.

Na sljedećoj slici je prikazan ručni postupak provođenja z-testa i t-testa na jednom uzorku, prema opisu u vezanom dijelu štiva. Uz pomoć formula AVERAGE, VAR.S/STDEV.S, ručnih izračuna (z-formula, p-vrijednost) te funkcija NORM.INV, T.INV.2T i T.INV možete provesti jednostavne z- i t-testove na jednom uzorku, usporediti izračunatu p-vrijednost s \(α\), pa donijeti odluku odbaciti ili ne odbaciti nul hipotezu.

Dobiveni rezultati su usporedivi s ranijim prikazima.

Sljedeći po redu je Wilcoxonov test. Najprije se izračuna razlika između svakog opažanja i pretpostavljene vrijednosti (ovdje je to medijan). U stupcu „Apsolutna vrijednost razlika“ bilježi se apsolutna vrijednost tih razlika. Zatim se rangiraju apsolutne razlike, od najmanje do najveće, pri čemu se vezanim vrijednostima dodjeljuju prosječni rangovi. Ti rangovi se potom ponovno kombiniraju s originalnim predznakom razlike (pozitivan ili negativan). U dva stupca zbrajaju se posebno svi pozitivni rangovi i svi negativni rangovi, a definira se \(W=min⁡( \text{∑pozitivni rangovi}, \text{∑negativni rangovi})\).

Za velike uzorke (npr. n≥30), testna veličina se aproksimira normalnom distribucijom: \[z= \frac{W−μ_W}{σ_W}\] gdje su

\[μ_W=\frac{n(n+1)}{4}, \text{ } σ_W=\sqrt{ \frac{n(n+1)(2n+1)}{24}}\]

U tablici se zatim ručno izračuna z-vrijednost, a na temelju nje i p-vrijednosti (koristeći funkcije za normalnu distribuciju, npr. NORM.S.DIST ili NORM.S.INV). Dobivena p-vrijednost uspoređuje se s odabranom razinom značajnosti te se donosi odluka o (ne)odbacivanju nul hipoteze.

Dobiveni su sljedeći rezultati.

Da bismo dobili uvide u pokazatelje deskriptivne statistike podskupina, podatke je potrebno preurediti na način da svaka podskupina bude zapisana u zasebnom stupcu. Možete koristiti mogućnosti Excela za filtriranje ili ručno kopiranje kako biste odvojili podatke različitih skupina u zasebne stupce.

Nakon što su podaci pripremljeni na prikladan način, može se koristiti Descriptive Statistics iz Data Analysis.

Dobiva se prikaz nalik onom na sljedećoj slici.

Osim toga, dodatne uvide možemo dobiti koristeći box-plot ili histogram. Pri testiranju hipoteza, češće se koristi box-plot, jer vizualno prikazuje raspon podataka, ali i signalizira centralnu tendenciju podataka.

Za testiranje hipoteza o jednakosti prosjeka dva nezavisna uzorka koristeći z-test, odabire se Data Analysis (ili Analiza Podataka), a potom se odabire z-test.

U novootvoreni prozorčić unose se vrijednosti prema pruženim opisima. Npr. ‘Variable 1 Range’ iziskuje unos raspona prve varijable. Standardne devijacije svakog uzorka unose se ručno i to će trebati prepisati iz deskriptivne statistike. Pretpostavljena razlika između prosjeka uzoraka tipično je 0 (u hipotezi u štivu je bila 0). Ako ste rasponom varijable obuhvatili i naziv varijable, kliknite na ‘Labels’ (u suprotnom može javljati grešku da raspon obuhvaća nenumeričke podatke; pa ako ne prepoznate odmah da je to zbog izostanka ovog klika, možete nepotrebno potrošiti vrijeme na pregled varijabli i traženje nenumeričkih znakova).

Dobiveni rezultat izgledat će otprilike ovako. Za čitkiji prikaz, proširite stupce.

Za testiranje jednakosti varijanci, može se koristiti F-test, =F.TEST(range1; range2), pri čemu je pojedina skupina obuhvaćena pojedinim rasponom (ovdje pazite da ne obuhvatite ćelije s nazivima varijabli).

Za testiranje hipoteza o jednakosti prosjeka dva nezavisna uzorka koristeći t-test, odabire se Data Analysis (ili Analiza Podataka), a potom se odabire t-test. Ovisno o varijancama, na raspolaganju stoji t-test: Two Sample Assuming Equal Variances i t-test: Two Sample Assuming Unequal Variances. Ovdje odabiremo inačicu s nejednakim varijancama.

U prozorčiću je potrebno unijeti tražene vrijednosti i kliknuti OK.

Dobivaju se rezultati nalik ovima:

Ako biste imali situaciju s jednakim varijancama, tad birate i takvu varijantu t-testa:

Vrijednosti se unose na sličan način:

Dobiveni rezultati izgledali bi otprilike ovako:

Sljedeći po redu je Man-Whitney U test. Ponekad se naziva i Wilcoxonov (Signed Rank) test, jer predstavlja ekstenziju Wilcoxonovog pristupa za testiranje dva nezavisna uzorka. Ovaj test nije obuhvaćen osnovnim funkcijama u MS Excelu, pa koristimo “ručni” izračun.

Podaci moraju biti uređeni na način da jedan stupac označava faktor ili kategorijsku varijablu koja se koristi kao kriterij podjele uzorka, a drugi stupac predstavlja varijablu za koju se izriče tvrdnja. U stupcu ‘Group’ nalazi se oznaka skupine (“Control” i “Runners”), u stupcu ‘HeartRate’ numeričke vrijednosti, a u stupcu Rank pripadajući rang svake vrijednosti. Zatim se zbrajaju rangovi za svaku skupinu.

Mann–Whitney statistika računa se prema standardnim formulama, npr. \[U_1=n_1\cdot n_2+ \frac{n_1(n_1+1)}{2}−R_1\]

gdje je \(R_1\) suma rangova za prvu skupinu. Slično se računa i \(U_2\), a nakon toga se uobičajeno uzima \(U=min⁡(U_1,U_2)\). Za aproksimaciju normalnom distribucijom koriste se \[μ_U=\frac{n_1n_2}{2},σ_U= \sqrt{\frac{n_1n_2(n_1+n_2+1)}{12}}\].

Z-vrijednost iznosi

\[z=\frac{U−μ_U}{σ_U}\]

a p-vrijednost se određuje pomoću standardne normalne distribucije.

Dobivaju se sljedeći rezultati.

Sljedeći test po redu je ANOVA s jednim faktorom. To znači da se u obzir uzima samo jedna kvalitativna varijabla (faktor) prema kojem se uzorak dijeli na podskupine (2 ili više podskupina). U alatnoj traci odabirete Data Analysis, a potom ANOVA Single Factor.

Potom se otvara prozorčić u koji je potrebno prema uputama unijeti potrebne vrijednosti.

Ako ne postavimo drugačije, rezultat se prikazuje na novom listu i nakon širenja stupaca, izgleda ovako:

No, takav oblik ANOVA-e ima smisla provoditi samo ako su pretpostavke zadovoljene. Varijante s korekcijama za nejednakost varijanci, kao i neparametrijske alternative, u MS Excelu treba provesti ručno.

Na prikazanom listu na sljedećoj slici, nalaze se dva stupca s podacima za dvije nezavisne skupine (‘HeartRate_Runners’ i ‘HeartRate_control’), a zatim stupci s apsolutnim odstupanjima od medijana, rangovima i izračunima potrebnima za Brown–Forsythe i Welch ANOVA.

Za svaku skupinu izračunava se medijan (npr. \(\text{medijan}_1\) i \(\text{medijan}_2\)), a potom se u stupcima „Apsolutne razlike“ računa

\[ \text{abs_diff}(x_i) = \bigl|x_i - \text{median}_\text{skupina}\bigr|. \]

U Excelu se to postiže formulom tipa ABS(A2 - $H$3), gdje je $H$3 ćelija s pohranjenim medijanom.

Nakon što su dobivene apsolutne razlike za svaku skupinu, računa se njihov prosjek (npr. \(\overline{d}_1\) za Runners i \(\overline{d}_2\) za Control). Također se izračuna ukupni prosjek apsolutnih razlika \(\overline{d}\) preko obje skupine.

Brown–Forsythe ANOVA

Ova se metoda temelji na varijanci apsolutnih devijacija umjesto izvornih vrijednosti. Najprije se izračunava

\[ \text{SSB} = \sum_{i=1}^k n_i\,(\overline{d}_i - \overline{d})^2\] zatim se računa

\[\text{MSB} = \text{SSB}/(k-1)\]

SSW se računa kao zbroj kvadrata odstupanja svakog \(\text{abs\_diff}(x_i)\) od pripadajućeg grupnog prosjeka apsolutnih razlika:

\[ \text{SSW} = \sum_{i=1}^k \sum_{j=1}^{n_i}\bigl(d_{ij} - \overline{d}_i\bigr)^2\]

pa

\[ \text{MSW} = \text{SSW}/(N - k)\]

Konačni omjer

\[F = \frac{\text{MSB}}{\text{MSW}}\]

daje Brown–Forsythe testnu statistiku, a p-vrijednost se računa, pomoću: F.DIST.RT(F, dfB, dfW).

Welchova ANOVA

Za Welchov test koristi se prilagođeni izračun varijance i stupnjeva slobode (tzv. Welch–Satterthwaite formula). U Excelu je prikazan postupak:

  • Računa se standardna pogreška na temelju \(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\).

  • Zatim se stupnjevi slobode dobivaju prema

\[ \nu \;=\; \frac{\Bigl(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\Bigr)^2}{\frac{\bigl(\frac{s_1^2}{n_1}\bigr)^2}{n_1-1} + \frac{\bigl(\frac{s_2^2}{n_2}\bigr)^2}{n_2-1}} \]

  • Na kraju se izračunava testna statistika i p-vrijednost (F.DIST.RT) za dvostrani test.

Tablice s među-rezultatima (npr. \(\text{SSB}\), \(\text{SSW}\), \(\text{MSB}\), \(\text{MSW}\)) i odgovarajuće p-vrijednosti mogu se usporediti s rezultatima iz JASP-a ili R-a. JASP po zadanom koristi Type III Sum of Squares za ANOVA, što znači da će se rezultati razlikovati od Type I (klasičnog, sekvencijalnog) pristupa. U osnovnom R-u (funkcija anova() nad linearnim modelom) obično se računa s Type I SS, no druge inačice često koriste Type III. Dakle, ako netko uspoređuje Excel-ovu standardnu ANOVA (koja često radi Type I SS) s JASP-om (koji koristi Type III SS) – rezultati se mogu razlikovati, osobito u nesimetričnim dizajnima s nejednakim brojem opažanja u grupama. Ovo je već ranije diskutirano u tekstu, a ovdje je važno samo skrenuti pozornost na te razlike, jer ćete ih uočiti u rezultatima (ako vas zanima više, potražite u glavnom tekstu).

Kruskal-Wallis se smatra neparametrijskom alternativom ANOVA testu. Prvo se sva opažanja spoje u jedan stupac (‘Heart Rate’), a zatim se dodjeljuju rangovi (stupac “Rang”) neovisno o grupi. Nakon toga se pomoću SUMIF zbrajaju rangovi za svaku grupu:

  • Suma rangova za i-tu grupu: =SUMIF($B$2:$B$N; "NazivGrupe"; $C$2:$C$N)

Broj opažanja za i-tu grupu dobije se COUNTIF: \(n_i\) = COUNTIF( Raspon )

U formuli za Kruskal-Wallis test, ukupni broj opažanja je \(N = \sum_{i=1}^k n_i\), a broj grupa je \(k\). Tada se izračuna testna statistika \(H\):

\[ H \;=\; \frac{12}{N(N+1)} \sum_{i=1}^k \frac{(R_i)^2}{n_i} \;-\; 3\,(N+1), \]

gdje je \(R_i\) suma rangova i-te grupe. U Excelu se to izvodi sumiranjem izraza \((R_i^2 / n_i)\) i zatim množenjem sa \(\frac{12}{N(N+1)}\), a potom oduzimanjem \(3(N+1)\).

Nakon što se dobije \(H\), aproksimacija p-vrijednosti temelji se na \(\chi^2\) distribuciji sa \(k - 1\) stupnjeva slobode. U Excelu se može iskoristiti funkcija CHISQ.DIST.RT(H; k-1) za jednostranu p-vrijednost:

p-vrijednost: =CHISQ.DIST.RT( H; k-1)

Ako je ova p-vrijednost manja od željene razine značajnosti, odbacuje se nul hipoteza o jednakosti raspodjela (ili medijana) među grupama.

Dobivaju se sljedeći rezultati:

Za provedbu dvofaktorske ANOVA-e, potrebno je prvo pripremiti podatke. Svaka podskupina mora biti zapisana u zasebnom stupcu. Kako su u pitanju dva faktora: Grupa i Spol, svaki s po dva zabilježena modaliteta, to će rezultirati s četiri stupca.

Nakon što su podaci pripremljeni, odabire se Data Analysis i iz izbornika ANOVA Two Factors with Replication. U ovom kontekstu, “replication” se odnosi na više opažanja po skupini.

Rezultati će se prikazai na sljedećem listu.

Za analizu podataka iz skupa podataka ‘Weight Gain’, prvo treba preuzeti podatke, a potom ih pripremiti za analizu. Slijedite isti postupak kao što je prikazano za ‘Heart Rate’. Uređeni podaci bi trebali izgledati ovakO:

Korisno je započeti s uvidima u pokazatelje deskriptivne statistike, koristeći Data Analysis, Descriptive Statistics.

Za testiranje hipoteza, treba voditi računa o tome da su ovo upareni podaci. Tj. svaki redak predstavlja istog ispitanika, za kojeg su podaci prikupljeni ‘prije’ i ‘poslije’. Od t-testova, odabire se t-test: Paired Two Sample for Means.

U sljedećem koraku se unose potrebne vrijednosti.

Ako nije drugačije podešeno, rezultat će se prikazati na novom listu i nakon širenja stupaca izgledat će otprilike ovako:

Na slici je prikazana primjena Wilcoxonova testa za uparene podatke (npr. Weight Before i Weight After) u MS Excelu. Najprije se u stupcu “Difference” izračunaju razlike za svaki par opažanja. U stupcu “Apsolutne razlike” izračunaju se apsolutne vrijednosti tih razlika. Potom se ranguju apsolutne vrijednosti (zanemaruje se predznak). Rangu se može pridružiti ista vrijednost ako postoje vezani podaci (podaci iste vrijednosti, tie), ali u osnovi najmanja apsolutna razlika dobije rang 1, sljedeća po veličini dobije rang 2, itd. Zatim se zbrajaju rangovi za pozitivne razlike i rangovi za negativne razlike. Testna statistika \(W\) najčešće se uzima kao manja od dviju suma (pozitivna ili negativna). Zatim se (za dovoljno velik \(n\)) računa kritična vrijednost i p-vrijednost aproksimacijom normalne distribucije.

Dobiveni su sljedeći rezultati.

Za nastavak je potrebna datoteka Real_Estate. Učitajte ju i pripremite podatke tako da na novi list kopirate varijable ‘Price’ i ‘Waterfront’. Potom se provodi Mann-Whitney U test, po uzoru na ranije objašnjen postupak.

Dobiveni su sljedeći rezultati.

Na pitanje ‘Postoji li statistički značajna razlika u cijeni s obzirom na to koliko kamina ima nekretnina?’ odgovara se uz pomoć Kruskal-Wallis testa. Postupak slijedi ranije opisanu proceduru.

Dobiveni su sljedeći rezultati.

Pripremite podatke tako da na novi list kopirate varijable ‘Lot.Size’ i ‘Waterfront’. Potom se provode Mann-Whitney U test i Kruskal-Wallis test, po uzoru na ranije objašnjene postupke.

Rezultati su sljedeći:

Na pitanje ‘Postoji li statistički značajna razlika u veličini zemljišta s obzirom na to koliko kamina ima nekretnina?’ odgovara se uz pomoć Kruskal-Wallis testa. Postupak slijedi ranije opisanu proceduru.

Dobiveni su sljedeći rezultati.

Na pitanje ‘Je li barem 5% promatranih nekretnina novogradnja?’ odgovara se testiranjem hipoteza koristeći binomni i z-test proporcija. Njihova je provedba prikazana sljedećom slikom.

Dobiveni su sljedeći rezultati.

‘Je li distribucija tipa goriva (fuel.type) je ista među nekretninama koje imaju i onima koje nemaju središnji sustav za klimatizaciju (central.air)?’ - iziskuje provedbu testa homogenosti. Postupak je ranije prikazan u glavnom dijelu teksta dovoljno detaljno.

Ovdje se skreće pozornost na upotrebu znaka $. Upotrebom znaka $ u Excelovim formulama (npr. =B\$6*\$D3/\$D\$6) fiksiraju se odgovarajući reci ili stupci, tako da se prilikom kopiranja formule reference ne mijenjaju na neželjen način. Time se omogućuje da dio formule ostane “fiksan”, dok se ostali dijelovi mogu prilagoditi kopiranjem formule u druge ćelije. Npr. znak $ ispred slova (npr. $A1) fiksira stupac A, dok se redak (1) može mijenjati prilikom kopiranja formule. Ako je $ ispred broja (npr. A$1), tada je fiksiran redak 1, a stupac A ostaje relativan. Kad je $ ispred oba dijela (npr. $A$1), i stupac i redak su fiksirani, pa se referenca uopće ne mijenja pri kopiranju formule.

Rezultati su sljedeći:

Postupak testa neovisonsti je jako sličan hi-kvadrat testu homogenosti, samo se u stupcima neće naći različite ‘populacije’, nego modaliteti druge varijable.

Rezultati su sljedeći:

Provjera odgovora

  1. C; 2. B; 3. C; 4. A, B, C; 5. A, B, D; 6. C; 7. A; 8. B; 9. A; 10. A; 11. B; 12. B; 13. C; 14. A; 15. A; 16. A; 17. C; 18. B; 19. C; 20. B; 21. 1, 3, 5;22. 2, 3, 7; 23. 3, 4, 9; 24. 2, 4, 6; 25. 4, 7, 8; 26. 1, 3, 5; 27. 1, 6, 9; 28. 1, 2, 6; 29. 3, 5, 7; 30. 1, 2, 3; 31. 7, 8, 9; 32. 3, 5, 6; 33. 1, 2, 6; 34. 2, 4, 8; 35. 5, 6, 10; 36. 2, 5, 10; 37. 1, 2, 3, 8; 38. 3, 6, 8, 10; 39. 1, 3, 4; 40. 1, 3, 4, 8.

Korišteni izvori i literatura

Arnholt, A. T., & Evans, B. (2017). Package ‘BSDA’. https://cran.r-project.org/web/packages/BSDA/index.html

Ben-Shachar, M. S., Lüdecke, D., & Makowski, D. (2020). effectsize: Estimation of effect size indices and standardized parameters. Journal of open source software, 5(56), 2815. https://dominiquemakowski.github.io/publication/benshachar2020effectsize/benshachar2020effectsize.pdf, https://CRAN.R-project.org/package=effectsize

Conover, W. J. (1999). Practical nonparametric statistics (Vol. 350). John Wiley & sons.

De Veaux, D. (2015). How much is a Fireplace Worth? Stats 101 Public Library.https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=e4f8d3f1-41a3-4f01-9f8b-f8fbe1562c15&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401

Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.

Hohenwarter, M., & Hohenwarter, M. (2002). GeoGebra. Available on-line at http://www.geogebra.org/cms/en.

Hollander, M., Wolfe, D. A. & Chicken, E. (2013). Nonparametric statistical methods. John Wiley & Sons Inc.

Holmes, A., Illowsky, B., & Dean, S. (2017). Introductory Business Statistics 2e. OpenStax. https://openstax.org/books/introductory-business-statistics/pages/preface

Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.

Horton, N. J., Baumer, B. S., & Wickham, H. (2015). Setting the stage for data science: integration of data management skills in introductory and second courses in statistics (nycflights13). https://nhorton.people.amherst.edu/precursors/nycflights13.pdf

Hothorn, T., Hornik, K., & Hothorn, M. T. (2022). Package ‘exactRankTests’. https://CRAN.R-project.org/package=exactRankTests

Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.

Illowsky, B., & Dean, S. (2018). Introductory statistics. https://openstax.org/books/introductory-statistics-2e/pages/preface

JASP Team (2024). JASP (Version 0.19.3)[Computer software].

Kassambara, A. (2019). rstatix: Pipe-friendly framework for basic statistical tests. CRAN: Contributed Packages. https://CRAN.R-project.org/package=rstatix

Kassambara, A. (2023) ggpubr: ‘ggplot2’ Based Publication Ready Plots. CRAN https://CRAN.R-project.org/package=ggpubr

Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://bookdown.org/kakoste/Uvod_u_R_i_RStudio/

Moore, D. S., McCabe, G. P., and Craig, B. A. (2012). Introduction to the Practice of Statistics (7th ed.). New York: Freeman

Okoye, K., & Hosseini, S. (2024). Analysis of variance (ANOVA) in R: one-way and two-way ANOVA. In R Programming: Statistical Data Analysis in Research (pp. 187-209). Singapore: Springer Nature Singapore. https://link.springer.com/chapter/10.1007/978-981-97-3385-9_9

Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf

Signorell, A. (2025) DescTools: Tools for Descriptive Statistics. CRAN. https://CRAN.R-project.org/package=DescTools

Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb.

Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.

Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.