Ovo je nastavak 7. štiva: Testiranje hipoteza kroz primjere i odnosi se na repliciranje analize koristeći MS Excel. Osim toga, ovdje možete provjeriti odgovore na pitanja iz štiva.
Prvo ćemo preuzeti sve podatkovne skupove. JASP ima koristi GitHub repozitorij za kod i podatke, tako da podacima možemo pristupiti i direktno putem https://github.com/jasp-stats/jasp-data-library/tree/main.
Pregledajte repozitorij dok ne nađete podatke koji vam trebaju. To će
prvo biti Heart rate
, pa ćemo kliknuti na taj direktorij.
Otvara nam se prikaz nalik sljedećem:
Potom, od ponuđenih formata biramo onaj koji je najprikladinij za
nastavak analize. U ovom slučaju, to je .csv
. Na slici je
crvenom bojom zaokružena opcija za preuzimanje. Kliknite i preuzmite
datoteku. Isti postupak ponovite za Weight gain
.
Po preuzimanju i otvaranju datoteke koristeći MS Excel, dobiva se sljedeći prikaz:
Koristeći alate za tablice, možemo relativno jednostavno dobiti potreban prikaz.
Po učitavanju podataka u preglednik za tablice odaberite podjelu podataka, a potom podesite podjelu prema svakom zarezu i izlaz bez navođenja unutar navodnih znakova.
Nakon što su podaci uređeni, pregledajte ih još jednom je li sve u redu, a potom zatvorite ovaj preglednik i učitajte ih u glavni dokument.
Nakon što ste to učinili, kopirajte podatke na sljedeći list zadržavajući samo brojeve. U novijim verzijama Excela, kad se podaci učitaju kao Table (tablica), Excel koristi tzv. structured references (npr. “Table1[Column1]”) umjesto klasičnih referenci na retke i stupce (npr. A2:A100). To može dovesti do neočekivanih poteškoća pri pisanju formula i provođenju složenijih analiza, jer se Excelove funkcije i reference tada ponašaju drukčije nego kod običnog raspona ćelija. Ako tablicu kopirate kao običan raspon, Excel više neće koristiti Table strukturu, pa ćete imati potpunu kontrolu nad formulama i referencama.
MS Excel nudi nekoliko mogućnosti za provođenje testova hipoteza, a one se mogu podijeliti u tri skupine:
Ugrađene funkcije
T.TEST
, Z.TEST
,
CHISQ.TEST
i F.TEST
, koje se koriste za
osnovne statističke testove.Data Analysis i Data Analysis Toolpak
Dodaci treće strane (npr. Real Statistics)
Mi ćemo ovdje koristiti ugrađene funkcije i Data Analysis, dok će se za većinu ostalih testova prikazati “ručni” postupak izračuna.
Na početku je uvijek korisno dobiti uvid u pokazatelje deskriptivne statistike.
I ranije smo već mogli uočiti da Descriptive Statistics
u MS Excelu ne nudi mogućnosti testiranja normalnosti distribucije. To
znači da, ako nećemo posebno za to koristiti neki drugi softver,
zaključci o normalnosti donose se temeljem usporedbe veličina
aritmetičke sredine, medijana i moda te koeficijenta asimetrije. Uz to,
vizualni prikazi poput histograma ili box-plota mogu pomoći pri
vizualnoj provjeri simetrije raspodjele podataka.
Na sljedećoj slici je prikazan ručni postupak provođenja z-testa i
t-testa na jednom uzorku, prema opisu u vezanom dijelu štiva. Uz pomoć
formula AVERAGE
, VAR.S
/STDEV.S
,
ručnih izračuna (z-formula, p-vrijednost) te funkcija
NORM.INV
, T.INV.2T
i T.INV
možete
provesti jednostavne z- i t-testove na jednom uzorku, usporediti
izračunatu p-vrijednost s \(α\), pa
donijeti odluku odbaciti ili ne odbaciti nul hipotezu.
Dobiveni rezultati su usporedivi s ranijim prikazima.
Sljedeći po redu je Wilcoxonov test. Najprije se izračuna razlika između svakog opažanja i pretpostavljene vrijednosti (ovdje je to medijan). U stupcu „Apsolutna vrijednost razlika“ bilježi se apsolutna vrijednost tih razlika. Zatim se rangiraju apsolutne razlike, od najmanje do najveće, pri čemu se vezanim vrijednostima dodjeljuju prosječni rangovi. Ti rangovi se potom ponovno kombiniraju s originalnim predznakom razlike (pozitivan ili negativan). U dva stupca zbrajaju se posebno svi pozitivni rangovi i svi negativni rangovi, a definira se \(W=min( \text{∑pozitivni rangovi}, \text{∑negativni rangovi})\).
Za velike uzorke (npr. n≥30), testna veličina se aproksimira normalnom distribucijom: \[z= \frac{W−μ_W}{σ_W}\] gdje su
\[μ_W=\frac{n(n+1)}{4}, \text{ } σ_W=\sqrt{ \frac{n(n+1)(2n+1)}{24}}\]
U tablici se zatim ručno izračuna z-vrijednost, a na temelju nje i
p-vrijednosti (koristeći funkcije za normalnu distribuciju, npr.
NORM.S.DIST
ili NORM.S.INV
). Dobivena
p-vrijednost uspoređuje se s odabranom razinom značajnosti te se donosi
odluka o (ne)odbacivanju nul hipoteze.
Dobiveni su sljedeći rezultati.
Da bismo dobili uvide u pokazatelje deskriptivne statistike podskupina, podatke je potrebno preurediti na način da svaka podskupina bude zapisana u zasebnom stupcu. Možete koristiti mogućnosti Excela za filtriranje ili ručno kopiranje kako biste odvojili podatke različitih skupina u zasebne stupce.
Nakon što su podaci pripremljeni na prikladan način, može se
koristiti Descriptive Statistics
iz
Data Analysis
.
Dobiva se prikaz nalik onom na sljedećoj slici.
Osim toga, dodatne uvide možemo dobiti koristeći box-plot ili histogram. Pri testiranju hipoteza, češće se koristi box-plot, jer vizualno prikazuje raspon podataka, ali i signalizira centralnu tendenciju podataka.
Za testiranje hipoteza o jednakosti prosjeka dva nezavisna uzorka
koristeći z-test, odabire se Data Analysis
(ili
Analiza Podataka
), a potom se odabire
z-test
.
U novootvoreni prozorčić unose se vrijednosti prema pruženim opisima. Npr. ‘Variable 1 Range’ iziskuje unos raspona prve varijable. Standardne devijacije svakog uzorka unose se ručno i to će trebati prepisati iz deskriptivne statistike. Pretpostavljena razlika između prosjeka uzoraka tipično je 0 (u hipotezi u štivu je bila 0). Ako ste rasponom varijable obuhvatili i naziv varijable, kliknite na ‘Labels’ (u suprotnom može javljati grešku da raspon obuhvaća nenumeričke podatke; pa ako ne prepoznate odmah da je to zbog izostanka ovog klika, možete nepotrebno potrošiti vrijeme na pregled varijabli i traženje nenumeričkih znakova).
Dobiveni rezultat izgledat će otprilike ovako. Za čitkiji prikaz, proširite stupce.
Za testiranje jednakosti varijanci, može se koristiti F-test,
=F.TEST(range1; range2)
, pri čemu je pojedina skupina
obuhvaćena pojedinim rasponom (ovdje pazite da ne obuhvatite ćelije s
nazivima varijabli).
Za testiranje hipoteza o jednakosti prosjeka dva nezavisna uzorka
koristeći t-test, odabire se Data Analysis
(ili
Analiza Podataka
), a potom se odabire t-test
.
Ovisno o varijancama, na raspolaganju stoji
t-test: Two Sample Assuming Equal Variances
i
t-test: Two Sample Assuming Unequal Variances
. Ovdje
odabiremo inačicu s nejednakim varijancama.
U prozorčiću je potrebno unijeti tražene vrijednosti i kliknuti OK.
Dobivaju se rezultati nalik ovima:
Ako biste imali situaciju s jednakim varijancama, tad birate i takvu varijantu t-testa:
Vrijednosti se unose na sličan način:
Dobiveni rezultati izgledali bi otprilike ovako:
Sljedeći po redu je Man-Whitney U test. Ponekad se naziva i Wilcoxonov (Signed Rank) test, jer predstavlja ekstenziju Wilcoxonovog pristupa za testiranje dva nezavisna uzorka. Ovaj test nije obuhvaćen osnovnim funkcijama u MS Excelu, pa koristimo “ručni” izračun.
Podaci moraju biti uređeni na način da jedan stupac označava faktor ili kategorijsku varijablu koja se koristi kao kriterij podjele uzorka, a drugi stupac predstavlja varijablu za koju se izriče tvrdnja. U stupcu ‘Group’ nalazi se oznaka skupine (“Control” i “Runners”), u stupcu ‘HeartRate’ numeričke vrijednosti, a u stupcu Rank pripadajući rang svake vrijednosti. Zatim se zbrajaju rangovi za svaku skupinu.
Mann–Whitney statistika računa se prema standardnim formulama, npr. \[U_1=n_1\cdot n_2+ \frac{n_1(n_1+1)}{2}−R_1\]
gdje je \(R_1\) suma rangova za prvu skupinu. Slično se računa i \(U_2\), a nakon toga se uobičajeno uzima \(U=min(U_1,U_2)\). Za aproksimaciju normalnom distribucijom koriste se \[μ_U=\frac{n_1n_2}{2},σ_U= \sqrt{\frac{n_1n_2(n_1+n_2+1)}{12}}\].
Z-vrijednost iznosi
\[z=\frac{U−μ_U}{σ_U}\]
a p-vrijednost se određuje pomoću standardne normalne distribucije.
Dobivaju se sljedeći rezultati.
Sljedeći test po redu je ANOVA s jednim faktorom. To znači da se u
obzir uzima samo jedna kvalitativna varijabla (faktor) prema kojem se
uzorak dijeli na podskupine (2 ili više podskupina). U alatnoj traci
odabirete Data Analysis
, a potom
ANOVA Single Factor
.
Potom se otvara prozorčić u koji je potrebno prema uputama unijeti potrebne vrijednosti.
Ako ne postavimo drugačije, rezultat se prikazuje na novom listu i nakon širenja stupaca, izgleda ovako:
No, takav oblik ANOVA-e ima smisla provoditi samo ako su pretpostavke zadovoljene. Varijante s korekcijama za nejednakost varijanci, kao i neparametrijske alternative, u MS Excelu treba provesti ručno.
Na prikazanom listu na sljedećoj slici, nalaze se dva stupca s podacima za dvije nezavisne skupine (‘HeartRate_Runners’ i ‘HeartRate_control’), a zatim stupci s apsolutnim odstupanjima od medijana, rangovima i izračunima potrebnima za Brown–Forsythe i Welch ANOVA.
Za svaku skupinu izračunava se medijan (npr. \(\text{medijan}_1\) i \(\text{medijan}_2\)), a potom se u stupcima „Apsolutne razlike“ računa
\[ \text{abs_diff}(x_i) = \bigl|x_i - \text{median}_\text{skupina}\bigr|. \]
U Excelu se to postiže formulom tipa ABS(A2 - $H$3)
,
gdje je $H$3
ćelija s pohranjenim medijanom.
Nakon što su dobivene apsolutne razlike za svaku skupinu, računa se njihov prosjek (npr. \(\overline{d}_1\) za Runners i \(\overline{d}_2\) za Control). Također se izračuna ukupni prosjek apsolutnih razlika \(\overline{d}\) preko obje skupine.
Brown–Forsythe ANOVA
Ova se metoda temelji na varijanci apsolutnih devijacija umjesto izvornih vrijednosti. Najprije se izračunava
\[ \text{SSB} = \sum_{i=1}^k n_i\,(\overline{d}_i - \overline{d})^2\] zatim se računa
\[\text{MSB} = \text{SSB}/(k-1)\]
SSW se računa kao zbroj kvadrata odstupanja svakog \(\text{abs\_diff}(x_i)\) od pripadajućeg grupnog prosjeka apsolutnih razlika:
\[ \text{SSW} = \sum_{i=1}^k \sum_{j=1}^{n_i}\bigl(d_{ij} - \overline{d}_i\bigr)^2\]
pa
\[ \text{MSW} = \text{SSW}/(N - k)\]
Konačni omjer
\[F = \frac{\text{MSB}}{\text{MSW}}\]
daje Brown–Forsythe testnu statistiku, a p-vrijednost se računa,
pomoću: F.DIST.RT(F, dfB, dfW)
.
Welchova ANOVA
Za Welchov test koristi se prilagođeni izračun varijance i stupnjeva slobode (tzv. Welch–Satterthwaite formula). U Excelu je prikazan postupak:
Računa se standardna pogreška na temelju \(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\).
Zatim se stupnjevi slobode dobivaju prema
\[ \nu \;=\; \frac{\Bigl(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\Bigr)^2}{\frac{\bigl(\frac{s_1^2}{n_1}\bigr)^2}{n_1-1} + \frac{\bigl(\frac{s_2^2}{n_2}\bigr)^2}{n_2-1}} \]
F.DIST.RT
) za dvostrani test.Tablice s među-rezultatima (npr. \(\text{SSB}\), \(\text{SSW}\), \(\text{MSB}\), \(\text{MSW}\)) i odgovarajuće p-vrijednosti mogu se usporediti s rezultatima iz JASP-a ili R-a. JASP po zadanom koristi Type III Sum of Squares za ANOVA, što znači da će se rezultati razlikovati od Type I (klasičnog, sekvencijalnog) pristupa. U osnovnom R-u (funkcija anova() nad linearnim modelom) obično se računa s Type I SS, no druge inačice često koriste Type III. Dakle, ako netko uspoređuje Excel-ovu standardnu ANOVA (koja često radi Type I SS) s JASP-om (koji koristi Type III SS) – rezultati se mogu razlikovati, osobito u nesimetričnim dizajnima s nejednakim brojem opažanja u grupama. Ovo je već ranije diskutirano u tekstu, a ovdje je važno samo skrenuti pozornost na te razlike, jer ćete ih uočiti u rezultatima (ako vas zanima više, potražite u glavnom tekstu).
Kruskal-Wallis se smatra neparametrijskom alternativom ANOVA testu.
Prvo se sva opažanja spoje u jedan stupac (‘Heart Rate’), a zatim se
dodjeljuju rangovi (stupac “Rang”) neovisno o grupi. Nakon toga se
pomoću SUMIF
zbrajaju rangovi za svaku grupu:
=SUMIF($B$2:$B$N; "NazivGrupe"; $C$2:$C$N)
Broj opažanja za i-tu grupu dobije se COUNTIF
: \(n_i\) = COUNTIF( Raspon )
U formuli za Kruskal-Wallis test, ukupni broj opažanja je \(N = \sum_{i=1}^k n_i\), a broj grupa je \(k\). Tada se izračuna testna statistika \(H\):
\[ H \;=\; \frac{12}{N(N+1)} \sum_{i=1}^k \frac{(R_i)^2}{n_i} \;-\; 3\,(N+1), \]
gdje je \(R_i\) suma rangova i-te grupe. U Excelu se to izvodi sumiranjem izraza \((R_i^2 / n_i)\) i zatim množenjem sa \(\frac{12}{N(N+1)}\), a potom oduzimanjem \(3(N+1)\).
Nakon što se dobije \(H\),
aproksimacija p-vrijednosti temelji se na \(\chi^2\) distribuciji sa \(k - 1\) stupnjeva slobode. U Excelu se može
iskoristiti funkcija CHISQ.DIST.RT(H; k-1)
za jednostranu
p-vrijednost:
p-vrijednost: =CHISQ.DIST.RT( H; k-1)
Ako je ova p-vrijednost manja od željene razine značajnosti, odbacuje se nul hipoteza o jednakosti raspodjela (ili medijana) među grupama.
Dobivaju se sljedeći rezultati:
Za provedbu dvofaktorske ANOVA-e, potrebno je prvo pripremiti podatke. Svaka podskupina mora biti zapisana u zasebnom stupcu. Kako su u pitanju dva faktora: Grupa i Spol, svaki s po dva zabilježena modaliteta, to će rezultirati s četiri stupca.
Nakon što su podaci pripremljeni, odabire se
Data Analysis
i iz izbornika
ANOVA Two Factors with Replication
. U ovom kontekstu,
“replication” se odnosi na više opažanja po skupini.
Rezultati će se prikazai na sljedećem listu.
Za analizu podataka iz skupa podataka ‘Weight Gain’, prvo treba preuzeti podatke, a potom ih pripremiti za analizu. Slijedite isti postupak kao što je prikazano za ‘Heart Rate’. Uređeni podaci bi trebali izgledati ovakO:
Korisno je započeti s uvidima u pokazatelje deskriptivne statistike,
koristeći Data Analysis
,
Descriptive Statistics
.
Za testiranje hipoteza, treba voditi računa o tome da su ovo upareni
podaci. Tj. svaki redak predstavlja istog ispitanika, za kojeg su podaci
prikupljeni ‘prije’ i ‘poslije’. Od t-testova, odabire se
t-test: Paired Two Sample for Means
.
U sljedećem koraku se unose potrebne vrijednosti.
Ako nije drugačije podešeno, rezultat će se prikazati na novom listu i nakon širenja stupaca izgledat će otprilike ovako:
Na slici je prikazana primjena Wilcoxonova testa za uparene podatke (npr. Weight Before i Weight After) u MS Excelu. Najprije se u stupcu “Difference” izračunaju razlike za svaki par opažanja. U stupcu “Apsolutne razlike” izračunaju se apsolutne vrijednosti tih razlika. Potom se ranguju apsolutne vrijednosti (zanemaruje se predznak). Rangu se može pridružiti ista vrijednost ako postoje vezani podaci (podaci iste vrijednosti, tie), ali u osnovi najmanja apsolutna razlika dobije rang 1, sljedeća po veličini dobije rang 2, itd. Zatim se zbrajaju rangovi za pozitivne razlike i rangovi za negativne razlike. Testna statistika \(W\) najčešće se uzima kao manja od dviju suma (pozitivna ili negativna). Zatim se (za dovoljno velik \(n\)) računa kritična vrijednost i p-vrijednost aproksimacijom normalne distribucije.
Dobiveni su sljedeći rezultati.
Za nastavak je potrebna datoteka Real_Estate. Učitajte ju i pripremite podatke tako da na novi list kopirate varijable ‘Price’ i ‘Waterfront’. Potom se provodi Mann-Whitney U test, po uzoru na ranije objašnjen postupak.
Dobiveni su sljedeći rezultati.
Na pitanje ‘Postoji li statistički značajna razlika u cijeni s obzirom na to koliko kamina ima nekretnina?’ odgovara se uz pomoć Kruskal-Wallis testa. Postupak slijedi ranije opisanu proceduru.
Dobiveni su sljedeći rezultati.
Pripremite podatke tako da na novi list kopirate varijable ‘Lot.Size’ i ‘Waterfront’. Potom se provode Mann-Whitney U test i Kruskal-Wallis test, po uzoru na ranije objašnjene postupke.
Rezultati su sljedeći:
Na pitanje ‘Postoji li statistički značajna razlika u veličini zemljišta s obzirom na to koliko kamina ima nekretnina?’ odgovara se uz pomoć Kruskal-Wallis testa. Postupak slijedi ranije opisanu proceduru.
Dobiveni su sljedeći rezultati.
Na pitanje ‘Je li barem 5% promatranih nekretnina novogradnja?’ odgovara se testiranjem hipoteza koristeći binomni i z-test proporcija. Njihova je provedba prikazana sljedećom slikom.
Dobiveni su sljedeći rezultati.
‘Je li distribucija tipa goriva (fuel.type) je ista među nekretninama koje imaju i onima koje nemaju središnji sustav za klimatizaciju (central.air)?’ - iziskuje provedbu testa homogenosti. Postupak je ranije prikazan u glavnom dijelu teksta dovoljno detaljno.
Ovdje se skreće pozornost na upotrebu znaka $. Upotrebom znaka
$
u Excelovim formulama (npr.
=B\$6*\$D3/\$D\$6
) fiksiraju se odgovarajući reci ili
stupci, tako da se prilikom kopiranja formule reference ne mijenjaju na
neželjen način. Time se omogućuje da dio formule ostane “fiksan”, dok se
ostali dijelovi mogu prilagoditi kopiranjem formule u druge ćelije. Npr.
znak $
ispred slova (npr. $A1
) fiksira stupac
A, dok se redak (1) može mijenjati prilikom kopiranja formule. Ako je
$
ispred broja (npr. A$1
), tada je fiksiran
redak 1, a stupac A ostaje relativan. Kad je $
ispred oba
dijela (npr. $A$1
), i stupac i redak su fiksirani, pa se
referenca uopće ne mijenja pri kopiranju formule.
Rezultati su sljedeći:
Postupak testa neovisonsti je jako sličan hi-kvadrat testu homogenosti, samo se u stupcima neće naći različite ‘populacije’, nego modaliteti druge varijable.
Rezultati su sljedeći:
Arnholt, A. T., & Evans, B. (2017). Package ‘BSDA’. https://cran.r-project.org/web/packages/BSDA/index.html
Ben-Shachar, M. S., Lüdecke, D., & Makowski, D. (2020). effectsize: Estimation of effect size indices and standardized parameters. Journal of open source software, 5(56), 2815. https://dominiquemakowski.github.io/publication/benshachar2020effectsize/benshachar2020effectsize.pdf, https://CRAN.R-project.org/package=effectsize
Conover, W. J. (1999). Practical nonparametric statistics (Vol. 350). John Wiley & sons.
De Veaux, D. (2015). How much is a Fireplace Worth? Stats 101 Public Library.https://community.amstat.org/stats101/resources/viewdocument?DocumentKey=e4f8d3f1-41a3-4f01-9f8b-f8fbe1562c15&tab=librarydocuments&CommunityKey=5ad27b39-58d0-49e9-9f6f-0c39c82a0401
Excel, M. S. (2007). Microsoft Excel. Denver Co., USA.
Hohenwarter, M., & Hohenwarter, M. (2002). GeoGebra. Available on-line at http://www.geogebra.org/cms/en.
Hollander, M., Wolfe, D. A. & Chicken, E. (2013). Nonparametric statistical methods. John Wiley & Sons Inc.
Holmes, A., Illowsky, B., & Dean, S. (2017). Introductory Business Statistics 2e. OpenStax. https://openstax.org/books/introductory-business-statistics/pages/preface
Hornik, K. (2012). The comprehensive R archive network. Wiley interdisciplinary reviews: Computational statistics, 4(4), 394-398.
Horton, N. J., Baumer, B. S., & Wickham, H. (2015). Setting the stage for data science: integration of data management skills in introductory and second courses in statistics (nycflights13). https://nhorton.people.amherst.edu/precursors/nycflights13.pdf
Hothorn, T., Hornik, K., & Hothorn, M. T. (2022). Package ‘exactRankTests’. https://CRAN.R-project.org/package=exactRankTests
Horvat, J., & Mijoč, J. (2018). Osnove statistike, treće dopunjeno izdanje. Zagreb: Ljevak.
Illowsky, B., & Dean, S. (2018). Introductory statistics. https://openstax.org/books/introductory-statistics-2e/pages/preface
JASP Team (2024). JASP (Version 0.19.3)[Computer software].
Kassambara, A. (2019). rstatix: Pipe-friendly framework for basic statistical tests. CRAN: Contributed Packages. https://CRAN.R-project.org/package=rstatix
Kassambara, A. (2023) ggpubr: ‘ggplot2’ Based Publication Ready Plots. CRAN https://CRAN.R-project.org/package=ggpubr
Kostelić, K. & Etinger, D. (2024). Uvod u R i RStudio. Sveučilište Jurja Dobrile u Puli. https://bookdown.org/kakoste/Uvod_u_R_i_RStudio/
Moore, D. S., McCabe, G. P., and Craig, B. A. (2012). Introduction to the Practice of Statistics (7th ed.). New York: Freeman
Okoye, K., & Hosseini, S. (2024). Analysis of variance (ANOVA) in R: one-way and two-way ANOVA. In R Programming: Statistical Data Analysis in Research (pp. 187-209). Singapore: Springer Nature Singapore. https://link.springer.com/chapter/10.1007/978-981-97-3385-9_9
Revelle, W., & Revelle, M. W. (2015). Package ‘psych’. The comprehensive R archive network, 337(338), 161-165. https://cran.rstudio.org/web/packages/psych/psych.pdf
Signorell, A. (2025) DescTools: Tools for Descriptive Statistics. CRAN. https://CRAN.R-project.org/package=DescTools
Šošic, I. (2004). Primijenjena statistika. Skolska knjiga, Zagreb.
Wickham, H., Francois, R., Henry, L., & Müller, K. (2014). dplyr. A Grammar of Data Manipulation 2020 [Last accessed on 2020 Aug 12] Available from, Rproject.
Yarberry, W., & Yarberry, W. (2021). Dplyr. CRAN recipes: DPLYR, stringr, lubridate, and regex in R, 1-58.