Przykład 1.

Wybrany zbiór do analizy to mtcars. Pierwszym celem raportu jest zbadanie czy samochody z automatyczną i manualną skrzynią biegów mają istotnie różne spalanie dla zbioru danych mtcars.

data(mtcars)
wyniki<-boot.t.test(mpg~am,R=999,data=mtcars)
wyniki
## 
##  Bootstrap Welch Two Sample t-test
## 
## data:  mpg by am
## bootstrap p-value = 0.004004 
## bootstrap difference of means (SE) = -7.228536 (1.835855) 
## 95 percent bootstrap percentile confidence interval:
##  -10.531559  -3.836923
## 
## Results without bootstrap:
## t = -3.7671, df = 18.332, p-value = 0.001374
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -11.280194  -3.209684
## sample estimates:
## mean in group 0 mean in group 1 
##        17.14737        24.39231

Wartość bootstrap p-value wynosi 0.004004, co oznacza, że można odrzucić hipotezę zerową, która świadczy o tym, że dwie grupy są różne.

Różnica średnich między dwiema grupami została obliczona na poziomie -7.228536, co oznacza, że średnie spalanie paliwa grupy z automatycznymi skrzyniami biegów jest niższe w porównaniu do grupy z manualnymi skrzyniami biegów. Błąd standardowy wynikający z różnicy średnich dla bootstrap jest równy 1.835855. 95-procentowy przedział ufności percentyli dla różnicy średnich: -10.531559 do -3.836923, co oznacza, że można mieć pewność, że w 95 procentach, prawdziwa różnica między średnimi mieści się w tym przedziale.

# wizualizacja:
ggbetweenstats(
  data=mtcars,
  x=am,
  y=mpg,
  nboot=999
)

Dodatkowo, analiza wizualna danych potwierdza różnice między tymi dwoma grupami. Na wykresie można zaobserwować, że dla samochodów z automatyczną skrzynią biegów średnie spalanie wynosi około 17.15, podczas gdy dla samochodów z manualną skrzynią biegów wartość ta wynosi około 24.39. Ta różnica jest dobrze widoczna na graficznym porównaniu średnich spalania między grupami, sugerując, że samochody z automatyczną skrzynią biegów mają tendencję do niższego spalania niż samochody z manualną skrzynią biegów. Dodatkowo, można zauważyć, że dla samochodów z manualną skrzynią biegów różnice w spalaniu są bardziej zróżnicowane w porównaniu do samochodów z automatyczną skrzynią biegów, co wpływa na wyższe odchylenie standardowe w pierwszej grupie.

Przykład 2. Test Chi2

Drugim celem raportu jest zbadanie czy status studenta różni się istotnie wg płci dla zbioru danych credit.

data("Credit")
attach(Credit)
tabelka<-table(Student,Gender)
chisq.test(tabelka,simulate.p.value = TRUE, B = 2000)
## 
##  Pearson's Chi-squared test with simulated p-value (based on 2000
##  replicates)
## 
## data:  tabelka
## X-squared = 1.2115, df = NA, p-value = 0.3168

Wyniki testu chi-kwadrat Pearsona wskazują, że statystyka testowa wynosi 1.2115, a wartość p-value wynosi 0.3223.

Na podstawie tych wyników można zinterpretować, że nie ma istotnej statystycznie różnicy między statusem studenta, a płcią w zbiorze danych “Credit”. Prawdopodobieństwo p-value (0.3223) jest większe od poziomu istotności (np. 0.05), co sugeruje, że nie ma wystarczających dowodów na odrzucenie hipotezy zerowej, czyli braku związku między statusem studenta a płcią w tym konkretnym zbiorze danych.

ggbarstats(
  data=Credit,
  x=Gender,
  y=Student
)

W powyższym wykresie kolumnowym przedstawiono dwie grupy badanych: studentów i nie studentów. Analizując dane, można zauważyć, że w przypadku studentów większą grupę stanowią kobiety, które reprezentują 60% tej grupy. Natomiast w przypadku nie studentów, proporcje pomiędzy mężczyznami (49%) a kobietami (51%) są już bardziej zrównoważone. Wyniki te sugerują, że w przypadku badanej populacji studentów istnieje większa liczba kobiet.

Interesującym aspektem jest fakt, że nie występują znaczące różnice pomiędzy grupami studentów a nie studentów, co zostało wcześniej potwierdzone testem chi-kwadrat Pearsona. Oznacza to, że nie ma istotnej statystycznie różnicy między proporcjami płci w tych dwóch grupach.

W celu lepszego zobrazowania tych zależności, poniżej przedstawiono wykresy kołowe. Wykresy te prezentują te same dane, jednak w inny sposób.

ggpiestats(
  data=Credit,
  x=Gender,
  y=Student
)

Podsumowanie

Przeprowadzono analizę dwóch przykładów w celu zbadania różnych zależności.

W przypadku pierwszego przykładu, analizowano różnicę w spalaniu paliwa między samochodami z automatyczną i manualną skrzynią biegów na podstawie zbioru danych mtcars. Wyniki testu bootstrap wykazały istotną statystyczną różnicę w średnim spalaniu pomiędzy tymi dwiema grupami. Samochody z automatyczną skrzynią biegów miały niższe średnie spalanie w porównaniu do samochodów z manualną skrzynią biegów. Analiza wizualna danych również potwierdziła tę różnicę.

W drugim przykładzie, badano zależność między statusem studenta a płcią w zbiorze danych credit. Test chi-kwadrat Pearsona wykazał brak istotnej statystycznej różnicy między tymi zmiennymi, co sugeruje, że nie ma związku między statusem studenta a płcią w tym konkretnym zbiorze danych. Analiza graficzna pokazała, że wśród studentów większy odsetek stanowią kobiety, jednak różnice te nie są istotne statystycznie.