Wnioskowanie statystyczne

Testy na 2 próby

Challenge 1.

Czy to prawda, że kwoty kredytów (amount) różnią się istotnie ze względu na ryzyko kredytowe (credit_risk)?

UWAGA: jeśli założenie o normalności rozkładu nie jest spełnione - musimy zastosować nieparametryczny zamiennik testu t (test rang Wilcoxona; type=“np”). Proszę zajrzeć do notatek z wykładu i przeczytać na czym polegają te testy.

data(GermanCredit)
attach(GermanCredit)

ggqqplot(amount[credit_risk=="good"])

ggqqplot(amount[credit_risk=="bad"])

# testy normalności wg ryzyka:
GermanCredit %>%
  group_by(credit_risk) %>%
  shapiro_test(amount)
## # A tibble: 2 × 4
##   credit_risk variable statistic        p
##   <fct>       <chr>        <dbl>    <dbl>
## 1 good        amount       0.808 5.18e-28
## 2 bad         amount       0.814 2.84e-18
ggbetweenstats(
  data=GermanCredit,
  x=credit_risk,
  y=amount,
  type="np", # dane nie są normalne więc korzystam z testu nieparametrycznego!!!
  k=4 # 4 cyfry po przecinku
)

Wnioski:

Brak rozkładu normalnego. Niskie p-value oznacza więc, że trudno byłoby uzyskać dane jeszcze bardziej potwierdzające nasze “odkrycie”.Zebrane przez nas dane stanowią tak silny dowód prawdziwości “odkrycia”,

Wynik jest istotny statystycznie, zatem to prawda, że kwoty kredytów różnią się istotnie ze względu na ryzyko kredytowe.

Challenge 2.

Do analizy wykorzystamy dane z portalu IMDB.

Zweryfikujmy hipotezę, że dramaty mają lepsze recenzje niż komedie romantyczne.

Mając 2 niezależne próby, musimy sprawdzić, czy rozkłady w obu przypadkach są normalne, a wariancja jednorodna (na tym samym poziomie), aby użyć testu t-Studenta.

  1. Sprawdźmy normalność oceny.
data(movies_long)
attach(movies_long)

ggqqplot(rating[genre=="Drama"])

ggqqplot(rating[genre=="RomCom"])

movies_long %>%
  filter(genre %in% c("Drama", "RomCom"))%>%
  group_by(genre) %>%
  shapiro_test(rating)
## # A tibble: 2 × 4
##   genre  variable statistic          p
##   <fct>  <chr>        <dbl>      <dbl>
## 1 Drama  rating       0.979 0.00000863
## 2 RomCom rating       0.972 0.000556

Wygląda na rozkład normalny (przy kolejnych próbach wyjdzie brak rozkladu normalnego- brak spełnienia założeń).

  1. Sprawdźmy teraz, czy wariancja jest jednorodna:
var(rating[genre=="Drama"])
## [1] 1.151674
var(rating[genre=="RomCom"])
## [1] 1.140094
var.test(rating[genre=="Drama"], rating[genre=="RomCom"], alternative="greater")  
## 
##  F test to compare two variances
## 
## data:  rating[genre == "Drama"] and rating[genre == "RomCom"]
## F = 1.0102, num df = 427, denom df = 194, p-value = 0.4733
## alternative hypothesis: true ratio of variances is greater than 1
## 95 percent confidence interval:
##  0.8219087       Inf
## sample estimates:
## ratio of variances 
##           1.010157

Wariancja jest jednorodna.

  1. Wreszcie wiemy, który test jest najbardziej odpowiedni do weryfikacji naszego twierdzenia. Obliczmy statystykę testu i wartość p:
t.test(rating[genre=="Drama"], rating[genre=="RomCom"])
## 
##  Welch Two Sample t-test
## 
## data:  rating[genre == "Drama"] and rating[genre == "RomCom"]
## t = 7.5389, df = 377.35, p-value = 3.56e-13
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.5149014 0.8782618
## sample estimates:
## mean of x mean of y 
##  6.553505  5.856923

Możemy również wizualizować i obliczać ten test za pomocą pakietu ggstatsplot przy użyciu funkcji “ggbetweenstats”:

movies_long %>%
  filter(genre %in% c("RomCom", "Drama")) %>%
ggbetweenstats(
  x=genre,
  y=rating,
  type="np", 
  k=4   
)

Wniosek: Dramaty mają lepsze oceny od komedii roamantycznych, średnia ocena znacznie się różni.

Challenge 3.

Również na podstawie danych “germancredit”: zweryfikuj, czy jest jakaś podstawa do twierdzenia, że % osób ze złą historią kredytową (credit_history) różni się istotnie dla osób wnioskujących o kredyt z innego powodu (“purpose”).

GermanCredit %>%
  filter(purpose %in% c("others"))%>%
ggpiestats(
  y=purpose,
  x=credit_history
 
)

Wnioski: Osoby ze zlą historią kredytową (opózniąjące sie wpłaty w przeszłości) stanowią prawie 1/4 osób biorących kredyty z innego powodu. Porównując do reszty grup stanowią 2 pod względem wielkości w tej kategorii.