Jak porównywać dane z dwóch obserwacji

Po pierwsze Sprawdzamy testem Shapiro-Wilka czy dane mają rozkład normalny.

Hipotezy zerowa i alternatywna w tym teście są następujące:

\(H_0{:}\) Próba pochodzi z populacji o rozkładzie normalnym
\(H_1{:}\) Próba nie pochodzi z populacji o rozkładzie normalnym.

Jeżeli p>alpha nie możemy odrzucić H0 czyli dane są normalnie dystrybuowane

with(DTS, shapiro.test(Matura.P[Płeć == "M"]))

## 
##  Shapiro-Wilk normality test
## 
## data:  Matura.P[Płeć == "M"]
## W = 0.9332, p-value = 1.521e-08

with(DTS, shapiro.test(Matura.P[Płeć == "M" & Kategoria.Szkoły=="A"]))

## 
##  Shapiro-Wilk normality test
## 
## data:  Matura.P[Płeć == "M" & Kategoria.Szkoły == "A"]
## W = 0.93922, p-value = 0.01255

Jeżeli dane nie są normalnie dystrybuowane to trzeba stosować test Wilcoxona Hipotezy testu Wilcoxona są następujące:

\(H_0{:}\) nie ma znaczącej różnicy między medianami
\(H_1{:}\) jest różnica między medianami

wilcox.test(Matura.P ~ Płeć, data = DTS)

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  Matura.P by Płeć
## W = 20306, p-value = 0.04899
## alternative hypothesis: true location shift is not equal to 0

wilcox.test(Matura.P ~ Płeć, data = DTS, subset=Kategoria.Szkoły=="A")

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  Matura.P by Płeć
## W = 755.5, p-value = 0.3912
## alternative hypothesis: true location shift is not equal to 0

Jeżeli dane są normalnie dystrybuowane stosujemy test Levene’a (test F) aby sprawdzić jednorodność wariancji Hipotezy testu F są następujące:

\(H_0{:}\) nie ma znaczącej różnicy między wariancjami dwóch zestawów danych
\(H_1{:}\) różnica między wariancjami dwóch zestawów danych jest znacząca

var.test(Matura.P ~ Płeć, data = DTS, subset=Kategoria.Szkoły=="A")

## 
##  F test to compare two variances
## 
## data:  Matura.P by Płeć
## F = 0.81651, num df = 33, denom df = 49, p-value = 0.5437
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.441967 1.569236
## sample estimates:
## ratio of variances 
##          0.8165129

Jeżeli dane mają taką samą wariancją stosujemy test t-Studenta Hipotezy testu F są następujące:

\(H_0{:}\) nie ma znaczącej różnicy między średnimi
\(H_1{:}\) różnica między średnimi jest znacząca

t.test(Matura.P ~ Płeć, data = DTS)

## 
##  Welch Two Sample t-test
## 
## data:  Matura.P by Płeć
## t = 2.1783, df = 319.83, p-value = 0.03011
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##   0.538475 10.584582
## sample estimates:
## mean in group K mean in group M 
##        48.80368        43.24215

t.test(Matura.P ~ Płeć, data = DTS, subset=Kategoria.Szkoły=="A")

## 
##  Welch Two Sample t-test
## 
## data:  Matura.P by Płeć
## t = -1.0708, df = 75.56, p-value = 0.2876
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -7.385744  2.221038
## sample estimates:
## mean in group K mean in group M 
##        21.61765        24.20000

Jeżeli dane mają różną wariancją to również stosujemy test t ale podajemy var.equal = FALSE (tak t.test działa domyślnie!)

t.test(Matura.P ~ Płeć, data = DTS)

## 
##  Welch Two Sample t-test
## 
## data:  Matura.P by Płeć
## t = 2.1783, df = 319.83, p-value = 0.03011
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##   0.538475 10.584582
## sample estimates:
## mean in group K mean in group M 
##        48.80368        43.24215

t.test(Matura.P ~ Płeć, data = DTS, subset=Kategoria.Szkoły=="A")

## 
##  Welch Two Sample t-test
## 
## data:  Matura.P by Płeć
## t = -1.0708, df = 75.56, p-value = 0.2876
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -7.385744  2.221038
## sample estimates:
## mean in group K mean in group M 
##        21.61765        24.20000

Jednokierunkowy test ANOVA możesz stosować dla kilku danych zgrupowanych w oddzielnych grupach jednak musisz zapewnić, że:

obserwacje są uzyskiwane niezależnie i losowo z populacji określonej przez poziomy czynników,
dane z każdego poziomu współczynnika są normalnie dystrybuowane,
te normalne populacje mają wspólną wariancję. ( Można to sprawdzić za pomocą testu Levene’a .)

Porównywanie wyników - drobne dywagacje

M. Fiołka

15 lutego 2020

Jak porównywać dane z dwóch obserwacji