Raport 7.- NMS
Metody bootstrapowe i permutacyjne
Metoda bootstrapowa - na podstawie wylosowanych i zreplikowanych próbek tworzony jest rozkład statystyki testowej i oszacowane jest p-value.
Metoda permutacyjna - na podstawie replikowanych próbek w procedurze permutacyjnej konstruuje się nowy rozkład. Następnie oblicza się średnie wartości i estymuje różnice między tymi średnimi, a na podstawie tych różnic jest obliczane p-wartość, która mówi o istotności statystycznej.
Różnice między nimi są takie, że w przypadku testów permutacyjnych stosowane jest losowanie bez zwracania (losowanie bezzwrotne), co oznacza, że każda próbka jest wybierana tylko raz. Natomiast w przypadku testów bootstrapowych stosowane jest losowanie z zwracaniem (losowanie zwrotne), co oznacza, że każda próbka może być wybierana wielokrotnie.
Testowanie klasyczne i nieklasyczne
W testeach klasycznych pobiera się próbkę tylko 1 raz, natomiast w testach nieklasycznych pobiera się próbki wiele razy. Umożliwia to łatwiejsze wychwycenie zróżnicowania badanej cechy i w związku z tym test bootstrapowy jes mocniejszy.
Test t-Studenta
Dane zwierają: informacje o płacach i inne dane dla grupy 3000 pracowników płci męskiej w regionie środkowoatlantyckim.
data("Wage")
attach(Wage)Hipoteza zadania: Czy na wynagrodzenie osób wpływa rodzaj wykonywanej przez nich pracy (przemysłowa/informacyjna)?
wyniki<-boot.t.test(wage~jobclass,R=999,data=Wage)
wyniki##
## Bootstrap Welch Two Sample t-test
##
## data: wage by jobclass
## bootstrap p-value < 2.2e-16
## bootstrap difference of means (SE) = -17.28243 (1.501069)
## 95 percent bootstrap percentile confidence interval:
## -20.25210 -14.30424
##
## Results without bootstrap:
## t = -11.489, df = 2714.9, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -20.21940 -14.32378
## sample estimates:
## mean in group 1. Industrial mean in group 2. Information
## 103.3211 120.5927
Różnica średnich (-17.25822) wskazuje na przeciętną różnicę między dwoma grupami lub zmiennymi, które zostały porównane. Ujemna wartość oznacza, że średnia wartość w pierwszej grupie jest mniejsza niż w drugiej grupie.
Błąd standardowy (1.503149) jest miarą niepewności związanej z estymacją różnicy średnich. Im mniejsza wartość błędu standardowego, tym większa pewność mamy co do dokładności estymacji różnicy średnich.
Przedział ufności (95-procentowy przedział bootstrap percentile) -20.34592 do -14.26171 wskazuje na zakres wartości, w którym prawdopodobnie znajduje się prawdziwa wartość różnicy średnich. Różnica średnich nie zawiera zera, można więc przypuszczać, że jest statystycznie istotna.
Wizualizacja
library(ggstatsplot)## You can cite this package as:
## Patil, I. (2021). Visualizations with statistical details: The 'ggstatsplot' approach.
## Journal of Open Source Software, 6(61), 3167, doi:10.21105/joss.03167
ggbetweenstats(
data=Wage,
x=jobclass,
y=wage,
nboot=999
)
Wykresy dla lepszego zrozumienia powyższej analizy.
Test Chi^2
Ponownie wybieramy pakiet danych z wynagrodzeniami. W tym przypadku badamy zależność statusu posiadania ubezpieczenia od stopnia wykształcenia.
Hipoteza zadania: Czy występuje zależność rodzaju wykonywanej pracy od stanu cywilnego badanych?
attach(Wage)## Następujące obiekty zostały zakryte z Wage (pos = 4):
##
## age, education, health, health_ins, jobclass, logwage, maritl,
## race, region, wage, year
tabela<-table(jobclass,maritl)
chisq.test(tabela,simulate.p.value = TRUE, B = 2000)##
## Pearson's Chi-squared test with simulated p-value (based on 2000
## replicates)
##
## data: tabela
## X-squared = 5.8011, df = NA, p-value = 0.2129
Statystyka testowa (X-squared): 5.8011 Wartość p (p-value): 0.2304 Wynik testu wskazuje, że nie ma wystarczających dowodów, aby odrzucić hipotezę zerową o braku zależności między badanymi zmiennymi.W przypadku wyniku p-value = 0.2304 wskazuje na to, że nie ma statystycznie istotnej zależności między badanymi zmiennymi.
Wizualizacja
Następnie można zwizualizować wyniki na wykresie słupkowym i kołowym.
ggbarstats(
data=Wage,
x=maritl,
y=jobclass
)## Warning: There was 1 warning in `mutate()`.
## i In argument: `across(.fns = ~droplevels(as.factor(.x)))`.
## Caused by warning:
## ! Using `across()` without supplying `.cols` was deprecated in dplyr 1.1.0.
## i Please supply `.cols` instead.
ggpiestats(
data=Wage,
x=maritl,
y=jobclass
)Z wykresów można odczytać, że zarówno wśród osób, które mają pracę przemysłową jak i informacyjną najwięcej osób jest po ślubie (kolejno 68% i 71%). Drugą najliczniejszą grupą są osoby, które nigdy nie miały ślubu, trzecią grupą rozwiedzeni, a czwartą będący w separacji.