Raport 7.- NMS

Metody bootstrapowe i permutacyjne

Metoda bootstrapowa - na podstawie wylosowanych i zreplikowanych próbek tworzony jest rozkład statystyki testowej i oszacowane jest p-value.

Metoda permutacyjna - na podstawie replikowanych próbek w procedurze permutacyjnej konstruuje się nowy rozkład. Następnie oblicza się średnie wartości i estymuje różnice między tymi średnimi, a na podstawie tych różnic jest obliczane p-wartość, która mówi o istotności statystycznej.

Różnice między nimi są takie, że w przypadku testów permutacyjnych stosowane jest losowanie bez zwracania (losowanie bezzwrotne), co oznacza, że każda próbka jest wybierana tylko raz. Natomiast w przypadku testów bootstrapowych stosowane jest losowanie z zwracaniem (losowanie zwrotne), co oznacza, że każda próbka może być wybierana wielokrotnie.

Testowanie klasyczne i nieklasyczne

W testeach klasycznych pobiera się próbkę tylko 1 raz, natomiast w testach nieklasycznych pobiera się próbki wiele razy. Umożliwia to łatwiejsze wychwycenie zróżnicowania badanej cechy i w związku z tym test bootstrapowy jes mocniejszy.

Test t-Studenta

Dane zwierają: informacje o płacach i inne dane dla grupy 3000 pracowników płci męskiej w regionie środkowoatlantyckim.

data("Wage")
attach(Wage)

Hipoteza zadania: Czy na wynagrodzenie osób wpływa rodzaj wykonywanej przez nich pracy (przemysłowa/informacyjna)?

wyniki<-boot.t.test(wage~jobclass,R=999,data=Wage)
wyniki

## 
##  Bootstrap Welch Two Sample t-test
## 
## data:  wage by jobclass
## bootstrap p-value < 2.2e-16 
## bootstrap difference of means (SE) = -17.28243 (1.501069) 
## 95 percent bootstrap percentile confidence interval:
##  -20.25210 -14.30424
## 
## Results without bootstrap:
## t = -11.489, df = 2714.9, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -20.21940 -14.32378
## sample estimates:
##  mean in group 1. Industrial mean in group 2. Information 
##                     103.3211                     120.5927

Różnica średnich (-17.25822) wskazuje na przeciętną różnicę między dwoma grupami lub zmiennymi, które zostały porównane. Ujemna wartość oznacza, że średnia wartość w pierwszej grupie jest mniejsza niż w drugiej grupie.

Błąd standardowy (1.503149) jest miarą niepewności związanej z estymacją różnicy średnich. Im mniejsza wartość błędu standardowego, tym większa pewność mamy co do dokładności estymacji różnicy średnich.

Przedział ufności (95-procentowy przedział bootstrap percentile) -20.34592 do -14.26171 wskazuje na zakres wartości, w którym prawdopodobnie znajduje się prawdziwa wartość różnicy średnich. Różnica średnich nie zawiera zera, można więc przypuszczać, że jest statystycznie istotna.

Wizualizacja

library(ggstatsplot)

## You can cite this package as:
##      Patil, I. (2021). Visualizations with statistical details: The 'ggstatsplot' approach.
##      Journal of Open Source Software, 6(61), 3167, doi:10.21105/joss.03167

ggbetweenstats(
  data=Wage,
  x=jobclass,
  y=wage,
  nboot=999
)

Wykresy dla lepszego zrozumienia powyższej analizy.

Test Chi^2

Ponownie wybieramy pakiet danych z wynagrodzeniami. W tym przypadku badamy zależność statusu posiadania ubezpieczenia od stopnia wykształcenia.

Hipoteza zadania: Czy występuje zależność rodzaju wykonywanej pracy od stanu cywilnego badanych?

attach(Wage)

## Następujące obiekty zostały zakryte z Wage (pos = 4):
## 
##     age, education, health, health_ins, jobclass, logwage, maritl,
##     race, region, wage, year

tabela<-table(jobclass,maritl)

chisq.test(tabela,simulate.p.value = TRUE, B = 2000)

## 
##  Pearson's Chi-squared test with simulated p-value (based on 2000
##  replicates)
## 
## data:  tabela
## X-squared = 5.8011, df = NA, p-value = 0.2129

Statystyka testowa (X-squared): 5.8011 Wartość p (p-value): 0.2304 Wynik testu wskazuje, że nie ma wystarczających dowodów, aby odrzucić hipotezę zerową o braku zależności między badanymi zmiennymi.W przypadku wyniku p-value = 0.2304 wskazuje na to, że nie ma statystycznie istotnej zależności między badanymi zmiennymi.

Wizualizacja

Następnie można zwizualizować wyniki na wykresie słupkowym i kołowym.

ggbarstats(
  data=Wage,
  x=maritl,
  y=jobclass
)

## Warning: There was 1 warning in `mutate()`.
## i In argument: `across(.fns = ~droplevels(as.factor(.x)))`.
## Caused by warning:
## ! Using `across()` without supplying `.cols` was deprecated in dplyr 1.1.0.
## i Please supply `.cols` instead.

ggpiestats(
  data=Wage,
  x=maritl,
  y=jobclass
)

Z wykresów można odczytać, że zarówno wśród osób, które mają pracę przemysłową jak i informacyjną najwięcej osób jest po ślubie (kolejno 68% i 71%). Drugą najliczniejszą grupą są osoby, które nigdy nie miały ślubu, trzecią grupą rozwiedzeni, a czwartą będący w separacji.