Postępowanie bootstrapowe a permutacyjne- podobieństwa i różnice

Postępowanie bootstrapowe i permutacyjne są dwiema różnymi metodami resamplingu stosowanymi w statystyce. Oba podejścia są używane do estymacji rozkładu próbkowego lub do obliczenia przedziałów ufności dla statystyk.

Podobieństwa:

1.Resampling: Zarówno bootstrap, jak i permutacje polegają na resamplingu, co oznacza, że próbki są pobierane z oryginalnego zbioru danych. W obu przypadkach losowe próbki są wybierane ze zbioru danych, a analiza statystyczna jest przeprowadzana na podstawie tych próbek.

Różnice: 1. Cel: Bootstrap jest stosowany głównie do estymacji rozkładu próbkowego lub do konstrukcji przedziałów ufności. Pozwala na estymację parametrów, takich jak średnia, mediana czy współczynnik korelacji. Natomiast permutacje są stosowane do testów hipotez, szczególnie do testów nieparametrycznych, w celu sprawdzenia, czy dwie grupy różnią się istotnie od siebie. 2. Przetwarzanie próbek: W przypadku bootstrapu próbki są pobierane z powtórzeniami, co oznacza, że elementy mogą być wybierane wielokrotnie z oryginalnego zbioru danych. Natomiast w permutacjach próbki są tworzone poprzez losową permutację etykiet (grupowanie) dla poszczególnych obserwacji, przy czym nie ma powtórzeń. 3. Procedura: W bootstrapie tworzone są repliki oryginalnego zbioru danych, a analiza statystyczna jest przeprowadzana na tych replikach. Przy użyciu tych replik można estymować rozkład próbkowy i obliczać przedziały ufności. W permutacjach analiza jest przeprowadzana przez porównanie różnic między grupami dla wielu permutacji etykiet, a następnie obliczenie statystyki testowej.

Ogólnie rzecz biorąc, bootstrap i permutacje są różnymi technikami resamplingu, które mają zastosowanie w różnych kontekstach statystycznych. Bootstrap jest używany do estymacji rozkładu próbkowego i obliczania przedziałów ufności, podczas gdy permutacje są stosowane do testowania hipotez i sprawdzania, czy różnice między grupami są istotne statystycznie.

Postępowanie klasyczne i nieklasyczne

Postępowanie klasyczne i nieklasyczne to dwa różne podejścia do statystyki, które różnią się w swoich założeniach i metodach analizy danych.

Postępowanie klasyczne (klasyczna statystyka):

  1. Założenia: Podejście klasyczne opiera się na pewnych założeniach, takich jak normalność rozkładu danych, niezależność obserwacji, stałe wariancje itp. Te założenia są często stosowane do prowadzenia testów hipotez, budowania modeli regresji, estymacji przedziałów ufności itp.
  2. Testy hipotez: W podejściu klasycznym stosuje się testy hipotez, takie jak test t-Studenta, test chi-kwadrat, test F itp., które opierają się na ustalonych założeniach i mają znane rozkłady, umożliwiające obliczenie p-wartości i podejmowanie decyzji statystycznych.
  3. Istotność statystyczna: W podejściu klasycznym analizuje się istotność statystyczną, czyli sprawdza się, czy różnice między grupami lub efekty w modelach są istotne z punktu widzenia ustalonego poziomu istotności (na przykład 0,05 lub 0,01).

Postępowanie nieklasyczne (nieklasyczna statystyka):

  1. Założenia: Podejście nieklasyczne jest bardziej elastyczne w zakresie założeń dotyczących danych. Niektóre metody nieklasyczne nie wymagają założeń dotyczących rozkładu danych ani niezależności obserwacji. Mogą być stosowane w przypadku danych nieliniowych, małych próbek lub niestandardowych problemów statystycznych. Metody nieparametryczne: W podejściu nieklasycznym stosuje się częściej metody nieparametryczne, które nie wymagają konkretnych założeń dotyczących rozkładu danych. Przykłady to testy rangowe Wilcoxona, test Kruskala-Wallisa, regresja loess itp.
  2. Bootstrap i permutacje: Metody resamplingu, takie jak bootstrap i permutacje, są również często wykorzystywane w podejściu nieklasycznym, ponieważ nie wymagają ściśle określonych założeń dotyczących rozkładu danych. Pozwalają one na estymację rozkładu próbkowego, obliczanie przedziałów ufności i przeprowadzanie testów hipotez bez konieczności spełniania klasycznych założeń.

W skrócie, postępowanie klasyczne w statystyce polega na stosowaniu konkretnych założeń dotyczących danych i korzystaniu z testów hipotez opartych na tych założeniach. Natomiast postępowanie nieklasyczne jest bardziej elastyczne w zakresie założeń, korzysta z metod nieparametrycznych i resamplingu, umożliwiających analizę danych nieliniowych, niestandardowych i niespełniających klasycznych założeń.

Podobieństwa i różnice w testach

Podobieństwa dotyczące mocy testów w postępowaniu klasycznym i nieklasycznym:

Definicja: Moc testu odnosi się do zdolności testu statystycznego do wykrywania prawdziwych różnic lub efektów w populacji. Wyższa moc oznacza większą szansę na wykrycie istotnych statystycznie różnic, gdy istnieją.

Cel: Zarówno w podejściu klasycznym, jak i nieklasycznym, celem jest maksymalizacja mocy testów, aby zmaksymalizować zdolność do wykrywania prawdziwych różnic lub efektów.

Różnice dotyczące mocy testów w postępowaniu klasycznym i nieklasycznym:

Założenia: W podejściu klasycznym moc testów jest zależna od spełnienia określonych założeń dotyczących danych, takich jak normalność rozkładu, niezależność obserwacji, stałe wariancje itp. Jeśli założenia nie są spełnione, moc testów może być obniżona. W podejściu nieklasycznym, które jest bardziej elastyczne pod względem założeń, moc testów może być osiągana nawet w przypadku, gdy niektóre założenia nie są spełnione.

Metody analizy: W podejściu klasycznym moc testów jest często analizowana za pomocą testów parametrycznych, takich jak test t-Studenta, test ANOVA itp. W tych testach moc jest obliczana w oparciu o założenia dotyczące rozkładu danych i innych parametrów. W podejściu nieklasycznym, które częściej wykorzystuje metody nieparametryczne i resamplingu, obliczenie mocy testów może wymagać innych technik, takich jak permutacje lub bootstrap.

Skuteczność: Podejście nieklasyczne, które jest bardziej elastyczne w zakresie założeń, może czasami osiągać wyższą moc testów niż podejście klasyczne, szczególnie w przypadku danych niestandardowych lub gdy klasyczne założenia nie są spełnione. Metody nieparametryczne i resamplingowe mogą być bardziej odporne na niezgodności z założeniami i mogą wykazywać wyższą moc w takich przypadkach.

Podsumowując, zarówno postępowanie klasyczne, jak i nieklasyczne mają na celu maksymalizację mocy testów, ale różnią się w swoich założeniach i metodach analizy danych. Postępowanie nieklasyczne może być bardziej elastyczne i może osiągać wyższą moc testów w przypadkach, gdy klasyczne założenia nie są spełnione lub gdy dane są niestandardowe.

Przykład1

library(MKinfer)
library(ggstatsplot)
## You can cite this package as:
##      Patil, I. (2021). Visualizations with statistical details: The 'ggstatsplot' approach.
##      Journal of Open Source Software, 6(61), 3167, doi:10.21105/joss.03167
# Czy gatunki setosa i versicolor różnią się w wielkości kielicha?
data("iris")

# Utwórz czynnik z dwoma poziomami
iris$Species_factor <- factor(iris$Species, levels = c("setosa", "versicolor"))

# Model regresji
model <- lm(Sepal.Length ~ Species_factor, data = iris)

# Test bootstrap
wyniki <- boot.t.test(Sepal.Length ~ Species_factor, R = 99, data = iris)
print(wyniki)
## 
##  Bootstrap Welch Two Sample t-test
## 
## data:  Sepal.Length by Species_factor
## bootstrap p-value < 2.2e-16 
## bootstrap difference of means (SE) = -0.9370909 (0.08723297) 
## 95 percent bootstrap percentile confidence interval:
##  -1.1268 -0.7789
## 
## Results without bootstrap:
## t = -10.521, df = 86.538, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.1057074 -0.7542926
## sample estimates:
##     mean in group setosa mean in group versicolor 
##                    5.006                    5.936
# Wizualizacja
ggbetweenstats(
  data = iris,
  x = Species_factor,
  y = Sepal.Length,
  nboot = 99
)

Na podstawie przedstawionych wyników można dokonać następującej interpretacji:

Test bootstrap Welch dla dwóch prób wskazuje na istotną różnicę w średniej długości działki kielicha między gatunkami “setosa” i “versicolor” irysów (p-wartość bootstrap < 2.2e-16). Różnica średnich, obliczona na podstawie testu bootstrap, wynosi -0.9452323 przy błędzie standardowym równym 0.08701321. 95% przedział ufności bootstrap, dla różnicy średnich, wynosi od -1.0971 do -0.8114.

Wyniki bez użycia bootstrap również potwierdzają istotną różnicę w średnich (t = -10.521, stopnie swobody = 86.538, p-wartość < 2.2e-16). 95% przedział ufności dla różnicy średnich wynosi od -1.1057074 do -0.7542926. Średnia długość działki kielicha dla gatunku “setosa” wynosi około 5.006, natomiast dla gatunku “versicolor” wynosi około 5.936.

Podsumowując, zarówno test bootstrap, jak i tradycyjny test t wskazują na istotną różnicę w długości działki kielicha między gatunkami “setosa” i “versicolor” irysów. Gatunek “versicolor” ma tendencję do posiadania dłuższej długości działki kielicha w porównaniu do gatunku “setosa”.

Przykład2

library(ISLR)
library(ggstatsplot)

data("Auto")
attach(Auto)
# Czy liczba cylindrów różni się istotnie w zależności od pochodzenia samochodu?

# Tworzenie tabelki kontyngencji
tabelka <- table(cylinders, origin)

# Test Chi-kwadrat
chi2_result <- chisq.test(tabelka, simulate.p.value = TRUE, B = 2000)
print(chi2_result)
## 
##  Pearson's Chi-squared test with simulated p-value (based on 2000
##  replicates)
## 
## data:  tabelka
## X-squared = 180.72, df = NA, p-value = 0.0004998
# Wizualizacja - wykres słupkowy
ggbarstats(
  data = Auto,
  x = cylinders,
  y = origin
)

# Wizualizacja - wykres kołowy
ggpiestats(
  data = Auto,
  x = cylinders,
  y = origin
)

Wyniki testu Chi-kwadrat dla zestawu danych wskazują na istotną statystyczną różnicę między zmiennymi “cylinders” (liczba cylindrów) a “origin” (pochodzenie samochodu).

Statystyka testowa: Wynik testu Chi-kwadrat wynosi 180.72. Oznacza to, że występuje duża różnica między obserwowanymi wartościami a wartościami oczekiwanymi w kontekście rozkładu liczby cylindrów w zależności od pochodzenia samochodu.

Stopnie swobody: W wynikach widzimy, że df (stopnie swobody) wynosi NA. Jest to spowodowane faktem, że dla testu Chi-kwadrat zastosowano symulowaną p-wartość, a nie tradycyjne tabele rozkładu Chi-kwadrat. W takim przypadku nie ma ustalonej liczby stopni swobody.

P-wartość: P-wartość wynosi 0.0004998, co jest znacznie mniejsze niż ustalony poziom istotności (np. 0.05). Oznacza to, że istnieje statystycznie istotna różnica między zmiennymi “cylinders” a “origin” w kontekście liczby cylindrów samochodu.

Na podstawie tych wyników możemy stwierdzić, że istnieje istotna statystycznie różnica w rozkładzie liczby cylindrów w zależności od pochodzenia samochodu. Wartości poniżej ustalonego poziomu istotności wskazują na to, że pochodzenie samochodu ma wpływ na to, ile cylindrów jest w nim zainstalowanych.