Wprowadzenie

W tym raporcie skupimy się na temacie Bootstrapingu. Z definicji (pol.metody samowsporne) bootstraping został wprowadzony przez Bradleya Efrona jako metoda szacowania rozkładu błędów estymacji, za pomocą wielokrotnego losowania ze zwracaniem z próby.

Metoda bootstrap jest też używana do weryfikacji hipotez statystycznych, o ile da się tę weryfikację sprowadzić do badania błędu estymacji za pomocą statystyki spełniającej warunki bootstrapu.

Kolejnym elementem będzie przedstawienie przykładowej analizy bootstrap

Zadanie 1

Zadanie 1. Estymacja błędu standardowego średniej próbkowej metodą bootstrap.

Załóżmy, że chcemy badać populację o rozkładzie normalnym ze średnią 3 i odchyleniem standardowym 1. i)Wygeneruj przykładową populację liczności 25 o takim rozkładzie (funkcja rnorm()). ii)Wygeneruj 1000 prób o liczności 25 z otrzymanych danych (funkcja replicate()). iii)Oblicz średnią każdej z 1000 wylosowanych prób bootstrapowych oraz przedstaw histogram rozkładu tych średnich. Porównaj ten rozkład z rozkładem cechy (rozkładem normalnym N (3;1)). Oceń, czy przybliżenie rozkładu metodą bootstrap jest adekwatne (czy kształty obu rozkładów są podobne) iv)Porównaj średnią wygenerowanej próby wyjściowej ze średnią wektora średnich z prób bootstrapowych. Oceń ich różnicę. v)Przy użyciu funkcji boot (pakiet boot) wyznacz błąd standardowy dla średniej.

Wyznaczono populacje o liczności 25 i rozkładzie normalnym o podanych wartościach średniej i odchylenia. Następnie dokonano 1000 replikacji bootstrapowych dla próby i obliczono dla każdej próby średnią. Wykonano histogram dla tych średnich oraz dla rozkładu normalnego o podanych wartościach.

Analiza wzrokowa wskazuje, że rozkłady te są podobne. Jednak, nie moża stwierdzić, że przybliżenie rozkładu metodą bootstrap jest adekwatne, gdyż pojawiają się nieobserwowalne w rozkładzie boostrapowym wzniesiania na ogonach w rozkładzie normalnym.

Następnym krokiem jest oszacowanie średniej dla zbioru bootstrapowego oraz zbioru o rozkładzie normalnym

## [1] 2.99395
## [1] 3.09508

Porównując średnią z rozkładu oraz bootstrapową, widać nieznaczne różnice. Warto jednak zaznaczyć, że nie jest ona zbyt istotna.

Następnym elementem jest wyznaczenie błedu standardowego dla średniej bootstrapowej.

## 
## ORDINARY NONPARAMETRIC BOOTSTRAP
## 
## 
## Call:
## boot(data = normal, statistic = function(d, w) sum(w * d), R = 1000, 
##     stype = "w")
## 
## 
## Bootstrap Statistics :
##     original       bias    std. error
## t1*  3.09508 0.0003354374   0.1901956

Błąd standardowy jest równy wartość stojącą przy “std.error”

Zadanie 2

Zadanie 2. Estymacja przedziałowa średniej metodą bootstrap.

i)Wygeneruj próbkę losową 50 obserwacji wybranej zmiennej z pliku dane.sav (funkcja sample()). Jako populację potraktuj cały zbiór N-obserwacji w pliku. ii)Oszacuj przedziałowo (klasycznie – stosując aproksymację rozkładem normalnym) oraz nieklasycznie (stosując funkcję boot.ci()) średnią wybranej zmiennej w próbce. Oblicz oraz porównaj oba błędy standardowe (względny %) estymacji przedziałowej klasycznej i nieklasycznej. Podaj wnioski.

Wybieramy losowo 50 obserwacji ze zbioru danych. Do analizy wzięto dane ze zbioru zmiennej Calkowite_wydatki_GD_GUS. Następnie będziemy szacować przedziały ufności.

Srednia oraz odchylenie standardowe zbioru przedstawia się:

## [1] 2199.601
## [1] 2188.643

Obliczono wpierw klasyczne przedział jednego odchylenia standardowego od średniej dla próbki metodą klasyczną.

## [1] 1592.94
## [1] 2806.262

Następnie stworzono przedział ufności 95% oraz 5% metodą klasyczną dla rozkładu normalnego o średniej równej 1

## [1] 1577.595 2821.606
## attr(,"conf.level")
## [1] 0.95

Powyższej analizy dokonano także metodą boostrapową:

Średnia oraz odchylenie standardowe kształtowało się następująco:

## [1] 2169.06
## [1] 314.0483

Obiczono przedziały dla jednego odchylenia standardowego.

##         dolny    gorny
## [1,] 1562.399 2775.721

Następnie stworzono przedział ufności 95% oraz 5%.

##      95% 
## 2671.134
##      5% 
## 1667.64

Alternatywnie, powyższych analiz można dokonać poprzez funkcję boot.ci

## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 50 bootstrap replicates
## 
## CALL : 
## boot.ci(boot.out = boot(dochod, function(d, w) sum(w * d), R = 50, 
##     stype = "w"), conf = c(0.05, 0.95), type = c("norm", "perc"))
## 
## Intervals : 
## Level      Normal             Percentile     
## 5%   (2229, 2262 )   (2126, 2148 )   
## 95%   (1737, 2754 )   (1647, 2788 )  
## Calculations and Intervals on Original Scale
## Some percentile intervals may be unstable

Na koniec dokonano analizy błędów standardowych dla estymowanych zmiennych

Dla rozkładu normalnego wynosi on:

## [1] 0.1407169

Natomiast dla bootstrapa:

## [1] 0.02000665

Wnioski

Widoczna jest więc znaczna różnica w estymacji, gdyż błędy standardowe są inne. Jednak w przypadku bootstrapa, błąd ten jest zawsze niższy.

