Dla zmiennej \(X\) o rozkładzie normalnym ze znaną dystrybuantą \(F\), jej realizacja leży w danym przedziale \((a,b)\) z prawdopodobieńtwem \(F(b)-F(a)\).
Zatem, jezeli rozkład średniej z próby prostej jest w przybliżeniu normlany (CTG) to znając wariancję jej rozkładu (chodzi o wariancję średniej!) możemy zbudować przedział ufności dla wartości oczekiwanej.
Weżmy zatem dane spalania z danych mtcars
i zbudujmy przedziały ufności dla wartości oczekiwanej. Zakładamy, że odchylenie standardowe jest znane i jest równe odchyleniu z próby.
data("mtcars")
#średnia z próby
mu<-mean(mtcars$mpg)
#odchylenie standardowe
sigma<-sd(mtcars$mpg)
Zatem 90% przedział ufności to:
round(mu+c(-1,1)*sigma/sqrt(32)*qnorm(.95),2)
## [1] 18.34 21.84
95% przedział ufności to:
round(mu+c(-1,1)*sigma/sqrt(32)*qnorm(.975),2)
## [1] 18.00 22.18
99% przedział ufności to:
round(mu+c(-1,1)*sigma/sqrt(32)*qnorm(.995),2)
## [1] 17.35 22.83
Ważne: interpretacja otrzymanych wyników jest następująca: jeżeli dane 32 samochodów w zbiorze mtcars
są reprezentatywne dla pewnej populacji to średnie spalanie w tej populacji na 90% jest w przedziale (18.34,21.84), przy założeniu, że.
Dla niedostatecznej ilości obserwacji przybliżenie rozkładem normalnym jest nieodpowiednie. Ciężko podać konkretną liczbę obserwacji, dla której przyblizenie jest odpowiednie. Jak widzieliśmy w przykładach na działanie CTG, ta liczba jest różna dla różnych rozkładów. Jeżeli mamy dostęp do odpowiedniego oprogramowania, zawsze bezppieczniej jest użyć rozkładu t w budowaniu przedziałóW ufności.
Praktycznie zastępujemy odpowiedni kwantyl rozkładu normlanego kwantylem rozkładu t-Gosseta z n-1 stopniami swobody, gdzie n to liczba obserwacji w próbie. Powtórzmy konstrukcję przedziałóW ufności dla spalania, tym razem z przedziałem t.
Zatem 90% przedział ufności to:
round(mu+c(-1,1)*sigma/sqrt(32)*qt(.95, 31),2)
## [1] 18.28 21.90
95% przedział ufności to:
round(mu+c(-1,1)*sigma/sqrt(32)*qt(.975, 31),2)
## [1] 17.92 22.26
99% przedział ufności to:
round(mu+c(-1,1)*sigma/sqrt(32)*qt(.995, 31),2)
## [1] 17.17 23.01
Widzimy, że wyniki sa bardzo zbliżone, różnice są mniejsze niż 0.1 dla większości krańców przedziałów. Dzieje się tak dlatego, że liczba obserwacji 32 jest dość duża i rozkład t z 31 stopniami swobody nienznacznie różni się od rozkładu normlanego.
Zobaczmy teraz co by się stało gdybyśmy mieli tylko 5 obserwacji.
#losujemy 5 obserwacji z danych
set.seed(21)
mpg.5<-sample(mtcars$mpg, 5)
#średnia z próby
mu<-mean(mpg.5)
#odchylenie standardowe
sigma<-sd(mpg.5)
Zatem 90% normalny przedział ufności to:
round(mu+c(-1,1)*sigma/sqrt(5)*qnorm(.95),2)
## [1] 20.74 26.18
95% normalny przedział ufności to:
round(mu+c(-1,1)*sigma/sqrt(5)*qnorm(.975),2)
## [1] 20.22 26.70
99% normalny przedział ufności to:
round(mu+c(-1,1)*sigma/sqrt(5)*qnorm(.995),2)
## [1] 19.20 27.72
Zatem 90% przedział ufności t to:
round(mu+c(-1,1)*sigma/sqrt(5)*qt(.95, 4),2)
## [1] 19.94 26.98
95% przedział ufności t to:
round(mu+c(-1,1)*sigma/sqrt(5)*qt(.975, 4),2)
## [1] 18.87 28.05
99% przedział ufności t to:
round(mu+c(-1,1)*sigma/sqrt(5)*qt(.995, 4),2)
## [1] 15.85 31.07
Widzimy, że przedziały z rozkładem t są znacznie szersze.
Ważne: w konstrukcji przedziałów ufności t nie korzystamy z CTG, te przedziały są poprawne tylko jeżeli rozkład zmiennych jest normalny (z nieznaną średnią i odchyleniem standardowym). W praktyce korzysta się jednak z tych przedziałów nawet jeżeli rozkłady nie są normalne, a inne techniki są niedostępne.
Przy założeniu normlaności rozkładu (tutaj też często w praktyce pomija się to założenie) wariancja ma zmodyfikowany rozkład \(\chi^2\). W łatwy sposób konstruujemy przedziały ufności dla wariancji:
data("mtcars")
#średnia z próby
mu<-mean(mtcars$mpg)
#odchylenie standardowe
sigma<-sd(mtcars$mpg)
Zatem 90% przedział ufności dla odchylenia standardowego to:
round(sqrt(sigma*32/qchisq(c(1-.05,.05), 31)),2)
## [1] 2.07 3.16
95% przedział ufności dla odchylenia standardowego to:
round(sqrt(sigma*32/qchisq(c(1-.025,.025), 31)),2)
## [1] 2.00 3.32
99% przedział ufności dla odchylenia standardowego to:
round(sqrt(sigma*32/qchisq(c(1-.005,.005), 31)),2)
## [1] 1.87 3.65
Jako, że wariancja jest ograniczona z dołu (jest nieujemna) to nieraz może nas interesować największa wartość wariancji (odchylenia standardowego) z jakimś prawdopodobieństwem. Analizując dalej ten sam przykład, odchylenie standardowe na 90% nie przekracza:
round(sqrt(sigma*32/qchisq(.1, 31)),2)
## [1] 3