Distribución muestral de la media y la proporción (intervalos de confianza)

Media

Tengo un N de 20 y un n de 8. Dada la combinatoria sin reposición \(\binom{N}{n}\), es posible determinar que existen 125,970 muestras posibles.

rm(list=ls()) #Limpiar entorno de trabajo
set.seed(1959) #Fijar semilla aleatoria para reproductibilidad
(factorial(20))/((factorial(8))*(factorial(12))) #Combinatoria N!/n!(N-n)!
## [1] 125970
poblacion <- rnorm(20,26,5)

Si calculamos todas las muestras y sus medias podremos observar empíricamente la distribución muestral de la media.

dmuestral <-NULL
for(i in 1:125970){
  dmuestral<-c(dmuestral,mean(sample(poblacion,size = 8)))
}

El histograma de la distribución muestral de la media asume una forma de campana de Gauss (recordar teorema del límite central).

hist(dmuestral, freq = FALSE, col = "grey")
lines(density(dmuestral))
abline(v = mean(poblacion),col="red")

A cada valor que asume la media muestral le corresponde una probabilidad.

dmuestral2<- cut(dmuestral, breaks=seq(20.16, 29.87, 20), right = TRUE)
round(prop.table(table(dmuestral2)),3)
## dmuestral2
## (20.2,20.7] (20.7,21.1] (21.1,21.6] (21.6,22.1] (22.1,22.6] (22.6,23.1] 
##       0.000       0.001       0.003       0.008       0.017       0.032 
## (23.1,23.6]   (23.6,24]   (24,24.5]   (24.5,25]   (25,25.5]   (25.5,26] 
##       0.055       0.079       0.108       0.127       0.135       0.129 
##   (26,26.5]   (26.5,27]   (27,27.4] (27.4,27.9] (27.9,28.4] (28.4,28.9] 
##       0.111       0.083       0.056       0.033       0.016       0.006 
## (28.9,29.4] (29.4,29.9] 
##       0.002       0.000

En virtud del Teorema del límite central, sabemos que la distribución muestral de la media seguirá una distribución muestral \(N(\mu;\sqrt{\frac{\sigma^2}{n}})\).Esto permite conocer la probabilidad asociada a cada estimador de la media poblacional sin tener que obtener todas las muestras posibles.

Por ejemplo, de la tabla anterior sé que la probabilidad de que la media muestral asuma un valor menor o igual que 25 y menor que 25.5 es 0.14. Esta probabilidad se puede estimar a partir de la distribución normal, coincidiendo.

p1 <- pnorm(24.9,mean(poblacion),(sd(poblacion)/(sqrt(8)))) # probabilidad de obtener media menor o igual que 24.9
p2 <- pnorm(25.51,mean(poblacion),(sd(poblacion)/(sqrt(8)))) # probabilidad de obtener media menor o igual que 25.51
round(p2-p1,2)
## [1] 0.14

Proporción

Tengo un N de 20 y un n de 8. Dada la combinatoria sin reposición \(\binom{N}{n}\), es posible determinar que existen 125,970 muestras posibles.

rm(list=ls()) #Limpiar entorno de trabajo
set.seed(1959) #Fijar semilla aleatoria para reproductibilidad
(factorial(20))/((factorial(8))*(factorial(12))) #Combinatoria N!/n!(N-n)!
## [1] 125970
poblacion <- rbinom(20,1,0.5) # Población: variable aleatoria con distribución binomial que varía entre 0 y 1, con N de 20 casos

Si calculamos todas las muestras y sus proporciones podremos observar empíricamente la distribución muestral de la proporción.

dmuestral <-NULL
for(i in 1:125970){
  dmuestral<-c(dmuestral,mean(sample(poblacion,size = 8)))
}

El histograma de la distribución muestral de la proporción asume una forma de campana de Gauss (recordar teorema del límite central).

hist(dmuestral, breaks= 10, freq = FALSE, col = "grey")
abline(v = mean(poblacion),col="red")

A cada valor que asume la media muestral le corresponde una probabilidad.

dmuestral2<- cut(dmuestral, breaks=seq(0, 1, 0.1), right = TRUE)
round(prop.table(table(dmuestral2)),3)
## dmuestral2
##   (0,0.1] (0.1,0.2] (0.2,0.3] (0.3,0.4] (0.4,0.5] (0.5,0.6] (0.6,0.7] (0.7,0.8] 
##     0.000     0.024     0.132     0.307     0.332     0.000     0.165     0.036 
## (0.8,0.9]   (0.9,1] 
##     0.003     0.000

En virtud del Teorema del límite central, sabemos que la distribución muestral de la proporción seguirá una distribución muestral \(N(\mu;\sqrt{\frac{\pi(1-\pi)}{n}})\).Esto permite conocer la probabilidad asociada a cada estimador de la proporción poblacional sin tener que obtener todas las muestras posibles.

Por ejemplo, de la tabla anterior sé que la probabilidad de que la media muestral asuma un valor menor o igual que 0.2 y menor que 0.3 es 0.132. Esta probabilidad se puede estimar a partir de la distribución normal, aproximándose -no es exacta por la baja cantidad de casos-.

p1 <- pnorm(0.19,mean(poblacion),(sd(poblacion)/(sqrt(8)))) # probabilidad de obtener proporción menor o igual que 0.19
p2 <- pnorm(0.31,mean(poblacion),(sd(poblacion)/(sqrt(8)))) # probabilidad de obtener proporción menor que 0.31
round(p2-p1,2)
## [1] 0.14