Puedes seguir el tutorial por vídeo en YouTube
Se puede construir un intervalo de confianza para la proporción poblacional p, apoyándose en la aproximación de la distribución binomial por la normal. La fórmula para estimar los límites, basándonos en la proporción muestral \(\hat{p}\) es la siguiente:
\[\hat {p}-Z_{\alpha /2}\sqrt {\dfrac {\hat {p}\left( 1-\hat {p}\right) } {n}} \leq p\leq \hat {p}+Z_{\alpha /2}\sqrt {\dfrac {\hat {p}\left( 1-\hat {p}\right) } {n}}\]
Donde \(Z_{\alpha /2}\) es un percentil de tabla de la distribución normal estándar.
Ejemplo de intervalo de confianza para una proporción.
Queremos estimar la proporción p de frutas manchadas con un tratamiento (segunda categoría) en una partida de 10000 (población). Tomamos n = 500 frutas y se encuentran 60 manchadas. Estimamos la proporción p por intervalo al 95% de confianza.
CantidadManchados <- 60
TamMuestra <- 500
Prop <- CantidadManchados / TamMuestra ; Prop # Estimación puntual de la proporción
## [1] 0.12
nivel.conf <- 0.95
z <- qnorm(((1 - nivel.conf) / 2), mean = 0, sd = 1, lower.tail = FALSE) ; z # Valor de z según una distribución normal.
## [1] 1.959964
ME <- z * sqrt(Prop*(1 - Prop) / TamMuestra) ; ME # Margen de error o error de estimación.
## [1] 0.02848361
Prop + c(-ME, +ME) # Estimación puntual de la proporción +- el Margen de error
## [1] 0.09151639 0.14848361
Podemos concluir con un 95% de confianza que el la proporción de frutas manchadas se mueve en un intervalo de 0.0915164 y 0.1484836.
El error de estimación (0.0284836) es el valor hasta el que puede diferir \(\widehat {p}\) de p.
Otra manera de expresarlo.
Prop.Inf <- round(((CantidadManchados/TamMuestra) - ME) * 100, 2) ; Prop.Inf
## [1] 9.15
Prop.Sup <- round(((CantidadManchados/TamMuestra) + ME) * 100, 2) ; Prop.Sup
## [1] 14.85
Rango.int.Prop <- Prop.Sup - Prop.Inf ; Rango.int.Prop
## [1] 5.7
Podemos afirmar con una confianza del 95% que la proporción de frutas manchadas está entre el 9.15% y el 14.85%.
También se puede utilizar el comando “prop.test”. El cálculo es un poco más coservador y por eso el intervalos es ligeramente más amplio, aunque la diferencia es mínima.
prop.test(x = CantidadManchados, n = TamMuestra, conf.level = nivel.conf)
##
## 1-sample proportions test with continuity correction
##
## data: CantidadManchados out of TamMuestra, null probability 0.5
## X-squared = 287.28, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.09348364 0.15251247
## sample estimates:
## p
## 0.12
Tamaño de muestra. Si se quiere estimar el tamaño de la muestra n, que es necesario para estimar p con un error máximo de E:
\[n=\dfrac {Z_{\alpha /2}^{2}\widehat {p}\left( 1-\hat {p}\right) } {E^{2}}\]
Donde \(\hat {p}\) es una estimación del valor de p.
Siguiendo con el ejemplo anterior, si quisiéramos un error máximo de E = 0.06 (6%), con una confianza del 95%:
E <- 0.06 #Error máximo.
nivel.conf <- 0.95 #Nivel de confianza.
Prop <- 0.5 #Cuando no se sabe nada de *p* en la fórmula para estimar el tamaño de la muestra, se supone que = 0.5 (50% de probabilidad de encontrar uno u otro tipo de fruta).
z <- qnorm(((1 - nivel.conf) / 2), mean = 0, sd = 1, lower.tail = FALSE) #Valor de z según una distribución normal.
TamMuestra <- ceiling(z^2 * Prop * (1 - Prop) / E^2) ; TamMuestra #El comando ceiling es para redondear por encima. Esto es necesario para asegurar que no se sobrepasa el error máximo.
## [1] 267
Así pues, el tamaño de la muestra necesario para estimar con un confianza del 95% y un error máximo de 6%, es de 267.