Se determina el tamaño de muestra con la conocida fórmula del tamaño de muestra, digamos que para un error del 5.5% y asumiendo \(\pi=1-\pi=0.5\):
\[n = \frac{z_{\frac{\alpha}{2}}^2 \cdot \pi\cdot(1-\pi)}{e^2}\simeq 318.\]
La cuestión es: ¿qué pasa si no consigo un tamaño de muestra tan grande? ¿Cómo afecta esto a mis estimaciones o conclusiones?
Podríamos hacer algunas simulaciones generando muestras aleatorias de la población de referencia. No obstante, a menos que estemos seguros de que \(\pi=0.5\), creo que una forma más sencilla es “despejar” el error de la fórmula, y ver cuál es el error para valores de \(n\) distintos al calculado.
\[e=z_{\frac{\alpha}{2}} \sqrt{\frac{\pi\cdot(1-\pi)}{n}}\]
Esto además se puede visualizar con un gráfico y así se pueden buscar algunos umbrales “asumibles” para la investigación.
Función, por comodidad:
e <- function(n, alpha = 0.95, p = 0.5) {
qnorm(alpha+((1-alpha)/2))*sqrt((p*(1-p))/n)
}
Verificación error cometido con los datos propuestos:
e(n = 317)
## [1] 0.05504127
e(n = 318)
## [1] 0.05495466
Error cometido con otros tamaños de muestra:
errores <- data.frame(n = 10:350, error = sapply(10:350, function(x) e(x)))
Gráfico:
library(ggplot2)
library(plotly)
p <- errores |>
ggplot(aes(x = n, y = error)) +
geom_line() +
geom_hline(yintercept = 0.055, col = "orange") +
geom_vline(xintercept = 318, col = "steelblue" )+
ylim(c(0, 0.4)) +
theme_bw()
ggplotly(p)
En el gráfico con plotly podemos ver el error en cada punto. Se ve claramente que con muestras menores de 100 estaremos cometiendo un error de más del 10%.
Esto es una respuesta a alguien que me ha preguntado, otras opiniones y/o correcciones son bienvenidas en emilio@lcano.com.