Descripción del problema

Se determina el tamaño de muestra con la conocida fórmula del tamaño de muestra, digamos que para un error del 5.5% y asumiendo \(\pi=1-\pi=0.5\):

\[n = \frac{z_{\frac{\alpha}{2}}^2 \cdot \pi\cdot(1-\pi)}{e^2}\simeq 318.\]

La cuestión es: ¿qué pasa si no consigo un tamaño de muestra tan grande? ¿Cómo afecta esto a mis estimaciones o conclusiones?

Posible solución

Podríamos hacer algunas simulaciones generando muestras aleatorias de la población de referencia. No obstante, a menos que estemos seguros de que \(\pi=0.5\), creo que una forma más sencilla es “despejar” el error de la fórmula, y ver cuál es el error para valores de \(n\) distintos al calculado.

\[e=z_{\frac{\alpha}{2}} \sqrt{\frac{\pi\cdot(1-\pi)}{n}}\]

Esto además se puede visualizar con un gráfico y así se pueden buscar algunos umbrales “asumibles” para la investigación.

Ejemplo

Función, por comodidad:

e <- function(n, alpha = 0.95, p = 0.5) {
  qnorm(alpha+((1-alpha)/2))*sqrt((p*(1-p))/n)
}

Verificación error cometido con los datos propuestos:

e(n = 317)
## [1] 0.05504127
e(n = 318)
## [1] 0.05495466

Error cometido con otros tamaños de muestra:

errores <- data.frame(n = 10:350, error = sapply(10:350, function(x) e(x)))

Gráfico:

library(ggplot2)
library(plotly)
p <- errores |> 
  ggplot(aes(x = n, y = error)) +
  geom_line() +
  geom_hline(yintercept = 0.055, col = "orange") +
  geom_vline(xintercept = 318, col = "steelblue" )+
  ylim(c(0, 0.4)) +
  theme_bw()

ggplotly(p)

En el gráfico con plotly podemos ver el error en cada punto. Se ve claramente que con muestras menores de 100 estaremos cometiendo un error de más del 10%.

Disclaimer

Esto es una respuesta a alguien que me ha preguntado, otras opiniones y/o correcciones son bienvenidas en .