En inferencia estadística, uno de los problemas fundamentales es determinar qué tan grande debe ser una muestra para estimar un parámetro poblacional con una precisión deseada y un nivel de confianza específico. Este problema es crucial en el diseño de investigaciones, ya que un tamaño muestral insuficiente puede llevar a estimaciones imprecisas, mientras que un tamaño excesivo implica costos innecesarios.
Sea \(X_1,\ldots,X_n\) una muestra aleatoria simple (m.a.s.) extraída de una población normal: \[ X_i \stackrel{\text{iid}}{\sim} \mathcal{N}(\mu,\sigma^2), \] donde \(\mu\) es la media poblacional y \(\sigma^2\) la varianza poblacional. El estimador insesgado de \(\mu\) es la media muestral \[ \hat{\mu} = \bar X \;=\; \frac{1}{n}\sum_{i=1}^n X_i, \qquad \] Bajo normalidad: \[ \bar X \sim \mathcal{N}\!\left(\mu,\frac{\sigma^2}{n}\right). \]
Queremos construir un intervalo de confianza para \(\mu\) de la forma: \[\bar{X} - D < \mu < \bar{X} + D\] donde \(D\) es el radio o margen del intervalo. Definimos la probabilidad de cobertura: \[P(\bar{X} - D < \mu < \bar{X} + D) = 1 - \alpha\] donde \(\alpha\) es el nivel de significancia y \((1-\alpha)\) es el nivel de confianza.
Partimos de la desigualdad inicial: \[\bar{X} - D < \mu < \bar{X} + D\] Paso 1: Restamos \(\bar{X}\) en toda la desigualdad: \[-D < \mu - \bar{X} < D\] Paso 2: Multiplicamos por \(-1\) (invirtiendo el sentido de las desigualdades): \[D > \bar{X} - \mu > -D\] Paso 3: Reordenamos para obtener la forma equivalente: \[-D < \bar{X} - \mu < D\]
Dividimos por el error estándar \(\dfrac{\sigma}{\sqrt{n}}\): \[\frac{-D}{\dfrac{\sigma}{\sqrt{n}}} < \frac{\bar{X} - \mu}{\dfrac{\sigma}{\sqrt{n}}} < \frac{D}{\dfrac{\sigma}{\sqrt{n}}}\] Sabemos que el estadístico: \[Z = \frac{\bar{X} - \mu}{\dfrac{\sigma}{\sqrt{n}}} \sim N(0,1)\] Por lo tanto: \[P\left(-z_{\alpha/2} < \frac{\bar{X} - \mu}{\dfrac{\sigma}{\sqrt{n}}} < z_{\alpha/2}\right) = 1 - \alpha\] Comparando términos, identificamos: \[\frac{D}{\dfrac{\sigma}{\sqrt{n}}} = z_{\alpha/2}\]
Cuando \(\sigma^2\) es desconocida, la estimamos mediante la cuasivarianza muestral: \[S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2\] El estadístico estandarizado ahora sigue una distribución t de Student: \[T = \frac{\bar{X} - \mu}{\dfrac{S}{\sqrt{n}}} \sim t_{n-1}\] Donde \(t_{n-1}\) es la distribución t con \(n-1\) grados de libertad.
El intervalo de confianza se construye como: \[P\left(-t_{\alpha/2, n-1} < \frac{\bar{X} - \mu}{\dfrac{S}{\sqrt{n}}} < t_{\alpha/2, n-1}\right) = 1 - \alpha\] Identificamos: \[\frac{D}{\dfrac{S}{\sqrt{n}}} = t_{\alpha/2, n-1}\]
Despejando \(D\): \[D = z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\]
Despejando \(D\): \[D = t_{\alpha/2, n-1} \cdot \frac{S}{\sqrt{n}}\]
\[\text{IC}_{1-\alpha}(\mu) = \bar{X} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} < \mu < \bar{X} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\]
\[\text{IC}_{1-\alpha}(\mu) = \bar{X} - t_{\alpha/2, n-1} \cdot \frac{S}{\sqrt{n}} < \mu < \bar{X} + t_{\alpha/2, n-1} \cdot \frac{S}{\sqrt{n}}\]
Si aplicamos este mismo procedimiento para determinar el intervalo de confianza para proporciones poblacionales:
Sea \(X_1, X_2, \ldots, X_n\) una
muestra aleatoria simple de tamaño \(n\) de una distribución Bernoulli con
parámetro \(p\).
El estimador natural para \(p\) es la proporción
muestral:
\[\hat{p} = \frac{1}{n}\sum_{i=1}^n X_i =
\frac{Y}{n}\] donde \(Y = \sum_{i=1}^n
X_i \sim \text{Binomial}(n, p)\) es el número de éxitos en la
muestra.
Por el Teorema del Límite Central, para \(n\) grande:
\[\hat{p} \stackrel{\text{aprox}}{\sim}
N\left(p, \dfrac{p(1-p)}{n}\right)\]
Queremos construir un intervalo de confianza para \(p\) de la forma:
\[\hat{p} - D < p < \hat{p} +
D\] donde \(D\) es el
radio o margen del intervalo.
Definimos la probabilidad de cobertura: \[P(\hat{p} - D < p < \hat{p} + D) = 1 -
\alpha\] donde \(\alpha\) es el
nivel de significancia y \((1-\alpha)\) es el nivel de
confianza.
Partimos de la desigualdad inicial:
\[\hat{p} - D < p < \hat{p} +
D\]
Paso 1: Restamos \(\hat{p}\) en toda la desigualdad: \[-D < p - \hat{p} < D\] Paso 2: Multiplicamos por \(-1\) (invirtiendo el sentido de las desigualdades): \[D > \hat{p} - p > -D\] Paso 3: Reordenamos para obtener la forma equivalente: \[-D < \hat{p} - p < D\]
Dividimos por el error estándar \(\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}\): \[\frac{-D}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} < \frac{\hat{p} - p}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} < \frac{D}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}}\] Por el Teorema del Límite Central, el estadístico: \[Z = \frac{\hat{p} - p}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \stackrel{\text{aprox}}{\sim} N(0,1)\] Por lo tanto: \[P\left(-z_{\alpha/2} < \frac{\hat{p} - p}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} < z_{\alpha/2}\right) = 1 - \alpha\] Comparando términos, identificamos: \[\frac{D}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} = z_{\alpha/2}\]
Despejando \(D\): \[D = z_{\alpha/2} \cdot \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}\]
En la práctica, reemplazamos \(p\) por \(\hat{p}\) en el error estándar: \[\text{IC}_{1-\alpha}(p) = \hat{p} - z_{\alpha/2} \cdot \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}} <p< \hat{p} + z_{\alpha/2} \cdot \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}\]
Del desarrollo anterior, sabemos que el intervalo de confianza para la media poblacional \(\mu\) es: \[\bar{X} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} < \mu < \bar{X} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\] > Definición del margen de error (\(E\)): Es el semiancho máximo permitido del intervalo de confianza, es decir, \(E \equiv D\).
De la expresión, identificamos que el margen de error \(E\) corresponde al término: \[E = z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\] Este margen de error representa la máxima distancia permitida entre la media muestral \(\bar{X}\) y la media poblacional \(\mu\) que estamos dispuestos a aceptar con un nivel de confianza \((1-\alpha)\).
Dado que conocemos de antemano el margen de error \(E\) que deseamos alcanzar, procedemos a despejar \(n\) de la ecuación anterior:
Elevando ambos lados al cuadrado para eliminar la raíz: \[\begin{align*} E &= z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\\ E^2 &= z_{\alpha/2}^2 \cdot \frac{\sigma^2}{n} \\ \end{align*}\]
Despejamos \(n\):
Multiplicamos \(n\) de ambos lados y
luego se divide la expresión entre \(E^2\): \[\begin{align*}
n \cdot E^2 &= z_{\alpha/2}^2 \cdot \sigma^2 \\
\end{align*}\]
\[\boxed{n = \frac{z_{\alpha/2}^2 \cdot \sigma^2}{E^2}}\]
Este caso es más complejo porque el percentil \(t_{\alpha/2, n-1}\) depende de
\(n\).
La ecuación a resolver es: \[E = t_{\alpha/2,
n-1} \cdot \frac{S}{\sqrt{n}}\]
donde \(S\) es una estimación preliminar de la desviación estándar.
Procedimiento iterativo:
1. Obtener una estimación inicial \(s\)
de \(\sigma\) (de estudios piloto o
literatura)
2. Resolver iterativamente la ecuación:
\[n = \frac{t_{\alpha/2, n-1}^2 \cdot
s^2}{E^2}\] 3. Aproximación práctica: Para \(n > 30\), \(t_{\alpha/2, n-1} \approx
z_{\alpha/2}\)
Regla práctica: En ambos casos, redondear \(n\) hacia arriba al entero siguiente.
Del desarrollo anterior, sabemos que el intervalo de confianza para la proporción poblacional \(p\) es:
\[\hat{p} - z_{\alpha/2} \cdot \sqrt{\dfrac{{p}(1-{p})}{n}} <p< \hat{p} + z_{\alpha/2} \cdot \sqrt{\dfrac{{p}(1-{p})}{n}}\] En la práctica, reemplazamos \(p\) por \(\hat{p}\) en el error estándar: \[\hat{p} - z_{\alpha/2} \cdot \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}} <p< \hat{p} + z_{\alpha/2} \cdot \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}\] De esta expresión, identificamos que el margen de error \(E\) corresponde al término:
\[ E = z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]
Este margen de error representa la máxima distancia permitida entre la proporción muestral \(\hat{p}\) y la proporción poblacional \(p\) que estamos dispuestos a aceptar con un nivel de confianza \((1-\alpha)\).
Dado que conocemos de antemano el margen de error \(E\) que deseamos alcanzar, procedemos a despejar \(n\) de la ecuación del margen de error:
Elevamos ambos lados al cuadrado para eliminar la raíz:
\[ E = z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\\ E^2 = z_{\alpha/2}^2 \cdot \frac{\hat{p}(1-\hat{p})}{n}\\ \]
Despejamos \(n\): \[ n \cdot E^2 = z_{\alpha/2}^2 \cdot \hat{p}(1-\hat{p}) \]
\[\boxed{n = \frac{z_{\alpha/2}^2 \cdot \hat{p}(1-\hat{p})}{E^2}}\]
Cuando no tenemos información sobre \(p\), usamos el valor que maximiza la varianza: \[\max_{p \in [0,1]} p(1-p) = 0.25 \quad \text{cuando } p = 0.5\]
Por lo tanto, la fórmula conservadora es: \[\boxed{n = \dfrac{z_{\alpha/2}^2}{4E^2}}\]