1 Introducción

En inferencia estadística, uno de los problemas fundamentales es determinar qué tan grande debe ser una muestra para estimar un parámetro poblacional con una precisión deseada y un nivel de confianza específico. Este problema es crucial en el diseño de investigaciones, ya que un tamaño muestral insuficiente puede llevar a estimaciones imprecisas, mientras que un tamaño excesivo implica costos innecesarios.

2 Preliminares

2.1 IC Media poblacional

2.1.1 Planteamiento

Sea \(X_1,\ldots,X_n\) una muestra aleatoria simple (m.a.s.) extraída de una población normal: \[ X_i \stackrel{\text{iid}}{\sim} \mathcal{N}(\mu,\sigma^2), \] donde \(\mu\) es la media poblacional y \(\sigma^2\) la varianza poblacional. El estimador insesgado de \(\mu\) es la media muestral \[ \hat{\mu} = \bar X \;=\; \frac{1}{n}\sum_{i=1}^n X_i, \qquad \] Bajo normalidad: \[ \bar X \sim \mathcal{N}\!\left(\mu,\frac{\sigma^2}{n}\right). \]

Queremos construir un intervalo de confianza para \(\mu\) de la forma: \[\bar{X} - D < \mu < \bar{X} + D\] donde \(D\) es el radio o margen del intervalo. Definimos la probabilidad de cobertura: \[P(\bar{X} - D < \mu < \bar{X} + D) = 1 - \alpha\] donde \(\alpha\) es el nivel de significancia y \((1-\alpha)\) es el nivel de confianza.

2.1.2 Reescribiendo las Desigualdades

Partimos de la desigualdad inicial: \[\bar{X} - D < \mu < \bar{X} + D\] Paso 1: Restamos \(\bar{X}\) en toda la desigualdad: \[-D < \mu - \bar{X} < D\] Paso 2: Multiplicamos por \(-1\) (invirtiendo el sentido de las desigualdades): \[D > \bar{X} - \mu > -D\] Paso 3: Reordenamos para obtener la forma equivalente: \[-D < \bar{X} - \mu < D\]

2.1.3 Estandarización según el Caso

2.1.3.1 Caso A: (\(\sigma^2\) conocida)

Dividimos por el error estándar \(\dfrac{\sigma}{\sqrt{n}}\): \[\frac{-D}{\dfrac{\sigma}{\sqrt{n}}} < \frac{\bar{X} - \mu}{\dfrac{\sigma}{\sqrt{n}}} < \frac{D}{\dfrac{\sigma}{\sqrt{n}}}\] Sabemos que el estadístico: \[Z = \frac{\bar{X} - \mu}{\dfrac{\sigma}{\sqrt{n}}} \sim N(0,1)\] Por lo tanto: \[P\left(-z_{\alpha/2} < \frac{\bar{X} - \mu}{\dfrac{\sigma}{\sqrt{n}}} < z_{\alpha/2}\right) = 1 - \alpha\] Comparando términos, identificamos: \[\frac{D}{\dfrac{\sigma}{\sqrt{n}}} = z_{\alpha/2}\]

2.1.3.2 Caso B: (\(\sigma^2\) desconocida)

Cuando \(\sigma^2\) es desconocida, la estimamos mediante la cuasivarianza muestral: \[S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2\] El estadístico estandarizado ahora sigue una distribución t de Student: \[T = \frac{\bar{X} - \mu}{\dfrac{S}{\sqrt{n}}} \sim t_{n-1}\] Donde \(t_{n-1}\) es la distribución t con \(n-1\) grados de libertad.

El intervalo de confianza se construye como: \[P\left(-t_{\alpha/2, n-1} < \frac{\bar{X} - \mu}{\dfrac{S}{\sqrt{n}}} < t_{\alpha/2, n-1}\right) = 1 - \alpha\] Identificamos: \[\frac{D}{\dfrac{S}{\sqrt{n}}} = t_{\alpha/2, n-1}\]

2.1.4 Determinación de \(D\)

2.1.4.1 Caso A: \(\sigma^2\) conocida

Despejando \(D\): \[D = z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\]

2.1.4.2 Caso B: \(\sigma^2\) desconocida

Despejando \(D\): \[D = t_{\alpha/2, n-1} \cdot \frac{S}{\sqrt{n}}\]

2.1.5 Intervalos de Confianza Finales

2.1.5.1 Caso A: \(\sigma^2\) conocida

\[\text{IC}_{1-\alpha}(\mu) = \bar{X} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} < \mu < \bar{X} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\]

2.1.5.2 Caso B: \(\sigma^2\) desconocida

\[\text{IC}_{1-\alpha}(\mu) = \bar{X} - t_{\alpha/2, n-1} \cdot \frac{S}{\sqrt{n}} < \mu < \bar{X} + t_{\alpha/2, n-1} \cdot \frac{S}{\sqrt{n}}\]

Si aplicamos este mismo procedimiento para determinar el intervalo de confianza para proporciones poblacionales:

2.2 IC Proporción poblacional

2.2.1 Planteamiento

Sea \(X_1, X_2, \ldots, X_n\) una muestra aleatoria simple de tamaño \(n\) de una distribución Bernoulli con parámetro \(p\).
El estimador natural para \(p\) es la proporción muestral:
\[\hat{p} = \frac{1}{n}\sum_{i=1}^n X_i = \frac{Y}{n}\] donde \(Y = \sum_{i=1}^n X_i \sim \text{Binomial}(n, p)\) es el número de éxitos en la muestra.

Por el Teorema del Límite Central, para \(n\) grande:
\[\hat{p} \stackrel{\text{aprox}}{\sim} N\left(p, \dfrac{p(1-p)}{n}\right)\]

2.2.2 Construcción del Intervalo de Confianza

Queremos construir un intervalo de confianza para \(p\) de la forma:
\[\hat{p} - D < p < \hat{p} + D\] donde \(D\) es el radio o margen del intervalo.
Definimos la probabilidad de cobertura: \[P(\hat{p} - D < p < \hat{p} + D) = 1 - \alpha\] donde \(\alpha\) es el nivel de significancia y \((1-\alpha)\) es el nivel de confianza.

2.2.3 Reescribiendo las Desigualdades

Partimos de la desigualdad inicial:
\[\hat{p} - D < p < \hat{p} + D\]

Paso 1: Restamos \(\hat{p}\) en toda la desigualdad: \[-D < p - \hat{p} < D\] Paso 2: Multiplicamos por \(-1\) (invirtiendo el sentido de las desigualdades): \[D > \hat{p} - p > -D\] Paso 3: Reordenamos para obtener la forma equivalente: \[-D < \hat{p} - p < D\]

2.2.4 Estandarización a la Distribución Normal

Dividimos por el error estándar \(\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}\): \[\frac{-D}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} < \frac{\hat{p} - p}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} < \frac{D}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}}\] Por el Teorema del Límite Central, el estadístico: \[Z = \frac{\hat{p} - p}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} \stackrel{\text{aprox}}{\sim} N(0,1)\] Por lo tanto: \[P\left(-z_{\alpha/2} < \frac{\hat{p} - p}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} < z_{\alpha/2}\right) = 1 - \alpha\] Comparando términos, identificamos: \[\frac{D}{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}} = z_{\alpha/2}\]

2.2.5 Determinación de \(D\)

Despejando \(D\): \[D = z_{\alpha/2} \cdot \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}\]

2.2.6 Intervalo de Confianza Final

En la práctica, reemplazamos \(p\) por \(\hat{p}\) en el error estándar: \[\text{IC}_{1-\alpha}(p) = \hat{p} - z_{\alpha/2} \cdot \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}} <p< \hat{p} + z_{\alpha/2} \cdot \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}\]

3 Ejercicio 29

3.0.1 Del Margen de Error a la Fórmula del Tamaño Muestral

Del desarrollo anterior, sabemos que el intervalo de confianza para la media poblacional \(\mu\) es: \[\bar{X} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} < \mu < \bar{X} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\] > Definición del margen de error (\(E\)): Es el semiancho máximo permitido del intervalo de confianza, es decir, \(E \equiv D\).

De la expresión, identificamos que el margen de error \(E\) corresponde al término: \[E = z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\] Este margen de error representa la máxima distancia permitida entre la media muestral \(\bar{X}\) y la media poblacional \(\mu\) que estamos dispuestos a aceptar con un nivel de confianza \((1-\alpha)\).

Dado que conocemos de antemano el margen de error \(E\) que deseamos alcanzar, procedemos a despejar \(n\) de la ecuación anterior:

Elevando ambos lados al cuadrado para eliminar la raíz: \[\begin{align*} E &= z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\\ E^2 &= z_{\alpha/2}^2 \cdot \frac{\sigma^2}{n} \\ \end{align*}\]

Despejamos \(n\):
Multiplicamos \(n\) de ambos lados y luego se divide la expresión entre \(E^2\): \[\begin{align*} n \cdot E^2 &= z_{\alpha/2}^2 \cdot \sigma^2 \\ \end{align*}\]

\[\boxed{n = \frac{z_{\alpha/2}^2 \cdot \sigma^2}{E^2}}\]

3.0.1.1 Caso \(\sigma^2\) desconocida

Este caso es más complejo porque el percentil \(t_{\alpha/2, n-1}\) depende de \(n\).
La ecuación a resolver es: \[E = t_{\alpha/2, n-1} \cdot \frac{S}{\sqrt{n}}\]

donde \(S\) es una estimación preliminar de la desviación estándar.

Procedimiento iterativo:
1. Obtener una estimación inicial \(s\) de \(\sigma\) (de estudios piloto o literatura)
2. Resolver iterativamente la ecuación:
\[n = \frac{t_{\alpha/2, n-1}^2 \cdot s^2}{E^2}\] 3. Aproximación práctica: Para \(n > 30\), \(t_{\alpha/2, n-1} \approx z_{\alpha/2}\)

Regla práctica: En ambos casos, redondear \(n\) hacia arriba al entero siguiente.

4 Ejercicio 30

4.0.1 Del Margen de Error a la Fórmula del Tamaño Muestral

Del desarrollo anterior, sabemos que el intervalo de confianza para la proporción poblacional \(p\) es:

\[\hat{p} - z_{\alpha/2} \cdot \sqrt{\dfrac{{p}(1-{p})}{n}} <p< \hat{p} + z_{\alpha/2} \cdot \sqrt{\dfrac{{p}(1-{p})}{n}}\] En la práctica, reemplazamos \(p\) por \(\hat{p}\) en el error estándar: \[\hat{p} - z_{\alpha/2} \cdot \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}} <p< \hat{p} + z_{\alpha/2} \cdot \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}\] De esta expresión, identificamos que el margen de error \(E\) corresponde al término:

\[ E = z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \]

Este margen de error representa la máxima distancia permitida entre la proporción muestral \(\hat{p}\) y la proporción poblacional \(p\) que estamos dispuestos a aceptar con un nivel de confianza \((1-\alpha)\).

Dado que conocemos de antemano el margen de error \(E\) que deseamos alcanzar, procedemos a despejar \(n\) de la ecuación del margen de error:

Elevamos ambos lados al cuadrado para eliminar la raíz:

\[ E = z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\\ E^2 = z_{\alpha/2}^2 \cdot \frac{\hat{p}(1-\hat{p})}{n}\\ \]

Despejamos \(n\): \[ n \cdot E^2 = z_{\alpha/2}^2 \cdot \hat{p}(1-\hat{p}) \]

\[\boxed{n = \frac{z_{\alpha/2}^2 \cdot \hat{p}(1-\hat{p})}{E^2}}\]

4.0.1.1 Caso sin información previa (caso conservador)

Cuando no tenemos información sobre \(p\), usamos el valor que maximiza la varianza: \[\max_{p \in [0,1]} p(1-p) = 0.25 \quad \text{cuando } p = 0.5\]

Por lo tanto, la fórmula conservadora es: \[\boxed{n = \dfrac{z_{\alpha/2}^2}{4E^2}}\]