Una Introducción a la Estadística Inferencial con Aplicaciones en R y Python

01. Introducción

La estadística es, en principio, una ciencia auxiliar. Los procedimientos estadísticos deben ayudar, por lo tanto, a encontrar, verificar y/o rechazar, si es el caso, ciertos aspectos, relaciones, reglas, propiedades, etc., que pueden ser relevantes para algún problema de interés.

Así, el trabajo estadístico de un estadístico:

Primer paso. Empieza con un problema práctico de alguna aplicación. Se identificarán ciertas variables de interés para tal problema, considerando una escala adecuada en la cual se deban o puedan medir sus valores: de forma nominal (con etiquetas), ordinal (con orden) o métrica (con distancia); de forma cualitativa (con codificación por símbolos o números) o cuantitativa (con números reales). A veces se distingue, además, entre “variables independientes ($X$)” (representando causas, por ejemplo) y “variables dependientes ($Y$)” (representando efectos, por ejemplo).
Segundo paso. Consiste en traducir el problema a un modelo probabilístico en el cual las variables de interés se representan por variables aleatorias. Para muchos problemas con variables cualitativas, la elección de una distribución binomial o multinomial es natural. Para otros problemas con variables cuantitativas, puede ser útil y adecuado escoger una distribución normal, por ejemplo. En todo caso, los parámetros $\theta$ de la distribución deben reflejar los aspectos relevantes de las variables del problema.
Muchas veces será necesario asegurarse de que el modelo realmente sea el adecuado, usando diferentes métodos en los pasos posteriores, que se esbozan brevemente a continuación. Puede resultar conveniente cambiar o modificar el modelo escogido inicialmente.
Si $Y$ es la variable aleatoria que representa el problema, su función de densidad o función de distribución de probabilidad $f_Y(y, \theta)$ se denomina modelo probabilístico.
El trabajo propiamente estadístico empieza con el tercer paso. Este consiste en observar $n$ veces la variable del problema (una sola, por simplicidad), representada por la variable $Y$ del modelo probabilístico, por lo general de manera independiente.
Así se obtiene una muestra $Y = (Y_1, Y_2, ..., Y_n)$ de tamaño $n$, cuya distribución (conjunta) es determinada, según el segundo paso, por $f(y, \theta)$; que es la función de densidad o de probabilidad en la observación $y = (y_1, y_2, ..., y_n)$, fijando $\theta$; y que es la función de verosimilitud en el parámetro $\theta$, fijando $y$. Se llama a la muestra junto con su distribución modelo estadístico.

02. Las Estadísticas, Estadísticos o Estimadores Puntuales

Por lo general, no se trabaja con toda la muestra $Y$, sino con funciones $S(Y)$, llamadas estadísticas, que consisten en una reducción de la dimensión de la observación.
Las Estadísticas Suficientes son aquellas que permiten una reducción de los datos sin pérdida de información.
Los análisis constituyen los núcleos del trabajo estadístico y pueden clasificarse bajo los tres conceptos siguientes:

Una estimación del parámetro $\theta$ (puntual) es una estadística $\hat{\theta}(Y)$ cuyo valor $\hat{\theta}(y)$, evaluado con base en una observación concreta $y$, debe estimar el valor (no conocido) del parámetro $\theta$.
Un intervalo de confianza, en cambio, es una estimación que define un intervalo (aleatorio) $IC(Y)$ alrededor de $\hat{\theta}(Y)$ que contiene con alta probabilidad, $1 - \alpha$, al parámetro $\theta$ (considerado unidimensional, por simplicidad). En este sentido, con base en un dato concreto $y$, el valor de $IC(Y)$ es un intervalo real $IC(y) = \hat{\theta}(y) \pm D(y)$ que da una idea sobre la precisión de la estimación puntual.
Hacer una prueba de hipótesis. $H_0$ contra una alternativa $H_1$, sobre el parámetro $\theta$, es un concepto, en principio, muy diferente de los conceptos de estimación, pero hay una relación muy estrecha entre $(1 - \alpha)$ intervalo de confianza y la región de tales datos posibles $y$ para los cuales se aceptaría $H_0$, siendo $\alpha$ el error (de tipo I) de rechazar $H_0$ equivocadamente. Esto permitirá construir pruebas de hipótesis a partir de intervalos de confianza y viceversa.

En conclusión, los cuatro pasos de un trabajo estadístico, esbozados hasta ahora, son:

\[ \text{Problema} \Rightarrow \text{Modelo} \Rightarrow \text{Datos} \Rightarrow \text{Análisis} \]

El esquema anterior debe mantenerse en mente para estudiar y aprender los conceptos fundamentales de Estadística.
El esquema no es de una sola dirección; debe volverse siempre a los pasos anteriores, comprobando, verificando, modificando y, finalmente, interpretando los resultados de los análisis en términos del problema original.

03. Distribuciones Muestrales

03.1. La Distribución Muestral de la Media muestral

En esta sección se tratarán funciones de las variables $Y_1, Y_2, ..., Y_n$ observadas en una muestra aleatoria seleccionada de una población bajo estudio. El supuesto básico es que las variables son independientes y tienen una distribución común. Con frecuencia se usan funciones de las variables aleatorias observadas en una muestra para estimar o para tomar decisiones con respecto a parámetros poblacionales desconocidos.
Por ejemplo, si se desea estimar la media de una población $\mu$, y de ella se toma una muestra aleatoria de $n$ observaciones $Y_1, Y_2, ..., Y_n$, se usa el estadístico

\[ \bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i \]

Como estimador de esta cantidad, y el valor estimado se obtiene a partir de las observaciones $y_1, y_2, ..., y_n$ respectivas, así

\[ \bar{y} = \frac{1}{n} \sum_{i=1}^n y_i. \]

La bondad de la estimación depende del comportamiento de las variables aleatorias $Y_1, Y_2, ..., Y_n$ y el efecto de este comportamiento sobre $\bar{Y}$.

03.2.Distribuciones Muestrales Relacionadas con la Distribución Normal

Definición.
Un estadístico $S(Y) = S(Y_1, Y_2, ..., Y_n)$ es una función de las variables aleatorias que se pueden observar en una muestra y de las constantes conocidas.
Los estadísticos se utilizan para hacer inferencias (estimaciones o decisiones) con respecto a parámetros poblacionales desconocidos.
Como el estadístico $S(Y)$ también es una variable aleatoria, tiene una distribución de probabilidad que llamaremos distribución muestral o simplemente muestreo aleatorio.
Teorema. Sea $Y_1, Y_2, ..., Y_n$ una muestra aleatoria de tamaño $n$ de una distribución normal con media $\mu$ y varianza $\sigma^2$. Entonces $\bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i$ tiene una distribución normal con media $\mu$ y varianza $\frac{\sigma^2}{n}$.

03.3. Ejemplo 1. Distribución Muestral de $\bar{Y}$

Muestreo de medias. Una embotelladora puede regularse de tal manera que llene un promedio de $\mu$ onzas por botella. Se ha observado que la cantidad de contenido que suministra la máquina presenta una distribución normal con $\sigma = 1.0$ onza. De la producción de la máquina un cierto día, se obtiene una muestra de $n = 9$ botellas llenas (todas fueron llenadas con las mismas posiciones del control operativo) y se miden las onzas del contenido de cada una.
1. Determinar la probabilidad de que la media muestral se encuentre a lo más 0.3 onzas de la media real $\mu$ para tales posiciones de control.
1. ¿Cuántas observaciones deben incluirse en la muestra si se desea que $\bar{Y}$ esté a lo más a 0.3 onzas de $\mu$ con una probabilidad de 0.95?

Solución.

Paso 1. Problema de aplicación.
Paso 2. (variable de interés) Sea $Y :=$ Contenido (en onzas) de una botella.
Paso 3. (modelo probabilístico) $Y \sim N(\mu, \sigma^2)$, $\sigma^2 = 1$.
Paso 4. (modelo estadístico) sea $Y = (Y_1, Y_2, ..., Y_9)$ una muestra aleatoria. Por un teorema anterior, $\bar{Y}$ tiene una distribución normal con media $\mu$ y varianza $\sigma_{\bar{Y}}^2 = \frac{\sigma^2}{n} = \frac{1}{9}$.
1. Se desea calcular

\[ P(|\bar{Y} - \mu| \leq 0.3) = P(-0.3 \leq (\bar{Y} - \mu) \leq 0.3) \\ = P\left(-\frac{0.3}{\sigma / \sqrt{n}} \leq \frac{\bar{Y} - \mu}{\sigma / \sqrt{n}} \leq \frac{0.3}{\sigma / \sqrt{n}}\right)\\ = P\left(-\frac{0.3}{1 / \sqrt{9}} \leq Z \leq \frac{0.3}{1 / \sqrt{9}}\right) = P(-0.9 \leq Z \leq 0.9) = 0.6318 \]

Se desea calcular

\[ P(|\bar{Y} - \mu| \leq 0.3) = P(-0.3 \leq (\bar{Y} - \mu) \leq 0.3) = P\left(-\frac{0.3}{\sigma / \sqrt{n}} \leq \frac{\bar{Y} - \mu}{\sigma / \sqrt{n}} \leq \frac{0.3}{\sigma / \sqrt{n}}\right) = 0.95 \]

\[ \Rightarrow \frac{0.3}{1 / \sqrt{n}} = 1.96 \Rightarrow 0.3 \sqrt{n} = 1.96 \Rightarrow n = 42.68 \]

03.4. Ahora usaremos R

# Parámetros dados
sigma <- 1.0     # Desviación estándar poblacional
n <- 9           # Tamaño de la muestra
delta <- 0.3     # Margen de error (0.3 onzas)
mu <- 0          # Media real (asumimos μ = 0 para la gráfica)

# Error estándar de la media
se <- sigma / sqrt(n)

# Límites del área a sombrear
lower_limit <- mu - delta
upper_limit <- mu + delta

# Crear una secuencia de valores para la distribución normal
x <- seq(mu - 4 * se, mu + 4 * se, length.out = 1000)

# Calcular la densidad de la distribución normal
y <- dnorm(x, mean = mu, sd = se)

# Graficar la distribución normal
plot(x, y, type = "l", lwd = 2, col = "blue",
     xlab = "Media muestral (Ȳ)", ylab = "Densidad",
     main = "Distribución normal de la media muestral -Julio Hurtado")

# Sombrear el área entre lower_limit y upper_limit
x_shade <- seq(lower_limit, upper_limit, length.out = 1000)
y_shade <- dnorm(x_shade, mean = mu, sd = se)
polygon(c(lower_limit, x_shade, upper_limit), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir líneas verticales para los límites
abline(v = lower_limit, col = "red", lty = 2, lwd = 2)
abline(v = upper_limit, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución normal", "Área sombreada (P(|Ȳ - μ| ≤ 0.3))"),
       col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)

# Parámetros dados
sigma <- 1.0     # Desviación estándar poblacional
n <- 9           # Tamaño de la muestra (inciso a)
delta <- 0.3     # Margen de error (0.3 onzas)
prob <- 0.95     # Probabilidad deseada (inciso b)

# (a) Probabilidad de que la media muestral esté a lo más 0.3 onzas de μ
z_score <- delta / (sigma / sqrt(n))  # Cálculo del puntaje Z
prob_a <- pnorm(z_score) - pnorm(-z_score)  # Probabilidad usando la distribución normal

# Mostrar resultado del inciso (a)
print(paste("(a) La probabilidad de que la media muestral esté a lo más 0.3 onzas de μ es:", round(prob_a, 4)))

## [1] "(a) La probabilidad de que la media muestral esté a lo más 0.3 onzas de μ es: 0.6319"

# (b) Tamaño de la muestra para que la media esté a lo más 0.3 onzas de μ con probabilidad 0.95
z_alpha <- qnorm((1 + prob) / 2)  # Valor crítico de Z para una probabilidad de 0.95
n_b <- ceiling((z_alpha * sigma / delta)^2)  # Cálculo del tamaño de la muestra

# Mostrar resultado del inciso (b)
print(paste("(b) El tamaño de la muestra necesario para que la media esté a lo más 0.3 onzas de μ con una probabilidad de 0.95 es:", n_b))

## [1] "(b) El tamaño de la muestra necesario para que la media esté a lo más 0.3 onzas de μ con una probabilidad de 0.95 es: 43"

04. Distribución Chi-cuadrada

Teorema. Sea $Y_1, Y_2, ..., Y_n$ una muestra aleatoria de tamaño $n$ de una distribución normal con media $\mu$ y varianza $\sigma^2$. Entonces $Z_i = \frac{Y_i - \mu}{\sigma}$ son variables aleatorias normales estándar e independientes, $i = 1, 2, ..., n$ y

\[ \sum_{i=1}^n Z_i^2 = \sum_{i=1}^n \frac{(Y_i - \mu)^2}{\sigma^2} \]

tiene una distribución $\chi^2$ con $n$ grados de libertad.

04.1 Ejemplo 2.

Si $Z = (Z_1, Z_2, ..., Z_6)$ denota una muestra aleatoria de una distribución normal estándar, hallar un número $b$ tal que $P\left(\sum_{i=1}^6 Z_i^2 \leq b\right) = 0.95$.

Solución.
Por el teorema anterior, $\sum_{i=1}^6 Z_i^2 \sim \chi^2(6)$. Haciendo uso de la tabla para $\chi^2$, se tiene que $P\left(\sum_{i=1}^6 Z_i^2 \leq 12.5916\right) = 0.95$, así que $b = 12.5916$.

# Parámetros dados
n <- 6           # Tamaño de la muestra (grados de libertad)
prob <- 0.95     # Probabilidad deseada

# Encontrar el valor crítico b usando la distribución chi-cuadrado
b <- qchisq(prob, df = n)

# Mostrar el valor de b
print(paste("El valor de b tal que P(∑Z_i² ≤ b) = 0.95 es:", round(b, 4)))

## [1] "El valor de b tal que P(∑Z_i² ≤ b) = 0.95 es: 12.5916"

# Crear una secuencia de valores para la distribución chi-cuadrado
x <- seq(0, 20, length.out = 1000)

# Calcular la densidad de la distribución chi-cuadrado
y <- dchisq(x, df = n)

# Graficar la distribución chi-cuadrado
plot(x, y, type = "l", lwd = 2, col = "blue",
     xlab = "Valores de ∑Z_i²", ylab = "Densidad",
     main = "Distribución chi-cuadrado con 6 grados de libertad")

# Sombrear el área correspondiente a P(∑Z_i² ≤ b)
x_shade <- seq(0, b, length.out = 1000)
y_shade <- dchisq(x_shade, df = n)
polygon(c(0, x_shade, b), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir una línea vertical en el valor crítico b
abline(v = b, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución chi-cuadrado", "Área sombreada (P(∑Zi²≤ b) = 0.95)"),
       col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)

04.2. Teorema: La Distribución Muestral de la Varianza $S^2$

Sea $Y_1, Y_2, ..., Y_n$ una muestra aleatoria de tamaño $n$ de una distribución normal con media $\mu$ y varianza $\sigma^2$. Entonces

\[ \frac{1}{\sigma^2} \sum_{i=1}^n (Y_i - \bar{Y})^2 = \frac{(n-1)S^2}{\sigma^2} \]

tiene una distribución $\chi^2$ con $n-1$ grados de libertad. $\bar{Y}$ y $S^2$ son también variables aleatorias independientes.**

04.3. Ejemplo 3. Muestreo de varianzas usando R

Una embotelladora puede regularse de tal manera que llene un promedio de $\mu$ onzas por botella. Se ha observado que la cantidad de contenido que suministra la máquina presenta una distribución normal con $\sigma = 1.0$ onza. Supóngase que se desea obtener una muestra aleatoria de 10 botellas y medir el contenido en cada botella. Si se utilizan estas $n = 10$ observaciones para calcular $S^2$, encuentre los números $b_1$ y $b_2$ tales que $P(b_1 \leq S^2 \leq b_2) = 0.90$.

Solución.
+ Por el teorema anterior, $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{(n-1)}$. Obsérvese que

\[ P(b_1 \leq S^2 \leq b_2) = P\left(\frac{(n-1)b_1}{\sigma^2} \leq \frac{(n-1)S^2}{\sigma^2} \leq \frac{(n-1)b_2}{\sigma^2}\right)\\ = P\left(\frac{(10-1)b_1}{1} \leq \chi^2(9) \leq \frac{(10-1)b_2}{1}\right)\\ = P(9b_1 \leq \chi^2(9) \leq 9b_2) = 0.90 \]

Usando la tabla para $\chi^2(9)$, se tiene que $P(3.325 \leq \chi^2(9) \leq 16.919) = 0.90$, luego $b_1 = \frac{3.325}{9} = 0.369$ y $b_2 = \frac{16.919}{9} = 1.880$.

04.4. Usando R

# Parámetros dados
n <- 10          # Tamaño de la muestra
sigma <- 1.0     # Desviación estándar poblacional
alpha <- 0.10    # Nivel de significancia (1 - 0.90)

# Grados de libertad
df <- n - 1

# Encontrar los valores críticos de la distribución chi-cuadrado
b1 <- qchisq(alpha / 2, df) * sigma^2 / df
b2 <- qchisq(1 - alpha / 2, df) * sigma^2 / df

# Mostrar los resultados
print(paste("El valor de b1 es:", round(b1, 4)))

## [1] "El valor de b1 es: 0.3695"

print(paste("El valor de b2 es:", round(b2, 4)))

## [1] "El valor de b2 es: 1.8799"

# Crear una secuencia de valores para la distribución chi-cuadrado
x <- seq(0, 30, length.out = 1000)

# Calcular la densidad de la distribución chi-cuadrado
y <- dchisq(x, df = df)

# Graficar la distribución chi-cuadrado
plot(x, y, type = "l", lwd = 2, col = "blue",
     xlab = "Varianza muestral (S²)", ylab = "Densidad",
     main = "Distribución chi-cuadrado con 9 grados de libertad")

# Sombrear el área correspondiente a P(b1 ≤ S² ≤ b2)
x_shade <- seq(b1, b2, length.out = 1000)
y_shade <- dchisq(x_shade, df = df)
polygon(c(b1, x_shade, b2), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir líneas verticales para los límites
abline(v = b1, col = "red", lty = 2, lwd = 2)
abline(v = b2, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución chi-cuadrado", "Área sombreada (P(b1 ≤ S² ≤ b2) = 0.90)"),
       col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)

05. Distribución t de Student

05.1. Definición.

Sea $Z$ una variable aleatoria estándar y sea $\chi^2$ una variable aleatoria chi-cuadrada con $\nu$ grados de libertad. Entonces, si $Z$ y $\chi^2$ son independientes,

\[ T = \frac{Z}{\sqrt{\chi^2 / \nu}} \]

se dice que tiene una distribución $t$ de Student con $\nu$ grados de libertad.

05.2. Ejemplo 4.

La resistencia a la tensión para cierto tipo de alambre se distribuye normalmente con una media desconocida $\mu$ y una varianza $\sigma^2$. Se seleccionan al azar seis segmentos de alambre de un rollo grande y se midió $Y_i :=$ la resistencia a la tensión para el segmento $i$, en donde $i = 1, 2, ..., 6$. La media de la población $\mu$ y la varianza $\sigma^2$ se pueden estimar por $\bar{Y}$ y $S^2$, respectivamente. Así, $\sigma_{\bar{Y}}^2$ se puede estimar por $S^2 / n$. Obtener la probabilidad aproximada de que $\bar{Y}$ esté a lo más a $2S / \sqrt{n}$ de la verdadera media poblacional $\mu$.

###Solución.

De la definición anterior, $\frac{\bar{Y} - \mu}{S / \sqrt{n}} \sim T_{(n-1)}$. Se desea encontrar

\[ P(|\bar{Y} - \mu| \leq 2S / \sqrt{n}) = P\left(-2 \leq \frac{\bar{Y} - \mu}{S / \sqrt{n}} \leq 2\right) = P(-2 \leq T_{(5)} \leq 2) = 0.8980. \]

Nótese que si se conociese $\sigma^2$, se tendría:

\[ P(|\bar{Y} - \mu| \leq 2\sigma / \sqrt{n}) = P\left(-2 \leq \frac{\bar{Y} - \mu}{\sigma / \sqrt{n}} \leq 2\right) = P(-2 \leq Z \leq 2) = 0.9544. \] ## 05.3. Usando R

# Parámetros dados
n <- 6           # Tamaño de la muestra
k <- 2           # Factor de escala (2 en este caso)

# Grados de libertad
df <- n - 1

# Calcular la probabilidad usando la distribución t de Student
prob <- pt(k, df = df) - pt(-k, df = df)

# Mostrar la probabilidad
print(paste("La probabilidad de que Ȳ esté a lo más a 2S/√n de μ es:", round(prob, 4)))

## [1] "La probabilidad de que Ȳ esté a lo más a 2S/√n de μ es: 0.8981"

# Crear una secuencia de valores para la distribución t de Student
x <- seq(-4, 4, length.out = 1000)

# Calcular la densidad de la distribución t de Student
y <- dt(x, df = df)

# Graficar la distribución t de Student
plot(x, y, type = "l", lwd = 2, col = "blue",
     xlab = "Valores de t", ylab = "Densidad",
     main = "Distribución t de Student con 5 grados de libertad")

# Sombrear el área correspondiente a P(-2 ≤ t ≤ 2)
x_shade <- seq(-k, k, length.out = 1000)
y_shade <- dt(x_shade, df = df)
polygon(c(-k, x_shade, k), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir líneas verticales para los límites
abline(v = -k, col = "red", lty = 2, lwd = 2)
abline(v = k, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución t de Student", "Área sombreada (P(-2 ≤ t ≤ 2))"),
       col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)

06. Distribución F

06. 1. Definición.

Sean $\chi_1^2$ y $\chi_2^2$ variables aleatorias chi-cuadrada con $\nu_1$ y $\nu_2$ grados de libertad, respectivamente. Entonces, si $\chi_1^2$ y $\chi_2^2$ son independientes,

\[ F = \frac{\chi_1^2 / \nu_1}{\chi_2^2 / \nu_2} \]

se dice que tiene una distribución $F$ con $\nu_1$ grados de libertad del numerador y $\nu_2$ grados de libertad del denominador.

06.2. Ejemplo 5.

Si tomamos dos muestras independientes de tamaño $n_1 = 6$ y $n_2 = 10$ de dos poblaciones normales con la misma varianza poblacional, encuentre el número $b$ tal que

\[ P\left(\frac{S_1^2}{S_2^2} \leq b\right) = 0.95 \]

Solución:

Si tomamos dos muestras independientes de tamaño $n_1 = 6$ y $n_2 = 10$ de dos poblaciones normales con la misma varianza poblacional, encuentre el número $b$ tal que:

\[ P\left(\frac{S_1^2}{S_2^2} \leq b\right) = 0.95, \]

donde $S_1^2$ y $S_2^2$ son las varianzas muestrales de las dos muestras.

Pasos:

Distribución de la razón de varianzas:

La razón de varianzas muestrales $\frac{S_1^2}{S_2^2}$ sigue una distribución $F$ con $(n_1 - 1)$ y $(n_2 - 1)$ grados de libertad. Es decir:

\[ F = \frac{S_1^2}{S_2^2} \sim F_{(n_1 - 1, n_2 - 1)}. \]

En este caso, $n_1 = 6$ y $n_2 = 10$, por lo que los grados de libertad son $(5, 9)$.
Valor crítico $b$:

Buscamos el valor $b$ tal que:

\[ P\left(F \leq b\right) = 0.95. \]

Esto corresponde al percentil $0.95$ de la distribución $F$ con $(5, 9)$ grados de libertad.
Uso de la tabla $F$:

Para encontrar $b$, consultamos la tabla de la distribución $F$ con $(5, 9)$ grados de libertad y buscamos el valor correspondiente al percentil $0.95$.
- En la tabla $F$, el valor crítico $F_{0.95}(5, 9)$ es aproximadamente 3.48.
Resultado:

Por lo tanto, el número $b$ que satisface la condición es:

\[ b = 3.48. \]

Respuesta final:

El valor de $b$ tal que $P\left(\frac{S_1^2}{S_2^2} \leq b\right) = 0.95$ es:

\[ \boxed{b = 3.48} \]

06.3. Usando R

# Parámetros dados
n1 <- 6           # Tamaño de la primera muestra
n2 <- 10          # Tamaño de la segunda muestra
prob <- 0.95      # Probabilidad deseada

# Grados de libertad
df1 <- n1 - 1     # Grados de libertad para S1²
df2 <- n2 - 1     # Grados de libertad para S2²

# Encontrar el valor crítico b usando la distribución F
b <- qf(prob, df1 = df1, df2 = df2)

# Mostrar el valor de b
print(paste("El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es:", round(b, 4)))

## [1] "El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es: 3.4817"

# Crear una secuencia de valores para la distribución F
x <- seq(0, 5, length.out = 1000)

# Calcular la densidad de la distribución F
y <- df(x, df1 = df1, df2 = df2)

# Graficar la distribución F
plot(x, y, type = "l", lwd = 2, col = "blue",
     xlab = "Valores de F = S1²/S2²", ylab = "Densidad",
     main = "Distribución F con (5, 9) grados de libertad")

# Sombrear el área correspondiente a P(F ≤ b)
x_shade <- seq(0, b, length.out = 1000)
y_shade <- df(x_shade, df1 = df1, df2 = df2)
polygon(c(0, x_shade, b), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir una línea vertical en el valor crítico b
abline(v = b, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución F", "Área sombreada (P(F ≤ b) = 0.95)"),
       col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)

# Parámetros dados
n1 <- 6           # Tamaño de la primera muestra
n2 <- 10          # Tamaño de la segunda muestra
prob <- 0.95      # Probabilidad deseada

# Grados de libertad
df1 <- n1 - 1     # Grados de libertad para S1²
df2 <- n2 - 1     # Grados de libertad para S2²

# Encontrar el valor crítico b usando la distribución F
b <- qf(prob, df1 = df1, df2 = df2)

# Mostrar el valor de b
print(paste("El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es:", round(b, 4)))

## [1] "El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es: 3.4817"

# Crear una secuencia de valores para la distribución F
x <- seq(0, 5, length.out = 1000)

# Calcular la densidad de la distribución F
y <- df(x, df1 = df1, df2 = df2)

# Graficar la distribución F
plot(x, y, type = "l", lwd = 2, col = "blue",
     xlab = "Valores de F = S1²/S2²", ylab = "Densidad",
     main = "Distribución F con (5, 9) grados de libertad")

# Sombrear el área correspondiente a P(F ≤ b)
x_shade <- seq(0, b, length.out = 1000)
y_shade <- df(x_shade, df1 = df1, df2 = df2)
polygon(c(0, x_shade, b), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir una línea vertical en el valor crítico b
abline(v = b, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución F", "Área sombreada (P(F ≤ b) = 0.95)"),
       col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)

07. Teorema del Límite Central (TLC)

El Teorema del Límite Central (TLC) es uno de los resultados más importantes en estadística y probabilidad. Establece que, bajo ciertas condiciones, la distribución de la media muestral de una muestra aleatoria se aproxima a una distribución normal, independientemente de la forma de la distribución de la población original, siempre que el tamaño de la muestra sea suficientemente grande.

07.1. Enunciado formal del TLC:

Sean $Y_1, Y_2, \dots, Y_n$ variables aleatorias independientes e idénticamente distribuidas (i.i.d.) con media $\mu$ y varianza $\sigma^2 < \infty$. Definimos la media muestral como:

\[ \bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i. \]

Entonces, la variable estandarizada:

\[ U_n = \frac{\bar{Y} - \mu}{\sigma / \sqrt{n}}, \]

converge en distribución a una distribución normal estándar $N(0, 1)$ cuando $n \to \infty$. Es decir:

\[ U_n \xrightarrow{d} N(0, 1). \]

07.2. Interpretación:

Distribución de la media muestral:
- La media muestral $\bar{Y}$ tiene una distribución que se aproxima a una distribución normal con media $\mu$ y varianza $\frac{\sigma^2}{n}$.
- Esto es cierto incluso si la población original no sigue una distribución normal.
Tamaño de la muestra:
- Cuanto mayor sea el tamaño de la muestra $n$, mejor será la aproximación a la distribución normal.
- En la práctica, se considera que $n \geq 30$ es suficiente para una buena aproximación, aunque esto puede variar dependiendo de la forma de la distribución original.
Aplicaciones:
- El TLC es fundamental en inferencia estadística, ya que permite hacer inferencias sobre la media poblacional $\mu$ incluso cuando la distribución de la población es desconocida.
- También es la base para muchos métodos estadísticos, como intervalos de confianza y pruebas de hipótesis.

07.3. Ejemplo 6. Ilustración del TLC:

A continuación, se presenta una ilustración del TLC utilizando una población no normal (por ejemplo, una distribución exponencial) y mostrando cómo la distribución de la media muestral se aproxima a una distribución normal a medida que aumenta el tamaño de la muestra.

Código en R para la ilustración:

# Parámetros
set.seed(123)  # Para reproducibilidad
mu <- 1        # Media de la distribución exponencial
n_sim <- 1000  # Número de simulaciones
sample_sizes <- c(5, 30, 100)  # Tamaños de muestra

# Función para simular medias muestrales
simulate_sample_means <- function(n) {
  sapply(1:n_sim, function(i) mean(rexp(n, rate = 1/mu)))
}

# Crear gráficos
par(mfrow = c(1, 3))  # 1 fila, 3 columnas
for (n in sample_sizes) {
  sample_means <- simulate_sample_means(n)
  hist(sample_means, breaks = 30, freq = FALSE, main = paste("n =", n),
       xlab = "Media muestral", col = "lightblue", border = "white")
  curve(dnorm(x, mean = mu, sd = mu/sqrt(n)), add = TRUE, col = "red", lwd = 2)
}

Conclusión:

El TLC es una herramienta poderosa que permite aproximar la distribución de la media muestral a una distribución normal, incluso cuando la población original no es normal. Esto es fundamental en estadística, ya que simplifica el análisis y la inferencia en muchos casos prácticos.

07.4. Ejemplo 6: Distribución de la media muestral para poblaciones desconocidas con muestras grandes

Problema:

Los resultados de las pruebas finales de todos los alumnos de último año de las preparatorias de cierto estado tienen una media de 60 y una varianza de 64. Una generación específica de cierta preparatoria de $n = 100$ alumnos tuvo una media de 58. ¿Puede afirmarse que esta preparatoria sea inferior?

Solución:

Variable de interés:
$Y =$ resultado en la prueba final de un alumno de último año.
Modelo probabilístico:
$Y \sim f_Y(y, \theta)$, donde $\theta = (\mu, \sigma^2) = (60, 64)$.
Modelo estadístico:
$Y = (Y_1, Y_2, \dots, Y_{100})$. El estadístico de interés es $\bar{Y} \approx N(\mu, \sigma^2 / n)$.
Respuesta a la pregunta:
Para determinar si esta preparatoria es inferior, calculamos la probabilidad $P(\bar{Y} \leq 58)$:

\[ P(\bar{Y} \leq 58) = P\left( \frac{\bar{Y} - \mu}{\sigma / \sqrt{n}} \leq \frac{58 - 60}{8 / \sqrt{100}} \right) \approx P(Z \leq -2.5) = 0.0062 \]

Esta probabilidad es muy baja (0.62%). Por tanto, puede afirmarse que la calificación promedio para esta preparatoria es menor que el promedio global $\mu = 60$.

07.5. Código en R:

# Parámetros dados
mu_poblacion <- 60      # Media poblacional
var_poblacion <- 64     # Varianza poblacional
n <- 100                # Tamaño de la muestra
media_muestral <- 58    # Media muestral

# Error estándar de la media
se <- sqrt(var_poblacion / n)

# Estadístico de prueba Z
z <- (media_muestral - mu_poblacion) / se

# Valor p (prueba de una cola, cola inferior)
p_valor <- pnorm(z)

# Mostrar resultados
print(paste("Estadístico de prueba Z:", round(z, 4)))

## [1] "Estadístico de prueba Z: -2.5"

print(paste("Valor p:", round(p_valor, 4)))

## [1] "Valor p: 0.0062"

# Conclusión
alpha <- 0.05  # Nivel de significancia
if (p_valor < alpha) {
  print("Rechazamos la hipótesis nula: La preparatoria es inferior.")
} else {
  print("No rechazamos la hipótesis nula: No hay evidencia suficiente para afirmar que la preparatoria es inferior.")
}

## [1] "Rechazamos la hipótesis nula: La preparatoria es inferior."

# Gráfica de la distribución normal estándar
x <- seq(-4, 4, length.out = 1000)  # Rango de valores para Z
y <- dnorm(x)                       # Densidad de la distribución normal estándar

# Crear la gráfica
plot(x, y, type = "l", lwd = 2, col = "blue", xlab = "Z", ylab = "Densidad",
     main = "Distribución normal estándar y región de rechazo")

# Sombrear la región correspondiente al valor p (cola inferior)
x_shade <- seq(-4, z, length.out = 1000)
y_shade <- dnorm(x_shade)
polygon(c(-4, x_shade, z), c(0, y_shade, 0), col = "lightblue", border = NA)

# Añadir una línea vertical en el estadístico de prueba Z
abline(v = z, col = "red", lty = 2, lwd = 2)

# Añadir leyenda
legend("topright", legend = c("Distribución normal", "Región de rechazo (Valor p)", "Estadístico Z"),
       col = c("blue", "lightblue", "red"), lwd = 2, lty = c(1, NA, 2), fill = c(NA, "lightblue", NA))

07.6. El enunciado en R

# Cargar librería para gráficos
#install.packages("ggplot2")
library(ggplot2)

# Parámetros
media_poblacion <- 60
desviacion_estandar <- 8 / sqrt(100)  # Error estándar
nivel_significancia <- 0.05
valor_critico <- qnorm(nivel_significancia)  # Valor crítico Z

# Crear un rango de valores para la distribución
x <- seq(media_poblacion - 4 * desviacion_estandar, 
         media_poblacion + 4 * desviacion_estandar, 
         length.out = 1000)
y <- dnorm(x, mean = media_poblacion, sd = desviacion_estandar)

# Crear un data frame para ggplot
datos <- data.frame(x = x, y = y)

# Gráfico
ggplot(datos, aes(x = x, y = y)) +
  geom_line(color = "blue", size = 1) +  # Curva de la distribución
  geom_area(data = subset(datos, x <= media_poblacion + valor_critico * desviacion_estandar), 
            aes(x = x, y = y), 
            fill = "red", alpha = 0.5) +  # Región de rechazo
  geom_vline(xintercept = media_poblacion + valor_critico * desviacion_estandar, 
             color = "black", linetype = "dashed", size = 1) +  # Línea del valor crítico
  annotate("text", x = media_poblacion + valor_critico * desviacion_estandar, 
           y = 0.1, label = "Z crítico = -1.645", 
           hjust = 1.2, color = "black") +  # Etiqueta del valor crítico
  labs(title = "Región de rechazo para prueba de una cola (cola izquierda)",
       x = "Media muestral",
       y = "Densidad") +
  theme_minimal()

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

07.7. Ejemplo 7: Distribución de la media muestral para poblaciones desconocidas con muestras grandes

Problema:

Los tiempos de espera para los clientes que pasan por una caja registradora a la salida de una tienda de menudeo son variables aleatorias independientes con una media de 1.5 minutos y una varianza de 1.0. ¿Cuál es la probabilidad de que se pueda atender a 100 clientes en menos de 2 horas?

Solución:

Variable de interés:
$Y =$ tiempo (en minutos) de espera de un cliente para pasar a una caja registradora.
Modelo probabilístico:
$Y \sim f_Y(y, \theta)$, donde $\theta = (\mu, \sigma^2) = (1.5, 1.0)$.
Modelo estadístico:
$Y = (Y_1, Y_2, \dots, Y_{100})$, donde $Y_i =$ tiempo de espera del cliente $i$.
Respuesta a la pregunta:
Calculamos la probabilidad de que el tiempo total de espera para 100 clientes sea menor o igual a 120 minutos:

\[ P\left( \sum_{i=1}^{100} Y_i \leq 120 \right) = P\left( \frac{1}{100} \sum_{i=1}^{100} Y_i \leq \frac{120}{100} \right) = P(\bar{Y} \leq 1.20) \]

Aplicando el TLC:

\[ P(\bar{Y} \leq 1.20) = P\left( \frac{\bar{Y} - \mu}{\sigma / \sqrt{n}} \leq \frac{1.20 - 1.5}{1.0 / \sqrt{100}} \right) \approx P(Z \leq -3.0) = 0.0013 \]

Esta pequeña probabilidad (0.13%) indica que es prácticamente imposible atender a 100 clientes en menos de 2 horas.

08. Aproximación normal de la distribución binomial

Supongamos que $Y \sim B(n, p)$, donde $Y$ es el número de éxitos en $n$ pruebas. Consideremos $Y = \sum_{i=1}^n X_i$, donde:

\[ X_i = \begin{cases} 1, & \text{si el resultado de la } i\text{-ésima prueba es éxito} \\ 0, & \text{si es fracaso} \end{cases} \]

y $X_i$ ($i = 1, 2, \dots, n$) son independientes. Por consiguiente, cuando $n$ es grande, por el TLC, la proporción de éxitos en la muestra:

\[ \frac{Y}{n} = \frac{1}{n} \sum_{i=1}^n X_i = \bar{X} \]

tendrá aproximadamente una distribución normal con media $\mu = E(\bar{X}) = p$ y varianza $V(\bar{X}) = \frac{p(1-p)}{n}$.

08.1. Ejemplo 8. Aproximación normal de la distribución binomial

###Problema:
+ El candidato A considera que puede ganar una elección en una ciudad si obtiene al menos 55% de los votos en el distrito I. Además, supone que alrededor del 50% de los votantes en la ciudad están a su favor. Si $n = 100$ votantes vienen a votar en el distrito I, ¿cuál es la probabilidad de que el candidato A pueda ganar la elección?

Solución:

Variable de interés:
$Y =$ número de votantes en el distrito I a favor del candidato A.
Modelo probabilístico:
$Y \sim B(n, p)$, donde $p = 0.5$ y $n = 100$.
Modelo estadístico:
$Y = (X_1, X_2, \dots, X_{100})$, donde:

\[ X_i = \begin{cases} 1, & \text{si el } i\text{-ésimo votante vota por el candidato A} \\ 0, & \text{otro caso} \end{cases} \]
Respuesta a la pregunta:
Calculamos la probabilidad de que la proporción de votos a favor sea al menos 55%:

\[ P\left( \frac{Y}{n} \geq 0.55 \right) = P\left( \frac{\frac{Y}{n} - p}{\sqrt{p(1-p)/n}} \geq \frac{0.55 - 0.5}{\sqrt{0.5(0.5)/100}} \right) \approx P(Z \geq 1) = 0.1587 \]

La probabilidad de que el candidato A pueda ganar la elección es del 15.87%.

09. Estimación de parámetros poblacionales

09.1. Introducción

El objetivo de la estadística es obtener una inferencia con respecto a la población basándose en la información contenida en una muestra. Como las poblaciones se describen mediante medidas numéricas denominadas parámetros**, la mayoría de las investigaciones se conducen en deducir inferencias acerca de ellos. Los procedimientos de la inferencia estadística involucran ya sea la _estimación__ o la Prueba de Hipótesis, las cuales tienen muchas aplicaciones prácticas.**

09.2. Estimadores Puntuales y sus Propiedades

Básicamente, para que un estimador sea bueno, se desea que la varianza del estimador sea lo más pequeña posible, mientras que la distribución de muestreo debe concentrarse alrededor del valor del parámetro.

Definición

Un estimador $\hat{\theta}$ de un parámetro poblacional $\theta$ es una regla que establece cómo calcular una estimación del parámetro basada en las mediciones contenidas en una muestra aleatoria. Comúnmente, el estimador se expresa mediante una fórmula. Por ejemplo, la media de la muestra:

\[ \bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i \]

es un posible estimador puntual para la media poblacional $\mu$. Es evidente que $\bar{Y}$ es una regla y una fórmula al mismo tiempo.

09.3. Estimadores Insesgados

Se dice que la estadística $\hat{\theta} = H(X_1, X_2, \dots, X_n)$ es un estimador insesgado del parámetro $\theta$ si:

\[ E(\hat{\theta}) = \theta \]

Es decir, si los valores del estimador se centran alrededor del parámetro en cuestión. En caso contrario, se dice que es sesgado.

09.4. Estimadores Insesgados Comunes

En inferencia estadística, los estimadores puntuales insesgados más utilizados son:

Parámetro objetivo: $\theta$	Tamaño	Estimador: $\hat{\theta}$	$E(\hat{\theta})$	$V(\hat{\theta})$
$\mu$	$n$	$\bar{Y}$	$\mu$	$\frac{\sigma^2}{n}$
$p$	$n$	$\hat{p} = \frac{Y}{n}$	$p$	$\frac{pq}{n}$
$\mu_1 - \mu_2$	$n_1$ y $n_2$	$\bar{Y}_1 - \bar{Y}_2$	$\mu_1 - \mu_2$	$\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}$
$p_1 - p_2$	$n_1$ y $n_2$	$\hat{p}_1 - \hat{p}_2$	$p_1 - p_2$	$\frac{p_1 q_1}{n_1} + \frac{p_2 q_2}{n_2}$

09.5. Ejemplo: Estimadores Insesgados y Sesgados

Sea $Y_1, Y_2, \dots, Y_n$ una muestra aleatoria con $E(Y_i) = \mu$ y $V(Y_i) = \sigma^2$. Demuestre que:

$S^{*2} = \frac{1}{n} \sum_{i=1}^n (Y_i - \bar{Y})^2$ es un estimador sesgado para $\sigma^2$.
$S^2 = \frac{1}{n-1} \sum_{i=1}^n (Y_i - \bar{Y})^2$ es un estimador insesgado para $\sigma^2$.

Solución:

Paso 1: Expresamos $(Y_i - \bar{Y})^2$ como: \[ (Y_i - \bar{Y})^2 = Y_i^2 - 2Y_i \bar{Y} + \bar{Y}^2 \]
Paso 2: Sumamos sobre todas las observaciones: \[ \sum_{i=1}^n (Y_i - \bar{Y})^2 = \sum_{i=1}^n Y_i^2 - 2n \bar{Y}^2 + n \bar{Y}^2 = \sum_{i=1}^n Y_i^2 - n \bar{Y}^2 \]
Paso 3: Calculamos la esperanza: \[ E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = E\left( \sum_{i=1}^n Y_i^2 - n \bar{Y}^2 \right) = \sum_{i=1}^n E(Y_i^2) - n E(\bar{Y}^2) \]
Paso 4: Recordamos que: \[ E(Y_i^2) = \sigma^2 + \mu^2 \quad \text{y} \quad E(\bar{Y}^2) = \frac{\sigma^2}{n} + \mu^2 \]
Paso 5: Sustituimos: \[ E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = n(\sigma^2 + \mu^2) - n\left( \frac{\sigma^2}{n} + \mu^2 \right) = (n-1)\sigma^2 \]
Paso 6: Por tanto: \[ E(S^{*2}) = \frac{1}{n} E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = \frac{(n-1)\sigma^2}{n} \] Esto muestra que $S^{*2}$ es sesgado.
Paso 7: Para $S^2$: \[ E(S^2) = \frac{1}{n-1} E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = \sigma^2 \] Por tanto, $S^2$ es insesgado.

09.6. Estimadores Consistentes

Es razonable esperar que un buen estimador de un parámetro $\theta$ sea cada vez mejor conforme crece el tamaño de la muestra y la información se vuelve más completa. La distribución de muestreo de un buen estimador se encuentra cada vez más concentrada alrededor del parámetro $\theta$. Si un estimador es consistente, converge en probabilidad al valor del parámetro que está intentando estimar conforme el tamaño de la muestra crece. Esto implica que la varianza de un estimador consistente disminuye conforme $n$ crece.
Se dice que $\hat{\theta}$ es un estimador consistente de $\theta$ si:

\[ \lim_{n \to \infty} \hat{\theta} = \theta \]

que es equivalente a:

\[ \lim_{n \to \infty} V(\hat{\theta}) = 0 \]

09.7. Estimadores Eficientes (Insesgados de Varianza Mínima)

El hecho de que un estimador sea centrado no garantiza que sus realizaciones caigan cerca del valor del parámetro; hace falta además que tenga la varianza pequeña. La varianza de un estimador insesgado es la cantidad más importante para decidir qué tan bueno es el estimador para estimar el parámetro $\theta$.
Sean $\hat{\theta}_1$ y $\hat{\theta}_2$ cualesquiera dos estimadores insesgados de $\theta$. Se dice que $\hat{\theta}_1$ es un estimador más eficiente de $\theta$ que $\hat{\theta}_2$ si:

\[ V(\hat{\theta}_1) \leq V(\hat{\theta}_2) \]

El cociente:

\[ e = \frac{V(\hat{\theta}_1)}{V(\hat{\theta}_2)} \]

se llama eficiencia relativa de $\hat{\theta}_1$ respecto a $\hat{\theta}_2$, y su valor está entre 0 y 1 ($0 \leq e \leq 1$). Si $e$ está próximo a 0, $\hat{\theta}_1$ es mejor que $\hat{\theta}_2$.

09.8. Bondad de un Estimador

El error de estimación $\epsilon$ es la distancia entre un estimador y su parámetro objetivo. Es decir:

\[ \epsilon = |\hat{\theta} - \theta| \]

Ya que el error de estimación es una cantidad aleatoria, no podemos afirmar qué tan grande o pequeño será para una estimación en particular, pero se pueden establecer enunciados probabilísticos al respecto. Si se conoce la distribución de probabilidad de $\hat{\theta}$, se pueden elegir dos puntos $(\theta - b)$ y $(\theta + b)$ localizados cerca de las colas de la distribución de manera que:

\[ P(\epsilon < b) = P(\theta - b < \hat{\theta} < \theta + b) \]

y $b$ se puede considerar como el límite probabilístico del error de estimación con una alta probabilidad.

09.9. Ejemplo: Estimación de una Proporción

Una muestra de $n = 1000$ votantes, obtenida al azar de una ciudad, mostró $y = 560$ a favor del candidato Gómez. Estime $p$, la fracción de votantes en la población que están a favor de Gómez, y utilice un límite de dos desviaciones estándar para el error de estimación.

Solución:

Utilizamos el estimador $\hat{p} = \frac{Y}{n}$ para estimar $p$. Así, la estimación de $p$ es:

\[ \hat{p} = \frac{560}{1000} = 0.56 \]
La distribución de probabilidad de $\hat{p}$ se aproxima con bastante exactitud mediante la distribución normal para muestras tan grandes como $n = 1000$. Entonces, cuando $b = 2\sigma_{\hat{p}}$, se tiene que $P(\epsilon < b) \approx 0.95$.
Calculamos $b$:

\[ b = 2\sigma_{\hat{p}} = 2\sqrt{\frac{pq}{n}} \]

Como no conocemos $p$, usamos $\hat{p}$ para aproximar:

\[ b \approx 2\sqrt{\frac{(0.56)(0.44)}{1000}} = 0.03 \]
Este resultado significa que la probabilidad de que el error de estimación sea menor que 0.03 es aproximadamente 0.95.

10. Estimación de parámetros por Intervalos de Confianza

El objetivo es encontrar un estimador por intervalos que genere intervalos angostos que contengan a $\theta$ con una alta probabilidad. La probabilidad de que un intervalo de confianza contenga a $\theta$ se conoce como coeficiente de confianza.

10.1. Intervalo de Confianza Bilateral - Deducción del Intervalo de Confianza para la Media con Desviación Poblacional Conocida

10.1.1. Contexto

Supongamos que tenemos una población con: - Media poblacional desconocida: $\mu$. - Desviación estándar poblacional conocida: $\sigma$. - Una muestra aleatoria de tamaño $n$ con media muestral $\overline{X}$.

Queremos construir un intervalo de confianza para $\mu$ con un nivel de confianza $(1 - \alpha) \times 100\%$.

10.1.2. Paso 1: Distribución de la Media Muestral

Por el Teorema del Límite Central, si $n$ es suficientemente grande o la población es normal, la media muestral $\overline{X}$ sigue una distribución normal: \[ \overline{X} \sim \mathcal{N}\left(\mu, \frac{\sigma}{\sqrt{n}}\right). \] Esto implica que: \[ Z = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \sim \mathcal{N}(0, 1). \]

10.1.3. Paso 2: Probabilidad Acumulada y Valor Crítico

Queremos un intervalo simétrico alrededor de $\mu$ tal que: \[ P\left(-z_{\alpha/2} \leq Z \leq z_{\alpha/2}\right) = 1 - \alpha, \] donde: - $z_{\alpha/2}$ es el valor crítico de la distribución normal estándar que deja $\alpha/2$ en la cola superior. - $1 - \alpha$ es el nivel de confianza (ej. 95% si $\alpha = 0.05$).

10.1.3. Paso 3: Despejar $\mu$ en la Desigualdad

Reescribimos la desigualdad en términos de $\mu$: \[ -z_{\alpha/2} \leq \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \leq z_{\alpha/2}. \] Multiplicamos por $\sigma / \sqrt{n}$: \[ -z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \leq \overline{X} - \mu \leq z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}. \] Restamos $\overline{X}$: \[ -\overline{X} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \leq -\mu \leq -\overline{X} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}. \] Multiplicamos por $-1$ (cambiando el sentido de las desigualdades): \[ \overline{X} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}. \]

10.1.4. Fórmula Final del Intervalo de Confianza

El intervalo de confianza para $\mu$ al $(1 - \alpha) \times 100\%$ es: \[ \boxed{ \left( \overline{X} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}, \quad \overline{X} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \right) } \]

10.1.5. Componentes Clave:

Media muestral: $\overline{X}$ (estimador puntual de $\mu$).
Margen de error: $E = z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$.
Valor crítico: $z_{\alpha/2}$ (ejemplo: $z_{0.025} \approx 1.96$ para 95% de confianza).

10.1.6. Ejemplo en R

Si $\overline{X} = 50$, $\sigma = 5$, $n = 30$, y $\alpha = 0.05$ (95% de confianza):

media_muestral <- 50
sigma <- 5
n <- 30
alpha <- 0.05
z_critico <- qnorm(1 - alpha / 2)  # ≈ 1.96

margen_error <- z_critico * sigma / sqrt(n)
intervalo <- c(media_muestral - margen_error, media_muestral + margen_error)

cat("Intervalo de confianza al 95%:", intervalo, "\n")

## Intervalo de confianza al 95%: 48.21081 51.78919

Resultado:
El intervalo es $(48.21, 51.79)$.

Interpretación

Con un 95% de confianza, la media poblacional $\mu$ está entre $\overline{X} \pm E$.
- Precisión: A mayor $n$ o menor $\sigma$, el margen de error $E$ disminuye.
- Validez: Requiere que $\sigma$ sea conocido y la muestra sea aleatoria.

10.1.7. Ejemplo: Intervalo de Confianza para la Media con muestras grandes

Problema. Se registraron los tiempos utilizados en la compra para $n = 64$ clientes seleccionados al azar en el supermercado local. La media y la varianza de los 64 tiempos de compra fueron 33 minutos y 256, respectivamente. Estimar el promedio real, $\mu$, del tiempo utilizado por los clientes en la compra, con un coeficiente de confianza de $1 - \alpha = 0.90$.

Solución:

En este caso, nos interesa el parámetro $\theta = \mu$. Por lo tanto, $\hat{\theta} = \bar{Y}$.
Como la varianza poblacional $\sigma^2$ se desconoce, usamos $S^2$ para estimarla:

\[ \sigma_{\bar{Y}} \approx \frac{S}{\sqrt{n}} = \frac{16}{8} = 2 \]
El intervalo de confianza para $\mu$ es:

\[ \text{IC}(\mu) = \bar{Y} \pm z_{\alpha/2} \cdot \sigma_{\bar{Y}} \approx 33 \pm 1.645 \cdot 2 = (29.71, 36.29) \]
Interpretación: Hay una certeza del 90% de que el tiempo medio real de atención de los clientes en un supermercado local se encuentra entre 29.71 y 36.29 minutos.

10.2. Deducción del Intervalo de Confianza para la Media con Muestras Pequeñas y $\sigma$ Desconocida

10.2.1. Contexto

Cuando tenemos:
Muestra pequeña ($n < 30$)
Desviación poblacional desconocida ($\sigma$)
Población aproximadamente normal

Usamos la distribución t de Student para construir el intervalo.

10.2.2. Paso 1: Estadístico t

El estadístico de prueba es:

\[ T = \frac{\bar{X} - \mu}{s/\sqrt{n}} \sim t_{n-1} \]

donde: - $\bar{X}$ = media muestral - $s$ = desviación estándar muestral - $n$ = tamaño muestral - $t_{n-1}$ = distribución t con $n-1$ grados de libertad

10.2.3. Paso 2: Intervalo de Confianza

Para un nivel de confianza $(1-\alpha)\times 100\%$, el intervalo es:

\[ P\left(-t_{\alpha/2,n-1} \leq \frac{\bar{X}-\mu}{s/\sqrt{n}} \leq t_{\alpha/2,n-1}\right) = 1-\alpha \]

Despejando $\mu$:

\[ \bar{X} - t_{\alpha/2,n-1}\frac{s}{\sqrt{n}} \leq \mu \leq \bar{X} + t_{\alpha/2,n-1}\frac{s}{\sqrt{n}} \]

10.2.4. Fórmula Final

El intervalo de confianza es:

\[ \boxed{IC_{1-\alpha}(\mu) = \left(\bar{X} - t_{\alpha/2,n-1}\frac{s}{\sqrt{n}},\ \bar{X} + t_{\alpha/2,n-1}\frac{s}{\sqrt{n}}\right)} \]

10.2.5. Ejemplo en R

# Datos
x_bar <- 50    # media muestral
s <- 5         # desviación estándar muestral
n <- 10        # tamaño muestral
alpha <- 0.05  # nivel de significancia

# Cálculo
t_crit <- qt(1 - alpha/2, df = n-1)
margen <- t_crit * s / sqrt(n)
IC <- c(x_bar - margen, x_bar + margen)

cat("Intervalo al 95% de confianza: (", IC[1], ", ", IC[2], ")\n", sep = "")

## Intervalo al 95% de confianza: (46.42322, 53.57678)

10.2.6. Comparación con $\sigma$ conocido

Caso	Distribución	Fórmula
$\sigma$ conocido	Normal ($Z$)	$\bar{X} \pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$
$\sigma$ desconocido	$t$-Student	$\bar{X} \pm t_{\alpha/2,n-1}\frac{s}{\sqrt{n}}$

10.2.7. Notas clave

La distribución $t$ tiene colas más pesadas que la normal
Cuando $n \geq 30$, $t \approx Z$
Requiere normalidad de los datos para $n$ pequeño

10.2.8. Ejemplo: Intervalo de Confianza para la Media con Muestra Pequeña

Un fabricante de pólvora desarrolló una nueva fórmula, que se probó con ocho granadas. Las velocidades iniciales resultantes, en pies por segundo, fueron las siguientes: 3005, 2995, 2925, 3005, 2935, 2937, 2965, 2905. Hallar un intervalo de confianza para medir la media real de las velocidades para granadas de este tipo, con coeficiente de confianza de 0.95. Suponga que las velocidades iniciales tienen aproximadamente una distribución normal.

Solución:

Calculamos la media y la desviación estándar de la muestra:

\[ \bar{Y} = 2959, \quad S = 39.1 \]
Para $n = 8$ y $\alpha = 0.05$, el valor crítico de $t$ es $t_{0.025, 7} = 2.365$.
El intervalo de confianza es:

\[ \text{IC}(\mu) = 2959 \pm 2.365 \cdot \frac{39.1}{\sqrt{8}} = 2959 \pm 32.7 \]
Interpretación: El intervalo de confianza para la media real de las velocidades es $(2926.3, 2991.7)$ pies por segundo.

10.3. Deducción del Intervalo de Confianza para la Proporción Poblacional

10.3.1. Contexto

Sea: - $p$ = proporción poblacional desconocida - $\hat{p} = \frac{X}{n}$ = proporción muestral (estimador de $p$) - $n$ = tamaño muestral - $X$ = número de éxitos en la muestra

Queremos construir un intervalo de confianza $(1-\alpha)\times 100\%$ para $p$.

10.3.2. Paso 1: Distribución Muestral

Para $n$ grande (usando el TLC), la proporción muestral sigue aproximadamente:

\[ \hat{p} \sim N\left(p, \sqrt{\frac{p(1-p)}{n}}\right) \]

Estandarizando:

\[ Z = \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \sim N(0,1) \]

10.3.3. Paso 2: Intervalo de Confianza

Queremos encontrar $p$ tal que:

\[ P\left(-z_{\alpha/2} \leq \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \leq z_{\alpha/2}\right) = 1-\alpha \]

Despejando $p$:

\[ \hat{p} - z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}} \leq p \leq \hat{p} + z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}} \]

10.3.4. Paso 3: Aproximación del Error Estándar

Como $p$ es desconocido, aproximamos $\sqrt{\frac{p(1-p)}{n}}$ con $\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$:

\[ \boxed{IC_{1-\alpha}(p) = \left(\hat{p} - z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}},\ \hat{p} + z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right)} \]

10.3.5. Condiciones de Aplicabilidad

Muestra grande: $n\hat{p} \geq 5$ y $n(1-\hat{p}) \geq 5$
Muestreo aleatorio
Observaciones independientes

# Datos
x <- 45     # número de éxitos
n <- 100    # tamaño muestral
alpha <- 0.05

# Cálculos
p_hat <- x/n
z <- qnorm(1 - alpha/2)
margen <- z * sqrt(p_hat*(1-p_hat)/n)
IC <- c(p_hat - margen, p_hat + margen)

cat("Intervalo al 95% de confianza para p: (", 
    round(IC[1],4), ", ", round(IC[2],4), ")\n", sep="")

## Intervalo al 95% de confianza para p: (0.3525, 0.5475)

10.3.6. Versión Conservadora (Máxima Varianza)

Cuando no se tiene información previa, se usa $p=0.5$ para obtener el intervalo más conservador:

\[ \boxed{IC_{1-\alpha}(p) = \left(\hat{p} - z_{\alpha/2}\sqrt{\frac{0.25}{n}},\ \hat{p} + z_{\alpha/2}\sqrt{\frac{0.25}{n}}\right)} \]

10.3.7. Corrección para Muestras Pequeñas

Cuando $n$ es pequeño, se recomienda la corrección de continuidad de Yates:

\[ \hat{p}_{corr} = \frac{X + 0.5z_{\alpha/2}^2}{n + z_{\alpha/2}^2} \]

\[ n_{efectivo} = n + z_{\alpha/2}^2 \]

Y el intervalo se calcula con estos valores ajustados.

10.3.8. Comparación de Métodos

Método	Fórmula	Cuando usar
Estándar	$\hat{p} \pm z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$	$n\hat{p} \geq 5$ y $n(1-\hat{p}) \geq 5$
Conservador	$\hat{p} \pm z_{\alpha/2}\sqrt{\frac{0.25}{n}}$	Cuando no se tiene información previa
Corrección	$\frac{X + 0.5z^2}{n + z^2} \pm z\sqrt{\frac{\hat{p}(1-\hat{p}) + z^2/4n}{n}}$	Muestras pequeñas

10.4. Intervalos de Confianza para Diferencia de Medias

A continuación presento los casos principales para construir intervalos de confianza para la diferencia de medias poblacionales $\mu_1 - \mu_2$:

10.4.1. Caso 1: Varianzas Poblacionales Conocidas ($\sigma_1^2$, $\sigma_2^2$ conocidas)

Fórmula: \[ \boxed{IC_{1-\alpha}(\mu_1 - \mu_2) = (\bar{X}_1 - \bar{X}_2) \pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \]

Supuestos: - Poblaciones normales o $n_1, n_2 \geq 30$ (por TLC) - Muestras independientes - Varianzas poblacionales conocidas

10.4.2. Varianzas Desconocidas pero Iguales ($\sigma_1^2 = \sigma_2^2$)

Fórmula: \[ \boxed{IC_{1-\alpha}(\mu_1 - \mu_2) = (\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2, n_1+n_2-2}\cdot s_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \] donde $s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}$ es la varianza combinada.

Supuestos: - Poblaciones aproximadamente normales - Muestras independientes - Varianzas homogéneas (verificable con test F)

10.4.2.1. Ejemplo: Comparación de dos métodos de entrenamiento

Problema:
Se compararon dos métodos de entrenamiento para empleados en una fábrica. Los tiempos de montaje (en minutos) para cada grupo fueron:

Método Estándar: 32, 37, 35, 28, 41, 44, 35, 31, 34
Método Nuevo: 35, 31, 29, 25, 34, 40, 27, 32, 31

Estime la diferencia real de las medias $(\mu_1 - \mu_2)$ con un coeficiente de confianza de 0.95. Suponga que los tiempos de montaje tienen aproximadamente una distribución normal y que las varianzas son aproximadamente iguales para los dos métodos.

Solución:

Cálculo de las medias y varianzas muestrales:
- Para el método estándar: \[ \bar{Y}_1 = 35.22, \quad S_1^2 = 195.56 \]
- Para el método nuevo: \[ \bar{Y}_2 = 31.56, \quad S_2^2 = 160.22 \]
Cálculo de la varianza combinada $S_p^2$: \[ S_p^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2} = \frac{(9-1)195.56 + (9-1)160.22}{9 + 9 - 2} = 22.24 \]
Cálculo del intervalo de confianza para $\mu_1 - \mu_2$:
- El valor crítico de $t$ para $\alpha = 0.05$ y $16$ grados de libertad es $t_{0.025, 16} = 2.12$.
- El intervalo de confianza es: \[ \text{IC}(\mu_1 - \mu_2) = (\bar{Y}_1 - \bar{Y}_2) \pm t_{\alpha/2, n_1 + n_2 - 2} \cdot S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} \] Sustituyendo los valores: \[ \text{IC}(\mu_1 - \mu_2) = (35.22 - 31.56) \pm 2.12 \cdot 4.71 \cdot \sqrt{\frac{1}{9} + \frac{1}{9}} = 3.66 \pm 4.71 \]
Interpretación:
El intervalo de confianza para la diferencia de medias es $(-1.05, 8.37)$. Este intervalo incluye tanto valores positivos como negativos, lo que indica que no hay evidencia estadística significativa para afirmar que haya una diferencia entre ambos procedimientos.

10.4.3. Varianzas Desconocidas y Diferentes ($\sigma_1^2 \neq \sigma_2^2$)

Fórmula (aproximación de Welch): \[ \boxed{IC_{1-\alpha}(\mu_1 - \mu_2) = (\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2, \nu}\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \] con grados de libertad $\nu$ aproximados por: \[ \nu = \frac{\left(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\right)^2}{\frac{(s_1^2/n_1)^2}{n_1-1} + \frac{(s_2^2/n_2)^2}{n_2-1}} \]

Supuestos: - Poblaciones aproximadamente normales - Muestras independientes - Varianzas heterogéneas

10.4.4. Caso 4: Muestras Pareadas (Datos Dependientes)

Fórmula: \[ \boxed{IC_{1-\alpha}(\mu_D) = \bar{D} \pm t_{\alpha/2, n-1}\frac{s_D}{\sqrt{n}}} \] donde $D_i = X_{1i} - X_{2i}$ son las diferencias pareadas.

Supuestos: - Diferencias normalmente distribuidas - Observaciones apareadas/dependientes

10.4.5. Resumen Comparativo

Caso	Varianzas	Muestras	Fórmula Clave	Grados Libertad
1	Conocidas	Independientes	$z\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}$	-
2	Iguales	Independientes	$t s_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}$	$n_1+n_2-2$
3	Diferentes	Independientes	$t\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}$	$\nu$ (Welch)
4	-	Pareadas	$t \frac{s_D}{\sqrt{n}}$	$n-1$

10.4.6. Selección del Método Adecuado

Verificar si las muestras son independientes o pareadas
Para muestras independientes:
- Si varianzas conocidas → Caso 1
- Si varianzas desconocidas:
  - Realizar prueba de igualdad de varianzas (F-test o Levene)
  - Si varianzas iguales → Caso 2
  - Si varianzas diferentes → Caso 3
Para muestras pareadas → Caso 4

10.5. Ejemplos Prácticos para Cada Caso de Diferencia de Medias

10.5.1. Caso 1: Varianzas Poblacionales Conocidas

Contexto:
Comparación del rendimiento de 2 máquinas. Se conocen las varianzas históricas: - Máquina 1: $\sigma_1^2 = 4$, $n_1 = 30$, $\bar{X}_1 = 100$ unidades/hora - Máquina 2: $\sigma_2^2 = 9$, $n_2 = 35$, $\bar{X}_2 = 98$ unidades/hora - Nivel de confianza: 95%

Cálculo en R:

# Parámetros
sigma1 <- 2  # sqrt(4)
sigma2 <- 3  # sqrt(9)
n1 <- 30; xbar1 <- 100
n2 <- 35; xbar2 <- 98
alpha <- 0.05

# Valor crítico
z <- qnorm(1 - alpha/2)

# Margen de error
margen <- z * sqrt(sigma1^2/n1 + sigma2^2/n2)

# Intervalo
IC <- c((xbar1 - xbar2) - margen, (xbar1 - xbar2) + margen)

cat("IC 95% para diferencia de medias (varianzas conocidas): [", 
    round(IC[1], 2), ", ", round(IC[2], 2), "]\n", sep = "")

## IC 95% para diferencia de medias (varianzas conocidas): [0.78, 3.22]

10.5.2. Caso 2: Varianzas Desconocidas pero Iguales

Contexto:
Comparación de calificaciones en 2 grupos de estudiantes (misma prueba): - Grupo A: $n_1 = 20$, $\bar{X}_1 = 78$, $s_1 = 5$ - Grupo B: $n_2 = 25$, $\bar{X}_2 = 75$, $s_2 = 6$ - Test F confirma varianzas iguales ($p = 0.45$) - Nivel de confianza: 99%

Cálculo en R:

# Datos
n1 <- 20; xbar1 <- 78; s1 <- 5
n2 <- 25; xbar2 <- 75; s2 <- 6
alpha <- 0.01

# Varianza combinada
sp <- sqrt(((n1-1)*s1^2 + (n2-1)*s2^2)/(n1 + n2 - 2))

# Valor crítico t
t <- qt(1 - alpha/2, df = n1 + n2 - 2)

# Margen de error
margen <- t * sp * sqrt(1/n1 + 1/n2)

# Intervalo
IC <- c((xbar1 - xbar2) - margen, (xbar1 - xbar2) + margen)

cat("IC 99% para diferencia de medias (varianzas iguales): [", 
    round(IC[1], 2), ", ", round(IC[2], 2), "]\n", sep = "")

## IC 99% para diferencia de medias (varianzas iguales): [-1.51, 7.51]

10.5.3. Caso 3: Varianzas Desconocidas y Diferentes (Welch)

Contexto:
Tiempos de respuesta de 2 algoritmos: - Algoritmo X: $n_1 = 15$, $\bar{X}_1 = 120$ ms, $s_1 = 25$ ms - Algoritmo Y: $n_2 = 20$, $\bar{X}_2 = 110$ ms, $s_2 = 15$ ms - Test F rechaza igualdad de varianzas ($p = 0.02$) - Nivel de confianza: 90%

Cálculo en R:

# Datos
n1 <- 15; xbar1 <- 120; s1 <- 25
n2 <- 20; xbar2 <- 110; s2 <- 15
alpha <- 0.10

# Grados de libertad (Welch-Satterthwaite)
nu <- (s1^2/n1 + s2^2/n2)^2 / 
      ((s1^2/n1)^2/(n1-1) + (s2^2/n2)^2/(n2-1))

# Valor crítico t
t <- qt(1 - alpha/2, df = nu)

# Margen de error
margen <- t * sqrt(s1^2/n1 + s2^2/n2)

# Intervalo
IC <- c((xbar1 - xbar2) - margen, (xbar1 - xbar2) + margen)

cat("IC 90% para diferencia de medias (Welch): [", 
    round(IC[1], 2), ", ", round(IC[2], 2), "]\n", sep = "")

## IC 90% para diferencia de medias (Welch): [-2.51, 22.51]

10.5.4. Caso 4: Muestras Pareadas

Contexto:
Presión arterial antes/después de un tratamiento (10 pacientes):

Paciente	Antes	Después	Diferencia
1	140	132	-8
…	…	…	…
10	135	128	-7

Media diferencias: $\bar{D} = -6.5$
Desviación diferencias: $s_D = 2.5$
Nivel de confianza: 95%

Cálculo en R:

# Datos
n <- 10
D_bar <- -6.5
s_D <- 2.5
alpha <- 0.05

# Valor crítico t
t <- qt(1 - alpha/2, df = n-1)

# Margen de error
margen <- t * s_D / sqrt(n)

# Intervalo
IC <- c(D_bar - margen, D_bar + margen)

cat("IC 95% para diferencia pareada: [", 
    round(IC[1], 2), ", ", round(IC[2], 2), "]\n", sep = "")

## IC 95% para diferencia pareada: [-8.29, -4.71]

10.6. Intervalo de Confianza para el Cociente de Varianzas

10.6.1. Definición

El intervalo de confianza para el cociente de dos varianzas poblacionales ($\sigma_1^2/\sigma_2^2$) se construye utilizando la distribución F. Sean $s_1^2$ y $s_2^2$ las varianzas muestrales de dos muestras independientes de tamaños $n_1$ y $n_2$ respectivamente, extraídas de poblaciones normales.

10.6.2. Construcción del Intervalo

El intervalo de confianza del $(1-\alpha)\times 100\%$ para $\frac{\sigma_1^2}{\sigma_2^2}$ está dado por:

\[ \left( \frac{s_1^2}{s_2^2} \cdot \frac{1}{F_{\alpha/2, n_1-1, n_2-1}}, \frac{s_1^2}{s_2^2} \cdot F_{\alpha/2, n_2-1, n_1-1} \right) \]

Donde: - $F_{\alpha/2, n_1-1, n_2-1}$ es el valor crítico superior de la distribución F con $n_1-1$ grados de libertad en el numerador y $n_2-1$ grados de libertad en el denominador - $F_{\alpha/2, n_2-1, n_1-1}$ es el valor crítico superior con los grados de libertad invertidos

10.6.3. Ejemplo práctico

Datos del Problema

Tenemos los siguientes datos muestrales: - Desviación estándar muestra 1 ($s_1$): 5.2 - Desviación estándar muestra 2 ($s_2$): 4.8 - Tamaño muestra 1 ($n_1$): 30 - Tamaño muestra 2 ($n_2$): 25 - Nivel de confianza: 95%

Paso 1: Calcular el cociente de varianzas muestrales

El cociente observado es:

\[ \frac{s_1^2}{s_2^2} = \frac{5.2^2}{4.8^2} = \frac{27.04}{23.04} = 1.1736111 \]

ratio_observado <- s1^2 / s2^2
ratio_observado

## [1] 1.173611

Paso 2: Encontrar los valores críticos F

Necesitamos los percentiles de la distribución F con: - Grados de libertad numerador: $n_1-1 = 29$ - Grados de libertad denominador: $n_2-1 = 24$

Para $\alpha = 1 - 0.95 = 0.05$:

\[ F_{\alpha/2, n_1-1, n_2-1} = F_{0.025, 29, 24} = 2.2174427 \]

\[ F_{\alpha/2, n_2-1, n_1-1} = F_{0.025, 24, 29} = 2.154006 \]

alpha <- 1 - conf.level
f_lower <- qf(alpha/2, n1-1, n2-1, lower.tail = FALSE)
f_upper <- qf(alpha/2, n2-1, n1-1, lower.tail = FALSE)
f_lower;f_upper

## [1] 2.217443

## [1] 2.154006

Paso 3: Construir el intervalo de confianza

El intervalo se calcula como:

\[ \left( \frac{s_1^2}{s_2^2} \cdot \frac{1}{F_{\alpha/2, n_2-1, n_1-1}}, \frac{s_1^2}{s_2^2} \cdot F_{\alpha/2, n_1-1, n_2-1} \right) \]

Sustituyendo valores:

\[ \left( 1.1736111 \times \frac{1}{2.154006}, 1.1736111 \times 2.2174427 \right) = (0.5448504, 2.6024154) \]

lower_bound <- ratio_observado / f_upper
upper_bound <- ratio_observado * f_lower
lower_bound

## [1] 0.5448504

upper_bound

## [1] 2.602415

Paso 4: Resultado Final

El intervalo de confianza del 95% para $\frac{\sigma_1^2}{\sigma_2^2}$ es:

\[ (0.545, 2.602) \]

Paso 5: Visualización Gráfica

library(ggplot2)

df <- data.frame(
  Estadistico = "Cociente varianzas",
  Valor = ratio_observado,
  Lower = lower_bound,
  Upper = upper_bound
)

ggplot(df, aes(x = Estadistico, y = Valor)) +
  geom_point(size = 3, color = "blue") +
  geom_errorbar(aes(ymin = Lower, ymax = Upper), width = 0.2, color = "red", linewidth = 1) +
  geom_hline(yintercept = 1, linetype = "dashed", color = "darkgreen") +
  labs(title = "Intervalo de confianza para el cociente de varianzas",
       subtitle = paste0("Nivel de confianza del ", conf.level*100, "%"),
       y = expression(frac(sigma[1]^2, sigma[2]^2)),
       x = "") +
  theme_minimal() +
  scale_y_continuous(limits = c(0, max(upper_bound)*1.1))

Interpretación

Con una confianza del 95%, podemos afirmar que el verdadero cociente de varianzas poblacionales $\frac{\sigma_1^2}{\sigma_2^2}$ se encuentra entre 0.545 y 2.602.
La línea verde discontinua representa el valor 1 (igualdad de varianzas). Como nuestro intervalo incluye el valor 1, por lo que no podemos rechazar la hipótesis de igualdad de varianzas.

10.6.4. Implementación Ejemplo práctico en R

# Ejemplo práctico en R
varianza_intervalo <- function(s1, s2, n1, n2, conf.level = 0.95) {
  alpha <- 1 - conf.level
  ratio <- s1^2 / s2^2
  f_lower <- qf(alpha/2, n1-1, n2-1, lower.tail = TRUE)
  f_upper <- qf(alpha/2, n2-1, n1-1, lower.tail = FALSE)
  
  lower_bound <- ratio * (1/f_upper)
  upper_bound <- ratio * (1/f_lower)
  
  c(lower = lower_bound, upper = upper_bound)
}

# Ejemplo con datos
s1 <- 5.2
s2 <- 4.8
n1 <- 30
n2 <- 25
conf.level <- 0.95

intervalo <- varianza_intervalo(s1, s2, n1, n2, conf.level)
intervalo

##     lower     upper 
## 0.5448504 2.5279654

10.6.5. Interpretación

Para el ejemplo con $s_1 = 5.2$, $s_2 = 4.8$, $n_1 = 30$ y $n_2 = 25$, el intervalo de confianza del 95% para $\frac{\sigma_1^2}{\sigma_2^2}$ es:

\[ (0.545, 2.528) \]

Esto significa que podemos estar un 95% seguros de que el verdadero cociente de varianzas poblacionales se encuentra entre 0.545 y 2.528.

10.6.6. Supuestos

Ambas muestras provienen de poblaciones normalmente distribuidas
Las muestras son independientes entre sí
Las varianzas son finitas y positivas

10.7. Ejemplo práctico de Intervalo de confianza para el Cociente de Varianzas y la Diferencia de Medias

Problema. Se quiere comparar la variacion de cierta sustancia toxica en dos rios, cuyas aguas sufren contaminación industrial, con el fin de vigilar la calidad del agua para la cría de peces. Se eligen 10 muestras de agua del primer río y 7 del segundo. Los niveles de la sustancia tóxica determinados en el laboratorio, en ppm, se recogen en la siguiente tabla: Río 1: 9, 8, 10, 12, 13, 12, 10,14,10,12; Río 2: 7, 10, 8,8,9,10,8. Suponga que el muestreo se hizo con dos poblaciones independientes distribuidas normalmente: (a) Dar un intervalo de confianza del 95% para el cociente de varianzas poblacionales, y responda si se puede admitir que las dos varianzas son diferentes. (b) Dar un intervalo de confianza para la diferencia de medias poblacionales y responda si se puede admitir que las dos medias son diferentes.

10.7.1. Solución del Problema

Datos:

Río 1: 9, 8, 10, 12, 13, 12, 10, 14, 10, 12
Tamaño de muestra ($n_1$): 10
Media muestral ($\bar{X}_1$):
\[ \bar{X}_1 = \frac{9 + 8 + 10 + 12 + 13 + 12 + 10 + 14 + 10 + 12}{10} = \frac{110}{10} = 11 \text{ ppm} \]
Varianza muestral ($S_1^2$):
\[ S_1^2 = \frac{\sum (X_i - \bar{X}_1)^2}{n_1 - 1} = \frac{(9-11)^2 + (8-11)^2 + \dots + (12-11)^2}{9} = \frac{34}{9} \approx 3.7778 \text{ ppm}^2 \]
Río 2: 7, 10, 8, 8, 9, 10, 8
Tamaño de muestra ($n_2$): 7
Media muestral ($\bar{X}_2$):
\[ \bar{X}_2 = \frac{7 + 10 + 8 + 8 + 9 + 10 + 8}{7} = \frac{60}{7} \approx 8.5714 \text{ ppm} \]
Varianza muestral ($S_2^2$):
\[ S_2^2 = \frac{\sum (Y_i - \bar{X}_2)^2}{n_2 - 1} = \frac{(7-8.5714)^2 + \dots + (8-8.5714)^2}{6} \approx \frac{8.8571}{6} \approx 1.4762 \text{ ppm}^2 \]

10.7.2. (a) Intervalo de Confianza para el Cociente de Varianzas ($\sigma_1^2 / \sigma_2^2$)

Suponiendo que las poblaciones son normales e independientes, el intervalo de confianza del 95% para el cociente de varianzas está dado por:
\[ \left( \frac{S_1^2 / S_2^2}{F_{\alpha/2, n_1-1, n_2-1}}, \frac{S_1^2 / S_2^2}{F_{1-\alpha/2, n_1-1, n_2-1}} \right) \]
$\alpha = 0.05$, $\alpha/2 = 0.025$
$S_1^2 / S_2^2 = 3.7778 / 1.4762 \approx 2.5598$
Valores críticos de la distribución $F$:
- $F_{0.025, 9, 6} \approx 5.1116$ (percentil superior)
- $F_{0.975, 9, 6} = 1 / F_{0.025, 6, 9} \approx 1 / 4.3197 \approx 0.2315$

Intervalo de confianza:
\[ \left( \frac{2.5598}{5.1116}, \frac{2.5598}{0.2315} \right) \approx (0.5008, 11.056) \]

Conclusión:
Como el intervalo incluye el valor 1, no se puede rechazar la hipótesis de que las varianzas son iguales (no hay evidencia suficiente para afirmar que son diferentes).

10.7.3. (b) Intervalo de Confianza para la Diferencia de Medias ($\mu_1 - \mu_2$)

Dado que en (a) no se rechaza la igualdad de varianzas, usamos el intervalo de confianza basado en la distribución $t$ con varianzas iguales (agrupadas).
Varianza agrupada ($S_p^2$):
\[ S_p^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2} = \frac{9 \times 3.7778 + 6 \times 1.4762}{15} \approx \frac{34 + 8.8571}{15} \approx 2.8571 \]
Error estándar de la diferencia:
\[ SE = \sqrt{S_p^2 \left( \frac{1}{n_1} + \frac{1}{n_2} \right)} = \sqrt{2.8571 \left( \frac{1}{10} + \frac{1}{7} \right)} \approx \sqrt{2.8571 \times 0.2429} \approx 0.8333 \]
Grados de libertad: $n_1 + n_2 - 2 = 15$
Valor crítico $t_{0.025, 15} \approx 2.1314$
Intervalo de confianza: \[ (\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2, df} \times SE = (11 - 8.5714) \pm 2.1314 \times 0.8333 \approx 2.4286 \pm 1.776 \]
Límites: $(0.6526, 4.2046)$

Conclusión:
Como el intervalo no incluye el 0, hay evidencia de que las medias son diferentes ($\mu_1 > \mu_2$).

10.7.4. Solución en R

# Datos
rio1 <- c(9, 8, 10, 12, 13, 12, 10, 14, 10, 12)
rio2 <- c(7, 10, 8, 8, 9, 10, 8)

# (a) Intervalo para el cociente de varianzas
var_test <- var.test(rio1, rio2, conf.level = 0.95)
cat("Intervalo de confianza para el cociente de varianzas (σ1²/σ2²):\n")

## Intervalo de confianza para el cociente de varianzas (σ1²/σ2²):

print(var_test$conf.int)

## [1]  0.5006751 11.9458974
## attr(,"conf.level")
## [1] 0.95

# (b) Intervalo para la diferencia de medias (asumiendo varianzas iguales)
t_test <- t.test(rio1, rio2, var.equal = TRUE, conf.level = 0.95)
cat("\nIntervalo de confianza para la diferencia de medias (μ1 - μ2):\n")

## 
## Intervalo de confianza para la diferencia de medias (μ1 - μ2):

print(t_test$conf.int)

## [1] 0.719429 4.137714
## attr(,"conf.level")
## [1] 0.95

10.7.5. Solución en R - completa

# Datos
rio1 <- c(9, 8, 10, 12, 13, 12, 10, 14, 10, 12)
rio2 <- c(7, 10, 8, 8, 9, 10, 8)

# (a) Intervalo para el cociente de varianzas
var_test <- var.test(rio1, rio2, conf.level = 0.95)
cat("Intervalo de confianza para el cociente de varianzas (σ1²/σ2²):\n")

## Intervalo de confianza para el cociente de varianzas (σ1²/σ2²):

print(var_test$conf.int)

## [1]  0.5006751 11.9458974
## attr(,"conf.level")
## [1] 0.95

# (b) Intervalo para la diferencia de medias (asumiendo varianzas iguales)
t_test <- t.test(rio1, rio2, var.equal = TRUE, conf.level = 0.95)
cat("\nIntervalo de confianza para la diferencia de medias (μ1 - μ2):\n")

## 
## Intervalo de confianza para la diferencia de medias (μ1 - μ2):

print(t_test$conf.int)

## [1] 0.719429 4.137714
## attr(,"conf.level")
## [1] 0.95

# --- Gráficos ---
par(mfrow = c(1, 2))  # Divide la ventana gráfica en 1 fila y 2 columnas

# Gráfico 1: Boxplot para comparar las distribuciones de los datos
boxplot(list(Río1 = rio1, Río2 = rio2), 
        col = c("lightblue", "lightgreen"),
        main = "Niveles de sustancia tóxica (ppm)",
        xlab = "Río", ylab = "Concentración (ppm)")

# Gráfico 2: Intervalos de confianza
# Preparamos los datos para el gráfico de intervalos
ic_var <- var_test$conf.int
ic_medias <- t_test$conf.int

plot(1, type = "n", xlim = c(0.5, 2.5), ylim = c(0, max(ic_var, ic_medias) + 2),
     main = "Intervalos de Confianza del 95%",
     xlab = "", ylab = "Valor", xaxt = "n")
axis(1, at = c(1, 2), labels = c("IC(σ1²/σ2²)", "IC(μ1 - μ2)"))

# Intervalo para el cociente de varianzas
segments(1, ic_var[1], 1, ic_var[2], lwd = 2, col = "blue")
points(1, var_test$estimate, pch = 19, col = "blue")
text(1, max(ic_var) + 1, labels = paste0("(", round(ic_var[1], 2), ", ", round(ic_var[2], 2), ")"), cex = 0.8)

# Intervalo para la diferencia de medias
segments(2, ic_medias[1], 2, ic_medias[2], lwd = 2, col = "red")
points(2, t_test$estimate[1] - t_test$estimate[2], pch = 19, col = "red")
text(2, max(ic_medias) + 1, labels = paste0("(", round(ic_medias[1], 2), ", ", round(ic_medias[2], 2), ")"), cex = 0.8)

# Línea de referencia para el cociente de varianzas (1 = varianzas iguales)
abline(h = 1, lty = 2, col = "green")

# Línea de referencia para la diferencia de medias (0 = no diferencia)
abline(h = 0, lty = 2, col = "orange")

10.8. Aplicación del Intervalo para el cociente de varianza

10.8.1. Problema

Usted trabaja para una compañía que fabrica propulsores para uso en motores de turbina y se desempeña como ingeniero de producción. La compañía le ha encomendado la tarea de seleccionar el proceso que tenga la menor variabilidad en la rugosidad de la superficie. Para ello, usted toma una muestra de $𝑛_1 = 16$ partes del primer proceso, la cual tiene una desviación estándar de $4.7$ micropulgadas, y una muestra aleatoria de $𝑛_2 = 16$ partes del segundo proceso, la cual tiene una desviación estándar de $5.1$ micropulgadas. Use un intervalo de confianza de 90% para responder a la tarea que le fue encargada

10.8.2. Solución al Problema de Comparación de Variabilidad en Procesos

1. Planteamiento del Problema

Se desea determinar cuál de dos procesos de fabricación de propulsores tiene menor variabilidad en la rugosidad de la superficie, utilizando un intervalo de confianza del 90% para el cociente de varianzas ($\sigma_1^2 / \sigma_2^2$).

Datos:
- Proceso 1:
- Tamaño de muestra ($n_1$): $16$ partes.
- Desviación estándar muestral ($s_1$): $4.7$ micropulgadas.
- Varianza muestral ($s_1^2$): $4.7^2 = 22.09$.

Proceso 2:
- Tamaño de muestra ($n_2$): $16$ partes.
- Desviación estándar muestral ($s_2$): $5.1$ micropulgadas.
- Varianza muestral ($s_2^2$): $5.1^2 = 26.01$.

2. Método Estadístico

Para comparar la variabilidad de dos poblaciones normales independientes, se utiliza un intervalo de confianza para el cociente de varianzas basado en la distribución $F$ de Fisher-Snedecor:
\[ \left( \frac{s_1^2 / s_2^2}{F_{\alpha/2, n_1-1, n_2-1}}, \frac{s_1^2 / s_2^2}{F_{1-\alpha/2, n_1-1, n_2-1}} \right) \]
- Nivel de confianza: $90\%$ ($\alpha = 0.10$).
- Grados de libertad: $df_1 = n_1 - 1 = 15$, $df_2 = n_2 - 1 = 15$.

3. Cálculo del Intervalo de Confianza

Paso 1: Calcular el cociente de varianzas muestrales:
\[ \frac{s_1^2}{s_2^2} = \frac{22.09}{26.01} \approx 0.849. \]

Paso 2: Obtener los valores críticos de la distribución $F$:
- $F_{0.05, 15, 15}$ (percentil superior al $5\%$): $2.40$.
- $F_{0.95, 15, 15}$ (percentil inferior al $5\%$):
\[ F_{0.95, 15, 15} = \frac{1}{F_{0.05, 15, 15}} = \frac{1}{2.40} \approx 0.4167. \]

Paso 3: Construir el intervalo:
\[ \left( \frac{0.849}{2.40}, \frac{0.849}{0.4167} \right) = \left( 0.354, 2.037 \right). \]

4. Interpretación del Resultado

El intervalo de confianza del $90\%$ para $\sigma_1^2 / \sigma_2^2$ es $(0.354, 2.037)$.
Incluye el valor $1$: Esto indica que no hay evidencia estadística para afirmar que las varianzas poblacionales son diferentes al $90\%$ de confianza.
Conclusión:
- Ambos procesos tienen variabilidades estadísticamente equivalentes en rugosidad superficial.
- Si se busca minimizar la variabilidad, no hay preferencia entre los procesos basada en estos datos.

5. Verificación en R

# Datos
n1 <- 16; s1 <- 4.7; var1 <- s1^2
n2 <- 16; s2 <- 5.1; var2 <- s2^2
confianza <- 0.90
alpha <- 1 - confianza

# Cociente de varianzas
cociente <- var1 / var2

# Valores críticos de F
F_sup <- qf(1 - alpha/2, df1 = n1-1, df2 = n2-1)  # 2.40
F_inf <- qf(alpha/2, df1 = n1-1, df2 = n2-1)      # 0.4167

# Intervalo de confianza
IC_inf <- cociente / F_sup
IC_sup <- cociente / F_inf

cat("Intervalo del 90% para σ1²/σ2²:", round(IC_inf, 3), "-", round(IC_sup, 3))

## Intervalo del 90% para σ1²/σ2²: 0.353 - 2.041

6. Recomendación para la Compañía

Acción: Realizar un análisis con muestras más grandes o un nivel de confianza mayor (ej: $95\%$) para aumentar la potencia estadística.
Alternativa: Evaluar otros parámetros de calidad (ej: media de rugosidad, costos) para decidir entre procesos.

Nota: Si el intervalo no hubiera incluido el $1$ (ej: si el límite superior fuera $< 1$), el Proceso $1$ tendría menor variabilidad. En este caso, no se puede afirmar.

11. Intervalo de Confianza para la Varianza Poblacional ($\sigma^2$)

11.1. Con Media Conocida

En estadística, cuando se conoce la media poblacional ($\mu$) y se desea estimar la varianza poblacional ($\sigma^2$), se utiliza una distribución basada en la suma de cuadrados de las desviaciones respecto a la media verdadera. A continuación, se presenta la teoría y la metodología para construir este intervalo de confianza.

11.1.1. Supuestos

Población normal: Los datos provienen de una distribución normal, es decir, $X \sim N(\mu, \sigma^2)$.
Media conocida ($\mu$): El valor de la media poblacional es conocido.
Muestra aleatoria: Se tiene una muestra de $n$ observaciones independientes e idénticamente distribuidas (i.i.d.).

11.1.2. Estadístico Pivotal

Para construir el intervalo de confianza, se utiliza el estadístico: \[ Q = \frac{\sum_{i=1}^n (X_i - \mu)^2}{\sigma^2} \] Este estadístico sigue una distribución chi-cuadrado ($\chi^2$) con $n$ grados de libertad (no $n-1$, porque $\mu$ es conocido): \[ Q \sim \chi^2(n) \]

11.1.3. Intervalo de Confianza para $\sigma^2$

Dado un nivel de confianza $(1 - \alpha) \times 100\%$, el intervalo se construye como: \[ P\left( \chi^2_{1-\alpha/2, n} \leq \frac{\sum (X_i - \mu)^2}{\sigma^2} \leq \chi^2_{\alpha/2, n} \right) = 1 - \alpha \] Despejando $\sigma^2$, se obtiene: \[ \sigma^2 \in \left( \frac{\sum (X_i - \mu)^2}{\chi^2_{\alpha/2, n}}, \frac{\sum (X_i - \mu)^2}{\chi^2_{1-\alpha/2, n}} \right) \]

11.1.4. Pasos para Calcular el Intervalo

Calcular la suma de cuadrados: \[ S_{\mu}^2 = \sum_{i=1}^n (X_i - \mu)^2 \]
Obtener los cuantiles de la distribución $\chi^2$:
- $\chi^2_{\alpha/2, n}$: Cuantil superior $\alpha/2$ con $n$ grados de libertad.
- $\chi^2_{1-\alpha/2, n}$: Cuantil inferior $1 - \alpha/2$ con $n$ grados de libertad.
Construir el intervalo: \[ \left( \frac{S_{\mu}^2}{\chi^2_{\alpha/2, n}}, \frac{S_{\mu}^2}{\chi^2_{1-\alpha/2, n}} \right) \]

11.1.5. Ejemplo Numérico

Supongamos que: - Media conocida ($\mu$): 10. - Muestra: $X = \{9, 11, 10, 8, 12\}$ ($n = 5$). - Nivel de confianza: 95% ($\alpha = 0.05$).

Cálculos

Suma de cuadrados: \[ S_{\mu}^2 = (9-10)^2 + (11-10)^2 + (10-10)^2 + (8-10)^2 + (12-10)^2 = 1 + 1 + 0 + 4 + 4 = 10 \]
Cuantiles $\chi^2$ (con $n = 5$):
- $\chi^2_{0.025, 5} \approx 12.833$ (límite superior).
- $\chi^2_{0.975, 5} \approx 0.831$ (límite inferior).
Intervalo para $\sigma^2$: \[ \left( \frac{10}{12.833}, \frac{10}{0.831} \right) \approx (0.78, 12.03) \]

Interpretación: Con un 95% de confianza, la varianza poblacional $\sigma^2$ está entre $0.78$ y $12.03$.

Implementación en R

# Datos
mu <- 10
muestra <- c(9, 11, 10, 8, 12)
n <- length(muestra)
confianza <- 0.95
alpha <- 1 - confianza

# Suma de cuadrados respecto a mu
S2_mu <- sum((muestra - mu)^2)

# Cuantiles chi-cuadrado
chi_sup <- qchisq(1 - alpha/2, df = n)
chi_inf <- qchisq(alpha/2, df = n)

# Intervalo de confianza
IC_inf <- S2_mu / chi_sup
IC_sup <- S2_mu / chi_inf

cat("Intervalo de confianza al 95% para σ²:", IC_inf, ",", IC_sup)

## Intervalo de confianza al 95% para σ²: 0.7792713 , 12.03063

11.2. Intervalo de Confianza para la Varianza Poblacional ($\sigma^2$) con Media Desconocida

Cuando la media poblacional ($\mu$) no es conocida, se utiliza la cuasivarianza muestral ($S^2$) como estimador de $\sigma^2$, y la distribución de referencia cambia. A continuación, se detalla la teoría y metodología para este caso común en la práctica estadística.

11.2.1. Supuestos Clave

Población normal: $X \sim N(\mu, \sigma^2)$.
Media desconocida ($\mu$): Se estima mediante la media muestral $\bar{X}$.
Muestra aleatoria: $X_1, X_2, \dots, X_n$ son i.i.d.

11.2.2. Estadístico Pivotal

El estadístico pivotal se basa en la cuasivarianza muestral ($S^2$): \[ S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 \] Bajo los supuestos, la cantidad: \[ Q = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) \] sigue una distribución chi-cuadrado con $n-1$ grados de libertad (no $n$, porque se estimó $\mu$ con $\bar{X}$).

11.2.3. Intervalo de Confianza para $\sigma^2$

Para un nivel de confianza $(1-\alpha) \times 100\%$, el intervalo se deriva de: \[ P\left( \chi^2_{1-\alpha/2, n-1} \leq \frac{(n-1)S^2}{\sigma^2} \leq \chi^2_{\alpha/2, n-1} \right) = 1 - \alpha \] Despejando $\sigma^2$: \[ \sigma^2 \in \left( \frac{(n-1)S^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2, n-1}} \right) \]

11.2.4. Pasos para Construir el Intervalo

Calcular la media muestral ($\bar{X}$) y la cuasivarianza ($S^2$).
Obtener los cuantiles de $\chi^2$ con $n-1$ grados de libertad:
- $\chi^2_{\alpha/2, n-1}$: Cuantil superior.
- $\chi^2_{1-\alpha/2, n-1}$: Cuantil inferior.
Aplicar la fórmula del intervalo.

11.2.5. Ejemplo Numérico

Supongamos: - Muestra: $X = \{12, 15, 10, 11, 14\}$ ($n = 5$). - Nivel de confianza: 95% ($\alpha = 0.05$).

11.2.6. Cálculos

Media muestral ($\bar{X}$): \[ \bar{X} = \frac{12 + 15 + 10 + 11 + 14}{5} = 12.4 \]
Cuasivarianza ($S^2$): \[ S^2 = \frac{(12-12.4)^2 + (15-12.4)^2 + \dots + (14-12.4)^2}{4} = \frac{17.2}{4} = 4.3 \]
Cuantiles $\chi^2$ (con $n-1 = 4$ grados de libertad):
- $\chi^2_{0.025, 4} \approx 11.143$ (superior).
- $\chi^2_{0.975, 4} \approx 0.484$ (inferior).
Intervalo para $\sigma^2$: \[ \left( \frac{4 \times 4.3}{11.143}, \frac{4 \times 4.3}{0.484} \right) \approx (1.54, 35.54) \]

Interpretación: Con 95% de confianza, $\sigma^2$ está entre 1.54 y 35.54.

11.2.7. Implementación en R

# Datos
muestra <- c(12, 15, 10, 11, 14)
n <- length(muestra)
confianza <- 0.95
alpha <- 1 - confianza

# Media y cuasivarianza muestral
X_bar <- mean(muestra)
S2 <- var(muestra)  # Función que calcula S² = Σ(Xi - X̄)²/(n-1)

# Cuantiles chi-cuadrado
chi_sup <- qchisq(1 - alpha/2, df = n-1)
chi_inf <- qchisq(alpha/2, df = n-1)

# Intervalo de confianza
IC_inf <- (n-1) * S2 / chi_sup
IC_sup <- (n-1) * S2 / chi_inf

cat("Intervalo al 95% para σ²:", round(IC_inf, 2), ",", round(IC_sup, 2))

## Intervalo al 95% para σ²: 1.54 , 35.51

11.3. Comparación con Media Conocida vs. Desconocida

Caso	Distribución Usada	Grados de Libertad	Intervalo para $\sigma^2$
Media conocida ($\mu$)	$\chi^2(n)$	$n$	$\left( \frac{S_{\mu}^2}{\chi^2_{\alpha/2, n}}, \frac{S_{\mu}^2}{\chi^2_{1-\alpha/2, n}} \right)$
Media desconocida	$\chi^2(n-1)$	$n-1$	$\left( \frac{(n-1)S^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2, n-1}} \right)$

11.4. Notas Clave

Sensibilidad a la normalidad: Si los datos no son normales, el intervalo puede ser inexacto (usar pruebas de normalidad como Shapiro-Wilk).
Tamaño de muestra pequeño: Para $n < 30$, el intervalo es amplio y asimétrico. Para $n \geq 30$, la distribución $\chi^2$ se aproxima a una normal.
Aplicaciones: Control de calidad, análisis de riesgos financieros, estudios médicos.

11.5. Fórmulas Esenciales

Cuasivarianza muestral: \[ S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 \]
Intervalo de confianza: \[ \sigma^2 \in \left( \frac{(n-1)S^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2, n-1}} \right) \]
Este método es fundamental en experimentos científicos donde $\mu$ no se conoce a priori y se requiere estimar la variabilidad de los datos.

12. Tamaño de Muestra en Inferencia Estadística

En inferencia estadística, seleccionar un tamaño de muestra adecuado es crucial para garantizar que los resultados sean confiables y precisos. A continuación, se presenta la teoría para determinar el tamaño de muestra en los casos de media poblacional y proporción poblacional.

12.1. Tamaño de Muestra para Estimar la Media Poblacional ($\mu$)

Cuando se desea estimar la media poblacional ($\mu$) con un nivel de confianza $(1 - \alpha)$ y un margen de error máximo permitido ($E$), el tamaño de muestra ($n$) se calcula según si la desviación estándar poblacional ($\sigma$) es conocida o desconocida.

12.1.1. Caso 1: $\sigma$ conocida (Población normal o $n \geq 30$)

Si la desviación estándar poblacional es conocida, usamos la distribución normal (Z): \[ n = \left( \frac{z_{\alpha/2} \cdot \sigma}{E} \right)^2 \] donde: - $z_{\alpha/2}$ = valor crítico de la distribución normal estándar para un nivel de confianza $(1 - \alpha)$. - $\sigma$ = desviación estándar poblacional. - $E$ = margen de error (precisión deseada).

12.1.2. Ejemplo:

Si queremos estimar la media con un 95% de confianza ($z_{0.025} = 1.96$), $\sigma = 5$ y $E = 1$: \[ n = \left( \frac{1.96 \cdot 5}{1} \right)^2 = 96.04 \approx 97 \text{ (redondeado hacia arriba)}. \]

12.1.3. Caso 2: $\sigma$ desconocida

Si $\sigma$ es desconocida, se usa la distribución $t$ de Student y una estimación inicial de la desviación estándar ($S$) a partir de una muestra piloto: \[ n = \left( \frac{t_{\alpha/2, n-1} \cdot S}{E} \right)^2 \] - Como $t_{\alpha/2, n-1}$ depende de $n$, el cálculo requiere iteraciones.
- En la práctica, si $n$ es grande ($n \geq 30$), se aproxima con $z_{\alpha/2}$.

12.2. Tamaño de Muestra para Estimar una Proporción Poblacional ($p$)

Para estimar una proporción poblacional ($p$) con margen de error $E$ y nivel de confianza $(1 - \alpha)$, usamos la aproximación normal (válida si $np \geq 5$ y $n(1-p) \geq 5$): \[ n = \left( \frac{z_{\alpha/2}}{E} \right)^2 \cdot p(1 - p) \] - Si $p$ es desconocido, se usa el valor más conservador $p = 0.5$ (maximiza la varianza): \[ n = \left( \frac{z_{\alpha/2}}{2E} \right)^2 \]

12.2.1. Ejemplo:

Para estimar una proporción con un 95% de confianza ($z_{0.025} = 1.96$), $E = 0.03$ y $p$ desconocido: \[ n = \left( \frac{1.96}{2 \cdot 0.03} \right)^2 = 1067.11 \approx 1068 \text{ personas}. \]

12.2.2. Consideraciones Adicionales

Población finita: Si la población ($N$) es pequeña, se aplica un factor de corrección: \[ n_{\text{ajustado}} = \frac{n}{1 + \frac{n - 1}{N}} \]
Margen de error ($E$): Define la precisión deseada (e.g., $E = 2\%$ para encuestas electorales).
Nivel de confianza: Usualmente 90%, 95% o 99% ($\alpha = 0.10$, $0.05$, $0.01$).

12.3. Resumen de Fórmulas

Parámetro	Fórmula (Población Infinita)	Caso Conservador ($p$ desconocido)
Media ($\mu$)	\[n = \left( \frac{z_{\alpha/2} \cdot \sigma}{E} \right)^2\]	No aplica.
Proporción ($p$)	\[n = \left( \frac{z_{\alpha/2}}{E} \right)^2 p(1 - p)\]	\[n = \left( \frac{z_{\alpha/2}}{2E} \right)^2\]

12.4. Aplicación para selección del Tamaño de la Muestra de la proporción poblacional

Ejemplo. La reacción de un individuo con respecto a un estímulo en un experimento psicológico puede adoptar una de dos formas, A o B. Si un experimentador quiere estimar la probabilidad $p$ de que una persona reaccione de manera A, ¿cuántas personas deben incluirse en el experimento? Supóngase que el experimentador estará satisfecho si el error de estimación es menor que 0.04 con una probabilidad igual a 0.90. Considere también que él espera que $p$ tenga un valor alrededor de 0.6.

Solución paso a paso:

El intervalo de confianza para $p$ es:

\[ \text{IC}(p) = \hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{p(1-p)}{n}} = \hat{p} \pm \epsilon \]
Para $\alpha = 0.10$, se tiene $z_{\alpha/2} = z_{0.05} = 1.645$.
Como $\epsilon = z_{\alpha/2} \cdot \sqrt{\frac{p(1-p)}{n}}$, se tiene:

\[ 0.04 = 1.645 \cdot \sqrt{\frac{0.6 \cdot 0.4}{n}} \]
Resolviendo para $n$:

\[ n = \left( \frac{1.645 \cdot \sqrt{0.24}}{0.04} \right)^2 \approx 406 \]

Si no se conoce $p$, se utiliza $p = 0.5$, lo que daría $n = 423$.

En R si se tiene información de $p=0.6$

# Parámetros dados
E <- 0.04            # Margen de error
confianza <- 0.90     # Nivel de confianza (90%)
p <- 0.6             # Proporción esperada

# Cálculo del valor crítico z_(α/2)
alpha <- 1 - confianza
z_critico <- qnorm(1 - alpha/2)  # qnorm() devuelve el cuantil de la normal estándar

# Cálculo del tamaño de muestra
n <- ( (z_critico / E)^2 ) * p * (1 - p)

# Redondeamos hacia arriba (porque el tamaño de muestra debe ser entero)
n_final <- ceiling(n)

# Resultado
cat("Tamaño de muestra requerido (n):", n_final, "\n")

## Tamaño de muestra requerido (n): 406

En R si no se tiene información de $p=0.5$

n_conservador <- ( (z_critico / (2 * E))^2 )
ceiling(n_conservador)  # Resultado: 423

## [1] 423

Ejemplo: Intervalo de Confianza para la Diferencia de Medias

Una operación de montaje en una fábrica manufacturera requiere aproximadamente un periodo de entrenamiento de un mes para que un nuevo empleado alcance la máxima eficiencia. Se sugirió un nuevo método para el entrenamiento y se realizó una prueba para comparar el método nuevo con el procedimiento estándar. Se entrenaron dos grupos de nueve empleados nuevos durante un periodo de tres semanas; un grupo realizó el nuevo método y el otro grupo el procedimiento de entrenamiento estándar. Las mediciones se muestran a continuación. Estime la diferencia real de las medias $(\mu_1 - \mu_2)$, con un coeficiente de confianza de 0.95. Suponga que los tiempos de montaje tienen aproximadamente una distribución normal y que las varianzas son aproximadamente iguales para los dos métodos.

Intervalos de Confianza para la Diferencia de Medias y la Varianza

Intervalos de Confianza para la Varianza

Ejemplo: Variabilidad de un equipo de medición

Problema:
Un experimentador quiere verificar la variabilidad de un equipo diseñado para medir el volumen de una fuente de audio frecuencia. Tres mediciones independientes registradas con este equipo fueron 4.1, 5.2 y 10.2. Estimar $\sigma^2$ con un coeficiente de confianza de 0.90.

Solución:

Cálculo de la varianza muestral $S^2$:
- Media muestral: \[ \bar{Y} = \frac{4.1 + 5.2 + 10.2}{3} = 6.5 \]
- Varianza muestral: \[ S^2 = \frac{(4.1 - 6.5)^2 + (5.2 - 6.5)^2 + (10.2 - 6.5)^2}{3 - 1} = 10.57 \]
Cálculo del intervalo de confianza para $\sigma^2$:
- Para $\alpha = 0.10$ y $n - 1 = 2$ grados de libertad, los valores críticos de $\chi^2$ son: \[ \chi_{0.05, 2}^2 = 5.991 \quad \text{y} \quad \chi_{0.95, 2}^2 = 0.103 \]
- El intervalo de confianza es: \[ \text{IC}(\sigma^2) = \left( \frac{(n-1)S^2}{\chi_{\alpha/2, n-1}^2}, \frac{(n-1)S^2}{\chi_{1-\alpha/2, n-1}^2} \right) \] Sustituyendo los valores: \[ \text{IC}(\sigma^2) = \left( \frac{2 \cdot 10.57}{5.991}, \frac{2 \cdot 10.57}{0.103} \right) = (3.53, 205.24) \]
Interpretación:
El intervalo de confianza para la varianza es $(3.53, 205.24)$. Este intervalo es muy amplio debido al pequeño tamaño de la muestra ($n = 3$).

Ejemplo: Varianza del rendimiento de trigo

Problema:
Se sembró cierta variedad de trigo en parcelas de cierta localidad. Se extrajo una muestra aleatoria de 20 parcelas y se midió el rendimiento. Se obtuvo un rendimiento de 58 kilogramos por parcela y una desviación típica de 8 kg por parcela. Estimar la varianza poblacional con un nivel de confianza del 95%, sabiendo que el rendimiento se distribuye normalmente.

Solución:

Cálculo de la varianza muestral $S^2$: \[ S^2 = 8^2 = 64 \]
Cálculo del intervalo de confianza para $\sigma^2$:
- Para $\alpha = 0.05$ y $n - 1 = 19$ grados de libertad, los valores críticos de $\chi^2$ son: \[ \chi_{0.025, 19}^2 = 32.9 \quad \text{y} \quad \chi_{0.975, 19}^2 = 8.91 \]
- El intervalo de confianza es: \[ \text{IC}(\sigma^2) = \left( \frac{(n-1)S^2}{\chi_{\alpha/2, n-1}^2}, \frac{(n-1)S^2}{\chi_{1-\alpha/2, n-1}^2} \right) \] Sustituyendo los valores: \[ \text{IC}(\sigma^2) = \left( \frac{19 \cdot 64}{32.9}, \frac{19 \cdot 64}{8.91} \right) = (36.96, 136.47) \]
Interpretación:
El intervalo de confianza para la varianza es $(36.96, 136.47)$. Este intervalo indica que la varianza poblacional del rendimiento de trigo se encuentra entre 36.96 y 136.47 kg² con un nivel de confianza del 95%.

Más sobre las Propiedades de los Estimadores Puntuales

Introducción

En esta parte presentamos un estudio más formal y detallado de algunas de las propiedades matemáticas de los estimadores puntuales, en particular de los conceptos de eficiencia, consistencia y suficiencia. Se presentarán estadísticos de mínima suficiencia y se les utilizará para construir estimadores insesgados de varianza mínima para los parámetros. Posteriormente, se considerarán otros dos métodos útiles para obtener estimadores: el método de los momentos y el método de máxima verosimilitud.

Eficiencia Relativa

Definición

Dados dos estimadores, $\hat{\theta}_1$ y $\hat{\theta}_2$, del parámetro $\theta$, con varianzas $V(\hat{\theta}_1)$ y $V(\hat{\theta}_2)$, respectivamente, la eficiencia relativa de $\hat{\theta}_1$ con respecto a $\hat{\theta}_2$ se define como la razón entre sus varianzas:

\[ \text{Eficiencia} = \frac{V(\hat{\theta}_2)}{V(\hat{\theta}_1)} \]

Ejemplo: Eficiencia Relativa de dos Estimadores

Sea $Y_1, Y_2, \dots, Y_n$ una muestra aleatoria de la distribución uniforme en el intervalo $(0, \theta)$. Dos estimadores insesgados para $\theta$ son:

$\hat{\theta}_1 = 2\bar{Y}$, donde $\bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i$.
$\hat{\theta}_2 = \frac{n+1}{n} Y_{(n)}$, donde $Y_{(n)} = \max(Y_1, Y_2, \dots, Y_n)$.

Solución:

Distribución de $Y_{(n)}$:
- La función de densidad de $Y_{(n)}$ es: \[ f_{Y_{(n)}}(y) = n \left( \frac{y}{\theta} \right)^{n-1} \frac{1}{\theta}, \quad 0 \leq y \leq \theta \]
- La esperanza de $Y_{(n)}$ es: \[ E(Y_{(n)}) = \frac{n}{n+1} \theta \]
- Por tanto, $\hat{\theta}_2$ es insesgado: \[ E(\hat{\theta}_2) = \frac{n+1}{n} E(Y_{(n)}) = \theta \]
Varianza de $\hat{\theta}_2$:
- La varianza de $Y_{(n)}$ es: \[ V(Y_{(n)}) = \left( \frac{n}{n+2} - \left( \frac{n}{n+1} \right)^2 \right) \theta^2 \]
- Por tanto, la varianza de $\hat{\theta}_2$ es: \[ V(\hat{\theta}_2) = \left( \frac{n+1}{n} \right)^2 V(Y_{(n)}) = \frac{\theta^2}{n(n+2)} \]
Varianza de $\hat{\theta}_1$:
- Para $\hat{\theta}_1 = 2\bar{Y}$: \[ V(\hat{\theta}_1) = 4 V(\bar{Y}) = 4 \cdot \frac{\theta^2}{12n} = \frac{\theta^2}{3n} \]
Eficiencia Relativa:
- La eficiencia relativa de $\hat{\theta}_1$ con respecto a $\hat{\theta}_2$ es: \[ \text{Eficiencia} = \frac{V(\hat{\theta}_2)}{V(\hat{\theta}_1)} = \frac{\frac{\theta^2}{n(n+2)}}{\frac{\theta^2}{3n}} = \frac{3}{n+2} \]
- Para $n > 1$, $\frac{3}{n+2} < 1$, por lo que $\hat{\theta}_2$ es más eficiente que $\hat{\theta}_1$.

Consistencia

Definición

El estimador $\hat{\theta}_n$ es un estimador consistente de $\theta$ si para cualquier número positivo $\epsilon$:

\[ \lim_{n \to \infty} P(|\hat{\theta}_n - \theta| \leq \epsilon) = 1 \]

o, en forma equivalente:

\[ \lim_{n \to \infty} P(|\hat{\theta}_n - \theta| > \epsilon) = 0 \]

En otras palabras, $\hat{\theta}_n$ es un estimador consistente de $\theta$ si y solo si $\hat{\theta}_n$ converge en probabilidad a $\theta$. Para un estimador insesgado, la consistencia se garantiza si:

\[ \lim_{n \to \infty} V(\hat{\theta}_n) = 0 \]

Ejercicios sobre Consistencia

Consistencia de la Media Muestral:
Sea $Y_1, Y_2, \dots, Y_n$ una muestra aleatoria de una distribución con media $\mu$ y varianza $\sigma^2 < \infty$. Demuestre que $\bar{Y}$ es un estimador consistente de $\mu$.
Operaciones con Estimadores Consistentes:
Supóngase que $\hat{\theta}_n$ es un estimador consistente de $\theta$ y $\hat{\theta}_n'$ es un estimador consistente de $\theta'$. Entonces:
- 1. $\hat{\theta}_n + \hat{\theta}_n'$ es un estimador consistente de $\theta + \theta'$.
- 1. $\hat{\theta}_n \cdot \hat{\theta}_n'$ es un estimador consistente de $\theta \cdot \theta'$.
- 1. $\frac{\hat{\theta}_n}{\hat{\theta}_n'}$ es un estimador consistente de $\frac{\theta}{\theta'}$, siempre que $\theta' \neq 0$.
- 1. $\sqrt{\hat{\theta}_n}$ es un estimador consistente de $\sqrt{\theta}$, si $P(\hat{\theta}_n \geq 0) = 1$.
Consistencia de la Varianza Muestral:
Sea $Y_1, Y_2, \dots, Y_n$ una muestra aleatoria de una distribución con $E(Y_i) = \mu$, $E(Y_i^2) = \mu_2'$, y $E(Y_i^4) = \mu_4'$ finitos. Demuestre que $S^2 = \frac{1}{n-1} \sum_{i=1}^n (Y_i - \bar{Y})^2$ es un estimador consistente de $\sigma^2 = V(Y_i)$.

Suficiencia

Definición

Sea $Y = (Y_1, Y_2, \dots, Y_n)$ una muestra aleatoria con distribución de probabilidad $f_Y(y, \theta)$. Se dice que el estadístico $S(Y) = S(Y_1, Y_2, \dots, Y_n)$ es suficiente para $\theta$ si:

\[ f_Y(y, \theta) = H(y) \cdot G(S(y), \theta) \]

Es decir, $S(Y)$ contiene toda la información sobre $\theta$ presente en la muestra.

Ejercicio: Suficiencia de la Media Muestral

Sea $Y = (Y_1, Y_2, \dots, Y_n)$ una muestra aleatoria con función de densidad:

\[ f_{Y_i}(y_i, \alpha) = \frac{1}{\alpha} e^{-y_i / \alpha}, \quad y_i \geq 0 \]

Pruebe que $\bar{Y}$ es un estimador suficiente para $\alpha$.

Suficiencia Mínima y Estimación Insesgada de Mínima Varianza (EIMV)

Definición

Sea $Y = (Y_1, Y_2, \dots, Y_n)$ una muestra aleatoria con distribución de probabilidad conjunta $f_Y(y, \theta)$. Si existe una función $S(Y)$ tal que el cociente:

\[ \frac{f_Y(x, \theta)}{f_Y(y, \theta)} \]

no depende de $\theta$ si y solo si $S(x) = S(y)$, entonces $S(Y)$ se llama un estimador de mínima suficiencia. Si $\hat{\theta} = \theta(S(Y))$ es un estimador insesgado, entonces $\hat{\theta}$ se llama un estimador insesgado de mínima varianza (EIMV).

Ejemplo: EIMV para la Media y Varianza

Suponga que $Y_1, Y_2, \dots, Y_n$ es una muestra aleatoria de una población normal con media $\mu$ y varianza $\sigma^2$ desconocidas. Pruebe que:

$\bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i$ es un estimador EIMV para $\mu$.
$S^2 = \frac{1}{n-1} \sum_{i=1}^n (Y_i - \bar{Y})^2$ es un estimador EIMV para $\sigma^2$.

Solución:

Suficiencia Mínima:
- El cociente de verosimilitudes: \[ \frac{f_Y(x, \theta)}{f_Y(y, \theta)} = \exp\left\{ -\frac{1}{2\sigma^2} \left[ \sum_{i=1}^n (x_i - \mu)^2 - \sum_{i=1}^n (y_i - \mu)^2 \right] \right\} \] no depende de $\mu$ y $\sigma^2$ si y solo si $\sum_{i=1}^n x_i = \sum_{i=1}^n y_i$ y $\sum_{i=1}^n x_i^2 = \sum_{i=1}^n y_i^2$. Por tanto, $\sum_{i=1}^n Y_i$ y $\sum_{i=1}^n Y_i^2$ son estadísticos de mínima suficiencia.
Insesgamiento y Varianza Mínima:
- $\bar{Y}$ y $S^2$ son insesgados para $\mu$ y $\sigma^2$, respectivamente, y tienen varianza mínima.

Método de los Momentos

Definición

El método de los momentos consiste en elegir como estimaciones aquellos valores de los parámetros que son soluciones de las ecuaciones:

\[ \mu_k' = E(Y^k) = \frac{1}{n} \sum_{i=1}^n Y_i^k = m_k', \quad k = 1, 2, \dots, t \]

donde $t$ es igual al número de parámetros.

Método de Máxima Verosimilitud

Definición

El método de máxima verosimilitud consiste en elegir como estimaciones aquellos valores de los parámetros que maximizan la función de verosimilitud:

\[ L(y) = f_Y(y, \theta) = f_Y(y_1, y_2, \dots, y_n, \theta) \]

Ejemplo: Estimadores de Máxima Verosimilitud

Suponga que $Y_1, Y_2, \dots, Y_n$ es una muestra aleatoria de una población normal con media $\mu$ y varianza $\sigma^2$ desconocidas. Pruebe que:

$\bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i$ es el estimador de máxima verosimilitud para $\mu$.
$S^{*2} = \frac{1}{n} \sum_{i=1}^n (Y_i - \bar{Y})^2$ es el estimador de máxima verosimilitud para $\sigma^2$.

Solución:

Función de Verosimilitud:
La función de verosimilitud para una muestra normal es: \[ L(\mu, \sigma^2) = \left( \frac{1}{\sqrt{2\pi\sigma^2}} \right)^n \exp\left\{ -\frac{1}{2\sigma^2} \sum_{i=1}^n (Y_i - \mu)^2 \right\} \]
Maximización:
- Derivando con respecto a $\mu$ e igualando a cero, se obtiene $\hat{\mu} = \bar{Y}$.
- Derivando con respecto a $\sigma^2$ e igualando a cero, se obtiene $\hat{\sigma}^2 = S^{*2}$.

Conclusión

Los conceptos de eficiencia, consistencia y suficiencia son fundamentales para evaluar la calidad de los estimadores puntuales. Además, los métodos de los momentos y de máxima verosimilitud son herramientas poderosas para obtener estimadores en una variedad de contextos estadísticos.

Ejemplos de Intervalos de Confianza para la media Poblacional con Varianza conocida

Ejemplo1. Se quiere obtener un intervalo de confianza para el valor de las ventas medias por hora que se producen en un kiosco. Para ello, se realiza una muestra consistente en elegir al azar las ventas que se realizaron durante 1000 horas distintas; muestra cuyos resultados fueron: ventas medias por hora $4000$ pts, y varianza de dicha muestra $4000$ pts$^2$. Obtener dicho intervalo con un nivel de confianza del $95.5\%$.

Solución:

Para calcular el intervalo de confianza para la media poblacional $\mu$, utilizamos la fórmula:

\[ IC = \bar{X} \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \]

Donde:
- $\bar{X} = 4000$ pts (media muestral),
- $\sigma^2 = 4000$ pts$^2 \Rightarrow \sigma = \sqrt{4000} \approx 63.25$ pts (desviación estándar muestral),
- $n = 1000$ (tamaño de la muestra),
- $Z_{\alpha/2}$ es el valor crítico de la distribución normal estándar para un nivel de confianza del $95.5\%$.

Paso 1: Encontrar el valor crítico $Z_{\alpha/2}$.
Para un nivel de confianza del $95.5\%$, el valor crítico correspondiente es $Z_{\alpha/2} \approx 2.00$ (usando tablas de la distribución normal estándar).

Paso 2: Calcular el error estándar de la media:
\[ \frac{\sigma}{\sqrt{n}} = \frac{63.25}{\sqrt{1000}} \approx \frac{63.25}{31.623} \approx 2.00 \text{ pts} \]

Paso 3: Construir el intervalo de confianza:
\[ IC = 4000 \pm 2.00 \cdot 2.00 = 4000 \pm 4.00 \text{ pts} \]

Por lo tanto, el intervalo de confianza al $95.5\%$ para las ventas medias por hora es:

\[ \boxed{(3996, \; 4004)} \]

Opciones de respuesta:

$(3996, \; 4004)$
$(3990, \; 4010)$
$(3980, \; 4020)$
$(3995, \; 4005)$

Respuesta correcta: $\boxed{A}$ ################################################################################

Introducción

En estadística inferencial, la probabilidad de que un estimador $T = T(X_1, \ldots, X_n)$ coincida exactamente con el parámetro de interés $\theta$ es $0$. Por ello, en la estimación por intervalo, se selecciona un nivel de confianza (confiabilidad) de $100(1 - \alpha)\%$ y se construye un intervalo aleatorio tal que la probabilidad frecuentista de que este intervalo contenga a $\theta$ sea $1 - \alpha$.

Intervalo de Confianza

Dada una muestra aleatoria $X_1, \ldots, X_n$, donde $X_i \stackrel{\text{IID}}{\sim} F_X(\theta)$ para $i = 1, \ldots, n$, la estimación por intervalo consiste en construir un intervalo aleatorio (cuyos límites son variables aleatorias) tal que:

\[ \textsf{Pr}(L_I \leq \theta \leq L_S) = 1 - \alpha. \]

El valor $100(1 - \alpha)\%$ se denomina nivel de confianza o confiabilidad. Este valor representa la proporción de intervalos calculados a partir de la muestra aleatoria que contienen a $\theta$.

Por ejemplo, un intervalo de confianza al 95% indica que el 95% de los intervalos de confianza calculados a partir de realizaciones de una muestra aleatoria incluirían el valor del parámetro de interés.

Ejemplo: Población Normal con Varianza Conocida

Considere una población Normal con media desconocida $\mu = \textsf{E}(X)$ y varianza conocida $\sigma^2 = \textsf{Var}(X)$. Construya un intervalo de confianza para $\mu$ al 95% de confianza basado en una muestra aleatoria $X_1, \ldots, X_n$ de tamaño $n$.

Dado que $X_i \stackrel{\text{IID}}{\sim} \textsf{N}(\mu, \sigma^2)$ para $i = 1, \ldots, n$, se tiene que $\bar{X} \sim \textsf{N}(\mu, \sigma^2/n)$. Estandarizando, obtenemos:

\[ Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim \textsf{N}(0, 1). \] Por lo tanto: \[ \textsf{Pr}\left(-1.96 < \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} < 1.96\right) = 0.95. \]

# Percentil 97.5 de N(0,1)
qnorm(p = 0.975)

## [1] 1.959964

Despejando $\mu$ de esta desigualdad, obtenemos: \[ \textsf{Pr}\left(\bar{X} - 1.96 \frac{\sigma}{\sqrt{n}} < \mu < \bar{X} + 1.96 \frac{\sigma}{\sqrt{n}}\right) = 0.95. \] Así, un intervalo de confianza para $\mu$ al 95% de confianza es: \[ \textsf{IC}_{95\%}(\mu) = \left(\bar{X} - 1.96 \frac{\sigma}{\sqrt{n}}, \bar{X} + 1.96 \frac{\sigma}{\sqrt{n}}\right) = \left( \bar{X} \pm 1.96 \frac{\sigma}{\sqrt{n}} \right). \] La cantidad $1.96 \frac{\sigma}{\sqrt{n}}$ se denomina margen de error.

Ejemplo: Intervalo de Confianza para $\mu$ con Confiabilidad $100(1 - \alpha)\%$

En el ejemplo anterior, si la confiabilidad es de $100(1 - \alpha)\%$, el intervalo de confianza para $\mu$ es: \[ \textsf{IC}_{100(1 - \alpha)\%}(\mu) = \left(\bar{X} - z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}}\right) = \left( \bar{X} \pm z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}} \right), \] donde $z_{1 - \alpha/2}$ es el percentil $100(1 - \alpha/2)$ de la distribución normal estándar.

Ejemplo: Simulación de un Intervalo de Confianza

Simule una muestra aleatoria de tamaño $n = 30$ de una población Normal con media $\mu = 10$ y desviación estándar $\sigma = 1$. A partir de esta muestra, calcule el intervalo de confianza para $\mu$ al 95% de confianza.

# Parámetros de la población (modelo)
mu <- 10
sigma <- 1
# Simulación de la muestra aleatoria
set.seed(1)
x <- rnorm(n = 30, mean = mu, sd = sigma)
x

##  [1]  9.373546 10.183643  9.164371 11.595281 10.329508  9.179532 10.487429
##  [8] 10.738325 10.575781  9.694612 11.511781 10.389843  9.378759  7.785300
## [15] 11.124931  9.955066  9.983810 10.943836 10.821221 10.593901 10.918977
## [22] 10.782136 10.074565  8.010648 10.619826  9.943871  9.844204  8.529248
## [29]  9.521850 10.417942

# Cálculo del intervalo de confianza al 95%
# Tamaño de la muestra
n <- length(x)
n

## [1] 30

# Estimación puntual
xb <- mean(x)
xb

## [1] 10.08246

# Percentil
z975 <- qnorm(p = 0.975)
z975

## [1] 1.959964

# Margen de error
me <- z975 * sigma / sqrt(n)
me

## [1] 0.3578388

# Límite inferior
xb - me

## [1] 9.724619

# Límite superior
xb + me

## [1] 10.4403

Ejemplo: Simulación de Múltiples Intervalos de Confianza

Simule 1,000,000 de muestras aleatorias de tamaño $n = 30$ de una población Normal con media $\mu = 10$ y desviación estándar $\sigma = 1$. Para cada muestra, calcule el intervalo de confianza para $\mu$ al 95% de confianza. ¿Qué proporción de intervalos contiene el valor de $\mu$?

# Parámetros de la población (modelo)
mu <- 10
sigma <- 1
# Tamaño de la muestra
n <- 30
# Percentil
z975 <- qnorm(p = 0.975)
# Número de simulaciones
M <- 1000000
# Objeto para almacenar los intervalos
IC <- matrix(data = NA, nrow = M, ncol = 2)
# Simulación
set.seed(1)
for (i in 1:M) {
  x <- rnorm(n = 30, mean = mu, sd = sigma)
  IC[i, 1] <- mean(x) - z975 * sigma / sqrt(n)
  IC[i, 2] <- mean(x) + z975 * sigma / sqrt(n)
}

# Inspección
dim(IC)

## [1] 1000000       2

head(IC)

##          [,1]     [,2]
## [1,] 9.724619 10.44030
## [2,] 9.774936 10.49061
## [3,] 9.752439 10.46812
## [4,] 9.755494 10.47117
## [5,] 9.312133 10.02781
## [6,] 9.879164 10.59484

# Cobertura
tmp <- (IC[, 1] < mu) & (mu < IC[, 2])
head(tmp)

## [1] TRUE TRUE TRUE TRUE TRUE TRUE

# Proporción
mean(tmp)

## [1] 0.949869

Observaciones

Antes de observar los datos, los límites del intervalo son aleatorios.
Una vez se tiene una realización de la muestra, los límites del intervalo pierden su carácter aleatorio y se convierten en valores observados. Por lo tanto, la probabilidad frecuentista de que el intervalo calculado contenga $\theta$ es $0$ o $1$.
La confianza se encuentra en el proceso de construcción del intervalo, no en los resultados obtenidos en un caso particular.

El Método de la Variable Aleatoria Pivote

Dada una muestra aleatoria $X_1, \ldots, X_n$, donde $X_i \stackrel{\text{IID}}{\sim} F_X(\theta)$ para $i = 1, \ldots, n$, una función $Q = Q(X_1, \ldots, X_n)$ es una variable aleatoria pivote para $\theta$ si la distribución de $Q$ no depende de $\theta$.

El procedimiento para encontrar los límites del intervalo es:

Encontrar una v.a. pivote $Q$ para $\theta$.
Determinar la distribución muestral de $Q$ para hallar valores $a$ y $b$ tales que: \[ \textsf{Pr}(a \leq Q \leq b) = 1 - \alpha. \]
Despejar $\theta$ en la desigualdad anterior para obtener los límites del intervalo: \[ \textsf{Pr}(L_I \leq \theta \leq L_S) = 1 - \alpha. \]

Ejemplo: Población No Necesariamente Normal con Varianza Conocida

Considere una población no necesariamente Normal con media desconocida $\mu = \textsf{E}(X)$ y varianza conocida $\sigma^2 = \textsf{Var}(X)$. Construya un intervalo de confianza para $\mu$ al $100(1 - \alpha)\%$ de confianza basado en una muestra aleatoria $X_1, \ldots, X_n$ de tamaño $n$.

Por el Teorema del Límite Central, $\bar{X} \sim \textsf{N}(\mu, \sigma^2/n)$ si $n$ es grande. Estandarizando, obtenemos: \[ Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim \textsf{N}(0, 1). \]

Por lo tanto, un intervalo de confianza para $\mu$ al $100(1 - \alpha)\%$ de confianza es: \[ \textsf{IC}_{100(1 - \alpha)\%}(\mu) = \left(\bar{X} - z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}}\right) = \left( \bar{X} \pm z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}} \right), \] donde $z_{1 - \alpha/2}$ es el percentil $100(1 - \alpha/2)$ de la distribución normal estándar.

Ejemplo: Población No Necesariamente Normal con Varianza Desconocida

Considere una población no necesariamente Normal con media desconocida $\mu = \textsf{E}(X)$ y varianza desconocida $\sigma^2 = \textsf{Var}(X)$. Construya un intervalo de confianza para $\mu$ al $100(1 - \alpha)\%$ de confianza basado en una muestra aleatoria $X_1, \ldots, X_n$ de tamaño $n$.

En este caso, $\bar{X} \sim \textsf{N}(\mu, S^2/n)$ si $n$ es grande, donde $S$ es la desviación estándar muestral: \[ S = \sqrt{\frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2} = \sqrt{\frac{1}{n - 1} \left(\sum_{i=1}^n X_i^2 - n \bar{X}^2\right)}. \]

Estandarizando, obtenemos: \[ Z = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim \textsf{N}(0, 1). \]

Por lo tanto, un intervalo de confianza para $\mu$ al $100(1 - \alpha)\%$ de confianza es: \[ \textsf{IC}_{100(1 - \alpha)\%}(\mu) = \left(\bar{X} - z_{1 - \alpha/2} \frac{S}{\sqrt{n}}, \bar{X} + z_{1 - \alpha/2} \frac{S}{\sqrt{n}}\right) = \left( \bar{X} \pm z_{1 - \alpha/2} \frac{S}{\sqrt{n}} \right). \]

Ejercicio: Aplicación en Topografía

Los métodos de interpolación se utilizan para calcular alturas superiores al nivel del mar en ubicaciones donde las mediciones directas no están disponibles. En el artículo Transformation of Ellipsoid Heights to Local Leveling Heights (M. Yanalak y O. Baykal, en Journal of Surveying Engineering, 2001:90-103), se evalúa un método de interpolación basado en un polinomio de segundo orden para calcular alturas a partir de mediciones GPS. En una muestra de 74 ubicaciones, los errores del método tienen un promedio de 3.8 cm, con una desviación estándar de 4.8 cm.

Determine un intervalo de confianza de 95% para la media del error de este método.
Determine un intervalo de confianza de 98% para la media del error de este método.
Un topógrafo afirma que el error de media está entre 3.2 y 4.4 cm. ¿Con qué nivel de confianza se puede hacer esta afirmación?
¿Aproximadamente cuántas ubicaciones se deben muestrear para que un intervalo de confianza de 95% especifique que la media está dentro de $\pm 0.7$ cm?
¿Aproximadamente cuántas ubicaciones se deben muestrear para que un intervalo de confianza de 98% especifique que la media está dentro de $\pm 0.7$ cm?

Mejoras realizadas:

Organización: Se mejoró la estructura del documento para que sea más clara y coherente.
Redacción: Se ajustó la redacción para que sea más precisa y profesional.
Formato: Se corrigieron errores de formato en las ecuaciones y se mejoró la presentación de los bloques de código.
Claridad: Se añadieron explicaciones adicionales para facilitar la comprensión de los conceptos.

Este documento está listo para ser ejecutado en Google Colab o cualquier entorno que soporte R Markdown.

Aquí tienes el texto formateado en RMarkdown con las expresiones matemáticas encerradas en $ y $$ según corresponda:

Prueba de Hipótesis Estadística

Introducción

La Estadística Inferencial es el proceso de usar la información de una muestra para describir el estado de una población. Sin embargo, es frecuente que usemos la información de una muestra para probar un reclamo o conjetura sobre la población. El reclamo o conjetura se refiere a una hipótesis.
El proceso que corrobora si la información de una muestra sostiene o refuta el reclamo se llama Prueba de Hipótesis. En muchos aspectos, el procedimiento formal para la prueba de hipótesis es similar al método científico. El científico observa la naturaleza, establece una teoría y después prueba su teoría respecto de la observación.

En este contexto, el científico propone una teoría relativa a los valores específicos de uno o más parámetros poblacionales. Luego obtiene una muestra de la población y compara la observación con la teoría. Si las observaciones se contraponen a la teoría, el científico rechaza la hipótesis. En caso contrario, concluye que la teoría es válida o bien que la muestra no detectó la diferencia entre los valores reales y los valores de la hipótesis respecto a los parámetros poblacionales.

Por ejemplo,
un investigador en medicina puede proponer la hipótesis de que un medicamento es más efectivo que otro para curar cierta enfermedad. Para probar su hipótesis, selecciona al azar unos pacientes afectados por la enfermedad y los divide aleatoriamente en dos grupos. Se aplica entonces el nuevo medicamento A al primer grupo de pacientes y el otro medicamento B al segundo grupo. Posteriormente, el investigador debe decidir, basándose en el número de pacientes curados en cada grupo, si el nuevo medicamento es más eficaz o no que el anterior.
Las pruebas de hipótesis se realizan en todos los ámbitos en los cuales puede contrastarse la teoría frente a la observación.

Prueba de Hipótesis

Considere el siguiente problema: Un productor de fármacos afirma que tiene una droga cuya aplicación debe aumentar la probabilidad de que nazca una niña de 50% hasta 70%, por lo menos. Se quiere verificar la validez de esta afirmación.
La solución podría consistir de los siguientes pasos:

Paso 1.

Se puede asociar al problema un modelo probabilístico (el cual modela la situación planteada), en el cual la variable de interés “nacimiento de un bebé” está representada por $Y \sim B(1, \theta)$ con las codificaciones:
- $y = 1$, si el bebé es una niña;
- $y = 0$, si el bebé es un niño.

Es decir, el parámetro de interés es $\theta$, la probabilidad de que nazca una niña.
Como hipótesis nula $H_0$ se puede escoger $\theta = 0.5$, que refleja la situación normal, contra la alternativa $H_1$ de que $\theta = 0.7$, que refleja la afirmación del productor de fármacos.

Paso 2.

Para ver cómo realmente actúa la droga en cuestión, se escogen, digamos, $n = 20$ mujeres, independientemente; se aplica la droga a cada una de ellas y se observa, después del debido tiempo, si la mamá $i$ da a luz a una niña o a un niño. Así se obtiene el modelo estadístico correspondiente, dado por una muestra $Y = (Y_1, Y_2, \dots, Y_n)$ de tamaño $n = 20$, con variables muestrales $Y_i \sim B(1, \theta)$.
Para un experimento concreto, se obtienen los datos $y = (y_1, y_2, \dots, y_n)$, siendo cada $y_i \in \{0, 1\}$.

Paso 3.

Se apuntará $\sum_{i=1}^n y_i =:$ el número de niñas entre los $n$ bebés nacidos, que es un valor de la estadística

\[ T(Y) = \sum_{i=1}^n Y_i \sim B(n, \theta). \]

Intuitivamente, se rechazará la hipótesis $H_0$ si $T(y) \geq c$ para un valor $c$ “suficientemente grande”, es decir, si hay “muchas” niñas.
Es claro que para $T(y) = 20$ se rechazará $H_0$ en favor de la afirmación del productor, y si también nacen 19 niñas; pero ¿con cuál número empiezan las dudas? ¿Desde cuál número se va a creer más en $H_1$ que en $H_0$?
Para poder dar respuestas adecuadas a las preguntas formuladas en el paso 3 del ejemplo y a problemas semejantes, se necesitan formalizar los procedimientos de una prueba de hipótesis, que será un análisis estadístico que completará los resultados obtenidos por la estimación puntual.

Una prueba de hipótesis está dada por los pasos siguientes:

Se parte de un modelo probabilístico asociado al problema, donde la variable de interés tiene una distribución que depende de un parámetro de interés $\theta$. Según el problema, se escoge una hipótesis nula $H_0: \theta \in \Theta_0$ junto con una hipótesis alternativa $H_1: \theta \in \Theta_1$, donde $\Theta_0 \uplus \Theta_1$ es una unión disyunta del espacio del parámetro $\Theta$. Nótese que $\Theta_1$ no necesariamente es la alternativa lógica.
El modelo probabilístico correspondiente está formado por una muestra $Y = (Y_1, Y_2, \dots, Y_n)$ de tamaño $n$, cuya distribución $f_\theta$ debe ser conocida para cada $\theta$ y calculable, al menos para $\theta \in \Theta_0$. De una observación concreta resultan los datos $y = (y_1, y_2, \dots, y_n)$.
Se escoge una estadística $T(Y)$ unidimensional de tal manera que tiene sentido para el problema: rechazar $H_0$ con base en $y = (y_1, y_2, \dots, y_n)$ si y solo si $T(y) \geq c$, donde $c$ es determinado atendiendo los criterios de: error tipo I, p-valor, errores tipo I y tipo II.

Definición.

A menor p-valor, mayor tranquilidad para rechazar la hipótesis $H_0$, porque la probabilidad del error tipo I será más pequeña. Para un p-valor $\alpha(T(y)) > 5\%$, “se acepta la hipótesis $H_0$” en el sentido de que “no se pudo encontrar una desviación algo significativa”; mejor sería hablar de no rechazar $H_0$, como se verá más adelante.
Si $W$ es un estadístico de prueba, el valor-p o nivel de significación alcanzado es el mínimo nivel de significación $\alpha$, para el cual los datos observados indican que se tendría que rechazar la hipótesis nula.

Continuación del ejemplo.

Como la estadística de prueba es

\[ T(Y) = \sum_{i=1}^{20} Y_i \sim B(20, \theta), \]

y como $H_0: \theta = 0.5$, se hace uso de una tabla para $B(20, 0.5)$ los posibles valores críticos $c$ junto con las posibilidades del error tipo I:

$c$	14	15	16	17	18	…
$P(T(Y) \geq c \mid 0.5)$	0.0577	0.0207	0.0059	0.0013	0.0002	…

Se rechaza $H_0$ a nivel de 5% si

\[ T(y) \in \{15, 16, \dots, 20\}, \]

se rechaza $H_0$ a nivel de 1% si

\[ T(y) \in \{16, \dots, 20\}, \]

se rechaza $H_0$ a nivel de 0.1% si

\[ T(y) \in \{18, 19, 20\}. \]

En conclusión, si se observan $t \in \{0, \dots, 14\}$ nacimientos de niñas, entonces se acepta $H_0: \theta = 0.5$, rechazando la afirmación del productor; si se observan $t = 15$, esto puede ser indicio para que el productor tenga razón.
Si se observan $t = 16$ o $17$, esto se interpreta como una desviación significativa de $H_0$, creyendo ya en la afirmación del productor; y finalmente, si se observan por lo menos $t = 18$, se acepta de manera significativa la afirmación del productor.

Errores tipo I y tipo II.

	$H_0$ es falsa	$H_0$ es verdadera
Rechazar $H_0$	Decisión correcta	Error tipo I (prob. controlada)
No rechazar $H_0$ (“aceptar” $H_0$)	Error tipo II (prob. no controlada)	Decisión correcta

Ahora se trata de escoger el valor crítico $c$ tal que

\[ P(T(Y) \geq c \mid H_0) \leq \alpha \]

es válida y además, para cierto $\beta_0 \in (0, 1)$ fijo,

\[ P(T(Y) < c \mid H_1) \leq \beta, \]

y tal que esta probabilidad sea lo más cercana a $\beta$.
Aquí “$T(Y) < c \mid H_1$” significa “aceptar $H_0$ a pesar de que $H_1$ sea correcta”, una decisión errónea del estadístico, a la cual se llama error tipo II. Sería deseable fijar $1 - \beta$ “cerca” de 1, para asegurar que la probabilidad del error tipo II esté “cerca” de 0. Típicamente, no es posible controlar las probabilidades de ambos errores a la vez, si se fija el tamaño $n$ de la muestra de antemano.
Una solución a este dilema es diseñar la prueba de tal manera que el error tipo II no sea tan grave; es decir, se deben escoger $H_0$ y $H_1$ adecuadamente. Otra solución, a veces posible, es aumentar $n$ hasta que se puedan cumplir, en este caso, como $n$ es grande, se usan aproximaciones de la distribución de la estadística de prueba, preferiblemente con una distribución normal.

Aproximación de una distribución binomial por la distribución normal.

Sea $Y \sim B(n, p)$. Entonces, vale aproximadamente:

\[ P(c \leq Y \leq d \mid p) \approx \Phi\left(\frac{d - np + 1/2}{\sqrt{np(1-p)}}\right) - \Phi\left(\frac{c - np - 1/2}{\sqrt{np(1-p)}}\right), \]

donde $\Phi \sim N(0, 1)$. Nótese que una aproximación generalmente es suficientemente buena si $np \geq 5$ y $n(1-p) \geq 5$.

Continuación del ejemplo.

Buscaremos el tamaño $n$ de la muestra y el valor $c$, tales que cumplan

$P(T(Y) \geq c \mid 0.5) \leq \alpha$, por ejemplo, con $\alpha = 0.01$,
$P(T(Y) < c \mid 0.7) \leq \beta$, por ejemplo, con $1 - \beta = 0.95$,

simultáneamente. Usando el teorema de aproximación, se puede escribir $1 - \Phi(c_1) = 0.01$ con

\[ \frac{c - 0.5n - 0.5}{0.5\sqrt{n}} = c_1, \]

y $\Phi(c_2) = 0.05$ con

\[ \frac{c - 0.7n - 0.5}{0.1\sqrt{21n}} = c_2. \]

De la tabla para $\Phi$ se encuentran los valores $c_1 = 2.325$, $c_2 = -1.645$ y que se debe escoger $n = 92$, $c = 58$.

Ejemplo.

En conclusión, si $t \in \{58, 59, \dots, 92\}$, entonces se rechaza la hipótesis $H_0$, aceptando la afirmación del productor y cometiendo un error de tipo I con una probabilidad de, a lo más, 1%. Si $t \in \{0, 1, \dots, 57\}$, entonces no se acepta la afirmación del productor, y se comete un error tipo II con una probabilidad de, a lo más, 5%.
En el ejercicio original, si $c = 15$, $P(T(Y) < 15 \mid 0.7) = \beta = 0.584$, este valor grande para el error tipo II indica que las muestras de tamaño 20 no suelen detectar la diferencia de un 20% en la proporción hipotética, y como ya vimos, este puede reducirse si se aumenta el tamaño muestral.
La decisión de “aceptar” la hipótesis $H_0$ es, por lo tanto, una decisión dudosa, siempre y cuando no se conozca la probabilidad de una posible decisión errónea. Es aconsejable decir que “no se puede rechazar $H_0$” o “los datos no contradicen $H_0$” o simplemente “La muestra no presenta evidencia significativa para rechazar $H_0$”.

Este texto está listo para ser compilado en RMarkdown. Las expresiones matemáticas están correctamente encerradas en $ para inline y $$ para ecuaciones centradas. ################################################################################

Elementos comunes en prueba de hipótesis con muestras grandes

Supongamos que se quiere probar una hipótesis referente al parámetro $\theta$, basado en una muestra aleatoria $Y = (Y_1, Y_2, \dots, Y_n)$ y en el estimador $\hat{\theta}$, que tiene (aproximadamente) una distribución normal con media $\theta$ y varianza $\sigma_{\hat{\theta}}^2$.

Parámetro:

El parámetro de interés es:

\[ \theta \in \{\mu, p, \mu_1 - \mu_2, p_1 - p_2\} \]

Estimador:

El estimador del parámetro de interés es:

\[ \hat{\theta} \in \{\bar{Y}, \hat{p}, \bar{Y}_1 - \bar{Y}_2, \hat{p}_1 - \hat{p}_2\} \]

Desviación del estimador:

La desviación del estimador del parámetro de interés es:

\[ \sigma_{\hat{\theta}} \in \left\{ \frac{\sigma}{\sqrt{n}}, \sqrt{\frac{p_0 (1 - p_0)}{n}}, \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}, \sqrt{\frac{p_1 (1 - p_1)}{n} + \frac{p_2 (1 - p_2)}{n}} \right\} \]

Hipótesis:

Las hipótesis a probar son:

\[ \begin{cases} H_0: \theta = \theta_0 \\ H_1: \begin{cases} \theta > \theta_0 & \text{(alternativa de cola superior)} \\ \theta < \theta_0 & \text{(alternativa de cola inferior)} \\ \theta \neq \theta_0 & \text{(alternativa de dos colas)} \end{cases} \end{cases} \]

Nivel de Significancia:

La prueba se realiza con nivel de significancia:

\[ \alpha \in \{0.05, 0.01, 0.1\} \]

Estadístico de prueba:

De los datos muestrales se calcula el valor experimental:

\[ Z_p = \frac{\hat{\theta} - \theta_0}{\sigma_{\hat{\theta}}} \]

Región de rechazo:

Se rechaza $H_0$ en favor de $H_1$ si ocurre que:

\[ \begin{cases} Z_p > z_\alpha & \text{(RR de cola superior)} \\ Z_p < -z_\alpha & \text{(RR de cola inferior)} \\ |Z_p| > z_{\alpha/2} & \text{(RR de dos colas)} \end{cases} \]

Valor p:

El valor p de la prueba se obtiene:

\[ \text{valor p} = \begin{cases} P(Z > Z_p) & \text{(RR de cola superior)} \\ P(Z < -Z_p) & \text{(RR de cola inferior)} \\ 2P(Z > |Z_p|) & \text{(RR de dos colas)} \end{cases} \]

Conclusión:

La significancia de la prueba se establece de la siguiente forma:

Se rechaza $H_0$ en favor de $H_1$ casi significativamente si ocurre que $1\% < \text{valor p} \leq 5\%$. ($^{*}$)
Se rechaza $H_0$ en favor de $H_1$ significativamente si ocurre que $0.1\% < \text{valor p} \leq 1\%$. ($^{**}$)
Se rechaza $H_0$ en favor de $H_1$ muy significativamente si ocurre que $0 \leq \text{valor p} \leq 0.1\%$. ($^{***}$)

Ejemplo 1:

El vicepresidente a cargo de las ventas de una gran corporación afirma que los vendedores tienen un promedio no mayor de 15 prospectos de ventas por semana. (Desearía aumentar esta cifra.) Se seleccionan al azar $n = 36$ vendedores para verificar su afirmación, y se registra el número de contactos en una sola semana seleccionada en forma aleatoria. La muestra tiene una media de 17 prospectos y una varianza de 9. ¿Contradicen los hechos la afirmación del presidente? Utilice $\alpha = 0.05$.

Solución:

Nos interesa probar una hipótesis acerca del número promedio de ventas por semana $\mu$. Específicamente, probamos $H_0: \mu = 15$ frente a $H_1: \mu > 15$.
Se sabe que la media muestral $\bar{Y}$ es un estimador puntual de $\mu$ que satisface los supuestos antes descritos. Por lo tanto, el estadístico de prueba es:

\[ Z = \frac{\bar{Y} - \mu_0}{\sigma_{\bar{Y}}} = \frac{\bar{Y} - \mu_0}{\sigma / \sqrt{n}} \]
La región de rechazo, con $\alpha = 0.05$, está dada por $z > 1.645$.
La varianza de la población, $\sigma^2$, se desconoce, pero se puede estimar muy acertadamente (ya que $n = 36$ es suficientemente grande) por la varianza muestral $s^2 = 9$.
Por lo tanto, el valor observado del estadístico de la prueba es aproximadamente:

\[ z = \frac{\bar{y} - \mu_0}{s / \sqrt{n}} = \frac{17 - 15}{3 / \sqrt{36}} = 4 \]
Como el valor observado de $Z$ cae en la región de rechazo (excede $z_{0.05} = 1.645$), rechazamos $H_0: \mu = 15$. Por lo tanto, resulta que la afirmación del vicepresidente es incorrecta y que el número promedio de prospectos de venta por semana excede a 15.

Ejemplo 2:

Se tiene que reparar una máquina en cierta fábrica si produce más de 10% de artículos defectuosos del gran lote de producción de un día. Una muestra aleatoria de 100 artículos de la producción diaria contiene 15 defectuosos, y el capataz decide que debe repararse la máquina. ¿La evidencia de la muestra apoya su decisión? Utilice $\alpha = 0.01$.

Solución:

Si $Y$ denota el número de artículos defectuosos observados, entonces $Y$ es una variable aleatoria binomial, con $p$ la probabilidad de que el artículo seleccionado al azar sea defectuoso. Por lo tanto, queremos probar la hipótesis nula $H_0: p = 0.10$ frente a $H_1: p > 0.10$.
El estadístico de prueba basado en $\hat{p} = Y/n$, el estimador puntual insesgado de $p$, está dado por:

\[ Z = \frac{\hat{p} - p_0}{\sigma_{\hat{p}}} = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0 (1 - p_0)}{n}}} \]

(Se hubiese podido usar $\frac{\hat{p}(1 - \hat{p})}{n}$ para aproximar a $\sigma_{\hat{p}}^2$, pero como consideramos la distribución $Z$ conforme a $H_0$, es más apropiado utilizar $\frac{p_0 (1 - p_0)}{n}$, el valor real de $\sigma_{\hat{p}}^2$ cuando $H_0$ es verdadera).
La región de rechazo, con $\alpha = 0.01$, está dada por $z > 2.33$.
El valor observado del estadístico de la prueba es aproximadamente:

\[ z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0 (1 - p_0)}{n}}} = \frac{0.15 - 0.10}{\sqrt{\frac{(0.1)(0.9)}{100}}} = \frac{5}{3} \]
Ya que el valor observado de $Z$ no está en la región de rechazo, se concluye que la evidencia no apoya la decisión del capataz. ¿Está equivocado el capataz? No llegaremos a esta conclusión hasta después de haber calculado $\beta$, la probabilidad de aceptar $H_0$ siendo verdadera $H_1$.

Ejemplo 3:

Se realizó un estudio psicológico para comparar los tiempos de reacción de hombres y de mujeres con respecto a cierto estímulo. Se utilizaron en el experimento muestras aleatorias independientes de 50 hombres y 50 mujeres. Los datos se presentan a continuación. ¿Presentan los datos suficiente evidencia para sugerir una diferencia entre los promedios verdaderos de los tiempos de reacción para hombres y mujeres? Utilice $\alpha = 0.05$.

Hombres	Mujeres
$n_1 = 50$	$n_2 = 50$
$\bar{y}_1 = 3.6$ segundos	$\bar{y}_2 = 3.8$ segundos
$s_1^2 = 0.18$	$s_2^2 = 0.14$

Solución:

Sean $\mu_1$ y $\mu_2$ los promedios reales de los tiempos de reacción para hombres y para mujeres, respectivamente. Entonces, si se desea probar la hipótesis de que las medias son iguales, probaremos $H_0: \mu_1 - \mu_2 = 0$ frente a $H_1: \mu_1 - \mu_2 \neq 0$.
Nótese que aplicamos la hipótesis alternativa bilateral para detectar ya sea $\mu_1 > \mu_2$ o bien $\mu_1 < \mu_2$, en el caso de que $H_0$ sea falsa.
El estimador puntual de $\mu_1 - \mu_2$ es $(\bar{Y}_1 - \bar{Y}_2)$ y satisface los supuestos de la prueba para muestras grandes. Por lo tanto, si se desea probar $H_0: \mu_1 - \mu_2 = D_0$ (con $D_0$ fijo) contra cualquier alternativa, el estadístico de prueba está dado por:

\[ Z = \frac{(\bar{Y}_1 - \bar{Y}_2) - D_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \]

donde $\sigma_1^2$ y $\sigma_2^2$ son las varianzas poblacionales respectivas. En esta aplicación se requiere una prueba de dos colas.
Por lo tanto, para $\alpha = 0.05$, se rechaza $H_0$ si $|z| > z_{\alpha/2} = z_{0.025} = 1.96$. Para muestras grandes (digamos, $n > 30$), las varianzas muestrales dan estimaciones adecuadas de las varianzas poblacionales correspondientes. Al sustituir estos valores junto con $\bar{y}_1$, $\bar{y}_2$, $n_1$, $n_2$ y $D_0$ en la fórmula para el estadístico de prueba, se tiene:

\[ z = \frac{(\bar{y}_1 - \bar{y}_2) - 0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \approx \frac{(3.6 - 3.8) - 0}{\sqrt{\frac{0.18}{50} + \frac{0.14}{50}}} = -2.5 \]
Este valor es menor que $-z_{\alpha/2} = -1.96$ y por esto cae en la región de rechazo. Por lo tanto, rechazamos la hipótesis de que no hay una diferencia en los promedios de los tiempos de reacción para hombres y mujeres.

Tamaño de la muestra para una hipótesis alternativa de cola superior para la media

Considere $H_0: \mu = \mu_0$ frente a $H_1: \mu > \mu_0$ (alternativa de cola superior).
Se trata de hallar $n$ (tamaño de la muestra) y $c$ (el punto donde empieza la región de rechazo) conociendo valores de $\alpha_0$ y $\beta_0$.

$\alpha = P\{\bar{Y} \geq c \mid \mu_0\} = P\left\{\frac{\bar{Y} - \mu_0}{\sigma / \sqrt{n}} \geq \frac{c - \mu_0}{\sigma / \sqrt{n}} \mid \mu_0\right\} = P\{Z \geq z_{\alpha}\}$
$\beta = P\{\bar{Y} < c \mid \mu_1\} = P\left\{\frac{\bar{Y} - \mu_1}{\sigma / \sqrt{n}} < \frac{c - \mu_1}{\sigma / \sqrt{n}} \mid \mu_1\right\} = P\{Z < -z_{\beta}\}$

De donde se obtienen:

$z_{\alpha} = \frac{c - \mu_0}{\sigma / \sqrt{n}}$
$-z_{\beta} = \frac{c - \mu_1}{\sigma / \sqrt{n}}$

Al eliminar $c$ de las dos ecuaciones, resulta:

\[ n = \left(\frac{z_{\alpha} + z_{\beta}}{\mu_1 - \mu_0}\right)^2 \sigma^2 \]

Ejemplo 1:

Supóngase que el vicepresidente del ejemplo anterior quiere detectar una diferencia igual a un prospecto en el número promedio de prospectos por semana. Es decir, le interesa probar $H_0: \mu = 15$ frente a $H_1: \mu = 16$. Calcule $\beta$ para esta prueba.

Solución:

En un ejemplo anterior teníamos $n = 36$, $\bar{y} = 17$ y $s^2 = 9$. La región de rechazo estaba dada por ($\alpha = 0.05$):

\[ z = \frac{\bar{y} - \mu_0}{\sigma / \sqrt{n}} > 1.645 \]

que es equivalente a:

\[ \bar{y} - \mu_0 > 1.645 \left(\frac{\sigma}{\sqrt{n}}\right) \quad \text{o bien} \quad \bar{y} > \mu_0 + 1.645 \left(\frac{\sigma}{\sqrt{n}}\right) \]
Al sustituir $\mu_0 = 15$ y $n = 36$, y utilizar $s$ para aproximar a $\sigma$, encontramos como región de rechazo:

\[ \bar{y} > 15 + 1.645 \left(\frac{3}{\sqrt{36}}\right) \quad \text{o bien} \quad \bar{y} > 15.8225 \]
Entonces, por definición, $\beta = P\{\bar{Y} \leq 15.8225 \mid \mu = 16\}$ es la región sombreada bajo la curva punteada a la izquierda de $c = 15.8225$. Por lo tanto, para $\mu_1 = 16$:

\[ \beta = P\left\{\frac{\bar{Y} - \mu_1}{\sigma / \sqrt{n}} \leq \frac{15.8225 - 16}{3 / \sqrt{36}}\right\} = P\{Z < -0.36\} = 0.3594 \]
El valor grande de $\beta$ indica que las muestras de tamaño 36 no suelen detectar la diferencia de una unidad de la media hipotética. Podemos reducir el valor de $\beta$ aumentando el tamaño de la muestra $n$.

Ejemplo 2:

Ahora supóngase que el vicepresidente quiere probar $H_0: \mu = 15$ frente a $H_1: \mu = 16$ con $\alpha = \beta = 0.05$. Hallar el tamaño de la muestra que garantice esta exactitud. Supóngase que $\sigma^2 \approx 9$.

Solución:

Ya que $\alpha = \beta = 0.05$, en consecuencia $z_{\alpha} = z_{\beta} = z_{0.05} = 1.645$. Entonces:

\[ n = \left(\frac{z_{\alpha} + z_{\beta}}{\mu_1 - \mu_0}\right)^2 \sigma^2 \approx \left(\frac{1.645 + 1.645}{16 - 15}\right)^2 \cdot 9 = 97.4 \]
Por lo tanto, se tendría que utilizar $n = 98$ observaciones para garantizar $\alpha = \beta = 0.05$.

Elementos comunes en prueba de hipótesis con muestras pequeñas

Supongamos que se quiere probar una hipótesis referente al parámetro $\theta$, basado en una muestra aleatoria $Y = (Y_1, Y_2, \dots, Y_n)$ y en el estimador $\hat{\theta}$, que tiene distribución normal con media $\theta$ y varianza desconocida $\sigma_{\hat{\theta}}^2$.

Parámetro:

El parámetro de interés es:

\[ \theta \in \{\mu, \mu_1 - \mu_2\} \]

Estimador:

El estimador del parámetro de interés es:

\[ \hat{\theta} \in \{\bar{Y}, \bar{Y}_1 - \bar{Y}_2\} \]

Desviación del estimador:

La desviación del estimador del parámetro de interés es:

\[ \sigma_{\hat{\theta}} \in \left\{ \frac{s}{\sqrt{n}}, \sqrt{\frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} \left(\frac{1}{n_1} + \frac{1}{n_2}\right)}, \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} \right\} \]

Hipótesis:

Las hipótesis a probar son:

Nivel de Significancia:

La prueba se realiza con nivel de significancia:

\[ \alpha \in \{0.05, 0.01, 0.1\} \]

Estadístico de prueba:

De los datos muestrales se calcula el valor experimental:

\[ t_p = \frac{\hat{\theta} - \theta_0}{\sigma_{\hat{\theta}}} \]

con $v$ grados de libertad.

Región de rechazo:

Se rechaza $H_0$ en favor de $H_1$ si ocurre que:

\[ \begin{cases} t_p > t_{\alpha, v} & \text{(RR de cola superior)} \\ t_p < -t_{\alpha, v} & \text{(RR de cola inferior)} \\ |t_p| > t_{\alpha/2, v} & \text{(RR de dos colas)} \end{cases} \]

Valor p:

El valor p de la prueba se obtiene:

\[ \text{valor p} = \begin{cases} P(t_v > t_p) & \text{(RR de cola superior)} \\ P(t_v < -t_p) & \text{(RR de cola inferior)} \\ 2P(t_v > |t_p|) & \text{(RR de dos colas)} \end{cases} \]

Conclusión:

La significancia de la prueba se establece de la siguiente forma:

Se rechaza $H_0$ en favor de $H_1$ casi significativamente si ocurre que $1\% < \text{valor p} \leq 5\%$. ($^{*}$)
Se rechaza $H_0$ en favor de $H_1$ significativamente si ocurre que $0.1\% < \text{valor p} \leq 1\%$. ($^{**}$)
Se rechaza $H_0$ en favor de $H_1$ muy significativamente si ocurre que $0 \leq \text{valor p} \leq 0.1\%$. ($^{***}$)

Ejemplo 1:

El Instituto eléctrico Edison publica cifras del número anual de kilowatts-hora que gastan varios aparatos electrodomésticos. Se afirma que una aspiradora gasta en promedio 46 kilowatts-hora al año. Si una muestra aleatoria de 12 hogares que se incluye en un estudio planeado indica que las aspiradoras gastan un promedio de 42 kilowatts-hora al año con una desviación estándar de 11.9 kilowatts-hora, ¿en un nivel de significancia de 0.05 esto sugiere que las aspiradoras gastan, en promedio, menos de 46 kilowatts-hora anualmente? Suponga que la población de kilowatts-hora es normal.

Solución:

Hipótesis: $H_0: \mu = 46$ kilowatts-hora vs $H_1: \mu < 46$ kilowatts-hora.
Significancia: $\alpha = 0.05$.
Estadístico de prueba:

\[ t = \frac{\bar{Y} - \mu_0}{S / \sqrt{n}} \]

con 11 grados de libertad.
Región de rechazo: $t < -t_{\alpha} = -1.796$.
Cálculos: $\bar{y} = 42$, $s = 11.9$, $n = 12$. De aquí:

\[ t_p = \frac{42 - 46}{11.9 / \sqrt{12}} = -1.16 \]

y

\[ \text{p-valor} = P\{T \leq -1.16\} \approx 0.135 \]
Decisión: No rechace $H_0$ y concluya que el número promedio de kilowatts-hora que gastan al año las aspiradoras domésticas no es significativamente menor que 46.

Ejemplo 2:

Se lleva a cabo un experimento para comparar el desgaste por abrasivos de dos diferentes materiales laminados. Se prueban 12 piezas del material 1 exponiendo cada pieza a una máquina para medir el desgaste. Diez piezas del material 2 se prueban de manera similar. En cada caso, se observa la profundidad del desgaste. Las muestras del material 1 dan un desgaste promedio (codificado) de 85 unidades con una desviación estándar muestral de 4; en tanto que las muestras del material 2 dan un promedio de 81 y una desviación estándar muestral de 5. ¿Podríamos concluir, con un nivel de significancia de 0.05, que el desgaste abrasivo del material 1 excede el del material 2 en más de dos unidades? Suponga que las poblaciones son aproximadamente normales con varianzas iguales.

Solución:

Hipótesis: $H_0: \mu_1 - \mu_2 = 2$ vs $H_1: \mu_1 - \mu_2 > 2$.
Significancia: $\alpha = 0.05$.
Estadístico de prueba:

\[ t = \frac{(\bar{Y}_1 - \bar{Y}_2) - D_0}{S \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \]

con 20 grados de libertad.
Región de rechazo: $t > 1.725$.
Cálculos: $\bar{y}_1 = 85$, $s_1 = 4$, $n_1 = 12$ y $\bar{y}_2 = 81$, $s_2 = 5$, $n_2 = 10$. De aquí:

\[ S = \sqrt{\frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}} = \sqrt{\frac{(11)(16) + (9)(25)}{12 + 10 - 2}} = 4.478 \]

luego,

\[ t = \frac{(85 - 81) - 2}{4.478 \sqrt{\frac{1}{12} + \frac{1}{10}}} = 1.04 \]

y

\[ \text{p-valor} = P\{T > 1.04\} \approx 0.16 \]
Decisión: No rechace $H_0$. No se puede concluir que el desgaste abrasivo del material 1 excede el del material 2 en más de dos unidades.

Pruebas de hipótesis referentes a varianzas

Supongamos que se quiere probar una hipótesis referente al parámetro $\theta$, basado en una muestra aleatoria $Y = (Y_1, Y_2, \dots, Y_n)$ y en el estimador $\hat{\theta}$, que tiene distribución normal con media $\theta$ y varianza desconocida $\sigma_{\hat{\theta}}^2$.

Parámetro:

El parámetro de interés es:

\[ \theta = \sigma^2 \]

Estimador:

El estimador del parámetro de interés es:

\[ \hat{\theta} = S^2 \]

Desviación del estimador:

La desviación del estimador del parámetro de interés es:

\[ \sigma_{\hat{\theta}} \in \{\} \]

Hipótesis:

Las hipótesis a probar son:

\[ \begin{cases} H_0: \sigma^2 = \sigma_0^2 \\ H_1: \begin{cases} \sigma^2 > \sigma_0^2 & \text{(alternativa de cola superior)} \\ \sigma^2 < \sigma_0^2 & \text{(alternativa de cola inferior)} \\ \sigma^2 \neq \sigma_0^2 & \text{(alternativa de dos colas)} \end{cases} \end{cases} \]

Nivel de Significancia:

La prueba se realiza con nivel de significancia:

\[ \alpha \in \{0.05, 0.01, 0.1\} \]

Estadístico de prueba:

De los datos muestrales se calcula el valor experimental:

\[ \chi^2 = \frac{(n - 1)S^2}{\sigma_0^2} \]

con $(n - 1)$ grados de libertad.

Región de rechazo:

Se rechaza $H_0$ en favor de $H_1$ si ocurre que:

\[ \begin{cases} \chi^2 > \chi_{\alpha}^2 & \text{(RR de cola superior)} \\ \chi^2 < \chi_{1 - \alpha}^2 & \text{(RR de cola inferior)} \\ \chi^2 > \chi_{\alpha/2}^2 \text{ o } \chi^2 < \chi_{1 - \alpha/2}^2 & \text{(RR de dos colas)} \end{cases} \]

Valor p:

El valor p de la prueba se obtiene:

\[ \text{valor p} = \begin{cases} P(\chi^2 > \chi_p^2) & \text{(RR de cola superior)} \\ P(\chi^2 < \chi_p^2) & \text{(RR de cola inferior)} \\ 2P(\chi^2 > \chi_p^2) & \text{(RR de dos colas)} \end{cases} \]

Conclusión:

La significancia de la prueba se establece de la siguiente forma:

Se rechaza $H_0$ en favor de $H_1$ casi significativamente si ocurre que $1\% < \text{valor p} \leq 5\%$. ($^{*}$)
Se rechaza $H_0$ en favor de $H_1$ significativamente si ocurre que $0.1\% < \text{valor p} \leq 1\%$. ($^{**}$)
Se rechaza $H_0$ en favor de $H_1$ muy significativamente si ocurre que $0 \leq \text{valor p} \leq 0.1\%$. ($^{***}$)

Ejemplo: Prueba de hipótesis para la varianza

Un fabricante de baterías para automóvil afirma que la duración de sus baterías se distribuye de forma aproximadamente normal con una desviación estándar igual a 0.9 años. Si una muestra aleatoria de 10 de tales baterías tiene una desviación estándar de 1.2 años, ¿considera que $\sigma > 0.9$ años? Utilice $\alpha = 0.05$.

Solución:

Hipótesis:
- $H_0: \sigma^2 = 0.81$ (la varianza es igual a 0.81)
- $H_1: \sigma^2 > 0.81$ (la varianza es mayor que 0.81)
Significancia: $\alpha = 0.05$.
Estadístico de prueba: \[ \chi^2 = \frac{(n - 1)S^2}{\sigma_0^2} \] con $n - 1 = 9$ grados de libertad.
Región de rechazo: $\chi^2 > 16.919$.
Cálculos:
- $S^2 = 1.44$ (varianza muestral)
- $\sigma_0^2 = 0.81$ (varianza bajo $H_0$)
- $\chi^2 = \frac{(9)(1.44)}{0.81} = 16.0$
El valor p es: \[ \text{p-valor} = P\{\chi^2 > 16.0\} \approx 0.07 \]
Decisión:
- El estadístico $\chi^2$ no es significativo en el nivel 0.05.
- Sin embargo, con base en el valor p de 0.07, hay alguna evidencia de que $\sigma > 0.9$.

Dos poblaciones normales

Hipótesis:

$H_0: \sigma_1^2 = \sigma_2^2$
$H_1:$
- $\sigma_1^2 > \sigma_2^2$ (alternativa de cola superior)
- $\sigma_1^2 < \sigma_2^2$ (alternativa de cola inferior)
- $\sigma_1^2 \neq \sigma_2^2$ (alternativa de dos colas)

Estadístico de prueba:

\[ F = \frac{S_1^2}{S_2^2} \] con $(n_1 - 1)$ grados de libertad en el numerador y $(n_2 - 1)$ grados de libertad en el denominador.

Región de rechazo:

$F > F_{\alpha}$ (RR de cola superior)
$F < F_{1 - \alpha}$ (RR de cola inferior)
$F > F_{\alpha/2}$ o $F < F_{1 - \alpha/2}$ (RR de dos colas)

Ejemplo: Prueba de igualdad de varianzas

Al probar la diferencia en el desgaste abrasivo de los dos materiales del ejemplo anterior, supusimos que eran iguales las dos varianzas poblacionales desconocidas. ¿Se justifica tal suposición? Utilice un nivel de significancia de 0.10.

Solución:

Hipótesis:
- $H_0: \sigma_1^2 = \sigma_2^2$
- $H_1: \sigma_1^2 \neq \sigma_2^2$
Significancia: $\alpha = 0.10$.
Estadístico de prueba: \[ F = \frac{S_1^2}{S_2^2} \] con 11 grados de libertad en el numerador y 9 grados de libertad en el denominador.
Región de rechazo:
- $F_{0.95(11,9)} = \frac{1}{F_{0.05(9,11)}} = 0.34$
- Por lo tanto, se rechaza $H_0$ si $F < 0.34$ o $F > 3.11$.
Cálculos:
- $s_1^2 = 16$, $s_2^2 = 25$
- $F = \frac{16}{25} = 0.64$
Decisión:
- No rechace $H_0$.
- Concluya que no hay suficiente evidencia de que las varianzas difieran.

Ejercicios

Ejercicio: Se sabe que el 35% de los miembros de una población sufren de una o más enfermedades crónicas. ¿Cuál es la probabilidad de que, en una muestra aleatoria de 200 individuos, 80 o más tengan al menos una enfermedad crónica?
Ejercicio: Una compañía fabrica clips y los vende en cajas con etiquetas que dicen “Aprox. 100”. Hemos contado los clips en las cajas y encontramos que el número de clips varía entre 93 o 94 y más de 100. Suponga que el número de clips en las cajas producidas por esta fábrica tiene media 100 y desviación estándar de 8. Suponga que se empaca en cartones de 64 cajas y tomamos un cartón como una muestra. Use la distribución muestral de la media muestral para calcular la probabilidad aproximada de que el número de clips por caja esté entre 98 y 100.
Ejercicio: Si se seleccionan todas las muestras posibles de 64 elementos, a partir de una población cuya media es 100 y cuya desviación estándar es 20, ¿entre qué límites cabe esperar que esté el 80% del centro de las medias muestrales?
Ejercicio: Se ha elegido una muestra de 100 baterías de una línea de producción que fabrica baterías con una vida media de 40 meses y una desviación estándar de 10 meses. Si se toma una muestra diferente de 400 baterías a partir de la misma población, ¿será mayor, igual o menor el error estándar de la media? Calcule el nuevo error estándar de la media.
Ejercicio: Se hace un estudio para averiguar el número de horas al día mirando televisión de niños entre 5 y 8 años en una ciudad (Y). Asuma que Y es una variable aleatoria discreta, con la siguiente distribución de probabilidades:

Y: número de horas 0 1 2 3 4

Proporción de niños 0.05 0.20 0.25 0.30 0.20
1. Grafique la distribución de Y, dé su opinión acerca de la forma de la distribución.
2. ¿Cuál es el número esperado de horas frente al televisor?
3. ¿Cuál es la desviación estándar del número de horas frente al televisor?
4. ¿Cuál es la probabilidad de que un niño seleccionado al azar esté a lo más (no más de) 2 horas diarias frente al televisor?
5. Se toma una muestra aleatoria de $n = 64$ niños de esta población. Calcule la probabilidad de que la media muestral sea de a lo más dos horas.
Ejercicio: Las estaturas de 1000 estudiantes están distribuidas aproximadamente de forma normal con una media de 174.5 centímetros y una desviación estándar de 6.9 centímetros. Si se extraen 200 muestras aleatorias de tamaño 25 de esta población, determine:
1. La media y la desviación estándar de la distribución muestral del promedio muestral.
2. El número de las medias muestrales que caen entre 172.5 y 175.8 centímetros.
Ejercicio: La compañía de baterías Timeless afirma que sus baterías tienen una vida media de 60 meses y una desviación estándar de 9 meses. Un grupo de consumidores que está poniendo a prueba esta afirmación compra 36 baterías y determina la vida media.
1. Calcule el error estándar de la media.
2. Suponiendo que lo que afirma Timeless es cierto, ¿cuál es la probabilidad de que la vida media de la muestra sea menor que 58 meses?
3. Determine la probabilidad de que la vida media de la muestra esté entre 57 y 63 meses.
4. Si la media muestral del grupo de consumidores es 55 meses, ¿a qué conclusiones llegaría usted si fuera el analista?
Ejercicio: Suponga que el 54% de los estudiantes de Psicología de la UTB son mujeres. Se toma una muestra aleatoria simple de 20 estudiantes.
1. ¿Entre qué posibles valores podemos encontrar el 99% de las proporciones muestrales?
2. ¿En qué afecta un aumento a 50 en el tamaño de la muestra a la media y a la desviación estándar de la distribución muestral? Sea específico.
Problema: Suponga que el 65% de los estudiantes de la UTB tiene correo electrónico.
1. Dibuje la distribución de las proporciones muestrales basadas en muestras de tamaño $n = 100$ estudiantes.
2. Entre qué posibles valores podemos encontrar el 95% de las proporciones muestrales.
3. Dibuje la distribución de las proporciones muestrales basadas en muestras de tamaño $n = 400$ estudiantes. ¿En qué difiere a la distribución dada en (a)? ¿Cómo afecta el tamaño muestral al rango dado en (b)?
4. Basados en una muestra de tamaño 100, ¿sería posible observar una proporción muestral estimada de 0.4 o menor, si la proporción en la población es 0.65? Explique.
Ejercicio: El peso medio de los estudiantes secundarios sigue una distribución normal. Se toma una muestra aleatoria de 100 estudiantes y se obtiene una media de 65 kg con una desviación estándar de 9 kg. Encuentre los límites para intervalos de confianza al 95% y 99% para:
1. La media poblacional si se sabe que la desviación estándar poblacional es de 10 kg.
2. La media poblacional si no se conoce la desviación estándar poblacional.
Ejercicio: En el problema anterior, ¿qué sucede si el tamaño de la muestra fuera sólo de 20?
Ejercicio: Suponga que a partir de una muestra de tamaño 25 se ha podido establecer un intervalo de confianza para la media poblacional que va desde 68 a 72 unidades de medida, para un $\alpha = 0.01$. Encuentre un intervalo al 95% de confianza para la media poblacional. Asuma que la varianza poblacional es desconocida.
Ejercicio: En víspera de elecciones presidenciales se toma una muestra aleatoria de 1000 electores, de los cuales 628 dicen estar indecisos todavía. Se pide entonces un intervalo al 98% de confianza de la proporción de personas que no saben aún por quién votar.
Ejercicio: Los pesos de 10 personas menores de 15 años fueron: 51; 48.5; 50.5; 51.5; 50.5; 49; 49.5; 52; 51.5 y 49 kilos. Encuentre un intervalo de confianza para el peso medio de todas las personas menores de 15 años al 99% de confianza.
Ejercicio: Se debe estimar el grosor de las láminas de vidrio producidas en cierta fábrica. Se toma una muestra aleatoria de tamaño 100 y se encuentra un grosor promedio de 20 mm. Suponiendo que se conoce la varianza poblacional y es igual a 1.44 mm², se pide encontrar un intervalo de confianza del 95% de confianza para el espesor promedio de las láminas de vidrio.
Ejercicio: Un gran exportador de manzanas debe estimar el peso promedio por caja que envía al mercado europeo. Para ello extrae una muestra aleatoria de su último embarque consistente en 150 cajas. La media de los pesos para esta muestra fue de 22 kg, mientras que la desviación estándar fue de 3 kg. Se pide:
1. Calcule un intervalo de confianza para el peso medio de las cajas a nivel poblacional con una confianza del 94%.
2. ¿De qué tamaño debe tomarse la muestra para que el error de estimación máximo de la media no exceda a 1 kg? Use $\alpha = 0.05$.
Ejercicio: Los resultados obtenidos en un examen de estadística (de un máximo de 100 ptos.) se presentan a continuación:
- Clase A: 84, 80, 75, 85, 71, 79, 52, 36, 45, 67, 89, 61.
- Clase B: 87, 99, 4, 21, 68, 17, 32, 9, 79.
  Calcule al 95% de confianza un intervalo para la diferencia de los puntajes promedios. ¿Qué puede concluir?
Ejercicio: Se ha medido el contenido de nicotina de 36 cigarrillos de una determinada marca. Los resultados obtenidos son $\sum_{i=1}^{36} y_i = 756$ mg y $\sum_{i=1}^{36} (y_i - \bar{y})^2 = 315$ mg². Obtenga un intervalo de confianza al 95% para estimar el contenido promedio de nicotina de los cigarrillos de esta marca.
Ejercicio: Una empresa dedicada a los estudios de opinión pública desea medir cuánto leen los habitantes del país. Se realiza el muestreo en 2 ciudades distintas arrojando los siguientes resultados en libros mensuales:

Ciudad $n$ $\bar{y}$ $s$

1 25 2.3 4

2 25 1.8 3.5

Construya un intervalo de confianza para la diferencia de promedios al 95% de confianza. ¿Pueden ser los promedios iguales? Fundamente su respuesta.
Ejercicio: Sea $Y$ una variable aleatoria con distribución normal con media $\mu$ y varianza 2.0. Se toma una muestra de 10 individuos, obteniéndose los siguientes resultados: 5.3, 6.5, 2.1, 4.3, 3.9, 7.8, 9.0, 1.2, 5.0, 8.1.
1. Encuentre límites de confianza para la media con 80%, 90% y 95% de confianza.
2. Recalcule los límites de confianza para la media suponiendo que la varianza de la población es desconocida.
Ejercicio: En el trabajo de un laboratorio es deseable verificar cuidadosamente la variabilidad de las lecturas obtenidas en una muestra estándar. En un estudio de concentración de calcio en agua potable como parte de la valoración de la calidad del agua, se pasó el mismo patrón de medidas seis veces por el laboratorio. Las lecturas, en partes por millón, fueron: 9.54, 9.61, 9.32, 9.48, 9.70, 9.26. Estime la varianza de la población para las lecturas obtenidas del patrón. Use un intervalo del 90% de confianza.
Ejercicio: Un químico ha preparado un producto diseñado para eliminar el 60% de un tipo particular de insecto. ¿Cuál debe ser el tamaño de la muestra, si se quiere tener una confiabilidad del 95% de que el error de estimación de la verdadera proporción de insectos eliminados no sea mayor a 0.02?
Ejercicio: ¿Cuál es el tamaño necesario para que una muestra sacada al azar de semillas pueda afirmar, con una probabilidad de 95% de confianza, que la proporción de germinación muestral se desvía de la tasa de germinación poblacional en 0.03?
Ejercicio: La experiencia muestra que la desviación estándar del ingreso anual de trabajadores del área textil en cierta provincia es de $200,000. ¿Cuántos trabajadores de la rama tendrían que ser seleccionados si se quiere estimar el ingreso medio con un error máximo de $2,500, con una probabilidad del 95%?
Ejercicio: Supongamos que $Y_1, Y_2, Y_3$ forman una muestra aleatoria de una distribución exponencial con la función densidad:

Y: número de horas	0	1	2	3	4
Proporción de niños	0.05	0.20	0.25	0.30	0.20

Ciudad	\(n\)	\(\bar{y}\)	\(s\)
1	25	2.3	4
2	25	1.8	3.5

\[ f_Y(y) = \frac{1}{\theta} e^{-y/\theta}, \quad y > 0 \]

Considere los siguientes cinco estimadores para $\theta$:

$\theta_1 = Y_1$
$\theta_2 = \frac{Y_1 + Y_2}{2}$
$\theta_3 = \frac{Y_1 + 2Y_2}{3}$
$\theta_4 = \min(Y_1, Y_2, Y_3)$
$\theta_5 = \bar{Y}$ (media muestral)

¿Cuáles estimadores son insesgados?
Entre los estimadores insesgados, ¿cuál tiene la menor varianza? ```

Parámetro objetivo: \(\theta\)	Tamaño	Estimador: \(\hat{\theta}\)	\(E(\hat{\theta})\)	\(V(\hat{\theta})\)
\(\mu\)	\(n\)	\(\bar{Y}\)	\(\mu\)	\(\frac{\sigma^2}{n}\)
\(p\)	\(n\)	\(\hat{p} = \frac{Y}{n}\)	\(p\)	\(\frac{pq}{n}\)
\(\mu_1 - \mu_2\)	\(n_1\) y \(n_2\)	\(\bar{Y}_1 - \bar{Y}_2\)	\(\mu_1 - \mu_2\)	\(\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}\)
\(p_1 - p_2\)	\(n_1\) y \(n_2\)	\(\hat{p}_1 - \hat{p}_2\)	\(p_1 - p_2\)	\(\frac{p_1 q_1}{n_1} + \frac{p_2 q_2}{n_2}\)

Caso	Distribución	Fórmula
\(\sigma\) conocido	Normal (\(Z\))	\(\bar{X} \pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\)
\(\sigma\) desconocido	\(t\)-Student	\(\bar{X} \pm t_{\alpha/2,n-1}\frac{s}{\sqrt{n}}\)

Caso	Distribución Usada	Grados de Libertad	Intervalo para \(\sigma^2\)
Media conocida (\(\mu\))	\(\chi^2(n)\)	\(n\)	\(\left( \frac{S_{\mu}^2}{\chi^2_{\alpha/2, n}}, \frac{S_{\mu}^2}{\chi^2_{1-\alpha/2, n}} \right)\)
Media desconocida	\(\chi^2(n-1)\)	\(n-1\)	\(\left( \frac{(n-1)S^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2, n-1}} \right)\)

Hombres	Mujeres
\(n_1 = 50\)	\(n_2 = 50\)
\(\bar{y}_1 = 3.6\) segundos	\(\bar{y}_2 = 3.8\) segundos
\(s_1^2 = 0.18\)	\(s_2^2 = 0.14\)

Método	Fórmula	Cuando usar
Estándar	\(\hat{p} \pm z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\)	\(n\hat{p} \geq 5\) y \(n(1-\hat{p}) \geq 5\)
Conservador	\(\hat{p} \pm z_{\alpha/2}\sqrt{\frac{0.25}{n}}\)	Cuando no se tiene información previa
Corrección	\(\frac{X + 0.5z^2}{n + z^2} \pm z\sqrt{\frac{\hat{p}(1-\hat{p}) + z^2/4n}{n}}\)	Muestras pequeñas

Caso	Varianzas	Muestras	Fórmula Clave	Grados Libertad
1	Conocidas	Independientes	\(z\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}\)	-
2	Iguales	Independientes	\(t s_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}\)	\(n_1+n_2-2\)
3	Diferentes	Independientes	\(t\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\)	\(\nu\) (Welch)
4	-	Pareadas	\(t \frac{s_D}{\sqrt{n}}\)	\(n-1\)

Parámetro	Fórmula (Población Infinita)	Caso Conservador (\(p\) desconocido)
Media (\(\mu\))	\[n = \left( \frac{z_{\alpha/2} \cdot \sigma}{E} \right)^2\]	No aplica.
Proporción (\(p\))	\[n = \left( \frac{z_{\alpha/2}}{E} \right)^2 p(1 - p)\]	\[n = \left( \frac{z_{\alpha/2}}{2E} \right)^2\]

	\(H_0\) es falsa	\(H_0\) es verdadera
Rechazar \(H_0\)	Decisión correcta	Error tipo I (prob. controlada)
No rechazar \(H_0\) (“aceptar” \(H_0\))	Error tipo II (prob. no controlada)	Decisión correcta

Curso de Estadistica: Parte III: Inferencial - En construcción

Julio Hurtado Marquez

Año 2025

Una Introducción a la Estadística Inferencial con Aplicaciones en R y Python

01. Introducción

02. Las Estadísticas, Estadísticos o Estimadores Puntuales

03. Distribuciones Muestrales

03.1. La Distribución Muestral de la Media muestral

03.2.Distribuciones Muestrales Relacionadas con la Distribución Normal

03.3. Ejemplo 1. Distribución Muestral de \(\bar{Y}\)

03.4. Ahora usaremos R

04. Distribución Chi-cuadrada

04.1 Ejemplo 2.

04.2. Teorema: La Distribución Muestral de la Varianza \(S^2\)

04.3. Ejemplo 3. Muestreo de varianzas usando R

04.4. Usando R

05. Distribución t de Student

05.1. Definición.

05.2. Ejemplo 4.

06. Distribución F

06. 1. Definición.

06.2. Ejemplo 5.

Solución:

Pasos:

Respuesta final:

06.3. Usando R

07. Teorema del Límite Central (TLC)

07.1. Enunciado formal del TLC:

07.2. Interpretación:

07.3. Ejemplo 6. Ilustración del TLC:

Código en R para la ilustración:

Conclusión:

07.4. Ejemplo 6: Distribución de la media muestral para poblaciones desconocidas con muestras grandes

Problema:

07.5. Código en R:

07.6. El enunciado en R

07.7. Ejemplo 7: Distribución de la media muestral para poblaciones desconocidas con muestras grandes

Problema:

08. Aproximación normal de la distribución binomial

08.1. Ejemplo 8. Aproximación normal de la distribución binomial

09. Estimación de parámetros poblacionales

09.1. Introducción

09.2. Estimadores Puntuales y sus Propiedades

Definición

09.3. Estimadores Insesgados

09.4. Estimadores Insesgados Comunes

09.5. Ejemplo: Estimadores Insesgados y Sesgados

09.6. Estimadores Consistentes

09.7. Estimadores Eficientes (Insesgados de Varianza Mínima)

09.8. Bondad de un Estimador

09.9. Ejemplo: Estimación de una Proporción

10. Estimación de parámetros por Intervalos de Confianza

10.1. Intervalo de Confianza Bilateral - Deducción del Intervalo de Confianza para la Media con Desviación Poblacional Conocida

10.1.1. Contexto

10.1.2. Paso 1: Distribución de la Media Muestral

10.1.3. Paso 2: Probabilidad Acumulada y Valor Crítico

10.1.3. Paso 3: Despejar \(\mu\) en la Desigualdad

10.1.4. Fórmula Final del Intervalo de Confianza

10.1.5. Componentes Clave:

10.1.6. Ejemplo en R

Interpretación

10.1.7. Ejemplo: Intervalo de Confianza para la Media con muestras grandes

10.2. Deducción del Intervalo de Confianza para la Media con Muestras Pequeñas y \(\sigma\) Desconocida

10.2.1. Contexto

10.2.2. Paso 1: Estadístico t

10.2.3. Paso 2: Intervalo de Confianza

10.2.4. Fórmula Final

10.2.5. Ejemplo en R

10.2.6. Comparación con \(\sigma\) conocido

10.2.7. Notas clave

10.2.8. Ejemplo: Intervalo de Confianza para la Media con Muestra Pequeña

10.3. Deducción del Intervalo de Confianza para la Proporción Poblacional

10.3.1. Contexto

10.3.2. Paso 1: Distribución Muestral

10.3.3. Paso 2: Intervalo de Confianza

10.3.4. Paso 3: Aproximación del Error Estándar

10.3.5. Condiciones de Aplicabilidad

10.3.6. Versión Conservadora (Máxima Varianza)

10.3.7. Corrección para Muestras Pequeñas

10.3.8. Comparación de Métodos