La estadística es, en principio, una ciencia auxiliar. Los procedimientos estadísticos deben ayudar, por lo tanto, a encontrar, verificar y/o rechazar, si es el caso, ciertos aspectos, relaciones, reglas, propiedades, etc., que pueden ser relevantes para algún problema de interés.
Así, el trabajo estadístico de un estadístico:
Primer paso. Empieza con un problema práctico de alguna aplicación. Se identificarán ciertas variables de interés para tal problema, considerando una escala adecuada en la cual se deban o puedan medir sus valores: de forma nominal (con etiquetas), ordinal (con orden) o métrica (con distancia); de forma cualitativa (con codificación por símbolos o números) o cuantitativa (con números reales). A veces se distingue, además, entre “variables independientes (\(X\))” (representando causas, por ejemplo) y “variables dependientes (\(Y\))” (representando efectos, por ejemplo).
Segundo paso. Consiste en traducir el problema a un modelo probabilístico en el cual las variables de interés se representan por variables aleatorias. Para muchos problemas con variables cualitativas, la elección de una distribución binomial o multinomial es natural. Para otros problemas con variables cuantitativas, puede ser útil y adecuado escoger una distribución normal, por ejemplo. En todo caso, los parámetros \(\theta\) de la distribución deben reflejar los aspectos relevantes de las variables del problema.
Muchas veces será necesario asegurarse de que el modelo realmente sea el adecuado, usando diferentes métodos en los pasos posteriores, que se esbozan brevemente a continuación. Puede resultar conveniente cambiar o modificar el modelo escogido inicialmente.
Si \(Y\) es la variable aleatoria que representa el problema, su función de densidad o función de distribución de probabilidad \(f_Y(y, \theta)\) se denomina modelo probabilístico.
El trabajo propiamente estadístico empieza con el tercer paso. Este consiste en observar \(n\) veces la variable del problema (una sola, por simplicidad), representada por la variable \(Y\) del modelo probabilístico, por lo general de manera independiente.
Así se obtiene una muestra \(Y = (Y_1, Y_2, ..., Y_n)\) de tamaño \(n\), cuya distribución (conjunta) es determinada, según el segundo paso, por \(f(y, \theta)\); que es la función de densidad o de probabilidad en la observación \(y = (y_1, y_2, ..., y_n)\), fijando \(\theta\); y que es la función de verosimilitud en el parámetro \(\theta\), fijando \(y\). Se llama a la muestra junto con su distribución modelo estadístico.
Por lo general, no se trabaja con toda la muestra \(Y\), sino con funciones \(S(Y)\), llamadas estadísticas, que consisten en una reducción de la dimensión de la observación.
Las Estadísticas Suficientes son aquellas que permiten una reducción de los datos sin pérdida de información.
Los análisis constituyen los núcleos del trabajo estadístico y pueden clasificarse bajo los tres conceptos siguientes:
Una estimación del parámetro \(\theta\) (puntual) es una estadística \(\hat{\theta}(Y)\) cuyo valor \(\hat{\theta}(y)\), evaluado con base en una observación concreta \(y\), debe estimar el valor (no conocido) del parámetro \(\theta\).
Un intervalo de confianza, en cambio, es una estimación que define un intervalo (aleatorio) \(IC(Y)\) alrededor de \(\hat{\theta}(Y)\) que contiene con alta probabilidad, \(1 - \alpha\), al parámetro \(\theta\) (considerado unidimensional, por simplicidad). En este sentido, con base en un dato concreto \(y\), el valor de \(IC(Y)\) es un intervalo real \(IC(y) = \hat{\theta}(y) \pm D(y)\) que da una idea sobre la precisión de la estimación puntual.
Hacer una prueba de hipótesis. \(H_0\) contra una alternativa \(H_1\), sobre el parámetro \(\theta\), es un concepto, en principio, muy diferente de los conceptos de estimación, pero hay una relación muy estrecha entre \((1 - \alpha)\) intervalo de confianza y la región de tales datos posibles \(y\) para los cuales se aceptaría \(H_0\), siendo \(\alpha\) el error (de tipo I) de rechazar \(H_0\) equivocadamente. Esto permitirá construir pruebas de hipótesis a partir de intervalos de confianza y viceversa.
\[ \text{Problema} \Rightarrow \text{Modelo} \Rightarrow \text{Datos} \Rightarrow \text{Análisis} \]
El esquema anterior debe mantenerse en mente para estudiar y aprender los conceptos fundamentales de Estadística.
El esquema no es de una sola dirección; debe volverse siempre a los pasos anteriores, comprobando, verificando, modificando y, finalmente, interpretando los resultados de los análisis en términos del problema original.
En esta sección se tratarán funciones de las variables \(Y_1, Y_2, ..., Y_n\) observadas en una muestra aleatoria seleccionada de una población bajo estudio. El supuesto básico es que las variables son independientes y tienen una distribución común. Con frecuencia se usan funciones de las variables aleatorias observadas en una muestra para estimar o para tomar decisiones con respecto a parámetros poblacionales desconocidos.
Por ejemplo, si se desea estimar la media de una población \(\mu\), y de ella se toma una muestra aleatoria de \(n\) observaciones \(Y_1, Y_2, ..., Y_n\), se usa el estadístico
\[ \bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i \]
\[ \bar{y} = \frac{1}{n} \sum_{i=1}^n y_i. \]
Definición.
Un estadístico \(S(Y) = S(Y_1, Y_2, ..., Y_n)\) es una función de las variables aleatorias que se pueden observar en una muestra y de las constantes conocidas.
Los estadísticos se utilizan para hacer inferencias (estimaciones o decisiones) con respecto a parámetros poblacionales desconocidos.
Como el estadístico \(S(Y)\) también es una variable aleatoria, tiene una distribución de probabilidad que llamaremos distribución muestral o simplemente muestreo aleatorio.
Teorema. Sea \(Y_1, Y_2, ..., Y_n\) una muestra aleatoria de tamaño \(n\) de una distribución normal con media \(\mu\) y varianza \(\sigma^2\). Entonces \(\bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i\) tiene una distribución normal con media \(\mu\) y varianza \(\frac{\sigma^2}{n}\).
Muestreo de medias. Una embotelladora puede regularse de tal manera que llene un promedio de \(\mu\) onzas por botella. Se ha observado que la cantidad de contenido que suministra la máquina presenta una distribución normal con \(\sigma = 1.0\) onza. De la producción de la máquina un cierto día, se obtiene una muestra de \(n = 9\) botellas llenas (todas fueron llenadas con las mismas posiciones del control operativo) y se miden las onzas del contenido de cada una.
Solución.
Paso 1. Problema de aplicación.
Paso 2. (variable de interés) Sea \(Y :=\) Contenido (en onzas) de una botella.
Paso 3. (modelo probabilístico) \(Y \sim N(\mu, \sigma^2)\), \(\sigma^2 = 1\).
Paso 4. (modelo estadístico) sea \(Y = (Y_1, Y_2, ..., Y_9)\) una muestra aleatoria. Por un teorema anterior, \(\bar{Y}\) tiene una distribución normal con media \(\mu\) y varianza \(\sigma_{\bar{Y}}^2 = \frac{\sigma^2}{n} = \frac{1}{9}\).
\[ P(|\bar{Y} - \mu| \leq 0.3) = P(-0.3 \leq (\bar{Y} - \mu) \leq 0.3) \\ = P\left(-\frac{0.3}{\sigma / \sqrt{n}} \leq \frac{\bar{Y} - \mu}{\sigma / \sqrt{n}} \leq \frac{0.3}{\sigma / \sqrt{n}}\right)\\ = P\left(-\frac{0.3}{1 / \sqrt{9}} \leq Z \leq \frac{0.3}{1 / \sqrt{9}}\right) = P(-0.9 \leq Z \leq 0.9) = 0.6318 \]
\[ P(|\bar{Y} - \mu| \leq 0.3) = P(-0.3 \leq (\bar{Y} - \mu) \leq 0.3) = P\left(-\frac{0.3}{\sigma / \sqrt{n}} \leq \frac{\bar{Y} - \mu}{\sigma / \sqrt{n}} \leq \frac{0.3}{\sigma / \sqrt{n}}\right) = 0.95 \]
\[ \Rightarrow \frac{0.3}{1 / \sqrt{n}} = 1.96 \Rightarrow 0.3 \sqrt{n} = 1.96 \Rightarrow n = 42.68 \]
# Parámetros dados
sigma <- 1.0 # Desviación estándar poblacional
n <- 9 # Tamaño de la muestra
delta <- 0.3 # Margen de error (0.3 onzas)
mu <- 0 # Media real (asumimos μ = 0 para la gráfica)
# Error estándar de la media
se <- sigma / sqrt(n)
# Límites del área a sombrear
lower_limit <- mu - delta
upper_limit <- mu + delta
# Crear una secuencia de valores para la distribución normal
x <- seq(mu - 4 * se, mu + 4 * se, length.out = 1000)
# Calcular la densidad de la distribución normal
y <- dnorm(x, mean = mu, sd = se)
# Graficar la distribución normal
plot(x, y, type = "l", lwd = 2, col = "blue",
xlab = "Media muestral (Ȳ)", ylab = "Densidad",
main = "Distribución normal de la media muestral -Julio Hurtado")
# Sombrear el área entre lower_limit y upper_limit
x_shade <- seq(lower_limit, upper_limit, length.out = 1000)
y_shade <- dnorm(x_shade, mean = mu, sd = se)
polygon(c(lower_limit, x_shade, upper_limit), c(0, y_shade, 0), col = "lightblue", border = NA)
# Añadir líneas verticales para los límites
abline(v = lower_limit, col = "red", lty = 2, lwd = 2)
abline(v = upper_limit, col = "red", lty = 2, lwd = 2)
# Añadir leyenda
legend("topright", legend = c("Distribución normal", "Área sombreada (P(|Ȳ - μ| ≤ 0.3))"),
col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)
# Parámetros dados
sigma <- 1.0 # Desviación estándar poblacional
n <- 9 # Tamaño de la muestra (inciso a)
delta <- 0.3 # Margen de error (0.3 onzas)
prob <- 0.95 # Probabilidad deseada (inciso b)
# (a) Probabilidad de que la media muestral esté a lo más 0.3 onzas de μ
z_score <- delta / (sigma / sqrt(n)) # Cálculo del puntaje Z
prob_a <- pnorm(z_score) - pnorm(-z_score) # Probabilidad usando la distribución normal
# Mostrar resultado del inciso (a)
print(paste("(a) La probabilidad de que la media muestral esté a lo más 0.3 onzas de μ es:", round(prob_a, 4)))
## [1] "(a) La probabilidad de que la media muestral esté a lo más 0.3 onzas de μ es: 0.6319"
# (b) Tamaño de la muestra para que la media esté a lo más 0.3 onzas de μ con probabilidad 0.95
z_alpha <- qnorm((1 + prob) / 2) # Valor crítico de Z para una probabilidad de 0.95
n_b <- ceiling((z_alpha * sigma / delta)^2) # Cálculo del tamaño de la muestra
# Mostrar resultado del inciso (b)
print(paste("(b) El tamaño de la muestra necesario para que la media esté a lo más 0.3 onzas de μ con una probabilidad de 0.95 es:", n_b))
## [1] "(b) El tamaño de la muestra necesario para que la media esté a lo más 0.3 onzas de μ con una probabilidad de 0.95 es: 43"
\[ \sum_{i=1}^n Z_i^2 = \sum_{i=1}^n \frac{(Y_i - \mu)^2}{\sigma^2} \]
tiene una distribución \(\chi^2\) con \(n\) grados de libertad.
Solución.
Por el teorema anterior, \(\sum_{i=1}^6 Z_i^2
\sim \chi^2(6)\). Haciendo uso de la tabla para \(\chi^2\), se tiene que \(P\left(\sum_{i=1}^6 Z_i^2 \leq 12.5916\right) =
0.95\), así que \(b =
12.5916\).
# Parámetros dados
n <- 6 # Tamaño de la muestra (grados de libertad)
prob <- 0.95 # Probabilidad deseada
# Encontrar el valor crítico b usando la distribución chi-cuadrado
b <- qchisq(prob, df = n)
# Mostrar el valor de b
print(paste("El valor de b tal que P(∑Z_i² ≤ b) = 0.95 es:", round(b, 4)))
## [1] "El valor de b tal que P(∑Z_i² ≤ b) = 0.95 es: 12.5916"
# Crear una secuencia de valores para la distribución chi-cuadrado
x <- seq(0, 20, length.out = 1000)
# Calcular la densidad de la distribución chi-cuadrado
y <- dchisq(x, df = n)
# Graficar la distribución chi-cuadrado
plot(x, y, type = "l", lwd = 2, col = "blue",
xlab = "Valores de ∑Z_i²", ylab = "Densidad",
main = "Distribución chi-cuadrado con 6 grados de libertad")
# Sombrear el área correspondiente a P(∑Z_i² ≤ b)
x_shade <- seq(0, b, length.out = 1000)
y_shade <- dchisq(x_shade, df = n)
polygon(c(0, x_shade, b), c(0, y_shade, 0), col = "lightblue", border = NA)
# Añadir una línea vertical en el valor crítico b
abline(v = b, col = "red", lty = 2, lwd = 2)
# Añadir leyenda
legend("topright", legend = c("Distribución chi-cuadrado", "Área sombreada (P(∑Zi²≤ b) = 0.95)"),
col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)
\[ \frac{1}{\sigma^2} \sum_{i=1}^n (Y_i - \bar{Y})^2 = \frac{(n-1)S^2}{\sigma^2} \]
tiene una distribución \(\chi^2\) con \(n-1\) grados de libertad. \(\bar{Y}\) y \(S^2\) son también variables aleatorias independientes.**
Solución.
+ Por el teorema anterior, \(\frac{(n-1)S^2}{\sigma^2} \sim
\chi^2_{(n-1)}\). Obsérvese que
\[ P(b_1 \leq S^2 \leq b_2) = P\left(\frac{(n-1)b_1}{\sigma^2} \leq \frac{(n-1)S^2}{\sigma^2} \leq \frac{(n-1)b_2}{\sigma^2}\right)\\ = P\left(\frac{(10-1)b_1}{1} \leq \chi^2(9) \leq \frac{(10-1)b_2}{1}\right)\\ = P(9b_1 \leq \chi^2(9) \leq 9b_2) = 0.90 \]
Usando la tabla para \(\chi^2(9)\), se tiene que \(P(3.325 \leq \chi^2(9) \leq 16.919) = 0.90\), luego \(b_1 = \frac{3.325}{9} = 0.369\) y \(b_2 = \frac{16.919}{9} = 1.880\).
# Parámetros dados
n <- 10 # Tamaño de la muestra
sigma <- 1.0 # Desviación estándar poblacional
alpha <- 0.10 # Nivel de significancia (1 - 0.90)
# Grados de libertad
df <- n - 1
# Encontrar los valores críticos de la distribución chi-cuadrado
b1 <- qchisq(alpha / 2, df) * sigma^2 / df
b2 <- qchisq(1 - alpha / 2, df) * sigma^2 / df
# Mostrar los resultados
print(paste("El valor de b1 es:", round(b1, 4)))
## [1] "El valor de b1 es: 0.3695"
print(paste("El valor de b2 es:", round(b2, 4)))
## [1] "El valor de b2 es: 1.8799"
# Crear una secuencia de valores para la distribución chi-cuadrado
x <- seq(0, 30, length.out = 1000)
# Calcular la densidad de la distribución chi-cuadrado
y <- dchisq(x, df = df)
# Graficar la distribución chi-cuadrado
plot(x, y, type = "l", lwd = 2, col = "blue",
xlab = "Varianza muestral (S²)", ylab = "Densidad",
main = "Distribución chi-cuadrado con 9 grados de libertad")
# Sombrear el área correspondiente a P(b1 ≤ S² ≤ b2)
x_shade <- seq(b1, b2, length.out = 1000)
y_shade <- dchisq(x_shade, df = df)
polygon(c(b1, x_shade, b2), c(0, y_shade, 0), col = "lightblue", border = NA)
# Añadir líneas verticales para los límites
abline(v = b1, col = "red", lty = 2, lwd = 2)
abline(v = b2, col = "red", lty = 2, lwd = 2)
# Añadir leyenda
legend("topright", legend = c("Distribución chi-cuadrado", "Área sombreada (P(b1 ≤ S² ≤ b2) = 0.90)"),
col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)
\[ T = \frac{Z}{\sqrt{\chi^2 / \nu}} \]
###Solución.
\[ P(|\bar{Y} - \mu| \leq 2S / \sqrt{n}) = P\left(-2 \leq \frac{\bar{Y} - \mu}{S / \sqrt{n}} \leq 2\right) = P(-2 \leq T_{(5)} \leq 2) = 0.8980. \]
\[ P(|\bar{Y} - \mu| \leq 2\sigma / \sqrt{n}) = P\left(-2 \leq \frac{\bar{Y} - \mu}{\sigma / \sqrt{n}} \leq 2\right) = P(-2 \leq Z \leq 2) = 0.9544. \] ## 05.3. Usando R
# Parámetros dados
n <- 6 # Tamaño de la muestra
k <- 2 # Factor de escala (2 en este caso)
# Grados de libertad
df <- n - 1
# Calcular la probabilidad usando la distribución t de Student
prob <- pt(k, df = df) - pt(-k, df = df)
# Mostrar la probabilidad
print(paste("La probabilidad de que Ȳ esté a lo más a 2S/√n de μ es:", round(prob, 4)))
## [1] "La probabilidad de que Ȳ esté a lo más a 2S/√n de μ es: 0.8981"
# Crear una secuencia de valores para la distribución t de Student
x <- seq(-4, 4, length.out = 1000)
# Calcular la densidad de la distribución t de Student
y <- dt(x, df = df)
# Graficar la distribución t de Student
plot(x, y, type = "l", lwd = 2, col = "blue",
xlab = "Valores de t", ylab = "Densidad",
main = "Distribución t de Student con 5 grados de libertad")
# Sombrear el área correspondiente a P(-2 ≤ t ≤ 2)
x_shade <- seq(-k, k, length.out = 1000)
y_shade <- dt(x_shade, df = df)
polygon(c(-k, x_shade, k), c(0, y_shade, 0), col = "lightblue", border = NA)
# Añadir líneas verticales para los límites
abline(v = -k, col = "red", lty = 2, lwd = 2)
abline(v = k, col = "red", lty = 2, lwd = 2)
# Añadir leyenda
legend("topright", legend = c("Distribución t de Student", "Área sombreada (P(-2 ≤ t ≤ 2))"),
col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)
\[ F = \frac{\chi_1^2 / \nu_1}{\chi_2^2 / \nu_2} \]
\[ P\left(\frac{S_1^2}{S_2^2} \leq b\right) = 0.95 \]
Si tomamos dos muestras independientes de tamaño \(n_1 = 6\) y \(n_2 = 10\) de dos poblaciones normales con la misma varianza poblacional, encuentre el número \(b\) tal que:
\[ P\left(\frac{S_1^2}{S_2^2} \leq b\right) = 0.95, \]
donde \(S_1^2\) y \(S_2^2\) son las varianzas muestrales de las dos muestras.
Distribución de la razón de varianzas:
La razón de varianzas muestrales \(\frac{S_1^2}{S_2^2}\) sigue una distribución \(F\) con \((n_1 - 1)\) y \((n_2 - 1)\) grados de libertad. Es decir:
\[ F = \frac{S_1^2}{S_2^2} \sim F_{(n_1 - 1, n_2 - 1)}. \]
En este caso, \(n_1 = 6\) y \(n_2 = 10\), por lo que los grados de libertad son \((5, 9)\).
Valor crítico \(b\):
Buscamos el valor \(b\) tal que:
\[ P\left(F \leq b\right) = 0.95. \]
Esto corresponde al percentil \(0.95\) de la distribución \(F\) con \((5, 9)\) grados de libertad.
Uso de la tabla \(F\):
Para encontrar \(b\), consultamos la tabla de la distribución \(F\) con \((5, 9)\) grados de libertad y buscamos el valor correspondiente al percentil \(0.95\).
Resultado:
Por lo tanto, el número \(b\) que satisface la condición es:
\[ b = 3.48. \]
El valor de \(b\) tal que \(P\left(\frac{S_1^2}{S_2^2} \leq b\right) = 0.95\) es:
\[ \boxed{b = 3.48} \]
# Parámetros dados
n1 <- 6 # Tamaño de la primera muestra
n2 <- 10 # Tamaño de la segunda muestra
prob <- 0.95 # Probabilidad deseada
# Grados de libertad
df1 <- n1 - 1 # Grados de libertad para S1²
df2 <- n2 - 1 # Grados de libertad para S2²
# Encontrar el valor crítico b usando la distribución F
b <- qf(prob, df1 = df1, df2 = df2)
# Mostrar el valor de b
print(paste("El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es:", round(b, 4)))
## [1] "El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es: 3.4817"
# Crear una secuencia de valores para la distribución F
x <- seq(0, 5, length.out = 1000)
# Calcular la densidad de la distribución F
y <- df(x, df1 = df1, df2 = df2)
# Graficar la distribución F
plot(x, y, type = "l", lwd = 2, col = "blue",
xlab = "Valores de F = S1²/S2²", ylab = "Densidad",
main = "Distribución F con (5, 9) grados de libertad")
# Sombrear el área correspondiente a P(F ≤ b)
x_shade <- seq(0, b, length.out = 1000)
y_shade <- df(x_shade, df1 = df1, df2 = df2)
polygon(c(0, x_shade, b), c(0, y_shade, 0), col = "lightblue", border = NA)
# Añadir una línea vertical en el valor crítico b
abline(v = b, col = "red", lty = 2, lwd = 2)
# Añadir leyenda
legend("topright", legend = c("Distribución F", "Área sombreada (P(F ≤ b) = 0.95)"),
col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)
# Parámetros dados
n1 <- 6 # Tamaño de la primera muestra
n2 <- 10 # Tamaño de la segunda muestra
prob <- 0.95 # Probabilidad deseada
# Grados de libertad
df1 <- n1 - 1 # Grados de libertad para S1²
df2 <- n2 - 1 # Grados de libertad para S2²
# Encontrar el valor crítico b usando la distribución F
b <- qf(prob, df1 = df1, df2 = df2)
# Mostrar el valor de b
print(paste("El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es:", round(b, 4)))
## [1] "El valor de b tal que P(S1²/S2² ≤ b) = 0.95 es: 3.4817"
# Crear una secuencia de valores para la distribución F
x <- seq(0, 5, length.out = 1000)
# Calcular la densidad de la distribución F
y <- df(x, df1 = df1, df2 = df2)
# Graficar la distribución F
plot(x, y, type = "l", lwd = 2, col = "blue",
xlab = "Valores de F = S1²/S2²", ylab = "Densidad",
main = "Distribución F con (5, 9) grados de libertad")
# Sombrear el área correspondiente a P(F ≤ b)
x_shade <- seq(0, b, length.out = 1000)
y_shade <- df(x_shade, df1 = df1, df2 = df2)
polygon(c(0, x_shade, b), c(0, y_shade, 0), col = "lightblue", border = NA)
# Añadir una línea vertical en el valor crítico b
abline(v = b, col = "red", lty = 2, lwd = 2)
# Añadir leyenda
legend("topright", legend = c("Distribución F", "Área sombreada (P(F ≤ b) = 0.95)"),
col = c("blue", "lightblue"), lwd = 2, lty = c(1, NA), fill = c(NA, "lightblue"), border = NA)
\[ \bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i. \]
\[ U_n = \frac{\bar{Y} - \mu}{\sigma / \sqrt{n}}, \]
\[ U_n \xrightarrow{d} N(0, 1). \]
# Parámetros
set.seed(123) # Para reproducibilidad
mu <- 1 # Media de la distribución exponencial
n_sim <- 1000 # Número de simulaciones
sample_sizes <- c(5, 30, 100) # Tamaños de muestra
# Función para simular medias muestrales
simulate_sample_means <- function(n) {
sapply(1:n_sim, function(i) mean(rexp(n, rate = 1/mu)))
}
# Crear gráficos
par(mfrow = c(1, 3)) # 1 fila, 3 columnas
for (n in sample_sizes) {
sample_means <- simulate_sample_means(n)
hist(sample_means, breaks = 30, freq = FALSE, main = paste("n =", n),
xlab = "Media muestral", col = "lightblue", border = "white")
curve(dnorm(x, mean = mu, sd = mu/sqrt(n)), add = TRUE, col = "red", lwd = 2)
}
Los resultados de las pruebas finales de todos los alumnos de último año de las preparatorias de cierto estado tienen una media de 60 y una varianza de 64. Una generación específica de cierta preparatoria de \(n = 100\) alumnos tuvo una media de 58. ¿Puede afirmarse que esta preparatoria sea inferior?
Variable de interés:
\(Y =\) resultado en la prueba final de
un alumno de último año.
Modelo probabilístico:
\(Y \sim f_Y(y, \theta)\), donde \(\theta = (\mu, \sigma^2) = (60,
64)\).
Modelo estadístico:
\(Y = (Y_1, Y_2, \dots, Y_{100})\). El
estadístico de interés es \(\bar{Y} \approx
N(\mu, \sigma^2 / n)\).
Respuesta a la pregunta:
Para determinar si esta preparatoria es inferior, calculamos la
probabilidad \(P(\bar{Y} \leq
58)\):
\[ P(\bar{Y} \leq 58) = P\left( \frac{\bar{Y} - \mu}{\sigma / \sqrt{n}} \leq \frac{58 - 60}{8 / \sqrt{100}} \right) \approx P(Z \leq -2.5) = 0.0062 \]
# Parámetros dados
mu_poblacion <- 60 # Media poblacional
var_poblacion <- 64 # Varianza poblacional
n <- 100 # Tamaño de la muestra
media_muestral <- 58 # Media muestral
# Error estándar de la media
se <- sqrt(var_poblacion / n)
# Estadístico de prueba Z
z <- (media_muestral - mu_poblacion) / se
# Valor p (prueba de una cola, cola inferior)
p_valor <- pnorm(z)
# Mostrar resultados
print(paste("Estadístico de prueba Z:", round(z, 4)))
## [1] "Estadístico de prueba Z: -2.5"
print(paste("Valor p:", round(p_valor, 4)))
## [1] "Valor p: 0.0062"
# Conclusión
alpha <- 0.05 # Nivel de significancia
if (p_valor < alpha) {
print("Rechazamos la hipótesis nula: La preparatoria es inferior.")
} else {
print("No rechazamos la hipótesis nula: No hay evidencia suficiente para afirmar que la preparatoria es inferior.")
}
## [1] "Rechazamos la hipótesis nula: La preparatoria es inferior."
# Gráfica de la distribución normal estándar
x <- seq(-4, 4, length.out = 1000) # Rango de valores para Z
y <- dnorm(x) # Densidad de la distribución normal estándar
# Crear la gráfica
plot(x, y, type = "l", lwd = 2, col = "blue", xlab = "Z", ylab = "Densidad",
main = "Distribución normal estándar y región de rechazo")
# Sombrear la región correspondiente al valor p (cola inferior)
x_shade <- seq(-4, z, length.out = 1000)
y_shade <- dnorm(x_shade)
polygon(c(-4, x_shade, z), c(0, y_shade, 0), col = "lightblue", border = NA)
# Añadir una línea vertical en el estadístico de prueba Z
abline(v = z, col = "red", lty = 2, lwd = 2)
# Añadir leyenda
legend("topright", legend = c("Distribución normal", "Región de rechazo (Valor p)", "Estadístico Z"),
col = c("blue", "lightblue", "red"), lwd = 2, lty = c(1, NA, 2), fill = c(NA, "lightblue", NA))
# Cargar librería para gráficos
#install.packages("ggplot2")
library(ggplot2)
# Parámetros
media_poblacion <- 60
desviacion_estandar <- 8 / sqrt(100) # Error estándar
nivel_significancia <- 0.05
valor_critico <- qnorm(nivel_significancia) # Valor crítico Z
# Crear un rango de valores para la distribución
x <- seq(media_poblacion - 4 * desviacion_estandar,
media_poblacion + 4 * desviacion_estandar,
length.out = 1000)
y <- dnorm(x, mean = media_poblacion, sd = desviacion_estandar)
# Crear un data frame para ggplot
datos <- data.frame(x = x, y = y)
# Gráfico
ggplot(datos, aes(x = x, y = y)) +
geom_line(color = "blue", size = 1) + # Curva de la distribución
geom_area(data = subset(datos, x <= media_poblacion + valor_critico * desviacion_estandar),
aes(x = x, y = y),
fill = "red", alpha = 0.5) + # Región de rechazo
geom_vline(xintercept = media_poblacion + valor_critico * desviacion_estandar,
color = "black", linetype = "dashed", size = 1) + # Línea del valor crítico
annotate("text", x = media_poblacion + valor_critico * desviacion_estandar,
y = 0.1, label = "Z crítico = -1.645",
hjust = 1.2, color = "black") + # Etiqueta del valor crítico
labs(title = "Región de rechazo para prueba de una cola (cola izquierda)",
x = "Media muestral",
y = "Densidad") +
theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Solución:
Variable de interés:
\(Y =\) tiempo (en minutos) de espera
de un cliente para pasar a una caja registradora.
Modelo probabilístico:
\(Y \sim f_Y(y, \theta)\), donde \(\theta = (\mu, \sigma^2) = (1.5,
1.0)\).
Modelo estadístico:
\(Y = (Y_1, Y_2, \dots, Y_{100})\),
donde \(Y_i =\) tiempo de espera del
cliente \(i\).
Respuesta a la pregunta:
Calculamos la probabilidad de que el tiempo total de espera para 100
clientes sea menor o igual a 120 minutos:
\[ P\left( \sum_{i=1}^{100} Y_i \leq 120 \right) = P\left( \frac{1}{100} \sum_{i=1}^{100} Y_i \leq \frac{120}{100} \right) = P(\bar{Y} \leq 1.20) \]
Aplicando el TLC:
\[ P(\bar{Y} \leq 1.20) = P\left( \frac{\bar{Y} - \mu}{\sigma / \sqrt{n}} \leq \frac{1.20 - 1.5}{1.0 / \sqrt{100}} \right) \approx P(Z \leq -3.0) = 0.0013 \]
Esta pequeña probabilidad (0.13%) indica que es prácticamente imposible atender a 100 clientes en menos de 2 horas.
\[ X_i = \begin{cases} 1, & \text{si el resultado de la } i\text{-ésima prueba es éxito} \\ 0, & \text{si es fracaso} \end{cases} \]
y \(X_i\) (\(i = 1, 2, \dots, n\)) son independientes. Por consiguiente, cuando \(n\) es grande, por el TLC, la proporción de éxitos en la muestra:
\[ \frac{Y}{n} = \frac{1}{n} \sum_{i=1}^n X_i = \bar{X} \]
tendrá aproximadamente una distribución normal con media \(\mu = E(\bar{X}) = p\) y varianza \(V(\bar{X}) = \frac{p(1-p)}{n}\).
###Problema:
+ El candidato A considera que puede ganar una elección en una
ciudad si obtiene al menos 55% de los votos en el distrito I. Además,
supone que alrededor del 50% de los votantes en la ciudad están a su
favor. Si \(n = 100\) votantes vienen a
votar en el distrito I, ¿cuál es la probabilidad de que el candidato A
pueda ganar la elección?
Solución:
Variable de interés:
\(Y =\) número de votantes en el
distrito I a favor del candidato A.
Modelo probabilístico:
\(Y \sim B(n, p)\), donde \(p = 0.5\) y \(n =
100\).
Modelo estadístico:
\(Y = (X_1, X_2, \dots, X_{100})\),
donde:
\[ X_i = \begin{cases} 1, & \text{si el } i\text{-ésimo votante vota por el candidato A} \\ 0, & \text{otro caso} \end{cases} \]
Respuesta a la pregunta:
Calculamos la probabilidad de que la proporción de votos a favor sea al
menos 55%:
\[ P\left( \frac{Y}{n} \geq 0.55 \right) = P\left( \frac{\frac{Y}{n} - p}{\sqrt{p(1-p)/n}} \geq \frac{0.55 - 0.5}{\sqrt{0.5(0.5)/100}} \right) \approx P(Z \geq 1) = 0.1587 \]
\[ \bar{Y} = \frac{1}{n} \sum_{i=1}^n Y_i \]
Se dice que la estadística \(\hat{\theta} = H(X_1, X_2, \dots, X_n)\) es un estimador insesgado del parámetro \(\theta\) si:
\[ E(\hat{\theta}) = \theta \]
Es decir, si los valores del estimador se centran alrededor del parámetro en cuestión. En caso contrario, se dice que es sesgado.
En inferencia estadística, los estimadores puntuales insesgados más utilizados son:
Parámetro objetivo: \(\theta\) | Tamaño | Estimador: \(\hat{\theta}\) | \(E(\hat{\theta})\) | \(V(\hat{\theta})\) |
---|---|---|---|---|
\(\mu\) | \(n\) | \(\bar{Y}\) | \(\mu\) | \(\frac{\sigma^2}{n}\) |
\(p\) | \(n\) | \(\hat{p} = \frac{Y}{n}\) | \(p\) | \(\frac{pq}{n}\) |
\(\mu_1 - \mu_2\) | \(n_1\) y \(n_2\) | \(\bar{Y}_1 - \bar{Y}_2\) | \(\mu_1 - \mu_2\) | \(\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}\) |
\(p_1 - p_2\) | \(n_1\) y \(n_2\) | \(\hat{p}_1 - \hat{p}_2\) | \(p_1 - p_2\) | \(\frac{p_1 q_1}{n_1} + \frac{p_2 q_2}{n_2}\) |
Sea \(Y_1, Y_2, \dots, Y_n\) una muestra aleatoria con \(E(Y_i) = \mu\) y \(V(Y_i) = \sigma^2\). Demuestre que:
Solución:
Paso 1: Expresamos \((Y_i - \bar{Y})^2\) como: \[ (Y_i - \bar{Y})^2 = Y_i^2 - 2Y_i \bar{Y} + \bar{Y}^2 \]
Paso 2: Sumamos sobre todas las observaciones: \[ \sum_{i=1}^n (Y_i - \bar{Y})^2 = \sum_{i=1}^n Y_i^2 - 2n \bar{Y}^2 + n \bar{Y}^2 = \sum_{i=1}^n Y_i^2 - n \bar{Y}^2 \]
Paso 3: Calculamos la esperanza: \[ E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = E\left( \sum_{i=1}^n Y_i^2 - n \bar{Y}^2 \right) = \sum_{i=1}^n E(Y_i^2) - n E(\bar{Y}^2) \]
Paso 4: Recordamos que: \[ E(Y_i^2) = \sigma^2 + \mu^2 \quad \text{y} \quad E(\bar{Y}^2) = \frac{\sigma^2}{n} + \mu^2 \]
Paso 5: Sustituimos: \[ E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = n(\sigma^2 + \mu^2) - n\left( \frac{\sigma^2}{n} + \mu^2 \right) = (n-1)\sigma^2 \]
Paso 6: Por tanto: \[ E(S^{*2}) = \frac{1}{n} E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = \frac{(n-1)\sigma^2}{n} \] Esto muestra que \(S^{*2}\) es sesgado.
Paso 7: Para \(S^2\): \[ E(S^2) = \frac{1}{n-1} E\left( \sum_{i=1}^n (Y_i - \bar{Y})^2 \right) = \sigma^2 \] Por tanto, \(S^2\) es insesgado.
Es razonable esperar que un buen estimador de un parámetro \(\theta\) sea cada vez mejor conforme crece el tamaño de la muestra y la información se vuelve más completa. La distribución de muestreo de un buen estimador se encuentra cada vez más concentrada alrededor del parámetro \(\theta\). Si un estimador es consistente, converge en probabilidad al valor del parámetro que está intentando estimar conforme el tamaño de la muestra crece. Esto implica que la varianza de un estimador consistente disminuye conforme \(n\) crece.
Se dice que \(\hat{\theta}\) es un estimador consistente de \(\theta\) si:
\[ \lim_{n \to \infty} \hat{\theta} = \theta \]
\[ \lim_{n \to \infty} V(\hat{\theta}) = 0 \]
El hecho de que un estimador sea centrado no garantiza que sus realizaciones caigan cerca del valor del parámetro; hace falta además que tenga la varianza pequeña. La varianza de un estimador insesgado es la cantidad más importante para decidir qué tan bueno es el estimador para estimar el parámetro \(\theta\).
Sean \(\hat{\theta}_1\) y \(\hat{\theta}_2\) cualesquiera dos estimadores insesgados de \(\theta\). Se dice que \(\hat{\theta}_1\) es un estimador más eficiente de \(\theta\) que \(\hat{\theta}_2\) si:
\[ V(\hat{\theta}_1) \leq V(\hat{\theta}_2) \]
\[ e = \frac{V(\hat{\theta}_1)}{V(\hat{\theta}_2)} \]
\[ \epsilon = |\hat{\theta} - \theta| \]
\[ P(\epsilon < b) = P(\theta - b < \hat{\theta} < \theta + b) \]
Solución:
Utilizamos el estimador \(\hat{p} = \frac{Y}{n}\) para estimar \(p\). Así, la estimación de \(p\) es:
\[ \hat{p} = \frac{560}{1000} = 0.56 \]
La distribución de probabilidad de \(\hat{p}\) se aproxima con bastante exactitud mediante la distribución normal para muestras tan grandes como \(n = 1000\). Entonces, cuando \(b = 2\sigma_{\hat{p}}\), se tiene que \(P(\epsilon < b) \approx 0.95\).
Calculamos \(b\):
\[ b = 2\sigma_{\hat{p}} = 2\sqrt{\frac{pq}{n}} \]
Como no conocemos \(p\), usamos \(\hat{p}\) para aproximar:
\[ b \approx 2\sqrt{\frac{(0.56)(0.44)}{1000}} = 0.03 \]
Este resultado significa que la probabilidad de que el error de estimación sea menor que 0.03 es aproximadamente 0.95.
Supongamos que tenemos una población con: - Media poblacional desconocida: \(\mu\). - Desviación estándar poblacional conocida: \(\sigma\). - Una muestra aleatoria de tamaño \(n\) con media muestral \(\overline{X}\).
Queremos construir un intervalo de confianza para \(\mu\) con un nivel de confianza \((1 - \alpha) \times 100\%\).
Por el Teorema del Límite Central, si \(n\) es suficientemente grande o la población es normal, la media muestral \(\overline{X}\) sigue una distribución normal: \[ \overline{X} \sim \mathcal{N}\left(\mu, \frac{\sigma}{\sqrt{n}}\right). \] Esto implica que: \[ Z = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \sim \mathcal{N}(0, 1). \]
Queremos un intervalo simétrico alrededor de \(\mu\) tal que: \[ P\left(-z_{\alpha/2} \leq Z \leq z_{\alpha/2}\right) = 1 - \alpha, \] donde: - \(z_{\alpha/2}\) es el valor crítico de la distribución normal estándar que deja \(\alpha/2\) en la cola superior. - \(1 - \alpha\) es el nivel de confianza (ej. 95% si \(\alpha = 0.05\)).
Reescribimos la desigualdad en términos de \(\mu\): \[ -z_{\alpha/2} \leq \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \leq z_{\alpha/2}. \] Multiplicamos por \(\sigma / \sqrt{n}\): \[ -z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \leq \overline{X} - \mu \leq z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}. \] Restamos \(\overline{X}\): \[ -\overline{X} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \leq -\mu \leq -\overline{X} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}. \] Multiplicamos por \(-1\) (cambiando el sentido de las desigualdades): \[ \overline{X} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}. \]
El intervalo de confianza para \(\mu\) al \((1 - \alpha) \times 100\%\) es: \[ \boxed{ \left( \overline{X} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}, \quad \overline{X} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \right) } \]
media_muestral <- 50
sigma <- 5
n <- 30
alpha <- 0.05
z_critico <- qnorm(1 - alpha / 2) # ≈ 1.96
margen_error <- z_critico * sigma / sqrt(n)
intervalo <- c(media_muestral - margen_error, media_muestral + margen_error)
cat("Intervalo de confianza al 95%:", intervalo, "\n")
## Intervalo de confianza al 95%: 48.21081 51.78919
Resultado:
El intervalo es \((48.21, 51.79)\).
Con un 95% de confianza, la media poblacional \(\mu\) está entre \(\overline{X} \pm E\).
- Precisión: A mayor \(n\) o menor \(\sigma\), el margen de error \(E\) disminuye.
- Validez: Requiere que \(\sigma\) sea conocido y la muestra sea
aleatoria.
Solución:
En este caso, nos interesa el parámetro \(\theta = \mu\). Por lo tanto, \(\hat{\theta} = \bar{Y}\).
Como la varianza poblacional \(\sigma^2\) se desconoce, usamos \(S^2\) para estimarla:
\[ \sigma_{\bar{Y}} \approx \frac{S}{\sqrt{n}} = \frac{16}{8} = 2 \]
El intervalo de confianza para \(\mu\) es:
\[ \text{IC}(\mu) = \bar{Y} \pm z_{\alpha/2} \cdot \sigma_{\bar{Y}} \approx 33 \pm 1.645 \cdot 2 = (29.71, 36.29) \]
Interpretación: Hay una certeza del 90% de que el tiempo medio real de atención de los clientes en un supermercado local se encuentra entre 29.71 y 36.29 minutos.
Cuando tenemos:
Muestra pequeña (\(n < 30\))
Desviación poblacional desconocida (\(\sigma\))
Población aproximadamente normal
Usamos la distribución t de Student para construir el intervalo.
El estadístico de prueba es:
\[ T = \frac{\bar{X} - \mu}{s/\sqrt{n}} \sim t_{n-1} \]
donde: - \(\bar{X}\) = media muestral - \(s\) = desviación estándar muestral - \(n\) = tamaño muestral - \(t_{n-1}\) = distribución t con \(n-1\) grados de libertad
Para un nivel de confianza \((1-\alpha)\times 100\%\), el intervalo es:
\[ P\left(-t_{\alpha/2,n-1} \leq \frac{\bar{X}-\mu}{s/\sqrt{n}} \leq t_{\alpha/2,n-1}\right) = 1-\alpha \]
Despejando \(\mu\):
\[ \bar{X} - t_{\alpha/2,n-1}\frac{s}{\sqrt{n}} \leq \mu \leq \bar{X} + t_{\alpha/2,n-1}\frac{s}{\sqrt{n}} \]
El intervalo de confianza es:
\[ \boxed{IC_{1-\alpha}(\mu) = \left(\bar{X} - t_{\alpha/2,n-1}\frac{s}{\sqrt{n}},\ \bar{X} + t_{\alpha/2,n-1}\frac{s}{\sqrt{n}}\right)} \]
# Datos
x_bar <- 50 # media muestral
s <- 5 # desviación estándar muestral
n <- 10 # tamaño muestral
alpha <- 0.05 # nivel de significancia
# Cálculo
t_crit <- qt(1 - alpha/2, df = n-1)
margen <- t_crit * s / sqrt(n)
IC <- c(x_bar - margen, x_bar + margen)
cat("Intervalo al 95% de confianza: (", IC[1], ", ", IC[2], ")\n", sep = "")
## Intervalo al 95% de confianza: (46.42322, 53.57678)
Caso | Distribución | Fórmula |
---|---|---|
\(\sigma\) conocido | Normal (\(Z\)) | \(\bar{X} \pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\) |
\(\sigma\) desconocido | \(t\)-Student | \(\bar{X} \pm t_{\alpha/2,n-1}\frac{s}{\sqrt{n}}\) |
Solución:
Calculamos la media y la desviación estándar de la muestra:
\[ \bar{Y} = 2959, \quad S = 39.1 \]
Para \(n = 8\) y \(\alpha = 0.05\), el valor crítico de \(t\) es \(t_{0.025, 7} = 2.365\).
El intervalo de confianza es:
\[ \text{IC}(\mu) = 2959 \pm 2.365 \cdot \frac{39.1}{\sqrt{8}} = 2959 \pm 32.7 \]
Interpretación: El intervalo de confianza para la media real de las velocidades es \((2926.3, 2991.7)\) pies por segundo.
Sea: - \(p\) = proporción poblacional desconocida - \(\hat{p} = \frac{X}{n}\) = proporción muestral (estimador de \(p\)) - \(n\) = tamaño muestral - \(X\) = número de éxitos en la muestra
Queremos construir un intervalo de confianza \((1-\alpha)\times 100\%\) para \(p\).
Para \(n\) grande (usando el TLC), la proporción muestral sigue aproximadamente:
\[ \hat{p} \sim N\left(p, \sqrt{\frac{p(1-p)}{n}}\right) \]
Estandarizando:
\[ Z = \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \sim N(0,1) \]
Queremos encontrar \(p\) tal que:
\[ P\left(-z_{\alpha/2} \leq \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \leq z_{\alpha/2}\right) = 1-\alpha \]
Despejando \(p\):
\[ \hat{p} - z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}} \leq p \leq \hat{p} + z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}} \]
Como \(p\) es desconocido, aproximamos \(\sqrt{\frac{p(1-p)}{n}}\) con \(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\):
\[ \boxed{IC_{1-\alpha}(p) = \left(\hat{p} - z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}},\ \hat{p} + z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right)} \]
# Datos
x <- 45 # número de éxitos
n <- 100 # tamaño muestral
alpha <- 0.05
# Cálculos
p_hat <- x/n
z <- qnorm(1 - alpha/2)
margen <- z * sqrt(p_hat*(1-p_hat)/n)
IC <- c(p_hat - margen, p_hat + margen)
cat("Intervalo al 95% de confianza para p: (",
round(IC[1],4), ", ", round(IC[2],4), ")\n", sep="")
## Intervalo al 95% de confianza para p: (0.3525, 0.5475)
Cuando no se tiene información previa, se usa \(p=0.5\) para obtener el intervalo más conservador:
\[ \boxed{IC_{1-\alpha}(p) = \left(\hat{p} - z_{\alpha/2}\sqrt{\frac{0.25}{n}},\ \hat{p} + z_{\alpha/2}\sqrt{\frac{0.25}{n}}\right)} \]
Cuando \(n\) es pequeño, se recomienda la corrección de continuidad de Yates:
\[ \hat{p}_{corr} = \frac{X + 0.5z_{\alpha/2}^2}{n + z_{\alpha/2}^2} \]
\[ n_{efectivo} = n + z_{\alpha/2}^2 \]
Y el intervalo se calcula con estos valores ajustados.
Método | Fórmula | Cuando usar |
---|---|---|
Estándar | \(\hat{p} \pm z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\) | \(n\hat{p} \geq 5\) y \(n(1-\hat{p}) \geq 5\) |
Conservador | \(\hat{p} \pm z_{\alpha/2}\sqrt{\frac{0.25}{n}}\) | Cuando no se tiene información previa |
Corrección | \(\frac{X + 0.5z^2}{n + z^2} \pm z\sqrt{\frac{\hat{p}(1-\hat{p}) + z^2/4n}{n}}\) | Muestras pequeñas |
A continuación presento los casos principales para construir intervalos de confianza para la diferencia de medias poblacionales \(\mu_1 - \mu_2\):
Fórmula: \[ \boxed{IC_{1-\alpha}(\mu_1 - \mu_2) = (\bar{X}_1 - \bar{X}_2) \pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \]
Supuestos: - Poblaciones normales o \(n_1, n_2 \geq 30\) (por TLC) - Muestras independientes - Varianzas poblacionales conocidas
Fórmula: \[ \boxed{IC_{1-\alpha}(\mu_1 - \mu_2) = (\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2, n_1+n_2-2}\cdot s_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \] donde \(s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}\) es la varianza combinada.
Supuestos: - Poblaciones aproximadamente normales - Muestras independientes - Varianzas homogéneas (verificable con test F)
Problema:
Se compararon dos métodos de entrenamiento para empleados en una
fábrica. Los tiempos de montaje (en minutos) para cada grupo fueron:
Estime la diferencia real de las medias \((\mu_1 - \mu_2)\) con un coeficiente de confianza de 0.95. Suponga que los tiempos de montaje tienen aproximadamente una distribución normal y que las varianzas son aproximadamente iguales para los dos métodos.
Solución:
Cálculo de las medias y varianzas muestrales:
Cálculo de la varianza combinada \(S_p^2\): \[ S_p^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2} = \frac{(9-1)195.56 + (9-1)160.22}{9 + 9 - 2} = 22.24 \]
Cálculo del intervalo de confianza para \(\mu_1 - \mu_2\):
Interpretación:
El intervalo de confianza para la diferencia de medias es \((-1.05, 8.37)\). Este intervalo incluye
tanto valores positivos como negativos, lo que indica que no hay
evidencia estadística significativa para afirmar que haya una diferencia
entre ambos procedimientos.
Fórmula (aproximación de Welch): \[ \boxed{IC_{1-\alpha}(\mu_1 - \mu_2) = (\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2, \nu}\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \] con grados de libertad \(\nu\) aproximados por: \[ \nu = \frac{\left(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\right)^2}{\frac{(s_1^2/n_1)^2}{n_1-1} + \frac{(s_2^2/n_2)^2}{n_2-1}} \]
Supuestos: - Poblaciones aproximadamente normales - Muestras independientes - Varianzas heterogéneas
Fórmula: \[ \boxed{IC_{1-\alpha}(\mu_D) = \bar{D} \pm t_{\alpha/2, n-1}\frac{s_D}{\sqrt{n}}} \] donde \(D_i = X_{1i} - X_{2i}\) son las diferencias pareadas.
Supuestos: - Diferencias normalmente distribuidas - Observaciones apareadas/dependientes
Caso | Varianzas | Muestras | Fórmula Clave | Grados Libertad |
---|---|---|---|---|
1 | Conocidas | Independientes | \(z\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}\) | - |
2 | Iguales | Independientes | \(t s_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}\) | \(n_1+n_2-2\) |
3 | Diferentes | Independientes | \(t\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\) | \(\nu\) (Welch) |
4 | - | Pareadas | \(t \frac{s_D}{\sqrt{n}}\) | \(n-1\) |
Contexto:
Comparación del rendimiento de 2 máquinas. Se conocen las varianzas
históricas: - Máquina 1: \(\sigma_1^2 =
4\), \(n_1 = 30\), \(\bar{X}_1 = 100\) unidades/hora - Máquina
2: \(\sigma_2^2 = 9\), \(n_2 = 35\), \(\bar{X}_2 = 98\) unidades/hora - Nivel de
confianza: 95%
Cálculo en R:
# Parámetros
sigma1 <- 2 # sqrt(4)
sigma2 <- 3 # sqrt(9)
n1 <- 30; xbar1 <- 100
n2 <- 35; xbar2 <- 98
alpha <- 0.05
# Valor crítico
z <- qnorm(1 - alpha/2)
# Margen de error
margen <- z * sqrt(sigma1^2/n1 + sigma2^2/n2)
# Intervalo
IC <- c((xbar1 - xbar2) - margen, (xbar1 - xbar2) + margen)
cat("IC 95% para diferencia de medias (varianzas conocidas): [",
round(IC[1], 2), ", ", round(IC[2], 2), "]\n", sep = "")
## IC 95% para diferencia de medias (varianzas conocidas): [0.78, 3.22]
Contexto:
Comparación de calificaciones en 2 grupos de estudiantes (misma prueba):
- Grupo A: \(n_1 = 20\), \(\bar{X}_1 = 78\), \(s_1 = 5\) - Grupo B: \(n_2 = 25\), \(\bar{X}_2 = 75\), \(s_2 = 6\) - Test F confirma varianzas
iguales (\(p = 0.45\)) - Nivel de
confianza: 99%
Cálculo en R:
# Datos
n1 <- 20; xbar1 <- 78; s1 <- 5
n2 <- 25; xbar2 <- 75; s2 <- 6
alpha <- 0.01
# Varianza combinada
sp <- sqrt(((n1-1)*s1^2 + (n2-1)*s2^2)/(n1 + n2 - 2))
# Valor crítico t
t <- qt(1 - alpha/2, df = n1 + n2 - 2)
# Margen de error
margen <- t * sp * sqrt(1/n1 + 1/n2)
# Intervalo
IC <- c((xbar1 - xbar2) - margen, (xbar1 - xbar2) + margen)
cat("IC 99% para diferencia de medias (varianzas iguales): [",
round(IC[1], 2), ", ", round(IC[2], 2), "]\n", sep = "")
## IC 99% para diferencia de medias (varianzas iguales): [-1.51, 7.51]
Contexto:
Tiempos de respuesta de 2 algoritmos: - Algoritmo X: \(n_1 = 15\), \(\bar{X}_1 = 120\) ms, \(s_1 = 25\) ms - Algoritmo Y: \(n_2 = 20\), \(\bar{X}_2 = 110\) ms, \(s_2 = 15\) ms - Test F rechaza igualdad de
varianzas (\(p = 0.02\)) - Nivel de
confianza: 90%
Cálculo en R:
# Datos
n1 <- 15; xbar1 <- 120; s1 <- 25
n2 <- 20; xbar2 <- 110; s2 <- 15
alpha <- 0.10
# Grados de libertad (Welch-Satterthwaite)
nu <- (s1^2/n1 + s2^2/n2)^2 /
((s1^2/n1)^2/(n1-1) + (s2^2/n2)^2/(n2-1))
# Valor crítico t
t <- qt(1 - alpha/2, df = nu)
# Margen de error
margen <- t * sqrt(s1^2/n1 + s2^2/n2)
# Intervalo
IC <- c((xbar1 - xbar2) - margen, (xbar1 - xbar2) + margen)
cat("IC 90% para diferencia de medias (Welch): [",
round(IC[1], 2), ", ", round(IC[2], 2), "]\n", sep = "")
## IC 90% para diferencia de medias (Welch): [-2.51, 22.51]
Contexto:
Presión arterial antes/después de un tratamiento (10 pacientes):
Paciente | Antes | Después | Diferencia |
---|---|---|---|
1 | 140 | 132 | -8 |
… | … | … | … |
10 | 135 | 128 | -7 |
Cálculo en R:
# Datos
n <- 10
D_bar <- -6.5
s_D <- 2.5
alpha <- 0.05
# Valor crítico t
t <- qt(1 - alpha/2, df = n-1)
# Margen de error
margen <- t * s_D / sqrt(n)
# Intervalo
IC <- c(D_bar - margen, D_bar + margen)
cat("IC 95% para diferencia pareada: [",
round(IC[1], 2), ", ", round(IC[2], 2), "]\n", sep = "")
## IC 95% para diferencia pareada: [-8.29, -4.71]
\[ \left( \frac{s_1^2}{s_2^2} \cdot \frac{1}{F_{\alpha/2, n_1-1, n_2-1}}, \frac{s_1^2}{s_2^2} \cdot F_{\alpha/2, n_2-1, n_1-1} \right) \]
Donde: - \(F_{\alpha/2, n_1-1, n_2-1}\) es el valor crítico superior de la distribución F con \(n_1-1\) grados de libertad en el numerador y \(n_2-1\) grados de libertad en el denominador - \(F_{\alpha/2, n_2-1, n_1-1}\) es el valor crítico superior con los grados de libertad invertidos
Tenemos los siguientes datos muestrales: - Desviación estándar muestra 1 (\(s_1\)): 5.2 - Desviación estándar muestra 2 (\(s_2\)): 4.8 - Tamaño muestra 1 (\(n_1\)): 30 - Tamaño muestra 2 (\(n_2\)): 25 - Nivel de confianza: 95%
El cociente observado es:
\[ \frac{s_1^2}{s_2^2} = \frac{5.2^2}{4.8^2} = \frac{27.04}{23.04} = 1.1736111 \]
ratio_observado <- s1^2 / s2^2
ratio_observado
## [1] 1.173611
Necesitamos los percentiles de la distribución F con: - Grados de libertad numerador: \(n_1-1 = 29\) - Grados de libertad denominador: \(n_2-1 = 24\)
Para \(\alpha = 1 - 0.95 = 0.05\):
\[ F_{\alpha/2, n_1-1, n_2-1} = F_{0.025, 29, 24} = 2.2174427 \]
\[ F_{\alpha/2, n_2-1, n_1-1} = F_{0.025, 24, 29} = 2.154006 \]
alpha <- 1 - conf.level
f_lower <- qf(alpha/2, n1-1, n2-1, lower.tail = FALSE)
f_upper <- qf(alpha/2, n2-1, n1-1, lower.tail = FALSE)
f_lower;f_upper
## [1] 2.217443
## [1] 2.154006
El intervalo se calcula como:
\[ \left( \frac{s_1^2}{s_2^2} \cdot \frac{1}{F_{\alpha/2, n_2-1, n_1-1}}, \frac{s_1^2}{s_2^2} \cdot F_{\alpha/2, n_1-1, n_2-1} \right) \]
Sustituyendo valores:
\[ \left( 1.1736111 \times \frac{1}{2.154006}, 1.1736111 \times 2.2174427 \right) = (0.5448504, 2.6024154) \]
lower_bound <- ratio_observado / f_upper
upper_bound <- ratio_observado * f_lower
lower_bound
## [1] 0.5448504
upper_bound
## [1] 2.602415
\[ (0.545, 2.602) \]
library(ggplot2)
df <- data.frame(
Estadistico = "Cociente varianzas",
Valor = ratio_observado,
Lower = lower_bound,
Upper = upper_bound
)
ggplot(df, aes(x = Estadistico, y = Valor)) +
geom_point(size = 3, color = "blue") +
geom_errorbar(aes(ymin = Lower, ymax = Upper), width = 0.2, color = "red", linewidth = 1) +
geom_hline(yintercept = 1, linetype = "dashed", color = "darkgreen") +
labs(title = "Intervalo de confianza para el cociente de varianzas",
subtitle = paste0("Nivel de confianza del ", conf.level*100, "%"),
y = expression(frac(sigma[1]^2, sigma[2]^2)),
x = "") +
theme_minimal() +
scale_y_continuous(limits = c(0, max(upper_bound)*1.1))
Con una confianza del 95%, podemos afirmar que el verdadero cociente de varianzas poblacionales \(\frac{\sigma_1^2}{\sigma_2^2}\) se encuentra entre 0.545 y 2.602.
La línea verde discontinua representa el valor 1 (igualdad de varianzas). Como nuestro intervalo incluye el valor 1, por lo que no podemos rechazar la hipótesis de igualdad de varianzas.
# Ejemplo práctico en R
varianza_intervalo <- function(s1, s2, n1, n2, conf.level = 0.95) {
alpha <- 1 - conf.level
ratio <- s1^2 / s2^2
f_lower <- qf(alpha/2, n1-1, n2-1, lower.tail = TRUE)
f_upper <- qf(alpha/2, n2-1, n1-1, lower.tail = FALSE)
lower_bound <- ratio * (1/f_upper)
upper_bound <- ratio * (1/f_lower)
c(lower = lower_bound, upper = upper_bound)
}
# Ejemplo con datos
s1 <- 5.2
s2 <- 4.8
n1 <- 30
n2 <- 25
conf.level <- 0.95
intervalo <- varianza_intervalo(s1, s2, n1, n2, conf.level)
intervalo
## lower upper
## 0.5448504 2.5279654
Para el ejemplo con \(s_1 = 5.2\), \(s_2 = 4.8\), \(n_1 = 30\) y \(n_2 = 25\), el intervalo de confianza del 95% para \(\frac{\sigma_1^2}{\sigma_2^2}\) es:
\[ (0.545, 2.528) \]
Esto significa que podemos estar un 95% seguros de que el verdadero cociente de varianzas poblacionales se encuentra entre 0.545 y 2.528.
Río 1: 9, 8, 10, 12, 13, 12, 10, 14, 10,
12
Tamaño de muestra (\(n_1\)): 10
Media muestral (\(\bar{X}_1\)):
\[
\bar{X}_1 = \frac{9 + 8 + 10 + 12 + 13 + 12 + 10 + 14 + 10 + 12}{10} =
\frac{110}{10} = 11 \text{ ppm}
\]
Varianza muestral (\(S_1^2\)):
\[
S_1^2 = \frac{\sum (X_i - \bar{X}_1)^2}{n_1 - 1} = \frac{(9-11)^2 +
(8-11)^2 + \dots + (12-11)^2}{9} = \frac{34}{9} \approx 3.7778 \text{
ppm}^2
\]
Río 2: 7, 10, 8, 8, 9, 10, 8
Tamaño de muestra (\(n_2\)): 7
Media muestral (\(\bar{X}_2\)):
\[
\bar{X}_2 = \frac{7 + 10 + 8 + 8 + 9 + 10 + 8}{7} = \frac{60}{7} \approx
8.5714 \text{ ppm}
\]
Varianza muestral (\(S_2^2\)):
\[
S_2^2 = \frac{\sum (Y_i - \bar{X}_2)^2}{n_2 - 1} = \frac{(7-8.5714)^2 +
\dots + (8-8.5714)^2}{6} \approx \frac{8.8571}{6} \approx 1.4762 \text{
ppm}^2
\]
Suponiendo que las poblaciones son normales e independientes, el
intervalo de confianza del 95% para el cociente de varianzas está dado
por:
\[
\left( \frac{S_1^2 / S_2^2}{F_{\alpha/2, n_1-1, n_2-1}}, \frac{S_1^2 /
S_2^2}{F_{1-\alpha/2, n_1-1, n_2-1}} \right)
\]
\(\alpha = 0.05\), \(\alpha/2 = 0.025\)
\(S_1^2 / S_2^2 = 3.7778 / 1.4762
\approx 2.5598\)
Valores críticos de la distribución \(F\):
Intervalo de confianza:
\[
\left( \frac{2.5598}{5.1116}, \frac{2.5598}{0.2315} \right) \approx
(0.5008, 11.056)
\]
Conclusión:
Como el intervalo incluye el valor 1, no se puede rechazar la
hipótesis de que las varianzas son iguales (no hay evidencia
suficiente para afirmar que son diferentes).
Dado que en (a) no se rechaza la igualdad de varianzas, usamos el intervalo de confianza basado en la distribución \(t\) con varianzas iguales (agrupadas).
Varianza agrupada (\(S_p^2\)):
\[
S_p^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2} = \frac{9
\times 3.7778 + 6 \times 1.4762}{15} \approx \frac{34 + 8.8571}{15}
\approx 2.8571
\]
Error estándar de la diferencia:
\[
SE = \sqrt{S_p^2 \left( \frac{1}{n_1} + \frac{1}{n_2} \right)} =
\sqrt{2.8571 \left( \frac{1}{10} + \frac{1}{7} \right)} \approx
\sqrt{2.8571 \times 0.2429} \approx 0.8333
\]
Grados de libertad: \(n_1 + n_2 - 2 =
15\)
Valor crítico \(t_{0.025, 15} \approx 2.1314\)
Intervalo de confianza: \[
(\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2, df} \times SE = (11 - 8.5714)
\pm 2.1314 \times 0.8333 \approx 2.4286 \pm 1.776
\]
Límites: \((0.6526, 4.2046)\)
Conclusión:
Como el intervalo no incluye el 0, hay evidencia de que las
medias son diferentes (\(\mu_1 >
\mu_2\)).
# Datos
rio1 <- c(9, 8, 10, 12, 13, 12, 10, 14, 10, 12)
rio2 <- c(7, 10, 8, 8, 9, 10, 8)
# (a) Intervalo para el cociente de varianzas
var_test <- var.test(rio1, rio2, conf.level = 0.95)
cat("Intervalo de confianza para el cociente de varianzas (σ1²/σ2²):\n")
## Intervalo de confianza para el cociente de varianzas (σ1²/σ2²):
print(var_test$conf.int)
## [1] 0.5006751 11.9458974
## attr(,"conf.level")
## [1] 0.95
# (b) Intervalo para la diferencia de medias (asumiendo varianzas iguales)
t_test <- t.test(rio1, rio2, var.equal = TRUE, conf.level = 0.95)
cat("\nIntervalo de confianza para la diferencia de medias (μ1 - μ2):\n")
##
## Intervalo de confianza para la diferencia de medias (μ1 - μ2):
print(t_test$conf.int)
## [1] 0.719429 4.137714
## attr(,"conf.level")
## [1] 0.95
# Datos
rio1 <- c(9, 8, 10, 12, 13, 12, 10, 14, 10, 12)
rio2 <- c(7, 10, 8, 8, 9, 10, 8)
# (a) Intervalo para el cociente de varianzas
var_test <- var.test(rio1, rio2, conf.level = 0.95)
cat("Intervalo de confianza para el cociente de varianzas (σ1²/σ2²):\n")
## Intervalo de confianza para el cociente de varianzas (σ1²/σ2²):
print(var_test$conf.int)
## [1] 0.5006751 11.9458974
## attr(,"conf.level")
## [1] 0.95
# (b) Intervalo para la diferencia de medias (asumiendo varianzas iguales)
t_test <- t.test(rio1, rio2, var.equal = TRUE, conf.level = 0.95)
cat("\nIntervalo de confianza para la diferencia de medias (μ1 - μ2):\n")
##
## Intervalo de confianza para la diferencia de medias (μ1 - μ2):
print(t_test$conf.int)
## [1] 0.719429 4.137714
## attr(,"conf.level")
## [1] 0.95
# --- Gráficos ---
par(mfrow = c(1, 2)) # Divide la ventana gráfica en 1 fila y 2 columnas
# Gráfico 1: Boxplot para comparar las distribuciones de los datos
boxplot(list(Río1 = rio1, Río2 = rio2),
col = c("lightblue", "lightgreen"),
main = "Niveles de sustancia tóxica (ppm)",
xlab = "Río", ylab = "Concentración (ppm)")
# Gráfico 2: Intervalos de confianza
# Preparamos los datos para el gráfico de intervalos
ic_var <- var_test$conf.int
ic_medias <- t_test$conf.int
plot(1, type = "n", xlim = c(0.5, 2.5), ylim = c(0, max(ic_var, ic_medias) + 2),
main = "Intervalos de Confianza del 95%",
xlab = "", ylab = "Valor", xaxt = "n")
axis(1, at = c(1, 2), labels = c("IC(σ1²/σ2²)", "IC(μ1 - μ2)"))
# Intervalo para el cociente de varianzas
segments(1, ic_var[1], 1, ic_var[2], lwd = 2, col = "blue")
points(1, var_test$estimate, pch = 19, col = "blue")
text(1, max(ic_var) + 1, labels = paste0("(", round(ic_var[1], 2), ", ", round(ic_var[2], 2), ")"), cex = 0.8)
# Intervalo para la diferencia de medias
segments(2, ic_medias[1], 2, ic_medias[2], lwd = 2, col = "red")
points(2, t_test$estimate[1] - t_test$estimate[2], pch = 19, col = "red")
text(2, max(ic_medias) + 1, labels = paste0("(", round(ic_medias[1], 2), ", ", round(ic_medias[2], 2), ")"), cex = 0.8)
# Línea de referencia para el cociente de varianzas (1 = varianzas iguales)
abline(h = 1, lty = 2, col = "green")
# Línea de referencia para la diferencia de medias (0 = no diferencia)
abline(h = 0, lty = 2, col = "orange")
Usted trabaja para una compañía que fabrica propulsores para uso en motores de turbina y se desempeña como ingeniero de producción. La compañía le ha encomendado la tarea de seleccionar el proceso que tenga la menor variabilidad en la rugosidad de la superficie. Para ello, usted toma una muestra de \(𝑛_1 = 16\) partes del primer proceso, la cual tiene una desviación estándar de \(4.7\) micropulgadas, y una muestra aleatoria de \(𝑛_2 = 16\) partes del segundo proceso, la cual tiene una desviación estándar de \(5.1\) micropulgadas. Use un intervalo de confianza de 90% para responder a la tarea que le fue encargada
Se desea determinar cuál de dos procesos de fabricación de propulsores tiene menor variabilidad en la rugosidad de la superficie, utilizando un intervalo de confianza del 90% para el cociente de varianzas (\(\sigma_1^2 / \sigma_2^2\)).
Datos:
- Proceso 1:
- Tamaño de muestra (\(n_1\)): \(16\) partes.
- Desviación estándar muestral (\(s_1\)): \(4.7\) micropulgadas.
- Varianza muestral (\(s_1^2\)): \(4.7^2 = 22.09\).
Para comparar la variabilidad de dos poblaciones normales
independientes, se utiliza un intervalo de confianza para el
cociente de varianzas basado en la distribución \(F\) de Fisher-Snedecor:
\[
\left( \frac{s_1^2 / s_2^2}{F_{\alpha/2, n_1-1, n_2-1}}, \frac{s_1^2 /
s_2^2}{F_{1-\alpha/2, n_1-1, n_2-1}} \right)
\]
- Nivel de confianza: \(90\%\) (\(\alpha
= 0.10\)).
- Grados de libertad: \(df_1
= n_1 - 1 = 15\), \(df_2 = n_2 - 1 =
15\).
Paso 1: Calcular el cociente de varianzas
muestrales:
\[
\frac{s_1^2}{s_2^2} = \frac{22.09}{26.01} \approx 0.849.
\]
Paso 2: Obtener los valores críticos de la
distribución \(F\):
- \(F_{0.05, 15, 15}\) (percentil
superior al \(5\%\)): \(2.40\).
- \(F_{0.95, 15, 15}\) (percentil
inferior al \(5\%\)):
\[
F_{0.95, 15, 15} = \frac{1}{F_{0.05, 15, 15}} = \frac{1}{2.40} \approx
0.4167.
\]
Paso 3: Construir el intervalo:
\[
\left( \frac{0.849}{2.40}, \frac{0.849}{0.4167} \right) = \left( 0.354,
2.037 \right).
\]
# Datos
n1 <- 16; s1 <- 4.7; var1 <- s1^2
n2 <- 16; s2 <- 5.1; var2 <- s2^2
confianza <- 0.90
alpha <- 1 - confianza
# Cociente de varianzas
cociente <- var1 / var2
# Valores críticos de F
F_sup <- qf(1 - alpha/2, df1 = n1-1, df2 = n2-1) # 2.40
F_inf <- qf(alpha/2, df1 = n1-1, df2 = n2-1) # 0.4167
# Intervalo de confianza
IC_inf <- cociente / F_sup
IC_sup <- cociente / F_inf
cat("Intervalo del 90% para σ1²/σ2²:", round(IC_inf, 3), "-", round(IC_sup, 3))
## Intervalo del 90% para σ1²/σ2²: 0.353 - 2.041
Nota: Si el intervalo no hubiera incluido el \(1\) (ej: si el límite superior fuera \(< 1\)), el Proceso \(1\) tendría menor variabilidad. En este caso, no se puede afirmar.
Dado un nivel de confianza \((1 - \alpha) \times 100\%\), el intervalo se construye como: \[ P\left( \chi^2_{1-\alpha/2, n} \leq \frac{\sum (X_i - \mu)^2}{\sigma^2} \leq \chi^2_{\alpha/2, n} \right) = 1 - \alpha \] Despejando \(\sigma^2\), se obtiene: \[ \sigma^2 \in \left( \frac{\sum (X_i - \mu)^2}{\chi^2_{\alpha/2, n}}, \frac{\sum (X_i - \mu)^2}{\chi^2_{1-\alpha/2, n}} \right) \]
Supongamos que: - Media conocida (\(\mu\)): 10. - Muestra: \(X = \{9, 11, 10, 8, 12\}\) (\(n = 5\)). - Nivel de confianza: 95% (\(\alpha = 0.05\)).
Interpretación: Con un 95% de confianza, la varianza poblacional \(\sigma^2\) está entre \(0.78\) y \(12.03\).
# Datos
mu <- 10
muestra <- c(9, 11, 10, 8, 12)
n <- length(muestra)
confianza <- 0.95
alpha <- 1 - confianza
# Suma de cuadrados respecto a mu
S2_mu <- sum((muestra - mu)^2)
# Cuantiles chi-cuadrado
chi_sup <- qchisq(1 - alpha/2, df = n)
chi_inf <- qchisq(alpha/2, df = n)
# Intervalo de confianza
IC_inf <- S2_mu / chi_sup
IC_sup <- S2_mu / chi_inf
cat("Intervalo de confianza al 95% para σ²:", IC_inf, ",", IC_sup)
## Intervalo de confianza al 95% para σ²: 0.7792713 , 12.03063
Cuando la media poblacional (\(\mu\)) no es conocida, se utiliza la cuasivarianza muestral (\(S^2\)) como estimador de \(\sigma^2\), y la distribución de referencia cambia. A continuación, se detalla la teoría y metodología para este caso común en la práctica estadística.
El estadístico pivotal se basa en la cuasivarianza muestral (\(S^2\)): \[ S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 \] Bajo los supuestos, la cantidad: \[ Q = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) \] sigue una distribución chi-cuadrado con \(n-1\) grados de libertad (no \(n\), porque se estimó \(\mu\) con \(\bar{X}\)).
Para un nivel de confianza \((1-\alpha) \times 100\%\), el intervalo se deriva de: \[ P\left( \chi^2_{1-\alpha/2, n-1} \leq \frac{(n-1)S^2}{\sigma^2} \leq \chi^2_{\alpha/2, n-1} \right) = 1 - \alpha \] Despejando \(\sigma^2\): \[ \sigma^2 \in \left( \frac{(n-1)S^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2, n-1}} \right) \]
Supongamos: - Muestra: \(X = \{12, 15, 10, 11, 14\}\) (\(n = 5\)). - Nivel de confianza: 95% (\(\alpha = 0.05\)).
Interpretación: Con 95% de confianza, \(\sigma^2\) está entre 1.54 y 35.54.
# Datos
muestra <- c(12, 15, 10, 11, 14)
n <- length(muestra)
confianza <- 0.95
alpha <- 1 - confianza
# Media y cuasivarianza muestral
X_bar <- mean(muestra)
S2 <- var(muestra) # Función que calcula S² = Σ(Xi - X̄)²/(n-1)
# Cuantiles chi-cuadrado
chi_sup <- qchisq(1 - alpha/2, df = n-1)
chi_inf <- qchisq(alpha/2, df = n-1)
# Intervalo de confianza
IC_inf <- (n-1) * S2 / chi_sup
IC_sup <- (n-1) * S2 / chi_inf
cat("Intervalo al 95% para σ²:", round(IC_inf, 2), ",", round(IC_sup, 2))
## Intervalo al 95% para σ²: 1.54 , 35.51
Caso | Distribución Usada | Grados de Libertad | Intervalo para \(\sigma^2\) |
---|---|---|---|
Media conocida (\(\mu\)) | \(\chi^2(n)\) | \(n\) | \(\left( \frac{S_{\mu}^2}{\chi^2_{\alpha/2, n}}, \frac{S_{\mu}^2}{\chi^2_{1-\alpha/2, n}} \right)\) |
Media desconocida | \(\chi^2(n-1)\) | \(n-1\) | \(\left( \frac{(n-1)S^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2, n-1}} \right)\) |
Cuasivarianza muestral: \[ S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 \]
Intervalo de confianza: \[ \sigma^2 \in \left( \frac{(n-1)S^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2, n-1}} \right) \]
Este método es fundamental en experimentos científicos donde \(\mu\) no se conoce a priori y se requiere estimar la variabilidad de los datos.
En inferencia estadística, seleccionar un tamaño de muestra adecuado es crucial para garantizar que los resultados sean confiables y precisos. A continuación, se presenta la teoría para determinar el tamaño de muestra en los casos de media poblacional y proporción poblacional.
Si la desviación estándar poblacional es conocida, usamos la distribución normal (Z): \[ n = \left( \frac{z_{\alpha/2} \cdot \sigma}{E} \right)^2 \] donde: - \(z_{\alpha/2}\) = valor crítico de la distribución normal estándar para un nivel de confianza \((1 - \alpha)\). - \(\sigma\) = desviación estándar poblacional. - \(E\) = margen de error (precisión deseada).
Si queremos estimar la media con un 95% de confianza (\(z_{0.025} = 1.96\)), \(\sigma = 5\) y \(E = 1\): \[ n = \left( \frac{1.96 \cdot 5}{1} \right)^2 = 96.04 \approx 97 \text{ (redondeado hacia arriba)}. \]
Si \(\sigma\) es desconocida, se usa
la distribución \(t\) de Student y una
estimación inicial de la desviación estándar (\(S\)) a partir de una muestra piloto: \[
n = \left( \frac{t_{\alpha/2, n-1} \cdot S}{E} \right)^2
\] - Como \(t_{\alpha/2, n-1}\)
depende de \(n\), el cálculo requiere
iteraciones.
- En la práctica, si \(n\) es grande
(\(n \geq 30\)), se aproxima con \(z_{\alpha/2}\).
Para estimar una proporción poblacional (\(p\)) con margen de error \(E\) y nivel de confianza \((1 - \alpha)\), usamos la aproximación normal (válida si \(np \geq 5\) y \(n(1-p) \geq 5\)): \[ n = \left( \frac{z_{\alpha/2}}{E} \right)^2 \cdot p(1 - p) \] - Si \(p\) es desconocido, se usa el valor más conservador \(p = 0.5\) (maximiza la varianza): \[ n = \left( \frac{z_{\alpha/2}}{2E} \right)^2 \]
Para estimar una proporción con un 95% de confianza (\(z_{0.025} = 1.96\)), \(E = 0.03\) y \(p\) desconocido: \[ n = \left( \frac{1.96}{2 \cdot 0.03} \right)^2 = 1067.11 \approx 1068 \text{ personas}. \]
Parámetro | Fórmula (Población Infinita) | Caso Conservador (\(p\) desconocido) |
---|---|---|
Media (\(\mu\)) | \[n = \left( \frac{z_{\alpha/2} \cdot \sigma}{E} \right)^2\] | No aplica. |
Proporción (\(p\)) | \[n = \left( \frac{z_{\alpha/2}}{E} \right)^2 p(1 - p)\] | \[n = \left( \frac{z_{\alpha/2}}{2E} \right)^2\] |
Solución paso a paso:
El intervalo de confianza para \(p\) es:
\[ \text{IC}(p) = \hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{p(1-p)}{n}} = \hat{p} \pm \epsilon \]
Para \(\alpha = 0.10\), se tiene \(z_{\alpha/2} = z_{0.05} = 1.645\).
Como \(\epsilon = z_{\alpha/2} \cdot \sqrt{\frac{p(1-p)}{n}}\), se tiene:
\[ 0.04 = 1.645 \cdot \sqrt{\frac{0.6 \cdot 0.4}{n}} \]
Resolviendo para \(n\):
\[ n = \left( \frac{1.645 \cdot \sqrt{0.24}}{0.04} \right)^2 \approx 406 \]
Si no se conoce \(p\), se utiliza \(p = 0.5\), lo que daría \(n = 423\).
# Parámetros dados
E <- 0.04 # Margen de error
confianza <- 0.90 # Nivel de confianza (90%)
p <- 0.6 # Proporción esperada
# Cálculo del valor crítico z_(α/2)
alpha <- 1 - confianza
z_critico <- qnorm(1 - alpha/2) # qnorm() devuelve el cuantil de la normal estándar
# Cálculo del tamaño de muestra
n <- ( (z_critico / E)^2 ) * p * (1 - p)
# Redondeamos hacia arriba (porque el tamaño de muestra debe ser entero)
n_final <- ceiling(n)
# Resultado
cat("Tamaño de muestra requerido (n):", n_final, "\n")
## Tamaño de muestra requerido (n): 406
n_conservador <- ( (z_critico / (2 * E))^2 )
ceiling(n_conservador) # Resultado: 423
## [1] 423
Una operación de montaje en una fábrica manufacturera requiere aproximadamente un periodo de entrenamiento de un mes para que un nuevo empleado alcance la máxima eficiencia. Se sugirió un nuevo método para el entrenamiento y se realizó una prueba para comparar el método nuevo con el procedimiento estándar. Se entrenaron dos grupos de nueve empleados nuevos durante un periodo de tres semanas; un grupo realizó el nuevo método y el otro grupo el procedimiento de entrenamiento estándar. Las mediciones se muestran a continuación. Estime la diferencia real de las medias \((\mu_1 - \mu_2)\), con un coeficiente de confianza de 0.95. Suponga que los tiempos de montaje tienen aproximadamente una distribución normal y que las varianzas son aproximadamente iguales para los dos métodos.
Problema:
Un experimentador quiere verificar la variabilidad de un equipo diseñado
para medir el volumen de una fuente de audio frecuencia. Tres mediciones
independientes registradas con este equipo fueron 4.1, 5.2 y 10.2.
Estimar \(\sigma^2\) con un coeficiente
de confianza de 0.90.
Solución:
Problema:
Se sembró cierta variedad de trigo en parcelas de cierta localidad. Se
extrajo una muestra aleatoria de 20 parcelas y se midió el rendimiento.
Se obtuvo un rendimiento de 58 kilogramos por parcela y una desviación
típica de 8 kg por parcela. Estimar la varianza poblacional con un nivel
de confianza del 95%, sabiendo que el rendimiento se distribuye
normalmente.
Solución:
Cálculo de la varianza muestral \(S^2\): \[ S^2 = 8^2 = 64 \]
Cálculo del intervalo de confianza para \(\sigma^2\):
Interpretación:
El intervalo de confianza para la varianza es \((36.96, 136.47)\). Este intervalo indica
que la varianza poblacional del rendimiento de trigo se encuentra entre
36.96 y 136.47 kg² con un nivel de confianza del 95%.
En esta parte presentamos un estudio más formal y detallado de algunas de las propiedades matemáticas de los estimadores puntuales, en particular de los conceptos de eficiencia, consistencia y suficiencia. Se presentarán estadísticos de mínima suficiencia y se les utilizará para construir estimadores insesgados de varianza mínima para los parámetros. Posteriormente, se considerarán otros dos métodos útiles para obtener estimadores: el método de los momentos y el método de máxima verosimilitud.
Dados dos estimadores, \(\hat{\theta}_1\) y \(\hat{\theta}_2\), del parámetro \(\theta\), con varianzas \(V(\hat{\theta}_1)\) y \(V(\hat{\theta}_2)\), respectivamente, la eficiencia relativa de \(\hat{\theta}_1\) con respecto a \(\hat{\theta}_2\) se define como la razón entre sus varianzas:
\[ \text{Eficiencia} = \frac{V(\hat{\theta}_2)}{V(\hat{\theta}_1)} \]
Sea \(Y_1, Y_2, \dots, Y_n\) una muestra aleatoria de la distribución uniforme en el intervalo \((0, \theta)\). Dos estimadores insesgados para \(\theta\) son:
Solución:
El estimador \(\hat{\theta}_n\) es un estimador consistente de \(\theta\) si para cualquier número positivo \(\epsilon\):
\[ \lim_{n \to \infty} P(|\hat{\theta}_n - \theta| \leq \epsilon) = 1 \]
o, en forma equivalente:
\[ \lim_{n \to \infty} P(|\hat{\theta}_n - \theta| > \epsilon) = 0 \]
En otras palabras, \(\hat{\theta}_n\) es un estimador consistente de \(\theta\) si y solo si \(\hat{\theta}_n\) converge en probabilidad a \(\theta\). Para un estimador insesgado, la consistencia se garantiza si:
\[ \lim_{n \to \infty} V(\hat{\theta}_n) = 0 \]
Consistencia de la Media Muestral:
Sea \(Y_1, Y_2, \dots, Y_n\) una
muestra aleatoria de una distribución con media \(\mu\) y varianza \(\sigma^2 < \infty\). Demuestre que \(\bar{Y}\) es un estimador consistente de
\(\mu\).
Operaciones con Estimadores Consistentes:
Supóngase que \(\hat{\theta}_n\) es un
estimador consistente de \(\theta\) y
\(\hat{\theta}_n'\) es un estimador
consistente de \(\theta'\).
Entonces:
Consistencia de la Varianza Muestral:
Sea \(Y_1, Y_2, \dots, Y_n\) una
muestra aleatoria de una distribución con \(E(Y_i) = \mu\), \(E(Y_i^2) = \mu_2'\), y \(E(Y_i^4) = \mu_4'\) finitos. Demuestre
que \(S^2 = \frac{1}{n-1} \sum_{i=1}^n (Y_i -
\bar{Y})^2\) es un estimador consistente de \(\sigma^2 = V(Y_i)\).
Sea \(Y = (Y_1, Y_2, \dots, Y_n)\) una muestra aleatoria con distribución de probabilidad \(f_Y(y, \theta)\). Se dice que el estadístico \(S(Y) = S(Y_1, Y_2, \dots, Y_n)\) es suficiente para \(\theta\) si:
\[ f_Y(y, \theta) = H(y) \cdot G(S(y), \theta) \]
Es decir, \(S(Y)\) contiene toda la información sobre \(\theta\) presente en la muestra.
Sea \(Y = (Y_1, Y_2, \dots, Y_n)\) una muestra aleatoria con función de densidad:
\[ f_{Y_i}(y_i, \alpha) = \frac{1}{\alpha} e^{-y_i / \alpha}, \quad y_i \geq 0 \]
Pruebe que \(\bar{Y}\) es un estimador suficiente para \(\alpha\).
Sea \(Y = (Y_1, Y_2, \dots, Y_n)\) una muestra aleatoria con distribución de probabilidad conjunta \(f_Y(y, \theta)\). Si existe una función \(S(Y)\) tal que el cociente:
\[ \frac{f_Y(x, \theta)}{f_Y(y, \theta)} \]
no depende de \(\theta\) si y solo si \(S(x) = S(y)\), entonces \(S(Y)\) se llama un estimador de mínima suficiencia. Si \(\hat{\theta} = \theta(S(Y))\) es un estimador insesgado, entonces \(\hat{\theta}\) se llama un estimador insesgado de mínima varianza (EIMV).
Suponga que \(Y_1, Y_2, \dots, Y_n\) es una muestra aleatoria de una población normal con media \(\mu\) y varianza \(\sigma^2\) desconocidas. Pruebe que:
Solución:
El método de los momentos consiste en elegir como estimaciones aquellos valores de los parámetros que son soluciones de las ecuaciones:
\[ \mu_k' = E(Y^k) = \frac{1}{n} \sum_{i=1}^n Y_i^k = m_k', \quad k = 1, 2, \dots, t \]
donde \(t\) es igual al número de parámetros.
El método de máxima verosimilitud consiste en elegir como estimaciones aquellos valores de los parámetros que maximizan la función de verosimilitud:
\[ L(y) = f_Y(y, \theta) = f_Y(y_1, y_2, \dots, y_n, \theta) \]
Suponga que \(Y_1, Y_2, \dots, Y_n\) es una muestra aleatoria de una población normal con media \(\mu\) y varianza \(\sigma^2\) desconocidas. Pruebe que:
Solución:
Función de Verosimilitud:
La función de verosimilitud para una muestra normal es: \[
L(\mu, \sigma^2) = \left( \frac{1}{\sqrt{2\pi\sigma^2}} \right)^n
\exp\left\{ -\frac{1}{2\sigma^2} \sum_{i=1}^n (Y_i - \mu)^2 \right\}
\]
Maximización:
Los conceptos de eficiencia, consistencia y suficiencia son fundamentales para evaluar la calidad de los estimadores puntuales. Además, los métodos de los momentos y de máxima verosimilitud son herramientas poderosas para obtener estimadores en una variedad de contextos estadísticos.
Para calcular el intervalo de confianza para la media poblacional \(\mu\), utilizamos la fórmula:
\[ IC = \bar{X} \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \]
Donde:
- \(\bar{X} = 4000\) pts (media
muestral),
- \(\sigma^2 = 4000\) pts\(^2 \Rightarrow \sigma = \sqrt{4000} \approx
63.25\) pts (desviación estándar muestral),
- \(n = 1000\) (tamaño de la
muestra),
- \(Z_{\alpha/2}\) es el valor crítico
de la distribución normal estándar para un nivel de confianza del \(95.5\%\).
Paso 1: Encontrar el valor crítico \(Z_{\alpha/2}\).
Para un nivel de confianza del \(95.5\%\), el valor crítico correspondiente
es \(Z_{\alpha/2} \approx 2.00\)
(usando tablas de la distribución normal estándar).
Paso 2: Calcular el error estándar de la
media:
\[
\frac{\sigma}{\sqrt{n}} = \frac{63.25}{\sqrt{1000}} \approx
\frac{63.25}{31.623} \approx 2.00 \text{ pts}
\]
Paso 3: Construir el intervalo de confianza:
\[
IC = 4000 \pm 2.00 \cdot 2.00 = 4000 \pm 4.00 \text{ pts}
\]
Por lo tanto, el intervalo de confianza al \(95.5\%\) para las ventas medias por hora es:
\[ \boxed{(3996, \; 4004)} \]
Opciones de respuesta:
Respuesta correcta: \(\boxed{A}\) ################################################################################
En estadística inferencial, la probabilidad de que un estimador \(T = T(X_1, \ldots, X_n)\) coincida exactamente con el parámetro de interés \(\theta\) es \(0\). Por ello, en la estimación por intervalo, se selecciona un nivel de confianza (confiabilidad) de \(100(1 - \alpha)\%\) y se construye un intervalo aleatorio tal que la probabilidad frecuentista de que este intervalo contenga a \(\theta\) sea \(1 - \alpha\).
Dada una muestra aleatoria \(X_1, \ldots, X_n\), donde \(X_i \stackrel{\text{IID}}{\sim} F_X(\theta)\) para \(i = 1, \ldots, n\), la estimación por intervalo consiste en construir un intervalo aleatorio (cuyos límites son variables aleatorias) tal que:
\[ \textsf{Pr}(L_I \leq \theta \leq L_S) = 1 - \alpha. \]
El valor \(100(1 - \alpha)\%\) se denomina nivel de confianza o confiabilidad. Este valor representa la proporción de intervalos calculados a partir de la muestra aleatoria que contienen a \(\theta\).
Por ejemplo, un intervalo de confianza al 95% indica que el 95% de los intervalos de confianza calculados a partir de realizaciones de una muestra aleatoria incluirían el valor del parámetro de interés.
Considere una población Normal con media desconocida \(\mu = \textsf{E}(X)\) y varianza conocida \(\sigma^2 = \textsf{Var}(X)\). Construya un intervalo de confianza para \(\mu\) al 95% de confianza basado en una muestra aleatoria \(X_1, \ldots, X_n\) de tamaño \(n\).
Dado que \(X_i \stackrel{\text{IID}}{\sim} \textsf{N}(\mu, \sigma^2)\) para \(i = 1, \ldots, n\), se tiene que \(\bar{X} \sim \textsf{N}(\mu, \sigma^2/n)\). Estandarizando, obtenemos:
\[ Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim \textsf{N}(0, 1). \] Por lo tanto: \[ \textsf{Pr}\left(-1.96 < \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} < 1.96\right) = 0.95. \]
# Percentil 97.5 de N(0,1)
qnorm(p = 0.975)
## [1] 1.959964
Despejando \(\mu\) de esta desigualdad, obtenemos: \[ \textsf{Pr}\left(\bar{X} - 1.96 \frac{\sigma}{\sqrt{n}} < \mu < \bar{X} + 1.96 \frac{\sigma}{\sqrt{n}}\right) = 0.95. \] Así, un intervalo de confianza para \(\mu\) al 95% de confianza es: \[ \textsf{IC}_{95\%}(\mu) = \left(\bar{X} - 1.96 \frac{\sigma}{\sqrt{n}}, \bar{X} + 1.96 \frac{\sigma}{\sqrt{n}}\right) = \left( \bar{X} \pm 1.96 \frac{\sigma}{\sqrt{n}} \right). \] La cantidad \(1.96 \frac{\sigma}{\sqrt{n}}\) se denomina margen de error.
En el ejemplo anterior, si la confiabilidad es de \(100(1 - \alpha)\%\), el intervalo de confianza para \(\mu\) es: \[ \textsf{IC}_{100(1 - \alpha)\%}(\mu) = \left(\bar{X} - z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}}\right) = \left( \bar{X} \pm z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}} \right), \] donde \(z_{1 - \alpha/2}\) es el percentil \(100(1 - \alpha/2)\) de la distribución normal estándar.
Simule una muestra aleatoria de tamaño \(n = 30\) de una población Normal con media \(\mu = 10\) y desviación estándar \(\sigma = 1\). A partir de esta muestra, calcule el intervalo de confianza para \(\mu\) al 95% de confianza.
# Parámetros de la población (modelo)
mu <- 10
sigma <- 1
# Simulación de la muestra aleatoria
set.seed(1)
x <- rnorm(n = 30, mean = mu, sd = sigma)
x
## [1] 9.373546 10.183643 9.164371 11.595281 10.329508 9.179532 10.487429
## [8] 10.738325 10.575781 9.694612 11.511781 10.389843 9.378759 7.785300
## [15] 11.124931 9.955066 9.983810 10.943836 10.821221 10.593901 10.918977
## [22] 10.782136 10.074565 8.010648 10.619826 9.943871 9.844204 8.529248
## [29] 9.521850 10.417942
# Cálculo del intervalo de confianza al 95%
# Tamaño de la muestra
n <- length(x)
n
## [1] 30
# Estimación puntual
xb <- mean(x)
xb
## [1] 10.08246
# Percentil
z975 <- qnorm(p = 0.975)
z975
## [1] 1.959964
# Margen de error
me <- z975 * sigma / sqrt(n)
me
## [1] 0.3578388
# Límite inferior
xb - me
## [1] 9.724619
# Límite superior
xb + me
## [1] 10.4403
Simule 1,000,000 de muestras aleatorias de tamaño \(n = 30\) de una población Normal con media \(\mu = 10\) y desviación estándar \(\sigma = 1\). Para cada muestra, calcule el intervalo de confianza para \(\mu\) al 95% de confianza. ¿Qué proporción de intervalos contiene el valor de \(\mu\)?
# Parámetros de la población (modelo)
mu <- 10
sigma <- 1
# Tamaño de la muestra
n <- 30
# Percentil
z975 <- qnorm(p = 0.975)
# Número de simulaciones
M <- 1000000
# Objeto para almacenar los intervalos
IC <- matrix(data = NA, nrow = M, ncol = 2)
# Simulación
set.seed(1)
for (i in 1:M) {
x <- rnorm(n = 30, mean = mu, sd = sigma)
IC[i, 1] <- mean(x) - z975 * sigma / sqrt(n)
IC[i, 2] <- mean(x) + z975 * sigma / sqrt(n)
}
# Inspección
dim(IC)
## [1] 1000000 2
head(IC)
## [,1] [,2]
## [1,] 9.724619 10.44030
## [2,] 9.774936 10.49061
## [3,] 9.752439 10.46812
## [4,] 9.755494 10.47117
## [5,] 9.312133 10.02781
## [6,] 9.879164 10.59484
# Cobertura
tmp <- (IC[, 1] < mu) & (mu < IC[, 2])
head(tmp)
## [1] TRUE TRUE TRUE TRUE TRUE TRUE
# Proporción
mean(tmp)
## [1] 0.949869
Dada una muestra aleatoria \(X_1, \ldots, X_n\), donde \(X_i \stackrel{\text{IID}}{\sim} F_X(\theta)\) para \(i = 1, \ldots, n\), una función \(Q = Q(X_1, \ldots, X_n)\) es una variable aleatoria pivote para \(\theta\) si la distribución de \(Q\) no depende de \(\theta\).
El procedimiento para encontrar los límites del intervalo es:
Considere una población no necesariamente Normal con media desconocida \(\mu = \textsf{E}(X)\) y varianza conocida \(\sigma^2 = \textsf{Var}(X)\). Construya un intervalo de confianza para \(\mu\) al \(100(1 - \alpha)\%\) de confianza basado en una muestra aleatoria \(X_1, \ldots, X_n\) de tamaño \(n\).
Por el Teorema del Límite Central, \(\bar{X} \sim \textsf{N}(\mu, \sigma^2/n)\) si \(n\) es grande. Estandarizando, obtenemos: \[ Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim \textsf{N}(0, 1). \]
Por lo tanto, un intervalo de confianza para \(\mu\) al \(100(1 - \alpha)\%\) de confianza es: \[ \textsf{IC}_{100(1 - \alpha)\%}(\mu) = \left(\bar{X} - z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}}\right) = \left( \bar{X} \pm z_{1 - \alpha/2} \frac{\sigma}{\sqrt{n}} \right), \] donde \(z_{1 - \alpha/2}\) es el percentil \(100(1 - \alpha/2)\) de la distribución normal estándar.
Considere una población no necesariamente Normal con media desconocida \(\mu = \textsf{E}(X)\) y varianza desconocida \(\sigma^2 = \textsf{Var}(X)\). Construya un intervalo de confianza para \(\mu\) al \(100(1 - \alpha)\%\) de confianza basado en una muestra aleatoria \(X_1, \ldots, X_n\) de tamaño \(n\).
En este caso, \(\bar{X} \sim \textsf{N}(\mu, S^2/n)\) si \(n\) es grande, donde \(S\) es la desviación estándar muestral: \[ S = \sqrt{\frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2} = \sqrt{\frac{1}{n - 1} \left(\sum_{i=1}^n X_i^2 - n \bar{X}^2\right)}. \]
Estandarizando, obtenemos: \[ Z = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim \textsf{N}(0, 1). \]
Por lo tanto, un intervalo de confianza para \(\mu\) al \(100(1 - \alpha)\%\) de confianza es: \[ \textsf{IC}_{100(1 - \alpha)\%}(\mu) = \left(\bar{X} - z_{1 - \alpha/2} \frac{S}{\sqrt{n}}, \bar{X} + z_{1 - \alpha/2} \frac{S}{\sqrt{n}}\right) = \left( \bar{X} \pm z_{1 - \alpha/2} \frac{S}{\sqrt{n}} \right). \]
Los métodos de interpolación se utilizan para calcular alturas superiores al nivel del mar en ubicaciones donde las mediciones directas no están disponibles. En el artículo Transformation of Ellipsoid Heights to Local Leveling Heights (M. Yanalak y O. Baykal, en Journal of Surveying Engineering, 2001:90-103), se evalúa un método de interpolación basado en un polinomio de segundo orden para calcular alturas a partir de mediciones GPS. En una muestra de 74 ubicaciones, los errores del método tienen un promedio de 3.8 cm, con una desviación estándar de 4.8 cm.
Este documento está listo para ser ejecutado en Google Colab o cualquier entorno que soporte R Markdown.
Aquí tienes el texto formateado en RMarkdown con las expresiones
matemáticas encerradas en $
y $$
según
corresponda:
La Estadística Inferencial es el proceso de usar la
información de una muestra para describir el estado de una población.
Sin embargo, es frecuente que usemos la información de una muestra para
probar un reclamo o conjetura sobre la población. El reclamo o conjetura
se refiere a una hipótesis.
El proceso que corrobora si la información de una muestra sostiene o
refuta el reclamo se llama Prueba de Hipótesis. En
muchos aspectos, el procedimiento formal para la prueba de hipótesis es
similar al método científico. El científico observa la naturaleza,
establece una teoría y después prueba su teoría respecto de la
observación.
En este contexto, el científico propone una teoría relativa a los valores específicos de uno o más parámetros poblacionales. Luego obtiene una muestra de la población y compara la observación con la teoría. Si las observaciones se contraponen a la teoría, el científico rechaza la hipótesis. En caso contrario, concluye que la teoría es válida o bien que la muestra no detectó la diferencia entre los valores reales y los valores de la hipótesis respecto a los parámetros poblacionales.
Por ejemplo,
un investigador en medicina puede proponer la hipótesis de que un
medicamento es más efectivo que otro para curar cierta enfermedad. Para
probar su hipótesis, selecciona al azar unos pacientes afectados por la
enfermedad y los divide aleatoriamente en dos grupos. Se aplica entonces
el nuevo medicamento A al primer grupo de pacientes y
el otro medicamento B al segundo grupo. Posteriormente,
el investigador debe decidir, basándose en el número de pacientes
curados en cada grupo, si el nuevo medicamento es más eficaz o no que el
anterior.
Las pruebas de hipótesis se realizan en todos los ámbitos en los cuales
puede contrastarse la teoría frente a la observación.
Considere el siguiente problema: Un productor de fármacos afirma que
tiene una droga cuya aplicación debe aumentar la probabilidad de que
nazca una niña de 50% hasta 70%, por lo menos. Se quiere verificar la
validez de esta afirmación.
La solución podría consistir de los siguientes pasos:
Se puede asociar al problema un modelo probabilístico (el cual modela
la situación planteada), en el cual la variable de interés “nacimiento
de un bebé” está representada por \(Y \sim
B(1, \theta)\) con las codificaciones:
- \(y = 1\), si el bebé es una
niña;
- \(y = 0\), si el bebé es un niño.
Es decir, el parámetro de interés es \(\theta\), la probabilidad de que nazca una
niña.
Como hipótesis nula \(H_0\) se puede
escoger \(\theta = 0.5\), que refleja
la situación normal, contra la alternativa \(H_1\) de que \(\theta = 0.7\), que refleja la afirmación
del productor de fármacos.
Para ver cómo realmente actúa la droga en cuestión, se escogen,
digamos, \(n = 20\) mujeres,
independientemente; se aplica la droga a cada una de ellas y se observa,
después del debido tiempo, si la mamá \(i\) da a luz a una niña o a un niño. Así se
obtiene el modelo estadístico correspondiente, dado por una muestra
\(Y = (Y_1, Y_2, \dots, Y_n)\) de
tamaño \(n = 20\), con variables
muestrales \(Y_i \sim B(1,
\theta)\).
Para un experimento concreto, se obtienen los datos \(y = (y_1, y_2, \dots, y_n)\), siendo cada
\(y_i \in \{0, 1\}\).
Se apuntará \(\sum_{i=1}^n y_i =:\) el número de niñas entre los \(n\) bebés nacidos, que es un valor de la estadística
\[ T(Y) = \sum_{i=1}^n Y_i \sim B(n, \theta). \]
Intuitivamente, se rechazará la hipótesis \(H_0\) si \(T(y)
\geq c\) para un valor \(c\)
“suficientemente grande”, es decir, si hay “muchas” niñas.
Es claro que para \(T(y) = 20\) se
rechazará \(H_0\) en favor de la
afirmación del productor, y si también nacen 19 niñas; pero ¿con cuál
número empiezan las dudas? ¿Desde cuál número se va a creer más en \(H_1\) que en \(H_0\)?
Para poder dar respuestas adecuadas a las preguntas formuladas en el
paso 3 del ejemplo y a problemas semejantes, se necesitan formalizar los
procedimientos de una prueba de hipótesis, que será un
análisis estadístico que completará los resultados obtenidos por la
estimación puntual.
A menor p-valor, mayor tranquilidad para rechazar la
hipótesis \(H_0\), porque la
probabilidad del error tipo I será más pequeña. Para un p-valor \(\alpha(T(y)) > 5\%\), “se acepta la
hipótesis \(H_0\)” en el sentido de que
“no se pudo encontrar una desviación algo significativa”; mejor sería
hablar de no rechazar \(H_0\), como se
verá más adelante.
Si \(W\) es un estadístico de prueba,
el valor-p o nivel de significación alcanzado es el
mínimo nivel de significación \(\alpha\), para el cual los datos observados
indican que se tendría que rechazar la hipótesis nula.
Como la estadística de prueba es
\[ T(Y) = \sum_{i=1}^{20} Y_i \sim B(20, \theta), \]
y como \(H_0: \theta = 0.5\), se hace uso de una tabla para \(B(20, 0.5)\) los posibles valores críticos \(c\) junto con las posibilidades del error tipo I:
\(c\) | 14 | 15 | 16 | 17 | 18 | … |
---|---|---|---|---|---|---|
\(P(T(Y) \geq c \mid 0.5)\) | 0.0577 | 0.0207 | 0.0059 | 0.0013 | 0.0002 | … |
Se rechaza \(H_0\) a nivel de 5% si
\[ T(y) \in \{15, 16, \dots, 20\}, \]
se rechaza \(H_0\) a nivel de 1% si
\[ T(y) \in \{16, \dots, 20\}, \]
se rechaza \(H_0\) a nivel de 0.1% si
\[ T(y) \in \{18, 19, 20\}. \]
En conclusión, si se observan \(t \in \{0,
\dots, 14\}\) nacimientos de niñas, entonces se acepta \(H_0: \theta = 0.5\), rechazando la
afirmación del productor; si se observan \(t =
15\), esto puede ser indicio para que el productor tenga
razón.
Si se observan \(t = 16\) o \(17\), esto se interpreta como una
desviación significativa de \(H_0\),
creyendo ya en la afirmación del productor; y finalmente, si se observan
por lo menos \(t = 18\), se acepta de
manera significativa la afirmación del productor.
\(H_0\) es falsa | \(H_0\) es verdadera | |
---|---|---|
Rechazar \(H_0\) | Decisión correcta | Error tipo I (prob. controlada) |
No rechazar \(H_0\) (“aceptar” \(H_0\)) | Error tipo II (prob. no controlada) | Decisión correcta |
Ahora se trata de escoger el valor crítico \(c\) tal que
\[ P(T(Y) \geq c \mid H_0) \leq \alpha \]
es válida y además, para cierto \(\beta_0 \in (0, 1)\) fijo,
\[ P(T(Y) < c \mid H_1) \leq \beta, \]
y tal que esta probabilidad sea lo más cercana a \(\beta\).
Aquí “\(T(Y) < c \mid H_1\)”
significa “aceptar \(H_0\) a pesar de
que \(H_1\) sea correcta”, una decisión
errónea del estadístico, a la cual se llama error tipo
II. Sería deseable fijar \(1 -
\beta\) “cerca” de 1, para asegurar que la probabilidad del error
tipo II esté “cerca” de 0. Típicamente, no es posible controlar las
probabilidades de ambos errores a la vez, si se fija el tamaño \(n\) de la muestra de antemano.
Una solución a este dilema es diseñar la prueba de tal manera que el
error tipo II no sea tan grave; es decir, se deben escoger \(H_0\) y \(H_1\) adecuadamente. Otra solución, a veces
posible, es aumentar \(n\) hasta que se
puedan cumplir, en este caso, como \(n\) es grande, se usan aproximaciones de la
distribución de la estadística de prueba, preferiblemente con una
distribución normal.
Sea \(Y \sim B(n, p)\). Entonces, vale aproximadamente:
\[ P(c \leq Y \leq d \mid p) \approx \Phi\left(\frac{d - np + 1/2}{\sqrt{np(1-p)}}\right) - \Phi\left(\frac{c - np - 1/2}{\sqrt{np(1-p)}}\right), \]
donde \(\Phi \sim N(0, 1)\). Nótese que una aproximación generalmente es suficientemente buena si \(np \geq 5\) y \(n(1-p) \geq 5\).
Buscaremos el tamaño \(n\) de la muestra y el valor \(c\), tales que cumplan
simultáneamente. Usando el teorema de aproximación, se puede escribir \(1 - \Phi(c_1) = 0.01\) con
\[ \frac{c - 0.5n - 0.5}{0.5\sqrt{n}} = c_1, \]
y \(\Phi(c_2) = 0.05\) con
\[ \frac{c - 0.7n - 0.5}{0.1\sqrt{21n}} = c_2. \]
De la tabla para \(\Phi\) se encuentran los valores \(c_1 = 2.325\), \(c_2 = -1.645\) y que se debe escoger \(n = 92\), \(c = 58\).
En conclusión, si \(t \in \{58, 59, \dots,
92\}\), entonces se rechaza la hipótesis \(H_0\), aceptando la afirmación del
productor y cometiendo un error de tipo I con una probabilidad de, a lo
más, 1%. Si \(t \in \{0, 1, \dots,
57\}\), entonces no se acepta la afirmación del productor, y se
comete un error tipo II con una probabilidad de, a lo más, 5%.
En el ejercicio original, si \(c =
15\), \(P(T(Y) < 15 \mid 0.7) =
\beta = 0.584\), este valor grande para el error tipo II indica
que las muestras de tamaño 20 no suelen detectar la diferencia de un 20%
en la proporción hipotética, y como ya vimos, este puede reducirse si se
aumenta el tamaño muestral.
La decisión de “aceptar” la hipótesis \(H_0\) es, por lo tanto, una decisión
dudosa, siempre y cuando no se conozca la probabilidad de una posible
decisión errónea. Es aconsejable decir que “no se puede rechazar \(H_0\)” o “los datos no contradicen \(H_0\)” o simplemente “La muestra no
presenta evidencia significativa para rechazar \(H_0\)”.
Este texto está listo para ser compilado en RMarkdown. Las
expresiones matemáticas están correctamente encerradas en $
para inline y $$
para ecuaciones centradas.
################################################################################
Supongamos que se quiere probar una hipótesis referente al parámetro \(\theta\), basado en una muestra aleatoria \(Y = (Y_1, Y_2, \dots, Y_n)\) y en el estimador \(\hat{\theta}\), que tiene (aproximadamente) una distribución normal con media \(\theta\) y varianza \(\sigma_{\hat{\theta}}^2\).
El parámetro de interés es:
\[ \theta \in \{\mu, p, \mu_1 - \mu_2, p_1 - p_2\} \]
El estimador del parámetro de interés es:
\[ \hat{\theta} \in \{\bar{Y}, \hat{p}, \bar{Y}_1 - \bar{Y}_2, \hat{p}_1 - \hat{p}_2\} \]
La desviación del estimador del parámetro de interés es:
\[ \sigma_{\hat{\theta}} \in \left\{ \frac{\sigma}{\sqrt{n}}, \sqrt{\frac{p_0 (1 - p_0)}{n}}, \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}, \sqrt{\frac{p_1 (1 - p_1)}{n} + \frac{p_2 (1 - p_2)}{n}} \right\} \]
Las hipótesis a probar son:
\[ \begin{cases} H_0: \theta = \theta_0 \\ H_1: \begin{cases} \theta > \theta_0 & \text{(alternativa de cola superior)} \\ \theta < \theta_0 & \text{(alternativa de cola inferior)} \\ \theta \neq \theta_0 & \text{(alternativa de dos colas)} \end{cases} \end{cases} \]
La prueba se realiza con nivel de significancia:
\[ \alpha \in \{0.05, 0.01, 0.1\} \]
De los datos muestrales se calcula el valor experimental:
\[ Z_p = \frac{\hat{\theta} - \theta_0}{\sigma_{\hat{\theta}}} \]
Se rechaza \(H_0\) en favor de \(H_1\) si ocurre que:
\[ \begin{cases} Z_p > z_\alpha & \text{(RR de cola superior)} \\ Z_p < -z_\alpha & \text{(RR de cola inferior)} \\ |Z_p| > z_{\alpha/2} & \text{(RR de dos colas)} \end{cases} \]
El valor p de la prueba se obtiene:
\[ \text{valor p} = \begin{cases} P(Z > Z_p) & \text{(RR de cola superior)} \\ P(Z < -Z_p) & \text{(RR de cola inferior)} \\ 2P(Z > |Z_p|) & \text{(RR de dos colas)} \end{cases} \]
La significancia de la prueba se establece de la siguiente forma:
El vicepresidente a cargo de las ventas de una gran corporación afirma que los vendedores tienen un promedio no mayor de 15 prospectos de ventas por semana. (Desearía aumentar esta cifra.) Se seleccionan al azar \(n = 36\) vendedores para verificar su afirmación, y se registra el número de contactos en una sola semana seleccionada en forma aleatoria. La muestra tiene una media de 17 prospectos y una varianza de 9. ¿Contradicen los hechos la afirmación del presidente? Utilice \(\alpha = 0.05\).
Nos interesa probar una hipótesis acerca del número promedio de ventas por semana \(\mu\). Específicamente, probamos \(H_0: \mu = 15\) frente a \(H_1: \mu > 15\).
Se sabe que la media muestral \(\bar{Y}\) es un estimador puntual de \(\mu\) que satisface los supuestos antes descritos. Por lo tanto, el estadístico de prueba es:
\[ Z = \frac{\bar{Y} - \mu_0}{\sigma_{\bar{Y}}} = \frac{\bar{Y} - \mu_0}{\sigma / \sqrt{n}} \]
La región de rechazo, con \(\alpha = 0.05\), está dada por \(z > 1.645\).
La varianza de la población, \(\sigma^2\), se desconoce, pero se puede estimar muy acertadamente (ya que \(n = 36\) es suficientemente grande) por la varianza muestral \(s^2 = 9\).
Por lo tanto, el valor observado del estadístico de la prueba es aproximadamente:
\[ z = \frac{\bar{y} - \mu_0}{s / \sqrt{n}} = \frac{17 - 15}{3 / \sqrt{36}} = 4 \]
Como el valor observado de \(Z\) cae en la región de rechazo (excede \(z_{0.05} = 1.645\)), rechazamos \(H_0: \mu = 15\). Por lo tanto, resulta que la afirmación del vicepresidente es incorrecta y que el número promedio de prospectos de venta por semana excede a 15.
Se tiene que reparar una máquina en cierta fábrica si produce más de 10% de artículos defectuosos del gran lote de producción de un día. Una muestra aleatoria de 100 artículos de la producción diaria contiene 15 defectuosos, y el capataz decide que debe repararse la máquina. ¿La evidencia de la muestra apoya su decisión? Utilice \(\alpha = 0.01\).
Si \(Y\) denota el número de artículos defectuosos observados, entonces \(Y\) es una variable aleatoria binomial, con \(p\) la probabilidad de que el artículo seleccionado al azar sea defectuoso. Por lo tanto, queremos probar la hipótesis nula \(H_0: p = 0.10\) frente a \(H_1: p > 0.10\).
El estadístico de prueba basado en \(\hat{p} = Y/n\), el estimador puntual insesgado de \(p\), está dado por:
\[ Z = \frac{\hat{p} - p_0}{\sigma_{\hat{p}}} = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0 (1 - p_0)}{n}}} \]
(Se hubiese podido usar \(\frac{\hat{p}(1 - \hat{p})}{n}\) para aproximar a \(\sigma_{\hat{p}}^2\), pero como consideramos la distribución \(Z\) conforme a \(H_0\), es más apropiado utilizar \(\frac{p_0 (1 - p_0)}{n}\), el valor real de \(\sigma_{\hat{p}}^2\) cuando \(H_0\) es verdadera).
La región de rechazo, con \(\alpha = 0.01\), está dada por \(z > 2.33\).
El valor observado del estadístico de la prueba es aproximadamente:
\[ z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0 (1 - p_0)}{n}}} = \frac{0.15 - 0.10}{\sqrt{\frac{(0.1)(0.9)}{100}}} = \frac{5}{3} \]
Ya que el valor observado de \(Z\) no está en la región de rechazo, se concluye que la evidencia no apoya la decisión del capataz. ¿Está equivocado el capataz? No llegaremos a esta conclusión hasta después de haber calculado \(\beta\), la probabilidad de aceptar \(H_0\) siendo verdadera \(H_1\).
Se realizó un estudio psicológico para comparar los tiempos de reacción de hombres y de mujeres con respecto a cierto estímulo. Se utilizaron en el experimento muestras aleatorias independientes de 50 hombres y 50 mujeres. Los datos se presentan a continuación. ¿Presentan los datos suficiente evidencia para sugerir una diferencia entre los promedios verdaderos de los tiempos de reacción para hombres y mujeres? Utilice \(\alpha = 0.05\).
Hombres | Mujeres |
---|---|
\(n_1 = 50\) | \(n_2 = 50\) |
\(\bar{y}_1 = 3.6\) segundos | \(\bar{y}_2 = 3.8\) segundos |
\(s_1^2 = 0.18\) | \(s_2^2 = 0.14\) |
Sean \(\mu_1\) y \(\mu_2\) los promedios reales de los tiempos de reacción para hombres y para mujeres, respectivamente. Entonces, si se desea probar la hipótesis de que las medias son iguales, probaremos \(H_0: \mu_1 - \mu_2 = 0\) frente a \(H_1: \mu_1 - \mu_2 \neq 0\).
Nótese que aplicamos la hipótesis alternativa bilateral para detectar ya sea \(\mu_1 > \mu_2\) o bien \(\mu_1 < \mu_2\), en el caso de que \(H_0\) sea falsa.
El estimador puntual de \(\mu_1 - \mu_2\) es \((\bar{Y}_1 - \bar{Y}_2)\) y satisface los supuestos de la prueba para muestras grandes. Por lo tanto, si se desea probar \(H_0: \mu_1 - \mu_2 = D_0\) (con \(D_0\) fijo) contra cualquier alternativa, el estadístico de prueba está dado por:
\[ Z = \frac{(\bar{Y}_1 - \bar{Y}_2) - D_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \]
donde \(\sigma_1^2\) y \(\sigma_2^2\) son las varianzas poblacionales respectivas. En esta aplicación se requiere una prueba de dos colas.
Por lo tanto, para \(\alpha = 0.05\), se rechaza \(H_0\) si \(|z| > z_{\alpha/2} = z_{0.025} = 1.96\). Para muestras grandes (digamos, \(n > 30\)), las varianzas muestrales dan estimaciones adecuadas de las varianzas poblacionales correspondientes. Al sustituir estos valores junto con \(\bar{y}_1\), \(\bar{y}_2\), \(n_1\), \(n_2\) y \(D_0\) en la fórmula para el estadístico de prueba, se tiene:
\[ z = \frac{(\bar{y}_1 - \bar{y}_2) - 0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \approx \frac{(3.6 - 3.8) - 0}{\sqrt{\frac{0.18}{50} + \frac{0.14}{50}}} = -2.5 \]
Este valor es menor que \(-z_{\alpha/2} = -1.96\) y por esto cae en la región de rechazo. Por lo tanto, rechazamos la hipótesis de que no hay una diferencia en los promedios de los tiempos de reacción para hombres y mujeres.
Considere \(H_0: \mu = \mu_0\)
frente a \(H_1: \mu > \mu_0\)
(alternativa de cola superior).
Se trata de hallar \(n\) (tamaño de la
muestra) y \(c\) (el punto donde
empieza la región de rechazo) conociendo valores de \(\alpha_0\) y \(\beta_0\).
De donde se obtienen:
Al eliminar \(c\) de las dos ecuaciones, resulta:
\[ n = \left(\frac{z_{\alpha} + z_{\beta}}{\mu_1 - \mu_0}\right)^2 \sigma^2 \]
Supóngase que el vicepresidente del ejemplo anterior quiere detectar una diferencia igual a un prospecto en el número promedio de prospectos por semana. Es decir, le interesa probar \(H_0: \mu = 15\) frente a \(H_1: \mu = 16\). Calcule \(\beta\) para esta prueba.
En un ejemplo anterior teníamos \(n = 36\), \(\bar{y} = 17\) y \(s^2 = 9\). La región de rechazo estaba dada por (\(\alpha = 0.05\)):
\[ z = \frac{\bar{y} - \mu_0}{\sigma / \sqrt{n}} > 1.645 \]
que es equivalente a:
\[ \bar{y} - \mu_0 > 1.645 \left(\frac{\sigma}{\sqrt{n}}\right) \quad \text{o bien} \quad \bar{y} > \mu_0 + 1.645 \left(\frac{\sigma}{\sqrt{n}}\right) \]
Al sustituir \(\mu_0 = 15\) y \(n = 36\), y utilizar \(s\) para aproximar a \(\sigma\), encontramos como región de rechazo:
\[ \bar{y} > 15 + 1.645 \left(\frac{3}{\sqrt{36}}\right) \quad \text{o bien} \quad \bar{y} > 15.8225 \]
Entonces, por definición, \(\beta = P\{\bar{Y} \leq 15.8225 \mid \mu = 16\}\) es la región sombreada bajo la curva punteada a la izquierda de \(c = 15.8225\). Por lo tanto, para \(\mu_1 = 16\):
\[ \beta = P\left\{\frac{\bar{Y} - \mu_1}{\sigma / \sqrt{n}} \leq \frac{15.8225 - 16}{3 / \sqrt{36}}\right\} = P\{Z < -0.36\} = 0.3594 \]
El valor grande de \(\beta\) indica que las muestras de tamaño 36 no suelen detectar la diferencia de una unidad de la media hipotética. Podemos reducir el valor de \(\beta\) aumentando el tamaño de la muestra \(n\).
Ahora supóngase que el vicepresidente quiere probar \(H_0: \mu = 15\) frente a \(H_1: \mu = 16\) con \(\alpha = \beta = 0.05\). Hallar el tamaño de la muestra que garantice esta exactitud. Supóngase que \(\sigma^2 \approx 9\).
Ya que \(\alpha = \beta = 0.05\), en consecuencia \(z_{\alpha} = z_{\beta} = z_{0.05} = 1.645\). Entonces:
\[ n = \left(\frac{z_{\alpha} + z_{\beta}}{\mu_1 - \mu_0}\right)^2 \sigma^2 \approx \left(\frac{1.645 + 1.645}{16 - 15}\right)^2 \cdot 9 = 97.4 \]
Por lo tanto, se tendría que utilizar \(n = 98\) observaciones para garantizar \(\alpha = \beta = 0.05\).
Supongamos que se quiere probar una hipótesis referente al parámetro \(\theta\), basado en una muestra aleatoria \(Y = (Y_1, Y_2, \dots, Y_n)\) y en el estimador \(\hat{\theta}\), que tiene distribución normal con media \(\theta\) y varianza desconocida \(\sigma_{\hat{\theta}}^2\).
El parámetro de interés es:
\[ \theta \in \{\mu, \mu_1 - \mu_2\} \]
El estimador del parámetro de interés es:
\[ \hat{\theta} \in \{\bar{Y}, \bar{Y}_1 - \bar{Y}_2\} \]
La desviación del estimador del parámetro de interés es:
\[ \sigma_{\hat{\theta}} \in \left\{ \frac{s}{\sqrt{n}}, \sqrt{\frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} \left(\frac{1}{n_1} + \frac{1}{n_2}\right)}, \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} \right\} \]
Las hipótesis a probar son:
\[ \begin{cases} H_0: \theta = \theta_0 \\ H_1: \begin{cases} \theta > \theta_0 & \text{(alternativa de cola superior)} \\ \theta < \theta_0 & \text{(alternativa de cola inferior)} \\ \theta \neq \theta_0 & \text{(alternativa de dos colas)} \end{cases} \end{cases} \]
La prueba se realiza con nivel de significancia:
\[ \alpha \in \{0.05, 0.01, 0.1\} \]
De los datos muestrales se calcula el valor experimental:
\[ t_p = \frac{\hat{\theta} - \theta_0}{\sigma_{\hat{\theta}}} \]
con \(v\) grados de libertad.
Se rechaza \(H_0\) en favor de \(H_1\) si ocurre que:
\[ \begin{cases} t_p > t_{\alpha, v} & \text{(RR de cola superior)} \\ t_p < -t_{\alpha, v} & \text{(RR de cola inferior)} \\ |t_p| > t_{\alpha/2, v} & \text{(RR de dos colas)} \end{cases} \]
El valor p de la prueba se obtiene:
\[ \text{valor p} = \begin{cases} P(t_v > t_p) & \text{(RR de cola superior)} \\ P(t_v < -t_p) & \text{(RR de cola inferior)} \\ 2P(t_v > |t_p|) & \text{(RR de dos colas)} \end{cases} \]
La significancia de la prueba se establece de la siguiente forma:
El Instituto eléctrico Edison publica cifras del número anual de kilowatts-hora que gastan varios aparatos electrodomésticos. Se afirma que una aspiradora gasta en promedio 46 kilowatts-hora al año. Si una muestra aleatoria de 12 hogares que se incluye en un estudio planeado indica que las aspiradoras gastan un promedio de 42 kilowatts-hora al año con una desviación estándar de 11.9 kilowatts-hora, ¿en un nivel de significancia de 0.05 esto sugiere que las aspiradoras gastan, en promedio, menos de 46 kilowatts-hora anualmente? Suponga que la población de kilowatts-hora es normal.
Hipótesis: \(H_0: \mu = 46\) kilowatts-hora vs \(H_1: \mu < 46\) kilowatts-hora.
Significancia: \(\alpha = 0.05\).
Estadístico de prueba:
\[ t = \frac{\bar{Y} - \mu_0}{S / \sqrt{n}} \]
con 11 grados de libertad.
Región de rechazo: \(t < -t_{\alpha} = -1.796\).
Cálculos: \(\bar{y} = 42\), \(s = 11.9\), \(n = 12\). De aquí:
\[ t_p = \frac{42 - 46}{11.9 / \sqrt{12}} = -1.16 \]
y
\[ \text{p-valor} = P\{T \leq -1.16\} \approx 0.135 \]
Decisión: No rechace \(H_0\) y concluya que el número promedio de kilowatts-hora que gastan al año las aspiradoras domésticas no es significativamente menor que 46.
Se lleva a cabo un experimento para comparar el desgaste por abrasivos de dos diferentes materiales laminados. Se prueban 12 piezas del material 1 exponiendo cada pieza a una máquina para medir el desgaste. Diez piezas del material 2 se prueban de manera similar. En cada caso, se observa la profundidad del desgaste. Las muestras del material 1 dan un desgaste promedio (codificado) de 85 unidades con una desviación estándar muestral de 4; en tanto que las muestras del material 2 dan un promedio de 81 y una desviación estándar muestral de 5. ¿Podríamos concluir, con un nivel de significancia de 0.05, que el desgaste abrasivo del material 1 excede el del material 2 en más de dos unidades? Suponga que las poblaciones son aproximadamente normales con varianzas iguales.
Hipótesis: \(H_0: \mu_1 - \mu_2 = 2\) vs \(H_1: \mu_1 - \mu_2 > 2\).
Significancia: \(\alpha = 0.05\).
Estadístico de prueba:
\[ t = \frac{(\bar{Y}_1 - \bar{Y}_2) - D_0}{S \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \]
con 20 grados de libertad.
Región de rechazo: \(t > 1.725\).
Cálculos: \(\bar{y}_1 = 85\), \(s_1 = 4\), \(n_1 = 12\) y \(\bar{y}_2 = 81\), \(s_2 = 5\), \(n_2 = 10\). De aquí:
\[ S = \sqrt{\frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}} = \sqrt{\frac{(11)(16) + (9)(25)}{12 + 10 - 2}} = 4.478 \]
luego,
\[ t = \frac{(85 - 81) - 2}{4.478 \sqrt{\frac{1}{12} + \frac{1}{10}}} = 1.04 \]
y
\[ \text{p-valor} = P\{T > 1.04\} \approx 0.16 \]
Decisión: No rechace \(H_0\). No se puede concluir que el desgaste abrasivo del material 1 excede el del material 2 en más de dos unidades.
Supongamos que se quiere probar una hipótesis referente al parámetro \(\theta\), basado en una muestra aleatoria \(Y = (Y_1, Y_2, \dots, Y_n)\) y en el estimador \(\hat{\theta}\), que tiene distribución normal con media \(\theta\) y varianza desconocida \(\sigma_{\hat{\theta}}^2\).
El parámetro de interés es:
\[ \theta = \sigma^2 \]
El estimador del parámetro de interés es:
\[ \hat{\theta} = S^2 \]
La desviación del estimador del parámetro de interés es:
\[ \sigma_{\hat{\theta}} \in \{\} \]
Las hipótesis a probar son:
\[ \begin{cases} H_0: \sigma^2 = \sigma_0^2 \\ H_1: \begin{cases} \sigma^2 > \sigma_0^2 & \text{(alternativa de cola superior)} \\ \sigma^2 < \sigma_0^2 & \text{(alternativa de cola inferior)} \\ \sigma^2 \neq \sigma_0^2 & \text{(alternativa de dos colas)} \end{cases} \end{cases} \]
La prueba se realiza con nivel de significancia:
\[ \alpha \in \{0.05, 0.01, 0.1\} \]
De los datos muestrales se calcula el valor experimental:
\[ \chi^2 = \frac{(n - 1)S^2}{\sigma_0^2} \]
con \((n - 1)\) grados de libertad.
Se rechaza \(H_0\) en favor de \(H_1\) si ocurre que:
\[ \begin{cases} \chi^2 > \chi_{\alpha}^2 & \text{(RR de cola superior)} \\ \chi^2 < \chi_{1 - \alpha}^2 & \text{(RR de cola inferior)} \\ \chi^2 > \chi_{\alpha/2}^2 \text{ o } \chi^2 < \chi_{1 - \alpha/2}^2 & \text{(RR de dos colas)} \end{cases} \]
El valor p de la prueba se obtiene:
\[ \text{valor p} = \begin{cases} P(\chi^2 > \chi_p^2) & \text{(RR de cola superior)} \\ P(\chi^2 < \chi_p^2) & \text{(RR de cola inferior)} \\ 2P(\chi^2 > \chi_p^2) & \text{(RR de dos colas)} \end{cases} \]
La significancia de la prueba se establece de la siguiente forma:
Un fabricante de baterías para automóvil afirma que la duración de sus baterías se distribuye de forma aproximadamente normal con una desviación estándar igual a 0.9 años. Si una muestra aleatoria de 10 de tales baterías tiene una desviación estándar de 1.2 años, ¿considera que \(\sigma > 0.9\) años? Utilice \(\alpha = 0.05\).
Hipótesis:
Significancia: \(\alpha = 0.05\).
Estadístico de prueba: \[ \chi^2 = \frac{(n - 1)S^2}{\sigma_0^2} \] con \(n - 1 = 9\) grados de libertad.
Región de rechazo: \(\chi^2 > 16.919\).
Cálculos:
El valor p es: \[ \text{p-valor} = P\{\chi^2 > 16.0\} \approx 0.07 \]
Decisión:
\[ F = \frac{S_1^2}{S_2^2} \] con \((n_1 - 1)\) grados de libertad en el numerador y \((n_2 - 1)\) grados de libertad en el denominador.
Al probar la diferencia en el desgaste abrasivo de los dos materiales del ejemplo anterior, supusimos que eran iguales las dos varianzas poblacionales desconocidas. ¿Se justifica tal suposición? Utilice un nivel de significancia de 0.10.
Hipótesis:
Significancia: \(\alpha = 0.10\).
Estadístico de prueba: \[ F = \frac{S_1^2}{S_2^2} \] con 11 grados de libertad en el numerador y 9 grados de libertad en el denominador.
Región de rechazo:
Cálculos:
Decisión:
Ejercicio: Se sabe que el 35% de los miembros de una población sufren de una o más enfermedades crónicas. ¿Cuál es la probabilidad de que, en una muestra aleatoria de 200 individuos, 80 o más tengan al menos una enfermedad crónica?
Ejercicio: Una compañía fabrica clips y los vende en cajas con etiquetas que dicen “Aprox. 100”. Hemos contado los clips en las cajas y encontramos que el número de clips varía entre 93 o 94 y más de 100. Suponga que el número de clips en las cajas producidas por esta fábrica tiene media 100 y desviación estándar de 8. Suponga que se empaca en cartones de 64 cajas y tomamos un cartón como una muestra. Use la distribución muestral de la media muestral para calcular la probabilidad aproximada de que el número de clips por caja esté entre 98 y 100.
Ejercicio: Si se seleccionan todas las muestras posibles de 64 elementos, a partir de una población cuya media es 100 y cuya desviación estándar es 20, ¿entre qué límites cabe esperar que esté el 80% del centro de las medias muestrales?
Ejercicio: Se ha elegido una muestra de 100 baterías de una línea de producción que fabrica baterías con una vida media de 40 meses y una desviación estándar de 10 meses. Si se toma una muestra diferente de 400 baterías a partir de la misma población, ¿será mayor, igual o menor el error estándar de la media? Calcule el nuevo error estándar de la media.
Ejercicio: Se hace un estudio para averiguar el número de horas al día mirando televisión de niños entre 5 y 8 años en una ciudad (Y). Asuma que Y es una variable aleatoria discreta, con la siguiente distribución de probabilidades:
Y: número de horas | 0 | 1 | 2 | 3 | 4 |
---|---|---|---|---|---|
Proporción de niños | 0.05 | 0.20 | 0.25 | 0.30 | 0.20 |
Ejercicio: Las estaturas de 1000 estudiantes están distribuidas aproximadamente de forma normal con una media de 174.5 centímetros y una desviación estándar de 6.9 centímetros. Si se extraen 200 muestras aleatorias de tamaño 25 de esta población, determine:
Ejercicio: La compañía de baterías Timeless afirma que sus baterías tienen una vida media de 60 meses y una desviación estándar de 9 meses. Un grupo de consumidores que está poniendo a prueba esta afirmación compra 36 baterías y determina la vida media.
Ejercicio: Suponga que el 54% de los estudiantes de Psicología de la UTB son mujeres. Se toma una muestra aleatoria simple de 20 estudiantes.
Problema: Suponga que el 65% de los estudiantes de la UTB tiene correo electrónico.
Ejercicio: El peso medio de los estudiantes secundarios sigue una distribución normal. Se toma una muestra aleatoria de 100 estudiantes y se obtiene una media de 65 kg con una desviación estándar de 9 kg. Encuentre los límites para intervalos de confianza al 95% y 99% para:
Ejercicio: En el problema anterior, ¿qué sucede si el tamaño de la muestra fuera sólo de 20?
Ejercicio: Suponga que a partir de una muestra de tamaño 25 se ha podido establecer un intervalo de confianza para la media poblacional que va desde 68 a 72 unidades de medida, para un \(\alpha = 0.01\). Encuentre un intervalo al 95% de confianza para la media poblacional. Asuma que la varianza poblacional es desconocida.
Ejercicio: En víspera de elecciones presidenciales se toma una muestra aleatoria de 1000 electores, de los cuales 628 dicen estar indecisos todavía. Se pide entonces un intervalo al 98% de confianza de la proporción de personas que no saben aún por quién votar.
Ejercicio: Los pesos de 10 personas menores de 15 años fueron: 51; 48.5; 50.5; 51.5; 50.5; 49; 49.5; 52; 51.5 y 49 kilos. Encuentre un intervalo de confianza para el peso medio de todas las personas menores de 15 años al 99% de confianza.
Ejercicio: Se debe estimar el grosor de las láminas de vidrio producidas en cierta fábrica. Se toma una muestra aleatoria de tamaño 100 y se encuentra un grosor promedio de 20 mm. Suponiendo que se conoce la varianza poblacional y es igual a 1.44 mm², se pide encontrar un intervalo de confianza del 95% de confianza para el espesor promedio de las láminas de vidrio.
Ejercicio: Un gran exportador de manzanas debe estimar el peso promedio por caja que envía al mercado europeo. Para ello extrae una muestra aleatoria de su último embarque consistente en 150 cajas. La media de los pesos para esta muestra fue de 22 kg, mientras que la desviación estándar fue de 3 kg. Se pide:
Ejercicio: Los resultados obtenidos en un examen de estadística (de un máximo de 100 ptos.) se presentan a continuación:
Ejercicio: Se ha medido el contenido de nicotina de 36 cigarrillos de una determinada marca. Los resultados obtenidos son \(\sum_{i=1}^{36} y_i = 756\) mg y \(\sum_{i=1}^{36} (y_i - \bar{y})^2 = 315\) mg². Obtenga un intervalo de confianza al 95% para estimar el contenido promedio de nicotina de los cigarrillos de esta marca.
Ejercicio: Una empresa dedicada a los estudios de opinión pública desea medir cuánto leen los habitantes del país. Se realiza el muestreo en 2 ciudades distintas arrojando los siguientes resultados en libros mensuales:
Ciudad | \(n\) | \(\bar{y}\) | \(s\) |
---|---|---|---|
1 | 25 | 2.3 | 4 |
2 | 25 | 1.8 | 3.5 |
Construya un intervalo de confianza para la diferencia de promedios al 95% de confianza. ¿Pueden ser los promedios iguales? Fundamente su respuesta.
Ejercicio: Sea \(Y\) una variable aleatoria con distribución normal con media \(\mu\) y varianza 2.0. Se toma una muestra de 10 individuos, obteniéndose los siguientes resultados: 5.3, 6.5, 2.1, 4.3, 3.9, 7.8, 9.0, 1.2, 5.0, 8.1.
Ejercicio: En el trabajo de un laboratorio es deseable verificar cuidadosamente la variabilidad de las lecturas obtenidas en una muestra estándar. En un estudio de concentración de calcio en agua potable como parte de la valoración de la calidad del agua, se pasó el mismo patrón de medidas seis veces por el laboratorio. Las lecturas, en partes por millón, fueron: 9.54, 9.61, 9.32, 9.48, 9.70, 9.26. Estime la varianza de la población para las lecturas obtenidas del patrón. Use un intervalo del 90% de confianza.
Ejercicio: Un químico ha preparado un producto diseñado para eliminar el 60% de un tipo particular de insecto. ¿Cuál debe ser el tamaño de la muestra, si se quiere tener una confiabilidad del 95% de que el error de estimación de la verdadera proporción de insectos eliminados no sea mayor a 0.02?
Ejercicio: ¿Cuál es el tamaño necesario para que una muestra sacada al azar de semillas pueda afirmar, con una probabilidad de 95% de confianza, que la proporción de germinación muestral se desvía de la tasa de germinación poblacional en 0.03?
Ejercicio: La experiencia muestra que la desviación estándar del ingreso anual de trabajadores del área textil en cierta provincia es de $200,000. ¿Cuántos trabajadores de la rama tendrían que ser seleccionados si se quiere estimar el ingreso medio con un error máximo de $2,500, con una probabilidad del 95%?
Ejercicio: Supongamos que \(Y_1, Y_2, Y_3\) forman una muestra aleatoria de una distribución exponencial con la función densidad:
\[ f_Y(y) = \frac{1}{\theta} e^{-y/\theta}, \quad y > 0 \]
Considere los siguientes cinco estimadores para \(\theta\):
Este texto está listo para ser compilado en RMarkdown. Las
expresiones matemáticas están correctamente encerradas en $
para inline y $$
para ecuaciones centradas.
##################################################################################