La varianza es una medida de dispersión que indica cuánto varían los valores de una muestra o población respecto a la media. Cuando calculamos la varianza muestral a partir de diferentes muestras de una población, estas varianzas muestrales siguen una distribución conocida, que nos permite hacer inferencias sobre la varianza poblacional.
La distribución de la varianza muestral está relacionada con la distribución Chi-cuadrado \(\left(\chi^2\right)\) cuando la población original es normal. Específicamente, si \(X_1,X_2,\ldots,X_n\) son nn observaciones de una población normal con varianza \(\sigma^2\), entonces la varianza muestral multiplicada por \((n-1)/{\sigma^2}\) sigue una distribución \(\chi^2\) con \(n−1\) grados de libertad.
\[ (n-1)\frac{S^2}{\sigma^2}{\sim}\chi^2_{n-1} \]
Vamos a simular varianzas muestrales de una población normal y comparar la distribución de estas varianzas con la distribución Chi-cuadrado teórica.
set.seed(123)
# Función para calcular la varianza muestral
calcular_varianza_muestral <- function(n, num_simulaciones = 1000) {
replicate(num_simulaciones, var(rnorm(n, mean = 0, sd = 1)))
}
# Simulaciones con diferentes tamaños de muestra
varianzas_n10 <- calcular_varianza_muestral(10)
varianzas_n30 <- calcular_varianza_muestral(30)
varianzas_n100 <- calcular_varianza_muestral(100)
# Crear data frames para graficar
df_varianzas_n10 <- data.frame(Varianza = varianzas_n10, Tamaño = "n = 10")
df_varianzas_n30 <- data.frame(Varianza = varianzas_n30, Tamaño = "n = 30")
df_varianzas_n100 <- data.frame(Varianza = varianzas_n100, Tamaño = "n = 100")
# Combinar los data frames
df_varianzas <- bind_rows(df_varianzas_n10, df_varianzas_n30, df_varianzas_n100)
# Graficar
ggplot(df_varianzas, aes(x = Varianza, fill = Tamaño)) +
geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
facet_wrap(~ Tamaño, scales = "free_y") +
labs(title = "Distribución de Varianzas Muestrales",
x = "Varianza Muestral", y = "Frecuencia") +
theme_minimal()
Veamos cómo se comporta la varianza muestral ajustada con la distribución Chi-cuadrado.
set.seed(123)
# Grados de libertad
df <- 9
# Ajuste Chi-cuadrado
chi_values <- rchisq(1000, df)
# Graficar comparación
ggplot() +
geom_density(aes(x = (df * varianzas_n10) / 1, color = "Varianza Muestral (n=10)"), size = 1) +
geom_density(aes(x = chi_values, color = "Chi-cuadrado"), size = 1, linetype = "dashed") +
labs(title = "Comparación de Varianzas Muestrales y Chi-cuadrado",
x = "Valor", y = "Densidad") +
scale_color_manual(name = "Distribución",
values = c("Varianza Muestral (n=10)" = "blue", "Chi-cuadrado" = "red")) +
theme_minimal()
Aplicaremos el concepto de distribución de la varianza muestral utilizando una población normal diferente.
Supongamos una población normal con \(\sigma=2\). Calcularemos la distribución de la varianza muestral para diferentes tamaños de muestra.
set.seed(123)
# Función para calcular la varianza muestral
calcular_varianza_muestral_diferente <- function(n, num_simulaciones = 1000) {
replicate(num_simulaciones, var(rnorm(n, mean = 0, sd = 2)))
}
# Simulaciones con diferentes tamaños de muestra
varianzas_dif_n10 <- calcular_varianza_muestral_diferente(10)
varianzas_dif_n30 <- calcular_varianza_muestral_diferente(30)
varianzas_dif_n100 <- calcular_varianza_muestral_diferente(100)
# Crear data frames para graficar
df_varianzas_dif_n10 <- data.frame(Varianza = varianzas_dif_n10, Tamaño = "n = 10")
df_varianzas_dif_n30 <- data.frame(Varianza = varianzas_dif_n30, Tamaño = "n = 30")
df_varianzas_dif_n100 <- data.frame(Varianza = varianzas_dif_n100, Tamaño = "n = 100")
# Combinar los data frames
df_varianzas_diferente <- bind_rows(df_varianzas_dif_n10, df_varianzas_dif_n30, df_varianzas_dif_n100)
# Graficar
ggplot(df_varianzas_diferente, aes(x = Varianza, fill = Tamaño)) +
geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
facet_wrap(~ Tamaño, scales = "free_y") +
labs(title = "Distribución de Varianzas Muestrales",
x = "Varianza Muestral", y = "Frecuencia") +
theme_minimal()
La distribución de la varianza muestral es crucial para inferencias sobre la variabilidad de una población. La relación con la distribución Chi-cuadrado permite realizar pruebas de hipótesis y construir intervalos de confianza para la varianza poblacional. A través de los ejemplos, observamos cómo las varianzas muestrales se distribuyen en comparación con la teoría de Chi-cuadrado, mostrando la validez de las inferencias estadísticas basadas en varianzas muestrales.