Introducción a la Distribución de la Varianza

La varianza es una medida de dispersión que indica cuánto varían los valores de una muestra o población respecto a la media. Cuando calculamos la varianza muestral a partir de diferentes muestras de una población, estas varianzas muestrales siguen una distribución conocida, que nos permite hacer inferencias sobre la varianza poblacional.

Distribución Chi-Cuadrado

La distribución de la varianza muestral está relacionada con la distribución Chi-cuadrado \(\left(\chi^2\right)\) cuando la población original es normal. Específicamente, si \(X_1,X_2,\ldots,X_n\) son nn observaciones de una población normal con varianza \(\sigma^2\), entonces la varianza muestral multiplicada por \((n-1)/{\sigma^2}\) sigue una distribución \(\chi^2\) con \(n−1\) grados de libertad.

\[ (n-1)\frac{S^2}{\sigma^2}{\sim}\chi^2_{n-1} \]

Propiedades de la Distribución Chi-Cuadrado

  1. Asimetría:
  • La distribución Chi-cuadrado es asimétrica hacia la derecha, pero se aproxima a una normalidad con un gran número de grados de libertad.
  1. Media:
  • La media de una distribución Chi-cuadrado con kk grados de libertad es kk.
  1. Varianza:
  • La varianza de una distribución Chi-cuadrado con kk grados de libertad es 2k2k.

Ejemplos

Ejemplo 1: Simulación de Varianzas Muestrales

Vamos a simular varianzas muestrales de una población normal y comparar la distribución de estas varianzas con la distribución Chi-cuadrado teórica.

set.seed(123)

# Función para calcular la varianza muestral
calcular_varianza_muestral <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, var(rnorm(n, mean = 0, sd = 1)))
}

# Simulaciones con diferentes tamaños de muestra
varianzas_n10 <- calcular_varianza_muestral(10)
varianzas_n30 <- calcular_varianza_muestral(30)
varianzas_n100 <- calcular_varianza_muestral(100)

# Crear data frames para graficar
df_varianzas_n10 <- data.frame(Varianza = varianzas_n10, Tamaño = "n = 10")
df_varianzas_n30 <- data.frame(Varianza = varianzas_n30, Tamaño = "n = 30")
df_varianzas_n100 <- data.frame(Varianza = varianzas_n100, Tamaño = "n = 100")

# Combinar los data frames
df_varianzas <- bind_rows(df_varianzas_n10, df_varianzas_n30, df_varianzas_n100)

# Graficar
ggplot(df_varianzas, aes(x = Varianza, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Varianzas Muestrales",
       x = "Varianza Muestral", y = "Frecuencia") +
  theme_minimal()

Ejemplo 2: Comparación con Chi-Cuadrado

Veamos cómo se comporta la varianza muestral ajustada con la distribución Chi-cuadrado.

set.seed(123)

# Grados de libertad
df <- 9

# Ajuste Chi-cuadrado
chi_values <- rchisq(1000, df)

# Graficar comparación
ggplot() +
  geom_density(aes(x = (df * varianzas_n10) / 1, color = "Varianza Muestral (n=10)"), size = 1) +
  geom_density(aes(x = chi_values, color = "Chi-cuadrado"), size = 1, linetype = "dashed") +
  labs(title = "Comparación de Varianzas Muestrales y Chi-cuadrado",
       x = "Valor", y = "Densidad") +
  scale_color_manual(name = "Distribución",
                     values = c("Varianza Muestral (n=10)" = "blue", "Chi-cuadrado" = "red")) +
  theme_minimal()

Ejercicio Resuelto

Aplicaremos el concepto de distribución de la varianza muestral utilizando una población normal diferente.

Ejercicio: Población Normal con Desviación Estándar Diferente

Supongamos una población normal con \(\sigma=2\). Calcularemos la distribución de la varianza muestral para diferentes tamaños de muestra.

set.seed(123)

# Función para calcular la varianza muestral
calcular_varianza_muestral_diferente <- function(n, num_simulaciones = 1000) {
  replicate(num_simulaciones, var(rnorm(n, mean = 0, sd = 2)))
}

# Simulaciones con diferentes tamaños de muestra
varianzas_dif_n10 <- calcular_varianza_muestral_diferente(10)
varianzas_dif_n30 <- calcular_varianza_muestral_diferente(30)
varianzas_dif_n100 <- calcular_varianza_muestral_diferente(100)

# Crear data frames para graficar
df_varianzas_dif_n10 <- data.frame(Varianza = varianzas_dif_n10, Tamaño = "n = 10")
df_varianzas_dif_n30 <- data.frame(Varianza = varianzas_dif_n30, Tamaño = "n = 30")
df_varianzas_dif_n100 <- data.frame(Varianza = varianzas_dif_n100, Tamaño = "n = 100")

# Combinar los data frames
df_varianzas_diferente <- bind_rows(df_varianzas_dif_n10, df_varianzas_dif_n30, df_varianzas_dif_n100)

# Graficar
ggplot(df_varianzas_diferente, aes(x = Varianza, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Varianzas Muestrales",
       x = "Varianza Muestral", y = "Frecuencia") +
  theme_minimal()

Conclusiones

La distribución de la varianza muestral es crucial para inferencias sobre la variabilidad de una población. La relación con la distribución Chi-cuadrado permite realizar pruebas de hipótesis y construir intervalos de confianza para la varianza poblacional. A través de los ejemplos, observamos cómo las varianzas muestrales se distribuyen en comparación con la teoría de Chi-cuadrado, mostrando la validez de las inferencias estadísticas basadas en varianzas muestrales.