Introducción a las Propiedades de los Estimadores

En estadística, los estimadores son funciones de datos muestrales que se utilizan para estimar parámetros de una población. Los estimadores tienen ciertas propiedades que determinan su calidad y utilidad en la inferencia estadística. Las tres propiedades principales son insesgamiento, eficiencia y consistencia.

Insesgamiento

Un estimador se considera insesgado si su valor esperado es igual al parámetro verdadero que intenta estimar. Matemáticamente, un estimador \(\widehat{\theta}\) de un parámetro \(\theta\) es insesgado si:

Ejemplo de Insesgamiento

Consideremos una muestra aleatoria de tamaño nn de una población con media \(\mu\). La media muestral \(\overline{X}\) es un estimador insesgado de la media poblacional \(\mu\).

set.seed(123)

# Generar una población con media 50
poblacion <- rnorm(10000, mean = 50, sd = 10)

# Calcular la media muestral de diferentes muestras
medias_muestrales <- replicate(1000, mean(sample(poblacion, size = 100, replace = TRUE)))

# Crear un data frame para graficar
df_medias_muestrales <- data.frame(Media = medias_muestrales)

# Graficar
ggplot(df_medias_muestrales, aes(x = Media)) +
  geom_histogram(bins = 30, fill = "lightblue", alpha = 0.7) +
  geom_vline(aes(xintercept = mean(poblacion)), color = "red", linetype = "dashed", size = 1) +
  labs(title = "Distribución de Medias Muestrales",
       x = "Media Muestral", y = "Frecuencia") +
  theme_minimal() +
  annotate("text", x = mean(poblacion), y = 80, label = "Media Poblacional", color = "red", hjust = -0.2)

# Mostrar resultados
cat("Media poblacional verdadera:", mean(poblacion), "\n")
## Media poblacional verdadera: 49.97628
cat("Media del estimador:", mean(medias_muestrales), "\n")
## Media del estimador: 50.0018

Eficiencia

La eficiencia de un estimador se refiere a su varianza. Un estimador eficiente tiene la menor varianza posible entre todos los estimadores insesgados. La varianza de un estimador mide la precisión de las estimaciones, y un estimador eficiente es el más preciso posible.

Ejemplo de Eficiencia

Consideremos dos estimadores de la media poblacional: la media muestral \(\overline{X}\) y la mediana muestral. Compararemos sus varianzas para ilustrar la eficiencia.

set.seed(123)

# Calcular la varianza de la media muestral y la mediana muestral
varianza_media <- var(replicate(1000, mean(sample(poblacion, size = 100, replace = TRUE))))
varianza_mediana <- var(replicate(1000, median(sample(poblacion, size = 100, replace = TRUE))))

# Crear un data frame para graficar
df_varianzas <- data.frame(
  Estimador = c("Media", "Mediana"),
  Varianza = c(varianza_media, varianza_mediana)
)

# Graficar
ggplot(df_varianzas, aes(x = Estimador, y = Varianza, fill = Estimador)) +
  geom_bar(stat = "identity", width = 0.5) +
  labs(title = "Varianza de los Estimadores",
       x = "Estimador", y = "Varianza") +
  theme_minimal()

# Mostrar resultados
cat("Varianza de la media muestral:", varianza_media, "\n")
## Varianza de la media muestral: 0.9839312
cat("Varianza de la mediana muestral:", varianza_mediana, "\n")
## Varianza de la mediana muestral: 1.518266

Consistencia

Un estimador es consistente si converge al valor del parámetro verdadero a medida que el tamaño de la muestra aumenta. En términos más formales, un estimador \(\widehat{\theta}\) es consistente para \(\theta\) si:

\[ \lim_{n{\rightarrow}\infty}P\left(|\widehat{\theta}_n-\theta|<\epsilon\right)=1 \]

para cualquier \(\epsilon>0\).

Ejemplo de Consistencia

Verificaremos la consistencia de la media muestral como estimador de la media poblacional al aumentar el tamaño de la muestra.

set.seed(123)

# Función para calcular la media muestral
calcular_media_muestral <- function(poblacion, n, num_simulaciones = 1000) {
  replicate(num_simulaciones, mean(sample(poblacion, size = n, replace = TRUE)))
}

# Medias muestrales para diferentes tamaños de muestra
medias_n10 <- calcular_media_muestral(poblacion, 10)
medias_n50 <- calcular_media_muestral(poblacion, 50)
medias_n200 <- calcular_media_muestral(poblacion, 200)

# Crear data frames para graficar
df_n10 <- data.frame(Media = medias_n10, Tamaño = "n = 10")
df_n50 <- data.frame(Media = medias_n50, Tamaño = "n = 50")
df_n200 <- data.frame(Media = medias_n200, Tamaño = "n = 200")

# Combinar los data frames
df_consistencia <- bind_rows(df_n10, df_n50, df_n200)

# Graficar
ggplot(df_consistencia, aes(x = Media, fill = Tamaño)) +
  geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
  facet_wrap(~ Tamaño, scales = "free_y") +
  labs(title = "Distribución de Medias Muestrales",
       x = "Media Muestral", y = "Frecuencia") +
  theme_minimal()

Ejercicio Resuelto

Demostraremos las propiedades de insesgamiento y consistencia usando una muestra simulada.

Ejercicio: Insesgamiento y Consistencia

Verificaremos las propiedades de insesgamiento y consistencia para un estimador alternativo de la media poblacional.

set.seed(123)

# Generar una población diferente con media 30
poblacion_alt <- rnorm(10000, mean = 30, sd = 5)

# Calcular la media muestral de diferentes muestras
medias_muestrales_alt <- replicate(1000, mean(sample(poblacion_alt, size = 100, replace = TRUE)))

# Promedio de las medias muestrales
media_estimador_alt <- mean(medias_muestrales_alt)

# Verificar insesgamiento
cat("Media poblacional verdadera:", mean(poblacion_alt), "\n")
## Media poblacional verdadera: 29.98814
cat("Media del estimador (insesgamiento):", media_estimador_alt, "\n")
## Media del estimador (insesgamiento): 30.0009
# Graficar la insesgamiento
df_medias_muestrales_alt <- data.frame(Media = medias_muestrales_alt)

ggplot(df_medias_muestrales_alt, aes(x = Media)) +
  geom_histogram(bins = 30, fill = "lightgreen", alpha = 0.7) +
  geom_vline(aes(xintercept = mean(poblacion_alt)), color = "red", linetype = "dashed", size = 1) +
  labs(title = "Distribución de Medias Muestrales (Población Alternativa)",
       x = "Media Muestral", y = "Frecuencia") +
  theme_minimal() +
  annotate("text", x = mean(poblacion_alt), y = 80, label = "Media Poblacional", color = "red", hjust = -0.2)

# Verificar consistencia
medias_consistencia_alt <- calcular_media_muestral(poblacion_alt, 200)
varianza_consistencia_alt <- var(medias_consistencia_alt)

cat("Varianza para n = 200 (consistencia):", varianza_consistencia_alt, "\n")
## Varianza para n = 200 (consistencia): 0.1284878
# Crear un gráfico para mostrar la consistencia con el concepto de límite
df_consistencia_alt <- data.frame(Media = medias_consistencia_alt - mean(poblacion_alt))

# Definir la anotación del límite
limite_label <- expression(lim[n %->% infinity]*P(abs(bar(X) - mu) < epsilon) == 1)

# Parámetros para \epsilon
epsilon <- 0.5
delta <- seq(-epsilon, epsilon, length.out = 100)

ggplot(df_consistencia_alt, aes(x = Media)) +
  geom_histogram(bins = 30, fill = "orange", alpha = 0.7, boundary = 0) +
  geom_vline(aes(xintercept = 0), color = "red", linetype = "dashed", size = 1) +
  geom_vline(aes(xintercept = epsilon), color = "blue", linetype = "dotted", size = 1) +
  geom_vline(aes(xintercept = -epsilon), color = "blue", linetype = "dotted", size = 1) +
  labs(title = "Consistencia de la Media Muestral",
       x = expression(bar(X) - mu), y = "Frecuencia") +
  theme_minimal() +
  annotate("text", x = 0, y = max(table(cut(df_consistencia_alt$Media, breaks = 30))) * 0.8, 
           label = "Media Poblacional", color = "red", hjust = -0.2, size = 4) +
  annotate("text", x = 0, y = max(table(cut(df_consistencia_alt$Media, breaks = 30))) * 0.9, 
           label = limite_label, parse = TRUE, hjust = 0.5, size = 4, vjust = -0.5) +
  annotate("text", x = epsilon, y = max(table(cut(df_consistencia_alt$Media, breaks = 30))) * 0.6, 
           label = expression(epsilon), color = "blue", hjust = -0.1, size = 4) +
  annotate("text", x = -epsilon, y = max(table(cut(df_consistencia_alt$Media, breaks = 30))) * 0.6, 
           label = expression(-epsilon), color = "blue", hjust = 1.1, size = 4) +
  annotate("segment", x = -epsilon, xend = epsilon, y = 0, yend = 0, 
           arrow = arrow(type = "closed", ends = "both", length = unit(0.2, "cm")), color = "blue") +
  scale_x_continuous(limits = c(-2, 2))

Conclusiones

Las propiedades de los estimadores son esenciales para evaluar su calidad y utilidad. Un estimador insesgado proporciona un valor esperado correcto, un estimador eficiente tiene una varianza mínima, y un estimador consistente se acerca al verdadero parámetro con un tamaño de muestra creciente. Estas propiedades son fundamentales en la selección de estimadores para análisis estadísticos precisos y confiables.