En estadística, los estimadores son funciones de datos muestrales que se utilizan para estimar parámetros de una población. Los estimadores tienen ciertas propiedades que determinan su calidad y utilidad en la inferencia estadística. Las tres propiedades principales son insesgamiento, eficiencia y consistencia.
Un estimador se considera insesgado si su valor esperado es igual al parámetro verdadero que intenta estimar. Matemáticamente, un estimador \(\widehat{\theta}\) de un parámetro \(\theta\) es insesgado si:
Consideremos una muestra aleatoria de tamaño nn de una población con media \(\mu\). La media muestral \(\overline{X}\) es un estimador insesgado de la media poblacional \(\mu\).
set.seed(123)
# Generar una población con media 50
poblacion <- rnorm(10000, mean = 50, sd = 10)
# Calcular la media muestral de diferentes muestras
medias_muestrales <- replicate(1000, mean(sample(poblacion, size = 100, replace = TRUE)))
# Crear un data frame para graficar
df_medias_muestrales <- data.frame(Media = medias_muestrales)
# Graficar
ggplot(df_medias_muestrales, aes(x = Media)) +
geom_histogram(bins = 30, fill = "lightblue", alpha = 0.7) +
geom_vline(aes(xintercept = mean(poblacion)), color = "red", linetype = "dashed", size = 1) +
labs(title = "Distribución de Medias Muestrales",
x = "Media Muestral", y = "Frecuencia") +
theme_minimal() +
annotate("text", x = mean(poblacion), y = 80, label = "Media Poblacional", color = "red", hjust = -0.2)
# Mostrar resultados
cat("Media poblacional verdadera:", mean(poblacion), "\n")
## Media poblacional verdadera: 49.97628
cat("Media del estimador:", mean(medias_muestrales), "\n")
## Media del estimador: 50.0018
La eficiencia de un estimador se refiere a su varianza. Un estimador eficiente tiene la menor varianza posible entre todos los estimadores insesgados. La varianza de un estimador mide la precisión de las estimaciones, y un estimador eficiente es el más preciso posible.
Consideremos dos estimadores de la media poblacional: la media muestral \(\overline{X}\) y la mediana muestral. Compararemos sus varianzas para ilustrar la eficiencia.
set.seed(123)
# Calcular la varianza de la media muestral y la mediana muestral
varianza_media <- var(replicate(1000, mean(sample(poblacion, size = 100, replace = TRUE))))
varianza_mediana <- var(replicate(1000, median(sample(poblacion, size = 100, replace = TRUE))))
# Crear un data frame para graficar
df_varianzas <- data.frame(
Estimador = c("Media", "Mediana"),
Varianza = c(varianza_media, varianza_mediana)
)
# Graficar
ggplot(df_varianzas, aes(x = Estimador, y = Varianza, fill = Estimador)) +
geom_bar(stat = "identity", width = 0.5) +
labs(title = "Varianza de los Estimadores",
x = "Estimador", y = "Varianza") +
theme_minimal()
# Mostrar resultados
cat("Varianza de la media muestral:", varianza_media, "\n")
## Varianza de la media muestral: 0.9839312
cat("Varianza de la mediana muestral:", varianza_mediana, "\n")
## Varianza de la mediana muestral: 1.518266
Un estimador es consistente si converge al valor del parámetro verdadero a medida que el tamaño de la muestra aumenta. En términos más formales, un estimador \(\widehat{\theta}\) es consistente para \(\theta\) si:
\[ \lim_{n{\rightarrow}\infty}P\left(|\widehat{\theta}_n-\theta|<\epsilon\right)=1 \]
para cualquier \(\epsilon>0\).
Verificaremos la consistencia de la media muestral como estimador de la media poblacional al aumentar el tamaño de la muestra.
set.seed(123)
# Función para calcular la media muestral
calcular_media_muestral <- function(poblacion, n, num_simulaciones = 1000) {
replicate(num_simulaciones, mean(sample(poblacion, size = n, replace = TRUE)))
}
# Medias muestrales para diferentes tamaños de muestra
medias_n10 <- calcular_media_muestral(poblacion, 10)
medias_n50 <- calcular_media_muestral(poblacion, 50)
medias_n200 <- calcular_media_muestral(poblacion, 200)
# Crear data frames para graficar
df_n10 <- data.frame(Media = medias_n10, Tamaño = "n = 10")
df_n50 <- data.frame(Media = medias_n50, Tamaño = "n = 50")
df_n200 <- data.frame(Media = medias_n200, Tamaño = "n = 200")
# Combinar los data frames
df_consistencia <- bind_rows(df_n10, df_n50, df_n200)
# Graficar
ggplot(df_consistencia, aes(x = Media, fill = Tamaño)) +
geom_histogram(bins = 30, alpha = 0.7, position = "identity") +
facet_wrap(~ Tamaño, scales = "free_y") +
labs(title = "Distribución de Medias Muestrales",
x = "Media Muestral", y = "Frecuencia") +
theme_minimal()
Demostraremos las propiedades de insesgamiento y consistencia usando una muestra simulada.
Verificaremos las propiedades de insesgamiento y consistencia para un estimador alternativo de la media poblacional.
set.seed(123)
# Generar una población diferente con media 30
poblacion_alt <- rnorm(10000, mean = 30, sd = 5)
# Calcular la media muestral de diferentes muestras
medias_muestrales_alt <- replicate(1000, mean(sample(poblacion_alt, size = 100, replace = TRUE)))
# Promedio de las medias muestrales
media_estimador_alt <- mean(medias_muestrales_alt)
# Verificar insesgamiento
cat("Media poblacional verdadera:", mean(poblacion_alt), "\n")
## Media poblacional verdadera: 29.98814
cat("Media del estimador (insesgamiento):", media_estimador_alt, "\n")
## Media del estimador (insesgamiento): 30.0009
# Graficar la insesgamiento
df_medias_muestrales_alt <- data.frame(Media = medias_muestrales_alt)
ggplot(df_medias_muestrales_alt, aes(x = Media)) +
geom_histogram(bins = 30, fill = "lightgreen", alpha = 0.7) +
geom_vline(aes(xintercept = mean(poblacion_alt)), color = "red", linetype = "dashed", size = 1) +
labs(title = "Distribución de Medias Muestrales (Población Alternativa)",
x = "Media Muestral", y = "Frecuencia") +
theme_minimal() +
annotate("text", x = mean(poblacion_alt), y = 80, label = "Media Poblacional", color = "red", hjust = -0.2)
# Verificar consistencia
medias_consistencia_alt <- calcular_media_muestral(poblacion_alt, 200)
varianza_consistencia_alt <- var(medias_consistencia_alt)
cat("Varianza para n = 200 (consistencia):", varianza_consistencia_alt, "\n")
## Varianza para n = 200 (consistencia): 0.1284878
# Crear un gráfico para mostrar la consistencia con el concepto de límite
df_consistencia_alt <- data.frame(Media = medias_consistencia_alt - mean(poblacion_alt))
# Definir la anotación del límite
limite_label <- expression(lim[n %->% infinity]*P(abs(bar(X) - mu) < epsilon) == 1)
# Parámetros para \epsilon
epsilon <- 0.5
delta <- seq(-epsilon, epsilon, length.out = 100)
ggplot(df_consistencia_alt, aes(x = Media)) +
geom_histogram(bins = 30, fill = "orange", alpha = 0.7, boundary = 0) +
geom_vline(aes(xintercept = 0), color = "red", linetype = "dashed", size = 1) +
geom_vline(aes(xintercept = epsilon), color = "blue", linetype = "dotted", size = 1) +
geom_vline(aes(xintercept = -epsilon), color = "blue", linetype = "dotted", size = 1) +
labs(title = "Consistencia de la Media Muestral",
x = expression(bar(X) - mu), y = "Frecuencia") +
theme_minimal() +
annotate("text", x = 0, y = max(table(cut(df_consistencia_alt$Media, breaks = 30))) * 0.8,
label = "Media Poblacional", color = "red", hjust = -0.2, size = 4) +
annotate("text", x = 0, y = max(table(cut(df_consistencia_alt$Media, breaks = 30))) * 0.9,
label = limite_label, parse = TRUE, hjust = 0.5, size = 4, vjust = -0.5) +
annotate("text", x = epsilon, y = max(table(cut(df_consistencia_alt$Media, breaks = 30))) * 0.6,
label = expression(epsilon), color = "blue", hjust = -0.1, size = 4) +
annotate("text", x = -epsilon, y = max(table(cut(df_consistencia_alt$Media, breaks = 30))) * 0.6,
label = expression(-epsilon), color = "blue", hjust = 1.1, size = 4) +
annotate("segment", x = -epsilon, xend = epsilon, y = 0, yend = 0,
arrow = arrow(type = "closed", ends = "both", length = unit(0.2, "cm")), color = "blue") +
scale_x_continuous(limits = c(-2, 2))
Las propiedades de los estimadores son esenciales para evaluar su calidad y utilidad. Un estimador insesgado proporciona un valor esperado correcto, un estimador eficiente tiene una varianza mínima, y un estimador consistente se acerca al verdadero parámetro con un tamaño de muestra creciente. Estas propiedades son fundamentales en la selección de estimadores para análisis estadísticos precisos y confiables.