La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son. insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean \(X_1, X_2, X_3 \text{ y } X_4\), una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro \(\theta\) desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
library(ggplot2)
# semilla
set.seed(123)
# Definimos las muestra - cantidad de simulaciones
n_muestras <- c(20, 50, 100, 1000)
# valor del parámetro θ
theta <- 5
# Almacenamos los resultados
resultados <- list()
# Se realizan las simulaciones
for (n in n_muestras) {
num_simulaciones <- n # Ajustamos el número de simulaciones a n
# Creamos los estimadores
estimadores <- list(
Estimador_1 = function(x) (x[1] + x[2])/6 + (x[3] + x[4])/3,
Estimador_2 = function(x) (x[1] + 2*x[2] + 3*x[3] + 4*x[4])/5,
Estimador_3 = function(x) sum(x)/4,
Estimador_4 = function(x) (min(x) + max(x))/2
)
simulaciones <- matrix(rexp(4 * num_simulaciones, rate = 1/theta), nrow = num_simulaciones)
estimaciones <- matrix(apply(simulaciones, 1, function(x) sapply(estimadores, function(est) est(x))), nrow = num_simulaciones)
sesgos <- colMeans(estimaciones) - theta
eficiencias <- 1 / colMeans((estimaciones - theta)^2)
consistencias <- colMeans((estimaciones - theta)^2)
medias <- colMeans(estimaciones)
varianzas <- apply(estimaciones, 2, var)
resultados[[as.character(n)]] <- data.frame(Estimador = names(estimadores), N = n, Sesgo = sesgos, Eficiencia = eficiencias,
Consistencia = consistencias, Media = medias,
Varianza = varianzas)
}
Ahora note lo siguiente
# Uniendo todos los resultados en un DataFrame
resultados_df <- do.call(rbind, resultados)
rownames(resultados_df) <- NULL
# Resultados por parametro
print(resultados_df)
## Estimador N Sesgo Eficiencia Consistencia Media Varianza
## 1 Estimador_1 20 2.3115609 0.02387358 41.887307 7.311561 38.467361
## 2 Estimador_2 20 1.1921884 0.10059829 9.940527 6.192188 8.967593
## 3 Estimador_3 20 1.6301902 0.08446311 11.839488 6.630190 9.665229
## 4 Estimador_4 20 1.3525601 0.11112976 8.998489 6.352560 7.546390
## 5 Estimador_1 50 2.1620516 0.04513748 22.154538 7.162052 17.836807
## 6 Estimador_2 50 0.7925522 0.08688503 11.509463 5.792552 11.103392
## 7 Estimador_3 50 1.1266941 0.06062976 16.493551 6.126694 15.534807
## 8 Estimador_4 50 2.1913462 0.06680521 14.968893 7.191346 10.374383
## 9 Estimador_1 100 1.3934584 0.05324620 18.780682 6.393458 17.009046
## 10 Estimador_2 100 0.7552854 0.08357681 11.965042 5.755285 11.509682
## 11 Estimador_3 100 2.1039172 0.03555486 28.125553 7.103917 23.938470
## 12 Estimador_4 100 1.6729762 0.05993462 16.684847 6.672976 14.026260
## 13 Estimador_1 1000 1.6723680 0.04682862 21.354464 6.672368 18.576225
## 14 Estimador_2 1000 1.3814853 0.05035161 19.860338 6.381485 17.969806
## 15 Estimador_3 1000 1.5119888 0.04318975 23.153644 6.511989 20.888422
## 16 Estimador_4 1000 1.3827577 0.05483252 18.237351 6.382758 16.341674
Usando las tres propiedades, se tiene:
# Propiedad Sesgo -Gráfica
theme_set(theme_minimal())
sesgo_plot <- ggplot(resultados_df, aes(x = Estimador, y = Sesgo)) +
geom_boxplot() +
labs(title = "Sesgo", y = "Valor") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
# Propiedad Eficiencia - Gráfica
eficiencia_plot <- ggplot(resultados_df, aes(x = Estimador, y = Eficiencia)) +
geom_boxplot() +
labs(title = "Eficiencia", y = "Valor") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
# Propiedad Consistencia - Gráfica
consistencia_plot <- ggplot(resultados_df, aes(x = Estimador, y = Consistencia)) +
geom_boxplot() +
labs(title = "Consistencia", y = "Valor") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
De este modo para el sesgo, eficiencia y consistencia se tiene:
Considerando los resultados obtenidos en cuanto a las propiedades de sesgo, eficiencia y consistencia, podemos concluir que la elección del mejor estimador es una tarea compleja, ya que cada uno de ellos presenta ventajas y desventajas en diferentes aspectos.
En lo que respecta al sesgo, que mide cuán cerca se encuentra el estimador del valor verdadero del parámetro, se observa que todos los estimadores tienen valores positivos de sesgo, lo que indica una tendencia a sobrestimar el parámetro θ. Sin embargo, el Estimador 2 se destaca por tener el menor sesgo en la mayoría de los tamaños de muestra analizados, lo que lo convierte en una opción atractiva en términos de insesgadez.
En cuanto a la eficiencia, que se relaciona con la precisión del estimador, el Estimador 2 muestra una eficiencia relativamente alta en algunos casos, especialmente cuando el tamaño de muestra es igual a 100. Esto sugiere que el Estimador 2 proporciona estimaciones más precisas en términos de varianza, lo que lo hace atractivo en términos de eficacia.
La propiedad de la consistencia, que indica si el estimador tiende a converger al valor verdadero del parámetro a medida que aumenta el tamaño de la muestra, muestra que el Estimador 3 exhibe una mejor consistencia en varios casos, especialmente cuando se utilizan muestras grandes.
Si consideramos tanto la media como la varianza de las estimaciones, notamos que el “Estimador_2” tiende a tener tanto la media más baja como la varianza más baja en varios casos, lo que sugiere una consistencia en términos de sesgo y eficiencia.
En resumen, la elección del mejor estimador depende de cuál propiedad es prioritaria. Si se valora la insesgadez, el Estimador 2 es la mejor opción. Si se prioriza la eficiencia, el Estimador 2 es preferible. Si la consistencia es fundamental, entonces el Estimador 3 es la elección adecuada. En última instancia, la decisión final dependerá de los objetivos y requisitos específicos del problema en cuestión.