La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son: insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad. Sean \(X_1, X_2, X_3\) y \(X_4\), una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
library(ggplot2)
# semilla
set.seed(123)
# Definimos las muestra - cantidad de simulaciones
n_muestras <- c(20, 50, 100, 1000)
# valor del parámetro θ
theta <- 5
# Almacenamos los resultados
resultados <- list()
# Se realizan las simulaciones
for (n in n_muestras) {
num_simulaciones <- n # Ajustamos el número de simulaciones a n
# Creamos los estimadores
estimadores <- list(
Estimador_1 = function(x) (x[1] + x[2])/6 + (x[3] + x[4])/3,
Estimador_2 = function(x) (x[1] + 2*x[2] + 3*x[3] + 4*x[4])/5,
Estimador_3 = function(x) sum(x)/4,
Estimador_4 = function(x) (min(x) + max(x))/2
)
simulaciones <- matrix(rexp(4 * num_simulaciones, rate = 1/theta), nrow = num_simulaciones)
estimaciones <- matrix(apply(simulaciones, 1, function(x) sapply(estimadores, function(est) est(x))), nrow = num_simulaciones)
sesgos <- colMeans(estimaciones) - theta
eficiencias <- 1 / colMeans((estimaciones - theta)^2)
consistencias <- colMeans((estimaciones - theta)^2)
medias <- colMeans(estimaciones)
varianzas <- apply(estimaciones, 2, var)
resultados[[as.character(n)]] <- data.frame(Estimador = names(estimadores), N = n, Sesgo = sesgos, Eficiencia = eficiencias,
Consistencia = consistencias, Media = medias,
Varianza = varianzas)
}
\[ a) \hat{\theta}_1=\frac{(X_1+X_2)}6 + \frac{(X_3+X_4)}3\]
\[ b) \hat{\theta}_2=\frac{(X_1+2X_2+3X_3+4X_4)}5\]
\[ c) \hat{\theta}_3= \frac{X_1+X_2+X_3+X_4}4 \]
\[ d) \hat{\theta}_4=\frac{min(X_1+X_2+X_3+X_4)+max({X_1+X_2+X_3+X_4})}2\]
# Unimos los resultados en un DataFrame
resultados_df <- do.call(rbind, resultados)
rownames(resultados_df) <- NULL
# Resultados por cada parametro y propiedad
print(resultados_df)
## Estimador N Sesgo Eficiencia Consistencia Media Varianza
## 1 Estimador_1 20 2.3115609 0.02387358 41.887307 7.311561 38.467361
## 2 Estimador_2 20 1.1921884 0.10059829 9.940527 6.192188 8.967593
## 3 Estimador_3 20 1.6301902 0.08446311 11.839488 6.630190 9.665229
## 4 Estimador_4 20 1.3525601 0.11112976 8.998489 6.352560 7.546390
## 5 Estimador_1 50 2.1620516 0.04513748 22.154538 7.162052 17.836807
## 6 Estimador_2 50 0.7925522 0.08688503 11.509463 5.792552 11.103392
## 7 Estimador_3 50 1.1266941 0.06062976 16.493551 6.126694 15.534807
## 8 Estimador_4 50 2.1913462 0.06680521 14.968893 7.191346 10.374383
## 9 Estimador_1 100 1.3934584 0.05324620 18.780682 6.393458 17.009046
## 10 Estimador_2 100 0.7552854 0.08357681 11.965042 5.755285 11.509682
## 11 Estimador_3 100 2.1039172 0.03555486 28.125553 7.103917 23.938470
## 12 Estimador_4 100 1.6729762 0.05993462 16.684847 6.672976 14.026260
## 13 Estimador_1 1000 1.6723680 0.04682862 21.354464 6.672368 18.576225
## 14 Estimador_2 1000 1.3814853 0.05035161 19.860338 6.381485 17.969806
## 15 Estimador_3 1000 1.5119888 0.04318975 23.153644 6.511989 20.888422
## 16 Estimador_4 1000 1.3827577 0.05483252 18.237351 6.382758 16.341674
# tema para las gráficas
theme_set(theme_minimal())
# Propiedad Sesgo -Gráfica
sesgo_plot <- ggplot(resultados_df, aes(x = Estimador, y = Sesgo)) +
geom_boxplot() +
labs(title = "Sesgo", y = "Valor") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
# Propiedad Eficiencia - Gráfica
eficiencia_plot <- ggplot(resultados_df, aes(x = Estimador, y = Eficiencia)) +
geom_boxplot() +
labs(title = "Eficiencia", y = "Valor") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
# Propiedad Consistencia - Gráfica
consistencia_plot <- ggplot(resultados_df, aes(x = Estimador, y = Consistencia)) +
geom_boxplot() +
labs(title = "Consistencia", y = "Valor") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
# Mostrar las gráficas
print(sesgo_plot)
print(eficiencia_plot)
print(consistencia_plot)
Nota: Genere unas muestras de n=20, 50, 100 y 1000 para cada uno de los estimadores planteados. En cada caso evalué las propiedades de insesgadez, eficiencia y consistencia Suponga un valor para el parámetro θ
Teniendo en cuenta los resultados de las propiedades de sesgo, eficiencia y consistencia, podemos decir que, a nivel de sesgo el cual se refiere a cuán cerca está el estimador del valor verdadero del parámetro. Para este caso todos los valores de los parámetros son positivos, lo que indica que tienden a sobrestimar el parámetro θ. Entre los cuatro estimadores, el estimador 2 tiende a tener el menor sesgo para todos los tamaños de muestra, ya que este en varios casos tiene el sesgo más bajo. Con relación a propiedad de eficiencia la cual se relaciona con la precisión del estimador. El Estimador 2 muestra una eficiencia relativamente alta en algunos casos, especialmente con un tamaño de muestra de 100. Es decir, un estimador eficiente tiene una varianza baja, por lo cual dicho estimador proporciona estimaciones más precisas en términos de varianza. Por último, la propiedad de la consistencia nos dice si el estimador tiende a converger al valor verdadero del parámetro a medida que aumenta el tamaño de la muestra. Observando los valores de consistencia, el Estimador 3 parecen mostrar una mejor consistencia en varios casos, especialmente en muestras grandes. En relación a la Media y Varianza: Si consideramos la media y la varianza de las estimaciones, puedes observar que “Estimador_2” tiende a tener la media más baja y la varianza más baja en varios casos. Esto indica que es consistente en términos de sesgo y eficiencia.
En conclusión, definir cuál es el mejor estimador según los datos arrojados, es muy complejo. Pues se tendría que dar un valor especial o mayor a alguna propiedad de los estimadores, es decir, si valoramos la insesgadez, el estimador 2 es la mejor alternativa. Si priorizamos la propiedad de eficacia, el estimador 2 es más preferible. Si buscamos un estimador consistente el estimador 3 es la mejor elección.