PROBLEMA 2.

Propiedades de los estimadores.

La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son: insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad. Sean \(X_1, X_2, X_3\) y \(X_4\), una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

library(ggplot2)
# semilla
set.seed(123)

# Definimos las muestra - cantidad de simulaciones
n_muestras <- c(20, 50, 100, 1000)

# valor del parámetro θ
theta <- 5

# Almacenamos los resultados
resultados <- list()

# Se realizan las  simulaciones
for (n in n_muestras) {
  num_simulaciones <- n  # Ajustamos el número de simulaciones a n
  
  # Creamos los estimadores
  estimadores <- list(
    Estimador_1 = function(x) (x[1] + x[2])/6 + (x[3] + x[4])/3,
    Estimador_2 = function(x) (x[1] + 2*x[2] + 3*x[3] + 4*x[4])/5,
    Estimador_3 = function(x) sum(x)/4,
    Estimador_4 = function(x) (min(x) + max(x))/2
  )
  simulaciones <- matrix(rexp(4 * num_simulaciones, rate = 1/theta), nrow = num_simulaciones)
  
  estimaciones <- matrix(apply(simulaciones, 1, function(x) sapply(estimadores, function(est) est(x))), nrow = num_simulaciones)
  
  sesgos <- colMeans(estimaciones) - theta
  eficiencias <- 1 / colMeans((estimaciones - theta)^2)
  consistencias <- colMeans((estimaciones - theta)^2)
  
  medias <- colMeans(estimaciones)
  varianzas <- apply(estimaciones, 2, var)
  
  resultados[[as.character(n)]] <- data.frame(Estimador = names(estimadores), N = n, Sesgo = sesgos, Eficiencia = eficiencias,
                                              Consistencia = consistencias, Media = medias,
                                              Varianza = varianzas)
}

\[ a) \hat{\theta}_1=\frac{(X_1+X_2)}6 + \frac{(X_3+X_4)}3\]

\[ b) \hat{\theta}_2=\frac{(X_1+2X_2+3X_3+4X_4)}5\]

\[ c) \hat{\theta}_3= \frac{X_1+X_2+X_3+X_4}4 \]

\[ d) \hat{\theta}_4=\frac{min(X_1+X_2+X_3+X_4)+max({X_1+X_2+X_3+X_4})}2\]

# Unimos los resultados en un DataFrame
resultados_df <- do.call(rbind, resultados)
rownames(resultados_df) <- NULL

# Resultados por cada parametro y propiedad
print(resultados_df)
##      Estimador    N     Sesgo Eficiencia Consistencia    Media  Varianza
## 1  Estimador_1   20 2.3115609 0.02387358    41.887307 7.311561 38.467361
## 2  Estimador_2   20 1.1921884 0.10059829     9.940527 6.192188  8.967593
## 3  Estimador_3   20 1.6301902 0.08446311    11.839488 6.630190  9.665229
## 4  Estimador_4   20 1.3525601 0.11112976     8.998489 6.352560  7.546390
## 5  Estimador_1   50 2.1620516 0.04513748    22.154538 7.162052 17.836807
## 6  Estimador_2   50 0.7925522 0.08688503    11.509463 5.792552 11.103392
## 7  Estimador_3   50 1.1266941 0.06062976    16.493551 6.126694 15.534807
## 8  Estimador_4   50 2.1913462 0.06680521    14.968893 7.191346 10.374383
## 9  Estimador_1  100 1.3934584 0.05324620    18.780682 6.393458 17.009046
## 10 Estimador_2  100 0.7552854 0.08357681    11.965042 5.755285 11.509682
## 11 Estimador_3  100 2.1039172 0.03555486    28.125553 7.103917 23.938470
## 12 Estimador_4  100 1.6729762 0.05993462    16.684847 6.672976 14.026260
## 13 Estimador_1 1000 1.6723680 0.04682862    21.354464 6.672368 18.576225
## 14 Estimador_2 1000 1.3814853 0.05035161    19.860338 6.381485 17.969806
## 15 Estimador_3 1000 1.5119888 0.04318975    23.153644 6.511989 20.888422
## 16 Estimador_4 1000 1.3827577 0.05483252    18.237351 6.382758 16.341674
# tema para las gráficas
theme_set(theme_minimal())

#  Propiedad Sesgo -Gráfica
sesgo_plot <- ggplot(resultados_df, aes(x = Estimador, y = Sesgo)) +
  geom_boxplot() +
  labs(title = "Sesgo", y = "Valor") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Propiedad Eficiencia - Gráfica
eficiencia_plot <- ggplot(resultados_df, aes(x = Estimador, y = Eficiencia)) +
  geom_boxplot() +
  labs(title = "Eficiencia", y = "Valor") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Propiedad Consistencia - Gráfica 
consistencia_plot <- ggplot(resultados_df, aes(x = Estimador, y = Consistencia)) +
  geom_boxplot() +
  labs(title = "Consistencia", y = "Valor") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Mostrar las gráficas
print(sesgo_plot)

print(eficiencia_plot)

print(consistencia_plot)

Nota: Genere unas muestras de n=20, 50, 100 y 1000 para cada uno de los estimadores planteados. En cada caso evalué las propiedades de insesgadez, eficiencia y consistencia Suponga un valor para el parámetro θ

Análisis de resultados.

Teniendo en cuenta los resultados de las propiedades de sesgo, eficiencia y consistencia, podemos decir que, a nivel de sesgo el cual se refiere a cuán cerca está el estimador del valor verdadero del parámetro. Para este caso todos los valores de los parámetros son positivos, lo que indica que tienden a sobrestimar el parámetro θ. Entre los cuatro estimadores, el estimador 2 tiende a tener el menor sesgo para todos los tamaños de muestra, ya que este en varios casos tiene el sesgo más bajo. Con relación a propiedad de eficiencia la cual se relaciona con la precisión del estimador. El Estimador 2 muestra una eficiencia relativamente alta en algunos casos, especialmente con un tamaño de muestra de 100. Es decir, un estimador eficiente tiene una varianza baja, por lo cual dicho estimador proporciona estimaciones más precisas en términos de varianza. Por último, la propiedad de la consistencia nos dice si el estimador tiende a converger al valor verdadero del parámetro a medida que aumenta el tamaño de la muestra. Observando los valores de consistencia, el Estimador 3 parecen mostrar una mejor consistencia en varios casos, especialmente en muestras grandes. En relación a la Media y Varianza: Si consideramos la media y la varianza de las estimaciones, puedes observar que “Estimador_2” tiende a tener la media más baja y la varianza más baja en varios casos. Esto indica que es consistente en términos de sesgo y eficiencia.

Conclusión.

En conclusión, definir cuál es el mejor estimador según los datos arrojados, es muy complejo. Pues se tendría que dar un valor especial o mayor a alguna propiedad de los estimadores, es decir, si valoramos la insesgadez, el estimador 2 es la mejor alternativa. Si priorizamos la propiedad de eficacia, el estimador 2 es más preferible. Si buscamos un estimador consistente el estimador 3 es la mejor elección.