Ejercicio 2

La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son. insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean \(X_1, X_2, X_3 \text{ y } X_4\), una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro \(\theta\) desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

library(ggplot2)
# semilla
set.seed(123)

# Definimos las muestra - cantidad de simulaciones
n_muestras <- c(20, 50, 100, 1000)

# valor del parámetro θ
theta <- 5

# Almacenamos los resultados
resultados <- list()

# Se realizan las  simulaciones
for (n in n_muestras) {
  num_simulaciones <- n  # Ajustamos el número de simulaciones a n
  
  # Creamos los estimadores
  estimadores <- list(
    Estimador_1 = function(x) (x[1] + x[2])/6 + (x[3] + x[4])/3,
    Estimador_2 = function(x) (x[1] + 2*x[2] + 3*x[3] + 4*x[4])/5,
    Estimador_3 = function(x) sum(x)/4,
    Estimador_4 = function(x) (min(x) + max(x))/2
  )
  simulaciones <- matrix(rexp(4 * num_simulaciones, rate = 1/theta), nrow = num_simulaciones)
  
  estimaciones <- matrix(apply(simulaciones, 1, function(x) sapply(estimadores, function(est) est(x))), nrow = num_simulaciones)
  
  sesgos <- colMeans(estimaciones) - theta
  eficiencias <- 1 / colMeans((estimaciones - theta)^2)
  consistencias <- colMeans((estimaciones - theta)^2)
  
  medias <- colMeans(estimaciones)
  varianzas <- apply(estimaciones, 2, var)
  
  resultados[[as.character(n)]] <- data.frame(Estimador = names(estimadores), N = n, Sesgo = sesgos, Eficiencia = eficiencias,
                                              Consistencia = consistencias, Media = medias,
                                              Varianza = varianzas)
}

Ahora note lo siguiente

# Uniendo todos los resultados en un DataFrame
resultados_df <- do.call(rbind, resultados)
rownames(resultados_df) <- NULL

# Resultados por parametro 
print(resultados_df)
##      Estimador    N     Sesgo Eficiencia Consistencia    Media  Varianza
## 1  Estimador_1   20 2.3115609 0.02387358    41.887307 7.311561 38.467361
## 2  Estimador_2   20 1.1921884 0.10059829     9.940527 6.192188  8.967593
## 3  Estimador_3   20 1.6301902 0.08446311    11.839488 6.630190  9.665229
## 4  Estimador_4   20 1.3525601 0.11112976     8.998489 6.352560  7.546390
## 5  Estimador_1   50 2.1620516 0.04513748    22.154538 7.162052 17.836807
## 6  Estimador_2   50 0.7925522 0.08688503    11.509463 5.792552 11.103392
## 7  Estimador_3   50 1.1266941 0.06062976    16.493551 6.126694 15.534807
## 8  Estimador_4   50 2.1913462 0.06680521    14.968893 7.191346 10.374383
## 9  Estimador_1  100 1.3934584 0.05324620    18.780682 6.393458 17.009046
## 10 Estimador_2  100 0.7552854 0.08357681    11.965042 5.755285 11.509682
## 11 Estimador_3  100 2.1039172 0.03555486    28.125553 7.103917 23.938470
## 12 Estimador_4  100 1.6729762 0.05993462    16.684847 6.672976 14.026260
## 13 Estimador_1 1000 1.6723680 0.04682862    21.354464 6.672368 18.576225
## 14 Estimador_2 1000 1.3814853 0.05035161    19.860338 6.381485 17.969806
## 15 Estimador_3 1000 1.5119888 0.04318975    23.153644 6.511989 20.888422
## 16 Estimador_4 1000 1.3827577 0.05483252    18.237351 6.382758 16.341674

Usando las tres propiedades, se tiene:

#  Propiedad Sesgo -Gráfica
theme_set(theme_minimal())
sesgo_plot <- ggplot(resultados_df, aes(x = Estimador, y = Sesgo)) +
  geom_boxplot() +
  labs(title = "Sesgo", y = "Valor") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Propiedad Eficiencia - Gráfica
eficiencia_plot <- ggplot(resultados_df, aes(x = Estimador, y = Eficiencia)) +
  geom_boxplot() +
  labs(title = "Eficiencia", y = "Valor") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Propiedad Consistencia - Gráfica 
consistencia_plot <- ggplot(resultados_df, aes(x = Estimador, y = Consistencia)) +
  geom_boxplot() +
  labs(title = "Consistencia", y = "Valor") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

De este modo para el sesgo, eficiencia y consistencia se tiene:

Análisis y resultados.

Considerando los resultados obtenidos en cuanto a las propiedades de sesgo, eficiencia y consistencia, podemos concluir que la elección del mejor estimador es una tarea compleja, ya que cada uno de ellos presenta ventajas y desventajas en diferentes aspectos.

En lo que respecta al sesgo, que mide cuán cerca se encuentra el estimador del valor verdadero del parámetro, se observa que todos los estimadores tienen valores positivos de sesgo, lo que indica una tendencia a sobrestimar el parámetro θ. Sin embargo, el Estimador 2 se destaca por tener el menor sesgo en la mayoría de los tamaños de muestra analizados, lo que lo convierte en una opción atractiva en términos de insesgadez.

En cuanto a la eficiencia, que se relaciona con la precisión del estimador, el Estimador 2 muestra una eficiencia relativamente alta en algunos casos, especialmente cuando el tamaño de muestra es igual a 100. Esto sugiere que el Estimador 2 proporciona estimaciones más precisas en términos de varianza, lo que lo hace atractivo en términos de eficacia.

La propiedad de la consistencia, que indica si el estimador tiende a converger al valor verdadero del parámetro a medida que aumenta el tamaño de la muestra, muestra que el Estimador 3 exhibe una mejor consistencia en varios casos, especialmente cuando se utilizan muestras grandes.

Si consideramos tanto la media como la varianza de las estimaciones, notamos que el “Estimador_2” tiende a tener tanto la media más baja como la varianza más baja en varios casos, lo que sugiere una consistencia en términos de sesgo y eficiencia.

En resumen, la elección del mejor estimador depende de cuál propiedad es prioritaria. Si se valora la insesgadez, el Estimador 2 es la mejor opción. Si se prioriza la eficiencia, el Estimador 2 es preferible. Si la consistencia es fundamental, entonces el Estimador 3 es la elección adecuada. En última instancia, la decisión final dependerá de los objetivos y requisitos específicos del problema en cuestión.