Enunciado

La simulación ayuda a entender y validar las propiedades de los estimadores estadísticos como son: insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean \(X_1\), \(X_2\), \(X_3\), y \(X_4\), una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro \(θ\) desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

\[ θ_1^ˆ = \frac{X_1+X_2}{6} + \frac{X_3+X_4}{3} \] \[ θ_2^ˆ = \frac{X_1+2X_2+3X_3+4X_4}{5} \]

\[ θ_3^ˆ = \frac{X_1+X_2+X_3+X_4}{4} \]

\[ θ_4^ˆ = \frac{min(X_1+X_2+X_3+X_4)+max(X_1+X_2+X_3+X_4)}{2} \]

Desarrollo

Los estimadores estadísticos son funciones matemáticas o reglas que se utilizan para calcular estimaciones o aproximaciones de parámetros desconocidos en una población o conjunto de datos. Estos parámetros pueden representar propiedades importantes de la población, como la media, la varianza, la proporción, entre otros. Los estimadores se basan en muestras de datos observados y se seleccionan de manera que proporcionen valores que sean lo más cercanos posibles a los parámetros verdaderos, con el objetivo de inferir información precisa sobre la población en función de la información limitada de la muestra. Los estimadores son fundamentales en la estadística inferencial y desempeñan un papel crucial en la toma de decisiones, la predicción y la comprensión de fenómenos basados en datos.

El objetivo del ejercicio es evaluar la insesgadez, eficiencia y consistencia para cada uno de los estimadores propuestos, y a partir de estos establecer cual es el mejor estimador de acuerdo con sus caracteristicas.

Para lograr tal fin, se estableció una función que nos permite evaluar los estimadores teniendo en cuenta los diferentes tamaños muestrales n y valores de \(\theta\) supuestos.

# Función de los estimadores

theta_1 <- function(x1, x2, x3, x4){
  return(
    (x1+x2)/6+(x3+x4)/3
  )
}

theta_2 <- function(x1, x2, x3, x4){
  return(
    (x1+2*x2+3*x3+4*x4)/5
  )
}

theta_3 <- function(x1, x2, x3, x4){
  return(
    (x1+x2+x3+x4)/4
  )
}

theta_4 <- function(x1, x2, x3, x4){
  return(
    ((min(x1,x2,x3,x4)+max(x1,x2,x3,x4))/2)
  )
}

comparacion_function <- function(n, theta_sup){
  # n <- La cantidad de datos
  # theta_sup <- Es el valor inicial supuesto para la distribución exponencial
  
  # Se establece una semilla para poder realizar un análisis de resultados más consistente
  set.seed(43)
  
  # 1. Distribuciones exponenciales para cada muestra
  x1 <- rexp(n, theta_sup)
  x2 <- rexp(n, theta_sup)
  x3 <- rexp(n, theta_sup)
  x4 <- rexp(n, theta_sup)
  
  # 2. Crea el dataframe base
  base <- data.frame(x1, x2, x3, x4)
  
  # 3. Se calculan los estimadores con base en la muestra aleatoria
  base$t1 <- apply(base, 1, function(row) theta_1(row['x1'], row['x2'], row['x3'], row['x4']))
  base$t2 <- apply(base, 1, function(row) theta_2(row['x1'], row['x2'], row['x3'], row['x4']))
  base$t3 <- apply(base, 1, function(row) theta_3(row['x1'], row['x2'], row['x3'], row['x4']))
  base$t4 <- apply(base, 1, function(row) theta_4(row['x1'], row['x2'], row['x3'], row['x4']))
  
  # 4. Se extraen los estimadores en un dataframe
  estimadores <- base[c('t1', 't2', 't3', 't4')]
  
  # 5. Resumen de las estadisticas
  summary_data <- summary(estimadores)
  
  # 6. Se calcula la matriz de varianzas
  varianza <- var(estimadores)
  
  # 7. Reordena los estimadores para graficar
  estimadores_2 <- melt(estimadores, id.vars= NULL)
  
  # 8. Crea el grafico de boxplots
  plot <- ggplot(estimadores_2, aes(variable, value)) + 
  geom_boxplot() +
  labs(x = "Estimadores", y = "Valor", title = paste("Comparación de los estimadores con n = ", n)) +
  geom_hline(yintercept = 1/theta_sup, color = "blue", linetype = "dashed")
  
  # 9. Genera el listado de resultados
  resultados <- list(
    'summary' = summary_data,
    'grafico' = plot,  
    'varianza' = varianza
    )
  
  return(resultados)
}

Se evalua la función con los diferentes tamaños de muestra propuestos (20, 50, 100 y 1000) con \(\lambda = \frac{1}{5}\), de lo cual obtenemos el gráfico de boxplots que compara los diferentes estimadores, un resumén estadistico que indica valores máximos, mínimos, 1er, 2do y 3er cuartil, y por ultimo la matriz de varianzas que permite realizar un análisis de dispersión. A continuación se presentan los resultados obtenidos en las simulaciones.

# Se ejecuta la función
lambda = 1/5
case_1 <- comparacion_function(20, lambda)
case_2 <- comparacion_function(50, lambda)
case_3 <- comparacion_function(100, lambda)
case_4 <- comparacion_function(1000, lambda)

Resumen estadistico n=20
t1 t2 t3 t4
Min. :0.893 Min. : 1.538 Min. :0.9379 Min. :1.073
1st Qu.:3.470 1st Qu.: 6.614 1st Qu.:3.4240 1st Qu.:3.947
Median :5.504 Median :10.161 Median :5.5138 Median :5.371
Mean :5.197 Mean :10.385 Mean :5.0683 Mean :5.762
3rd Qu.:6.799 3rd Qu.:13.351 3rd Qu.:7.0154 3rd Qu.:8.715
Max. :8.812 Max. :19.891 Max. :8.6619 Max. :9.500
Matriz de varianzas n=20
t1 t2 t3 t4
t1 6.149894 13.01237 5.273713 6.118198
t2 13.012373 28.19825 10.907939 12.343297
t3 5.273713 10.90794 5.250233 5.714523
t4 6.118198 12.34330 5.714523 7.441546

Resumen estadistico n=50
t1 t2 t3 t4
Min. : 0.7676 Min. : 1.291 Min. : 0.8267 Min. : 0.9192
1st Qu.: 2.7393 1st Qu.: 5.463 1st Qu.: 2.8660 1st Qu.: 3.3931
Median : 3.9613 Median : 7.680 Median : 4.2893 Median : 5.0044
Mean : 4.7631 Mean : 9.494 Mean : 4.8295 Mean : 5.6512
3rd Qu.: 6.4573 3rd Qu.:13.415 3rd Qu.: 6.3917 3rd Qu.: 7.8322
Max. :12.8742 Max. :28.444 Max. :13.0030 Max. :13.3895
Matriz de varianzas n=50
t1 t2 t3 t4
t1 7.439993 15.29726 6.772910 7.583318
t2 15.297258 32.52431 13.821805 15.124261
t3 6.772910 13.82181 6.638312 7.463624
t4 7.583318 15.12426 7.463624 8.983688

Resumen estadistico n=100
t1 t2 t3 t4
Min. : 0.6756 Min. : 1.305 Min. : 0.5755 Min. : 0.7059
1st Qu.: 2.7407 1st Qu.: 5.409 1st Qu.: 2.9732 1st Qu.: 3.7639
Median : 4.5097 Median : 8.856 Median : 4.8025 Median : 5.3245
Mean : 5.2877 Mean :10.571 Mean : 5.1732 Mean : 6.1903
3rd Qu.: 7.0922 3rd Qu.:12.990 3rd Qu.: 6.4795 3rd Qu.: 8.1097
Max. :17.0983 Max. :33.614 Max. :16.8750 Max. :17.8147
Matriz de varianzas n=100
t1 t2 t3 t4
t1 10.451055 21.96433 9.472884 10.77504
t2 21.964328 47.61344 19.613667 22.40464
t3 9.472884 19.61367 9.154070 10.05789
t4 10.775039 22.40464 10.057887 12.54941

Resumen estadistico n=1000
t1 t2 t3 t4
Min. : 0.6783 Min. : 1.290 Min. : 0.7036 Min. : 0.7254
1st Qu.: 3.1534 1st Qu.: 6.129 1st Qu.: 3.2511 1st Qu.: 3.7199
Median : 4.5629 Median : 8.988 Median : 4.5786 Median : 5.3353
Mean : 4.9618 Mean : 9.894 Mean : 4.9824 Mean : 5.8615
3rd Qu.: 6.3222 3rd Qu.:12.693 3rd Qu.: 6.3447 3rd Qu.: 7.4468
Max. :14.8297 Max. :31.667 Max. :16.1014 Max. :24.8964
Matriz de varianzas n=1000
t1 t2 t3 t4
t1 6.127272 12.35177 5.627434 6.429106
t2 12.351771 26.00317 11.081782 12.635685
t3 5.627434 11.08178 5.800942 6.681139
t4 6.429106 12.63569 6.681139 9.177907

Con base en los graficos y tablas anteriores se puede evidenciar que los estimadores \(\theta_1\), \(\theta_2\) y \(\theta_3\) presentan valores cercanos a la media (5), lo cual indica que su grado de sezgo es bajo en comparación con \(\theta_4\) cuyo valor medio es aproximadamente el doble que la media siendo este sezgado. Teniendo en cuenta esto, el estimador \(\theta_3\) se destaca por tener el valor medio más cercano al teorico.

Adicionalmente, al realizar el análisis del gráfico de boxplots y la matriz de varianzas se puede evidenciar que el estimador \(\theta_3\) es quien presenta el menor grado de dispersión, lo que lo convierte en el estimador más eficiente, seguido por \(\theta_1\), \(\theta_4\) y \(\theta_2\) respectivamente.

En cuanto al análisis de consistencia solo los estimadores \(\theta_1\) y \(\theta_3\) presentan una disminución del sezgo apreciativo a medida que se aumenta el tamaño de la muestra, por lo cual son consistentes.

Finalmente, con base en los resultados obtenidos se puede concluir que el mejor estimador es \(\theta_3\) siendo el que presenta menor grado de sezgo, es el más eficiente y consistente.