Problema 2

Propiedades de los estimadores

La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son. insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean \(X1, X2, X3 \,y\, X4\), una muestra aleatoria de tamaño \(n=4\) cuya población la conforma una distribución exponencial con parámetro \(\theta\) desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

  1. \(\hat{\theta}_1 = \frac{X_1 + X_2}{6} + \frac{X_3 + X_4}{3}\)

  2. \(\hat{\theta}_2 = \frac{X_1 + 2X_2 + 3X_3 + 4X_4}{5}\)

  3. \(\hat{\theta}_3 = \frac{X_1 + X_2 + X_3 + X_4}{4}\)

  4. \(\hat{\theta}_4 = \frac{\min\{X_1, X_2, X_3, X_4\} + \max\{X_1, X_2, X_3, X_4\}}{2}\)

Formulación de la simulación

n <- 4
m = 5000
lam <- 0.5

rep = rexp(m*n,rate = lam)
df = data.frame(matrix(rep,nrow = m, ncol = n, byrow = TRUE))

estimador1 <- function(m) { ((m[1] + m[2]) / 6) + ((m[3] + m[4]) / 3) }
estimador2 <- function(m) { (m[1] + 2*m[2] + 3*m[3] + 4*m[4]) / 5 }
estimador3 <- function(m) { mean(m) }
estimador4 <- function(m) { (min(m) + max(m)) / 2 }

estimarMuestra <- function(data, n_muestra, lam) {
  teta <- 1 / lam
  muestra <- data[sample(nrow(df), size=n_muestra), ]
  t1 <- apply(muestra, 1, estimador1)
  t2 <- apply(muestra, 1, estimador2)
  t3 <- apply(muestra, 1, estimador3)
  t4 <- apply(muestra, 1, estimador4)
  return(data.frame(t1, t2, t3, t4))
}
calcularMetricas <- function(datos, n_muestra, lam) {
  teta <- 1 / lam
  media <- apply(datos, 2, mean)
  varianza <- apply(datos, 2, var)
  sesgo <- media - teta
  return (data.frame(media = media, varianza = varianza, n=n_muestra, sesgo=sesgo))
}

obtenerGrafica <- function(datos, n_muestra, lam) {
  teta <- 1 / lam
  d <- pivot_longer(datos, cols = c(t1, t2, t3, t4), names_to = "categoria", values_to = "valor")
  bp <- ggplot(d, aes(x = categoria, y = valor, fill = categoria)) +
    geom_boxplot() +
    geom_hline(yintercept = teta, color = "red", linetype = "dashed", linewidth = 1) +
    scale_fill_manual(values = c("#377eb8", "#ff7f00", "#4daf4a", "#f781bf")) +
    labs(title = paste("m =", n_muestra), x = "Categoría", y = "Valor") +
    theme_minimal() 
  bp <- ggplotly(bp)
  return (bp)
}

Resultados m=20

Resultados m=50

Resultados m=100

Resultados m=1000

Conclusiones

Con el fin de evaluar en términos de convergencia las propiedades de eficiencia, insesgadez y consistencia de los estimadores, se emplearon distintos tamaños de muestra sobre las poblaciones base, las cuales partieron de valores extraídos de una distribución exponencial con parámetro de rate \(\lambda=0.5\). De esta forma, al aplicar las métricas correspondientes y revisar el contraste de los estimadores con el parámetro poblacional \(\ (1/\lambda)=2\) bajo incrementos de tamaños muestrales, se puede evidenciar la emergencia (o no), de estas propiedades.

Los casos de \(\hat\theta_1\) y \(\hat\theta_3\) implican el comportamiento de mayor congruencia, pues estos estimadores exponen una tendencia a la insesgadez, eficiencia y consistencia para todos los tamaños de muestra: \(n = 20\), \(n = 50\),\(n = 100\) y \(n = 1000\). Esto se evidencia por su bajo nivel de sesgo (insesgadez), su varianza mínima en cada tabla de resultados (eficiencia), y la tendencia a disminuir drásticamente el sesgo al incrementar los tamaños de muestra (consistencia).

Nótese que la aparición de estas propiedades puede esperarse en los estimadores en función de la simetría de sus ecuaciones. \(\hat\theta_1\) implica la división de pares de valores por 3 o por 6, pero el desbalance de estos divisores se compensa por la aleatoriedad de \(X_1, X_2, X_3 \,y\, X_4\). Por otro lado, \(\hat\theta_3\) es la media aritmética, la cual divide de forma simétrica los valores de las muestras.

El caso de \(\hat\theta_4\) denota un estimador que muestra convergencia a ser insesgado y consistente a partir de tamaños de muestra de \(n > 100\). Nótese como el sesgo y la varianza de \(\hat\theta_4\) se ubican (en valor absoluto) sólo por encima de los valores correspondientes a \(\hat\theta_1\) y \(\hat\theta_3\) en todos los casos, y cómo estas mismas métricas se reducen drásticamente desde \(n = 1000\). Lo anterior puede explicarse bajo el hecho de que la ecuación del estimador también denota simetría al dividir el máximo y el mínimo de la muestra por \(2\), sin embargo, por el hecho de tomar sólo 2 valores de la muestra (en lugar de 4, como en \(\hat\theta_1\) y \(\hat\theta_3\)), se espera que la convergencia en probabilidad hacia un estimador consistente se dé en tamaños de muestra más grandes.

\(\hat\theta_2\) presenta valores muy grandes en todos los casos. Si bien denota cierta mejoría a medida que el tamaño de la muestra aumenta, no puede apreciarse la aparición de ninguna de las propiedades evaluadas en ninguno de los casos diseñados. Esto puede esperarse a partir de su ecuación, pues la división por \(5\) implica fraccionar el estimador por un número superior al de su cantidad de variables independientes, además, la asimetría de la estimación puede incrementarse de forma notoria debido al componente \(2X_2 + 3X_3\).