Propiedades de los estimadores

La simulación ayuda a entender y validar las propiedades de los estimadores estadísticos como so:. insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean 𝑋1, 𝑋2, 𝑋3 y 𝑋4, una muestra aleatoria de tamaño 𝑛=4 cuya población la conforma una distribución exponencial con parámetro 𝜃 desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

\[ \hat{\theta}_1 = \frac{X_1 + X_2}{6} + \frac{X_3 + X_4}{3} \]

\[ \hat{\theta}_2 = \frac{X_1 + 2X_2 + 3X_3 + 4X_4}{5} \]

\[ \hat{\theta}_3 = \frac{X_1 + X_2 + X_3 + X_4}{4} \]

\[ \hat{\theta}_4 = \frac{\min(X_1, X_2, X_3, X_4) + \max(X_1, X_2, X_3, X_4)}{2} \]

Función para calcular los estimadores vector X muestra aleatoria de 4 números:

# Semilla
set.seed(123) 

# Theta 1,2,3,4 son variables que calculan los 4 estimadores 
calcular_estimadores <- function(X) {
  theta_1 = (X[1] + X[2]) / 6 + (X[3] + X[4]) / 3
  theta_2 = (X[1] + 2 * X[2] + 3 * X[3] + 4 * X[4]) / 5
  theta_3 = mean(X)
  theta_4 = (min(X) + max(X)) / 2
  return(c(theta_1, theta_2, theta_3, theta_4)) # vector wue contiene los 4 estimadores calculados
}

Se defina el tamaño de la muestra y el parametro verdadero supuesto de 10 para theta:

n_muestras <- c(20,50,100,1000)
theta_real <- 10

Simulación para los distintos tamaños de la muestra:

# se crea una lista vacìa llamada ¨resultados¨ para almacenar los resultados de las estimaciones.
# se crea un bucle que va a iterar sobre cada tamaño de la muestra definido en la variables n_muestras
#Genera una muestra de 4 valores aleatorios de una distribución exponencial con parametro theta = 1
# se repite el proceso anterior 1000 veces, generando 1000 muestras cada una con 4 valores
# se aplica la funcion calcular_estimadores  a cada columna de la muestra de la matriz ¨muestras¨
# se transpone la matriz para que las filas representen las diferentes simulaciones y las columnas los estimadores y se guardan los estimadores en la matriz resultados

resultados <- list()

for (n in n_muestras) {
  muestras <- replicate(1000, rexp(4, rate = 1/theta_real)) # Generamos 1000 muestras de tamaño n=4
  estimadores <- t(apply(muestras, 2, calcular_estimadores)) # Calculamos estimadores
  resultados[[as.character(n)]] <- estimadores
}

Visualizaciòn de los resultados:

# se crea un bucle para ir para los diferentes tamaños de la muestra

library(ggplot2)

for (n in n_muestras) {
  estimadores <- resultados[[as.character(n)]]
  boxplot(estimadores, main = paste("Estimadores para n =", n), 
          names = c(expression(hat(theta)[1]), expression(hat(theta)[2]), 
                    expression(hat(theta)[3]), expression(hat(theta)[4])))
  abline(h=theta_real, color="red")
}

Creaciòn de tabla de comparaciòn para selecionar el mejor theta

# Crear tabla de comparación
library(knitr)
library(kableExtra)
library(DT)

tabla_comparacion <- data.frame(
  n = integer(),
  Estimador = character(),
  Media = round(numeric(),3),
  Varianza = numeric(),
  ECM = numeric(),
  stringsAsFactors = FALSE
)

for (n in n_muestras) {
  estimadores <- resultados[[as.character(n)]]
  
  for (i in 1:4) {
    estimaciones <- estimadores[, i]
    media_estimada <- round(mean(estimaciones),3)
    varianza_estimada <- round(var(estimaciones),3)
    ECM <- round(mean((estimaciones - theta_real)^2),3)
    
    tabla_comparacion <- rbind(tabla_comparacion, data.frame(
      n = n,
      Estimador = paste("theta", i, sep = "_"),
      Media = media_estimada,
      Varianza = varianza_estimada,
      ECM = ECM
    ))
  }
}

# Mostrar la tabla
datatable(tabla_comparacion, 
          options = list(pageLength = 10, 
                         autoWidth = TRUE),
          caption = 'Comparación Est')

Conclusión:

Por lo tanto, los estimadores \(\hat{\theta}_1\) y \(\hat{\theta}_3\) son insesgados, ya que sus valores se aproximan al valor de \(\theta = 5\). Para los tamaños de muestra \(n=20\) y \(n=50\) el estimador \(\hat{\theta}_3\) muestra mejor eficiencia que \(\hat{\theta}_1\), dado que presenta una menor varianza. No obstante, a medida que aumenta el tamaño de muestra \(n=100\) y \(n=1000\), ambos estimadores \(\hat{\theta}_1\) y \(\hat{\theta}_3\) se vuelven más consistentes, aunque su efiencia disminuye debido al incremento de la varianza.