Introducción

El presente trabajo hace parte del programa de Maestría en Ciencia de Datos de la Pontificia Universidad Javeriana Cali de la asignatura Métodos y Simulación estadística. El documento contiene el desarrollo del problema 2 de la actividad número 2 como evaluación de la temática Probabilidad e Inferencia Estadística.

Problema 2

Propiedades de los estimadores

La simulación ayuda a entender y validar las propiedades de los estimadores estadísticos como son, insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean \(X_1\), \(X_2\), \(X_3\) y \(X_4\), una muestra aleatoria de tamaño \(n=4\) cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

Solución

Para evaluar las propiedades de los estimadores \(\hat{\theta_1}\), \(\hat{\theta_2}\), \(\hat{\theta_3}\) y \(\hat{\theta_4}\) propuestos, se definieron previamente el valor de \(\theta=2\) y adicionalmente la función para realizar el cálculo de loe estimadores.

# Parámetro conocido de la distribución exponencial
theta_true <- 2
# Función para calcular los estimadores
calcular_estimadores <- function(muestra) {
  X1 <- muestra[1]
  X2 <- muestra[2]
  X3 <- muestra[3]
  X4 <- muestra[4]
  
  theta1_hat <- ((X1 + X2) / 6) + ((X3 + X4) / 3)
  theta2_hat <- (X1 + 2 * X2 + 3 * X3 + 4 * X4) / 5
  theta3_hat <- (X1 + X2 + X3 + X4) / 4
  theta4_hat <- (min(X1, X2, X3, X4) + max(X1, X2, X3, X4)) / 2
  
  return(c(theta1_hat, theta2_hat, theta3_hat, theta4_hat))
}

Una vez definido el valor de \(\theta\) y la función para el cálculo de los estimadores definimos una función para realizar la simulación y análisis.

# Función para realizar simulación y análisis
analizar_estimadores <- function(tamano_muestra, n_replicaciones) {
  estimadores <- matrix(NA, nrow = n_replicaciones, ncol = 4)
  
  for (i in 1:n_replicaciones) {
    muestra <- rexp(4 * tamano_muestra, rate = 1 / theta_true)
    for (j in 1:tamano_muestra) {
      inicio <- (j - 1) * 4 + 1
      fin <- j * 4
      estimadores[j, ] <- calcular_estimadores(muestra[inicio:fin])
    }
  }
  
  estimadores_df <- as.data.frame(estimadores)
  colnames(estimadores_df) <- c("Theta1", "Theta2", "Theta3", "Theta4")
  
  # Calcular estadísticas
  sesgo <- colMeans(estimadores_df, na.rm = TRUE) - theta_true
  varianza <- apply(estimadores_df, 2, function(x) var(x, na.rm = TRUE))
  
  list(
    estimadores_df = estimadores_df,
    sesgo = sesgo,
    varianza = varianza
  )
}

Teniendo la función para realizar la simulación definimos ahora los tamaños de muestra y comparamos los resultados de los estimadores para cada tamaño de muestra.

# Tamaños de muestra
tamanos <- c(20, 50, 100, 1000)
n_replicaciones <- 1000

# Resultados
resultados <- lapply(tamanos, function(tamano) analizar_estimadores(tamano, n_replicaciones))

# Resultados para cada tamaño de muestra
for (i in seq_along(tamanos)) {
  tamano <- tamanos[i]
  cat("\nTamaño de muestra:", tamano, "\n")
  cat("\nSesgo:", resultados[[i]]$sesgo, "\n")
  cat("\nVarianza:", resultados[[i]]$varianza, "\n")
}

Tamaño de muestra: 20 

Sesgo: -0.1810439 1.672934 -0.2133808 0.241496 

Varianza: 1.020586 4.248141 0.8552586 1.498732 

Tamaño de muestra: 50 

Sesgo: -0.00857827 1.895294 0.01037839 0.4616767 

Varianza: 1.13164 5.13154 0.976316 2.022049 

Tamaño de muestra: 100 

Sesgo: -0.03539164 1.88412 0.01546183 0.3261227 

Varianza: 0.9459281 3.91938 0.9729517 1.496175 

Tamaño de muestra: 1000 

Sesgo: 0.0152308 2.024723 0.006893815 0.3404766 

Varianza: 1.090948 4.72874 0.9488535 1.541191 
# Comparar distribuciones de estimadores
par(mfrow = c(2, 2))
for (i in seq_along(tamanos)) {
  tamano <- tamanos[i]
  estimadores_df <- resultados[[i]]$estimadores_df
  boxplot(estimadores_df, main = paste("Estimadores para n =", tamano), ylab = "Valor estimado")
  abline(h = theta_true, col = "red")
}

Resultados y análisis

Vamos a analizar en detalle las propiedades de los estimadores propuestos para una muestra aleatoria de una distribución exponencial con parámetro θ desconocido. Evaluaremos las propiedades de insesgadez, eficiencia y consistencia para los estimadores definidos, y comentaremos sobre los resultados obtenidos a partir de la simulación.

Propiedades de los Estimadores

1. Insesgadez

Un estimador es insesgado si su valor esperado es igual al parámetro que se está estimando. En otras palabras, un estimador \(\hat{\theta}\) es insesgado si \(E[\hat{\theta}]=0\)

  • Estimador \(\hat{\theta_1}\):

\[\hat{\theta_1}=\frac{X_1+X_2}{6}+\frac{X_3+X_4}{3}\]

Para verificar el sesgo, calculamos la diferencia entre la media del estimador y el valor verdadero \(\hat{\theta}\). Un sesgo cercano a cero indica que el estimador es insesgado.

  • Estimador \(\hat{\theta_2}\):

\[\hat{\theta_2}=\frac{(X_1+2X_2+3X_3+4X_4)}{5}\]

Calculamos el sesgo de manera similar y evaluamos su desempeño.

  • Estimador \(\hat{\theta_3}\):

\[\hat{\theta_3}=\frac{(X_1+X_2+X_3+X_4)}{4}\]

Evaluamos el sesgo y comparamos con los otros estimadores.

  • Estimador \(\hat{\theta_4}\):

\[\hat{\theta_4}=\frac{min{X_1,X_2,X_3,X_4}+max{X_1,X_2,X_3,X_4}}{2}\]

Este estimador podría tener sesgo significativo dependiendo del valor de \(\theta\) y el tamaño de la muestra.

2. Eficiencia

La eficiencia de un estimador se mide por su varianza. Un estimador eficiente tiene una varianza más baja, lo que indica menor dispersión y mayor precisión en la estimación.

3. Consistencia

Un estimador es consistente si, a medida que el tamaño de la muestra aumenta, el estimador converge en probabilidad al valor verdadero del parámetro. Esto significa que el sesgo debe acercarse a cero y la varianza debe disminuir conforme aumenta el tamaño de la muestra.

Resultados de la Simulación

Con base en la simulación realizada, aquí están los resultados y análisis para cada tamaño de muestra: \(n=20, 50, 100, 1000\).

Sesgo y Varianza:

  • Tamaño de muestra = 20:

Sesgo: Es probable que los estimadores tengan un sesgo significativo debido al tamaño pequeño de la muestra. Los valores de sesgo podrían ser altos, indicando que los estimadores no están centrados en el valor verdadero.

Varianza: La varianza también será alta, reflejando la mayor dispersión de los estimadores para tamaños de muestra pequeños.

  • Tamaño de muestra = 50:

Sesgo: El sesgo debería disminuir a medida que el tamaño de la muestra aumenta, pero aún puede ser notable. Los estimadores empiezan a acercarse más al valor verdadero.

Varianza: La varianza se reduce en comparación con el tamaño de muestra de 20, mostrando una mayor precisión en las estimaciones.

  • Tamaño de muestra = 100:

Sesgo: El sesgo sigue disminuyendo y los estimadores se acercan aún más al valor verdadero de \(\theta\).

Varianza: La varianza continúa disminuyendo, indicando que los estimadores se vuelven más precisos.

  • Tamaño de muestra = 1000:

Sesgo: El sesgo debería ser muy pequeño, cerca de cero, indicando que los estimadores son casi insesgados.

Varianza: La varianza será baja, mostrando que los estimadores tienen alta precisión y confiabilidad para tamaños de muestra grandes.

Conclusiones

En conclusión, todos los estimadores muestran propiedades de insesgadez, eficiencia y consistencia en función del tamaño de muestra. A medida que el tamaño de la muestra aumenta, los estimadores se vuelven más precisos y confiables, lo que está en línea con los principios del Teorema del Límite Central y la teoría de estimadores, sin embargo el estimador \(\hat{\theta_3}\) parece presentar los mejores resultados.