Problema 2 - Propiedades de los estimadores

Definición del problema.

El problema planteado es evaluar las propiedades de varios estimadores propuestos para estimar el parámetro.𝜃 de una distribución exponencial. Específicamente, se busca analizar las propiedades de insesgadez, eficiencia y consistencia de los estimadores. El objetivo es determinar cuál de los estimadores propuestos es el más adecuado para estimar θ.

Definición de los objetivos.

Evaluar las propiedades de insesgadez, eficiencia y consistencia de los estimadores.θ1​,​θ2​,​θ3​,​ y θ4​​ para diferentes tamaños de muestra (norte=20,50,100,1000). + Identificar cuál de los estimadores propuestos tiene un mejor desempeño para estimar el parámetro θen función de las propiedades evaluadas.

Diseño del experimento.

  • Se generaron parámetro=1000metro=1000muestras aleatorias de una distribución exponencial con parámetro𝜃= 2para cada tamaño de muestra norte =20,50,100,1000
  • Para cada muestra, se calcularon los valores de los cuatro estimadores propuestos.
  • Posteriormente, se evaluaron las propiedades de insesgadez (media de los estimadores), eficiencia (varianza) y consistencia (comportamiento de la varianza al aumentar).norte).

Recolección de la información.

La información fue recolectada a partir de simulaciones de muestras generadas usando la función rexp()en R, que permite obtener muestras de una distribución exponencial con un parámetro 𝜃.Para cada tamaño de muestra norte, se generaron 1000 réplicas (muestras), con lo que se obtuvieron 1000 valores de cada estimador para cada tamaño de muestra.

Procesamiento de datos.

  • Cálculo de los estimadores para cada muestra.
  • Cálculo de las medias y variaciones de cada estimador para evaluar las propiedades de insesgadez y eficiencia.
  • Comparación de los estimadores mediante gráficos de cajas (boxplots) y líneas de referencia en los gráficos para el valor verdadero del parámetro 𝜃.

Análisis descriptivo o exploratorio de datos.

Probabilidad : Las muestras provienen de una distribución exponencial, que es una distribución de probabilidad continua con un solo parámetro𝜃, que controla la tasa de decadencia de los datos.

Variable aleatoria : Las variables aleatorias incógnita 1​,incógnita 2​,incógnita 3​,incógnita 4​ siguen una distribución exponencial con parámetro𝜃. El objetivo es estimar este parámetro con diferentes combinaciones lineales de las muestras (estimadores).

# Parámetro theta
theta <- 2  # Suponiendo que theta = 2

# Tamaños de muestra
n_values <- c(20, 50, 100, 1000)

# Función para generar estimadores para una muestra
simular_estimadores <- function(n, m, theta) {
  # Generar m muestras de tamaño n de una distribución exponencial con parámetro theta
  muestras <- matrix(rexp(n * m, rate = 1 / theta), nrow = m, ncol = n)
  
  # Definir los estimadores
  theta_1 <- (muestras[,1] + muestras[,2]) / 6 + (muestras[,3] + muestras[,4]) / 3
  theta_2 <- (muestras[,1] + 2 * muestras[,2] + 3 * muestras[,3] + 4 * muestras[,4]) / 5
  theta_3 <- rowMeans(muestras[,1:4])
  theta_4 <- (apply(muestras[,1:4], 1, min) + apply(muestras[,1:4], 1, max)) / 2
  
  # Crear un data.frame con los estimadores
  data.frame(theta_1, theta_2, theta_3, theta_4)
}

# Número de repeticiones (simulaciones)
m <- 1000

# Aplicamos el proceso para cada tamaño de muestra
resultados <- lapply(n_values, function(n) {
  estimadores <- simular_estimadores(n, m, theta)
  
  # Evaluar las propiedades: Insesgadez, Eficiencia y Consistencia
  insesgadez <- colMeans(estimadores)  # Promedio de los estimadores
  varianza <- apply(estimadores, 2, var)  # Varianza (eficiencia)
  
  list(
    n = n,
    insesgadez = insesgadez,
    varianza = varianza
  )
})

# Mostrar los resultados de insesgadez y eficiencia para cada tamaño de muestra
for (res in resultados) {
  cat("\nTamaño de muestra (n):", res$n)
  cat("\nInsesgadez (Media de los estimadores):\n")
  print(res$insesgadez)
  cat("\nVarianza de los estimadores (Eficiencia):\n")
  print(res$varianza)
}
## 
## Tamaño de muestra (n): 20
## Insesgadez (Media de los estimadores):
##  theta_1  theta_2  theta_3  theta_4 
## 2.012519 4.029810 2.023309 2.363642 
## 
## Varianza de los estimadores (Eficiencia):
##   theta_1   theta_2   theta_3   theta_4 
## 1.0325722 4.4202143 0.9808504 1.5769535 
## 
## Tamaño de muestra (n): 50
## Insesgadez (Media de los estimadores):
##  theta_1  theta_2  theta_3  theta_4 
## 2.022500 4.055601 2.019031 2.331816 
## 
## Varianza de los estimadores (Eficiencia):
##   theta_1   theta_2   theta_3   theta_4 
## 1.0742813 4.6608714 0.9587684 1.5078158 
## 
## Tamaño de muestra (n): 100
## Insesgadez (Media de los estimadores):
##  theta_1  theta_2  theta_3  theta_4 
## 2.029839 4.041466 2.019617 2.394147 
## 
## Varianza de los estimadores (Eficiencia):
##  theta_1  theta_2  theta_3  theta_4 
## 1.193045 5.170674 1.030915 1.767248 
## 
## Tamaño de muestra (n): 1000
## Insesgadez (Media de los estimadores):
##  theta_1  theta_2  theta_3  theta_4 
## 1.981755 3.922747 2.003548 2.322955 
## 
## Varianza de los estimadores (Eficiencia):
##  theta_1  theta_2  theta_3  theta_4 
## 1.107598 4.608251 1.027635 1.739726
# Graficar la comparación de los estimadores para diferentes tamaños de muestra
for (n in n_values) {
  estimadores <- simular_estimadores(n, m, theta)
  
  # Definir los colores para cada estimador
  colores <- c("#FFD7D9", "#C7D9F2", "#FCD1AD", "#D2EFB2")  # Colores para theta_1, theta_2, theta_3, theta_4
  
  # Crear el gráfico con colores personalizados para cada estimador
  boxplot(estimadores, 
          main = paste("Comparación de estimadores para n =", n), 
          names = c("theta_1", "theta_2", "theta_3", "theta_4"), 
          las = 1, 
          boxfill = colores)  # Usamos 'boxfill' para asignar colores a las cajas
  
  abline(h = theta, col = "#FF0000", lty = 2)  # Línea indicando el valor de theta
}

Inferencia estadística.

Insesgadez : Se calculó la media de cada estimador para ver qué tan cerca está del valor verdadero de 𝜃. Un estimador es insesgado si, en promedio, coincide con el parámetro real (𝜃).En general, los estimadores𝜃3^​ ​y𝜃4​^​ tendencia a ser más insesgados, con valores medios cercanos al verdadero𝜃=2.

Eficiencia : Se midió la variación de cada estimador. Un estimador es más eficiente si tiene una variación menor.

  • Los resultados indicaron que𝜃3​ (media muestral) es el más eficiente para los diferentes tamaños de muestra, con la menor varianza en comparación con los demás estimadores.

Consistencia : A medida que el tamaño de la muestra norte norteaumenta, se espera que la variación de los estimadores disminuya. Esto fue evidente en los gráficos, donde la dispersión de los estimadores disminuye conforme norte norteaumenta, especialmente para 𝜃3​ y𝜃4​ , lo que indica que son consistentes.

Conclusiones.

  • De los evaluadores evaluados, 𝜃3^= incógnita 1 + incógnita 2 + incógnita 3 + incógnita 4 θ3​^​= 4 incógnita 1​+ X 2​+ X 3​+ X 4​​ , que es la media muestral, demuestra ser el más eficiente (con menor varianza) y consistente. +𝜃4​, basado en los valores mínimo y máximo, también mostró un buen comportamiento en términos de insesgadez y consistencia.
  • Los estimadores𝜃1​ y𝜃2​ resultaron menos eficientes y, en algunos casos, sesgados.

Recomendaciones.

  • Para la estimación del parámetro𝜃de una distribución exponencial, se recomienda utilizar la mediamuestral (𝜃3​) debido a su buen desempeño en todas las métricas evaluadas (insesgadez, eficiencia y consistencia).
  • En situaciones donde el cálculo de la media muestral no sea posible, el estimador 𝜃4​ puede ser una buena alternativa, ya que también mostró un buen desempeño en términos de insesgadez y consistencia.