1. Problema

La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son. insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean X1, X2 , X3 y X4 , una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

\[\begin{align*} a. \theta_1 &= \frac{{X_1 + X_2}}{6} + \frac{{X_3 + X_4}}{3} \\ b. \theta_2 &= \frac{{X_1 + 2X_2 + 3X_3 + 4X_4}}{5} \\ c. \theta_3 &= \frac{{X_1 + X_2 + X_3 + X_4}}{4} \\ d. \theta_4 &= \frac{{\min\{X_1, X_2, X_3, X_4\} + \max\{X_1, X_2, X_3, X_4\}}}{2} \end{align*}\]

2. Objetivo

Analizar y comparar cuatro estimadores diferentes para el parámetro θ de una distribución exponencial. Para cada uno de estos estimadores, se busca evaluar sus propiedades de insesgadez, eficiencia y consistencia a través de la simulación.

3. Proceso

Para el desarrollo de es proceso se elaboro un código que realiza simulaciones para estimar un parámetro θ utilizando cuatro métodos diferentes. A continuación, se describe brevemente el código por segmentos:

Funciones de Estimación:

  • theta1_hat: Calcula un estimador basado en una combinación ponderada de los primeros cuatro datos de la muestra.
  • theta2_hat: Estima θ usando una ponderación determinada de todos los valores en la muestra.
  • theta3_hat: Estima θ como el promedio de todos los valores de la muestra.
  • theta4_hat: Estima θ como el promedio del mínimo y máximo valor de la muestra.

Inicialización:

Se definen tamaños de muestra y un valor real para θ que se utilizará en las simulaciones. También, se establece una semilla para garantizar la reproducibilidad de los resultados aleatorios.

Simulación:

Por cada tamaño de muestra, se realiza una simulación en la que:

  • Se genera una muestra de datos de una distribución exponencial.
  • Se aplica cada función de estimación a un subconjunto aleatorio de cuatro datos.
  • Se almacenan los resultados de la estimación.

Cálculo de Insesgadez:

Para cada método de estimación, se calcula la insesgadez, que es la diferencia entre el valor esperado del estimador y el verdadero valor de θ.

Visualización:

Se utiliza un boxplot para visualizar las estimaciones de θ obtenidas con cada método. Los boxplots ofrecen una manera de visualizar la distribución de las estimaciones.

Resumen de Resultados:

Se presentan las medias y varianzas de las estimaciones para cada método, junto con la insesgadez calculada.

El objetivo principal del código es evaluar y visualizar el desempeño de distintos estimadores para el parámetro θ a través de simulaciones.

3. Desarrollo

# Definir las funciones para cada estimador
theta1_hat <- function(muestraData){
  return((sum(muestraData[1:2]) / 6) + (sum(muestraData[3:4]) / 3))
}

theta2_hat <- function(muestraData){
  return(sum(muestraData * c(1, 2, 3, 4)) / 5)
}

theta3_hat <- function(muestraData){
  return(mean(muestraData))
}

theta4_hat <- function(muestraData){
  return((min(muestraData) + max(muestraData)) / 2)
}

# Valores de los tamaños de muestra
tamanos_muestra <- c(20,50,100,1000)
theta_real <- 1
set.seed(42)
# Realizar las cuatro simulaciones
for (elemento in tamanos_muestra) {
  
  estimacion_Theta_01 <- numeric(elemento) 
  estimacion_Theta_02 <- numeric(elemento) 
  estimacion_Theta_03 <- numeric(elemento) 
  estimacion_Theta_04 <- numeric(elemento) 
  
  valoresData <- rexp(elemento, rate=1/theta_real)
  for(i in 1:elemento){
    valoresAProcesar <- sample(valoresData,4)
    #print (valoresData)
    #print ("**********************************************************")
    #print (valoresAProcesar)
    estimacion_Theta_01[i] <- theta1_hat(valoresAProcesar)
    estimacion_Theta_02[i] <- theta2_hat(valoresAProcesar)
    estimacion_Theta_03[i] <- theta3_hat(valoresAProcesar)
    estimacion_Theta_04[i] <- theta4_hat(valoresAProcesar)
    
  }
insesgadez <- numeric(4)
eficiencia <- numeric(4)
# Calcular insesgadez, eficiencia y consistencia para cada estimación
insesgadez[1] <- mean(estimacion_Theta_01) - theta_real
insesgadez[2] <- mean(estimacion_Theta_02) - theta_real
insesgadez[3] <- mean(estimacion_Theta_03) - theta_real
insesgadez[4] <- mean(estimacion_Theta_04) - theta_real

datainsegadez <- data.frame(insesgadez = c(insesgadez[1],insesgadez[2],insesgadez[3],insesgadez[4]))
 # Crear un vector de etiquetas para cada boxplot
etiquetas <- c("Theta 01", "Theta 02", "Theta 03", "Theta 04")

# Crear un solo gráfico con cuatro boxplots
boxplot(
  list(estimacion_Theta_01, estimacion_Theta_02, estimacion_Theta_03, estimacion_Theta_04),
  #main="Estimaciones de Theta",
  main=paste("Estimación de Theta (n =", elemento, ")"),
  ylab="Valor Estimado",
  col=c("lightblue", "lightgreen", "lightpink", "lightyellow"),
  names=etiquetas,
  border="black",
  las=2  # Orientación de las etiquetas en el eje x
)

resultados=data.frame(estimacion_Theta_01, estimacion_Theta_02, estimacion_Theta_03, estimacion_Theta_04)
medias <- apply(resultados, 2, mean)
varianzas <- apply(resultados, 2, var) # Eficiencia
mediasVarianzas =data.frame(medias, varianzas, datainsegadez)
print(mediasVarianzas)

valoresData <- c()
}

##                        medias varianzas insesgadez
## estimacion_Theta_01 0.6538510 0.1253215 -0.3461490
## estimacion_Theta_02 1.3212309 0.5757857  0.3212309
## estimacion_Theta_03 0.6398454 0.1008848 -0.3601546
## estimacion_Theta_04 0.7053939 0.1203709 -0.2946061

##                        medias varianzas   insesgadez
## estimacion_Theta_01 0.9946322 0.2376013 -0.005367847
## estimacion_Theta_02 1.9717534 0.9783404  0.971753412
## estimacion_Theta_03 1.0377009 0.2165120  0.037700925
## estimacion_Theta_04 1.1297242 0.2475566  0.129724176

##                        medias varianzas  insesgadez
## estimacion_Theta_01 0.9171756 0.2281514 -0.08282444
## estimacion_Theta_02 1.8367048 1.0100434  0.83670483
## estimacion_Theta_03 0.9239958 0.2086988 -0.07600423
## estimacion_Theta_04 1.0148969 0.2633674  0.01489688

##                        medias varianzas   insesgadez
## estimacion_Theta_01 0.9922087 0.2771184 -0.007791288
## estimacion_Theta_02 1.9845864 1.1926097  0.984586424
## estimacion_Theta_03 0.9919872 0.2449272 -0.008012760
## estimacion_Theta_04 1.1402994 0.3913505  0.140299436

4. Conclusión

Para n=20:

  • estimacion_Theta_01: Tiene la varianza más baja, lo que es bueno. Sin embargo, también tiene una insesgadez considerable (casi -0.35), lo que significa que, en promedio, este estimador tiende a subestimar el verdadero valor de θ por 0.35.

  • estimacion_Theta_02: Su insesgadez es positiva y también considerable, lo que indica que, en promedio, este estimador tiende a sobreestimar θ. Además, tiene la varianza más alta de los cuatro, lo que es menos deseable.

  • estimacion_Theta_03: Aunque su varianza es la más baja después de la de estimacion_Theta_01, también subestima θ en un valor similar.

  • estimacion_Theta_04: Posee una insesgadez menor en magnitud en comparación con las estimaciones 01 y 03, lo que indica que está más cerca del verdadero valor de θ. Su varianza es la segunda más alta, pero no es demasiado diferente de las estimaciones 01 y 03.

Para n=50:

  • estimacion_Theta_01: Está casi insesgado (su insesgadez está muy cerca de 0). Además, tiene una varianza moderada en comparación con las demás.

  • estimacion_Theta_02: Al igual que en el caso anterior, tiene una varianza alta y sobreestima considerablemente θ.

  • estimacion_Theta_03 y estimacion_Theta_04: Ambos tienen insesgadez positiva y varianzas relativamente bajas.

Para n=100:

  • estimacion_Theta_01 y estimacion_Theta_03: Ambas tienen insesgadez negativa, pero sus magnitudes son menores en comparación con n=20, lo que sugiere una mejora en la precisión de la estimación a medida que aumenta n.

  • estimacion_Theta_02: Sigue teniendo la varianza más alta y una insesgadez positiva considerable.

  • estimacion_Theta_04: Es casi insesgado y tiene una varianza moderada.

Para n=1000:

  • estimacion_Theta_01 y estimacion_Theta_03: Ambos son casi insesgados, con varianzas moderadas, indicando una mayor precisión en la estimación a medida que n aumenta.

  • estimacion_Theta_02: Continúa mostrando una insesgadez positiva considerable y tiene la varianza más alta.

  • estimacion_Theta_04: Tiene una insesgadez positiva moderada y la segunda varianza más alta.