Problema

Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ =1.

Para los siguientes estimadores:

θ1=((X1+X2)/6)+((X3+X4)/3)

θ2=(X1+2X2+3X3+4*X4)/5

θ3=(X1+X2+X3+X4)/4

θ4=(min{X1,X2,X3,X4}+max{X1,X2,X3,X4})/2

Determinar θ1, θ2, θ3 y θ4, con repetición de 20, 50, 100 y 1000 veces para cada uno de los estimadores planteados.
Para cada caso (20, 50, 100 y 1000 ) construir un grafico boxplot de los 4 estimadores.
Para cada caso (20, 50, 100 y 1000 ) calcular promedio y varianza de los 4 estimadores.
Evaluar las propiedades de insesgadez, eficiencia y consistencia.

Resultados de simulación

Tabla de promedios de los 4 estimadores para cada una de las repeticiones θ=1

##         Theta1   Theta2    Theta3   Theta4
## 20   0.9835549 1.977686 1.0171289 1.212381
## 50   1.0213774 2.074278 1.0214929 1.136251
## 100  0.9801511 1.961776 0.9964698 1.184178
## 1000 1.0083213 2.023004 1.0050531 1.178901

Tabla de varianza de los 4 estimadores para cada una de las repeticiones

##         Theta1    Theta2    Theta3    Theta4
## 20   0.2033574 1.0105652 0.2448276 0.6108732
## 50   0.1869930 0.8060356 0.1538961 0.2475493
## 100  0.2174801 0.9866637 0.2082749 0.3588806
## 1000 0.2991512 1.3014652 0.2504332 0.4217934

Evaluacion de insesgadez, eficiencia y consistencia para los 4 estimadores (usando los datos de 1000 repeticiones como referencia)

##   Estimador Insesgadez      Eficiencia   Consistencia
## 1    Theta1        Ins Menos eficiente No consistente
## 2    Theta2    Sesgado Menos eficiente No consistente
## 3    Theta3        Ins   Más eficiente No consistente
## 4    Theta4        Ins Menos eficiente    Consistente

Comentarios

Promedios y sesgadez: para un estimador sea insesgado, esperaríamos que su promedio se acerque al valor real de Theta= 1.

Theta1, Theta3, y Theta4 tienen promedios cercanos a 1 en las 4 repeticiones, sugiriendo que son insesgados. Theta2 consistentemente estima valores que son aproximadamente el doble del valor real. Esto sugiere que este estimador es sesgado.

Varianza y eficiencia: la varianza nos da una idea de cuánto se dispersan las estimaciones alrededor del valor promedio.

Theta3 tiene la varianza más pequeña en todas las repeticiones, lo que sugiere que es el estimador más eficiente de los cuatro. Las varianzas para Theta1, Theta2, y Theta4 son comparativamente más altas, siendo Theta2 el más disperso.

Consistencia: la varianzas debe disminuir consistentemente a medida que aumenta el número de repeticiones.

Solo Theta 4 es clasificado como parcialmente consistente. Es el unico en que la varizna a 1000 repeticiones es menor de la de 20 repiticiones. Cabe resaltar que esta disminucion no es presenta de repeticion en repeticion, solo se presenta entre las repeticiones de 20 y 1000.

Comentario general: de los cuatro estimadores, Theta3 parece ser el más prometedor, ya que es insesgado y el más eficiente. Aunque no es considerado “consistente” en este análisis simplificado, sigue siendo el estimador que probablemente preferirías usar basado en la información proporcionada.

Codigo en R

#Funciones para calcular los estimadores y simular repeticiones
calculate_estimators <- function(sample){
  X1 <- sample[1]
  X2 <- sample[2]
  X3 <- sample[3]
  X4 <- sample[4]
  
  theta1 <- ((X1 + X2) / 6) + ((X3 + X4) / 3)
  theta2 <- (X1 + 2 * X2 + 3 * X3 + 4 * X4) / 5
  theta3 <- mean(sample)
  theta4 <- (min(sample) + max(sample)) / 2
    return(c(theta1, theta2, theta3, theta4))
}

simulate_estimators <- function(n, theta){
  results <- matrix(nrow = n, ncol = 4)
  for (i in 1:n){
    sample <- rexp(4, rate=theta) 
    results[i,] <- calculate_estimators(sample)
  }
  return(results)
}

#Simulación y cálculo de estimadores
set.seed(123)
theta <- 1
repetitions <- c(20, 50, 100, 1000)
results_list <- list()

for (rep in repetitions){
  results_list[[as.character(rep)]] <- simulate_estimators(rep, theta)
}

# Creación de las tablas de promedios y varianzas
# Tabla de promedios
mean_data <- matrix(0, nrow=4, ncol=4)
colnames(mean_data) <- c("Theta1", "Theta2", "Theta3", "Theta4")
rownames(mean_data) <- c("20", "50", "100", "1000")

for (i in 1:4) {
  mean_data[i, ] <- apply(results_list[[as.character(repetitions[i])]], 2, mean)
}
mean_data <- as.data.frame(mean_data)
print(mean_data)

# Tabla de varianzas
var_data <- mean_data  
for (i in 1:4) {
  var_data[i, ] <- apply(results_list[[as.character(repetitions[i])]], 2, var)
}
print(var_data)


# Boxplot
colors <- c("lightgoldenrodyellow", "lightblue", "lightgreen", "lightgray")
par(mfrow=c(1,2)) 
for (rep in repetitions){
  boxplot(results_list[[as.character(rep)]], main = paste("Boxplot con", rep, "repeticiones"), ylab="Estimación", xlab="Estimadores", names=c("Theta 1", "Theta 2", "Theta 3", "Theta 4"), col=colors)
  
  # Agregar línea horizontal para theta=1
  abline(h=1, col="red", lwd=2, lty=2)


# Inicializar tabla de evaluación
eval_table <- data.frame(Estimador = c("Theta1", "Theta2", "Theta3", "Theta4"),
                         Insesgadez = rep(NA, 4),
                         Eficiencia = rep(NA, 4),
                         Consistencia = rep(NA, 4))

# Evaluar insesgadez (usando los datos de 1000 repeticiones como referencia)
for (i in 1:4) {
  eval_table$Insesgadez[i] <- ifelse(abs(mean_data["1000", i] - theta) < 0.5, "Ins", "Sesgado")
}

# Evaluar eficiencia (menor varianza en 1000 repeticiones es más eficiente)
min_var_idx <- which.min(var_data["1000", ])
eval_table$Eficiencia[min_var_idx] <- "Más eficiente"
eval_table$Eficiencia[-min_var_idx] <- "Menos eficiente"

# Evaluar consistencia (verificar si la varianza disminuye con más repeticiones)
for (i in 1:4) {
  eval_table$Consistencia[i] <- ifelse(var_data["1000", i] < var_data["20", i], "Consistente", "No consistente")
}

# Mostrar tabla
print(eval_table)

Unidad 2, Problema 2: Propiedades de los estimadores

Paula López

2023-09-13