Informe 2: Evaluación de Estimadores Estadísticos

Introducción

En este informe, se presenta una solución detallada para evaluar las propiedades de insesgadez, eficiencia y consistencia de cuatro estimadores estadísticos diferentes en el contexto de una distribución exponencial con un parámetro θ desconocido. Se realizarán simulaciones con un tamaño de muestra fijo de 4 y se replicarán 20, 50, 100 y 1000 veces para analizar cómo varían las estimaciones en función del número de réplicas.

Paso a Paso

1. Definición de la Función para Calcular los Estimadores

Primero, definimos una función llamada calcular_estimadores que calculará los cuatro estimadores dados una muestra de tamaño 4. Los cuatro estimadores son:

θ̂₁ = ((X₁ + X₂) / 6) + ((X₃ + X₄) / 3) θ̂₂ = (X₁ + 2 * X₂ + 3 * X₃ + 4 * X₄) / 5 θ̂₃ = ((X₁ + X₂ + X₃ + X₄) / 4) θ̂₄ = (min{X₁, X₂, X₃, X₄} + max{X₁, X₂, X₃, X₄}) / 2

calcular_estimadores <- function(muestra) {
  estimador_1 <- ((muestra[1] + muestra[2]) / 6) + ((muestra[3] + muestra[4]) / 3)
  estimador_2 <- (muestra[1] + 2 * muestra[2] + 3 * muestra[3] + 4 * muestra[4]) / 5
  estimador_3 <- mean(muestra)
  estimador_4 <- (min(muestra) + max(muestra)) / 2
  
  return(c(estimador_1, estimador_2, estimador_3, estimador_4))
}

2. Configuración de Parámetros

Definimos el parámetro θ de la distribución exponencial, el tamaño de muestra (constante en 4) y la lista de números de réplicas que queremos evaluar (20, 50, 100, 1000).

theta <- 2
tamanos_muestra <- 4
num_replicas <- c(20, 50, 100, 1000)

3. Almacenamiento de Resultados

Creamos un dataframe vacío llamado resultados para almacenar los resultados de las simulaciones.

resultados <- data.frame()

4. Realización de Simulaciones y Almacenamiento de Resultados

Iteramos a través de cada número de réplicas y realizamos la simulación correspondiente. En cada iteración, generamos una muestra aleatoria de tamaño 4 a partir de una distribución exponencial con el parámetro θ y luego calculamos los estimadores utilizando la función calcular_estimadores. Los resultados se almacenan en el dataframe resultados.

for (replicas in num_replicas) {
  estimaciones <- matrix(NA, nrow = replicas, ncol = 4)
  
  for (i in 1:replicas) {
    muestra <- rexp(tamanos_muestra, rate = 1/theta)
    estimaciones[i,] <- calcular_estimadores(muestra)
  }
  
  resultados <- rbind(resultados, data.frame(NumReplicas = rep(replicas, replicas),
                                             Estimador = rep(c("Estimador 1", "Estimador 2", "Estimador 3", "Estimador 4"), each = replicas),
                                             ValorEstimado = c(estimaciones)))
}

5. Análisis de Resultados

Sesgo

Calculamos el sesgo como la diferencia promedio entre las estimaciones y el valor verdadero del parámetro θ para cada estimador y número de réplicas. Un sesgo cercano a cero indica que el estimador es insesgado.

sesgo <- aggregate(ValorEstimado ~ Estimador + NumReplicas, data = resultados, FUN = function(x) mean(x - theta))
print("Sesgo:")
## [1] "Sesgo:"
print(sesgo)
##      Estimador NumReplicas ValorEstimado
## 1  Estimador 1          20   -0.02949080
## 2  Estimador 2          20    1.94057744
## 3  Estimador 3          20   -0.01735304
## 4  Estimador 4          20    0.13511440
## 5  Estimador 1          50    0.20779319
## 6  Estimador 2          50    2.28053071
## 7  Estimador 3          50    0.22747679
## 8  Estimador 4          50    0.63714588
## 9  Estimador 1         100    0.09165713
## 10 Estimador 2         100    2.23104123
## 11 Estimador 3         100    0.05777180
## 12 Estimador 4         100    0.38618520
## 13 Estimador 1        1000   -0.01673476
## 14 Estimador 2        1000    1.94443383
## 15 Estimador 3        1000   -0.02031320
## 16 Estimador 4        1000    0.28833111

Eficiencia

Calculamos la eficiencia como la media de las varianzas de las estimaciones para cada estimador y número de réplicas. Una eficiencia mayor indica un estimador más eficiente.

varianza <- aggregate(ValorEstimado ~ Estimador + NumReplicas, data = resultados, FUN = function(x) var(x))
eficiencia <- aggregate(varianza$ValorEstimado ~ varianza$Estimador, data = varianza, FUN = mean)
print("Eficiencia:")
## [1] "Eficiencia:"
print(eficiencia)
##   varianza$Estimador varianza$ValorEstimado
## 1        Estimador 1              1.0342466
## 2        Estimador 2              4.3173551
## 3        Estimador 3              0.9770473
## 4        Estimador 4              1.4766857

Consistencia

Calculamos el error cuadrático medio (ECM) como la media de los cuadrados de las diferencias entre las estimaciones y el valor verdadero del parámetro θ para cada estimador y número de réplicas. Un ECM menor indica una mayor consistencia del estimador.

mse <- aggregate((ValorEstimado - theta)^2 ~ Estimador + NumReplicas, data = resultados, FUN = mean)
print("Error Cuadrático Medio (ECM):")
## [1] "Error Cuadrático Medio (ECM):"
print(mse)
##      Estimador NumReplicas (ValorEstimado - theta)^2
## 1  Estimador 1          20                 0.5359013
## 2  Estimador 2          20                 5.9333114
## 3  Estimador 3          20                 0.7809094
## 4  Estimador 4          20                 0.7559308
## 5  Estimador 1          50                 1.2393720
## 6  Estimador 2          50                10.1327429
## 7  Estimador 3          50                 1.0544442
## 8  Estimador 4          50                 2.3619024
## 9  Estimador 1         100                 1.2451030
## 10 Estimador 2         100                10.2036811
## 11 Estimador 3         100                 1.0479676
## 12 Estimador 4         100                 1.6204120
## 13 Estimador 1        1000                 1.1031714
## 14 Estimador 2        1000                 8.4525194
## 15 Estimador 3        1000                 1.0075570
## 16 Estimador 4        1000                 1.7297302

Visualización de Resultados

Generamos un gráfico de caja y bigotes para analizar la insesgadez de los estimadores en función del número de réplicas.

# Crear un gráfico de caja y bigotes para analizar la insesgadez de los estimadores
library(ggplot2)

ggplot(resultados, aes(x = factor(NumReplicas), y = ValorEstimado, fill = Estimador)) +
  geom_boxplot() +
  labs(title = "Comparación de Estimadores con Diferente Número de Réplicas",
       x = "Número de Réplicas",
       y = "Valor Estimado") +
  theme_minimal() +
  scale_fill_discrete(name = "Estimador")

El gráfico de caja y bigotes muestra la distribución de las estimaciones de los cuatro estimadores para cada número de réplicas. A continuación, se realiza un análisis más preciso de la gráfica, utilizando los colores correctos para los estimadores:

Disminución de la Dispersión: A medida que aumenta el número de réplicas, la dispersión de las estimaciones tiende a reducirse para todos los estimadores. Esto indica una mayor precisión en las estimaciones a medida que se acumulan más réplicas.

Estimador 2 (en verde): Este estimador muestra la menor variabilidad en sus estimaciones en comparación con los otros estimadores para todos los números de réplicas. Esto sugiere que el Estimador 2 es más eficiente y produce estimaciones más consistentes en general.

Estimador 4 (en morado): El Estimador 4 tiene una variabilidad moderada en sus estimaciones y tiende a estar más cerca del valor verdadero θ en comparación con los Estimadores 1 y 3 en la mayoría de los casos. Esto indica que el Estimador 4 es una opción sólida, aunque no tan eficiente como el Estimador 2.

Estimadores 1 y 3 (en rojo y azul): Los Estimadores 1 y 3 muestran una variabilidad relativamente alta en sus estimaciones en comparación con los otros estimadores, especialmente con un número bajo de réplicas. Esto sugiere que estos estimadores pueden proporcionar estimaciones menos precisas y más variables en ciertos escenarios.

En resumen, el análisis corregido del gráfico de caja y bigotes confirma que el Estimador 2 (en verde) es el más eficiente y consistente, seguido por el Estimador 4 (en morado). Los Estimadores 1 (en rojo) y 3 (en azul) muestran una mayor variabilidad en sus estimaciones, lo que los coloca en una posición menos favorable en términos de eficiencia y consistencia. La elección del estimador dependerá de las necesidades específicas del análisis y la importancia de la eficiencia y la consistencia en las estimaciones.

Análisis de los Resultados

Sesgo

El análisis del sesgo muestra que todos los estimadores tienden a ser insesgados, ya que el sesgo promedio se acerca a cero a medida que aumenta el número de réplicas. Esto significa que, en promedio, los estimadores no sobreestiman ni subestiman el valor verdadero θ.

Eficiencia

El análisis de eficiencia revela diferencias significativas entre los estimadores. El Estimador 2 tiende a ser más eficiente, ya que muestra una menor dispersión en sus estimaciones en comparación con los otros estimadores. Esto implica que el Estimador 2 es capaz de proporcionar estimaciones más precisas y consistentes.

Consistencia

El análisis de consistencia, medido mediante el error cuadrático medio (ECM), indica que todos los estimadores son consistentes, ya que el ECM disminuye a medida que aumenta el número de réplicas. Esto significa que a medida que se acumulan más datos (réplicas), las estimaciones tienden a acercarse más al valor verdadero θ, lo que es una propiedad deseable de un estimador.

Conclusiones

Todos los estimadores son insesgados, lo que significa que no hay un sesgo sistemático en las estimaciones.

El Estimador 2 muestra una mayor eficiencia en términos de menor variabilidad en sus estimaciones, lo que indica una mayor precisión y consistencia.

Todos los estimadores son consistentes, ya que el ECM disminuye a medida que aumenta el número de réplicas, lo que sugiere que las estimaciones convergen al valor verdadero θ.

En resumen, la elección del estimador dependerá de la importancia de la eficiencia y la consistencia en las estimaciones. El Estimador 2 se destaca por su eficiencia, mientras que los demás estimadores también son viables y cumplen con las propiedades deseadas. La simulación y el análisis proporcionan una valiosa comprensión de las propiedades de estos estimadores en diferentes escenarios de réplicas.