La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son, insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean \(X1, X2, X3 \ y \ X4\), una muestra aleatoria de tamaño \(n=4\) cuya población la conforma una distribución exponencial con parámetro \(θ\) desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

\(\hat{\theta}_1 = \frac{X_1 + X_2}{6} + \frac{X_3 + X_4}{3}\)

\(\hat{\theta}_2 = \frac{X_1 + 2X_2 + 3X_3 + 4X_4}{5}\)

\(\hat{\theta}_3 = \frac{X_1 + X_2 + X_3 + X_4}{4}\)

\(\hat{\theta}_4 = \frac{\min\{X_1, X_2, X_3, X_4\} + \max\{X_1, X_2, X_3, X_4\}}{2}\)

El objetivo es simular datos de una distribución exponencial y utilizar diferentes fórmulas (estimadores) para tratar de “adivinar” o estimar el valor real del parámetro de esta distribución. Este parámetro \(θ\), determina la forma de la distribución exponencial.

Estimadores: Fórmulas utilizadas para calcular una estimación del parámetro \(θ\) a partir de una muestra de datos. En este caso, cuatro estimadores diferentes, cada uno con su propia fórmula.

Propiedades de los Estimadores:

Insesgadez: Un estimador es insesgado si el valor promedio que se obtiene al aplicarlo a muchas muestras es igual al valor verdadero del parámetro \(θ\). Es decir, no sobreestima ni subestima sistemáticamente el valor real.

Eficiencia: Un estimador es más eficiente si tiene una varianza menor. Esto significa que las estimaciones obtenidas están más concentradas alrededor del valor verdadero de \(θ\).

Consistencia: Un estimador es consistente si, a medida que aumenta el tamaño de la muestra, la probabilidad de que el estimador esté cerca del valor verdadero de \(θ\) tiende a 1. Es decir, a medida que tenemos más datos, nuestra estimación se vuelve más precisa.

Paso 1: Definir los estimadores.

# Definición de los distintos estimadores para el conjunto de datos

# Estimador 1: Promedio ponderado de los dos primeros y los dos últimos elementos

estimador_1 <- function(x) {
  (x[1] + x[2]) / 6 + (x[3] + x[4]) / 3
}

# Estimador 2: Promedio ponderado con coeficientes ascendentes

estimador_2 <- function(x) {
  (x[1] + 2*x[2] + 3*x[3] + 4*x[4]) / 5
}


# Estimador 3: Media aritmética de los elementos

estimador_3 <- function(x) {
  mean(x)
}

# Estimador 4: Promedio del valor mínimo y máximo del conjunto

estimador_4 <- function(x) {
  (min(x) + max(x)) / 2
}

Paso 2: Simular los datos.

# Simulación de datos y cálculo de estimaciones 
simulacion <- function(n, theta=2, num_sims=1000) {
  resultados <- matrix(NA, nrow = num_sims, ncol = 4)
  
#rexp(): Generamos una muestra aleatoria desde la distribución exponencial
  for (i in 1:num_sims) {
    
#La distribución exponencial tiene un solo parámetro, generalmente denotado por λ (lambda), que representa la tasa de ocurrencia de eventos. La media de una distribución exponencial es 1/λ, por tanto se utiliza el parametro 1/θ
    muestra <- rexp(n, rate = 1/theta)
    resultados[i, ] <- c(estimador_1(muestra), estimador_2(muestra), estimador_3(muestra), estimador_4(muestra))
  }
  return(resultados)
}

Paso 3: Evaluación de estimadores.

Con un número de muestra = 20

##     Estimador    Media  Varianza
## 1 Estimador 1 2.011504 1.1074591
## 2 Estimador 2 4.040701 4.9339566
## 3 Estimador 3 1.993518 0.2005388
## 4 Estimador 4 3.608384 1.5274392

Con un número de muestra = 50

##     Estimador    Media   Varianza
## 1 Estimador 1 1.985851 1.01289452
## 2 Estimador 2 3.962456 4.44038135
## 3 Estimador 3 1.995659 0.07961981
## 4 Estimador 4 4.513409 1.64555784

Con un número de muestra = 100

##     Estimador    Media   Varianza
## 1 Estimador 1 1.963245 1.01588469
## 2 Estimador 2 3.922947 4.39938247
## 3 Estimador 3 1.995701 0.04112825
## 4 Estimador 4 5.219246 1.65479816

Con un número de muestra = 1.000

##     Estimador    Media    Varianza
## 1 Estimador 1 1.998870 1.117428533
## 2 Estimador 2 4.009370 4.875097176
## 3 Estimador 3 1.998216 0.003994778
## 4 Estimador 4 7.389908 1.465707903

Con base en la media, se encontró que los estimadores \(\hat{\theta}_1\) y \(\hat{\theta}_3\) tienen menor sesgo, debido a que su valor es mucho más cercano al valor supuesto (2) y su varianza es menor respecto a la de los demás estimadores lo que significa que también son más eficientes. Finalmente, en los boxplots de los tamaños de muestra se evidenció la mayor consistencia en el estimador 3 seguido por el estimador 1.

Resultados:

Estimadores ordenados de mayor a menor por cada caracteristica de estimación:

Insesgadez: \(\hat{\theta}_3\)  \(\hat{\theta}_1\)  \(\hat{\theta}_2\)   \(\hat{\theta}_4\)

Eficiencia: \(\hat{\theta}_3\)  \(\hat{\theta}_1\)  \(\hat{\theta}_4\)   \(\hat{\theta}_2\)

Consistencia: \(\hat{\theta}_3\)  \(\hat{\theta}_1\)  \(\hat{\theta}_4\)   \(\hat{\theta}_2\)

Si bien \(\hat{\theta}_4\) al tener menor varianza y por lo tanto mayor eficiencia que \(\hat{\theta}_2\), la media de los valores estimados de \(\hat{\theta}_2\) son más cercanos al varlo real de \(\theta\) por lo que \(\hat{\theta}_2\) es menos eficiente pero también tiene menos sesgo. Adicionalmente, se pudo determinar que el mejor estimador es \(\hat{\theta}_3\)