La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son, insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean \(X1, X2, X3 \ y \ X4\), una muestra aleatoria de tamaño \(n=4\) cuya población la conforma una distribución exponencial con parámetro \(θ\) desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
\(\hat{\theta}_1 = \frac{X_1 + X_2}{6} + \frac{X_3 + X_4}{3}\)
\(\hat{\theta}_2 = \frac{X_1 + 2X_2 + 3X_3 + 4X_4}{5}\)
\(\hat{\theta}_3 = \frac{X_1 + X_2 + X_3 + X_4}{4}\)
\(\hat{\theta}_4 = \frac{\min\{X_1, X_2, X_3, X_4\} + \max\{X_1, X_2, X_3, X_4\}}{2}\)
El objetivo es simular datos de una distribución exponencial y utilizar diferentes fórmulas (estimadores) para tratar de “adivinar” o estimar el valor real del parámetro de esta distribución. Este parámetro \(θ\), determina la forma de la distribución exponencial.
Estimadores: Fórmulas utilizadas para calcular una estimación del parámetro \(θ\) a partir de una muestra de datos. En este caso, cuatro estimadores diferentes, cada uno con su propia fórmula.
Propiedades de los Estimadores:
Insesgadez: Un estimador es insesgado si el valor promedio que se obtiene al aplicarlo a muchas muestras es igual al valor verdadero del parámetro \(θ\). Es decir, no sobreestima ni subestima sistemáticamente el valor real.
Eficiencia: Un estimador es más eficiente si tiene una varianza menor. Esto significa que las estimaciones obtenidas están más concentradas alrededor del valor verdadero de \(θ\).
Consistencia: Un estimador es consistente si, a medida que aumenta el tamaño de la muestra, la probabilidad de que el estimador esté cerca del valor verdadero de \(θ\) tiende a 1. Es decir, a medida que tenemos más datos, nuestra estimación se vuelve más precisa.
Paso 1: Definir los estimadores.
# Definición de los distintos estimadores para el conjunto de datos
# Estimador 1: Promedio ponderado de los dos primeros y los dos últimos elementos
estimador_1 <- function(x) {
(x[1] + x[2]) / 6 + (x[3] + x[4]) / 3
}
# Estimador 2: Promedio ponderado con coeficientes ascendentes
estimador_2 <- function(x) {
(x[1] + 2*x[2] + 3*x[3] + 4*x[4]) / 5
}
# Estimador 3: Media aritmética de los elementos
estimador_3 <- function(x) {
mean(x)
}
# Estimador 4: Promedio del valor mínimo y máximo del conjunto
estimador_4 <- function(x) {
(min(x) + max(x)) / 2
}
Paso 2: Simular los datos.
# Simulación de datos y cálculo de estimaciones
simulacion <- function(n, theta=2, num_sims=1000) {
resultados <- matrix(NA, nrow = num_sims, ncol = 4)
#rexp(): Generamos una muestra aleatoria desde la distribución exponencial
for (i in 1:num_sims) {
#La distribución exponencial tiene un solo parámetro, generalmente denotado por λ (lambda), que representa la tasa de ocurrencia de eventos. La media de una distribución exponencial es 1/λ, por tanto se utiliza el parametro 1/θ
muestra <- rexp(n, rate = 1/theta)
resultados[i, ] <- c(estimador_1(muestra), estimador_2(muestra), estimador_3(muestra), estimador_4(muestra))
}
return(resultados)
}
Paso 3: Evaluación de estimadores.
Con un número de muestra = 20
## Estimador Media Varianza
## 1 Estimador 1 2.011504 1.1074591
## 2 Estimador 2 4.040701 4.9339566
## 3 Estimador 3 1.993518 0.2005388
## 4 Estimador 4 3.608384 1.5274392
Con un número de muestra = 50
## Estimador Media Varianza
## 1 Estimador 1 1.985851 1.01289452
## 2 Estimador 2 3.962456 4.44038135
## 3 Estimador 3 1.995659 0.07961981
## 4 Estimador 4 4.513409 1.64555784
Con un número de muestra = 100
## Estimador Media Varianza
## 1 Estimador 1 1.963245 1.01588469
## 2 Estimador 2 3.922947 4.39938247
## 3 Estimador 3 1.995701 0.04112825
## 4 Estimador 4 5.219246 1.65479816
Con un número de muestra = 1.000
## Estimador Media Varianza
## 1 Estimador 1 1.998870 1.117428533
## 2 Estimador 2 4.009370 4.875097176
## 3 Estimador 3 1.998216 0.003994778
## 4 Estimador 4 7.389908 1.465707903
Con base en la media, se encontró que los estimadores \(\hat{\theta}_1\) y \(\hat{\theta}_3\) tienen menor sesgo, debido a que su valor es mucho más cercano al valor supuesto (2) y su varianza es menor respecto a la de los demás estimadores lo que significa que también son más eficientes. Finalmente, en los boxplots de los tamaños de muestra se evidenció la mayor consistencia en el estimador 3 seguido por el estimador 1.
Resultados:
Estimadores ordenados de mayor a menor por cada caracteristica de estimación:
Insesgadez: \(\hat{\theta}_3\) \(\hat{\theta}_1\) \(\hat{\theta}_2\) \(\hat{\theta}_4\)
Eficiencia: \(\hat{\theta}_3\) \(\hat{\theta}_1\) \(\hat{\theta}_4\) \(\hat{\theta}_2\)
Consistencia: \(\hat{\theta}_3\) \(\hat{\theta}_1\) \(\hat{\theta}_4\) \(\hat{\theta}_2\)
Si bien \(\hat{\theta}_4\) al tener menor varianza y por lo tanto mayor eficiencia que \(\hat{\theta}_2\), la media de los valores estimados de \(\hat{\theta}_2\) son más cercanos al varlo real de \(\theta\) por lo que \(\hat{\theta}_2\) es menos eficiente pero también tiene menos sesgo. Adicionalmente, se pudo determinar que el mejor estimador es \(\hat{\theta}_3\)