Propiedades de los estimadores

Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos
  1. \(\hat{\theta_1} = \frac{X_1 + X_2}{6} + \frac{X_3 + X_4}{3}\)

  2. \(\hat{\theta_2} \frac{(X_1 + 2X_2 + 3X_3 + 4X_4)}{5}\)

  3. \(\hat{\theta_3} = \frac{X_1 + X_2 + X_3 + X_4}{4}\)

  4. \(\hat{\theta_4} = \frac{\min \{X_1, X_2, X_3, X_4 \} \,+ \, \max \{X_1, X_2, X_3, X_4 \}}{2}\)

Comparación de los estimadores usando simulación

Función para calcular los estimadores

Primero vamos a crear una función que nos muestre el resultado de los estimadores, tomando como entrada el tamaño de muestra n, y el valor de \(\theta\).
set.seed(12345)
Estimaciones <- function(n, theta){
  X_1 = rexp(n, 1/theta)
  X_2 = rexp(n, 1/theta)
  X_3 = rexp(n, 1/theta)
  X_4 = rexp(n, 1/theta)
  theta1 = (X_1+X_2)/6 + (X_3+ X_4)/3
  theta2 = (X_1 + 2*X_2 + 3*X_3 + 4*X_4)/5
  theta3 = (X_1 + X_2 + X_3 + X_4)/4
  theta4 = (min(X_1, X_2, X_3, X_4) + max(X_1, X_2, X_3, X_4))/2
  return(data.frame(theta1, theta2, theta3, theta4))
}
A continuación, vamos a comparar los estimadores usando muestras de tamaño 20, 50, 100 y 1000

Muestra de tamaño n = 20

Vamos a revisar el comportamiento de cada uno de los estimadores generando una muestra de tamaño n = 20 y \(\theta =2\).

library(ggplot2)

colores <- c("#7FFF00", "#00BFFF", "#54FF9F")

est20 <- Estimaciones(20, 2)


boxplot(est20, las=1, main="Comparación estimadores con n=20",
        col = colores)  # gráfico de comparación   
abline(h = 2,  col="red") 

apply(est20,2,mean)
##   theta1   theta2   theta3   theta4 
## 1.986052 3.811224 2.044908 6.406879
apply(est20,2,sd)
##   theta1   theta2   theta3   theta4 
## 1.071215 2.169159 1.045311 0.000000

Para un tamaño de muestra n= 20 los estimadores \(\hat{\theta_1}\) y \(\hat{\theta_3}\) muestran las estimaciones más cercanas al valor real del parámetro. Se puede observamos que el promedio de las estimaciones para \(\hat{\theta_1}\) es 1.986052 mientra que para \(\hat{\theta_3}\) es 2.044908. Sin embargo, \(\hat{\theta_1}\) muestra una mayor variabilidad que \(\hat{\theta_3}\).

Por otra parte, en el caso de \(\hat{\theta_2}\), se observa una desviación estandar de 2.169159, que lo convierte en el estimador con la mayor varianza. En cuanto al estimador \(\hat{\theta_4}\) no hay variación, pero sus estimaciones no se acercan al valor real del parámetro.

Con base en lo anterior, podemos afirmar que el mejor estimador para el parámetro, es el estimador \(\theta_3\) considerando un tamaño de muestra 20,

Muestra de tamaño n = 50

Ahora, vamos a revisar el comportamiento de cada uno de los estimadores generando una muestra de tamaño n = 50 y \(\theta =2\).
library(ggplot2)

est50 <- Estimaciones(50, 2)

boxplot(est50, las=1, main="Comparación estimadores con n=50")  # gráfico de comparación   
abline(h = 2,  col="red") 

apply(est50,2,mean)
##   theta1   theta2   theta3   theta4 
## 1.929164 3.960048 1.922615 4.945931
apply(est50,2,sd)
##    theta1    theta2    theta3    theta4 
## 1.0249908 2.2825193 0.9353719 0.0000000

Para un tamaño de muestra n= 50, se observa que \(\hat{\theta_1}\) y \(\hat{\theta_3}\) realizan las mejores estimaciones, siendo \(\hat{\theta_3}\) el estimador con la menor varianza. Por otra parte, \(\hat{\theta_4}\) no presenta varianza pero no es un estimador insesgado. Por último, el estimador \(\hat{\theta_2}\) muestra alta variación y además no es insesgado.

Muestra de tamaño n = 100

est100 <- Estimaciones(100, 2)


boxplot(est100, las=1, main="Comparación estimadores con n=100",
        col = colores)  # gráfico de comparación   
abline(h = 2,  col="red") 

apply(est100,2,mean)
##   theta1   theta2   theta3   theta4 
## 1.946749 3.909098 1.902458 6.995565
apply(est100,2,sd)
##    theta1    theta2    theta3    theta4 
## 1.0863578 2.3700590 0.9699418 0.0000000

Para la muestra de tamaño 100, \(\hat{\theta_1}\) y \(\hat{\theta_3}\) ofrecen las mejores estimaciones, con poca variabilidad. En el caso de \(\hat{\theta_2}\) y \(\hat{\theta_4}\) se observan las peores estimaciones y para \(\hat{\theta_2}\) la mayor variabilidad.

Teniendo en cuenta los anteriores resultados, se puede afirmar que \(\hat{\theta_3}\) es el mejor estimador del parámetro, debido a que muestra estimaciones precisas y con poca variabilidad, en cuanto a la consistencia, se observa que a medida que aumenta el tamaño de la muestra sus estimaciones son más cercanas al valor real del parámetro.

Muestra de tamaño n = 1000

est1000<- Estimaciones(1000, 2)

boxplot(est1000, las=1, main="Comparación estimadores con n=1000",
        col = colores)  # gráfico de comparación   
abline(h = 2,  col="red") 

apply(est1000,2,mean)
##   theta1   theta2   theta3   theta4 
## 2.002434 4.000812 2.000632 8.234100
apply(est1000,2,sd)
##   theta1   theta2   theta3   theta4 
## 1.061472 2.211151 1.006077 0.000000

Para un tamaño de muestra 1000 que \(\theta_3\) es el mejor estimador, pues el promedio de sus estimaciones muestra un valor muy cercano al valor real del parámetro. Además, su varianza es la más baja comparada con los otros estimadores. Con lo cual \(\theta_3\) cumple con las propiedades de ser un estimador insesgado, consistente y de mínima varianza.

Por su parte, en el caso de \(\theta_1\), el promedio de sus estimaciones también es muy cercano al valor real del parámetro, pero comparado con el estimador su \(\theta_3\) su varianza es mayor, con lo cual se incumple la condición de varianza mínima.

En cuanto al estimador \(\theta_2\), se ve que no es un estimador insesgado, pues sus estimaciones están lejos del valor real. Además, este estimador es el que presenta la varianza más grande de los 4.

Por último, aunque el estimador \(\theta_4\) muestra varianza cero, no cumple con la propiedad de ser un estimador insesgado, pues sus estimaciones se encuentran muy alejadas del valor real.

Para concluir, podemos afirmar que el estimador más eficiente es \(\theta_3\), pues cumple con la condición de ser un estimador insesgado y de varianza mínima. Además, se puede observar que a medida que aumenta el tamaño de la muestra, sus estimaciones son cada vez más cercanas al valor real del parámetro, es decir que es un estimador consistente.