Problema 2

Propiedades de los estimadores

La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son. insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean \(X_1, X_2, X_3\) y \(X_4\), una muestra aleatoria de tamaño \(n=4\) cuya población la conforma una distribución exponencial con parámetro \(\theta\) desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

\(\hat{\theta_1}=\frac{X_1+X_2}{6} + \frac{X_3+X_4}{3}\)
\(\hat{\theta_2}=\frac{X_1+2X_2+3X_3+4X_4}{5}\)
\(\hat{\theta_3}=\frac{X_1+X_2+X_3+X_4}{4}\)
\(\hat{\theta_4}=\frac{min(X_1,X_2,X_3,X_4)+max(X_1,X_2,X_3,X_4)}{2}\)

Definir función para simular los estimadores:

simular_estimadores <- function(n, theta) {
  
  set.seed(321)

  estimador1 <- numeric(n)
  estimador2 <- numeric(n)
  estimador3 <- numeric(n)
  estimador4 <- numeric(n)
    
  for(i in 1:n){
  
    x <- rexp(n = 4, rate = theta)
    
    estimador1[i] <- (1/6)*(x[1] + x[2]) + (1/3)*(x[3] + x[4])
    estimador2[i] <- (1/5)*(x[1] + 2*x[2] + 3*x[3] + 4*x[4])
    estimador3[i] <- (1/4)*(x[1] + x[2] + x[3] + x[4])
    estimador4[i] <- (1/2)*(min(x) + max(x))
  
  }
  
  df_estimadores <- data.frame(
      'estimador1' = 1/estimador1,
      'estimador2' = 1/estimador2,
      'estimador3' = 1/estimador3,
      'estimador4' = 1/estimador4
  )
  
  boxplot(df_estimadores)
  abline(h=theta,  col='red')
  
  #calcular métricas
  
  metricas <- function(estimador, theta) {
    
    estimacion <- 1/mean(estimador)
    sesgo <- 1/mean(estimador) - theta
    eficiencia <- mean((estimador - theta)^2)
    consistencia <- var(estimador)
    
    return( c(estimacion, sesgo, eficiencia, consistencia) )
    
  }

  df_resultados <- data.frame(
      'estimador1' = metricas(estimador1, theta),
      'estimador2' = metricas(estimador2, theta),
      'estimador3' = metricas(estimador3, theta),
      'estimador4' = metricas(estimador4, theta)
  )
  
  row.names(df_resultados) <- c('Estimacion', 'Sesgo', 'Eficiencia', 'Consistencia')
  
  return(df_resultados)

}

Se supone \(\theta=2\).

Sea la línea roja la línea que indica el parámetro \(\theta\) real (supuesto).

Con \(20\) muestras:

simular_estimadores(20, 2)

##              estimador1 estimador2  estimador3  estimador4
## Estimacion   2.03283118  1.0194168  1.95751417  1.58287158
## Sesgo        0.03283118 -0.9805832 -0.04248583 -0.41712842
## Eficiencia   2.31548515  1.2588303  2.25864393  1.96280813
## Consistencia 0.04336235  0.2319722  0.04324434  0.09551175

Con \(50\) muestras:

simular_estimadores(50, 2)

##              estimador1 estimador2 estimador3  estimador4
## Estimacion   2.06912327  1.0597420 2.03087447  1.70302769
## Sesgo        0.06912327 -0.9402580 0.03087447 -0.29697231
## Eficiencia   2.34579558  1.3262030 2.31594900  2.07704986
## Consistencia 0.04633267  0.2145681 0.04396673  0.08266978

Con \(100\) muestras:

simular_estimadores(100, 2)

##               estimador1 estimador2  estimador3 estimador4
## Estimacion    1.88584964  0.9633818  1.86692007  1.6096476
## Sesgo        -0.11415036 -1.0366182 -0.13307993 -0.3903524
## Eficiencia    2.22589273  1.2022685  2.20963701  2.0084668
## Consistencia  0.06643602  0.2796402  0.06595092  0.1086124

Con \(1000\) muestras:

simular_estimadores(1000, 2)

##              estimador1 estimador2 estimador3  estimador4
## Estimacion   2.04508375  1.0251040 2.03455968  1.73862800
## Sesgo        0.04508375 -0.9748960 0.03455968 -0.26137200
## Eficiencia   2.34601587  1.3212347 2.33564287  2.12153647
## Consistencia 0.06288985  0.2719285 0.06015141  0.09147649

Los estimadores con mejor desempeño fueron el estimador 1, 3 y 4. Tiene sentido, pues matemáticamente se sabe que estos 2 estimadores son estimadores insegados para el parámetro \(\theta\) de una distribución exponencial. Por otro lado, el estimador 2 no es un estimador insesgado para el parámetro \(\theta\) de una distribución exponencial. Esto es:

Probar sesgadez de \(\theta_1\):

\(E(\hat{\theta_1})=\frac{E(X_1)+E(X_2)}{6} + \frac{E(X_3)+E(X_4)}{3}\)
\(E(\hat{\theta_1})=\frac{\theta+\theta}{6} + \frac{\theta+\theta}{3}\)
\(E(\hat{\theta_1})=\frac{1}{3}\theta + \frac{2}{3}\theta=\theta \rightarrow insesgado\)

Probar sesgadez de \(\theta_2\):

\(E(\hat{\theta_2})=\frac{E(X_1)+E(2X_2)+E(3X_3)+E(4X_4)}{5}\)
\(E(\hat{\theta_2})=\frac{\theta+2\theta+3\theta+4\theta}{5}\)
\(E(\hat{\theta_2})=\frac{10}{5}\theta=2\theta \rightarrow sesgado\)

Probar sesgadez de \(\theta_3\):

\(E(\hat{\theta_3})=\frac{E(X_1)+E(X_2)+E(X_3)+E(X_4)}{4}\)
\(E(\hat{\theta_3})=\frac{\theta+\theta+\theta+\theta}{4}\)
\(E(\hat{\theta_3})=\frac{4}{4}\theta=\theta \rightarrow insesgado\)

Probar sesgadez de \(\theta_4\):

\(E(\hat{\theta_4})=\frac{min(E(X_1),E(X_2),E(X_3),E(X_4))+max(E(X_1),E(X_2),E(X_3),E(X_4))}{2}\)
\(E(\hat{\theta_4})=\frac{min(\theta,\theta,\theta,\theta)+max(\theta,\theta,\theta,\theta)}{2}\)
\(E(\hat{\theta_4})=\frac{\theta+\theta}{2} = \theta \rightarrow insesgado\)