Unidad 2 Ejercicio 2

Propiedades de los estimadores

La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son: insesgadez, eficiencia y consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

Estimadores

Pasos a seguir

• Genere simulaciones de 20, 50, 100 y 1000 para cada uno de los estimadores planteados. • En cada caso evalue las propiedades de insesgadez, eficiencia y consistencia • Suponga un valor para el parámetro θ

Simulación con n=20

  rate <- 2                   #Parametro
  sim <- 20        # numero de replicas del experimento 
  set.seed(123)
  
  m = matrix(data=rexp(sim*4, rate), nrow=sim, byrow=TRUE) #matriz con simulacion 20
  colnames(m) <- c('T1','T2','T3', 'T4')
  m20=m[1:20,]   
 
  for (i in 1:20){
  
     m20[i, 1] = (m[i,1] + m[i,2] / 6) + (m[i,3] + m[i,4] / 3)
     m20[i, 2] =    (m[i,1] + (2 * m[i,2]) + (3 * m[i,3]) + (4 * m[i,4])) / 5
     m20[i, 3] = ((m[i,1] + m[i,2] + m[i,3] + m[i,4]) / 4)
     m20[i, 4] = (min(m[i,1],m[i,2],m[i,3],m[i,4]) +                           max(m[i,1],m[i,2],m[i,3],m[i,4])) / 2
 
  }
  
estimadoresm20=data.frame(m20)

boxplot(estimadoresm20, xlab = "Estimadores N=20",  ylab = "Valores Estimadores ")
  abline(h=rate,  col="red")

medias <- apply(estimadoresm20, 2, mean)
varianzas <- apply(estimadoresm20, 2, var)
sesgos <- rate-medias

comparativo =data.frame(medias, varianzas, sesgos)
prop.table(comparativo)

##        medias   varianzas     sesgos
## T1 0.13869175 0.030040989 0.09043514
## T2 0.11328526 0.028943458 0.11584163
## T3 0.05826289 0.007012074 0.17086399
## T4 0.06944727 0.017495935 0.15967962

En la simulación con 20 repeticiones se observa que los estimadores T1 y T2, tienen un valor de media mas cercana al valor del parámetro dado (2), por lo tanto son los que presentan el menor sesgo. A su vez, el estimador mas eficiente es T3, ya que presenta el menor valor en varianza de los cuatro. La consistencia de los estimadores, se evaluará a partir del aumento del número de repeticiones, sin embargo T1 es quien presenta el menor sesgo respecto al parámetro dado.

Simulacion con n=50

  rate <- 2                   #Parametro
  sim <- 50        # numero de replicas del experimento 
  set.seed(123)
  
  m = matrix(data=rexp(sim*4, rate), nrow=sim, byrow=TRUE) # matriz con simulacion 50
  colnames(m) <- c('T1','T2','T3', 'T4')
  m50=m[1:50,]   
 
  for (i in 1:50){
  
     m50[i, 1] = (m[i,1] + m[i,2] / 6) + (m[i,3] + m[i,4] / 3)
     m50[i, 2] =    (m[i,1] + (2 * m[i,2]) + (3 * m[i,3]) + (4 * m[i,4])) / 5
     m50[i, 3] = ((m[i,1] + m[i,2] + m[i,3] + m[i,4]) / 4)
     m50[i, 4] = (min(m[i,1],m[i,2],m[i,3],m[i,4]) +                           max(m[i,1],m[i,2],m[i,3],m[i,4])) / 2
 
  }
  
estimadoresm50=data.frame(m50)

boxplot(estimadoresm50, xlab = "Estimadores N=50",  ylab = "Valores Estimadores")
  abline(h=rate,  col="red")

medias <- apply(estimadoresm50, 2, mean)
varianzas <- apply(estimadoresm50, 2, var)
sesgos <- rate-medias

comparativo =data.frame(medias, varianzas, sesgos)
prop.table(comparativo)

##        medias   varianzas     sesgos
## T1 0.13256540 0.037115350 0.09768424
## T2 0.11791509 0.025225215 0.11233456
## T3 0.05797877 0.005092237 0.17227087
## T4 0.06656134 0.011568619 0.16368830

En la simulación con 50 repeticiones se observa nuevamente que los estimadores T1 y T2, tienen un valor de media mas cercana al valor del parámetro dado (2), por lo tanto son los que presentan el menor sesgo. A su vez, el estimador mas eficiente es T3, ya que presenta el menor valor de varianza respecto a los otros 3 estimadores, siendo practicamente cero. En cuanto a consistencia de los estimadores, se evidencia que para T1 el sesgo aumenta ligeramente respecto a la medicion número de simulaciones de n=20, en los otros tres estimadores el sesgo aumenta al aumentar el número de simulaciones.

Simulacion con n=100

  rate <- 2                   #Parametro
  sim <- 100        # numero de replicas del experimento 
  set.seed(123)
  
  m = matrix(data=rexp(sim*4, rate), nrow=sim, byrow=TRUE) # matriz con simulacion 100
  colnames(m) <- c('T1','T2','T3', 'T4')
  m100=m[1:100,]   
 
  for (i in 1:100){
  
     m100[i, 1] = (m[i,1] + m[i,2] / 6) + (m[i,3] + m[i,4] / 3)
     m100[i, 2] =   (m[i,1] + (2 * m[i,2]) + (3 * m[i,3]) + (4 * m[i,4])) / 5
     m100[i, 3] = ((m[i,1] + m[i,2] + m[i,3] + m[i,4]) / 4)
     m100[i, 4] = (min(m[i,1],m[i,2],m[i,3],m[i,4]) +                           max(m[i,1],m[i,2],m[i,3],m[i,4])) / 2
 
  }
  
estimadoresm100=data.frame(m100)

boxplot(estimadoresm100, xlab = "Estimadores N=100",  ylab = "Valores Estimadores")
  abline(h=rate,  col="red")

medias <- apply(estimadoresm100, 2, mean)
varianzas <- apply(estimadoresm100, 2, var)
sesgos <- rate-medias

comparativo =data.frame(medias, varianzas, sesgos)
prop.table(comparativo)

##        medias   varianzas     sesgos
## T1 0.14019968 0.047570303 0.08788101
## T2 0.11094876 0.024968977 0.11713192
## T3 0.05662511 0.005483723 0.17145557
## T4 0.06438990 0.009654270 0.16369078

En la simulación con 100 repeticiones se observa nuevamente que el estimador T1 mejora su media respecto al valor real del parámetro dado (2), además que de los cuatro estimadores, presenta el menor sesgo. A su vez, el estimador mas eficiente sigue siendo T3, ya que presenta el menor valor de varianza respecto a los otros 3 estimadores no obstante su media es muy alejada del parametro real y presenta sesgo. En cuanto a consistencia de los cuatro estimadores, se evidencia que para T1 el sesgo disminuye ligeramente respecto a la medicion número de simulaciones anteriores de n=50, en los otros tres estimadores el sesgo se mantiene respecto a simulaciones n=50.

Simulacion con n=1000

  rate <- 2                   #Parametro
  sim <- 1000        # numero de replicas del experimento 
  set.seed(123)
  
  m = matrix(data=rexp(sim*4, rate), nrow=sim, byrow=TRUE) # matriz con simulacion 1000
  colnames(m) <- c('T1','T2','T3', 'T4')
  m1000=m[1:1000,]   
 
  for (i in 1:1000){
  
     m1000[i, 1] = (m[i,1] + m[i,2] / 6) + (m[i,3] + m[i,4] / 3)
     m1000[i, 2] =  (m[i,1] + (2 * m[i,2]) + (3 * m[i,3]) + (4 * m[i,4])) / 5
     m1000[i, 3] = ((m[i,1] + m[i,2] + m[i,3] + m[i,4]) / 4)
     m1000[i, 4] = (min(m[i,1],m[i,2],m[i,3],m[i,4]) +                           max(m[i,1],m[i,2],m[i,3],m[i,4])) / 2
 
  }
  
estimadoresm1000=data.frame(m1000)

boxplot(estimadoresm1000, xlab = "Estimadores N=1000",  ylab = "Valores Estimadores")
  abline(h=rate,  col="red")

medias <- apply(estimadoresm1000, 2, mean)
varianzas <- apply(estimadoresm1000, 2, var)
sesgos <- rate-medias

comparativo =data.frame(medias, varianzas, sesgos)
prop.table(comparativo)

##        medias   varianzas     sesgos
## T1 0.13799723 0.059459388 0.08433658
## T2 0.11109248 0.033199215 0.11124133
## T3 0.05558207 0.006761089 0.16675175
## T4 0.06500446 0.011245032 0.15732936

En la simulación con 1000 repeticiones se observa nuevamente que el estimador T1 mejora su media respecto al valor real del parámetro dado (2), además que de los cuatro estimadores, presenta el menor sesgo. A su vez, el estimador mas eficiente sigue siendo T3, ya que presenta el menor valor de varianza respecto a los otros 3 estimadores no obstante su media es muy alejada del parametro real, por lo cual el sesgo es alto. En cuanto a consistencia de los cuatro estimadores, se evidencia que para T1 el sesgo disminuye ligeramente respecto a la medicion número de simulaciones anteriores de n=100, en los otros tres estimadores el sesgo se mantiene respecto a las anteriores simulaciones n=50 y n=100.

Conclusión

El mejor estimador para el parámetro θ=2 de los cuatro propuestos T1, T2, T3 y T4; es T1 ya que presenta las mejores propiedades: el valor de la media es cercano al parámetro real, comportamiento que se mantiene a medida que aumentan las repeticiones. De igual manera, aunque presenta mayor varianza que los otros tres estimadores, su sesgo es el mas bajo a medida que aumenta el número de simulaciones. Es deseable que un estimador sea insesgado o centrado, para que el valor esperado del estimador sea igual al valor del parámetro que se desea estimar.

Por lo anterior, T1 es el estimador que presenta mejor consistencia al aumentar el número de simulaciones; se concluye que el parámetro θ1 o T1, es insesgado, eficiente y consistente.