La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son: insesgadez, eficiencia y consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
Pasos a seguir
• Genere simulaciones de 20, 50, 100 y 1000 para cada uno de los estimadores planteados. • En cada caso evalue las propiedades de insesgadez, eficiencia y consistencia • Suponga un valor para el parámetro θ
rate <- 2 #Parametro
sim <- 20 # numero de replicas del experimento
set.seed(123)
m = matrix(data=rexp(sim*4, rate), nrow=sim, byrow=TRUE) #matriz con simulacion 20
colnames(m) <- c('T1','T2','T3', 'T4')
m20=m[1:20,]
for (i in 1:20){
m20[i, 1] = (m[i,1] + m[i,2] / 6) + (m[i,3] + m[i,4] / 3)
m20[i, 2] = (m[i,1] + (2 * m[i,2]) + (3 * m[i,3]) + (4 * m[i,4])) / 5
m20[i, 3] = ((m[i,1] + m[i,2] + m[i,3] + m[i,4]) / 4)
m20[i, 4] = (min(m[i,1],m[i,2],m[i,3],m[i,4]) + max(m[i,1],m[i,2],m[i,3],m[i,4])) / 2
}
estimadoresm20=data.frame(m20)
boxplot(estimadoresm20, xlab = "Estimadores N=20", ylab = "Valores Estimadores ")
abline(h=rate, col="red")
medias <- apply(estimadoresm20, 2, mean)
varianzas <- apply(estimadoresm20, 2, var)
sesgos <- rate-medias
comparativo =data.frame(medias, varianzas, sesgos)
prop.table(comparativo)
## medias varianzas sesgos
## T1 0.13869175 0.030040989 0.09043514
## T2 0.11328526 0.028943458 0.11584163
## T3 0.05826289 0.007012074 0.17086399
## T4 0.06944727 0.017495935 0.15967962
En la simulación con 20 repeticiones se observa que los estimadores T1 y T2, tienen un valor de media mas cercana al valor del parámetro dado (2), por lo tanto son los que presentan el menor sesgo. A su vez, el estimador mas eficiente es T3, ya que presenta el menor valor en varianza de los cuatro. La consistencia de los estimadores, se evaluará a partir del aumento del número de repeticiones, sin embargo T1 es quien presenta el menor sesgo respecto al parámetro dado.
rate <- 2 #Parametro
sim <- 50 # numero de replicas del experimento
set.seed(123)
m = matrix(data=rexp(sim*4, rate), nrow=sim, byrow=TRUE) # matriz con simulacion 50
colnames(m) <- c('T1','T2','T3', 'T4')
m50=m[1:50,]
for (i in 1:50){
m50[i, 1] = (m[i,1] + m[i,2] / 6) + (m[i,3] + m[i,4] / 3)
m50[i, 2] = (m[i,1] + (2 * m[i,2]) + (3 * m[i,3]) + (4 * m[i,4])) / 5
m50[i, 3] = ((m[i,1] + m[i,2] + m[i,3] + m[i,4]) / 4)
m50[i, 4] = (min(m[i,1],m[i,2],m[i,3],m[i,4]) + max(m[i,1],m[i,2],m[i,3],m[i,4])) / 2
}
estimadoresm50=data.frame(m50)
boxplot(estimadoresm50, xlab = "Estimadores N=50", ylab = "Valores Estimadores")
abline(h=rate, col="red")
medias <- apply(estimadoresm50, 2, mean)
varianzas <- apply(estimadoresm50, 2, var)
sesgos <- rate-medias
comparativo =data.frame(medias, varianzas, sesgos)
prop.table(comparativo)
## medias varianzas sesgos
## T1 0.13256540 0.037115350 0.09768424
## T2 0.11791509 0.025225215 0.11233456
## T3 0.05797877 0.005092237 0.17227087
## T4 0.06656134 0.011568619 0.16368830
En la simulación con 50 repeticiones se observa nuevamente que los estimadores T1 y T2, tienen un valor de media mas cercana al valor del parámetro dado (2), por lo tanto son los que presentan el menor sesgo. A su vez, el estimador mas eficiente es T3, ya que presenta el menor valor de varianza respecto a los otros 3 estimadores, siendo practicamente cero. En cuanto a consistencia de los estimadores, se evidencia que para T1 el sesgo aumenta ligeramente respecto a la medicion número de simulaciones de n=20, en los otros tres estimadores el sesgo aumenta al aumentar el número de simulaciones.
rate <- 2 #Parametro
sim <- 100 # numero de replicas del experimento
set.seed(123)
m = matrix(data=rexp(sim*4, rate), nrow=sim, byrow=TRUE) # matriz con simulacion 100
colnames(m) <- c('T1','T2','T3', 'T4')
m100=m[1:100,]
for (i in 1:100){
m100[i, 1] = (m[i,1] + m[i,2] / 6) + (m[i,3] + m[i,4] / 3)
m100[i, 2] = (m[i,1] + (2 * m[i,2]) + (3 * m[i,3]) + (4 * m[i,4])) / 5
m100[i, 3] = ((m[i,1] + m[i,2] + m[i,3] + m[i,4]) / 4)
m100[i, 4] = (min(m[i,1],m[i,2],m[i,3],m[i,4]) + max(m[i,1],m[i,2],m[i,3],m[i,4])) / 2
}
estimadoresm100=data.frame(m100)
boxplot(estimadoresm100, xlab = "Estimadores N=100", ylab = "Valores Estimadores")
abline(h=rate, col="red")
medias <- apply(estimadoresm100, 2, mean)
varianzas <- apply(estimadoresm100, 2, var)
sesgos <- rate-medias
comparativo =data.frame(medias, varianzas, sesgos)
prop.table(comparativo)
## medias varianzas sesgos
## T1 0.14019968 0.047570303 0.08788101
## T2 0.11094876 0.024968977 0.11713192
## T3 0.05662511 0.005483723 0.17145557
## T4 0.06438990 0.009654270 0.16369078
En la simulación con 100 repeticiones se observa nuevamente que el estimador T1 mejora su media respecto al valor real del parámetro dado (2), además que de los cuatro estimadores, presenta el menor sesgo. A su vez, el estimador mas eficiente sigue siendo T3, ya que presenta el menor valor de varianza respecto a los otros 3 estimadores no obstante su media es muy alejada del parametro real y presenta sesgo. En cuanto a consistencia de los cuatro estimadores, se evidencia que para T1 el sesgo disminuye ligeramente respecto a la medicion número de simulaciones anteriores de n=50, en los otros tres estimadores el sesgo se mantiene respecto a simulaciones n=50.
rate <- 2 #Parametro
sim <- 1000 # numero de replicas del experimento
set.seed(123)
m = matrix(data=rexp(sim*4, rate), nrow=sim, byrow=TRUE) # matriz con simulacion 1000
colnames(m) <- c('T1','T2','T3', 'T4')
m1000=m[1:1000,]
for (i in 1:1000){
m1000[i, 1] = (m[i,1] + m[i,2] / 6) + (m[i,3] + m[i,4] / 3)
m1000[i, 2] = (m[i,1] + (2 * m[i,2]) + (3 * m[i,3]) + (4 * m[i,4])) / 5
m1000[i, 3] = ((m[i,1] + m[i,2] + m[i,3] + m[i,4]) / 4)
m1000[i, 4] = (min(m[i,1],m[i,2],m[i,3],m[i,4]) + max(m[i,1],m[i,2],m[i,3],m[i,4])) / 2
}
estimadoresm1000=data.frame(m1000)
boxplot(estimadoresm1000, xlab = "Estimadores N=1000", ylab = "Valores Estimadores")
abline(h=rate, col="red")
medias <- apply(estimadoresm1000, 2, mean)
varianzas <- apply(estimadoresm1000, 2, var)
sesgos <- rate-medias
comparativo =data.frame(medias, varianzas, sesgos)
prop.table(comparativo)
## medias varianzas sesgos
## T1 0.13799723 0.059459388 0.08433658
## T2 0.11109248 0.033199215 0.11124133
## T3 0.05558207 0.006761089 0.16675175
## T4 0.06500446 0.011245032 0.15732936
En la simulación con 1000 repeticiones se observa nuevamente que el estimador T1 mejora su media respecto al valor real del parámetro dado (2), además que de los cuatro estimadores, presenta el menor sesgo. A su vez, el estimador mas eficiente sigue siendo T3, ya que presenta el menor valor de varianza respecto a los otros 3 estimadores no obstante su media es muy alejada del parametro real, por lo cual el sesgo es alto. En cuanto a consistencia de los cuatro estimadores, se evidencia que para T1 el sesgo disminuye ligeramente respecto a la medicion número de simulaciones anteriores de n=100, en los otros tres estimadores el sesgo se mantiene respecto a las anteriores simulaciones n=50 y n=100.
El mejor estimador para el parámetro θ=2 de los cuatro propuestos T1, T2, T3 y T4; es T1 ya que presenta las mejores propiedades: el valor de la media es cercano al parámetro real, comportamiento que se mantiene a medida que aumentan las repeticiones. De igual manera, aunque presenta mayor varianza que los otros tres estimadores, su sesgo es el mas bajo a medida que aumenta el número de simulaciones. Es deseable que un estimador sea insesgado o centrado, para que el valor esperado del estimador sea igual al valor del parámetro que se desea estimar.
Por lo anterior, T1 es el estimador que presenta mejor consistencia al aumentar el número de simulaciones; se concluye que el parámetro θ1 o T1, es insesgado, eficiente y consistente.