2. Problema 2 - Estimadores

La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son: insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean X1, X2, X3 y X4 una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

θ1^=(X1+X2)/6+(X3+X4)/3 θ2^=(X1+2∗X2+3∗X3+4∗X4)/5 θ3^=(X1+X2+X3+X4)/4 θ4^=(min(X1,X2,X3,X4)+max(X1,X2,X3,X4))/2

Simulación para los estimadores planteados n=20

rate= 1 #Se establece el rate para la matriz
x=matrix(data = rexp(20*4, rate = 1), nrow = 20, byrow = TRUE)
colnames(x)<-c('t1', 't2', 't3', 't4')
x20= x[1:20,]
head(x)
##              t1        t2        t3        t4
## [1,] 0.32922291 0.4472186 0.3377201 0.1737837
## [2,] 2.18821937 0.9848500 0.1624163 0.3300843
## [3,] 2.77735730 0.8302625 1.9422092 0.7920991
## [4,] 0.03904814 1.9637088 3.3739495 0.4814082
## [5,] 0.23506350 1.5610280 0.1844661 1.8521547
## [6,] 1.13003068 2.1981335 0.9335580 1.7572975

Después de establecer la matriz para X1, X2, X3, X4 en una muestra de 20, se procede a comprobar cada uno de los estimadores

for(i in 1:20){
  x20[i,1]=(x[i,1]+x[i,2])/6+(x[i,3]+x[i,4]/3)
  x20[i,2]=(x[i,1] + (2*x[i,2])+(3*x[i,3])+(4*x[i,4]))/5
  x20[i,3]=((x[i,1] + x[i,2] + x[i,3] + x[i,4])/4)
  x20[i,4]= (min(x[i,1],x[i,2],x[i,3],x[i,4])+ max(x[i,1],x[i,2],x[i,3],x[i,4]))/ 2
}
estimador20=data.frame(x20)

Gráficamos cada uno de los estimadores para una muestra de 20

boxplot(estimador20, xlab="Estimador muestra n=20", ylab="Valores del estimador")
abline(h=rate,  col="purple")

Finalmente, calculamos las medias y varianzas que determinan la precisión de un estimador

medias <- apply(estimador20, 2, mean)
varianzas <- apply(estimador20, 2, var)
tablax20 =data.frame(medias, varianzas)
prop.table(tablax20)
##       medias  varianzas
## t1 0.1882865 0.12048327
## t2 0.2322835 0.14590562
## t3 0.1199629 0.02805165
## t4 0.1349453 0.03008127

Como se observa a partir de la interpretación del gráfico boxplot y del cálculo de medias y varianzas, se deduce que el estimador que no se aleja demasiado del valor del parámetro o el valor real es el número 3 y el 4, debido a que se encuentran más cerca a este; además, contienen valores de varianza mucho menores en relación con los demás estimadores y se encuentran menos sesgados hacía los extremos.

Simulación para los estimadores planteados n=50

rate= 1 #Se establece el rate para la matriz
x=matrix(data = rexp(50*4, rate = 1), nrow = 50, byrow = TRUE)
colnames(x)<-c('t1', 't2', 't3', 't4')
x50= x[1:50,]
head(x)
##              t1        t2        t3        t4
## [1,] 0.40173351 2.6032058 1.1436737 2.0228789
## [2,] 0.04286083 0.3388237 2.2141039 1.5792034
## [3,] 0.08638846 0.1415657 1.8963037 0.5198256
## [4,] 0.90033805 1.2637734 2.4115945 0.1444273
## [5,] 1.30822309 0.4875887 0.9399812 1.6289154
## [6,] 1.20297803 1.9966613 2.1873942 0.2844009

Después de establecer la matriz para X1, X2, X3, X4 en una muestra de 50, se procede a comprobar cada uno de los estimadores

for(i in 1:50){
  x50[i,1]=(x[i,1]+x[i,2])/6+(x[i,3]+x[i,4]/3)
  x50[i,2]=(x[i,1] + (2*x[i,2])+(3*x[i,3])+(4*x[i,4]))/5
  x50[i,3]=((x[i,1] + x[i,2] + x[i,3] + x[i,4])/4)
  x50[i,4]=(min(x[i,1],x[i,2],x[i,3],x[i,4])+ max(x[i,1],x[i,2],x[i,3],x[i,4]))/ 2
}
estimador50=data.frame(x50)

Gráficamos cada uno de los estimadores para una muestra de 50

boxplot(estimador50, xlab="Estimador muestra n=50", ylab="Valores del estimador")
abline(h=rate,  col="green")

Finalmente, calculamos las medias y varianzas que determinan la precisión de un estimador

medias <- apply(estimador50, 2, mean)
varianzas <- apply(estimador50, 2, var)
tablax50 =data.frame(medias, varianzas)
prop.table(tablax50)
##       medias  varianzas
## t1 0.2157781 0.11506786
## t2 0.2416636 0.10864024
## t3 0.1197386 0.02611883
## t4 0.1368127 0.03618005

Como se observa a partir de la interpretación del gráfico boxplot y del cálculo de medias y varianzas, se deduce que el estimador que no se aleja demasiado del valor del parámetro o el valor real es el número 1 y el 4, debido a que se encuentran más cerca a este; además, contienen valores de varianza mucho menores en relación con los demás estimadores y se encuentran menos sesgados hacía los extremos para el estimador 4.

Simulación para los estimadores planteados n=100

rate= 1 #Se establece el rate para la matriz
x=matrix(data = rexp(100*4, rate = 1), nrow = 100, byrow = TRUE)
colnames(x)<-c('t1', 't2', 't3', 't4')
x100= x[1:100,]
head(x)
##              t1        t2         t3        t4
## [1,] 0.11979249 0.8235313 2.79905525 0.4471756
## [2,] 0.68914716 3.6360133 0.24071458 1.4254181
## [3,] 0.03851858 0.2862520 0.50382825 0.4692487
## [4,] 0.69332443 0.1976559 1.19302616 0.7936397
## [5,] 0.44575103 0.1739736 0.09508981 3.5017958
## [6,] 1.14413974 0.4953656 0.92019908 0.0395211

Después de establecer la matriz para X1, X2, X3, X4 en una muestra de 100, se procede a comprobar cada uno de los estimadores

for(i in 1:100){
  x100[i,1]=(x[i,1]+x[i,2])/6+(x[i,3]+x[i,4]/3)
  x100[i,2]=(x[i,1] + (2*x[i,2])+(3*x[i,3])+(4*x[i,4]))/5
  x100[i,3]=((x[i,1] + x[i,2] + x[i,3] + x[i,4])/4)
  x100[i,4]=(min(x[i,1],x[i,2],x[i,3],x[i,4])+ max(x[i,1],x[i,2],x[i,3],x[i,4]))/ 2
}
estimador100=data.frame(x100)

Gráficamos cada uno de los estimadores para una muestra de 100

boxplot(estimador100, xlab="Estimador muestra n=100", ylab="Valores del estimador")
abline(h=rate,  col="orange")

Finalmente, calculamos las medias y varianzas que determinan la precisión de un estimador

medias <- apply(estimador100, 2, mean)
varianzas <- apply(estimador100, 2, var)
tablax100 =data.frame(medias, varianzas)
prop.table(tablax100)
##       medias  varianzas
## t1 0.1861264 0.10449249
## t2 0.2369027 0.14689361
## t3 0.1175268 0.02529400
## t4 0.1371198 0.04564427

Como se observa a partir de la interpretación del gráfico boxplot y del cálculo de medias y varianzas, se deduce que el estimador que no se aleja demasiado del valor del parámetro o el valor real es el número 3, debido a que se encuentra más cerca a este; además, contienen valores de varianza mucho menores en relación con los demás estimadores y se encuentra menos sesgados hacía los extremos.

Simulación para los estimadores planteados n=1000

rate= 1 #Se establece el rate para la matriz
x=matrix(data = rexp(1000*4, rate = 1), nrow = 1000, byrow = TRUE)
colnames(x)<-c('t1', 't2', 't3', 't4')
x1000= x[1:1000,]
head(x)
##             t1         t2        t3        t4
## [1,] 0.4635058 0.98429350 2.3037010 1.3112090
## [2,] 1.4367103 0.22707985 1.2860248 0.5914660
## [3,] 1.6804733 0.02709491 0.8096211 0.7741996
## [4,] 1.3344270 1.22781928 2.2889846 1.0083880
## [5,] 0.4151449 0.07980969 0.3868999 0.4528754
## [6,] 0.2145881 0.03386389 1.5622978 0.3518959

Después de establecer la matriz para X1, X2, X3, X4 en una muestra de 1000, se procede a comprobar cada uno de los estimadores

for(i in 1:1000){
  x1000[i,1]=(x[i,1]+x[i,2])/6+(x[i,3]+x[i,4]/3)
  x1000[i,2]=(x[i,1] + (2*x[i,2])+(3*x[i,3])+(4*x[i,4]))/5
  x1000[i,3]=((x[i,1] + x[i,2] + x[i,3] + x[i,4])/4)
  x1000[i,4]=(min(x[i,1],x[i,2],x[i,3],x[i,4])+ max(x[i,1],x[i,2],x[i,3],x[i,4]))/ 2
}
estimador1000=data.frame(x1000)

Gráficamos cada uno de los estimadores para una muestra de 1000

boxplot(estimador1000, xlab="Estimador muestra n=1000", ylab="Valores del estimador")
abline(h=rate,  col="blue")

Finalmente, calculamos las medias y varianzas que determinan la precisión de un estimador

medias <- apply(estimador1000, 2, mean)
varianzas <- apply(estimador1000, 2, var)
tablax1000 =data.frame(medias, varianzas)
prop.table(tablax1000)
##       medias  varianzas
## t1 0.1868341 0.13686480
## t2 0.2253728 0.13461178
## t3 0.1128878 0.02682489
## t4 0.1321807 0.04442306

Como se observa a partir de la interpretación del gráfico boxplot y del cálculo de medias y varianzas, se deduce que el estimador que no se aleja demasiado del valor del parámetro o el valor real es el número 3 y el 4, debido a que se encuentra más cerca a este; además, contienen valores de varianza mucho menores en relación con los demás estimadores y se encuentra menos sesgados hacía los extremos.

Conclusión

Por medio de la simulación con los estimadores, se concluye que con un valor de párametro(rate) de 1, para tetha1, tetha2, tetha3 y tetha4 el que mejor se acerca al valor real y que presenta menos varianza de acuerdo a la muestras de 20, 50, 100 y 1000, es tetha3; debido a que su varianza es poco dispersa y su distribución se aproxima a medida que aumenta el tamaño de la muestra a una distribución normal, en donde el valor de la media y la mediana se encuentran cercanas al Q2 y no se aleja mucho del parámetro poblacional o del valor real.