La simulación ayuda a entender y validar las propiedades de los estimadores estadísticos como son insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
• θ1ˆ= ((X1+X2)/6) + ((X3+X4)/3)
• θ2ˆ= (X1+2X2+3X3+4X4)/5
• θ3ˆ= (X1+X2+X3+X4)/4
• θ4ˆ= ((min{X1,X2,X3,X4})+(max{X1,X2,X3,X4}))/2
• Genere una muestras de n=20, 50, 100 y 1000 para cada uno de los estimadores planteados.
• En cada caso evalue las propiedades de insesgadez, eficiencia y consistencia.
• Suponga un valor para el parámetro θ
Inicialmente, se crea una función para calcular los valores de los estimadores y se genera una lista para guardar las muestras, las cuales permitirán realizar las simulaciones. Asimismo, se formulan las propiedades de los estimadores:
set.seed(123)
theta <- 4
muestraaleatoria <- c(20,50,100,1000)
resultadosfinales <- list()
for (n in muestraaleatoria) {
nsimulaciones <- n
estimadores <- list(
Theta1 = function(X) (X[1]+X[2])/6 + (X[3]+X[4])/3,
Theta2 = function(X) (X[1]+2*X[2]+3*X[3]+4*X[4])/5,
Theta3 = function(X) mean(X),
Theta4 = function(X) (min(X)+max(X))/2
)
muestras <- matrix(rexp(4 * nsimulaciones, rate = 1/theta), nrow = nsimulaciones)
resultadosestimaciones <- matrix(apply(muestras, 1, function(X) sapply(estimadores, function(est) est(X))), nrow = nsimulaciones)
Insesgadez <- colMeans(resultadosestimaciones) - theta
Eficiencia <- 1 /colMeans((resultadosestimaciones - theta)^2)
Consistencia <- colMeans((resultadosestimaciones - theta)^2)
Media <- colMeans(resultadosestimaciones)
Varianza <- apply(resultadosestimaciones, 2, var)
resultadosfinales[[as.character(n)]] <- data.frame(Estimador = names(estimadores), n = n, Insesgadez = Insesgadez, Eficiencia = Eficiencia, Consistencia = Consistencia, Media = Media, Varianza = Varianza)
}
Posteriormente, se generan los diagramas de cajas y bigotes para observar el comportamiento de los datos, según el tamaño de muestra:
par(mfrow=c(1,1))
for (n in muestraaleatoria){
boxplot(resultadosestimaciones,
main = paste("Simulacion con tamano de muestra =", n),
ylab="Valor Estimacion",
xlab="Estimadores Propuestos",
col= c("#7FFF00", "#00B2EE", "#EEC900", "#EE6363"),
names=c("Theta1", "Theta2", "Theta3", "Theta4"))
abline(h=4, col="#B23AEE", lwd=2, lty=1)
}
Ahora, se presentan los resultados de las validaciones de las propiedades:
resultadosconsolidados <- do.call(rbind, resultadosfinales)
rownames(resultadosconsolidados) <- NULL
print(resultadosconsolidados)
## Estimador n Insesgadez Eficiencia Consistencia Media Varianza
## 1 Theta1 20 1.8492487 0.03730247 26.807876 5.849249 24.619111
## 2 Theta2 20 0.9537507 0.15718483 6.361937 4.953751 5.739260
## 3 Theta3 20 1.3041521 0.13197361 7.577272 5.304152 6.185747
## 4 Theta4 20 1.0820481 0.17364026 5.759033 5.082048 4.829690
## 5 Theta1 50 1.7296413 0.07052731 14.178904 5.729641 11.415556
## 6 Theta2 50 0.6340418 0.13575785 7.366056 4.634042 7.106171
## 7 Theta3 50 0.9013553 0.09473400 10.555873 4.901355 9.942277
## 8 Theta4 50 1.7530770 0.10438313 9.580092 5.753077 6.639605
## 9 Theta1 100 1.1147667 0.08319719 12.019636 5.114767 10.885789
## 10 Theta2 100 0.6042283 0.13058876 7.657627 4.604228 7.366197
## 11 Theta3 100 1.6831338 0.05555446 18.000354 5.683134 15.320621
## 12 Theta4 100 1.3383810 0.09364785 10.678302 5.338381 8.976806
## 13 Theta1 1000 1.3378944 0.07316971 13.666857 5.337894 11.888784
## 14 Theta2 1000 1.1051882 0.07867439 12.710616 5.105188 11.500676
## 15 Theta3 1000 1.2095910 0.06748398 14.818332 5.209591 13.368590
## 16 Theta4 1000 1.1062061 0.08567582 11.671905 5.106206 10.458672
Finalmente, se generan los diagramas de cajas y bigotes para observar las propiedades de los estimadores en las muestras simuladas:
Insesgadez_bxp <- ggplot(resultadosconsolidados, aes(Estimador, y = Insesgadez, fill=Estimador)) + geom_boxplot() + theme_minimal()
Eficiencia_bxp <- ggplot(resultadosconsolidados, aes(Estimador, y = Eficiencia, fill=Estimador)) + geom_boxplot() + theme_minimal()
Consistencia_bxp <- ggplot(resultadosconsolidados, aes(Estimador, y = Consistencia, fill=Estimador)) + geom_boxplot() + theme_minimal()
Media_bxp <- ggplot(resultadosconsolidados, aes(Estimador, y = Media, fill=Estimador)) + geom_boxplot() + theme_minimal()
Varianza_bxp <- ggplot(resultadosconsolidados, aes(Estimador, y = Varianza, fill=Estimador)) + geom_boxplot() + theme_minimal()
Insesgadez_bxp
Eficiencia_bxp
Consistencia_bxp
Media_bxp
Varianza_bxp
Un estimador es una función de los datos de una muestra, cuyo objetivo es permitir el conocimiento aproximado de un parámetro estudiado de una población, en otras palabras, el estimador describe a una muestra y el parámetro a una población, pero como no siempre se puede realizar un censo, para conocer con exactitud una característica de la población, se debe acudir al muestreo, para que, a través del estimador, se aproxime al parámetro.
Para que un estimador sea óptimo para describir las características de la muestra, resulta indispensable verificar que sea capaz de arrojar resultados precisos, que permitan generalizar, que sea robusto y fiable, entre otros aspectos, de manera que garantice la interpretación correcta de los resultados. Por lo anterior, se deben analizar el cumplimiento de las propieades.
Como primer propiedad está la insesgadez, que se obtiene de la diferencia entre su valor esperado (promedio de repeticiones) y el verdadero valor del parámetro, si el valor es cercano a cero, se dice que el estimador no tiene sesgo. En el contexto del ejercio, el objetivo consiste en que el promedio de repeticiones se acerca al verdadero valor del parámetro, entonces se puede observar que, para todos los tamaños de muestra, el valor fue diferente de cero, bien sea mayor o menor, lo que indica que no precisamente se cumple con la esta propiedad, sin embargo, si se evalúa por valores más cercanos a cero, se encuentra que, el estimador Theta2 es el que menor sesgo presenta, dado que la mayoría de sus datos se ubican por debajo de 1, es decir, menor diferencia, y al verificar en la media, se encuentra que, la media de Theta2 es la más parecida a la media del verdadero valor del parámetro, que era 4.
La segunda propiedad se refiere a le eficiencia, y depende de la varianza mínima, es decir, seleccionar al estimador insesgado y con menor varianza entre todos los estimadores. En las simulaciones se puede observar que, el estimador Theta2 presenta una mejor precisión en la estimación, dado que su eficiencia es la más alta, asimismo, es el que menor mediana de varianzas presenta, lo que respalda la selección como el estimador que cumple con la propiedad.
En la tercera propiedad se encuentra la consistencia, que se obtiene evaluando el comportamiento a medida que aumenta el tamaño de muestra, buscando que el valor estimado se acerque al verdadero valor del parámetro, por lo que en teoría la varianza tiende a disminuir cuanto mayor sea el tamaño de muestra. En el ejercicio se observa que, Theta4 es el estimador en el que se refleja una mejor estabilidad en la disminución de la varianza a medida que se incrementa el número de observaciones, no obstante, este estimador no cumple con las características de insesgadez y eficiencia.
Teniendo en cuenta que ningún estimador se diferenció por cumplir con las tres propiedades, la elección del mejor estimador será de acuerdo con la propiedad que más peso se le asigne en el estudio. Así, si se pretende evaluar la insesgadez y eficiencia, Theta2 se convierte en un estimador sugerido para llegar al parámetro poblaciones, pero si se quiere estudiar desde la consistencia, entonces Theta4 es el elegido. Por lo anterior, para seleccionar a un estimador, resulta indispensable tener más información, como por ejemplo, conocer la distribución de la variable.