Diego Felipe Feria Gómez
Maestría en
Ciencia de Datos
La simulación ayuda a entender y validad las propiedades de
los estimadores estadísticos como son, insesgadez, eficiencia y la
consistencia principalmente. El siguiente problema permite evidenciar
las principales características de un grupo de estimadores propuestos
para la estimación de un parámetro asociado a un modelo de
probabilidad.
Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
θ´1 = (X1+X2)/6 + (X3+X4)/3
θ´2 = (X1+2X2+3X3+4X4)/5
θ´3 = (X1+X2+X3+X4)/4
θ´4 = (min{X1,X2,X3,X4} + max{X1,X2,X3,X4})/2
Genere una muestras de n=20, 50, 100 y 1000 para cada uno de los estimadores planteados.
En cada caso evalue las propiedades de insesgadez, eficiencia y consistencia.
Suponga un valor para el parámetro θ.
n=20
x1=rexp(n,1/20)
x2=rexp(n,1/20)
x3=rexp(n,1/20)
x4=rexp(n,1/20)
t1=(x1+x2)/6 +(x3+x4)/3
t2=(x1+2*x2+3*x3+4*x4)/5
t3=(x1+x2+x3+x4)/4
t4=numeric(n)
for (i in 1:n) {
valores <- c(x1[i], x2[i], x3[i], x4[i])
minimo <- min(valores)
maximo <- max(valores)
t4[i] <- (minimo + maximo) / 2
}
data1=data.frame(t1,t2,t3,t4)
boxplot(data1)
abline(h = 20, col = "red", lwd = 2)
n=50
x1=rexp(n,1/20)
x2=rexp(n,1/20)
x3=rexp(n,1/20)
x4=rexp(n,1/20)
t1=(x1+x2)/6 +(x3+x4)/3
t2=(x1+2*x2+3*x3+4*x4)/5
t3=(x1+x2+x3+x4)/4
t4=numeric(n)
for (i in 1:n) {
valores <- c(x1[i], x2[i], x3[i], x4[i])
minimo <- min(valores)
maximo <- max(valores)
t4[i] <- (minimo + maximo) / 2
}
data2=data.frame(t1,t2,t3,t4)
boxplot(data2)
abline(h = 20, col = "red", lwd = 2)
n=100
x1=rexp(n,1/20)
x2=rexp(n,1/20)
x3=rexp(n,1/20)
x4=rexp(n,1/20)
t1=(x1+x2)/6 +(x3+x4)/3
t2=(x1+2*x2+3*x3+4*x4)/5
t3=(x1+x2+x3+x4)/4
t4=numeric(n)
for (i in 1:n) {
valores <- c(x1[i], x2[i], x3[i], x4[i])
minimo <- min(valores)
maximo <- max(valores)
t4[i] <- (minimo + maximo) / 2
}
data3=data.frame(t1,t2,t3,t4)
boxplot(data3)
abline(h = 20, col = "red", lwd = 2)
n=1000
x1=rexp(n,1/20)
x2=rexp(n,1/20)
x3=rexp(n,1/20)
x4=rexp(n,1/20)
t1=(x1+x2)/6 +(x3+x4)/3
t2=(x1+2*x2+3*x3+4*x4)/5
t3=(x1+x2+x3+x4)/4
t4=numeric(n)
for (i in 1:n) {
valores <- c(x1[i], x2[i], x3[i], x4[i])
minimo <- min(valores)
maximo <- max(valores)
t4[i] <- (minimo + maximo) / 2
}
data4=data.frame(t1,t2,t3,t4)
boxplot(data4)
abline(h = 20, col = "red", lwd = 2)
La insesgadez de un estimador se refiere a la diferencia entre el valor esperado del estimador y el valor verdadero del parámetro. Un estimador es insesgado si su valor esperado es igual al parámetro que está estimando.
sesgo20=apply(data1,2, function(x) mean(x) -20)
sesgo50=apply(data2,2, function(x) mean(x) -20)
sesgo100=apply(data3,2, function(x) mean(x) -20)
sesgo1000=apply(data4,2, function(x) mean(x) -20)
Sesgodata=data.frame(sesgo20,sesgo50,sesgo100,sesgo1000)
Sesgodata
sesgo20 sesgo50 sesgo100 sesgo1000
t1 0.7084877 0.6245204 -0.04089629 0.07867237
t2 20.8791757 21.2955239 20.43759565 20.11631579
t3 0.3425779 0.4298581 -0.07060324 0.10106150
t4 4.0157569 2.7406744 3.37645298 3.49834936
Los estimadores menos sesgados y que se mantuvieron con el aumento del n fueron θ´1 y θ´3, lo que quiere decir que estiman la media poblacional de forma más precisa.
La eficiencia de un estimador se mide en términos de la varianza de sus estimaciones. Un estimador es más eficiente si tiene una varianza más baja.
var20=apply(data1,2, var)
var50=apply(data2,2, var)
var100=apply(data3,2, var)
var1000=apply(data4,2, var)
vardata=data.frame(var20,var50,var100,var1000)
vardata
var20 var50 var100 var1000
t1 108.85332 81.27212 108.65853 117.6456
t2 350.75080 338.92327 440.94993 508.8401
t3 79.43927 70.31238 96.07281 110.0337
t4 208.29069 101.77557 141.99101 169.1580
Los estimadores más eficientes y que se mantuvieron con el aumento del n fueron θ´1 y θ´3, lo que representa una baja variabilidad en sus estimaciones.
Un estimador es consistente si converge al valor verdadero a medida que el tamaño de la muestra aumenta. Para evaluar la consistencia, se observa cómo varía el estimador y su varianza con diferentes tamaños de muestra.
mean20=apply(data1,2, mean)
mean50=apply(data2,2, mean)
mean100=apply(data3,2, mean)
mean1000=apply(data4,2, mean)
meandata=data.frame(mean20,mean50,mean100,mean1000)
meandata
mean20 mean50 mean100 mean1000
t1 20.70849 20.62452 19.95910 20.07867
t2 40.87918 41.29552 40.43760 40.11632
t3 20.34258 20.42986 19.92940 20.10106
t4 24.01576 22.74067 23.37645 23.49835
Los estimadores más consistentes y que se acercaron más al valor real conforme aumentaba el n fueron θ´1 y θ´3.