La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
Nota
Asumimos un θ real de 4
preal<-4
Generación de la función para los parametros θ1
p1<-function(x1,x2,x3,x4){
((x1+x2)/6)+((x3+x4)/3)
}
Generación de la función para los parametros θ2
p2<-function(x1,x2,x3,x4){
(x1+(2*x2)+(3*x3)+(4*x4))/5
}
Generación de la función para los parametros θ3
p3<-function(x1,x2,x3,x4){
(x1+x2+x3+x4)/4
}
Generación de la función para los parametros θ4
p4<-function(x1,x2,x3,x4){
(min(x1,x2,x3,x4)+max(x1,x2,x3,x4))/2
return(x1)
return(x2)
return(x3)
return(x4)
}
Generación de la muestra
set.seed(418)
muestra <- data.frame(
x1 = rexp(1000, rate = 1/preal),
x2 = rexp(1000, rate = 1/preal),
x3 = rexp(1000, rate = 1/preal),
x4 = rexp(1000, rate = 1/preal)
)
Evaluamos cada fila generada con las funciones de los parametros θ1, θ2, θ3, θ4
muestra <- transform(muestra,
theta1 = p1(x1, x2, x3, x4),
theta2 = p2(x1, x2, x3, x4),
theta3 = p3(x1, x2, x3, x4),
theta4 = p4(x1, x2, x3, x4)
)
Generamos una funcion que me permita segmentar la matriz y generar los estimadores a partir de la muestra segmentada
tamanos <- c(20, 50, 100, 1000)
mediatheta1 <- numeric(length(tamanos))
mediatheta2 <- numeric(length(tamanos))
mediatheta3 <- numeric(length(tamanos))
mediatheta4 <- numeric(length(tamanos))
vartheta1 <- numeric(length(tamanos))
vartheta2 <- numeric(length(tamanos))
vartheta3 <- numeric(length(tamanos))
vartheta4 <- numeric(length(tamanos))
for (i in tamanos) {
segmento <-muestra[1:i, ]
mediatheta1[as.character(i)]<-mean(segmento$theta1)
mediatheta2[as.character(i)]<-mean(segmento$theta2)
mediatheta3[as.character(i)]<-mean(segmento$theta3)
mediatheta4[as.character(i)]<-mean(segmento$theta4)
vartheta1[as.character(i)]<-var(segmento$theta1)
vartheta2[as.character(i)]<-var(segmento$theta2)
vartheta3[as.character(i)]<-var(segmento$theta3)
vartheta4[as.character(i)]<-var(segmento$theta4)
boxplot(segmento[, c('theta1', 'theta2', 'theta3', 'theta4')],
main = paste("Simulacion con", i, "filas"),
col = c("yellow", "blue", "green", "purple"))
abline(h=4, col="red")
cat("Summary theta1:\n")
print(summary(segmento$theta1))
cat("Summary theta2:\n")
print(summary(segmento$theta2))
cat("Summary theta3:\n")
print(summary(segmento$theta3))
cat("Summary theta4:\n")
print(summary(segmento$theta4))
}
## Summary theta1:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.321 2.632 3.493 4.132 4.447 14.161
## Summary theta2:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.963 5.306 6.540 8.017 9.546 27.422
## Summary theta3:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.255 2.878 3.989 4.479 5.171 13.510
## Summary theta4:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3351 1.3302 4.8985 6.4207 8.2988 17.9364
## Summary theta1:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9456 2.3242 3.3988 3.9575 4.7619 14.1614
## Summary theta2:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.267 4.718 6.782 7.802 9.400 27.422
## Summary theta3:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.072 2.483 3.677 4.183 4.978 13.510
## Summary theta4:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1128 1.2242 3.7487 5.1909 7.4980 17.9364
## Summary theta1:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9456 2.2094 3.3204 3.8892 4.7701 14.1614
## Summary theta2:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.267 4.546 6.822 7.713 9.526 27.422
## Summary theta3:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.072 2.260 3.561 3.990 4.901 13.510
## Summary theta4:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.04229 1.07073 2.55441 4.34593 6.31190 17.93640
## Summary theta1:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3495 2.4863 3.5030 4.0015 5.1153 18.3133
## Summary theta2:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.7599 4.7474 6.9934 8.0119 10.2292 35.0199
## Summary theta3:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.300 2.509 3.603 4.004 5.112 17.410
## Summary theta4:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01211 1.20617 2.86338 4.14062 5.81171 42.91958
Un estimador se considera consistente si tiende a converger al valor real del parámetro que se está estimando a medida que se recopilan más datos. La consistencia es una propiedad deseable en la estadística, ya que implica que el estimador es preciso y confiable cuando se trabaja con muestras grandes.
parametros <- data.frame(Theta1=tail(mediatheta1,4), Theta2=tail(mediatheta2,4), Theta3=tail(mediatheta3,4), Theta4=tail(mediatheta4,4))
parametros
## Theta1 Theta2 Theta3 Theta4
## 20 4.132454 8.017151 4.478960 6.420722
## 50 3.957535 7.801787 4.182902 5.190941
## 100 3.889214 7.713266 3.990124 4.345932
## 1000 4.001530 8.011885 4.003756 4.140618
Podemos hacer las siguientes observaciones para cada estimador:
Theta1, Theta3 y Theta4: A medida que el tamaño de la muestra aumenta, los estimadores parece converger a un valor cercano a 4, que es el valor real del parámetro. Esto sugiere que los estimadores son consistentes. Para theta 1 con n=20, 50, 1000 es el que tiene mayor aproximacion al parametro rea, seguido por el theta 3.
Theta2: No parece converger al valor real del parametro. Esto indica que Theta2 podría no ser un estimador consistente para el parámetro.
Medida de cuán cerca está el valor esperado del estimador del valor real del parámetro que se está estimando. Matemáticamente, el sesgo se define como la diferencia entre el valor esperado (media) del estimador y el valor real del parámetro. El sesgo se puede calcular de la siguiente manera:
Sesgo = Valor esperado del estimador - Valor real del parámetro
sesgo<- data.frame(n=tamanos,Theta1=(parametros$Theta1-preal), Theta2=(parametros$Theta2-preal), Theta3=(parametros$Theta3-preal), Theta4=(parametros$Theta4-preal))
sesgo
## n Theta1 Theta2 Theta3 Theta4
## 1 20 0.132453949 4.017151 0.478960436 2.4207222
## 2 50 -0.042464884 3.801787 0.182901694 1.1909415
## 3 100 -0.110786041 3.713266 -0.009876147 0.3459316
## 4 1000 0.001529928 4.011885 0.003756409 0.1406179
Un estimador es considerado insesgado si su sesgo es igual a cero, lo que significa que, en promedio, el estimador tiende a estimar el valor real del parámetro correctamente. Si el sesgo no es igual a cero, el estimador se considera sesgado, El sesgo positivo indica una sobreestimación del parámetro, mientras que el sesgo negativo indica una subestimación. Por ende:
Ademas, a medida que aumenta el tamaño de la muestra, todos los estimadores tienden acercarce a cero, lo que sugiere una menor tendencia a la subestimación o sobreestimacion.
Medida de cuán dispersas son las estimaciones del estimador y cuán cercanas están al valor real del parámetro. La eficiencia se evalúa mediante la varianza del estimador. Un estimador eficiente tiene una varianza baja.
variacion<-data.frame(Theta1=tail(vartheta1,4), Theta2=tail(vartheta2,4), Theta3=tail(vartheta3,4), Theta4=tail(vartheta4,4))
variacion
## Theta1 Theta2 Theta3 Theta4
## 20 7.481238 28.71251 7.042714 33.97644
## 50 6.592370 26.52599 6.304500 25.94866
## 100 5.535798 21.90878 5.316667 19.88346
## 1000 4.867742 21.11333 4.388625 17.63903
Basándonos en las varianzas de los estimadores:
Theta3 tiene la varianza más baja en comparación con los otros estimadores en todos los tamaños de muestra. Esto indica que Theta4 es el estimador más eficiente en términos de varianza. A medida que aumenta el tamaño de la muestra, la varianza de Theta4 disminuye, lo que es una señal positiva de su eficiencia.
Theta1 tiene la segunda varianza más baja después de Theta3, lo que sugiere que es un estimador eficiente en términos de varianza. Al igual que con Theta3, la varianza de Theta1 tiende a disminuir a medida que aumenta el tamaño de la muestra.
Theta4 tiene una varianza intermedia en comparación con los otros estimadores. Aunque no es tan eficiente como Theta3 y Theta1, sigue siendo razonablemente eficiente.A medida que aumenta el tamaño de la muestra, su varianza disminuye.
Theta2 tiene la varianza más alta en la mayoria de los tamaños de muestra. Esto indica que Theta2 es el estimador menos eficiente en términos de varianza. A medida que aumenta el tamaño de la muestra, su varianza disminuye.
Ademas, a medida que aumenta el tamaño de la muestra, todos los estimadores tienden a mejorar en términos de eficiencia, ya que sus varianzas disminuyen.
plot(tamanos, parametros$Theta1, type = "l", col = "blue", xlab = "Tamaño de la Muestra", ylab = "Media del Parámetro", ylim = c(3.8, 8.3))
lines(tamanos,parametros$Theta2, col = "red")
lines(tamanos, parametros$Theta3, col = "green")
lines(tamanos, parametros$Theta4, col = "purple")
abline(h = preal, col = "black", lty = 2)
legend("topright", legend = c("Parámetro 1", "Parámetro 2", "Parámetro 3", "Parámetro 4", "Valor Teórico"),
col = c("blue", "red", "green", "purple", "black"), lty = c(1, 1, 1, 1, 2))
Parece ser que la mejor opcion es el parametro theta 1, ya que es el que presenta mayor consistencia y menor sesgo, a pesar de que el theta 3 presente una eficiencia mayor, la cual difiere poco con respecto al theta 1. theta 1 permite una estimacion confiable y precisa hacia el parametro propuesto de 4, como se identifica en la grafica, donde la linea verde tiende a sobreponerse sobre la linea negra, indicando que Theta 3 converge consistentemente hacia el valor real a medida que aumenta el tamaño de la muestra.