La simulación ayuda a entender y validar las propiedades de los estimadores estadísticos como son, insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad. Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n = 4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
En base a los 4 estimadores propuestos:
simulaciones <- 1000
parametro_theta <- 2
exponencial_muestra <- function(n, parametro_theta) {
rexp(n, rate = parametro_theta)
}
calculo_estimadores <- function(muestra) {
theta_1 <- (sum(muestra[1:2]) / 6) + (sum(muestra[3:4]) / 3)
theta_2 <- (muestra[1] + 2*muestra[2] + 3*muestra[3] + 4*muestra[4]) / 6
theta_3 <- (sum(muestra) / 4)
theta_4 <- (min(muestra) + max(muestra)) / 2
return(c(theta_1, theta_2, theta_3, theta_4))
}
# Tamaño de la muestra n=4 (X1, X2, X3, X4)
muestra_n <- 4
# Matriz resultados
resultados <- matrix(NA, nrow = simulaciones, ncol = 4)
# Nombres columnas
nombres_columnas <- c("θ1ˆ", "θ2ˆ", "θ3ˆ", "θ4ˆ")
for (j in 1:simulaciones) {
muestra <- exponencial_muestra(muestra_n, parametro_theta)
estimadores <- calculo_estimadores(muestra)
colnames(resultados) <- nombres_columnas
resultados[j, ] <- estimadores
}
# Dataframe con los resultados de los estimadores
resultados_df <- data.frame(resultados)
estimadores20 <- resultados_df[1:20,]
# Diagrama de caja
boxplot(estimadores20, xlab = "Estimadores", ylab = "Valor estimado", ylim=c(0,2.5))
abline(h = parametro_theta, col = "red", lty = 1)
title("20 Simulaciones")
# Media, varianza (eficiencia), sesgo (insesgadez)
media <- apply(estimadores20, 2, mean)
varianza <- apply(estimadores20, 2, var)
sesgo <- parametro_theta - media
data.frame(media, varianza, sesgo)
## media varianza sesgo
## θ1ˆ 0.4917774 0.05083935 1.508223
## θ2ˆ 0.8240358 0.17544535 1.175964
## θ3ˆ 0.5085644 0.06120691 1.491436
## θ4ˆ 0.6061905 0.15271831 1.393810
20 simulaciones: al evaluar los cuatro estimadores, observamos que θ2ˆ(0.8240358) y θ4ˆ(0.6061905) en su valor medio se acerca mas al parámetro θ=2 y representan el menor sesgo. En términos de eficiencia, θ1ˆ y θ3ˆ presentan la menor varianza, donde el primero (0.05083935) es el más eficiente que el segundo (0.06120691), respectivamente.
estimadores50 <- resultados_df[1:50,]
# Diagrama de caja
boxplot(estimadores50, xlab = "Estimadores", ylab = "Valor estimado", ylim=c(0,2.5))
abline(h = parametro_theta, col = "red", lty = 1)
title("50 Simulaciones")
# Media, varianza (eficiencia), sesgo (insesgadez)
media2 <- apply(estimadores50, 2, mean)
varianza2 <- apply(estimadores50, 2, var)
sesgo2 <- parametro_theta - media2
data.frame(media2, varianza2, sesgo2)
## media2 varianza2 sesgo2
## θ1ˆ 0.5004333 0.04944848 1.499567
## θ2ˆ 0.8535307 0.15216102 1.146469
## θ3ˆ 0.5036166 0.04423231 1.496383
## θ4ˆ 0.5781667 0.10048762 1.421833
50 simulaciones: al evaluar los cuatro estimadores, observamos que θ2ˆ (0.8535307) y θ4ˆ (0.5781667) en su valor medio se acerca mas al parámetro θ=2 y representan el menor sesgo. En términos de eficiencia, θ1ˆ y θ3ˆ presentan la menor varianza, donde el segundo (0.04423231) es el más eficiente que el primero (0.04944848), respectivamente.
estimadores100 <- resultados_df[1:100,]
# Diagrama de caja
boxplot(estimadores100, xlab = "Estimadores", ylab = "Valor estimado", ylim=c(0,2.5))
abline(h = parametro_theta, col = "red", lty = 1)
title("100 Simulaciones")
# Media, varianza (eficiencia), sesgo (insesgadez)
media3 <- apply(estimadores100, 2, mean)
varianza3 <- apply(estimadores100, 2, var)
sesgo3 <- parametro_theta - media3
data.frame(media3, varianza3, sesgo3)
## media3 varianza3 sesgo3
## θ1ˆ 0.4875503 0.05059500 1.512450
## θ2ˆ 0.8107421 0.15204766 1.189258
## θ3ˆ 0.4965358 0.04808582 1.503464
## θ4ˆ 0.5646239 0.08465662 1.435376
100 simulaciones: al evaluar los cuatro estimadores, observamos que θ2ˆ (0.8107421) y θ4ˆ (0.5646239) en su valor medio se acerca mas al parámetro θ=2 y representan el menor sesgo. En términos de eficiencia, θ1ˆ y θ3ˆ presentan la menor varianza, donde el segundo (0.04808582) es el más eficiente que el primero (0.05059500), respectivamente.
estimadores1000 <- resultados_df
# Diagrama de caja
boxplot(estimadores1000, xlab = "Estimadores", ylab = "Valor estimado", ylim=c(0,2.5))
abline(h = parametro_theta, col = "red", lty = 1)
title("1.000 Simulaciones")
# Media, varianza (eficiencia), sesgo (insesgadez)
media4 <- apply(estimadores1000, 2, mean)
varianza4 <- apply(estimadores1000, 2, var)
sesgo4 <- parametro_theta - media4
data.frame(media4, varianza4, sesgo4)
## media4 varianza4 sesgo4
## θ1ˆ 0.4989132 0.06934123 1.501087
## θ2ˆ 0.8327754 0.20739095 1.167225
## θ3ˆ 0.4999876 0.06081926 1.500012
## θ4ˆ 0.5847464 0.10115449 1.415254
1.000 simulaciones: al evaluar los cuatro estimadores, observamos que θ2ˆ (0.8327754) y θ4ˆ (0.5847464) en su valor medio se acerca mas al parámetro θ=2 y representan el menor sesgo. En términos de eficiencia, θ1ˆ y θ3ˆ presentan la menor varianza, donde el segundo (0.06081926) es el más eficiente que el primero (0.06934123), respectivamente.
De los cuatros estimadores evaluados, θ1ˆ, θ2ˆ, θ3ˆ y θ4ˆ, el mejor estimador es θ2ˆ ya que se acerca al parámetro en cada una de las simulaciones y presenta el menor sesgo a pesar de que es el estimador con mayor cantidad de datos dispersos en cada uno de los casos. Tenemos los siguientes resultados: