Propiedades de los estimadores

La simulación ayuda a entender y validar las propiedades de los estimadores estadísticos como son, insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad. Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n = 4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

En base a los 4 estimadores propuestos:

  • Genere 20, 50, 100 y 1.000 simulaciones.
  • En cada caso evalue las propiedades de insesgadez, eficiencia y consistencia
  • Suponga un valor para el parámetro θ.

1. Desarrollo

a. Cantidad de simulaciones

simulaciones <- 1000

b. Valor parámetro

parametro_theta <- 2

c. Funcion exponencial para la muestra

exponencial_muestra <- function(n, parametro_theta) {
  rexp(n, rate = parametro_theta)
}

d. Función para calcular los estimadores

calculo_estimadores <- function(muestra) {
  theta_1 <- (sum(muestra[1:2]) / 6) + (sum(muestra[3:4]) / 3)
  theta_2 <- (muestra[1] + 2*muestra[2] + 3*muestra[3] + 4*muestra[4]) / 6
  theta_3 <- (sum(muestra) / 4)
  theta_4 <- (min(muestra) + max(muestra)) / 2
  return(c(theta_1, theta_2, theta_3, theta_4))
}

e. Matriz de resultados

# Tamaño de la muestra n=4 (X1, X2, X3, X4)
muestra_n <- 4
# Matriz resultados
resultados <- matrix(NA, nrow = simulaciones, ncol = 4)
# Nombres columnas
nombres_columnas <- c("θ1ˆ", "θ2ˆ", "θ3ˆ", "θ4ˆ")

f. Función para las simulaciones

for (j in 1:simulaciones) {
  muestra <- exponencial_muestra(muestra_n, parametro_theta)
  estimadores <- calculo_estimadores(muestra)
  colnames(resultados) <- nombres_columnas
  resultados[j, ] <- estimadores
}
# Dataframe con los resultados de los estimadores
resultados_df <- data.frame(resultados)

2. Simulaciones

a. 20 simulaciones

estimadores20 <- resultados_df[1:20,]
# Diagrama de caja
boxplot(estimadores20, xlab = "Estimadores", ylab = "Valor estimado", ylim=c(0,2.5))
abline(h = parametro_theta, col = "red", lty = 1)
title("20 Simulaciones")

# Media, varianza (eficiencia), sesgo (insesgadez)
media <- apply(estimadores20, 2, mean)
varianza <- apply(estimadores20, 2, var)
sesgo <- parametro_theta - media
data.frame(media, varianza, sesgo)
##         media   varianza    sesgo
## θ1ˆ 0.4917774 0.05083935 1.508223
## θ2ˆ 0.8240358 0.17544535 1.175964
## θ3ˆ 0.5085644 0.06120691 1.491436
## θ4ˆ 0.6061905 0.15271831 1.393810

20 simulaciones: al evaluar los cuatro estimadores, observamos que θ2ˆ(0.8240358) y θ4ˆ(0.6061905) en su valor medio se acerca mas al parámetro θ=2 y representan el menor sesgo. En términos de eficiencia, θ1ˆ y θ3ˆ presentan la menor varianza, donde el primero (0.05083935) es el más eficiente que el segundo (0.06120691), respectivamente.

b. 50 simulaciones

estimadores50 <- resultados_df[1:50,]
# Diagrama de caja
boxplot(estimadores50, xlab = "Estimadores", ylab = "Valor estimado", ylim=c(0,2.5))
abline(h = parametro_theta, col = "red", lty = 1)
title("50 Simulaciones")

# Media, varianza (eficiencia), sesgo (insesgadez)
media2 <- apply(estimadores50, 2, mean)
varianza2 <- apply(estimadores50, 2, var)
sesgo2 <- parametro_theta - media2
data.frame(media2, varianza2, sesgo2)
##        media2  varianza2   sesgo2
## θ1ˆ 0.5004333 0.04944848 1.499567
## θ2ˆ 0.8535307 0.15216102 1.146469
## θ3ˆ 0.5036166 0.04423231 1.496383
## θ4ˆ 0.5781667 0.10048762 1.421833

50 simulaciones: al evaluar los cuatro estimadores, observamos que θ2ˆ (0.8535307) y θ4ˆ (0.5781667) en su valor medio se acerca mas al parámetro θ=2 y representan el menor sesgo. En términos de eficiencia, θ1ˆ y θ3ˆ presentan la menor varianza, donde el segundo (0.04423231) es el más eficiente que el primero (0.04944848), respectivamente.

c. 100 simulaciones

estimadores100 <- resultados_df[1:100,]
# Diagrama de caja
boxplot(estimadores100, xlab = "Estimadores", ylab = "Valor estimado", ylim=c(0,2.5))
abline(h = parametro_theta, col = "red", lty = 1)
title("100 Simulaciones")

# Media, varianza (eficiencia), sesgo (insesgadez)
media3 <- apply(estimadores100, 2, mean)
varianza3 <- apply(estimadores100, 2, var)
sesgo3 <- parametro_theta - media3
data.frame(media3, varianza3, sesgo3)
##        media3  varianza3   sesgo3
## θ1ˆ 0.4875503 0.05059500 1.512450
## θ2ˆ 0.8107421 0.15204766 1.189258
## θ3ˆ 0.4965358 0.04808582 1.503464
## θ4ˆ 0.5646239 0.08465662 1.435376

100 simulaciones: al evaluar los cuatro estimadores, observamos que θ2ˆ (0.8107421) y θ4ˆ (0.5646239) en su valor medio se acerca mas al parámetro θ=2 y representan el menor sesgo. En términos de eficiencia, θ1ˆ y θ3ˆ presentan la menor varianza, donde el segundo (0.04808582) es el más eficiente que el primero (0.05059500), respectivamente.

d. 1.000 simulaciones

estimadores1000 <- resultados_df
# Diagrama de caja
boxplot(estimadores1000, xlab = "Estimadores", ylab = "Valor estimado", ylim=c(0,2.5))
abline(h = parametro_theta, col = "red", lty = 1)
title("1.000 Simulaciones")

# Media, varianza (eficiencia), sesgo (insesgadez)
media4 <- apply(estimadores1000, 2, mean)
varianza4 <- apply(estimadores1000, 2, var)
sesgo4 <- parametro_theta - media4
data.frame(media4, varianza4, sesgo4)
##        media4  varianza4   sesgo4
## θ1ˆ 0.4989132 0.06934123 1.501087
## θ2ˆ 0.8327754 0.20739095 1.167225
## θ3ˆ 0.4999876 0.06081926 1.500012
## θ4ˆ 0.5847464 0.10115449 1.415254

1.000 simulaciones: al evaluar los cuatro estimadores, observamos que θ2ˆ (0.8327754) y θ4ˆ (0.5847464) en su valor medio se acerca mas al parámetro θ=2 y representan el menor sesgo. En términos de eficiencia, θ1ˆ y θ3ˆ presentan la menor varianza, donde el segundo (0.06081926) es el más eficiente que el primero (0.06934123), respectivamente.

3. Conclusiones

De los cuatros estimadores evaluados, θ1ˆ, θ2ˆ, θ3ˆ y θ4ˆ, el mejor estimador es θ2ˆ ya que se acerca al parámetro en cada una de las simulaciones y presenta el menor sesgo a pesar de que es el estimador con mayor cantidad de datos dispersos en cada uno de los casos. Tenemos los siguientes resultados:

  • El sesgo denota el error sistemático en la estimación o modelación de un parámetro. A lo largo de las simulaciones realizadas, que abarcan desde 20 hasta 1.000, el estimador 2 exhibe el menor sesgo en todos los escenarios analizados.Sin embargo, el estimador 2 se encuentra sesgado al encontrarse muy alejado del parámetro θ=2.
  • La varianza constituye una métrica que cuantifica la dispersión de los valores estimados con respecto a su valor esperado. En cada una de las simulaciones, el estimador 3 sobresale al exhibir la varianza más reducida. Este fenómeno implica que las estimaciones generadas por el estimador 3 son altamente consistentes y poseen una menor variabilidad entre diferentes simulaciones.
  • La consistencia de un estimador se mide observando su comportamiento a medida que aumenta el tamaño de la muestra o el número de simulaciones. Observando el sesgo para determinar que tanto se acerca al valor del parámetro a medida que aumenta el número de simulaciones, tenemos que para el estimador con menor sesgo, θ2ˆ, es inconsistente al pasar de 50 simulaciones a 100 simulaciones. En el resto de casos para este estimador, el sesgo disminuye en cuanto aumentan las simulaciones.