La simulación ayuda a entender y validar las propiedades de los estimadores estadísticos como son: insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean \(X_1\), \(X_2\), \(X_3\), y \(X_4\), una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro \(θ\) desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
\[ θ_1^ˆ = \frac{X_1+X_2}{6} + \frac{X_3+X_4}{3} \] \[ θ_2^ˆ = \frac{X_1+2X_2+3X_3+4X_4}{5} \]
\[ θ_3^ˆ = \frac{X_1+X_2+X_3+X_4}{4} \]
\[ θ_4^ˆ = \frac{min(X_1+X_2+X_3+X_4)+max(X_1+X_2+X_3+X_4)}{2} \]
Los estimadores estadísticos son funciones matemáticas o reglas que se utilizan para calcular estimaciones o aproximaciones de parámetros desconocidos en una población o conjunto de datos. Estos parámetros pueden representar propiedades importantes de la población, como la media, la varianza, la proporción, entre otros. Los estimadores se basan en muestras de datos observados y se seleccionan de manera que proporcionen valores que sean lo más cercanos posibles a los parámetros verdaderos, con el objetivo de inferir información precisa sobre la población en función de la información limitada de la muestra. Los estimadores son fundamentales en la estadística inferencial y desempeñan un papel crucial en la toma de decisiones, la predicción y la comprensión de fenómenos basados en datos.
El objetivo del ejercicio es evaluar la insesgadez, eficiencia y consistencia para cada uno de los estimadores propuestos, y a partir de estos establecer cual es el mejor estimador de acuerdo con sus caracteristicas.
Para lograr tal fin, se estableció una función que nos permite evaluar los estimadores teniendo en cuenta los diferentes tamaños muestrales n y valores de \(\theta\) supuestos.
# Función de los estimadores
theta_1 <- function(x1, x2, x3, x4){
return(
(x1+x2)/6+(x3+x4)/3
)
}
theta_2 <- function(x1, x2, x3, x4){
return(
(x1+2*x2+3*x3+4*x4)/5
)
}
theta_3 <- function(x1, x2, x3, x4){
return(
(x1+x2+x3+x4)/4
)
}
theta_4 <- function(x1, x2, x3, x4){
return(
((min(x1,x2,x3,x4)+max(x1,x2,x3,x4))/2)
)
}
comparacion_function <- function(n, theta_sup){
# n <- La cantidad de datos
# theta_sup <- Es el valor inicial supuesto para la distribución exponencial
# Se establece una semilla para poder realizar un análisis de resultados más consistente
set.seed(43)
# 1. Distribuciones exponenciales para cada muestra
x1 <- rexp(n, theta_sup)
x2 <- rexp(n, theta_sup)
x3 <- rexp(n, theta_sup)
x4 <- rexp(n, theta_sup)
# 2. Crea el dataframe base
base <- data.frame(x1, x2, x3, x4)
# 3. Se calculan los estimadores con base en la muestra aleatoria
base$t1 <- apply(base, 1, function(row) theta_1(row['x1'], row['x2'], row['x3'], row['x4']))
base$t2 <- apply(base, 1, function(row) theta_2(row['x1'], row['x2'], row['x3'], row['x4']))
base$t3 <- apply(base, 1, function(row) theta_3(row['x1'], row['x2'], row['x3'], row['x4']))
base$t4 <- apply(base, 1, function(row) theta_4(row['x1'], row['x2'], row['x3'], row['x4']))
# 4. Se extraen los estimadores en un dataframe
estimadores <- base[c('t1', 't2', 't3', 't4')]
# 5. Resumen de las estadisticas
summary_data <- summary(estimadores)
# 6. Se calcula la matriz de varianzas
varianza <- var(estimadores)
# 7. Reordena los estimadores para graficar
estimadores_2 <- melt(estimadores, id.vars= NULL)
# 8. Crea el grafico de boxplots
plot <- ggplot(estimadores_2, aes(variable, value)) +
geom_boxplot() +
labs(x = "Estimadores", y = "Valor", title = paste("Comparación de los estimadores con n = ", n)) +
geom_hline(yintercept = 1/theta_sup, color = "blue", linetype = "dashed")
# 9. Genera el listado de resultados
resultados <- list(
'summary' = summary_data,
'grafico' = plot,
'varianza' = varianza
)
return(resultados)
}
Se evalua la función con los diferentes tamaños de muestra propuestos (20, 50, 100 y 1000) con \(\lambda = \frac{1}{5}\), de lo cual obtenemos el gráfico de boxplots que compara los diferentes estimadores, un resumén estadistico que indica valores máximos, mínimos, 1er, 2do y 3er cuartil, y por ultimo la matriz de varianzas que permite realizar un análisis de dispersión. A continuación se presentan los resultados obtenidos en las simulaciones.
# Se ejecuta la función
lambda = 1/5
case_1 <- comparacion_function(20, lambda)
case_2 <- comparacion_function(50, lambda)
case_3 <- comparacion_function(100, lambda)
case_4 <- comparacion_function(1000, lambda)
| t1 | t2 | t3 | t4 | |
|---|---|---|---|---|
| Min. :0.893 | Min. : 1.538 | Min. :0.9379 | Min. :1.073 | |
| 1st Qu.:3.470 | 1st Qu.: 6.614 | 1st Qu.:3.4240 | 1st Qu.:3.947 | |
| Median :5.504 | Median :10.161 | Median :5.5138 | Median :5.371 | |
| Mean :5.197 | Mean :10.385 | Mean :5.0683 | Mean :5.762 | |
| 3rd Qu.:6.799 | 3rd Qu.:13.351 | 3rd Qu.:7.0154 | 3rd Qu.:8.715 | |
| Max. :8.812 | Max. :19.891 | Max. :8.6619 | Max. :9.500 |
| t1 | t2 | t3 | t4 | |
|---|---|---|---|---|
| t1 | 6.149894 | 13.01237 | 5.273713 | 6.118198 |
| t2 | 13.012373 | 28.19825 | 10.907939 | 12.343297 |
| t3 | 5.273713 | 10.90794 | 5.250233 | 5.714523 |
| t4 | 6.118198 | 12.34330 | 5.714523 | 7.441546 |
| t1 | t2 | t3 | t4 | |
|---|---|---|---|---|
| Min. : 0.7676 | Min. : 1.291 | Min. : 0.8267 | Min. : 0.9192 | |
| 1st Qu.: 2.7393 | 1st Qu.: 5.463 | 1st Qu.: 2.8660 | 1st Qu.: 3.3931 | |
| Median : 3.9613 | Median : 7.680 | Median : 4.2893 | Median : 5.0044 | |
| Mean : 4.7631 | Mean : 9.494 | Mean : 4.8295 | Mean : 5.6512 | |
| 3rd Qu.: 6.4573 | 3rd Qu.:13.415 | 3rd Qu.: 6.3917 | 3rd Qu.: 7.8322 | |
| Max. :12.8742 | Max. :28.444 | Max. :13.0030 | Max. :13.3895 |
| t1 | t2 | t3 | t4 | |
|---|---|---|---|---|
| t1 | 7.439993 | 15.29726 | 6.772910 | 7.583318 |
| t2 | 15.297258 | 32.52431 | 13.821805 | 15.124261 |
| t3 | 6.772910 | 13.82181 | 6.638312 | 7.463624 |
| t4 | 7.583318 | 15.12426 | 7.463624 | 8.983688 |
| t1 | t2 | t3 | t4 | |
|---|---|---|---|---|
| Min. : 0.6756 | Min. : 1.305 | Min. : 0.5755 | Min. : 0.7059 | |
| 1st Qu.: 2.7407 | 1st Qu.: 5.409 | 1st Qu.: 2.9732 | 1st Qu.: 3.7639 | |
| Median : 4.5097 | Median : 8.856 | Median : 4.8025 | Median : 5.3245 | |
| Mean : 5.2877 | Mean :10.571 | Mean : 5.1732 | Mean : 6.1903 | |
| 3rd Qu.: 7.0922 | 3rd Qu.:12.990 | 3rd Qu.: 6.4795 | 3rd Qu.: 8.1097 | |
| Max. :17.0983 | Max. :33.614 | Max. :16.8750 | Max. :17.8147 |
| t1 | t2 | t3 | t4 | |
|---|---|---|---|---|
| t1 | 10.451055 | 21.96433 | 9.472884 | 10.77504 |
| t2 | 21.964328 | 47.61344 | 19.613667 | 22.40464 |
| t3 | 9.472884 | 19.61367 | 9.154070 | 10.05789 |
| t4 | 10.775039 | 22.40464 | 10.057887 | 12.54941 |
| t1 | t2 | t3 | t4 | |
|---|---|---|---|---|
| Min. : 0.6783 | Min. : 1.290 | Min. : 0.7036 | Min. : 0.7254 | |
| 1st Qu.: 3.1534 | 1st Qu.: 6.129 | 1st Qu.: 3.2511 | 1st Qu.: 3.7199 | |
| Median : 4.5629 | Median : 8.988 | Median : 4.5786 | Median : 5.3353 | |
| Mean : 4.9618 | Mean : 9.894 | Mean : 4.9824 | Mean : 5.8615 | |
| 3rd Qu.: 6.3222 | 3rd Qu.:12.693 | 3rd Qu.: 6.3447 | 3rd Qu.: 7.4468 | |
| Max. :14.8297 | Max. :31.667 | Max. :16.1014 | Max. :24.8964 |
| t1 | t2 | t3 | t4 | |
|---|---|---|---|---|
| t1 | 6.127272 | 12.35177 | 5.627434 | 6.429106 |
| t2 | 12.351771 | 26.00317 | 11.081782 | 12.635685 |
| t3 | 5.627434 | 11.08178 | 5.800942 | 6.681139 |
| t4 | 6.429106 | 12.63569 | 6.681139 | 9.177907 |
Con base en los graficos y tablas anteriores se puede evidenciar que los estimadores \(\theta_1\), \(\theta_2\) y \(\theta_3\) presentan valores cercanos a la media (5), lo cual indica que su grado de sezgo es bajo en comparación con \(\theta_4\) cuyo valor medio es aproximadamente el doble que la media siendo este sezgado. Teniendo en cuenta esto, el estimador \(\theta_3\) se destaca por tener el valor medio más cercano al teorico.
Adicionalmente, al realizar el análisis del gráfico de boxplots y la matriz de varianzas se puede evidenciar que el estimador \(\theta_3\) es quien presenta el menor grado de dispersión, lo que lo convierte en el estimador más eficiente, seguido por \(\theta_1\), \(\theta_4\) y \(\theta_2\) respectivamente.
En cuanto al análisis de consistencia solo los estimadores \(\theta_1\) y \(\theta_3\) presentan una disminución del sezgo apreciativo a medida que se aumenta el tamaño de la muestra, por lo cual son consistentes.
Finalmente, con base en los resultados obtenidos se puede concluir que el mejor estimador es \(\theta_3\) siendo el que presenta menor grado de sezgo, es el más eficiente y consistente.