Caris Chia Amaya - Weimar Cortes Montiel
Métodos y Simulación estadística
Maestría en Ciencia de Datos
Pontificia Universidad Javeriana de Cali
La simulación ayuda a entender y validar las propiedades de los estimadores estadísticos como son, insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
\[ \hat{\theta}_1 = \frac{X_1 + X_2}{6} + \frac{X_3 + X_4}{3} \]
\[ \hat{\theta}_2 = \frac{X_1 + 2X_2 + 3X_3 + 4X_4}{5} \]
\[ \hat{\theta}_3 = \frac{X_1 + X_2 + X_3 + X_4}{4} \]
\[ \hat{\theta}_4 = \frac{\min\{X_1, X_2, X_3, X_4\} + \max\{X_1, X_2, X_3, X_4\}}{2} \]
Nota
Genere una muestra de \(n = 20\), 50, 100 y 1000 para cada uno de los estimadores planteados.
En cada caso evalúe las propiedades de insesgadez, eficiencia y consistencia.
Suponga un valor para el parámetro \(\theta\).
Funciones recomendadas:
function(){},rexp(),data.frame(),apply(),boxplot().Entregable: enlace en RPubs con informe 2.
En este análisis, se evaluarán las propiedades de los estimadores \(\Theta_1\), \(\Theta_2\), \(\Theta_3\) y \(\Theta_4\) a través de sus sesgos en muestras de distintos tamaños: \(n = 20\), \(n = 50\), \(n = 100\) y \(n = 1000\). A continuación, se presentan tablas y gráficos que ilustran cómo varía el sesgo de cada estimador en función del tamaño de la muestra, así como su eficiencia y consistencia. El análisis se enfoca en identificar patrones de sesgo y cómo el aumento del tamaño de la muestra influye en la precisión de cada estimador.
Se incluirán boxplots que permiten visualizar la dispersión de los resultados para cada uno de los tamaños de muestra, destacando la tendencia de cada estimador con respecto a la mediana y los valores atípicos. Los resultados obtenidos servirán de base para las conclusiones que se presentan posteriormente.
| Theta 1 | Theta 2 | Theta 3 | Theta 4 | |
|---|---|---|---|---|
| n = 20 | -0.01366 | 1.97 | -0.01218 | 1.633 |
| n = 50 | 0.001827 | 2.007 | -0.003238 | 2.523 |
| n = 100 | -0.01253 | 1.977 | -0.01454 | 3.193 |
| n = 1000 | -0.01436 | 1.97 | -0.01126 | 5.46 |
for (n in sample_sizes) {
title <- paste("Boxplot para las", n, "muestras")
Encoding(title) <- "UTF-8"
boxplot(results[[as.character(n)]],
main = title,
names = c("Theta 1", "Theta 2", "Theta 3", "Theta 4"))
abline(h = 1/10, col = "red")
grid()
}
1. Insesgadez: Los estimadores Theta 1 y Theta 3
presentan sesgos cercanos a 0 en todos los tamaños de muestra, lo que
sugiere que son insesgados o al menos aproximadamente insesgados. La
insesgadez es una propiedad crucial, ya que asegura que, en promedio, el
estimador no sobreestima ni subestima el valor verdadero de θ. Esto los
convierte en opciones confiables para la estimación de θ.
Aunque el
sesgo de Theta 2 es consistente en torno a 2, lo que significa que
siempre subestima θ, sigue siendo un estimador sesgado. Esto implica
que, en promedio, no proporciona una estimación precisa del valor
verdadero de θ. Theta 4 por su parte, muestra un sesgo creciente a
medida que el tamaño de la muestra aumenta, lo que indica que también es
un estimador sesgado, y su desempeño empeora con tamaños de muestra
mayores. Este comportamiento lo hace inadecuado para estimar θ.
2. Consistencia: Respecto a Theta 1 y Theta 3, ambos
estimadores mantienen sesgos bajos y estables a medida que aumenta el
tamaño de la muestra. Esto indica que son consistentes: a medida que
crece el tamaño de la muestra, sus estimaciones se acercan al valor
verdadero de θ. La consistencia es una propiedad fundamental, ya que
asegura que con más datos, el estimador proporcionará una mejor
aproximación al parámetro.
Aunque el sesgo de Theta 2 no cambia
mucho con el tamaño de la muestra, la falta de reducción del sesgo
sugiere que Theta 2 no es consistente. Incluso con grandes muestras,
este estimador no proporciona estimaciones precisas de θ. Finalmente,
dado que el sesgo de Theta 4 aumenta con el tamaño de la muestra, no es
consistente, un estimador consistente debería mejorar con más datos, no
empeorar.
3. Eficiencia: La eficiencia de un estimador se refiere a su varianza. Aunque no tenemos directamente la varianza en estos resultados, los sesgos bajos y consistentes de Theta 1 y Theta 3 sugieren que probablemente sean más eficientes que Theta 2 y Theta 4, cuyos sesgos más grandes indican ineficiencia. Theta 2 y Theta 4 no solo son sesgados, sino que su sesgo no mejora significativamente con muestras más grandes, lo que también implica que no son eficientes.