La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son, insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad. Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
Para resolver este problema, seguimos los siguientes pasos:
Generamos los datos exponenciales, es decir, cuatro conjuntos de datos y los combinamos en un data frame.
Calculamos el valor mínimo y máximo por fila y utilizamos estos valores para calcular o determinar T1, T2, T3 y T4 (variables nuevas).
Para visualizar los resultados, utilizamos boxplot que nos permite exponer la distribución de las variables nuevas e incorporar una línea horizontal (de referencia) en 1.
Calculamos la media y la varianza de las variables nuevas (ver tabla).
set.seed(123)
n=20
l=2
x1= rexp(n, 1/l)
x2= rexp(n, 1/l)
x3= rexp(n, 1/l)
x4= rexp(n, 1/l)
x1234 = data.frame(x1,x2,x3,x4)
minx = apply(x1234, 1, min)
maxx = apply(x1234, 1, min)
T1234 = data.frame(T1 = (x1+x2)/6 + (x3+x4)/3,
T2 = (x1+2*x2+3*x3*4*x4)/5,
T3 = (x1+x2+x3+x4)/4,
T4 = (minx+maxx)/2)
boxplot(T1234)
abline(h=l, col="red")
media = apply(T1234, 2, mean)
varianza = apply(T1234, 2, var)
rbind(media, varianza)
## T1 T2 T3 T4
## media 2.070849 8.212323 2.0342578 0.5092399
## varianza 1.088533 61.019933 0.7943927 0.1868647
CONCLUSIONES
Con la línea horizontal (1=2) se puede comparar cómo las distribuciones de T1, T2, T3 y T4, se relacionan con 1.
Para entender cómo varian las variables nuevas utilizamos la tabla generada de medias y varianzas; registros necesarios para comprender cómo las transformaciones de estos datos exponenciales afectan la variabilidad y la distribuciones de las variables nuevas.
En el boxplot podemos observar la distribución de cada una de las transformaciones (T1, T2, T3 y T4). Comparando las cajas de T1, T2, T3, y T4, analizamos la dispersión y el sesgo en los datos:
Dispersión - Entre más alta sea la altura de las cajas y la longitud de los bigotes, mayor es la dispersión de esa transformación.
Mediana - La línea dentro de cada caja representa la mediana. Al comparar la posición de la mediana con la línea roja en𝑙=2, observamos cuál de estas estadísticas se acerca más a la media teórica.
Outliers - Cualquier punto fuera de los bigotes se considera un valor atípico. Es probable que T2 tenga más outliers debido a la multiplicación de x3 y x4, lo que amplifica la variabilidad.
T1 puede desviarse algo más debido a la ponderación desigual.
T2 podría tener una mayor dispersión y estar menos alineada con l=2 por la no linealidad introducida.
Es probable que T3, al ser la media simple, esté más cercana a l=2.
T4 podría tener una mayor dispersión debido a sus valores extremos (mínimo y máximo), por lo que es más sensible a outliers.