Actividad # 2 Informe 2
Propiedades de los estimadores
La simulación ayuda a entender y validar las propiedades de los estimadores estadísticos como son, insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad. Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
Definición del problema.
El problema planteado es evaluar las propiedades de varios estimadores propuestos para estimar el parámetro.𝜃 de una distribución exponencial. Específicamente, se busca analizar las propiedades de insesgadez, eficiencia y consistencia de los estimadores. El objetivo es determinar cuál de los estimadores propuestos es el más adecuado para estimar θ.
Definición de los objetivos.
Evaluar las propiedades de insesgadez, eficiencia y consistencia de los estimadores θ1, θ2, θ3 y θ4 para diferentes tamaños de muestra (norte=20,50,100,1000). Identificar cuál de los estimadores propuestos tiene un mejor desempeño para estimar el parámetro θen función de las propiedades evaluadas.
Diseño del experimento.
- Se generaron parámetro=1000metro=1000muestras aleatorias de una distribución exponencial con parámetro𝜃= 2para cada tamaño de muestra norte =20,50,100,1000
- Para cada muestra, se calcularon los valores de los cuatro estimadores propuestos.
- Posteriormente, se evaluaron las propiedades de insesgadez (media de los estimadores), eficiencia (varianza) y consistencia (comportamiento de la varianza al aumentar).norte).
Recolección de la información.
La información fue recolectada a partir de simulaciones de muestras generadas usando la función rexp()en R, que permite obtener muestras de una distribución exponencial con un parámetro 𝜃.Para cada tamaño de muestra norte, se generaron 1000 réplicas (muestras), con lo que se obtuvieron 1000 valores de cada estimador para cada tamaño de muestra.
Procesamiento de datos.
- Cálculo de los estimadores para cada muestra.
- Cálculo de las medias y variaciones de cada estimador para evaluar las propiedades de insesgadez y eficiencia.
- Comparación de los estimadores mediante gráficos de cajas (boxplots) y líneas de referencia en los gráficos para el valor verdadero del parámetro 𝜃.
Análisis descriptivo o exploratorio de datos.
Probabilidad : Las muestras provienen de una distribución exponencial, que es una distribución de probabilidad continua con un solo parámetro𝜃, que controla la tasa de decadencia de los datos.
Variable aleatoria : Las variables aleatorias incógnita 1,incógnita 2,incógnita 3,incógnita 4 siguen una distribución exponencial con parámetro𝜃. El objetivo es estimar este parámetro con diferentes combinaciones lineales de las muestras (estimadores).
A continuación se presentarán las gráficas correspondientes para las muestras de tamaño 20, 50, 100 y 1000, asumiendo un valor de 20 para el parámetro θ.
Muestra n=20
n <- 20
theta <- 20 ## valor del parametro theta
lambda <- 1/20 #factor lambda
x1=rexp(n, lambda)
x2=rexp(n, lambda)
x3=rexp(n, lambda)
x4=rexp(n, lambda)
data <- data.frame(x1,x2,x3,x4)
E1 <- (x1+x2)/6 + (x3+x4)/3
E2 <- (x1 + 2*x2 + 3*x3 + 4*x4)/5
E3 <- (x1+x2+x3+x4)/4
minx <- apply(data,1,min)
maxx <- apply(data,1,max)
E4 <- (minx + maxx)/2
dataT <- data.frame(E1,E2,E3,E4)
boxplot(dataT, col = c("skyblue", "lightgreen", "orange", "pink"),
main = "Diagrama de caja de los estimadores",
xlab = "Estimadores", ylab = "Valores")
abline (h=20, col="red", lwd=1)media <- apply(dataT,2,mean)
varianza <- apply(dataT, 2, var)
sesgo <- colMeans(dataT)-theta
eficiencia <- 1 / colMeans((dataT - theta)^2)
consistencia <- colMeans((dataT - theta)^2)
##resumen<- rbind(media,varianza,sesgo,eficiencia,consistencia)
##resumen## E1 E2 E3 E4
## media 22.87429634 4.625169e+01 23.75818631 2.717682e+01
## varianza 137.40583919 6.126653e+02 151.72652964 2.227119e+02
## sesgo 2.87429634 2.625169e+01 3.75818631 7.176820e+00
## eficiencia 0.00720476 7.866687e-04 0.00631855 3.801081e-03
## consistencia 138.79712666 1.271183e+03 158.26416753 2.630830e+02
Muestra n=50
## E1 E2 E3 E4
## media 18.09622345 3.589891e+01 18.47649892 20.7716558
## varianza 72.56437495 2.829840e+02 71.24336197 90.4279385
## sesgo -1.90377655 1.589891e+01 -1.52350108 0.7716558
## eficiencia 0.01338017 1.886438e-03 0.01386202 0.0112089
## consistencia 74.73745261 5.300995e+02 72.13955026 89.2148324
Muestra n=100
## E1 E2 E3 E4
## media 19.41533262 3.914497e+01 19.90904099 2.277351e+01
## varianza 80.20513010 3.690816e+02 73.06133585 1.110392e+02
## sesgo -0.58466738 1.914497e+01 -0.09095901 2.773514e+00
## eficiencia 0.01253998 1.366268e-03 0.01382380 8.501866e-03
## consistencia 79.74491474 7.319207e+02 72.33899603 1.176212e+02
Muestra n=1000
## E1 E2 E3 E4
## media 2.037437e+01 4.069236e+01 2.033788e+01 2.373267e+01
## varianza 1.109339e+02 4.649231e+02 1.045845e+02 1.726378e+02
## sesgo 3.743743e-01 2.069236e+01 3.378754e-01 3.732668e+00
## eficiencia 9.012002e-03 1.120283e-03 9.560771e-03 5.364864e-03
## consistencia 1.109631e+02 8.926317e+02 1.045941e+02 1.863980e+02
Conclusiones
Para determinar las conclusiones se analizarán los resultados obtenidos para cada muestra analizando la insesgadez, eficiencia y consistencia, al final analizaremos la consistencia ya que esta se evidencia a medida que aumentamos el tamaño de la muestra, empezando con n=20 se puede determinar que el estimador E3 y E1 son insesgados porque son los valores que más se acercan al valor de theta, sin embargo, el estimador E3 es más eficiente debido a que posee una menor varianza con un menor sesgo.
Para una muestra n=50, para este caso nuevamente E1 y E3 son los más insesgados (cerca al blanco theta), sin embargo, E1 se postula como el estimador más eficiente, al tener menor varianza y bajo sesgo asociado. Si aumentamos la muestra a n=100, los estimadores más cercanos a theta son E1 y E3, El estimador E1 es más insesgado que E3, sin embargo, E3 posee una menor varianza lo que lo hace más eficiente al tener más puntos concentrados en el blanco. Al aumentar la muestra n=1000 se puede observar que E4 empieza a acercarse al valor de theta, sin embargo, E1 y E3 son más precisos en la concentración de puntos al acercarse a theta (20), pero su eficiencia disminuyó al aumentar la varianza en ambos estimadores.
Finalmente, para los estimadores E2 y E4 podemos afirmar que están sesgados, lo que indica que no entregan un valor promedio acertado al valor de theta (20), estos valores no serían consistentes porque inclusive con grandes muestras no mejora su aproximación, por otro lado, se puede inferir la consistencia de E1 y E3 ya que ambos logran mantener sesgos bajos a medida que aumentamos la muestra, garantizando que entre más datos se tengan disponibles mejor será la aproximación entregada por el estimador.