La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son. insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean X1 , X2 , X3 y X4 , una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
θ1ˆ=((X1+X2)/6)+((X3+X4)/3)
θ2ˆ=(X1+2X2+3X3+4X4)/5
θ3ˆ=(X1+X2+X3+X4)/4
θ4ˆ=(min{X1,X2,X3,X4}+max{X1,X2,X3,X4})/2
Genere una muestras de n=20, 50, 100 y 1000 para cada uno de los estimadores planteados.
En cada caso evalue las propiedades de insesgadez, eficiencia y consistencia
Suponga un valor para el parámetro θ
funciones recomendadas : function(){}, rexp() , data.frame(), apply(), boxplot()
Entregable : enlace en RPubs con informe 2
Cargamos la librería ggplot2, establecemos una semilla aleatoria con set.seed(123), definimos el valor de theta como 2, creamos un vector llamado simulaciones con los valores 20, 50, 100 y 1000, creamos una lista vacía llamada lista_resultados, se le dió valor a theta =2, se realizaron las simulaciones de 20, 50, 100, 1000.
Esta función toma un vector de muestras como entrada, calcula cuatro estimadores diferentes (θ₁, θ₂, θ₃ y θ₄) utilizando las muestra, devuelve un vector con los valores de los estimadores.
Genera n muestras exponenciales con tasa theta, calcula los estimadores para cada muestra utilizando la función calculo_estimadores, devuelve una matriz con los estimadores para todas las muestras.
calculo_estimadores <- function(muestras) {
x1 <- muestras[1]
x2 <- muestras[2]
x3 <- muestras[3]
x4 <- muestras[4]
# Estimador θ₁
theta1 <- ((x1 + x2) / 6) + ((x3 + x4) / 3)
# Estimador θ₂
theta2 <- (x1 + 2 * x2 + 3 * x3 + 4 * x4) / 5
# Estimador θ₃
theta3 <- mean(muestras)
# Estimador θ₄
theta4 <- (min(muestras) + max(muestras)) / 2
return(c(theta1, theta2, theta3, theta4))
}
Para cada valor en simulaciones, generamos las muestras y almacenamos los resultados en lista resultados.
Creamos una matriz llamada promedios para almacenar los promedios de los estimadores. Calculamos los promedios para cada tamaño de muestra y estimador. Hacemos lo mismo para las varianzas y almacenamos los resultados en varianzas.
Promedios
## θ1 θ2 θ3 θ4
## 20 0.4917774 0.988843 0.5085644 0.6061905
## 50 0.5106887 1.037139 0.5107465 0.5681255
## 100 0.4900755 0.980888 0.4982349 0.5920889
## 1000 0.5041606 1.011502 0.5025265 0.5894504
Varianza
## θ1 θ2 θ3 θ4
## 20 0.05083935 0.2526413 0.06120691 0.15271831
## 50 0.04674825 0.2015089 0.03847403 0.06188733
## 100 0.05437002 0.2466659 0.05206874 0.08972016
## 1000 0.07478780 0.3253663 0.06260830 0.10544834
Configuramos una cuadrícula de 1 fila y 4 columnas para mostrar los gráficos, para cada tamaño de muestra en simulaciones, generamos un gráfico de caja para los estimadores, agregamos una línea horizontal en 2 (valor de theta) en cada gráfico.
Insesgadez: El boxplot con 20 observaciones muestra una distribución sesgada hacia la derecha en las categorías B1 y B2, mientras que B3 y B4 parecen más simétricas. Eficiencia: Con solo 20 observaciones, la estimación de la mediana y los cuartiles es menos precisa. Consistencia: La variabilidad entre las categorías es alta debido al tamaño de muestra pequeño. ### Boxplot con n = 50: Insesgadez: Las distribuciones son más simétricas y menos sesgadas en todas las categorías. Eficiencia: Con 50 observaciones, la estimación de la mediana y los cuartiles mejora en comparación con el caso anterior. Consistencia: La variabilidad entre las categorías disminuye.
Insesgadez: Las distribuciones son aún más simétricas y menos sesgadas. Eficiencia: Con 100 observaciones, las estimaciones son más precisas y confiables. Consistencia: La variabilidad entre las categorías es baja.
Insesgadez: Las distribuciones son casi simétricas y apenas sesgadas. Eficiencia: Con 1000 observaciones, las estimaciones son altamente precisas. Consistencia: La variabilidad entre las categorías es mínima.
En conclusion, a medida que aumenta el tamaño de muestra, las distribuciones se vuelven más simétricas, las estimaciones son más precisas y la variabilidad disminuye. Sin embargo, la eficiencia también aumenta con tamaños de muestra más grandes.