La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son. insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean X1, X2 , X3 y X4 , una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
\[\begin{align*} a. \theta_1 &= \frac{{X_1 + X_2}}{6} + \frac{{X_3 + X_4}}{3} \\ b. \theta_2 &= \frac{{X_1 + 2X_2 + 3X_3 + 4X_4}}{5} \\ c. \theta_3 &= \frac{{X_1 + X_2 + X_3 + X_4}}{4} \\ d. \theta_4 &= \frac{{\min\{X_1, X_2, X_3, X_4\} + \max\{X_1, X_2, X_3, X_4\}}}{2} \end{align*}\]
Analizar y comparar cuatro estimadores diferentes para el parámetro θ de una distribución exponencial. Para cada uno de estos estimadores, se busca evaluar sus propiedades de insesgadez, eficiencia y consistencia a través de la simulación.
Para el desarrollo de es proceso se elaboro un código que realiza simulaciones para estimar un parámetro θ utilizando cuatro métodos diferentes. A continuación, se describe brevemente el código por segmentos:
Funciones de Estimación:
theta1_hat
: Calcula un estimador basado en una
combinación ponderada de los primeros cuatro datos de la muestra.theta2_hat
: Estima θ usando una ponderación determinada
de todos los valores en la muestra.theta3_hat
: Estima θ como el promedio de todos los
valores de la muestra.theta4_hat
: Estima θ como el promedio del mínimo y
máximo valor de la muestra.Inicialización:
Se definen tamaños de muestra y un valor real para θ que se utilizará en las simulaciones. También, se establece una semilla para garantizar la reproducibilidad de los resultados aleatorios.
Simulación:
Por cada tamaño de muestra, se realiza una simulación en la que:
Cálculo de Insesgadez:
Para cada método de estimación, se calcula la insesgadez, que es la diferencia entre el valor esperado del estimador y el verdadero valor de θ.
Visualización:
Se utiliza un boxplot para visualizar las estimaciones de θ obtenidas con cada método. Los boxplots ofrecen una manera de visualizar la distribución de las estimaciones.
Resumen de Resultados:
Se presentan las medias y varianzas de las estimaciones para cada método, junto con la insesgadez calculada.
El objetivo principal del código es evaluar y visualizar el desempeño de distintos estimadores para el parámetro θ a través de simulaciones.
# Definir las funciones para cada estimador
theta1_hat <- function(muestraData){
return((sum(muestraData[1:2]) / 6) + (sum(muestraData[3:4]) / 3))
}
theta2_hat <- function(muestraData){
return(sum(muestraData * c(1, 2, 3, 4)) / 5)
}
theta3_hat <- function(muestraData){
return(mean(muestraData))
}
theta4_hat <- function(muestraData){
return((min(muestraData) + max(muestraData)) / 2)
}
# Valores de los tamaños de muestra
tamanos_muestra <- c(20,50,100,1000)
theta_real <- 1
set.seed(42)
# Realizar las cuatro simulaciones
for (elemento in tamanos_muestra) {
estimacion_Theta_01 <- numeric(elemento)
estimacion_Theta_02 <- numeric(elemento)
estimacion_Theta_03 <- numeric(elemento)
estimacion_Theta_04 <- numeric(elemento)
valoresData <- rexp(elemento, rate=1/theta_real)
for(i in 1:elemento){
valoresAProcesar <- sample(valoresData,4)
#print (valoresData)
#print ("**********************************************************")
#print (valoresAProcesar)
estimacion_Theta_01[i] <- theta1_hat(valoresAProcesar)
estimacion_Theta_02[i] <- theta2_hat(valoresAProcesar)
estimacion_Theta_03[i] <- theta3_hat(valoresAProcesar)
estimacion_Theta_04[i] <- theta4_hat(valoresAProcesar)
}
insesgadez <- numeric(4)
eficiencia <- numeric(4)
# Calcular insesgadez, eficiencia y consistencia para cada estimación
insesgadez[1] <- mean(estimacion_Theta_01) - theta_real
insesgadez[2] <- mean(estimacion_Theta_02) - theta_real
insesgadez[3] <- mean(estimacion_Theta_03) - theta_real
insesgadez[4] <- mean(estimacion_Theta_04) - theta_real
datainsegadez <- data.frame(insesgadez = c(insesgadez[1],insesgadez[2],insesgadez[3],insesgadez[4]))
# Crear un vector de etiquetas para cada boxplot
etiquetas <- c("Theta 01", "Theta 02", "Theta 03", "Theta 04")
# Crear un solo gráfico con cuatro boxplots
boxplot(
list(estimacion_Theta_01, estimacion_Theta_02, estimacion_Theta_03, estimacion_Theta_04),
#main="Estimaciones de Theta",
main=paste("Estimación de Theta (n =", elemento, ")"),
ylab="Valor Estimado",
col=c("lightblue", "lightgreen", "lightpink", "lightyellow"),
names=etiquetas,
border="black",
las=2 # Orientación de las etiquetas en el eje x
)
resultados=data.frame(estimacion_Theta_01, estimacion_Theta_02, estimacion_Theta_03, estimacion_Theta_04)
medias <- apply(resultados, 2, mean)
varianzas <- apply(resultados, 2, var) # Eficiencia
mediasVarianzas =data.frame(medias, varianzas, datainsegadez)
print(mediasVarianzas)
valoresData <- c()
}
## medias varianzas insesgadez
## estimacion_Theta_01 0.6538510 0.1253215 -0.3461490
## estimacion_Theta_02 1.3212309 0.5757857 0.3212309
## estimacion_Theta_03 0.6398454 0.1008848 -0.3601546
## estimacion_Theta_04 0.7053939 0.1203709 -0.2946061
## medias varianzas insesgadez
## estimacion_Theta_01 0.9946322 0.2376013 -0.005367847
## estimacion_Theta_02 1.9717534 0.9783404 0.971753412
## estimacion_Theta_03 1.0377009 0.2165120 0.037700925
## estimacion_Theta_04 1.1297242 0.2475566 0.129724176
## medias varianzas insesgadez
## estimacion_Theta_01 0.9171756 0.2281514 -0.08282444
## estimacion_Theta_02 1.8367048 1.0100434 0.83670483
## estimacion_Theta_03 0.9239958 0.2086988 -0.07600423
## estimacion_Theta_04 1.0148969 0.2633674 0.01489688
## medias varianzas insesgadez
## estimacion_Theta_01 0.9922087 0.2771184 -0.007791288
## estimacion_Theta_02 1.9845864 1.1926097 0.984586424
## estimacion_Theta_03 0.9919872 0.2449272 -0.008012760
## estimacion_Theta_04 1.1402994 0.3913505 0.140299436
Para n=20:
estimacion_Theta_01: Tiene la varianza más baja, lo que es bueno. Sin embargo, también tiene una insesgadez considerable (casi -0.35), lo que significa que, en promedio, este estimador tiende a subestimar el verdadero valor de θ por 0.35.
estimacion_Theta_02: Su insesgadez es positiva y también considerable, lo que indica que, en promedio, este estimador tiende a sobreestimar θ. Además, tiene la varianza más alta de los cuatro, lo que es menos deseable.
estimacion_Theta_03: Aunque su varianza es la más baja después de la de estimacion_Theta_01, también subestima θ en un valor similar.
estimacion_Theta_04: Posee una insesgadez menor en magnitud en comparación con las estimaciones 01 y 03, lo que indica que está más cerca del verdadero valor de θ. Su varianza es la segunda más alta, pero no es demasiado diferente de las estimaciones 01 y 03.
Para n=50:
estimacion_Theta_01: Está casi insesgado (su insesgadez está muy cerca de 0). Además, tiene una varianza moderada en comparación con las demás.
estimacion_Theta_02: Al igual que en el caso anterior, tiene una varianza alta y sobreestima considerablemente θ.
estimacion_Theta_03 y estimacion_Theta_04: Ambos tienen insesgadez positiva y varianzas relativamente bajas.
Para n=100:
estimacion_Theta_01 y estimacion_Theta_03: Ambas tienen insesgadez negativa, pero sus magnitudes son menores en comparación con n=20, lo que sugiere una mejora en la precisión de la estimación a medida que aumenta n.
estimacion_Theta_02: Sigue teniendo la varianza más alta y una insesgadez positiva considerable.
estimacion_Theta_04: Es casi insesgado y tiene una varianza moderada.
Para n=1000:
estimacion_Theta_01 y estimacion_Theta_03: Ambos son casi insesgados, con varianzas moderadas, indicando una mayor precisión en la estimación a medida que n aumenta.
estimacion_Theta_02: Continúa mostrando una insesgadez positiva considerable y tiene la varianza más alta.
estimacion_Theta_04: Tiene una insesgadez positiva moderada y la segunda varianza más alta.