La simulación ayuda a entender y validar las propiedades de los estimadores estadísticos como so:. insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean 𝑋1, 𝑋2, 𝑋3 y 𝑋4, una muestra aleatoria de tamaño 𝑛=4 cuya población la conforma una distribución exponencial con parámetro 𝜃 desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
\[ \hat{\theta}_1 = \frac{X_1 + X_2}{6} + \frac{X_3 + X_4}{3} \]
\[ \hat{\theta}_2 = \frac{X_1 + 2X_2 + 3X_3 + 4X_4}{5} \]
\[ \hat{\theta}_3 = \frac{X_1 + X_2 + X_3 + X_4}{4} \]
\[ \hat{\theta}_4 = \frac{\min(X_1, X_2, X_3, X_4) + \max(X_1, X_2, X_3, X_4)}{2} \]
# Semilla
set.seed(123)
# Theta 1,2,3,4 son variables que calculan los 4 estimadores
calcular_estimadores <- function(X) {
theta_1 = (X[1] + X[2]) / 6 + (X[3] + X[4]) / 3
theta_2 = (X[1] + 2 * X[2] + 3 * X[3] + 4 * X[4]) / 5
theta_3 = mean(X)
theta_4 = (min(X) + max(X)) / 2
return(c(theta_1, theta_2, theta_3, theta_4)) # vector wue contiene los 4 estimadores calculados
}
Se defina el tamaño de la muestra y el parametro verdadero supuesto de 10 para theta:
n_muestras <- c(20,50,100,1000)
theta_real <- 10
Simulación para los distintos tamaños de la muestra:
# se crea una lista vacìa llamada ¨resultados¨ para almacenar los resultados de las estimaciones.
# se crea un bucle que va a iterar sobre cada tamaño de la muestra definido en la variables n_muestras
#Genera una muestra de 4 valores aleatorios de una distribución exponencial con parametro theta = 1
# se repite el proceso anterior 1000 veces, generando 1000 muestras cada una con 4 valores
# se aplica la funcion calcular_estimadores a cada columna de la muestra de la matriz ¨muestras¨
# se transpone la matriz para que las filas representen las diferentes simulaciones y las columnas los estimadores y se guardan los estimadores en la matriz resultados
resultados <- list()
for (n in n_muestras) {
muestras <- replicate(1000, rexp(4, rate = 1/theta_real)) # Generamos 1000 muestras de tamaño n=4
estimadores <- t(apply(muestras, 2, calcular_estimadores)) # Calculamos estimadores
resultados[[as.character(n)]] <- estimadores
}
Visualizaciòn de los resultados:
# se crea un bucle para ir para los diferentes tamaños de la muestra
library(ggplot2)
for (n in n_muestras) {
estimadores <- resultados[[as.character(n)]]
boxplot(estimadores, main = paste("Estimadores para n =", n),
names = c(expression(hat(theta)[1]), expression(hat(theta)[2]),
expression(hat(theta)[3]), expression(hat(theta)[4])))
abline(h=theta_real, color="red")
}
Creaciòn de tabla de comparaciòn para selecionar el mejor theta
# Crear tabla de comparación
library(knitr)
library(kableExtra)
library(DT)
tabla_comparacion <- data.frame(
n = integer(),
Estimador = character(),
Media = round(numeric(),3),
Varianza = numeric(),
ECM = numeric(),
stringsAsFactors = FALSE
)
for (n in n_muestras) {
estimadores <- resultados[[as.character(n)]]
for (i in 1:4) {
estimaciones <- estimadores[, i]
media_estimada <- round(mean(estimaciones),3)
varianza_estimada <- round(var(estimaciones),3)
ECM <- round(mean((estimaciones - theta_real)^2),3)
tabla_comparacion <- rbind(tabla_comparacion, data.frame(
n = n,
Estimador = paste("theta", i, sep = "_"),
Media = media_estimada,
Varianza = varianza_estimada,
ECM = ECM
))
}
}
# Mostrar la tabla
datatable(tabla_comparacion,
options = list(pageLength = 10,
autoWidth = TRUE),
caption = 'Comparación Est')
Por lo tanto, los estimadores \(\hat{\theta}_1\) y \(\hat{\theta}_3\) son insesgados, ya que sus valores se aproximan al valor de \(\theta = 5\). Para los tamaños de muestra \(n=20\) y \(n=50\) el estimador \(\hat{\theta}_3\) muestra mejor eficiencia que \(\hat{\theta}_1\), dado que presenta una menor varianza. No obstante, a medida que aumenta el tamaño de muestra \(n=100\) y \(n=1000\), ambos estimadores \(\hat{\theta}_1\) y \(\hat{\theta}_3\) se vuelven más consistentes, aunque su efiencia disminuye debido al incremento de la varianza.