La simulación ayuda a entender y validar las propiedades de los estimadores estadísticos como son. insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
θ1ˆ=(X1+X2)/6+(X3+X4)/3
θ2ˆ=(X1+2X2+3X3+4X4)/5
θ3ˆ=(X1+X2+X3+X4)/4
θ4ˆ=(min{X1,X2,X3,X4}+max{X1,X2,X3,X4})/2
A continuación, se presentan la evaluación de las propiedades: INSESGADEZ y EFICIENCIA para una muestra de tamaño n= 4, 20, 50, 100 y 1000. Lo anterior, se realiza para los 4 estimadores detallados en la sección anterior:
NOTA:
-La presentación de la información, se realiza por medio de la tabulación de la información, del valor que adquiere cada propiedad, a partir de la formulación indicada para cada estimador y la muestra aleatoria que se genera.
Además, se agregan cuatro columnas, donde se presenta el valor que adquiere cada estimador:
# Cargar librería
suppressWarnings(library(dplyr))
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
# Definición de función para cálculo estimadores
calcular_estimadores <- function(muestra) {
n <- length(muestra)
estimador_1 <- (muestra[1] + muestra[2]) / 6 + (muestra[3] + muestra[4]) / 3
estimador_2 <- (muestra[1] + 2 * muestra[2] + 3 * muestra[3] + 4 * muestra[4]) / 5
estimador_3 <- (muestra[1] + muestra[2] + muestra[3] + muestra[4]) / 4
estimador_4 <- (min(muestra) + max(muestra)) / 2
return(c(estimador_1, estimador_2, estimador_3, estimador_4))
}
# Definición de función para evaluación de propiedades
evaluar_propiedades <- function(estimados, parametro_verdadero) {
insesgadez <- mean(estimados) - parametro_verdadero
eficiencia <- var(estimados)
return(c(insesgadez, eficiencia))
}
# Definición del Parámetro θ
parametro_verdadero <- 8
# Crear un data frame para almacenar resultados
resultados <- data.frame(n = numeric(0), Insesgadez = numeric(0), Eficiencia = numeric(0),
Estimador1 = numeric(0), Estimador2 = numeric(0), Estimador3 = numeric(0), Estimador4 = numeric(0))
# Generar muestras y calcular estimadores
muestras <- c(4, 20, 50, 100, 1000)
for (n in muestras) {
muestras_exponenciales <- matrix(rexp(n, rate = 1 / parametro_verdadero), ncol = n)
estimados <- apply(muestras_exponenciales, 1, calcular_estimadores)
insesg_efic_cons <- evaluar_propiedades(estimados, parametro_verdadero)
resultados <- bind_rows(resultados, data.frame(n = n, Insesgadez = insesg_efic_cons[1], Eficiencia = insesg_efic_cons[2],
Estimador1 = estimados[1], Estimador2 = estimados[2],
Estimador3 = estimados[3], Estimador4 = estimados[4]))
}
# Mostrar resultados
print(resultados)
## n Insesgadez Eficiencia Estimador1 Estimador2 Estimador3 Estimador4
## 1 4 10.826425 70.56397 16.118911 31.23574 15.261557 12.68949
## 2 20 3.605695 33.06882 8.372654 19.67375 6.741584 11.63479
## 3 50 5.451794 37.28595 10.014228 21.87387 8.071036 13.84804
## 4 100 5.458701 58.17900 7.523681 14.84424 7.763376 23.70351
## 5 1000 7.990625 157.11899 8.205079 15.13417 6.661228 33.96202
Nota: La ejecución del código genera valores aleatorios, por lo que se establece, de caracter general, las conclusiones del análisis por propiedad evaluada.
La insesgadez, como propiedad clave de estimadores en estadística, se puede concluir con la definición de si la tendencia de comportamiento de un estimador, es parcial o no. En relación con la eficiencia, se puede indicar que mide el nivel de dispersión de las estimaciones.
Por lo tanto, en relación con la insesgadez, si se observa valores positivos, se puede entender que el estimador, tiene a sobreestimar el parámetro definido (θ=8). Si es negativo,a subestimar este parámetro.
Por último, en cuanto a la eficiencia, entre menor varianza, se considera más preciso el estimador.
# c) Graficar boxplots para cada estimador
boxplot(resultados[,4:7], col = c("red", "green", "blue", "purple"), main = "Gráfico de cajas de los estimadores")
legend("topright", legend = c("Estimador 1", "Estimador 2", "Estimador 3", "Estimador 4"), col = c("red", "green", "blue", "purple"), lty = 1, cex = 0.8)
La propiedad de consistencia, es fundamental en el análisis de estimadores, ya que se refiere al comportamiento de un estimador a medida que el tamaño de la muestra aumenta. Por lo tanto, se considera consistente, si a medida que aumenta, el valor de este, converge al parámetro θ definido (8).
# Crear un gráfico de línea para observar el comportamiento de los estimadores
ggplot(resultados, aes(x = n)) +
geom_line(aes(y = Estimador1, color = "Estimador 1")) +
geom_line(aes(y = Estimador2, color = "Estimador 2")) +
geom_line(aes(y = Estimador3, color = "Estimador 3")) +
geom_line(aes(y = Estimador4, color = "Estimador 4")) +
geom_hline(aes(yintercept = parametro_verdadero, linetype = "Parámetro Verdadero"), color = "black", size = 1) +
labs(title = "Comportamiento de los Estimadores a Medida que Aumenta n", x = "Tamaño de Muestra (n)", y = "Valor del Estimador") +
scale_color_manual(values = c("Estimador 1" = "red", "Estimador 2" = "green", "Estimador 3" = "blue", "Estimador 4" = "purple")) +
theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
* - Análisis de la propiedad CONSISTENCIA
Nota: La ejecución del código genera valores aleatorios, por lo que se establece, de caracter general, que el comportamiento del estimador que se visualice por medio de la gráfica, como el valor más cercano al parámetro θ definido (8), a medida que aumenta n, es el más consistente.