La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son: insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
Funciones recomendadas : function(){}, rexp() , data.frame(), apply(), boxplot()
## Cargar librería
library(ggplot2)
suppressWarnings(library(dplyr))
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Semilla de reproducibilidad
set.seed(123)
## Función del estimador
calcular_estimadores <- function(muestra) {
n <- length(muestra)
θ1 <- (muestra[1] + muestra[2]) / 6 + (muestra[3] + muestra[4]) / 3
θ2 <- (muestra[1] + 2 * muestra[2] + 3 * muestra[3] + 4 * muestra[4]) / 5
θ3 <- (muestra[1] + muestra[2] + muestra[3] + muestra[4]) / 4
θ4 <- (min(muestra) + max(muestra)) / 2
return(c(θ1, θ2, θ3,θ4))
}
En cada caso evalue las propiedades de insesgadez y eficiencia
## Evaluación de las propiedades insesgadez y eficiencia
evaluar_propiedades <- function(estimados, parametro_verdadero) {
insesgadez <- mean(estimados) - parametro_verdadero
eficiencia <- var(estimados)
return(c(insesgadez, eficiencia))
}
Suponga un valor para el parámetro θ y genere muestras para cada estimador
## Asignación del valor para θ
parametro_verdadero <- 20
## Crear dataframe -> almacenar resultados
resultados <- data.frame (n = numeric(0),insesgadez = numeric(0),eficiencia = numeric(0),
θ1= numeric(0), θ2= numeric(0), θ3= numeric(0), θ4= numeric(0))
## Generación de muestras
muestras <- c(4, 20, 50, 100, 1000)
Resultados de la evaluación de insesgadez y eficiencia
for (n in muestras) {
muestras_exponenciales <- matrix(rexp(n, rate = 1 / parametro_verdadero), ncol = n)
estimados <- apply(muestras_exponenciales, 1, calcular_estimadores)
insesg_efic <- evaluar_propiedades(estimados, parametro_verdadero)
resultados <- bind_rows(resultados, data.frame(n = n, Insesgadez = insesg_efic[1], Eficiencia = insesg_efic[2],
θ1= estimados[1],
θ2 = estimados[2],
θ3 = estimados[3],
θ4 = estimados[4]))
}
# Ver resultados
print(resultados)
## n insesgadez eficiencia θ1 θ2 θ3 θ4 Insesgadez
## 1 4 NA NA 13.804440 24.440607 13.903499 13.60632 -3.561283
## 2 20 NA NA 4.305668 8.851850 4.161031 40.70165 -5.494950
## 3 50 NA NA 29.697241 60.612290 29.208884 72.42775 27.986542
## 4 100 NA NA 5.453483 9.702353 5.636430 45.03041 -3.544332
## 5 1000 NA NA 40.500209 80.739912 36.145843 64.22710 35.403266
## Eficiencia
## 1 28.47315
## 2 309.74891
## 3 481.29377
## 4 366.74233
## 5 437.58504
Representación de los estimadores en un diagrama de cajas y bigotes
## Graficar boxplots para cada estimador
boxplot(resultados[,4:7], col = c("#76EEC6", "#FFE4C4", "#BF3EFF", "#00F5FF"), main = "Gráfico de cajas y bigotes: Estimadores: θ1, θ2, θ3,θ4")
legend("topright", legend = c("estimador 1", "estimador 2", "estimador 3", "estimador 4"), col = c("#76EEC6", "#FFE4C4", "#BF3EFF", "#00F5FF"), lty = 1.5, cex = 1, )
Resumen de los estimadores - estadística descriptiva
summary(resultados)
## n insesgadez eficiencia θ1 θ2
## Min. : 4.0 Min. : NA Min. : NA Min. : 4.306 Min. : 8.852
## 1st Qu.: 20.0 1st Qu.: NA 1st Qu.: NA 1st Qu.: 5.453 1st Qu.: 9.702
## Median : 50.0 Median : NA Median : NA Median :13.804 Median :24.441
## Mean : 234.8 Mean :NaN Mean :NaN Mean :18.752 Mean :36.869
## 3rd Qu.: 100.0 3rd Qu.: NA 3rd Qu.: NA 3rd Qu.:29.697 3rd Qu.:60.612
## Max. :1000.0 Max. : NA Max. : NA Max. :40.500 Max. :80.740
## NA's :5 NA's :5
## θ3 θ4 Insesgadez Eficiencia
## Min. : 4.161 Min. :13.61 Min. :-5.495 Min. : 28.47
## 1st Qu.: 5.636 1st Qu.:40.70 1st Qu.:-3.561 1st Qu.:309.75
## Median :13.903 Median :45.03 Median :-3.544 Median :366.74
## Mean :17.811 Mean :47.20 Mean :10.158 Mean :324.77
## 3rd Qu.:29.209 3rd Qu.:64.23 3rd Qu.:27.987 3rd Qu.:437.58
## Max. :36.146 Max. :72.43 Max. :35.403 Max. :481.29
##
Para un θ=20:
Nota: las conclusiones hacen referencia a tendencias , ya que los datos exactos pueden cambiar por la aleatoriedad en la selección de la muestra.