La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
Genere una muestras de n=20, 50, 100 y 1000 para cada uno de los estimadores planteados.
En cada caso evalue las propiedades de insesgadez, eficiencia y consistencia
Suponga un valor para el parámetro θ
Para iniciar, se definirán los estimadores en una función, como se muestra a continuación.
estimadores <- function(numeros) {
X1 <- numeros[1]
X2 <- numeros[2]
X3 <- numeros[3]
X4 <- numeros[4]
Estimador_1 <- ((X1 + X2)/6) + ((X3 + X4)/3)
Estimador_2 <- (X1 + 2*X2 + 3*X3 + 4*X4)/5
Estimador_3 <- (X1 + X2 + X3 + X4)/4
Estimador_4 <- (min(X1,X2,X3,X4) + max(X1,X2,X3,X4))/2
return(c(Estimador_1, Estimador_2, Estimador_3, Estimador_4))
}
La anterior función recibe como parámetro los números generados a partir de la función rexp que permite generar 4 números aleatorios usando el parámetro supuesto 10. Dicho parámetro es una matriz de 1x4 generada cada que la estructura de control for itera dependiendo del tamaño de la muestra. Se determina que X1 corresponde a la posición 1 de dicha matriz, X2 la posición 2 y así sucesivamente. Finalmente, la función regresa un vector con el resultado de los estimadores que se guardarán en otra matriz.
Para evaluar las propiedades de insesgadez, eficiencia y consistencia es necesario generar las muestras correspondientes a cada variable aleatoria. Se define el parámetro como variable global y, en este caso, la muestra es 20. Se crea una estructura for que itere el número de la muestra y genere los 4 números aleatorios que se guardan en la variable numeros, esta variable luego se pasa como parámetro a la función estimadores para generar el valor de cada estimador y guardarlo en la matriz del tamaño de la muestra en filas y 4 columnas.
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.4.4 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
set.seed(123)
parametro <- 10
matriz20 <- matrix(nrow = 20, ncol = 4)
for (i in 1:20) {
numeros <- rexp(4, rate = 1/parametro)
matriz20 [i,] <- estimadores(numeros)
}
matriz20 <- data.frame(matriz20)
colnames (matriz20) <- (c("Estimador 1", "Estimador 2", "Estimador 3", "Estimador 4"))
A partir de la información creada en el código anterior, se procede a crear el boxplot que permita visualizarla.
boxplot(matriz20, las=1, main="Comparación estimadores con n = 20")
abline(h=10, col="red")
La media de los estimadores es:
media20 <- apply(matriz20, 2, mean)
media20
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## 9.835549 19.776860 10.171289 12.123810
La varianza de los estimadores es:
var20 <- apply(matriz20, 2, var)
var20
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## 20.33574 101.05652 24.48276 61.08732
A partir de los códigos anteriores, se replica el ejercicio para los siguientes.
matriz50 <- matrix(nrow = 50, ncol = 4)
for (i in 1:50) {
numeros <- rexp(4, rate = 1/parametro)
matriz50 [i,] <- estimadores(numeros)
}
matriz50 <- data.frame(matriz50)
colnames (matriz50) <- (c("Estimador 1", "Estimador 2", "Estimador 3", "Estimador 4"))
A partir de la información creada en el código anterior, se procede a crear el boxplot que permita visualizarla.
boxplot(matriz50, las=1, main="Comparación estimadores con n = 50")
abline(h=10, col="red")
La media de los estimadores es:
media50 <- apply(matriz50, 2, mean)
media50
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## 10.21377 20.74278 10.21493 11.36251
La varianza de los estimadores es:
var50 <- apply(matriz50, 2, var)
var50
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## 18.69930 80.60356 15.38961 24.75493
matriz100 <- matrix(nrow = 100, ncol = 4)
for (i in 1:100) {
numeros <- rexp(4, rate = 1/parametro)
matriz100 [i,] <- estimadores(numeros)
}
matriz100 <- data.frame(matriz100)
colnames (matriz100) <- (c("Estimador 1", "Estimador 2", "Estimador 3", "Estimador 4"))
A partir de la información creada en el código anterior, se procede a crear el boxplot que permita visualizarla.
boxplot(matriz100, las=1, main="Comparación estimadores con n = 100")
abline(h=10, col="red")
La media de los estimadores es:
media100 <- apply(matriz100, 2, mean)
media100
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## 9.801511 19.617759 9.964698 11.841778
La varianza de los estimadores es:
var100 <- apply(matriz100, 2, var)
var100
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## 21.74801 98.66637 20.82749 35.88806
matriz1000 <- matrix(nrow = 1000, ncol = 4)
for (i in 1:1000) {
numeros <- rexp(4, rate = 1/parametro)
matriz1000 [i,] <- estimadores(numeros)
}
matriz1000 <- data.frame(matriz1000)
colnames (matriz1000) <- (c("Estimador 1", "Estimador 2", "Estimador 3", "Estimador 4"))
A partir de la información creada en el código anterior, se procede a crear el boxplot que permita visualizarla.
boxplot(matriz1000, las=1, main="Comparación estimadores con n = 1000")
abline(h=10, col="red")
La media de los estimadores es:
media1000 <- apply(matriz1000, 2, mean)
media1000
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## 10.08321 20.23004 10.05053 11.78901
La varianza de los estimadores es:
var1000 <- apply(matriz1000, 2, var)
var1000
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## 29.91512 130.14652 25.04332 42.17934
Para interpretar las propiedades de los estimadores se presentarán los valores medios y varianza de cada estimador para cada muestra
media <- rbind(media20, media50, media100, media1000)
colnames(media) <- c("Estimador 1","Estimador 2", "Estimador 3","Estimador 4")
rownames(media) <- c("n=20", "n=50", "n=100", "n=1000")
media
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## n=20 9.835549 19.77686 10.171289 12.12381
## n=50 10.213774 20.74278 10.214929 11.36251
## n=100 9.801511 19.61776 9.964698 11.84178
## n=1000 10.083213 20.23004 10.050531 11.78901
varianza <- rbind(var20, var50, var100, var1000)
colnames(varianza) <- c("Estimador 1","Estimador 2", "Estimador 3","Estimador 4")
rownames(varianza) <- c("n=20", "n=50", "n=100", "n=1000")
varianza
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## n=20 20.33574 101.05652 24.48276 61.08732
## n=50 18.69930 80.60356 15.38961 24.75493
## n=100 21.74801 98.66637 20.82749 35.88806
## n=1000 29.91512 130.14652 25.04332 42.17934
A partir de lo anterior se concluye:
Insesgadez: La media del Estimador 1 se encuentra cerca del valor del parámetro para todos los tamaños de muestra. Por lo anterior se podría considerar insesgado.
Consistencia: El valor de la media se hace más cercano a medida que aumenta el tamaño de la muestra. Por lo anterior se podría considerar consistente
Eficiencia: Se compara la varianza del Estimador 1 con las de los otros estimadores para cada tamaño de muestra y se determina que es eficiente solo en la muestra de tamaño 20. A medida que aumenta el tamaño deja de ser eficiente.
Insesgadez: La media del Estimador 2 no se encuentra cerca del valor del parámetro para todos los tamaños de muestra. Por lo anterior se considera sesgado.
Consistencia: El valor de la media se mantiene alejado del valor del parámetro independientemente del tamaño de la muestra. Por lo anterior se considera inconsistente
Eficiencia: Se compara la varianza del Estimador 2 con las de los otros estimadores para cada tamaño de muestra y se determina que no es eficiente.
Insesgadez: La media del Estimador 3 se encuentra cerca del valor del parámetro para todos los tamaños de muestra. Por lo anterior se podría considerar insesgado.
Consistencia: El valor de la media se hace más cercano a medida que aumenta el tamaño de la muestra. Por lo anterior se podría considerar consistente
Eficiencia: Se compara la varianza del Estimador 3 con las de los otros estimadores para cada tamaño de muestra y se determina que es eficiente a partir del tamaño de muestra 50 hasta 1000.
Insesgadez: La media del Estimador 4 se encuentra cerca del valor, sin embargo, su valor, comparado con el valor del parámetro, no tiende a cero (0). Este varía entre 2,12 para la muestra 20 hasta 1,78 para la muestra 1000 . Por lo anterior se podría considerar sesgado.
Consistencia: El valor de la media se estabiliza cerca a 12. Si bien intenta acercarse al valor, a partir de la muestra 100 aumenta. Por lo anterior se podría considerar inconsistente
Eficiencia: Se compara la varianza del Estimador 4 con las de los otros estimadores para cada tamaño de muestra y se determina que no es eficiente.