Propiedades de los estimadores

La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

Genere una muestras de n=20, 50, 100 y 1000 para cada uno de los estimadores planteados.

En cada caso evalue las propiedades de insesgadez, eficiencia y consistencia

Suponga un valor para el parámetro θ

Muestra n = 20

Para iniciar, se definirán los estimadores en una función, como se muestra a continuación.

estimadores <- function(numeros) {
  X1 <- numeros[1]
  X2 <- numeros[2]
  X3 <- numeros[3]
  X4 <- numeros[4]
  
  Estimador_1 <- ((X1 + X2)/6) + ((X3 + X4)/3)
  Estimador_2 <- (X1 + 2*X2 + 3*X3 + 4*X4)/5
  Estimador_3 <- (X1 + X2 + X3 + X4)/4
  Estimador_4 <- (min(X1,X2,X3,X4) + max(X1,X2,X3,X4))/2
  
  return(c(Estimador_1, Estimador_2, Estimador_3, Estimador_4))
}

La anterior función recibe como parámetro los números generados a partir de la función rexp que permite generar 4 números aleatorios usando el parámetro supuesto 10. Dicho parámetro es una matriz de 1x4 generada cada que la estructura de control for itera dependiendo del tamaño de la muestra. Se determina que X1 corresponde a la posición 1 de dicha matriz, X2 la posición 2 y así sucesivamente. Finalmente, la función regresa un vector con el resultado de los estimadores que se guardarán en otra matriz.

Para evaluar las propiedades de insesgadez, eficiencia y consistencia es necesario generar las muestras correspondientes a cada variable aleatoria. Se define el parámetro como variable global y, en este caso, la muestra es 20. Se crea una estructura for que itere el número de la muestra y genere los 4 números aleatorios que se guardan en la variable numeros, esta variable luego se pasa como parámetro a la función estimadores para generar el valor de cada estimador y guardarlo en la matriz del tamaño de la muestra en filas y 4 columnas.

library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.4.4     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
set.seed(123)
parametro <- 10
matriz20 <- matrix(nrow = 20, ncol = 4)
for (i in 1:20) {
   numeros <- rexp(4, rate = 1/parametro)
   matriz20 [i,] <- estimadores(numeros)
}
matriz20 <- data.frame(matriz20)
colnames (matriz20) <- (c("Estimador 1", "Estimador 2", "Estimador 3", "Estimador 4"))

A partir de la información creada en el código anterior, se procede a crear el boxplot que permita visualizarla.

boxplot(matriz20, las=1, main="Comparación estimadores con n = 20")
abline(h=10,  col="red")

La media de los estimadores es:

media20 <- apply(matriz20, 2, mean)
media20
## Estimador 1 Estimador 2 Estimador 3 Estimador 4 
##    9.835549   19.776860   10.171289   12.123810

La varianza de los estimadores es:

var20 <- apply(matriz20, 2, var)
var20
## Estimador 1 Estimador 2 Estimador 3 Estimador 4 
##    20.33574   101.05652    24.48276    61.08732

A partir de los códigos anteriores, se replica el ejercicio para los siguientes.

Muestra n = 50

matriz50 <- matrix(nrow = 50, ncol = 4)
for (i in 1:50) {
   numeros <- rexp(4, rate = 1/parametro)
   matriz50 [i,] <- estimadores(numeros)
}
matriz50 <- data.frame(matriz50)
colnames (matriz50) <- (c("Estimador 1", "Estimador 2", "Estimador 3", "Estimador 4"))

A partir de la información creada en el código anterior, se procede a crear el boxplot que permita visualizarla.

boxplot(matriz50, las=1, main="Comparación estimadores con n = 50")
abline(h=10,  col="red")

La media de los estimadores es:

media50 <- apply(matriz50, 2, mean)
media50
## Estimador 1 Estimador 2 Estimador 3 Estimador 4 
##    10.21377    20.74278    10.21493    11.36251

La varianza de los estimadores es:

var50 <- apply(matriz50, 2, var)
var50
## Estimador 1 Estimador 2 Estimador 3 Estimador 4 
##    18.69930    80.60356    15.38961    24.75493

Muestra n = 100

matriz100 <- matrix(nrow = 100, ncol = 4)
for (i in 1:100) {
   numeros <- rexp(4, rate = 1/parametro)
   matriz100 [i,] <- estimadores(numeros)
}
matriz100 <- data.frame(matriz100)
colnames (matriz100) <- (c("Estimador 1", "Estimador 2", "Estimador 3", "Estimador 4"))

A partir de la información creada en el código anterior, se procede a crear el boxplot que permita visualizarla.

boxplot(matriz100, las=1, main="Comparación estimadores con n = 100")
abline(h=10,  col="red")

La media de los estimadores es:

media100 <- apply(matriz100, 2, mean)
media100
## Estimador 1 Estimador 2 Estimador 3 Estimador 4 
##    9.801511   19.617759    9.964698   11.841778

La varianza de los estimadores es:

var100 <- apply(matriz100, 2, var)
var100
## Estimador 1 Estimador 2 Estimador 3 Estimador 4 
##    21.74801    98.66637    20.82749    35.88806

Muestra n = 1000

matriz1000 <- matrix(nrow = 1000, ncol = 4)
for (i in 1:1000) {
   numeros <- rexp(4, rate = 1/parametro)
   matriz1000 [i,] <- estimadores(numeros)
}
matriz1000 <- data.frame(matriz1000)
colnames (matriz1000) <- (c("Estimador 1", "Estimador 2", "Estimador 3", "Estimador 4"))

A partir de la información creada en el código anterior, se procede a crear el boxplot que permita visualizarla.

boxplot(matriz1000, las=1, main="Comparación estimadores con n = 1000")
abline(h=10,  col="red")

La media de los estimadores es:

media1000 <- apply(matriz1000, 2, mean)
media1000
## Estimador 1 Estimador 2 Estimador 3 Estimador 4 
##    10.08321    20.23004    10.05053    11.78901

La varianza de los estimadores es:

var1000 <- apply(matriz1000, 2, var)
var1000
## Estimador 1 Estimador 2 Estimador 3 Estimador 4 
##    29.91512   130.14652    25.04332    42.17934

Propiedades

Para interpretar las propiedades de los estimadores se presentarán los valores medios y varianza de cada estimador para cada muestra

media <- rbind(media20, media50, media100, media1000)
colnames(media) <- c("Estimador 1","Estimador 2", "Estimador 3","Estimador 4")
rownames(media) <- c("n=20", "n=50", "n=100", "n=1000")
media
##        Estimador 1 Estimador 2 Estimador 3 Estimador 4
## n=20      9.835549    19.77686   10.171289    12.12381
## n=50     10.213774    20.74278   10.214929    11.36251
## n=100     9.801511    19.61776    9.964698    11.84178
## n=1000   10.083213    20.23004   10.050531    11.78901
varianza <- rbind(var20, var50, var100, var1000)
colnames(varianza) <- c("Estimador 1","Estimador 2", "Estimador 3","Estimador 4")
rownames(varianza) <- c("n=20", "n=50", "n=100", "n=1000")
varianza
##        Estimador 1 Estimador 2 Estimador 3 Estimador 4
## n=20      20.33574   101.05652    24.48276    61.08732
## n=50      18.69930    80.60356    15.38961    24.75493
## n=100     21.74801    98.66637    20.82749    35.88806
## n=1000    29.91512   130.14652    25.04332    42.17934

A partir de lo anterior se concluye:

Estimador 1

  • Insesgadez: La media del Estimador 1 se encuentra cerca del valor del parámetro para todos los tamaños de muestra. Por lo anterior se podría considerar insesgado.

  • Consistencia: El valor de la media se hace más cercano a medida que aumenta el tamaño de la muestra. Por lo anterior se podría considerar consistente

  • Eficiencia: Se compara la varianza del Estimador 1 con las de los otros estimadores para cada tamaño de muestra y se determina que es eficiente solo en la muestra de tamaño 20. A medida que aumenta el tamaño deja de ser eficiente.

Estimador 2

  • Insesgadez: La media del Estimador 2 no se encuentra cerca del valor del parámetro para todos los tamaños de muestra. Por lo anterior se considera sesgado.

  • Consistencia: El valor de la media se mantiene alejado del valor del parámetro independientemente del tamaño de la muestra. Por lo anterior se considera inconsistente

  • Eficiencia: Se compara la varianza del Estimador 2 con las de los otros estimadores para cada tamaño de muestra y se determina que no es eficiente.

Estimador 3

  • Insesgadez: La media del Estimador 3 se encuentra cerca del valor del parámetro para todos los tamaños de muestra. Por lo anterior se podría considerar insesgado.

  • Consistencia: El valor de la media se hace más cercano a medida que aumenta el tamaño de la muestra. Por lo anterior se podría considerar consistente

  • Eficiencia: Se compara la varianza del Estimador 3 con las de los otros estimadores para cada tamaño de muestra y se determina que es eficiente a partir del tamaño de muestra 50 hasta 1000.

Estimador 4

  • Insesgadez: La media del Estimador 4 se encuentra cerca del valor, sin embargo, su valor, comparado con el valor del parámetro, no tiende a cero (0). Este varía entre 2,12 para la muestra 20 hasta 1,78 para la muestra 1000 . Por lo anterior se podría considerar sesgado.

  • Consistencia: El valor de la media se estabiliza cerca a 12. Si bien intenta acercarse al valor, a partir de la muestra 100 aumenta. Por lo anterior se podría considerar inconsistente

  • Eficiencia: Se compara la varianza del Estimador 4 con las de los otros estimadores para cada tamaño de muestra y se determina que no es eficiente.