Ejercicio

La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son: insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

Pasos sugeridos

Funciones recomendadas : function(){}, rexp() , data.frame(), apply(), boxplot()

## Cargar librería

library(ggplot2)
suppressWarnings(library(dplyr))
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## Semilla de reproducibilidad
set.seed(123)

## Función del estimador 

calcular_estimadores <- function(muestra) {
  n <- length(muestra)
  θ1 <- (muestra[1] + muestra[2]) / 6 + (muestra[3] + muestra[4]) / 3
  θ2 <- (muestra[1] + 2 * muestra[2] + 3 * muestra[3] + 4 * muestra[4]) / 5
  θ3 <- (muestra[1] + muestra[2] + muestra[3] + muestra[4]) / 4
  θ4 <- (min(muestra) + max(muestra)) / 2
  return(c(θ1, θ2, θ3,θ4))
}

En cada caso evalue las propiedades de insesgadez y eficiencia

## Evaluación de las propiedades insesgadez y eficiencia

evaluar_propiedades <- function(estimados, parametro_verdadero) {
  insesgadez <- mean(estimados) - parametro_verdadero
  eficiencia <- var(estimados)
  return(c(insesgadez, eficiencia))
}

Suponga un valor para el parámetro θ y genere muestras para cada estimador

## Asignación del valor para θ
parametro_verdadero <- 20


## Crear dataframe -> almacenar resultados

resultados <- data.frame (n = numeric(0),insesgadez = numeric(0),eficiencia = numeric(0),
                          θ1= numeric(0), θ2= numeric(0), θ3= numeric(0), θ4= numeric(0))

## Generación de muestras

muestras <- c(4, 20, 50, 100, 1000)

Resultados de la evaluación de insesgadez y eficiencia

for (n in muestras) {
  muestras_exponenciales <- matrix(rexp(n, rate = 1 / parametro_verdadero), ncol = n)
  estimados <- apply(muestras_exponenciales, 1, calcular_estimadores)
  insesg_efic <- evaluar_propiedades(estimados, parametro_verdadero)
  resultados <- bind_rows(resultados, data.frame(n = n, Insesgadez = insesg_efic[1], Eficiencia = insesg_efic[2],
                                                 θ1= estimados[1],  
                                                 θ2 = estimados[2],
                                                 θ3 = estimados[3],  
                                                 θ4 = estimados[4]))
}

# Ver resultados
print(resultados)
##      n insesgadez eficiencia        θ1        θ2        θ3       θ4 Insesgadez
## 1    4         NA         NA 13.804440 24.440607 13.903499 13.60632  -3.561283
## 2   20         NA         NA  4.305668  8.851850  4.161031 40.70165  -5.494950
## 3   50         NA         NA 29.697241 60.612290 29.208884 72.42775  27.986542
## 4  100         NA         NA  5.453483  9.702353  5.636430 45.03041  -3.544332
## 5 1000         NA         NA 40.500209 80.739912 36.145843 64.22710  35.403266
##   Eficiencia
## 1   28.47315
## 2  309.74891
## 3  481.29377
## 4  366.74233
## 5  437.58504

Representación de los estimadores en un diagrama de cajas y bigotes

## Graficar boxplots para cada estimador

boxplot(resultados[,4:7], col = c("#76EEC6", "#FFE4C4", "#BF3EFF", "#00F5FF"), main = "Gráfico de cajas y bigotes: Estimadores: θ1, θ2, θ3,θ4")
legend("topright", legend = c("estimador 1", "estimador 2", "estimador 3", "estimador 4"), col = c("#76EEC6", "#FFE4C4", "#BF3EFF", "#00F5FF"), lty = 1.5, cex = 1, )

Resumen de los estimadores - estadística descriptiva

summary(resultados)
##        n            insesgadez    eficiencia        θ1               θ2        
##  Min.   :   4.0   Min.   : NA   Min.   : NA   Min.   : 4.306   Min.   : 8.852  
##  1st Qu.:  20.0   1st Qu.: NA   1st Qu.: NA   1st Qu.: 5.453   1st Qu.: 9.702  
##  Median :  50.0   Median : NA   Median : NA   Median :13.804   Median :24.441  
##  Mean   : 234.8   Mean   :NaN   Mean   :NaN   Mean   :18.752   Mean   :36.869  
##  3rd Qu.: 100.0   3rd Qu.: NA   3rd Qu.: NA   3rd Qu.:29.697   3rd Qu.:60.612  
##  Max.   :1000.0   Max.   : NA   Max.   : NA   Max.   :40.500   Max.   :80.740  
##                   NA's   :5     NA's   :5                                      
##        θ3               θ4          Insesgadez       Eficiencia    
##  Min.   : 4.161   Min.   :13.61   Min.   :-5.495   Min.   : 28.47  
##  1st Qu.: 5.636   1st Qu.:40.70   1st Qu.:-3.561   1st Qu.:309.75  
##  Median :13.903   Median :45.03   Median :-3.544   Median :366.74  
##  Mean   :17.811   Mean   :47.20   Mean   :10.158   Mean   :324.77  
##  3rd Qu.:29.209   3rd Qu.:64.23   3rd Qu.:27.987   3rd Qu.:437.58  
##  Max.   :36.146   Max.   :72.43   Max.   :35.403   Max.   :481.29  
## 

Conclusiones

Para un θ=20:

  1. Los estimadores θ1 y θ3 son insesgados ya que el valor obtenido en la media es cercano al valor del parámetro
  2. Los estimadores θ1 y θ3 son eficientes ya que presentan menor varianza que estimador θ2 y θ4
  3. El estimador θ2 presenta simetria pero es insesgado y no es eficiente en comparación con los estimadores θ1 y θ3. De los 4 estimadores es el que presenta mayor dispersión y por ende su varianza es mayo.

Nota: las conclusiones hacen referencia a tendencias , ya que los datos exactos pueden cambiar por la aleatoriedad en la selección de la muestra.