Propiedad de los estimadores

La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son. insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.

Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:

Nota:

Solución

Primero se revisará que significan los términos sesgo, eficiencia y consistencia en el contexto de la estimación:

  • Sesgo: El sesgo de un estimador se refiere a la diferencia entre su valor esperado y el verdadero valor del parámetro que está tratando de estimar. Un estimador sin sesgo tiene un sesgo igual a cero.

  • Eficiencia: La eficiencia de un estimador se refiere a la varianza del estimador. Un estimador es más eficiente si tiene menor varianza.

  • Consistencia: Un estimador se considera consistente si converge en probabilidad al verdadero valor del parámetro a medida que el tamaño de la muestra aumenta indefinidamente.

Ahora, para evaluar los estimadores dados, necesitamos generar muestras de las distribuciones pertinentes y calcular los estimadores para cada muestra. Luego, calcularemos el sesgo, la varianza y la eficiencia para cada estimador en cada tamaño de muestra dado.

Para calcular estas propiedades usaremos:

Sesgo \[ Sesgo = \theta_{poblacional} - \hat\theta_{muestral}\] Eficiencia \[Var(\hat\theta) + (Sesgo(\hat\theta))²\] Consistencia \[(\frac{1}{n})\sum_{i=1}^{n}(\hat\theta - \theta_{poblacional})²\]

Si bien se puede calcular la consistencia a través de esta fórmula, se podrá comprobar comparativamente a medida que se realizan las simulaciones para muestras cada vez más grandes.

Se utilizará una distribución exponencial con \(\lambda=5\) lo que representa una media de 0.2.

# Establecer la semilla aleatoria para reproducibilidad
set.seed(123)

# Definir función para calcular los estimadores
calcular_estimadores <- function(n) {
  
  x1 = rexp(n, 5)
  x2 = rexp(n, 5)
  x3 = rexp(n, 5)  
  x4 = rexp(n, 5)
  
  datos = data.frame(x1,x2,x3,x4)
  dmin = apply(datos, 1, min)
  dmax = apply(datos, 1, max)

  estimadores = data.frame(
    t1 = (x1 + x2)/6 + (x3 + x4)/3,
    t2 = (x1 + 2*x2+ 3*x3+4*x4)/5,
    t3 = (x1+x2+x3+x4) / 4,
    t4 = (dmin + dmax)/2)
  
  colnames(estimadores) <- c("Estimador 1", "Estimador 2", "Estimador 3", "Estimador 4")
  
  # Graficar el resultado de los estimadores por tamaño de muestra
  boxplot(estimadores, main = paste("Estimadores - Tamaño de muestra:", n),
          ylab = "Valor del estimador", xlab = "Estimadores")
  abline(h=0.2, col="red")
  
  # Mostrar el resumen estadístico para cada estimador
  cat("\nResumen estadístico para tamaño de muestra:", n, "\n")
  print(summary(estimadores))
  cat("\nDesviación estándar para cada estimador:\n")
  print(apply(estimadores, 2, sd))

  # Calcular las propiedades de los estimadores
  sesgo <- colMeans(estimadores) - c(0.2, 0.2, 0.2, 0.2)  # Sesgo
  varianza <- apply(estimadores, 2, var)  # Varianza
  eficiencia <- varianza + sesgo^2  # Eficiencia
  
  # Mostrar las propiedades para cada estimador
  cat("\nPropiedades de los estimadores para tamaño de muestra:", n, "\n")
  print(data.frame(Sesgo = sesgo, Varianza = varianza, Eficiencia = eficiencia))
}

# Definir tamaños de muestra
tamanos_muestra <- c(20, 50, 100, 1000)

# Iterar sobre los tamaños de muestra y calcular los estimadores
for (tamano in tamanos_muestra) {
  calcular_estimadores(tamano)
}

## 
## Resumen estadístico para tamaño de muestra: 20 
##   Estimador 1       Estimador 2      Estimador 3       Estimador 4    
##  Min.   :0.06383   Min.   :0.1429   Min.   :0.08236   Min.   :0.1225  
##  1st Qu.:0.14075   1st Qu.:0.2765   1st Qu.:0.14202   1st Qu.:0.1441  
##  Median :0.18321   Median :0.3588   Median :0.18055   Median :0.2078  
##  Mean   :0.20708   Mean   :0.4088   Mean   :0.20343   Mean   :0.2402  
##  3rd Qu.:0.23790   3rd Qu.:0.4914   3rd Qu.:0.24166   3rd Qu.:0.2654  
##  Max.   :0.55113   Max.   :1.0112   Max.   :0.45191   Max.   :0.7496  
## 
## Desviación estándar para cada estimador:
## Estimador 1 Estimador 2 Estimador 3 Estimador 4 
##  0.10433280  0.18728342  0.08912871  0.14432280 
## 
## Propiedades de los estimadores para tamaño de muestra: 20 
##                   Sesgo    Varianza  Eficiencia
## Estimador 1 0.007084877 0.010885332 0.010935528
## Estimador 2 0.208791757 0.035075080 0.078669077
## Estimador 3 0.003425779 0.007943927 0.007955662
## Estimador 4 0.040157569 0.020829069 0.022441700

## 
## Resumen estadístico para tamaño de muestra: 50 
##   Estimador 1       Estimador 2      Estimador 3       Estimador 4    
##  Min.   :0.05102   Min.   :0.1064   Min.   :0.06093   Min.   :0.0676  
##  1st Qu.:0.14591   1st Qu.:0.2886   1st Qu.:0.14432   1st Qu.:0.1605  
##  Median :0.19465   Median :0.4084   Median :0.19781   Median :0.2017  
##  Mean   :0.20625   Mean   :0.4130   Mean   :0.20430   Mean   :0.2274  
##  3rd Qu.:0.26326   3rd Qu.:0.5289   3rd Qu.:0.26419   3rd Qu.:0.2901  
##  Max.   :0.43065   Max.   :0.9069   Max.   :0.39782   Max.   :0.4871  
## 
## Desviación estándar para cada estimador:
## Estimador 1 Estimador 2 Estimador 3 Estimador 4 
##  0.09015105  0.18409869  0.08385248  0.10088388 
## 
## Propiedades de los estimadores para tamaño de muestra: 50 
##                   Sesgo    Varianza  Eficiencia
## Estimador 1 0.006245204 0.008127212 0.008166215
## Estimador 2 0.212955239 0.033892327 0.079242261
## Estimador 3 0.004298581 0.007031238 0.007049716
## Estimador 4 0.027406744 0.010177557 0.010928687

## 
## Resumen estadístico para tamaño de muestra: 100 
##   Estimador 1       Estimador 2       Estimador 3       Estimador 4     
##  Min.   :0.02884   Min.   :0.06546   Min.   :0.03359   Min.   :0.04784  
##  1st Qu.:0.11878   1st Qu.:0.24492   1st Qu.:0.12645   1st Qu.:0.14818  
##  Median :0.19002   Median :0.37662   Median :0.18003   Median :0.21112  
##  Mean   :0.19959   Mean   :0.40438   Mean   :0.19929   Mean   :0.23376  
##  3rd Qu.:0.24386   3rd Qu.:0.52135   3rd Qu.:0.25811   3rd Qu.:0.30611  
##  Max.   :0.49961   Max.   :0.97441   Max.   :0.48329   Max.   :0.56426  
## 
## Desviación estándar para cada estimador:
## Estimador 1 Estimador 2 Estimador 3 Estimador 4 
##  0.10423940  0.20998808  0.09801674  0.11915998 
## 
## Propiedades de los estimadores para tamaño de muestra: 100 
##                     Sesgo    Varianza Eficiencia
## Estimador 1 -0.0004089629 0.010865853 0.01086602
## Estimador 2  0.2043759565 0.044094993 0.08586452
## Estimador 3 -0.0007060324 0.009607281 0.00960778
## Estimador 4  0.0337645298 0.014199101 0.01533914

## 
## Resumen estadístico para tamaño de muestra: 1000 
##   Estimador 1       Estimador 2      Estimador 3       Estimador 4     
##  Min.   :0.01792   Min.   :0.0369   Min.   :0.02253   Min.   :0.02535  
##  1st Qu.:0.12131   1st Qu.:0.2359   1st Qu.:0.12530   1st Qu.:0.14214  
##  Median :0.18361   Median :0.3558   Median :0.18149   Median :0.20778  
##  Mean   :0.20079   Mean   :0.4012   Mean   :0.20101   Mean   :0.23498  
##  3rd Qu.:0.25642   3rd Qu.:0.5149   3rd Qu.:0.25631   3rd Qu.:0.30682  
##  Max.   :0.71958   Max.   :1.6300   Max.   :0.82596   Max.   :0.91370  
## 
## Desviación estándar para cada estimador:
## Estimador 1 Estimador 2 Estimador 3 Estimador 4 
##   0.1084645   0.2255748   0.1048970   0.1300608 
## 
## Propiedades de los estimadores para tamaño de muestra: 1000 
##                    Sesgo   Varianza Eficiencia
## Estimador 1 0.0007867237 0.01176456 0.01176518
## Estimador 2 0.2011631579 0.05088401 0.09135063
## Estimador 3 0.0010106150 0.01100337 0.01100439
## Estimador 4 0.0349834936 0.01691580 0.01813965

Conclusiones

  • Desde la simulación con muestra de tamaño 20 se puede ver que los estimadores 1 y 3 son los que más se acercan al valor de la media (0.2)

  • Con tamaño de muestra = 100, los estimadores 1 y 3 presentaron una subestimación del parámetro, es decir, los estimadores tienden a ser menores que el valor de la media poblacional, esto se evidencia en los sesgos negativos. Dicha subestimación puede obedecer a errores de muestreo (muestra pequeña), incertidumbre estadística (alta variabilidad de las muestras), e incluso la misma distribución expnencial que tiene cierto sesgo a la derecha, estas asimetrías pueden contribuir a este fenómeno, sin embargo, a medida que aumenta la muestra el estimador se acerca más al valor esperado.

  • A medida que se aumenta el tamaño de la muestra se puede evidenciar en los estimadores 1 y 3 la propiedad de consistencia, ya que la media muestral se acerca cada vez más a la media poblacional, es decir, disminuye el sesgo.

  • Los estimadores 2 y 4 no cumplen con la propiedad de consistencia, ya que a medida que aumenta la muestra no reducen el sesgo ni la varianza y tampoco se acerca al valor del parámetro, se quedan en valores límites de aproximadamente 0.4 para el estimador 2 y de 0.23 para el estimador 4. (se hicieron pruebas con muestras de 1e+05 y 1e+06 obteniendo los mismos resultados), estos dos estimadores son un ejemplo de comportamiento asintótico.

  • Si bien los estimadores 1 y 3 cumplen con las propiedades se encuentra que es el estimador 3 el que mejor se acerca al valor esperado, es el que presenta la menor desviación estándar y además la mayor eficiencia. Es decir, es un estimador que produce estimaciones precisas con poco sesgo.