La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son. insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
\(\hat\theta_{1} = \frac{X_{1}+X_{2}}{6} + \frac{X_{3}+X_{4}}{3}\)
\(\hat\theta_{2} = \frac{X_{1}+2X_{2}+3X_{3}+4X_{4}}{5}\)
\(\hat\theta_{3} = \frac{X_{1}+X_{2}+X_{3}+X_{4}}{4}\)
\(\hat\theta_{4} = \frac{min\{X_{1},X_{2},X_{3},X_{4}\} + max\{X_{1},X_{2},X_{3},X_{4}\}}{2}\)
Nota:
Genere una muestras de n=20, 50, 100 y 1000 para cada uno de los estimadores planteados.
En cada caso evalue las propiedades de insesgadez, eficiencia y consistencia
Suponga un valor para el parámetro θ
Primero se revisará que significan los términos sesgo, eficiencia y consistencia en el contexto de la estimación:
Sesgo: El sesgo de un estimador se refiere a la diferencia entre su valor esperado y el verdadero valor del parámetro que está tratando de estimar. Un estimador sin sesgo tiene un sesgo igual a cero.
Eficiencia: La eficiencia de un estimador se refiere a la varianza del estimador. Un estimador es más eficiente si tiene menor varianza.
Consistencia: Un estimador se considera consistente si converge en probabilidad al verdadero valor del parámetro a medida que el tamaño de la muestra aumenta indefinidamente.
Ahora, para evaluar los estimadores dados, necesitamos generar muestras de las distribuciones pertinentes y calcular los estimadores para cada muestra. Luego, calcularemos el sesgo, la varianza y la eficiencia para cada estimador en cada tamaño de muestra dado.
Para calcular estas propiedades usaremos:
Sesgo \[ Sesgo = \theta_{poblacional} - \hat\theta_{muestral}\] Eficiencia \[Var(\hat\theta) + (Sesgo(\hat\theta))²\] Consistencia \[(\frac{1}{n})\sum_{i=1}^{n}(\hat\theta - \theta_{poblacional})²\]
Si bien se puede calcular la consistencia a través de esta fórmula, se podrá comprobar comparativamente a medida que se realizan las simulaciones para muestras cada vez más grandes.
Se utilizará una distribución exponencial con \(\lambda=5\) lo que representa una media de 0.2.
# Establecer la semilla aleatoria para reproducibilidad
set.seed(123)
# Definir función para calcular los estimadores
calcular_estimadores <- function(n) {
x1 = rexp(n, 5)
x2 = rexp(n, 5)
x3 = rexp(n, 5)
x4 = rexp(n, 5)
datos = data.frame(x1,x2,x3,x4)
dmin = apply(datos, 1, min)
dmax = apply(datos, 1, max)
estimadores = data.frame(
t1 = (x1 + x2)/6 + (x3 + x4)/3,
t2 = (x1 + 2*x2+ 3*x3+4*x4)/5,
t3 = (x1+x2+x3+x4) / 4,
t4 = (dmin + dmax)/2)
colnames(estimadores) <- c("Estimador 1", "Estimador 2", "Estimador 3", "Estimador 4")
# Graficar el resultado de los estimadores por tamaño de muestra
boxplot(estimadores, main = paste("Estimadores - Tamaño de muestra:", n),
ylab = "Valor del estimador", xlab = "Estimadores")
abline(h=0.2, col="red")
# Mostrar el resumen estadístico para cada estimador
cat("\nResumen estadístico para tamaño de muestra:", n, "\n")
print(summary(estimadores))
cat("\nDesviación estándar para cada estimador:\n")
print(apply(estimadores, 2, sd))
# Calcular las propiedades de los estimadores
sesgo <- colMeans(estimadores) - c(0.2, 0.2, 0.2, 0.2) # Sesgo
varianza <- apply(estimadores, 2, var) # Varianza
eficiencia <- varianza + sesgo^2 # Eficiencia
# Mostrar las propiedades para cada estimador
cat("\nPropiedades de los estimadores para tamaño de muestra:", n, "\n")
print(data.frame(Sesgo = sesgo, Varianza = varianza, Eficiencia = eficiencia))
}
# Definir tamaños de muestra
tamanos_muestra <- c(20, 50, 100, 1000)
# Iterar sobre los tamaños de muestra y calcular los estimadores
for (tamano in tamanos_muestra) {
calcular_estimadores(tamano)
}
##
## Resumen estadístico para tamaño de muestra: 20
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## Min. :0.06383 Min. :0.1429 Min. :0.08236 Min. :0.1225
## 1st Qu.:0.14075 1st Qu.:0.2765 1st Qu.:0.14202 1st Qu.:0.1441
## Median :0.18321 Median :0.3588 Median :0.18055 Median :0.2078
## Mean :0.20708 Mean :0.4088 Mean :0.20343 Mean :0.2402
## 3rd Qu.:0.23790 3rd Qu.:0.4914 3rd Qu.:0.24166 3rd Qu.:0.2654
## Max. :0.55113 Max. :1.0112 Max. :0.45191 Max. :0.7496
##
## Desviación estándar para cada estimador:
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## 0.10433280 0.18728342 0.08912871 0.14432280
##
## Propiedades de los estimadores para tamaño de muestra: 20
## Sesgo Varianza Eficiencia
## Estimador 1 0.007084877 0.010885332 0.010935528
## Estimador 2 0.208791757 0.035075080 0.078669077
## Estimador 3 0.003425779 0.007943927 0.007955662
## Estimador 4 0.040157569 0.020829069 0.022441700
##
## Resumen estadístico para tamaño de muestra: 50
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## Min. :0.05102 Min. :0.1064 Min. :0.06093 Min. :0.0676
## 1st Qu.:0.14591 1st Qu.:0.2886 1st Qu.:0.14432 1st Qu.:0.1605
## Median :0.19465 Median :0.4084 Median :0.19781 Median :0.2017
## Mean :0.20625 Mean :0.4130 Mean :0.20430 Mean :0.2274
## 3rd Qu.:0.26326 3rd Qu.:0.5289 3rd Qu.:0.26419 3rd Qu.:0.2901
## Max. :0.43065 Max. :0.9069 Max. :0.39782 Max. :0.4871
##
## Desviación estándar para cada estimador:
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## 0.09015105 0.18409869 0.08385248 0.10088388
##
## Propiedades de los estimadores para tamaño de muestra: 50
## Sesgo Varianza Eficiencia
## Estimador 1 0.006245204 0.008127212 0.008166215
## Estimador 2 0.212955239 0.033892327 0.079242261
## Estimador 3 0.004298581 0.007031238 0.007049716
## Estimador 4 0.027406744 0.010177557 0.010928687
##
## Resumen estadístico para tamaño de muestra: 100
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## Min. :0.02884 Min. :0.06546 Min. :0.03359 Min. :0.04784
## 1st Qu.:0.11878 1st Qu.:0.24492 1st Qu.:0.12645 1st Qu.:0.14818
## Median :0.19002 Median :0.37662 Median :0.18003 Median :0.21112
## Mean :0.19959 Mean :0.40438 Mean :0.19929 Mean :0.23376
## 3rd Qu.:0.24386 3rd Qu.:0.52135 3rd Qu.:0.25811 3rd Qu.:0.30611
## Max. :0.49961 Max. :0.97441 Max. :0.48329 Max. :0.56426
##
## Desviación estándar para cada estimador:
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## 0.10423940 0.20998808 0.09801674 0.11915998
##
## Propiedades de los estimadores para tamaño de muestra: 100
## Sesgo Varianza Eficiencia
## Estimador 1 -0.0004089629 0.010865853 0.01086602
## Estimador 2 0.2043759565 0.044094993 0.08586452
## Estimador 3 -0.0007060324 0.009607281 0.00960778
## Estimador 4 0.0337645298 0.014199101 0.01533914
##
## Resumen estadístico para tamaño de muestra: 1000
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## Min. :0.01792 Min. :0.0369 Min. :0.02253 Min. :0.02535
## 1st Qu.:0.12131 1st Qu.:0.2359 1st Qu.:0.12530 1st Qu.:0.14214
## Median :0.18361 Median :0.3558 Median :0.18149 Median :0.20778
## Mean :0.20079 Mean :0.4012 Mean :0.20101 Mean :0.23498
## 3rd Qu.:0.25642 3rd Qu.:0.5149 3rd Qu.:0.25631 3rd Qu.:0.30682
## Max. :0.71958 Max. :1.6300 Max. :0.82596 Max. :0.91370
##
## Desviación estándar para cada estimador:
## Estimador 1 Estimador 2 Estimador 3 Estimador 4
## 0.1084645 0.2255748 0.1048970 0.1300608
##
## Propiedades de los estimadores para tamaño de muestra: 1000
## Sesgo Varianza Eficiencia
## Estimador 1 0.0007867237 0.01176456 0.01176518
## Estimador 2 0.2011631579 0.05088401 0.09135063
## Estimador 3 0.0010106150 0.01100337 0.01100439
## Estimador 4 0.0349834936 0.01691580 0.01813965
Desde la simulación con muestra de tamaño 20 se puede ver que los estimadores 1 y 3 son los que más se acercan al valor de la media (0.2)
Con tamaño de muestra = 100, los estimadores 1 y 3 presentaron una subestimación del parámetro, es decir, los estimadores tienden a ser menores que el valor de la media poblacional, esto se evidencia en los sesgos negativos. Dicha subestimación puede obedecer a errores de muestreo (muestra pequeña), incertidumbre estadística (alta variabilidad de las muestras), e incluso la misma distribución expnencial que tiene cierto sesgo a la derecha, estas asimetrías pueden contribuir a este fenómeno, sin embargo, a medida que aumenta la muestra el estimador se acerca más al valor esperado.
A medida que se aumenta el tamaño de la muestra se puede evidenciar en los estimadores 1 y 3 la propiedad de consistencia, ya que la media muestral se acerca cada vez más a la media poblacional, es decir, disminuye el sesgo.
Los estimadores 2 y 4 no cumplen con la propiedad de consistencia, ya que a medida que aumenta la muestra no reducen el sesgo ni la varianza y tampoco se acerca al valor del parámetro, se quedan en valores límites de aproximadamente 0.4 para el estimador 2 y de 0.23 para el estimador 4. (se hicieron pruebas con muestras de 1e+05 y 1e+06 obteniendo los mismos resultados), estos dos estimadores son un ejemplo de comportamiento asintótico.
Si bien los estimadores 1 y 3 cumplen con las propiedades se encuentra que es el estimador 3 el que mejor se acerca al valor esperado, es el que presenta la menor desviación estándar y además la mayor eficiencia. Es decir, es un estimador que produce estimaciones precisas con poco sesgo.