La simulación ayuda a entender y validad las propiedades de los estimadores estadísticos como son. insesgadez, eficiencia y la consistencia principalmente. El siguiente problema permite evidenciar las principales características de un grupo de estimadores propuestos para la estimación de un parámetro asociado a un modelo de probabilidad.
Sean X1, X2, X3 y X4, una muestra aleatoria de tamaño n=4 cuya población la conforma una distribución exponencial con parámetro θ desconocido. Determine las características de cada uno de los siguientes estimadores propuestos:
Vamos a evaluar las 4 opciones de los estimadores para determinar cuál es la mejor, se parte de que la distribución es exponencial, creamos 4 simulaciones exponenciales con números racionales y con un rate en este caso de 2, rate es el parámetro de tasa de la distribución exponencial. En términos estadísticos, la tasa es el inverso de la media (μ) de la distribución.
n = 1000
x1 = rexp(n, 2)
x2 = rexp(n, 2)
x3 = rexp(n, 2)
x4 = rexp(n, 2)
Posteriormente, creamos los estimadores, para el cuarto estimador se requiere calcular el valor mínimo y máximo por las filas, para ello hacemos uso de la función apply luego de crear el data frame.
datos = data.frame(x1,x2,x3,x4)
minD = apply(datos, 1, min)
maxD = apply(datos, 1, max)
estimador1 = (x1+x2)/6 + (x3+x4)/3
estimador2 = (x1+2*x2+3*x3+4*x4)/5
estimador3 = (x1+x2+x3+x4)/4
estimador4 = (minD+maxD)/2
Se requiere evaluar de forma conjunta a los estimadores, para ello creamos un data frame con los estimadores calculados y utilizamos las herramientas summary y boxplot para su óptima visualización.
estimadoresFrame = data.frame(estimador1,estimador2,estimador3,estimador4)
summary(estimadoresFrame)
## estimador1 estimador2 estimador3 estimador4
## Min. :0.03239 Min. :0.0533 Min. :0.0422 Min. :0.05844
## 1st Qu.:0.29980 1st Qu.:0.5756 1st Qu.:0.3068 1st Qu.:0.35015
## Median :0.45160 Median :0.9008 Median :0.4644 Median :0.53164
## Mean :0.50047 Mean :0.9998 Mean :0.5028 Mean :0.58689
## 3rd Qu.:0.64896 3rd Qu.:1.3020 3rd Qu.:0.6436 3rd Qu.:0.74630
## Max. :1.96334 Max. :4.0580 Max. :1.5298 Max. :2.02898
boxplot(estimadoresFrame)
Posterior a su graficación, incluimos para mayor claridad una línea que representa el valor teórico de la media de los datos, en este caso el rate era de 1/2.
boxplot(estimadoresFrame)
abline(h=0.5, col = 'green')
Para determinar la varianza de los estimadores, hacemos uso de la librería summarytools y calculamos la desviación estándar que es directamente proporcional a la varianza.
summarytools::descr(estimadoresFrame)
## Descriptive Statistics
## estimadoresFrame
## N: 1000
##
## estimador1 estimador2 estimador3 estimador4
## ----------------- ------------ ------------ ------------ ------------
## Mean 0.50 1.00 0.50 0.59
## Std.Dev 0.27 0.56 0.25 0.32
## Min 0.03 0.05 0.04 0.06
## Q1 0.30 0.58 0.31 0.35
## Median 0.45 0.90 0.46 0.53
## Q3 0.65 1.30 0.64 0.75
## Max 1.96 4.06 1.53 2.03
## MAD 0.25 0.53 0.25 0.29
## IQR 0.35 0.73 0.34 0.40
## CV 0.54 0.56 0.51 0.55
## Skewness 1.16 1.23 0.98 1.11
## SE.Skewness 0.08 0.08 0.08 0.08
## Kurtosis 2.10 2.39 1.01 1.37
## N.Valid 1000.00 1000.00 1000.00 1000.00
## Pct.Valid 100.00 100.00 100.00 100.00
El estimador 2 es el que posee según el gráfico la varianza más elevada, además su mediana y la mayoría de datos que se encuentran dentro de la caja están bastante alejados de la media teórica, pues ésta es de 0.5 y el valor para el estimador 2 es de 0.9 para la muestra de 1000 elemntos, por lo tanto se puede inferir que cuenta con sesgo.
Los estimadores 1 y 3 cuentan con una media muy cercana a 0.5, siendo ideales ya que cumplen con la característica de la insesgadez, además de contar con la varianza muy similar y las más bajas de entre los demás estimadores. A medida que se aumenta n, se determina que el estimador 3 tiene la menor varianza.
A medida de que el número de elementos en las muestras aumenta, las medias se van estableciendo con mayor determinación hacia un número, es importante realizar la simulación con un número de elementos elevado para determinar la tendencia de la varianza y la media de cada uno de los estimadores y poder tomar decisiones más acertadas.