La estimación de parámetros consiste en atribuir valores a los parámetros poblacionales desconocidos con la finalidad de caracterizar las poblaciones a partir de la información de las muestras. Un estimador estadístico \(\hat \theta\) es una fórmula matemática utilizada para estimar parámetros poblacionales \(\theta\) de una muestra aleatoria \(X_{n}\) con distribución de probabilidad conocida o desconocida. En inferencia estadística, un estimador puede presentar las siguientes propiedades: Consistencia, Eficiencia, Insesgadez, Suficiencia, Robustez, Eficiencia asintótica, Invarianza y No distorsión.
En el siguiente problema evidenciamos las principales características de un grupo de estimadores de un parámetro asociado a un modelo de probabilidad. Sean \(X_{1}\), \(X_{2}\), \(X_{3}\) y \(X_{4}\) cuatro muestras aleatorias de tamaño \(n\) de una población simulada con distribución exponencial con parámetro \(\theta\) desconocido. Para cada uno de los siguientes estimadores se determinan las principales características y se evalúan las propiedades de insesgadez, eficiencia y consistencia para diferentes tamaños de muestra \(n\).
\[ \hat \theta _{1} = \frac{X_{1}+X_{2}}{6} + \frac{X_{6}+X_{4}}{3} \] \[ \hat \theta _{2} = \frac{(X_{1}+2X_{2}+3X_{3}+4X_{4})}{5} \] \[ \hat \theta _{3} = \frac{X_{1}+X_{2}+X_{3}+X_{4}}{4} \] \[ \hat \theta _{4} = \frac{min\{X_{1},X_{2},X_{3},X_{4}\}+max\{X_{1},X_{2},X_{3},X_{4}\}}{2} \]
Cada uno de estos estimadores se definen como funciones en
R para la evaluación de las muestras.
func_t1 <- function (x1,x2,x3,x4) {return(((x1+x2)/6)+((x3+x4)/3))}
func_t2 <- function (x1,x2,x3,x4) {return((x1+2*x2+3*x3+4*x4)/5)}
func_t3 <- function (x1,x2,x3,x4) {return((x1+x2+x3+x4)/4)}
func_t4 <- function (x1,x2,x3,x4) {
muestra = data.frame(x1,x2,x3,x4)
xmin = apply(muestra,1,min)
xmax = apply(muestra,1,max)
return((xmin+xmax)/2)
}Para realizar el análisis obtenemos una serie de datos simulados con
distribución exponencial utilizando la función rexp()
asumiendo un valor de \(\lambda=4\).
Con esta función podemos construir las cuatro muestras aleatorias \(X\).
funct_estimador <- function (n) {
lambda = 4
# Creación de las muestras
x1 = rexp(n,lambda)
x2 = rexp(n,lambda)
x3 = rexp(n,lambda)
x4 = rexp(n,lambda)
# Evaluación de los estimadores
T1 = func_t1(x1,x2,x3,x4)
T2 = func_t2(x1,x2,x3,x4)
T3 = func_t3(x1,x2,x3,x4)
T4 = func_t4(x1,x2,x3,x4)
estimadores = data.frame(T1,T2,T3,T4)
# Cálculo del promedio y la varianza para cada estimador
Promedio = apply(estimadores, 2, mean)
Varianza = apply(estimadores, 2, var)
resumen = data.frame(Promedio,Varianza)
boxplot(estimadores, main=paste0("Lambda=",lambda,", n=",n), xlab = "Estimadores")
abline(h=0.25, col="red3")
return(resumen)
}
funct_table <- function (resumen) {
kable(resumen, "html", escape = FALSE, caption = "Promedio y Varianza para cada estimador") %>%
kable_styling(bootstrap_options = c("striped","hover","condensed","bordered"), full_width = FALSE) %>%
row_spec(0, bold = TRUE)
}Asumimos un tamaño de muestra igual a 4 y calculamos los estimadores. Con estos resultados analizamos las propiedades de cada estimador.
| Promedio | Varianza | |
|---|---|---|
| T1 | 0.3140351 | 0.0134496 |
| T2 | 0.6668007 | 0.0512416 |
| T3 | 0.2935421 | 0.0155859 |
| T4 | 0.3000840 | 0.0124073 |
| Promedio | Varianza | |
|---|---|---|
| T1 | 0.2620049 | 0.0155035 |
| T2 | 0.5090309 | 0.0566404 |
| T3 | 0.2585922 | 0.0116460 |
| T4 | 0.3158682 | 0.0179033 |
| Promedio | Varianza | |
|---|---|---|
| T1 | 0.2433329 | 0.0117149 |
| T2 | 0.4944762 | 0.0536304 |
| T3 | 0.2365449 | 0.0088259 |
| T4 | 0.2636562 | 0.0120819 |
| Promedio | Varianza | |
|---|---|---|
| T1 | 0.2890487 | 0.0218108 |
| T2 | 0.5842119 | 0.0938629 |
| T3 | 0.2779577 | 0.0182059 |
| T4 | 0.3227050 | 0.0308937 |
| Promedio | Varianza | |
|---|---|---|
| T1 | 0.2507652 | 0.0153835 |
| T2 | 0.5029977 | 0.0686875 |
| T3 | 0.2538358 | 0.0149875 |
| T4 | 0.2977437 | 0.0255100 |
Para \(n=4\) los cuatro estimadores presentan sesgo e ineficiencia. Se podría resaltar que los estimadores \(T1\) y \(T3\) son los que menos varianza presentan. En el análisis con \(n=20\) los estimadores presentan menor varianza, y el promedio de \(T1\) y \(T3\) empieza a acercarse al valor \(\frac{1}{\lambda}=0.25\). Con \(n=50\) la varianza de los cuatro estimadores disminuye. \(T2\) continúa siendo muy sesgado y el promedio de \(T4\) empieza a acercarse al valor a estimar \(\frac{1}{\lambda}=0.25\). En los resultados de \(n=100\) y \(n=1000\) la varianza de \(T1\) y \(T3\) es la menor, mientras que \(T2\) continúa con una varianza grande. Tanto \(T1\) como \(T3\) se acercan cada vez más a \(\frac{1}{\lambda}=0.25\), indicando que son estimadores insesgados y eficientes. De \(T2\) podemos decir que es un estimador sesgado, ineficiente y no consistente. Finalmente se observa que \(T4\) podría tener cierto grado de consistencia ya que al aumentar el tamaño de muestras \(n\) la media se acerca al valor real disminuyendo el sesgo.