Problema 2: Propiedades de los estimadores


La estimación de parámetros consiste en atribuir valores a los parámetros poblacionales desconocidos con la finalidad de caracterizar las poblaciones a partir de la información de las muestras. Un estimador estadístico \(\hat \theta\) es una fórmula matemática utilizada para estimar parámetros poblacionales \(\theta\) de una muestra aleatoria \(X_{n}\) con distribución de probabilidad conocida o desconocida. En inferencia estadística, un estimador puede presentar las siguientes propiedades: Consistencia, Eficiencia, Insesgadez, Suficiencia, Robustez, Eficiencia asintótica, Invarianza y No distorsión.

En el siguiente problema evidenciamos las principales características de un grupo de estimadores de un parámetro asociado a un modelo de probabilidad. Sean \(X_{1}\), \(X_{2}\), \(X_{3}\) y \(X_{4}\) cuatro muestras aleatorias de tamaño \(n\) de una población simulada con distribución exponencial con parámetro \(\theta\) desconocido. Para cada uno de los siguientes estimadores se determinan las principales características y se evalúan las propiedades de insesgadez, eficiencia y consistencia para diferentes tamaños de muestra \(n\).


\[ \hat \theta _{1} = \frac{X_{1}+X_{2}}{6} + \frac{X_{6}+X_{4}}{3} \] \[ \hat \theta _{2} = \frac{(X_{1}+2X_{2}+3X_{3}+4X_{4})}{5} \] \[ \hat \theta _{3} = \frac{X_{1}+X_{2}+X_{3}+X_{4}}{4} \] \[ \hat \theta _{4} = \frac{min\{X_{1},X_{2},X_{3},X_{4}\}+max\{X_{1},X_{2},X_{3},X_{4}\}}{2} \]


Cada uno de estos estimadores se definen como funciones en R para la evaluación de las muestras.

func_t1 <- function (x1,x2,x3,x4) {return(((x1+x2)/6)+((x3+x4)/3))}
func_t2 <- function (x1,x2,x3,x4) {return((x1+2*x2+3*x3+4*x4)/5)}
func_t3 <- function (x1,x2,x3,x4) {return((x1+x2+x3+x4)/4)}
func_t4 <- function (x1,x2,x3,x4) {
  muestra = data.frame(x1,x2,x3,x4)
  xmin = apply(muestra,1,min)
  xmax = apply(muestra,1,max)
  return((xmin+xmax)/2)
}

Para realizar el análisis obtenemos una serie de datos simulados con distribución exponencial utilizando la función rexp() asumiendo un valor de \(\lambda=4\). Con esta función podemos construir las cuatro muestras aleatorias \(X\).

funct_estimador <- function (n) {
    lambda = 4
    
    # Creación de las muestras
    x1 = rexp(n,lambda)
    x2 = rexp(n,lambda)
    x3 = rexp(n,lambda)
    x4 = rexp(n,lambda)
    
    # Evaluación de los estimadores
    T1 = func_t1(x1,x2,x3,x4)
    T2 = func_t2(x1,x2,x3,x4)
    T3 = func_t3(x1,x2,x3,x4)
    T4 = func_t4(x1,x2,x3,x4)
    estimadores = data.frame(T1,T2,T3,T4)
    
    # Cálculo del promedio y la varianza para cada estimador
    Promedio = apply(estimadores, 2, mean)
    Varianza = apply(estimadores, 2, var)
    resumen = data.frame(Promedio,Varianza)
    
    boxplot(estimadores, main=paste0("Lambda=",lambda,", n=",n), xlab = "Estimadores")
    abline(h=0.25, col="red3")
    
    return(resumen)
}

funct_table <- function (resumen) {
    kable(resumen, "html", escape = FALSE, caption = "Promedio y Varianza para cada estimador") %>%
      kable_styling(bootstrap_options = c("striped","hover","condensed","bordered"), full_width = FALSE) %>%
      row_spec(0, bold = TRUE)
}

Asumimos un tamaño de muestra igual a 4 y calculamos los estimadores. Con estos resultados analizamos las propiedades de cada estimador.

n=4
resumen = funct_estimador(n)

funct_table(resumen)
Promedio y Varianza para cada estimador
Promedio Varianza
T1 0.3140351 0.0134496
T2 0.6668007 0.0512416
T3 0.2935421 0.0155859
T4 0.3000840 0.0124073
n=20
resumen = funct_estimador(n)

funct_table(resumen)
Promedio y Varianza para cada estimador
Promedio Varianza
T1 0.2620049 0.0155035
T2 0.5090309 0.0566404
T3 0.2585922 0.0116460
T4 0.3158682 0.0179033
n=50
resumen = funct_estimador(n)

funct_table(resumen)
Promedio y Varianza para cada estimador
Promedio Varianza
T1 0.2433329 0.0117149
T2 0.4944762 0.0536304
T3 0.2365449 0.0088259
T4 0.2636562 0.0120819
n=100
resumen = funct_estimador(n)

funct_table(resumen)
Promedio y Varianza para cada estimador
Promedio Varianza
T1 0.2890487 0.0218108
T2 0.5842119 0.0938629
T3 0.2779577 0.0182059
T4 0.3227050 0.0308937
n=1000
resumen = funct_estimador(n)

funct_table(resumen)
Promedio y Varianza para cada estimador
Promedio Varianza
T1 0.2507652 0.0153835
T2 0.5029977 0.0686875
T3 0.2538358 0.0149875
T4 0.2977437 0.0255100

Conclusión

Para \(n=4\) los cuatro estimadores presentan sesgo e ineficiencia. Se podría resaltar que los estimadores \(T1\) y \(T3\) son los que menos varianza presentan. En el análisis con \(n=20\) los estimadores presentan menor varianza, y el promedio de \(T1\) y \(T3\) empieza a acercarse al valor \(\frac{1}{\lambda}=0.25\). Con \(n=50\) la varianza de los cuatro estimadores disminuye. \(T2\) continúa siendo muy sesgado y el promedio de \(T4\) empieza a acercarse al valor a estimar \(\frac{1}{\lambda}=0.25\). En los resultados de \(n=100\) y \(n=1000\) la varianza de \(T1\) y \(T3\) es la menor, mientras que \(T2\) continúa con una varianza grande. Tanto \(T1\) como \(T3\) se acercan cada vez más a \(\frac{1}{\lambda}=0.25\), indicando que son estimadores insesgados y eficientes. De \(T2\) podemos decir que es un estimador sesgado, ineficiente y no consistente. Finalmente se observa que \(T4\) podría tener cierto grado de consistencia ya que al aumentar el tamaño de muestras \(n\) la media se acerca al valor real disminuyendo el sesgo.