Uso de modelos para estimaciones en áreas pequeñas

José Luis Cañadas Reche

  • Estimar tasa de paro de las personas con 30-34 años y estudios universitarios en la provincia de Córdoba

    Ocupados Parados Inactivos
    de 20 A 24 años 7 9 16
    de 25 A 29 años 24 19 6
    de 30 A 34 años 40 6 3
    de 35 A 39 años 46 8 3
    de 40 A 44 años 32 5 3
    de 45 A 49 años 46 4 4
    de 50 A 54 años 34 2 3
    de 55 A 59 años 31 4 4
    de 60 A 64 años 8 0 9
    65 o más años 4 0 41

    Fuente: 1T 2013 EPA. INE

  • Estimación directa:

\[ \widehat{tasa.paro}_{j}=\frac{parados_{j}}{ocupados_{j}+parados_{j}} \]

  • Modelo glm

\[ P[y_{i}=1]= \text{logit}^{-1} (\mathbf{X}_i\beta) \]

  • Modelo mixto

\[ P[y_{i}=1]= \text{logit}^{-1} (\beta_0+\alpha^{prov}_{j[i]}+\alpha^{gedad}_{k[i]}+\alpha^{nivelest}_{l[i]}) \]

\[ \alpha^{prov}_j \backsim\mathcal{N}(0,\sigma^2_{prov}) \] \[ \alpha^{gedad}_k \backsim\mathcal{N}(0,\sigma^2_{gedad}) \] \[ \alpha^{nivelest}_l \backsim\mathcal{N}(0,\sigma^2_{nivelest}) \]

Estimaciones multinivel

El modelo estima varianzas, pero también estima medias en cada grupo realizando una estimación ponderada

\[ \widehat{\alpha}_{cord}\approx\dfrac{\frac{n_{cord}}{\sigma^2_y}\bar{y}_{cord}+\frac{1}{\sigma^2_{prov}}\bar{y}_{total}}{\frac{n_{cord}}{\sigma^2_y}+\frac{1}{\sigma^2_{prov}}} \]

Distintas estimaciones

provincia=Córdoba

estudios=Universitarios

En glm y glmer se utiliza toda la EPA

directas glm glmer global.esp global.and
de 20 A 24 años 56.25 43.25 43.00 46.88 60.98
de 25 A 29 años 44.19 30.16 29.95 31.31 41.07
de 30 A 34 años 13.04 21.97 21.81 19.15 26.78
de 35 A 39 años 14.81 18.14 18.01 13.94 18.24
de 40 A 44 años 13.51 16.67 16.54 11.52 13.32
de 45 A 49 años 8.00 15.04 14.93 8.97 9.57
de 50 A 54 años 5.56 13.64 13.52 7.61 10.26
de 55 A 59 años 11.43 12.67 12.56 5.76 8.45
de 60 A 64 años 0.00 10.60 10.52 5.97 7.14
65 o más años 0.00 1.84 2.01 1.61 0.00
  • El modelo glm y el glmer dan prácticamente los mismos resultados
  • En la EPA hay unos 170.000 encuestados en España y 28500 en Andalucía
  • ¿Qué método funciona mejor en muestras pequeñas?

Evaluación métodos

  • Objetivo:

    • Estimar la tasa de paro de población 16-34 años por provincias
    • En la EPA hay muestra suficiente para estimación directa
  • Modelo lineal generalizado

glm(aoi=="p" ~ prov + gedad,family=binomial)

  • Modelo lineal generalizado mixto

glmer(aoi=="p" ~ (1|prov) + (1|gedad), family=binomial)

¿Nos fiamos de las estimaciones en muestras pequeñas?

  • Muestra del 50% que será la muestra de referencia
  • Muestras del 0.5%, 1%, 5%, 10%, 25% y 50%
  • Estimación directa en muestra de referencia
  • En cada muestra restante : estimación directa, glm, glmer
  • Error absoluto respecto a muestra de referencia
  • Repetimos 500 veces el proceso anterior y obtenemos la media y desviación típica de los errores absolutos

Glmer vs directas

plot of chunk unnamed-chunk-2

Glmer vs glm

plot of chunk unnamed-chunk-3

Desviación típica de los errores absolutos

plot of chunk unnamed-chunk-4