Resumen

Comparamos tres métodos para estimar la tasa de paro por grupo de edad a nivel provincial: Estimaciones directas, regresión logística clásica y regresión logística multinivel.

Mediante un procedimiento similar a la validación cruzada, evaluamos la precisión de cada uno de los métodos utilizando la encuesta de población activa (EPA) del INE correspondiente al 2º trimestre de 2014. Con elevados tamaños muestrales, los tres métodos tienen una precisión similar, mientras que con tamaños muestrales menores, la regresión logística multinivel es claramente superior, superioridad que es aún mayor en las provincias que cuentan con un menor número de encuestados.

Palabras clave: Tasa de paro, multinivel, tamaño muestral, regresión logística.

Introducción

Tradicionalmente el uso de modelos mixtos o multinivel en sociología se ha circunscrito al análisis de datos de panel o longitudinales, con breves incursiones en la sociología de la educación.

El uso de estos modelos se justificaba por el imcumplimiento de las asunciones de independencia e idéntica distribución de probabilidad de los datos a analizar. No obstante, una faceta menos conocida de los modelos mixtos es su superioridad para obtener estimaciones de la variable a analizar en cada nivel de las variables categóricas incluidas,obteniendo estimaciones más precisas y con menor varianza que los modelos y estimaciones tradicionales. Esta ventaja es más importante si cabe, en encuestas con poco tamaño muestral, ya sea debido al diseño de la encuesta, o a restricciones presupuestarias. Este último aspecto hace que este tipo de modelos resulten adecuados en el contexto actual de escasez de recursos en los diferentes centros de investigación.

En este trabajo se demuestra de forma empírica la superioridad de estos métodos. Para eso se ha utilizado la encuesta de población activa EPA , calculándose las estimaciones de las tasas de paro a nivel provincial y para un grupo de edad concreto, mediante diversos métodos en submuestras de la EPA de menor tamaño, tomando como valor a comparar el obtenido mediante estimación directa sobre la mitad de los datos de la encuesta.

Material y métodos

Datos y software

Los datos que se han utilizado corresponden a la encuesta de población activa (EPA) en España y más concretamente la del 2º trimestre de 2014. En la EPA se entrevistan a alrededor de 170.000 personas. La estimación de la tasa de paro se realiza teniendo en cuenta a las personas mayores de 16 años y que se encuentren en situación activa ( alrededor de unos 78.600 entrevistados).

Como software de análisis y elaboración de gráficos se ha utilizado el entorno R (R Core Team 2014) y más concretamente la función glm para el ajuste de la regresión logística clásica, la librería lme4 (Bates et al. 2014) para el ajuste del modelo multinivel y la librería ggplot2 (Wickham 2009) para la realización de los gráficos.

Estimaciones de la tasa de paro

Se define la tasa de paro en una provincia j y en un grupo de edad l como:

\[ tasa.paro_{jl}=\frac{parados_{jl}}{ocupados_{jl}+parados_{jl}} \]

Se suele estimar utilizando la EPA sin más que calcular la fracción de parados en la muestra respecto al total de activos en cada combinación de provincias y grupo de edad.

Puesto que para cada encuestado en situación activa se tiene una variable dicotómica que indica si se encuentra en situación de desempleo o no, se puede considerar un modelo de regresión logística dónde las variables independientes sean la provincia y el grupo de edad.

La expresión del modelo sería:

\[ P[y_{i}= parado]=\text{logit}^{-1} \left(\beta_{0}+\alpha_{2}^{prov} + \ldots + \alpha_{52}^{prov}+ \alpha_{2}^{gedad}+\alpha_{3}^{gedad}\right) \]

con \(\text{logit}^{-1}(x) = \dfrac{e^x}{1+e^x}\).

La variable provincia tiene 52 posibles categorías, mientras que la variable gedad tiene 3 categorías (de 16 a 34 años, 35 a 54 y más de 54). En un modelo de regresión logística clásico hay que introducir por cada variable categórica tantas variables indicadoras como categorías tiene la variable menos una. En este caso hay que introducir 51 variables indicadoras de provincia y 2 del grupo de edad. El término \(\beta_{0}\) corresponde a las categorías de referencia, es decir, al grupo de 16-34 años en la provincia tomada como referencia, en este caso Álava. Así, en este modelo se estiman un total de 54 parámetros.

Una alternativa a la regresión logística clásica es la regresión logística multinivel (Goldstein 2003), dónde se considera que los efectos de cada variable provienen de una distribución de probabilidad. En este tipo de modelos se estiman las varianzas de dichas distribuciones y una vez estimadas se derivan los “parámetros” de cada categoría mediante lo que se conoce como BLUP (Best Linear Unbiased Predictions) (Robinson 1991)

Desde esta perspectiva, el modelo quedaría como sigue

\[ P[y_{i}= parado]=\text{logit}^{-1} \left(\beta_{0} + \alpha_{j}^{prov} + \alpha_{l}^{gedad} \right) \]

y

\[ \begin{eqnarray*} \alpha_{j}^{prov}\sim & \mathcal{N}(0,\sigma_{prov}^{2})\;j=1\ldots 52\\ \alpha_{l}^{gedad}\sim & \mathcal{N}(0,\sigma_{gedad}^{2})\;l=1\ldots 3\\ \end{eqnarray*} \]

Dónde provincia y gedad se modelan como efectos aleatorios. Este modelo sólo estima 3 parámetros, \(\beta_{0}\) y las dos varianzas, frente a los 54 parámetros del modelo de regresión logística clásico.

Para la estimación de los \(\alpha_{j}^{prov}\) el estimador BLUP es de la forma:

\[ \widehat{\alpha}_{j}^{prov}\approx\left(\dfrac{\frac{n_{j}}{\sigma_{y}^{2}}\bar{y}_{j}+\frac{1}{\sigma_{prov}^{2}}\bar{y}_{total}}{\frac{n_{j}}{\sigma_{y}^{2}}+\frac{1}{\sigma_{prov}^{2}}}\right) \]

Y la proporción estimada de paro para una provincia j sería

\[ \widehat{y_{j}}=\text{logit}^{-1}\left(\widehat{\alpha}_{j}^{prov}\right) \]

dónde \(n_j\) es el tamaño muestral en cada provincia, \(\sigma_{prov}^2\) es la varianza estimada por el modelo y \(\sigma_{y}^{2}\) es la varianza residual del modelo.

En las provincias con poco tamaño muestral, la estimación se parece más a la global en el conjunto del país, mientras que en las provincias con mayor tamaño muestral, la estimación es similar a la estimación directa en esa provincia. Si la varianza estimada \(\sigma_{prov}^2\) es elevada, la estimación en cada provincia es más parecida a la directa, mientras que si la varianza es menor (mayor semejanza entre provincias) las diferencias entre las estimaciones provinciales es menor. La expresión del estimador BLUP varía según la complejidad del modelo, pero sigue siendo en esencia una media ponderada.

Evaluación de las estimaciones

Para evaluar los diferentes métodos de estimación según muestras de distinto tamaño procedemos de forma similar a como se realiza la validación cruzada (Lax and Phillips 2009). Primero, seleccionamos aleatoriamente la mitad de la muestra para definir un línea base o “verdadero” valor de la tasa de paro. En estos datos, estimamos la tasa de paro de forma directa y trataremos esa estimación como el objetivo a predecir por los diferentes métodos.

A continuación utilizamos submuestras de diferente tamaño extraídas de los datos que no se han utilizado para el cálculo de la estimación de referencia. En cada una de las submuestras calculamos la tasa de paro provincial para el grupo de edad de 16 a 34 años, mediante los tres métodos: estimación directa, regresión logística y regresión logística multinivel.

Evaluamos las estimaciones comparándolas con las obtenidas en la muestra de referencia y calculamos su error absoluto (footnote: se podría haber elegido cualquier otra medida de discrepancia). Este procedimiento lo repetimos 500 veces (seleccionando en cada iteración una muestra de referencia y unas submuestras distintas) para cada una de las 6 submuestras de diferente tamaño, teniendo un total de 3.000 simulaciones. Los tamaños de muestra aproximados son de 39.400 para la muestra de referencia, 800 para la muestra del 1%, 2.000 para la muestra del 2,5%, 4.000 para la muestra del 5%, 8.000 para la del 10%, 19.700 para la del 25% y de 39.400 para el 50% (todos los datos que no están en la muestra de referencia). Así, para cada método en cada submuestra y cada provincia, se obtienen 500 errores absolutos con respecto a 500 muestras de referencia distintas. El mejor método será aquel que tenga menores errores absolutos medios en las respectivas submuestras.

La elección del método de estimación directa como referencia introduce un sesgo a favor de este método y en contra de los métodos mediante regresión logística. Así, cualquier evidencia potencial a favor de estos métodos podría ser de hecho aún mayor.

Resultados

En este apartado explicamos con mayor detalle como se ha realizado la comparación entre los diferentes métodos.

En cada iteración q se tiene:

Para cada una de las 5 muestras de diferente tamaño, procedemos de la siguiente forma. Calculamos el error cometido por cada método en cada simulación y en cada provincia mediante la diferencia en valor absoluto entre lo estimado y el valor de referencia.

\[ e_{q,j}^{directa} = \mid y_{q,j}^{directa} - y_{q,j}^{base} \mid \] \[ e_{q,j}^{rl} = \mid y_{q,j}^{rl} - y_{q,j}^{base} \mid \] \[ e_{q,j}^{rlm} = \mid y_{q,j}^{rlm} - y_{q,j}^{base} \mid \]

Obtenemos 3 matrices de errores absolutos de tamaño 500 x 52 provincias cada una. Para cada provincia j calculamos la media de los error absolutos.

\[ \bar{e_{j}}^{directa} = \dfrac{\sum_{q} e_{q,j}^{directa}}{500} \] \[ \bar{e_{j}}^{rl} = \dfrac{\sum_{q} e_{q,j}^{rl}}{500} \] \[ \bar{e_{j}}^{rlm} = \dfrac{\sum_{q} e_{q,j}^{rlm}}{500} \]

En la figura 1 vemos los resultados para las 5 submuestras, representando el error medio para cada provincia frente a su tamaño muestral en la EPA. Los puntos negros, naranjas y azules se corresponden con los errores mediante estimación directa, regresión logística y regresión logística multinivel, respectivamente.

Pie de la figura: Cada panel muestra el resultado para una muestra distinta. Se muestra la media de los errores absolutos frente al tamaño muestral de la provincia en la EPA. Se ha añadido un ajuste mediante regresión local polinomial que muestra la relación entre el tamaño muestral de la provincia y la media de los errores absolutos para cada uno de los métodos.

La figura 1 muestra varios patrones. Dentro de cada gráfico, los errores son más pequeños para las provincias con mayor tamaño muestral, tal y como se esperaba. Sin embargo, la variación de los errores es mayor para el método de estimación directa y mediante regresión logística clásica. En segundo lugar se observa, que las estimaciones mediante regresión logística multinivel son mejores, en media, que mediante los otros métodos. Las diferencias entre los tres métodos son menores conforme aumenta el tamaño muestral, siendo prácticamente inexistentes a partir de una muestra del 25%. En muestras con menos de 4.000 datos, la regresión multinivel es claramente superior a los otros dos métodos, especialmente en las provincias con menor tamaño muestral.

En las muestras más pequeñas, los errores absolutos medios mediante estimación directa y por regresión logística clásica son muy elevados, llegando a alcanzar cifras de 20 puntos. Esto implica que si el valor de la tasa de paro en una de esas provincias (calculado en la muestra de referencia) es de un 20%, las estimaciones directas en muestras de tamaño inferior a 8.000 se desvían 20 puntos en media, con lo que la tasa de paro estimada podría ir desde 0% hasta el 40%, lo cual hace que las estimaciones por estos métodos sean inútiles. Sin embargo, se observa que los errores cometidos al estimar mediante regresión multinivel son muy similares en las distintas muestras, lo que nos da una idea de la estabilidad de las estimaciones obtenidas incluso en las muestras más pequeñas.

A continuación, construimos una medida para evaluar globalmente los tres métodos. Para eso, calculamos la media de los errores absolutos por simulación y por provincia.

\[ \bar{e}^{directa} = \dfrac{\sum_{q,j} e_{q,j}^{directa}}{500 \cdot 52} \]
\[ \bar{e}^{rl} = \dfrac{\sum_{q,j} e_{q,j}^{rl}}{500 \cdot 52} \] \[ \bar{e}^{rlm} = \dfrac{\sum_{q,j} e_{q,j}^{rlm}}{500 \cdot 52} \]