Comparamos tres métodos para estimar la tasa de paro por grupo de edad a nivel provincial: Estimaciones directas, regresión logística clásica y regresión logística multinivel.
Mediante un procedimiento similar a la validación cruzada, evaluamos la precisión de cada uno de los métodos utilizando la encuesta de población activa (EPA) del INE correspondiente al 2º trimestre de 2014. Con elevados tamaños muestrales, los tres métodos tienen una precisión similar, mientras que con tamaños muestrales menores, la regresión logística multinivel es claramente superior, superioridad que es aún mayor en las provincias que cuentan con un menor número de encuestados.
Palabras clave: Tasa de paro, multinivel, tamaño muestral, regresión logística.
Tradicionalmente el uso de modelos mixtos o multinivel en sociología se ha circunscrito al análisis de datos de panel o longitudinales, con breves incursiones en la sociología de la educación.
El uso de estos modelos se justificaba por el imcumplimiento de las asunciones de independencia e idéntica distribución de probabilidad de los datos a analizar. No obstante, una faceta menos conocida de los modelos mixtos es su superioridad para obtener estimaciones de la variable a analizar en cada nivel de las variables categóricas incluidas,obteniendo estimaciones más precisas y con menor varianza que los modelos y estimaciones tradicionales. Esta ventaja es más importante si cabe, en encuestas con poco tamaño muestral, ya sea debido al diseño de la encuesta, o a restricciones presupuestarias. Este último aspecto hace que este tipo de modelos resulten adecuados en el contexto actual de escasez de recursos en los diferentes centros de investigación.
En este trabajo se demuestra de forma empírica la superioridad de estos métodos. Para eso se ha utilizado la encuesta de población activa EPA , calculándose las estimaciones de las tasas de paro a nivel provincial y para un grupo de edad concreto, mediante diversos métodos en submuestras de la EPA de menor tamaño, tomando como valor a comparar el obtenido mediante estimación directa sobre la mitad de los datos de la encuesta.
Los datos que se han utilizado corresponden a la encuesta de población activa (EPA) en España y más concretamente la del 2º trimestre de 2014. En la EPA se entrevistan a alrededor de 170.000 personas. La estimación de la tasa de paro se realiza teniendo en cuenta a las personas mayores de 16 años y que se encuentren en situación activa ( alrededor de unos 78.600 entrevistados).
Como software de análisis y elaboración de gráficos se ha utilizado el entorno R (R Core Team 2014) y más concretamente la función glm para el ajuste de la regresión logística clásica, la librería lme4 (Bates et al. 2014) para el ajuste del modelo multinivel y la librería ggplot2 (Wickham 2009) para la realización de los gráficos.
Se define la tasa de paro en una provincia j y en un grupo de edad l como:
tasa.parojl=paradosjlocupadosjl+paradosjl
Se suele estimar utilizando la EPA sin más que calcular la fracción de parados en la muestra respecto al total de activos en cada combinación de provincias y grupo de edad.
Puesto que para cada encuestado en situación activa se tiene una variable dicotómica que indica si se encuentra en situación de desempleo o no, se puede considerar un modelo de regresión logística dónde las variables independientes sean la provincia y el grupo de edad.
La expresión del modelo sería:
P[yi=parado]=logit−1(β0+αprov2+…+αprov52+αgedad2+αgedad3)
con logit−1(x)=ex1+ex.
La variable provincia tiene 52 posibles categorías, mientras que la variable gedad tiene 3 categorías (de 16 a 34 años, 35 a 54 y más de 54). En un modelo de regresión logística clásico hay que introducir por cada variable categórica tantas variables indicadoras como categorías tiene la variable menos una. En este caso hay que introducir 51 variables indicadoras de provincia y 2 del grupo de edad. El término β0 corresponde a las categorías de referencia, es decir, al grupo de 16-34 años en la provincia tomada como referencia, en este caso Álava. Así, en este modelo se estiman un total de 54 parámetros.
Una alternativa a la regresión logística clásica es la regresión logística multinivel (Goldstein 2003), dónde se considera que los efectos de cada variable provienen de una distribución de probabilidad. En este tipo de modelos se estiman las varianzas de dichas distribuciones y una vez estimadas se derivan los “parámetros” de cada categoría mediante lo que se conoce como BLUP (Best Linear Unbiased Predictions) (Robinson 1991)
Desde esta perspectiva, el modelo quedaría como sigue
P[yi=parado]=logit−1(β0+αprovj+αgedadl)
y
αprovj∼N(0,σ2prov)j=1…52αgedadl∼N(0,σ2gedad)l=1…3
Dónde provincia y gedad se modelan como efectos aleatorios. Este modelo sólo estima 3 parámetros, β0 y las dos varianzas, frente a los 54 parámetros del modelo de regresión logística clásico.
Para la estimación de los αprovj el estimador BLUP es de la forma:
ˆαprovj≈(njσ2yˉyj+1σ2provˉytotalnjσ2y+1σ2prov)
Y la proporción estimada de paro para una provincia j sería
^yj=logit−1(ˆαprovj)
dónde nj es el tamaño muestral en cada provincia, σ2prov es la varianza estimada por el modelo y σ2y es la varianza residual del modelo.
En las provincias con poco tamaño muestral, la estimación se parece más a la global en el conjunto del país, mientras que en las provincias con mayor tamaño muestral, la estimación es similar a la estimación directa en esa provincia. Si la varianza estimada σ2prov es elevada, la estimación en cada provincia es más parecida a la directa, mientras que si la varianza es menor (mayor semejanza entre provincias) las diferencias entre las estimaciones provinciales es menor. La expresión del estimador BLUP varía según la complejidad del modelo, pero sigue siendo en esencia una media ponderada.
Para evaluar los diferentes métodos de estimación según muestras de distinto tamaño procedemos de forma similar a como se realiza la validación cruzada (Lax and Phillips 2009). Primero, seleccionamos aleatoriamente la mitad de la muestra para definir un línea base o “verdadero” valor de la tasa de paro. En estos datos, estimamos la tasa de paro de forma directa y trataremos esa estimación como el objetivo a predecir por los diferentes métodos.
A continuación utilizamos submuestras de diferente tamaño extraídas de los datos que no se han utilizado para el cálculo de la estimación de referencia. En cada una de las submuestras calculamos la tasa de paro provincial para el grupo de edad de 16 a 34 años, mediante los tres métodos: estimación directa, regresión logística y regresión logística multinivel.
Evaluamos las estimaciones comparándolas con las obtenidas en la muestra de referencia y calculamos su error absoluto (footnote: se podría haber elegido cualquier otra medida de discrepancia). Este procedimiento lo repetimos 500 veces (seleccionando en cada iteración una muestra de referencia y unas submuestras distintas) para cada una de las 6 submuestras de diferente tamaño, teniendo un total de 3.000 simulaciones. Los tamaños de muestra aproximados son de 39.400 para la muestra de referencia, 800 para la muestra del 1%, 2.000 para la muestra del 2,5%, 4.000 para la muestra del 5%, 8.000 para la del 10%, 19.700 para la del 25% y de 39.400 para el 50% (todos los datos que no están en la muestra de referencia). Así, para cada método en cada submuestra y cada provincia, se obtienen 500 errores absolutos con respecto a 500 muestras de referencia distintas. El mejor método será aquel que tenga menores errores absolutos medios en las respectivas submuestras.
La elección del método de estimación directa como referencia introduce un sesgo a favor de este método y en contra de los métodos mediante regresión logística. Así, cualquier evidencia potencial a favor de estos métodos podría ser de hecho aún mayor.
En este apartado explicamos con mayor detalle como se ha realizado la comparación entre los diferentes métodos.
En cada iteración q se tiene:
ybaseq,j como la proporción de parados con edades entre 16 y 34 años en una provincia j en la muestra de referencia (39.400 encuestados), calculada mediante estimación directa
ydirectaq,j la proporción de parados con edades entre 16 y 34 años en una provincia j en la submuestra considerada por el método de estimación directa
yrlq,j la proporción de parados con edades entre 16 y 34 años en una provincia j en la submuestra considerada, estimada por regresión logística clásica.
yrlmq,j la proporción de parados con edades entre 16 y 34 años en una provincia j en la submuestra considerada, estimada por regresión logística multinivel.
Para cada una de las 5 muestras de diferente tamaño, procedemos de la siguiente forma. Calculamos el error cometido por cada método en cada simulación y en cada provincia mediante la diferencia en valor absoluto entre lo estimado y el valor de referencia.
edirectaq,j=∣ydirectaq,j−ybaseq,j∣ erlq,j=∣yrlq,j−ybaseq,j∣ erlmq,j=∣yrlmq,j−ybaseq,j∣
Obtenemos 3 matrices de errores absolutos de tamaño 500 x 52 provincias cada una. Para cada provincia j calculamos la media de los error absolutos.
¯ejdirecta=∑qedirectaq,j500 ¯ejrl=∑qerlq,j500 ¯ejrlm=∑qerlmq,j500
En la figura 1 vemos los resultados para las 5 submuestras, representando el error medio para cada provincia frente a su tamaño muestral en la EPA. Los puntos negros, naranjas y azules se corresponden con los errores mediante estimación directa, regresión logística y regresión logística multinivel, respectivamente.
Pie de la figura: Cada panel muestra el resultado para una muestra distinta. Se muestra la media de los errores absolutos frente al tamaño muestral de la provincia en la EPA. Se ha añadido un ajuste mediante regresión local polinomial que muestra la relación entre el tamaño muestral de la provincia y la media de los errores absolutos para cada uno de los métodos.
La figura 1 muestra varios patrones. Dentro de cada gráfico, los errores son más pequeños para las provincias con mayor tamaño muestral, tal y como se esperaba. Sin embargo, la variación de los errores es mayor para el método de estimación directa y mediante regresión logística clásica. En segundo lugar se observa, que las estimaciones mediante regresión logística multinivel son mejores, en media, que mediante los otros métodos. Las diferencias entre los tres métodos son menores conforme aumenta el tamaño muestral, siendo prácticamente inexistentes a partir de una muestra del 25%. En muestras con menos de 4.000 datos, la regresión multinivel es claramente superior a los otros dos métodos, especialmente en las provincias con menor tamaño muestral.
En las muestras más pequeñas, los errores absolutos medios mediante estimación directa y por regresión logística clásica son muy elevados, llegando a alcanzar cifras de 20 puntos. Esto implica que si el valor de la tasa de paro en una de esas provincias (calculado en la muestra de referencia) es de un 20%, las estimaciones directas en muestras de tamaño inferior a 8.000 se desvían 20 puntos en media, con lo que la tasa de paro estimada podría ir desde 0% hasta el 40%, lo cual hace que las estimaciones por estos métodos sean inútiles. Sin embargo, se observa que los errores cometidos al estimar mediante regresión multinivel son muy similares en las distintas muestras, lo que nos da una idea de la estabilidad de las estimaciones obtenidas incluso en las muestras más pequeñas.
A continuación, construimos una medida para evaluar globalmente los tres métodos. Para eso, calculamos la media de los errores absolutos por simulación y por provincia.
ˉedirecta=∑q,jedirectaq,j500⋅52
ˉerl=∑q,jerlq,j500⋅52 ˉerlm=∑q,jerlmq,j500⋅52
Pie de la figura: Se representa el error absoluto medio de cada método según las muestras de diferente tamaño. En la figura 2 representamos estas medias frente al tipo de muestra. Tal y como veíamos anteriormente, los errores absolutos medios obtenidos por la regresión logística multinivel son menores que los de los otros dos métodos, independientemente del tamaño muestral. Destacamos que con un tamaño muestral del 2,5% (2000 encuestados) la regresión multinivel obtiene un nivel de precisión muy similar al obtenido por estimación directa con una muestra del 25% (19.700 datos).
A la vista de los resultados obtenidos, de otros estudios similares (Lax and Phillips 2009) y de pruebas realizadas en encuestas del INE y del CIS, podemos reseñar tres conclusiones.
En primer lugar, si estamos analizando encuestas con poco tamaño muestral, el modelo multinivel es claramente superior a los modelos y estimaciones tradicionales. Segundo, en muestras con un gran tamaño muestral (a partir de 19.000 en nuestros resultados), los tres métodos podrían considerarse equivalentes. Por último, el modelo multinivel es mejor sea cual sea el tamaño muestral y es capaz de, con muestras pequeñas, obtener estimaciones precisas, mientras que los otros métodos necesitan un tamaño de muestra 10 veces superior para alcanzar la misma precisión. Dicho de otra forma, con una muestra de 2.000 o menos encuestados, los modelos multinivel son capaces de obtener unas buensas estimaciones que de otro modo requerirían un considerable tamaño muestral.
Un aspecto crucial en estos modelos es la selección de variables explicativas, ya que estas han de estar relacionadas con la variable dependiente y además presentar una estructura de correlación en las diferentes categorías. En el caso de la EPA podríamos incluir variables que podrían mejorar sutancialmente las estimaciones, tales como el nivel de estudios terminados.
Un campo dónde podría ser interesante aplicar esta metodología es en el terreno de las encuestas electorales, dónde es crucial obtener estimaciones de la intención de voto según circunscripciones y existen variables, que en principio, están altamente relacionadas con el voto: grupo de edad, nivel educativo, tipo de barrio de residencia o porcentaje de votos de cada partido en anteriores elecciones.
Como todas las técnicas, los modelos multinivel no están libres de críticas. Desde que requieren un mayor conocimiento estadístico hasta unos mayores requerimientos computacionales (algunos modelos pueden tardar horas en ajustarse). Una de las principales críticas al uso de esta técnica es la dificultad de incorporar las ponderaciones en el proceso. Esto se puede corregir de dos formas. Mediante el uso del remuestreo (bootstrap), repitiendo el proceso para muestras seleccionadas con reemplazamiento y con probabilidades de cada unidad acordes a su probabilidad de inclusión. O mediante postestratificación, tal y como describen (Gelman and Hill 2007) y (Lax and Phillips 2009) en lo que han denominado MRP (multilevel regression and poststratification). Este procedimiento permite obtener estimaciones aún más precisas, corrigiendo las obtenidas mediante multinivel por los totales poblacionales en cada subgrupo de las variables independientes.
Bates, Douglas, Martin Maechler, Benjamin M. Bolker, and Steven Walker. 2014. “Lme4: Linear Mixed-Effects Models Using Eigen and S4.” http://arxiv.org/abs/1406.5823.
Gelman, Andrew, and Jennifer Hill. 2007. Data Analysis Using Regression and Multilevel/hierarchical Models. Cambridge New York: Cambridge University Press.
Goldstein, Harvey. 2003. Multilevel Statistical Models. London: Arnold.
Lax, Jeffrey R, and Justin H Phillips. 2009. “How Should We Estimate Public Opinion in the States?” American Journal of Political Science 53 (1). Wiley Online Library: 107–21.
R Core Team. 2014. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. http://www.R-project.org/.
Robinson, G. K. 1991. “That BLUP Is a Good Thing: The Estimation of Random Effects.” Statistical Science 6 (1). Institute of Mathematical Statistics: 15–32. doi:10.1214/ss/1177011926.
Wickham, Hadley. 2009. Ggplot2: Elegant Graphics for Data Analysis. Springer New York. http://had.co.nz/ggplot2/book.