Resultados
3 Modelos fueron ocupados: xgboost, regresión logista y k-nearest neighbors (knn).
El modelo xgboost tuvo la mejor performance con un roc auc de 0.8918.
La variable de más importancia para predecir si un hogar se encuentra en situación de pobreza es el precio del arriendo en el barrio en que viven las familias.
Las variables relacionadas al trabajo son cruciales. En específico el número de personas ocupadas e inactivas del hogar.
Ciertas características del jefe del hogar como: la edad, años de escolaridad, si trabajan en el sector formal o informal y el estado de salud en los últimos 12 meses son trascendentales.
La condición de tenencia de la vivienda es importante, en específico, si las personas, son propietarios, arriendan o si ocupan la casa de manera irregular.
La composición del hogar es fundamental: El número de personas que viven en la vivienda y la presencia de mayores de 60 años o menores de edad.
Introducción

Muchas veces es difícil saber el ingreso real que las personas tienen cuando se realizan encuestas, más aún cuando existen circunstancias complejas como la crisis sanitaria vivida en 2020. Sin buenos datos sobre ingreso es muy difícil intentar saber cuál es el nivel de pobreza real que existe en una unidad territorial. Por esto recurrí a la encuesta CASEN 2020. La Encuesta de Caracterización Socioeconómica Nacional, CASEN, es realizada por el Ministerio de Desarrollo Social de Chile. Uno de sus objetivos es tener información que permita conocer periódicamente la situación de los hogares y de la población, especialmente de aquella en situación de pobreza y de aquellos grupos definidos como prioritarios por la política social. Es importante mencionar que la línea de pobreza varia dependiendo del número de personas que componen un hogar. Si los ingresos de una familia están por debajo de este valor se considera que una familia es pobre. Aquí una tabla con los valores de la línea de pobreza de acuerdo con el número de miembros del hogar.
| Number Of People by Household |
Poverty Line (US Dollars) |
| 1 |
218 |
| 2 |
355 |
| 3 |
475 |
| 4 |
578 |
| 5 |
675 |
| 6 |
767 |
| 7 |
855 |
| 8 |
939 |
| 9 |
1020 |
| 10 |
1097 |
Mi objetivo es intentar predecir, a través de modelos de clasificación, cuando una familia está en situación de pobreza sin mirar a datos de ingreso. Con tal meta elimine de la base de datos todas las preguntas relacionadas a ingreso e intente, con el resto de las variables (salud, vivienda, trabajo, educación, etc.), predecir a través de varios métodos (xgboost, regresión logista, knn) cuando una familia es pobre y cuando no lo es. El objetivo es intentar, en circunstancias en las que tener datos de ingreso sea complejo, establecer que variables son importantes para predecir la situación de pobreza de un hogar.
Descripción de los datos
La encuesta CASEN tiene 7 temáticas. La primera se llama “registro de residentes” este módulo registra información para la identificación de las personas, como, por ejemplo: sexo, edad, estado civil, etc. La segunda es sobre educación, aquí se incluye un conjunto de preguntas que permite estimar indicadores como los niveles de escolaridad de la población y la incidencia de la población no incorporada al sistema educativo. Un tercer tópico tiene que ver con el trabajo, este consta de preguntas que permiten: estimar indicadores sobre la situación ocupacional de la población (tasa de participación, tasa de desocupación, tasa de ocupación) y caracterizar la situación laboral de la fuerza de trabajo ocupada: sector económico en el que trabajan, que tipo de contrato laboral tienen, tipo de ocupación, etc.
El cuarto trata sobre ingresos, incluye preguntas que permiten recoger información sobre las diferentes corrientes de ingreso que reciben las personas y los hogares. El quinto trata sobre salud, consta de un conjunto de preguntas que permite estimar indicadores tales como la cobertura de los sistemas previsionales de salud; el acceso efectivo a servicios y atenciones de salud y el estado de salud de los encuestados. El sexto es sobre identidades, incluye preguntas que permiten estimar indicadores como pertenencia a pueblos originarios o indígenas y migración internacional. Además, incorpora un conjunto de preguntas para medir inseguridad alimentaria, de acuerdo con la escala internacional recomendada por la FAO.
El último tópico tiene que ver con vivienda, se compone de preguntas que permiten estimar indicadores sobre algunas de las características básicas de las viviendas en el país, como su tipo, tenencia y el precio de arriendo de viviendas similares en el entorno, así como las condiciones de habitabilidad de sus hogares, tales como: saneamiento de la vivienda, allegamiento y hacinamiento. La lista completa de las variables puede ser revisada aquí
Tratamiento de las variables
En primer lugar, fueron eliminadas todas las variables de ingreso y aquellas variables categóricas que poseían más de 30 niveles. Luego se filtraron solo las observaciones que pertenecían a jefes del hogar (para poder tener una variable por hogar y porque la base de datos, al ser tan grande, provocaba que entrenar los datos tomara mucho tiempo). Para las variables categóricas con NA’s se creó una categoría unknown. Además, se transformaron todas las variables categóricas en variables dummies. Se imputo las observaciones NA’s de las variables numéricas ocupando la mediana. Además, estas variables fueron transformadas a logaritmo y luego normalizadas.
Análisis Exploratorio

Lo primero que hice fue revisar variables demográficas de los jefes de hogar con el fin de detectar alguna relación con la pobreza. Si uno observa el grafico es claro que existen ciertos grupos en los que pareciera que la pobreza fuera algo más recurrente. Hogares donde el jefe de hogar es joven, inmigrante, indígena o mujer suelen ser más pobres que sus contrapartes. Además, los hogares en sectores rurales tienen una mayor proporción de pobreza que aquellos hogares de sectores urbanos. Algo que llama la atención es que más del 20% de los hogares en donde el jefe de hogar es inmigrante están en situación de pobreza. Los datos fueron recolectados durante la pandemia y hay que tener presente que mucha de la ayuda que el Estadio entrego a las familias para aliviar el peso de la pandemia no fue recibida por los inmigrantes, por lo tanto, no es posible saber si bajo condiciones normales este grupo también es en el que hay una mayor proporción de hogares pobres.
Pareciera que mientras más joven sea el jefe del hogar existe una mayor proporción de personas pobres. Es un poco difícil encontrar una razón clara, puede ser la pandemia afectó de mayor manera el empleo joven. En nuestra base hay muy pocas variables numéricas, vamos a explorar algunas ellas a continuación.

Es posible constatar claras diferencias en 3 de las 4 variables de graficamos. Pareciera que la edad (como vimos anteriormente) y los años de escolaridad del jefe hogar; junto con el número de personas que trabajan en un hogar tienen un efecto sobre la pobreza. No se puede afirmar lo mismo del número de personas que viven en un hogar.
Miremos ahora otras variables que pueden ser interesantes.
Cuando miramos a la pobreza según el tipo de tenencia del hogar es evidente que las personas que están arrendando y las que ocupan ilegalmente un hogar suelen tener una mayor proporción de pobres. En el caso de los que arrienda una porción de sus ingresos se tiene que ir a pagar el arriendo y, por lo tanto, no puede ser gastada en bienes de primera necesidad. En el caso de las personas que ocupan ilegalmente una propiedad la situación es la misma, incluso probablemente están en una situación económica más apremiante que las personas que arriendan.
Otra variable importante es el tratamiento médico, en particular cuando el jefe de hogar responde que no saben o no recuerdan si es que recibió tratamiento médico durante los últimos 12 meses. Es probable que las personas que sufran algún tipo de enfermedad con un alto estigma social prefieran dar este tipo de respuesta. La otra alternativa es que el responder que no saben o no recuerdan sea, en sí mismo, una señal de alguna condición de salud que afecta de alguna manera la capacidad de recibir ingresos de una persona.
Otra variable interesante es el precio del arriendo que se paga en el barrio en el que viven las familias. Este valor se consigue preguntándole a las personas directamente: ¿Cuánto se paga de arriendo en este sector? A continuación, un gráfico con las distribuciones para las personas pobres y no pobres. Es evidente que las personas no pobres viven en barrios en donde el arriendo es más caro que los barrios en donde viven las familias pobres.
Resultados
Probamos distintos modelos ocupando xgboost, regresión logista y k-nearest neighbors (knn). El que tuvo la mejor performance fue el xgboost con un roc auc de 0.8918. Este modelo fue validado con esquema k-fold cross validation, con k=5. Ocupamos 1000 árboles como default. Los hiperparámetros que nos entregaron los mejores resultados fueron los siguientes:
| mtry |
min_n |
tree_depth |
learn_rate |
loss_reduction |
sample_size |
| 67 |
14 |
6 |
0.0140818 |
1.906337e-10 |
0.6928669 |
Estas son las variables más importantes de este modelo

En rasgos generales, hay un grupo de variables que tienen que ver con la tenencia del hogar, es decir si es que la casa que se habita es propia, se arrienda u otros. En este grupo están las variables V13 y ten_viv. Un segundo grupo tiene relación con el aspecto laboral del hogar, ejemplo de esto son las variables n_ocupados y n_inactivos. Es importante mencionar que los inactivos no son las personas desempleadas. Los inactivos son las personas de 15 o más años, que no estaban ocupadas durante la semana que se hizo la encuesta pero que tampoco habían buscado un puesto de trabajo durante las últimas cuatro semanas a la encuesta. En este grupo pueden caer estudiantes o personas que tengan algún problema de salud. Otra variable relacionada al ámbito laboral es ocup_inf, que especifica si es que el jefe del hogar está trabajando de manera informal o formal.
Un tercer grupo está vinculado a características del jefe del hogar, aquí tenemos los años de escolaridad, representados por esc2 y esc, la edad, edad y si recibió tratamiento médico en los últimos 12 meses s28. Un cuarto grupo de variables tienen relación con la composición del hogar: la presencia de menores de edad men18c, de personas mayores de 60 años may60c y el número de personas que habita el hogar: numviv, tot_per, numper y p6. Por último, sin estar claramente relacionada a los grupos anteriores, pareciera ser que la variable más importante es la v19, este corresponde al valor que las personas reportan cuando se les pregunta: ¿Cuánto se paga de arriendo en este sector?
Conclusiones
Primero que todo, es importante entender que estos datos fueron recolectados durante la pandemia, por lo cual las conclusiones que alcanzamos aquí quizás no son válidas en condiciones “normales”. Habiendo despejado esto, creo que hay que señalar que nos parece sorprendente que contrario a lo que creíamos en un principio muchas de las variables demográficas, como raza o género, no eran tan importantes como pensábamos.
Es posible pensar que la política pública puede jugar un rol importante en la reducción de la pobreza. Elementos como salud, educación y vivienda tienen un fuerte poder predictivo sobre la pobreza. Si es que se fortalecen políticas públicas que ayuden a facilitar el acceso a estos 3 elementos creo que existe la posibilidad de reducir aún más la pobreza.
Este proyecto fue sumamente complejo de realizar, en gran parte debido a lo grande que era la base de datos, lo cual provoco que afinar los datos fuera un proceso muy costoso computacionalmente, es decir, tomaba mucho tiempo afinar los hiperparámetros de los modelos, lo que hizo el flujo de trabajo muy complejo. Por lo tanto, pienso que hay muchísimo espacio para mejorar los modelos si es que se tiene acceso a servidores que nos permitan agilizar el proceso. Por último, me gustaría volver a señalar que hay que ser muy cuidadosos con hacer generalizaciones con los resultados de este proyecto, dado que los datos fueron recolectados en medio de una situación tan inusual como fue la crisis sanitaria de 2020.
