Dime con quién viviste y te diré lo que te espera

Una herramienta interactiva

Equipo 03

2020-12-02

Introducción

La creciente y persistente desigualdad en las sociedades y la aparente inhabilidad de los distintos modelos económicos tradicionales (capitalismo liberal al estilo estadounidense, capitalismo planificado al estilo chino, capitalismo intervencionista al estilo europeo o socialismo al estilo cubano) para disminuir dicha desigualdad, han impulsado un renovado interés en hacer investigación acerca de la movilidad (o inmovilidad) intergeneracional en distintos países. El enfoque parte de que existen condiciones fuera del control de cada uno de nosotros – como dónde nacemos, qué nivel educativo y qué ocupación tienen nuestros padres (por dar un par de ejemplos) – que influyen y en muchos casos incluso determinan el desempeño vital que tendremos. En ese sentido, nuestra habilidad de movernos de un decil o quintil de ingreso a otro no del todo depende sólo de nosotros.

Raj Chetty, connotado economista e investigador de la prestigiada universidad de Harvard, ha dedicado una parte importante de su vida académica a estudiar el fenómeno de movilidad intergeneracional estudiando por ejemplo si el famoso “sueño americano” sigue siendo una realidad1 Mira su artículo en The Atlantic. En este “sueño” uno puede superar cualquier deficiencia o carencia determinada por la familia y entorno socioeconómico en el que nacemos mediante, básicamente, el acceso a la educación y la dedicación al trabajo: una meritocracia en el sentido más amplio de la palabra. Tu desempeño no es otra cosa que el resultado directo de tu mérito propio. Pero, ¿es esto una realidad?

Chetty ha usado sus conocimientos de teoría económica de la mano de análisis estadístico aprovechando el auge del “big data” y ha encontrado clara evidencia que el sueño americano es precisamente eso: un sueño. El porcentaje de niños estadounidenses que logran un nivel de ingreso mayor al de sus padres ha venido disminuyendo inexorablemente, al grado que hoy en día, sólo el 50% de los niños de ese país logra un nivel de ingreso mayor que el de sus padres.

Si eso sucede en uno de los supuestos bastiones de la movilidad intergeneracional: ¿qué pasa en México? ¿Qué papel juegan las “circunstancias” de nacimiento en las oportunidades de lograr un “brincar” del decil de ingreso de nuestros padres a uno más alto?

No es sorpresa para nadie que México es un país con profundas desigualdades, y si esas desigualdades tienden a traducirse en menor movilidad intergeneracional no sólo se están perpetuando las desigualdades, también se está comprometiendo el crecimiento potencial de las personas. Los estudiosos de los temas de movilidad intergeneracional han encontrado evidencia que una movilidad baja puede ser tanto causa como consecuencia de una mayor desigualdad. Por el contrario, una mayor movilidad está normalmente asociada a patrones de desarrollo más incluyentes.

Datos en México

Para analizar este fenómeno de movilidad intergeneracional para México nuestros especialistas analizaron los datos de la Encuesta de Movilidad ESRU-EMOVI del Centro de Estudios Espinoza Yglesias (CEEY) de 20172 Te recomendamos echarle un ojo a los proyectos, publicaciones y datos que elabora el CEEY]. Esta encuesta entrevista a una muestra representativa de más de 17,000 personas entre 25 y 64 años de edad y recopila información sociodemográfica diversa del encuestado (por ejemplo edad, género, grado de escolaridad, características de su hogar actual, acceso a la salud, ocupación, etc) así como muchas de esas mismas variables para sus padres (escolaridad, ocupación, etc) y para el hogar en el que vivía cuando tenía 14 años (agua potable, pisos de cemento, etc). En la encuesta también se le pregunta al encuestado información que le permite a los especialistas aproximar el nivel de “riqueza” relativa del individuo hoy y cuando tenía 14 años (por ejemplo analizando qué aparatos electrodomésticos y electrónicos hay o había en el hogar, y qué servicios financieros tiene o tenía al alcance como tarjetas de crédito, cuentas bancarias, etc).

El objetivo de recabar toda esta información es poder evaluar en qué medida “origen es destino”, es decir comparar algunas variables dadas las circunstancias de la vida del encuestado a los 14 años (origen) con esas variables hoy (destino).

Como podemos observar, a los 14 años el 35% de los encuestados vivía en localidades con menos de 2,500 habitantes (pueblos), mientras que poco más del 25% vivía en ciudades de más de 100,000 habitantes. La escolaridad máxima del 28% de los entrevistados es la primaria, 31% tiene secundaria, poco más del 18% tienen preparatoria, mientras que el 11.5% posee educación superior y posgrado. Si vemos la escolaridad de los padres, en los niveles básicos observamos una distribución de años de escolaridad similar tanto para el padre como la madre: en ambos casos más del 60% sólo tiene primaria, aproximadamente el 15% tiene secundaria. En los niveles de licenciatura y posgrado, son más los padres que alcanzan dicho nivel (casi 6% para los padres contra 2.9% para las madres con este grado de escolaridad). En cuanto al número de hijos: sólo el 4.44% de las madres tienen 1 sólo hijo, casi 37% tiene entre 2 y 4 hijos y llama la atención que hay un 18.7% que reportan haber tenido más de 9 hijos (siendo el máximo reportado de 24 hijos).

Con toda la información considerada relevante desde el punto de vista de la teoría económica - que es el fuerte de nuestro equipo de especialistas - se construyeron algunos modelos econométricos (que para no aburrir al lector se encuentran disponibles en el anexo metodológico; y sí, son tan interesantes como su nombre lo indica). Estos modelos buscan (logran) predecir dadas ciertas características del individuo y de su origen qué probabilidad tendría de lograr un mejor destino que sus padres: es decir qué probabilidad tiene de lograr movilidad intergeneracional.

El modelo evaluado busca predecir cuál sería la probabilidad de estar en un cierto decil de ingreso hoy dadas ciertas características del individuo que incluyen su origen (para la muestra considerada los parámetros incluyen en este caso: edad, años promedio de escolaridad propia y años promedio de escolaridad de los padres, número de habitaciones contando la cocina que tenía su hogar a los 14 años). En la siguiente tabla pueden verse dichas predicciones de probabilidad.

Edad Número de cuartos Nivel educativo padre Nivel educativo madre región Último nivel de escolaridad mujer indígena pr1 pr2 pr3 pr4 pr5 pr6 pr7 pr8 pr9 pr10
30 2 4 2 5 9 0 1 0.325 0.250 0.164 0.105 0.075 0.048 0.020 0.009 0.003 0.000
25 6 2 3 1 0 0 0 0.278 0.243 0.171 0.117 0.087 0.059 0.027 0.013 0.004 0.000
31 1 2 2 5 0 1 1 0.858 0.099 0.028 0.010 0.004 0.001 0.000 0.000 0.000 0.000
37 3 2 2 2 12 0 0 0.009 0.033 0.059 0.082 0.120 0.167 0.158 0.167 0.142 0.064
27 3 5 2 4 18 1 0 0.001 0.005 0.014 0.026 0.051 0.098 0.128 0.192 0.256 0.230
47 5 3 2 4 12 1 1 0.002 0.009 0.022 0.038 0.068 0.121 0.145 0.197 0.231 0.169
34 6 2 2 3 16 1 0 0.004 0.019 0.038 0.059 0.095 0.149 0.158 0.188 0.186 0.105

Sin embargo, antes de avanzar con el blog y echarle un ojo a la herramienta que hemos construido, vale la pena saber en qué décil del ingreso te encuentras.

¿A qué decil pertenezco en México?

En 2018, el ingreso promedio por familia mexicana fue de 49 mil 610 pesos por trimestre, es decir, unos 16 mil 536 pesos al mes. Es una cifra menor a los 17 mil 249 pesos mensuales que ingresaron los hogares mexicanos en 2016, lo que representó una caída de 4.1%. Pero la disminución se dio solamente en los deciles de ingreso más altos.

El Inegi ofrece el dato de ingreso corriente promedio trimestral por deciles de hogares, y para facilitar el cálculo te lo mostramos de manera mensual3 Sin embargo, no te detenemos, si tienes curiosidad sobre este tipo de información, y otras cosas que hace el INEGI, te recomendamos consultar la ENIGH. Checa en qué nivel de ingresos está tu familia con la siguiente tabla.

Decil Ingreso mensual del hogar (pesos)
1 3,037
2 5,366
3 7,142
4 8,898
5 10,722
6 12,985
7 15,754
8 19,628
9 26,197
10 55,583

Como seguramente para estas alturas de este post, el lector muere de curiosidad por saber cuál podría ser su destino dado su origen, lo invitamos a utilizar nuestra herramienta interactiva para ello en este enlace.

NOTA IMPORTANTE: Es muy recomendable tener la tabla del modelo probit del anexo estadístico a la mano para saber el significado de las etiquetas. El decíl calculado se muestra en la sección izquierda de la aplicación como se muestra en la siguiente imágen

Anexo Estadístico

Modelo Probit

Recordemos un modelo probit intenta modelar la probabilidad condicional de que Y tome cierto valor dados los demás valores de X.

\[P(Y=J|X) = P( \alpha_J < X' \beta+ U_i)\] \[=P(\alpha_J-X' \beta+ < U_i)= 1-\phi(\alpha_J-X' \beta)\]

De esta manera, estimamos el modelo con base en las variables seleccionadas. A la izquierda se muestra un histograma de los errores del modelo (\(\hat{y}_i-y_i\)) y, abajo, se listan las variables que se usaron, los signos y sus etiquetas.

Variable Clave Etiqueta valor en la herramienta categorías Signo
1 p05 Edad . . POS
2 factor(p06)2 Sexo 2 mujer POS
3 factor(p09_1)2 Hospital al que asiste 2 ISSSTE o ISSSTE Estatal (ISSEMYM, ISSSTEZAC, etc.) NEG
3 factor(p09_1)3 Hospital al que asiste 3 Pemex, Defensa o Marina POS
3 factor(p09_1)4 Hospital al que asiste 4 Centro de salud u hospital de la SSA NEG
3 factor(p09_1)5 Hospital al que asiste 5 Seguro Popular POS
3 factor(p09_1)6 Hospital al que asiste 6 Otro servicio de salud público (DIF, INI, de los estados) POS
3 factor(p09_1)7 Hospital al que asiste 7 Consultorio, clínica u hospital privado POS
3 factor(p09_1)8 Hospital al que asiste 8 Consultorio de una farmacia NEG
3 factor(p09_1)9 Hospital al que asiste 9 Se automedica NEG
3 factor(p09_1)10 Hospital al que asiste 10 Otro lugar POS
3 factor(p09_1)11 Hospital al que asiste . No se atiende NEG
3 factor(p09_1)98 Hospital al que asiste . NS NEG
4 factor(p10_1)2 Asegurado 2 ISSSTE o ISSSTE estatal POS
4 factor(p10_1)3 Asegurado 3 Pemex, Defensa o Marina NEG
4 factor(p10_1)4 Asegurado 4 Seguro Popular o para una Nueva Generación NEG
4 factor(p10_1)5 Asegurado 5 IMSS Oportunidades NEG
4 factor(p10_1)6 Asegurado 6 Seguro Privado POS
4 factor(p10_1)7 Asegurado 7 Otra institución NEG
4 factor(p10_1)8 Asegurado 8 Entonces, ¿no tiene derecho a servicios médicos? NEG
4 factor(p10_1)98 Asegurado . NS NEG
5 estatura Estatura . . POS
6 p21 peso . . POS
7 factor(p23)2 Entidad federativa a los 14 2 Baja California POS
7 factor(p23)3 Entidad federativa a los 14 3 Baja California Sur NEG
7 factor(p23)4 Entidad federativa a los 14 4 Campeche POS
7 factor(p23)5 Entidad federativa a los 14 5 Coahuila de Zaragoza NEG
7 factor(p23)6 Entidad federativa a los 14 6 Colima POS
7 factor(p23)7 Entidad federativa a los 14 7 Chiapas NEG
7 factor(p23)8 Entidad federativa a los 14 8 Chihuahua POS
7 factor(p23)9 Entidad federativa a los 14 9 Ciudad de México NEG
7 factor(p23)10 Entidad federativa a los 14 10 Durango POS
7 factor(p23)11 Entidad federativa a los 14 11 Guanajuato POS
7 factor(p23)12 Entidad federativa a los 14 12 Guerrero NEG
7 factor(p23)13 Entidad federativa a los 14 13 Hidalgo NEG
7 factor(p23)14 Entidad federativa a los 14 14 Jalisco POS
7 factor(p23)15 Entidad federativa a los 14 15 México NEG
7 factor(p23)16 Entidad federativa a los 14 16 Michoacán de Ocampo POS
7 factor(p23)17 Entidad federativa a los 14 17 Morelos NEG
7 factor(p23)18 Entidad federativa a los 14 18 Nayarit POS
7 factor(p23)19 Entidad federativa a los 14 19 Nuevo León POS
7 factor(p23)20 Entidad federativa a los 14 20 Oaxaca NEG
7 factor(p23)21 Entidad federativa a los 14 21 Puebla NEG
7 factor(p23)22 Entidad federativa a los 14 22 Querétaro POS
7 factor(p23)23 Entidad federativa a los 14 23 Quintana Roo POS
7 factor(p23)24 Entidad federativa a los 14 24 San Luis Potosí POS
7 factor(p23)25 Entidad federativa a los 14 25 Sinaloa NEG
7 factor(p23)26 Entidad federativa a los 14 26 Sonora NEG
7 factor(p23)27 Entidad federativa a los 14 27 Tabasco POS
7 factor(p23)28 Entidad federativa a los 14 28 Tamaulipas POS
7 factor(p23)29 Entidad federativa a los 14 29 Tlaxcala NEG
7 factor(p23)30 Entidad federativa a los 14 30 Veracruz de Ignacio de la Llave NEG
7 factor(p23)31 Entidad federativa a los 14 31 Yucatán POS
7 factor(p23)32 Entidad federativa a los 14 32 Zacatecas POS
7 factor(p23)221 Entidad federativa a los 14 . EUA POS
7 factor(p23)229 Entidad federativa a los 14 . Honduras NEG
7 factor(p23)415 Entidad federativa a los 14 . España NEG
8 factor(p24)2 tamaño localidad 2 Ciudad grande (entre 100 mil y 500 mil habitantes) NEG
8 factor(p24)3 tamaño localidad 3 Ciudad mediana (entre 15 mil y 100 mil habitantes) POS
8 factor(p24)4 tamaño localidad 4 Ciudad chica (entre 2,500 y 15 mil habitantes) NEG
8 factor(p24)5 tamaño localidad 5 Pueblo (menos de 2,500 habitantes) NEG
9 p28 no. Cuartos a los14 años . . POS
10 p38_11 edad del padre . . POS
11 p38m_11 edad de la madre . . POS
12 factor(p43)3 Escolaridad padre 3 Secundaria técnica NEG
12 factor(p43)4 Escolaridad padre 4 Secundaria general POS
12 factor(p43)5 Escolaridad padre 5 Preparatoria técnica NEG
12 factor(p43)6 Escolaridad padre 6 Preparatoria general POS
12 factor(p43)7 Escolaridad padre 7 Técnica o comercial con secundaria POS
12 factor(p43)8 Escolaridad padre 8 Técnica o comercial con preparatoria POS
12 factor(p43)9 Escolaridad padre 9 Normal básica (con primaria o secundari POS
12 factor(p43)10 Escolaridad padre 10 Normal de licenciatura POS
12 factor(p43)11 Escolaridad padre 11 Profesional (licenciatura o ingeniería) POS
12 factor(p43)12 Escolaridad padre 12 Postgrado (maestría o doctorado) POS
12 factor(p43)98 Escolaridad padre . NS NEG
13 factor(p43m)2 Escolaridad madre 2 Primaria NEG
13 factor(p43m)3 Escolaridad madre 3 Secundaria técnica NEG
13 factor(p43m)4 Escolaridad madre 4 Secundaria general NEG
13 factor(p43m)5 Escolaridad madre 5 Preparatoria técnica NEG
13 factor(p43m)6 Escolaridad madre 6 Preparatoria general NEG
13 factor(p43m)7 Escolaridad madre 7 Técnica o comercial con secundaria NEG
13 factor(p43m)8 Escolaridad madre 8 Técnica o comercial con preparatoria NEG
13 factor(p43m)9 Escolaridad madre 9 Normal básica (con primaria o secundari NEG
13 factor(p43m)10 Escolaridad madre 10 Normal de licenciatura NEG
13 factor(p43m)11 Escolaridad madre 11 Profesional (licenciatura o ingeniería) NEG
13 factor(p43m)12 Escolaridad madre 12 Postgrado (maestría o doctorado) NEG
13 factor(p43m)98 Escolaridad madre . . NEG
14 p60 Cantidad de hermanos . . NEG
15 p61 orden en que nacio . . POS
16 p64 edad dejo la escuela . . POS
17 p86 horas trabajadas pro semana . . POS
18 p87 año en que empezo a trabajar . . POS
19 p98 edad primer trabajo . . POS
20 p122 cuartos totales . . POS
21 p131 no autos . . POS
22 p132 aportantes al hogar . . POS
23 p142 edad comenzo a vivir en pareja . . NEG
24 p143 hijos . . NEG
25 p144 edad al que tuvo el primer hijo . . POS
25 factor(p151)2 color de piel 2 menos oscuro el más oscuro POS
25 factor(p151)3 color de piel 3 oscuro POS
25 factor(p151)4 color de piel 4 oscuro-media POS
25 factor(p151)5 color de piel 5 medio-oscuro POS
25 factor(p151)6 color de piel 6 media POS
25 factor(p151)7 color de piel 7 medio-claro POS
25 factor(p151)8 color de piel 8 claro-media POS
25 factor(p151)9 color de piel 9 claro POS
25 factor(p151)10 color de piel 10 poco menos que el más claro POS
26 factor(p151)11 color de piel 11 el más claro POS
26 factor(region)2 region 2 Norte-occidente NEG
26 factor(region)3 region 3 Centro-norte NEG
26 factor(region)4 region 4 Centro POS
27 factor(region)5 region 5 Sur NEG
27 factor(escolaridadh)1 Años estudiados . 1 NEG
27 factor(escolaridadh)2 Años estudiados . 2 NEG
27 factor(escolaridadh)3 Años estudiados . 3 NEG
27 factor(escolaridadh)4 Años estudiados . 4 POS
27 factor(escolaridadh)5 Años estudiados . 5 POS
27 factor(escolaridadh)6 Años estudiados . 6 POS
27 factor(escolaridadh)7 Años estudiados . 7 POS
27 factor(escolaridadh)8 Años estudiados . 8 NEG
27 factor(escolaridadh)9 Años estudiados . 9 POS
27 factor(escolaridadh)10 Años estudiados . 10 POS
27 factor(escolaridadh)11 Años estudiados . 11 POS
27 factor(escolaridadh)12 Años estudiados . 12 POS
27 factor(escolaridadh)13 Años estudiados . 13 POS
27 factor(escolaridadh)14 Años estudiados . 14 POS
27 factor(escolaridadh)15 Años estudiados . 15 POS
27 factor(escolaridadh)16 Años estudiados . 16 POS
27 factor(escolaridadh)17 Años estudiados . 17 POS
27 factor(escolaridadh)18 Años estudiados . 18 POS
27 factor(escolaridadh)19 Años estudiados . 19 POS
27 factor(escolaridadh)20 Años estudiados . 20 POS
27 factor(escolaridadh)21 Años estudiados . 21 NEG
28 factor(escolaridadh)22 Años estudiados . 22 POS
29 indigena Indígena 1 Habla una lengua NEG

Construcción de la variable objetivo

Para estimar la variable de ingreso de interés se utilizó un análisis factorial policórico (Polychoric Principal Component Analysis), utilizando por Solís (2018). Este método también es conocido como análisis de componentes principales en una matriz de correlaciones policórica.

El análisis de PCA busca las variables latentes (factores) que explican la varianza de todas las variables que se utilizan en el modelo. Para este ejercicio, se utilizaron distintas variables de activos del hogar y el primer factor lo interpretamos como un proxy de ingreso/riqueza subyacente a las variables que se usaron para construirlo. El análisis hace que el primer factor sea el que más varianza explica (de las variables originales que usamos para construirlo), en este ejercicio cerca del 46% de la varianza.

El valor predicho de ese primer factor para cada observación es el proxy de ingreso/riqueza y se obtuvo para el individuo a los 14 años y como se encuentra en la actualidad. Este proxy no es comparable entre ambos. Para corregir el error se utilizó el decil en el que se encontraba el individuo a los 14 años y en el que se encuentra actualmente. La diferencia en deciles representa la movilidad social de ese individuo, es decir, si la diferencia es positiva el individuo ascendió socialmente ya que se encuentra en un decil mayor, si la diferencia es cero, no hubo diferencia en la movilidad social y si la diferencia es negativa entonces el individuo descendió socialmente ya que se encuentra en un decil inferior al que estaba cuando tenía 14 años.

Las variables utilizadas en el PCA se tomaron de Solís (2018) y se eliminaron aquellas que contribuían poco al análisis para quedarnos con suficientes variables de tal manera que la varianza explicada del primer componente fuera suficientemente alta.4 Variables que se emplaron: -agua entubada -estufa -televisión de paga -refrigerador -tostador -teléfono fijo -otra casa o departamento -tierras para trabajo -lavadora -cuenta bancaria -tarjeta debito -tarjeta crédito -material de piso -hacinamiento

Trato del factor de expansión

La Base de datos cuenta con un factor de expansión de frecuencia, este factor indica a cuántas personas representa cada entrevistado en la encuesta en la población. Las estimaciones toman en cuenta este factor.

Selección de variables

Debido a que se contaban con casi 300 variables, muchas de las cuales posiblemente explican lo mismo, se optó por usar un método para reducir la dimensionalidad con base en el rango intercuantílico. El método consiste en estimar el rango intercuantilico de la base de datos y de cada variable y subsecuentemente eliminar aquellas que tengan un rango intercuartilico menor al global o una fracción arbitraria. De esta manera, se eliminan las variables con menor varianza despues de haber corregido por outliers. Aunque no sirvió de mucho para elegir variables, sirvió mucho para reducir el tamaño de la base de datos hasta a mas o menos 80 variables. https://towardsdatascience.com/why-1-5-in-iqr-method-of-outlier-detection-5d07fdc82097 Se realizó una selección de variables en dos etapas: en la primera etapa se realizó una revisión de literatura y un análisis exploratorio inicial para elegir las variables más económicamente más importantes para el caso mexicano: la escolaridad de los padres, la escoladidad actual del individuo, el género, la etnicidad y la región donde vive.

En segundo lugar, para fortalecer el modelo se decidió hacer una segunda exploración de las variables pero ahora habiendo quitado las variables con menor varianza. De esta manera se realizó una segunda exploración ahora más “comoda” y sin tanto peso computacional.

Trato de los missing values

A pesar de que la base de datos tenía menos del 10% de sus datos como missing values, dos variables contenían la gran mayoría de ellos, una de ellas vitla para el análisis: eduación del padre. Debido a que para estimar el modelo se necesitan observaciones completas, esto supuso una perdida grande de observaciones de incluso más del 50% por lo que se optó por rescatar observaciones mediante la inputación de valores en las variables que tenían menos del 8% de sus valores como faltantes.

Se decidió implementar una imputación de valores con base en la imputación con medidas de tendencia central aunque solamente con la media en el caso de los outliers de las variables númericas.

Predicciones en la herramienta

Por último, solo cabe mencionar debido al peso computacional que tiene estimar el modelo para toda la base de datos (que en su versión expandida supera 40 millones de observaciones), y qué debido a que la herramienta la construimos sobre una shiny app, por lo que se está corriendo R de forma remota; las predicciones de la herramientan tienen su base en un modelo estimado al momento a partir de una muestra aleatoria de tamaño 10,000.

Anexo de contribuciones

El blog que se presenta fue un trabajo conjunto del equipo 3. A continuación se enlistan los integrantes así como la contribución de cada participante: