La creciente y persistente desigualdad en las sociedades y la aparente inhabilidad de los distintos modelos económicos tradicionales (capitalismo liberal al estilo estadounidense, capitalismo planificado al estilo chino, capitalismo intervencionista al estilo europeo o socialismo al estilo cubano) para disminuir dicha desigualdad, han impulsado un renovado interés en hacer investigación acerca de la movilidad (o inmovilidad) intergeneracional en distintos países. El enfoque parte de que existen condiciones fuera del control de cada uno de nosotros – como dónde nacemos, qué nivel educativo y qué ocupación tienen nuestros padres (por dar un par de ejemplos) – que influyen y en muchos casos incluso determinan el desempeño vital que tendremos. En ese sentido, nuestra habilidad de movernos de un decil o quintil de ingreso a otro no del todo depende sólo de nosotros.
Raj Chetty, connotado economista e investigador de la prestigiada universidad de Harvard, ha dedicado una parte importante de su vida académica a estudiar el fenómeno de movilidad intergeneracional estudiando por ejemplo si el famoso “sueño americano” sigue siendo una realidad1 Mira su artículo en The Atlantic. En este “sueño” uno puede superar cualquier deficiencia o carencia determinada por la familia y entorno socioeconómico en el que nacemos mediante, básicamente, el acceso a la educación y la dedicación al trabajo: una meritocracia en el sentido más amplio de la palabra. Tu desempeño no es otra cosa que el resultado directo de tu mérito propio. Pero, ¿es esto una realidad?
Chetty ha usado sus conocimientos de teoría económica de la mano de análisis estadístico aprovechando el auge del “big data” y ha encontrado clara evidencia que el sueño americano es precisamente eso: un sueño. El porcentaje de niños estadounidenses que logran un nivel de ingreso mayor al de sus padres ha venido disminuyendo inexorablemente, al grado que hoy en día, sólo el 50% de los niños de ese país logra un nivel de ingreso mayor que el de sus padres.
Si eso sucede en uno de los supuestos bastiones de la movilidad intergeneracional: ¿qué pasa en México? ¿Qué papel juegan las “circunstancias” de nacimiento en las oportunidades de lograr un “brincar” del decil de ingreso de nuestros padres a uno más alto?
No es sorpresa para nadie que México es un país con profundas desigualdades, y si esas desigualdades tienden a traducirse en menor movilidad intergeneracional no sólo se están perpetuando las desigualdades, también se está comprometiendo el crecimiento potencial de las personas. Los estudiosos de los temas de movilidad intergeneracional han encontrado evidencia que una movilidad baja puede ser tanto causa como consecuencia de una mayor desigualdad. Por el contrario, una mayor movilidad está normalmente asociada a patrones de desarrollo más incluyentes.
Para analizar este fenómeno de movilidad intergeneracional para México nuestros especialistas analizaron los datos de la Encuesta de Movilidad ESRU-EMOVI del Centro de Estudios Espinoza Yglesias (CEEY) de 20172 Te recomendamos echarle un ojo a los proyectos, publicaciones y datos que elabora el CEEY]. Esta encuesta entrevista a una muestra representativa de más de 17,000 personas entre 25 y 64 años de edad y recopila información sociodemográfica diversa del encuestado (por ejemplo edad, género, grado de escolaridad, características de su hogar actual, acceso a la salud, ocupación, etc) así como muchas de esas mismas variables para sus padres (escolaridad, ocupación, etc) y para el hogar en el que vivía cuando tenía 14 años (agua potable, pisos de cemento, etc). En la encuesta también se le pregunta al encuestado información que le permite a los especialistas aproximar el nivel de “riqueza” relativa del individuo hoy y cuando tenía 14 años (por ejemplo analizando qué aparatos electrodomésticos y electrónicos hay o había en el hogar, y qué servicios financieros tiene o tenía al alcance como tarjetas de crédito, cuentas bancarias, etc).
El objetivo de recabar toda esta información es poder evaluar en qué medida “origen es destino”, es decir comparar algunas variables dadas las circunstancias de la vida del encuestado a los 14 años (origen) con esas variables hoy (destino).
Como podemos observar, a los 14 años el 35% de los encuestados vivía en localidades con menos de 2,500 habitantes (pueblos), mientras que poco más del 25% vivía en ciudades de más de 100,000 habitantes. La escolaridad máxima del 28% de los entrevistados es la primaria, 31% tiene secundaria, poco más del 18% tienen preparatoria, mientras que el 11.5% posee educación superior y posgrado. Si vemos la escolaridad de los padres, en los niveles básicos observamos una distribución de años de escolaridad similar tanto para el padre como la madre: en ambos casos más del 60% sólo tiene primaria, aproximadamente el 15% tiene secundaria. En los niveles de licenciatura y posgrado, son más los padres que alcanzan dicho nivel (casi 6% para los padres contra 2.9% para las madres con este grado de escolaridad). En cuanto al número de hijos: sólo el 4.44% de las madres tienen 1 sólo hijo, casi 37% tiene entre 2 y 4 hijos y llama la atención que hay un 18.7% que reportan haber tenido más de 9 hijos (siendo el máximo reportado de 24 hijos).
Con toda la información considerada relevante desde el punto de vista de la teoría económica - que es el fuerte de nuestro equipo de especialistas - se construyeron algunos modelos econométricos (que para no aburrir al lector se encuentran disponibles en el anexo metodológico; y sí, son tan interesantes como su nombre lo indica). Estos modelos buscan (logran) predecir dadas ciertas características del individuo y de su origen qué probabilidad tendría de lograr un mejor destino que sus padres: es decir qué probabilidad tiene de lograr movilidad intergeneracional.
El modelo evaluado busca predecir cuál sería la probabilidad de estar en un cierto decil de ingreso hoy dadas ciertas características del individuo que incluyen su origen (para la muestra considerada los parámetros incluyen en este caso: edad, años promedio de escolaridad propia y años promedio de escolaridad de los padres, número de habitaciones contando la cocina que tenía su hogar a los 14 años). En la siguiente tabla pueden verse dichas predicciones de probabilidad.
| Edad | Número de cuartos | Nivel educativo padre | Nivel educativo madre | región | Último nivel de escolaridad | mujer | indígena | pr1 | pr2 | pr3 | pr4 | pr5 | pr6 | pr7 | pr8 | pr9 | pr10 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 30 | 2 | 4 | 2 | 5 | 9 | 0 | 1 | 0.325 | 0.250 | 0.164 | 0.105 | 0.075 | 0.048 | 0.020 | 0.009 | 0.003 | 0.000 |
| 25 | 6 | 2 | 3 | 1 | 0 | 0 | 0 | 0.278 | 0.243 | 0.171 | 0.117 | 0.087 | 0.059 | 0.027 | 0.013 | 0.004 | 0.000 |
| 31 | 1 | 2 | 2 | 5 | 0 | 1 | 1 | 0.858 | 0.099 | 0.028 | 0.010 | 0.004 | 0.001 | 0.000 | 0.000 | 0.000 | 0.000 |
| 37 | 3 | 2 | 2 | 2 | 12 | 0 | 0 | 0.009 | 0.033 | 0.059 | 0.082 | 0.120 | 0.167 | 0.158 | 0.167 | 0.142 | 0.064 |
| 27 | 3 | 5 | 2 | 4 | 18 | 1 | 0 | 0.001 | 0.005 | 0.014 | 0.026 | 0.051 | 0.098 | 0.128 | 0.192 | 0.256 | 0.230 |
| 47 | 5 | 3 | 2 | 4 | 12 | 1 | 1 | 0.002 | 0.009 | 0.022 | 0.038 | 0.068 | 0.121 | 0.145 | 0.197 | 0.231 | 0.169 |
| 34 | 6 | 2 | 2 | 3 | 16 | 1 | 0 | 0.004 | 0.019 | 0.038 | 0.059 | 0.095 | 0.149 | 0.158 | 0.188 | 0.186 | 0.105 |
Sin embargo, antes de avanzar con el blog y echarle un ojo a la herramienta que hemos construido, vale la pena saber en qué décil del ingreso te encuentras.
En 2018, el ingreso promedio por familia mexicana fue de 49 mil 610 pesos por trimestre, es decir, unos 16 mil 536 pesos al mes. Es una cifra menor a los 17 mil 249 pesos mensuales que ingresaron los hogares mexicanos en 2016, lo que representó una caída de 4.1%. Pero la disminución se dio solamente en los deciles de ingreso más altos.
El Inegi ofrece el dato de ingreso corriente promedio trimestral por deciles de hogares, y para facilitar el cálculo te lo mostramos de manera mensual3 Sin embargo, no te detenemos, si tienes curiosidad sobre este tipo de información, y otras cosas que hace el INEGI, te recomendamos consultar la ENIGH. Checa en qué nivel de ingresos está tu familia con la siguiente tabla.
| Decil | Ingreso mensual del hogar (pesos) |
|---|---|
| 1 | 3,037 |
| 2 | 5,366 |
| 3 | 7,142 |
| 4 | 8,898 |
| 5 | 10,722 |
| 6 | 12,985 |
| 7 | 15,754 |
| 8 | 19,628 |
| 9 | 26,197 |
| 10 | 55,583 |
Como seguramente para estas alturas de este post, el lector muere de curiosidad por saber cuál podría ser su destino dado su origen, lo invitamos a utilizar nuestra herramienta interactiva para ello en este enlace.
NOTA IMPORTANTE: Es muy recomendable tener la tabla del modelo probit del anexo estadístico a la mano para saber el significado de las etiquetas. El decíl calculado se muestra en la sección izquierda de la aplicación como se muestra en la siguiente imágen
Recordemos un modelo probit intenta modelar la probabilidad condicional de que Y tome cierto valor dados los demás valores de X.
\[P(Y=J|X) = P( \alpha_J < X' \beta+ U_i)\] \[=P(\alpha_J-X' \beta+ < U_i)= 1-\phi(\alpha_J-X' \beta)\]
De esta manera, estimamos el modelo con base en las variables seleccionadas. A la izquierda se muestra un histograma de los errores del modelo (\(\hat{y}_i-y_i\)) y, abajo, se listan las variables que se usaron, los signos y sus etiquetas.
| Variable | Clave | Etiqueta | valor en la herramienta | categorías | Signo |
|---|---|---|---|---|---|
| 1 | p05 | Edad | . | . | POS |
| 2 | factor(p06)2 | Sexo | 2 | mujer | POS |
| 3 | factor(p09_1)2 | Hospital al que asiste | 2 | ISSSTE o ISSSTE Estatal (ISSEMYM, ISSSTEZAC, etc.) | NEG |
| 3 | factor(p09_1)3 | Hospital al que asiste | 3 | Pemex, Defensa o Marina | POS |
| 3 | factor(p09_1)4 | Hospital al que asiste | 4 | Centro de salud u hospital de la SSA | NEG |
| 3 | factor(p09_1)5 | Hospital al que asiste | 5 | Seguro Popular | POS |
| 3 | factor(p09_1)6 | Hospital al que asiste | 6 | Otro servicio de salud público (DIF, INI, de los estados) | POS |
| 3 | factor(p09_1)7 | Hospital al que asiste | 7 | Consultorio, clínica u hospital privado | POS |
| 3 | factor(p09_1)8 | Hospital al que asiste | 8 | Consultorio de una farmacia | NEG |
| 3 | factor(p09_1)9 | Hospital al que asiste | 9 | Se automedica | NEG |
| 3 | factor(p09_1)10 | Hospital al que asiste | 10 | Otro lugar | POS |
| 3 | factor(p09_1)11 | Hospital al que asiste | . | No se atiende | NEG |
| 3 | factor(p09_1)98 | Hospital al que asiste | . | NS | NEG |
| 4 | factor(p10_1)2 | Asegurado | 2 | ISSSTE o ISSSTE estatal | POS |
| 4 | factor(p10_1)3 | Asegurado | 3 | Pemex, Defensa o Marina | NEG |
| 4 | factor(p10_1)4 | Asegurado | 4 | Seguro Popular o para una Nueva Generación | NEG |
| 4 | factor(p10_1)5 | Asegurado | 5 | IMSS Oportunidades | NEG |
| 4 | factor(p10_1)6 | Asegurado | 6 | Seguro Privado | POS |
| 4 | factor(p10_1)7 | Asegurado | 7 | Otra institución | NEG |
| 4 | factor(p10_1)8 | Asegurado | 8 | Entonces, ¿no tiene derecho a servicios médicos? | NEG |
| 4 | factor(p10_1)98 | Asegurado | . | NS | NEG |
| 5 | estatura | Estatura | . | . | POS |
| 6 | p21 | peso | . | . | POS |
| 7 | factor(p23)2 | Entidad federativa a los 14 | 2 | Baja California | POS |
| 7 | factor(p23)3 | Entidad federativa a los 14 | 3 | Baja California Sur | NEG |
| 7 | factor(p23)4 | Entidad federativa a los 14 | 4 | Campeche | POS |
| 7 | factor(p23)5 | Entidad federativa a los 14 | 5 | Coahuila de Zaragoza | NEG |
| 7 | factor(p23)6 | Entidad federativa a los 14 | 6 | Colima | POS |
| 7 | factor(p23)7 | Entidad federativa a los 14 | 7 | Chiapas | NEG |
| 7 | factor(p23)8 | Entidad federativa a los 14 | 8 | Chihuahua | POS |
| 7 | factor(p23)9 | Entidad federativa a los 14 | 9 | Ciudad de México | NEG |
| 7 | factor(p23)10 | Entidad federativa a los 14 | 10 | Durango | POS |
| 7 | factor(p23)11 | Entidad federativa a los 14 | 11 | Guanajuato | POS |
| 7 | factor(p23)12 | Entidad federativa a los 14 | 12 | Guerrero | NEG |
| 7 | factor(p23)13 | Entidad federativa a los 14 | 13 | Hidalgo | NEG |
| 7 | factor(p23)14 | Entidad federativa a los 14 | 14 | Jalisco | POS |
| 7 | factor(p23)15 | Entidad federativa a los 14 | 15 | México | NEG |
| 7 | factor(p23)16 | Entidad federativa a los 14 | 16 | Michoacán de Ocampo | POS |
| 7 | factor(p23)17 | Entidad federativa a los 14 | 17 | Morelos | NEG |
| 7 | factor(p23)18 | Entidad federativa a los 14 | 18 | Nayarit | POS |
| 7 | factor(p23)19 | Entidad federativa a los 14 | 19 | Nuevo León | POS |
| 7 | factor(p23)20 | Entidad federativa a los 14 | 20 | Oaxaca | NEG |
| 7 | factor(p23)21 | Entidad federativa a los 14 | 21 | Puebla | NEG |
| 7 | factor(p23)22 | Entidad federativa a los 14 | 22 | Querétaro | POS |
| 7 | factor(p23)23 | Entidad federativa a los 14 | 23 | Quintana Roo | POS |
| 7 | factor(p23)24 | Entidad federativa a los 14 | 24 | San Luis Potosí | POS |
| 7 | factor(p23)25 | Entidad federativa a los 14 | 25 | Sinaloa | NEG |
| 7 | factor(p23)26 | Entidad federativa a los 14 | 26 | Sonora | NEG |
| 7 | factor(p23)27 | Entidad federativa a los 14 | 27 | Tabasco | POS |
| 7 | factor(p23)28 | Entidad federativa a los 14 | 28 | Tamaulipas | POS |
| 7 | factor(p23)29 | Entidad federativa a los 14 | 29 | Tlaxcala | NEG |
| 7 | factor(p23)30 | Entidad federativa a los 14 | 30 | Veracruz de Ignacio de la Llave | NEG |
| 7 | factor(p23)31 | Entidad federativa a los 14 | 31 | Yucatán | POS |
| 7 | factor(p23)32 | Entidad federativa a los 14 | 32 | Zacatecas | POS |
| 7 | factor(p23)221 | Entidad federativa a los 14 | . | EUA | POS |
| 7 | factor(p23)229 | Entidad federativa a los 14 | . | Honduras | NEG |
| 7 | factor(p23)415 | Entidad federativa a los 14 | . | España | NEG |
| 8 | factor(p24)2 | tamaño localidad | 2 | Ciudad grande (entre 100 mil y 500 mil habitantes) | NEG |
| 8 | factor(p24)3 | tamaño localidad | 3 | Ciudad mediana (entre 15 mil y 100 mil habitantes) | POS |
| 8 | factor(p24)4 | tamaño localidad | 4 | Ciudad chica (entre 2,500 y 15 mil habitantes) | NEG |
| 8 | factor(p24)5 | tamaño localidad | 5 | Pueblo (menos de 2,500 habitantes) | NEG |
| 9 | p28 | no. Cuartos a los14 años | . | . | POS |
| 10 | p38_11 | edad del padre | . | . | POS |
| 11 | p38m_11 | edad de la madre | . | . | POS |
| 12 | factor(p43)3 | Escolaridad padre | 3 | Secundaria técnica | NEG |
| 12 | factor(p43)4 | Escolaridad padre | 4 | Secundaria general | POS |
| 12 | factor(p43)5 | Escolaridad padre | 5 | Preparatoria técnica | NEG |
| 12 | factor(p43)6 | Escolaridad padre | 6 | Preparatoria general | POS |
| 12 | factor(p43)7 | Escolaridad padre | 7 | Técnica o comercial con secundaria | POS |
| 12 | factor(p43)8 | Escolaridad padre | 8 | Técnica o comercial con preparatoria | POS |
| 12 | factor(p43)9 | Escolaridad padre | 9 | Normal básica (con primaria o secundari | POS |
| 12 | factor(p43)10 | Escolaridad padre | 10 | Normal de licenciatura | POS |
| 12 | factor(p43)11 | Escolaridad padre | 11 | Profesional (licenciatura o ingeniería) | POS |
| 12 | factor(p43)12 | Escolaridad padre | 12 | Postgrado (maestría o doctorado) | POS |
| 12 | factor(p43)98 | Escolaridad padre | . | NS | NEG |
| 13 | factor(p43m)2 | Escolaridad madre | 2 | Primaria | NEG |
| 13 | factor(p43m)3 | Escolaridad madre | 3 | Secundaria técnica | NEG |
| 13 | factor(p43m)4 | Escolaridad madre | 4 | Secundaria general | NEG |
| 13 | factor(p43m)5 | Escolaridad madre | 5 | Preparatoria técnica | NEG |
| 13 | factor(p43m)6 | Escolaridad madre | 6 | Preparatoria general | NEG |
| 13 | factor(p43m)7 | Escolaridad madre | 7 | Técnica o comercial con secundaria | NEG |
| 13 | factor(p43m)8 | Escolaridad madre | 8 | Técnica o comercial con preparatoria | NEG |
| 13 | factor(p43m)9 | Escolaridad madre | 9 | Normal básica (con primaria o secundari | NEG |
| 13 | factor(p43m)10 | Escolaridad madre | 10 | Normal de licenciatura | NEG |
| 13 | factor(p43m)11 | Escolaridad madre | 11 | Profesional (licenciatura o ingeniería) | NEG |
| 13 | factor(p43m)12 | Escolaridad madre | 12 | Postgrado (maestría o doctorado) | NEG |
| 13 | factor(p43m)98 | Escolaridad madre | . | . | NEG |
| 14 | p60 | Cantidad de hermanos | . | . | NEG |
| 15 | p61 | orden en que nacio | . | . | POS |
| 16 | p64 | edad dejo la escuela | . | . | POS |
| 17 | p86 | horas trabajadas pro semana | . | . | POS |
| 18 | p87 | año en que empezo a trabajar | . | . | POS |
| 19 | p98 | edad primer trabajo | . | . | POS |
| 20 | p122 | cuartos totales | . | . | POS |
| 21 | p131 | no autos | . | . | POS |
| 22 | p132 | aportantes al hogar | . | . | POS |
| 23 | p142 | edad comenzo a vivir en pareja | . | . | NEG |
| 24 | p143 | hijos | . | . | NEG |
| 25 | p144 | edad al que tuvo el primer hijo | . | . | POS |
| 25 | factor(p151)2 | color de piel | 2 | menos oscuro el más oscuro | POS |
| 25 | factor(p151)3 | color de piel | 3 | oscuro | POS |
| 25 | factor(p151)4 | color de piel | 4 | oscuro-media | POS |
| 25 | factor(p151)5 | color de piel | 5 | medio-oscuro | POS |
| 25 | factor(p151)6 | color de piel | 6 | media | POS |
| 25 | factor(p151)7 | color de piel | 7 | medio-claro | POS |
| 25 | factor(p151)8 | color de piel | 8 | claro-media | POS |
| 25 | factor(p151)9 | color de piel | 9 | claro | POS |
| 25 | factor(p151)10 | color de piel | 10 | poco menos que el más claro | POS |
| 26 | factor(p151)11 | color de piel | 11 | el más claro | POS |
| 26 | factor(region)2 | region | 2 | Norte-occidente | NEG |
| 26 | factor(region)3 | region | 3 | Centro-norte | NEG |
| 26 | factor(region)4 | region | 4 | Centro | POS |
| 27 | factor(region)5 | region | 5 | Sur | NEG |
| 27 | factor(escolaridadh)1 | Años estudiados | . | 1 | NEG |
| 27 | factor(escolaridadh)2 | Años estudiados | . | 2 | NEG |
| 27 | factor(escolaridadh)3 | Años estudiados | . | 3 | NEG |
| 27 | factor(escolaridadh)4 | Años estudiados | . | 4 | POS |
| 27 | factor(escolaridadh)5 | Años estudiados | . | 5 | POS |
| 27 | factor(escolaridadh)6 | Años estudiados | . | 6 | POS |
| 27 | factor(escolaridadh)7 | Años estudiados | . | 7 | POS |
| 27 | factor(escolaridadh)8 | Años estudiados | . | 8 | NEG |
| 27 | factor(escolaridadh)9 | Años estudiados | . | 9 | POS |
| 27 | factor(escolaridadh)10 | Años estudiados | . | 10 | POS |
| 27 | factor(escolaridadh)11 | Años estudiados | . | 11 | POS |
| 27 | factor(escolaridadh)12 | Años estudiados | . | 12 | POS |
| 27 | factor(escolaridadh)13 | Años estudiados | . | 13 | POS |
| 27 | factor(escolaridadh)14 | Años estudiados | . | 14 | POS |
| 27 | factor(escolaridadh)15 | Años estudiados | . | 15 | POS |
| 27 | factor(escolaridadh)16 | Años estudiados | . | 16 | POS |
| 27 | factor(escolaridadh)17 | Años estudiados | . | 17 | POS |
| 27 | factor(escolaridadh)18 | Años estudiados | . | 18 | POS |
| 27 | factor(escolaridadh)19 | Años estudiados | . | 19 | POS |
| 27 | factor(escolaridadh)20 | Años estudiados | . | 20 | POS |
| 27 | factor(escolaridadh)21 | Años estudiados | . | 21 | NEG |
| 28 | factor(escolaridadh)22 | Años estudiados | . | 22 | POS |
| 29 | indigena | Indígena | 1 | Habla una lengua | NEG |
Para estimar la variable de ingreso de interés se utilizó un análisis factorial policórico (Polychoric Principal Component Analysis), utilizando por Solís (2018). Este método también es conocido como análisis de componentes principales en una matriz de correlaciones policórica.
El análisis de PCA busca las variables latentes (factores) que explican la varianza de todas las variables que se utilizan en el modelo. Para este ejercicio, se utilizaron distintas variables de activos del hogar y el primer factor lo interpretamos como un proxy de ingreso/riqueza subyacente a las variables que se usaron para construirlo. El análisis hace que el primer factor sea el que más varianza explica (de las variables originales que usamos para construirlo), en este ejercicio cerca del 46% de la varianza.
El valor predicho de ese primer factor para cada observación es el proxy de ingreso/riqueza y se obtuvo para el individuo a los 14 años y como se encuentra en la actualidad. Este proxy no es comparable entre ambos. Para corregir el error se utilizó el decil en el que se encontraba el individuo a los 14 años y en el que se encuentra actualmente. La diferencia en deciles representa la movilidad social de ese individuo, es decir, si la diferencia es positiva el individuo ascendió socialmente ya que se encuentra en un decil mayor, si la diferencia es cero, no hubo diferencia en la movilidad social y si la diferencia es negativa entonces el individuo descendió socialmente ya que se encuentra en un decil inferior al que estaba cuando tenía 14 años.
Las variables utilizadas en el PCA se tomaron de Solís (2018) y se eliminaron aquellas que contribuían poco al análisis para quedarnos con suficientes variables de tal manera que la varianza explicada del primer componente fuera suficientemente alta.4 Variables que se emplaron: -agua entubada -estufa -televisión de paga -refrigerador -tostador -teléfono fijo -otra casa o departamento -tierras para trabajo -lavadora -cuenta bancaria -tarjeta debito -tarjeta crédito -material de piso -hacinamiento
La Base de datos cuenta con un factor de expansión de frecuencia, este factor indica a cuántas personas representa cada entrevistado en la encuesta en la población. Las estimaciones toman en cuenta este factor.
Debido a que se contaban con casi 300 variables, muchas de las cuales posiblemente explican lo mismo, se optó por usar un método para reducir la dimensionalidad con base en el rango intercuantílico. El método consiste en estimar el rango intercuantilico de la base de datos y de cada variable y subsecuentemente eliminar aquellas que tengan un rango intercuartilico menor al global o una fracción arbitraria. De esta manera, se eliminan las variables con menor varianza despues de haber corregido por outliers. Aunque no sirvió de mucho para elegir variables, sirvió mucho para reducir el tamaño de la base de datos hasta a mas o menos 80 variables. https://towardsdatascience.com/why-1-5-in-iqr-method-of-outlier-detection-5d07fdc82097 Se realizó una selección de variables en dos etapas: en la primera etapa se realizó una revisión de literatura y un análisis exploratorio inicial para elegir las variables más económicamente más importantes para el caso mexicano: la escolaridad de los padres, la escoladidad actual del individuo, el género, la etnicidad y la región donde vive.
En segundo lugar, para fortalecer el modelo se decidió hacer una segunda exploración de las variables pero ahora habiendo quitado las variables con menor varianza. De esta manera se realizó una segunda exploración ahora más “comoda” y sin tanto peso computacional.
A pesar de que la base de datos tenía menos del 10% de sus datos como missing values, dos variables contenían la gran mayoría de ellos, una de ellas vitla para el análisis: eduación del padre. Debido a que para estimar el modelo se necesitan observaciones completas, esto supuso una perdida grande de observaciones de incluso más del 50% por lo que se optó por rescatar observaciones mediante la inputación de valores en las variables que tenían menos del 8% de sus valores como faltantes.
Se decidió implementar una imputación de valores con base en la imputación con medidas de tendencia central aunque solamente con la media en el caso de los outliers de las variables númericas.
Por último, solo cabe mencionar debido al peso computacional que tiene estimar el modelo para toda la base de datos (que en su versión expandida supera 40 millones de observaciones), y qué debido a que la herramienta la construimos sobre una shiny app, por lo que se está corriendo R de forma remota; las predicciones de la herramientan tienen su base en un modelo estimado al momento a partir de una muestra aleatoria de tamaño 10,000.
El blog que se presenta fue un trabajo conjunto del equipo 3. A continuación se enlistan los integrantes así como la contribución de cada participante:
Alexa Gonzalez: limpieza de base de datos, programación stata, elección de variables y de modelo.
Karen Hazan: redacción, análisis descriptivo, bibliografía, elección de variables y de modelo.
Marcelo Torres: limpieza de base de datos, programación stata, elección de variables y de modelo.
Marco Ramos: diseño y programación del blog en html, programación r, elección de variables y de modelo.
Mónica Contreras: limpieza de bases, análisis descriptivo stata, elección de variables y de modelo.