La idea de este análisis es tomar las variables respuesta de nivel de actividad física y comportamiento sedentario, y utilizarlos para formar grupos discretos apoyados por evidencia basada en modelos.
Se realizan modelos de Clases Latentes usando estas variables y proponiendo diferentes numeros de clases de 2 a 4. Lamentablemente, la cantidad de categorías determina una insuficiente cantidad de grados de libertad haciendo que los modelos queden con grados de libertad residuales negativos. Esto es inadmisible.
Como puede verse en la columna de grados de libertad residuales (resid.df), todos los modelos son invalidos por tener valores negativos en dicha columna.
En esta sección se propone realizar el mismo análisis de clases latentes pero para las variables explicativas con el objetivo de encontrar una variable generalizadora que sirva para explicar los estratos previamente propuestos de manera más sencilla
Puede verse que a medida que sumamos clases, los criterios de información se hacen cada vez mejores. Si bien el modelo de 5 clases es el mejor en términos de ajuste y criterios de información, considero oportuno usar el modelo de 4 clases para una mejor interpretabilidad.
El modelo de 4 clases posee la siguiente información:
## Conditional item response (column) probabilities,
## by outcome variable, for each class (row)
##
## $rango_edad
## 18 a 24 25 a 34 35 a 49 50 a 64 65 o +
## class 1: 0.0038 0.0233 0.1287 0.2966 0.5477
## class 2: 0.3024 0.3271 0.2879 0.0819 0.0008
## class 3: 0.0781 0.2174 0.3399 0.2374 0.1272
## class 4: 0.0729 0.1619 0.3271 0.2954 0.1427
##
## $quintil_ingreso
## Quintil 1 Quintil 2 Quintil 3 Quintil 4 Quintil 5
## class 1: 0.0525 0.2971 0.2859 0.2639 0.1006
## class 2: 0.3600 0.2882 0.2315 0.1190 0.0013
## class 3: 0.0248 0.0721 0.1469 0.2919 0.4643
## class 4: 0.6191 0.2583 0.1048 0.0163 0.0015
##
## $nivel_instruccion
## Hasta Primario Completo Hasta Secundario Completo Hasta Uni. Completo
## class 1: 0.7338 0.2569 0.0093
## class 2: 0.0000 0.7294 0.2706
## class 3: 0.0041 0.3726 0.6232
## class 4: 0.7950 0.1982 0.0068
##
## $CMT
## No tiene Si tiene
## class 1: 0.7764 0.2236
## class 2: 0.5451 0.4549
## class 3: 0.8646 0.1354
## class 4: 0.3051 0.6949
##
## Estimated class population shares
## 0.2267 0.2528 0.3857 0.1348
##
## Predicted class memberships (by modal posterior prob.)
## 0.2241 0.2954 0.3736 0.1069
##
## =========================================================
## Fit for 4 latent classes:
## =========================================================
## number of observations: 27858
## number of estimated parameters: 47
## residual degrees of freedom: 102
## maximum log-likelihood: -129768.8
##
## AIC(4): 259631.6
## BIC(4): 260018.6
## G^2(4): 621.1714 (Likelihood ratio/deviance statistic)
## X^2(4): 626.6296 (Chi-square goodness of fit)
##
## ALERT: iterations finished, MAXIMUM LIKELIHOOD NOT FOUND
##
Respecto a cada clase, se puede observar lo siguiente:
Clase 1: este grupo se compone de personas de edad avanzada siendo su gran mayoria de 65 o más años (0.54), y tambien una considerable cantidad de adultos entre 50 a 64 años (0.29). Se concentran en los quintiles 2 a 5 haciendolos la representación de la clase media por excelencia. En cuanto a educación, son similares a la clase de 2 en donde hay una gran mayoría con primario completo (0.73) y unos cuantos con secundario completo (0.25). Sin embargo, esta clase no presenta carencias materiales de vivienda lo cual indica que viven en condiciones decentes. Esta clase, dada sus características, puede llamarse los ‘Clase Media Inactiva’, es decir, poseen todas las cualidades de la clase media en cuanto a ingresos y vivienda pero al estar formada mayoritariamente por jubilados, está económicamente inactiva.
Clase 2: formada por individuos jovenes de 18 a 34 años en su mayoría. Sus ingresos se concentran entre los quintiles 1 al 3 lo cual tiene sentido debido a su temprana edad. En su mayoría completaron el secundario con algunos que terminaron la universidad. Y se reparten equitativamente en cuanto a carencias materiales y de vivienda. Este grupo, por sus caracteristicas, se los llama “Surgentes” debido a que todavía están en proceso de formación con posibilidades a futuro.
Clase 3: está compuesta en su mayoría por jovenes y adultos de 25 a 64 años, es decir, personas económicamente activas. Respecto a sus ingresos capitales, estos se encuentran en los más altos quintiles con un 0.46 en quintil 5 unicamente. Tambien poseen una gran prevalencia en estudios universitarios completos y sin carencias materiales. Esta es la clase de los ‘Formados’ por su gran formación académica que se refleja en su nivel socioeconómico.
Clase 4: está compuesta por individuos más bien adultos de la muestra de 35 a 64 en su mayoría. Se concentran en los quintiles 1 y 2 lo cual los coloca en la clase baja. En cuanto a educación, la gran mayoria tienen hasta primario completo solamente lo cual estaría diciendo que son un grupo de personas que no cuenta con una gran formación académica. Por último, tienden a presentar carencias materiales y de vivienda. Este grupo dadas sus caracteristicas, se los puede llamar como ‘Vulnerados’ debido a sus condiciones de vivienda y su falta de formación académica que los vuelve indivuduos propensos a quedar fuera del sistema.
De forma comparativa, se realizan graficos de tipo radar para visualizar las diferencias de cada clase en cada variable:
Ya con las clases encontradas, se utilizan para ver cómo se relacionan con la AF y el CS.
Tabla 1: Descriptiva de cada estrato según las clases encontradas y el género (notar buen balanceo de cada estrato)
Distribución de cada estrato según el géneroFigura 1: Distribución de géneros en cada estrato
Se puede ver que la AF insuficiente se concentra en mujeres preferentemente.
Ahora se analiza la distribución de los estratos según las clases ecnontradas en el analisis de clases latentes.
Figura 2: Distribución de clases en cada estrato
se puede ver que los formados se caracterizan por un alto grado de CS Alto, y tambien AF suficiente lo cual tiene sentido dado que se trata de personas jovenes, de formación y altos ingresos. Por otro lado, los vulnerados se concentran en CS medio y bajo lo cual se explica porque una gran parte del tiempo están realizando trabajos de exigencia física. la clase media inactiva se concentra en AF insuficiente lo cual tiene sentido dado que se trata de personas más bien jubiladas. Finalmente, los surgentes se reparten en todos los estratos por ser muy jovenes, estudiantes, y con trabajo.
Si invertimos los ejes, obtenemos la descripcion de cada clase:
Figura 3: Distribución de estratos en cada clase
Puede verse que las clases resultantes poseen un N más bien poco balanceado. Sin embargo, puede verse que los patrones en este caso son mas claros en donde los formados poseen la mayor prevalencia de AF suficiente y CS bajo, mientras que los jubilados en CM inactiva tienen la mayor prevalncia de AF insuficiente y CS alto.
A continuación se realizan clases latentes usando todas las variables pertinentes para el analisis, es decir tanto las variables respuesta como las explicativas. Las variables a utilizar son las siguientes: * Nivel de AF * CS en terciles * Rango etario * Sexo * Quintil de ingresos * Nivel educativo * Carencias materiales y de vivienda
Puede verse que a medida que sumamos clases, los criterios de información se hacen cada vez mejores. Si bien el modelo de 6 clases es el mejor en términos de ajuste y criterios de información, considero oportuno usar el modelo de 4 clases para una mejor interpretabilidad. Además, los modelos de 5 y 6 clases tienen categorias con probabilidad posterior igual a 0 por lo que no es recomendable según las personas que entienden el funcionamiento de LCA
El modelo de 4 clases posee la siguiente información:
## Conditional item response (column) probabilities,
## by outcome variable, for each class (row)
##
## $nivel_actividad_fisica
## Suficiente Insuficiente
## class 1: 0.3719 0.6281
## class 2: 0.5281 0.4719
## class 3: 0.6171 0.3829
## class 4: 0.6047 0.3953
##
## $CS_terciles
## Bajo CS Medio CS Alto CS
## class 1: 0.3312 0.3430 0.3257
## class 2: 0.5289 0.3180 0.1531
## class 3: 0.2416 0.3270 0.4314
## class 4: 0.3289 0.3404 0.3307
##
## $rango_edad
## 18 a 24 25 a 34 35 a 49 50 a 64 65 o +
## class 1: 0.0001 0.0141 0.1217 0.3036 0.5605
## class 2: 0.0982 0.2077 0.3528 0.2621 0.0791
## class 3: 0.0708 0.2206 0.3468 0.2462 0.1156
## class 4: 0.2932 0.3238 0.2994 0.0835 0.0000
##
## $quintil_ingreso
## Quintil 1 Quintil 2 Quintil 3 Quintil 4 Quintil 5
## class 1: 0.0891 0.2995 0.2711 0.2454 0.0949
## class 2: 0.5922 0.2531 0.1167 0.0324 0.0055
## class 3: 0.0036 0.0188 0.1154 0.3056 0.5565
## class 4: 0.2915 0.2965 0.2577 0.1484 0.0059
##
## $nivel_instruccion
## Hasta Primario Completo Hasta Secundario Completo Hasta Uni. Completo
## class 1: 0.6755 0.2572 0.0673
## class 2: 0.6304 0.3696 0.0000
## class 3: 0.0093 0.3591 0.6316
## class 4: 0.0000 0.6486 0.3514
##
## $CMT
## No tiene Si tiene
## class 1: 0.7700 0.2300
## class 2: 0.2927 0.7073
## class 3: 0.8716 0.1284
## class 4: 0.6271 0.3729
##
## $genero
## Varon Mujer
## class 1: 0.4154 0.5846
## class 2: 0.4690 0.5310
## class 3: 0.4594 0.5406
## class 4: 0.3914 0.6086
##
## Estimated class population shares
## 0.2565 0.1569 0.3155 0.2711
##
## Predicted class memberships (by modal posterior prob.)
## 0.2518 0.129 0.3283 0.2908
##
## =========================================================
## Fit for 4 latent classes:
## =========================================================
## number of observations: 27858
## number of estimated parameters: 63
## residual degrees of freedom: 1736
## maximum log-likelihood: -197805.1
##
## AIC(4): 395736.2
## BIC(4): 396255
## G^2(4): 4696.137 (Likelihood ratio/deviance statistic)
## X^2(4): 4670.718 (Chi-square goodness of fit)
##
En este caso las 4 clases poseen las siguientes caracteristicas:
Clase 1: En este caso, la mayoria posee AF insuficiente y CS repartido en todos los terciles. su edad se acumula entre 50 a más de 65 años por lo que estamos en un grupo más bien envejecido. Se ubican entre los quintiles 2 y 4 formando la clase media por excelencia. Y su nivel de instruccion se acumula en primario completo y, en menor medida, secundario completo. Tampoco presentan carencias materiales y vivienda, y son mayoritariamente mujeres aunque en menor medida. Este grupo es la clase media por excelencia con varios indivudos jubilados. Clase media inactiva del analisis anterior (N = 7016)
Clase 2: formada por personas de AF suficiente (0.52) y bajo CS (0.52). Son personas repartidas entre 25 a 64 años, y agrupadas en los quintiles 1 y 2, formando así la clase menos pudiente de todas. En cuanto a nivel educativo, se acumulan en primario completo, con eventuales secundarios completos. Este es el unico grupo con carencias materiales y vivienda, y mayoritariamente mujeres. Serían los vulnerados en el analisis anterior. (N = 3594)
Clase 3: es grupo posee una gran probabilidad posterior de AF suficiente y de alto CS. A su vez, son indiviudos de 25 a más de 65 años. Se amontonan en los quintiles 4 y 5 por lo que son gente mas bien pudiente. Y tambien tienen un alto grado de universitario completo, y secundario completo. Por supuesto, tampoco tienen carencias materiales y de vivienda y son mayoritariamente mujeres. Este grupo es el equivalente a los formados. (N = 9146)
Clase 4: principalmente formada por individuos de AF suficiente y CS representado en todos los terciles. En cuant oa edad, se trata de personas mas bien jovenes en su mayoria de 18 a 49 años. Estos individuos se concentran en los quintiles 1 a 3 y su mayoria poseen secundario y universitario completo. No poseen carencias materiales y vivienda, y son mayoritariamente mujeres. Serían como los surgentes del analisis anterior (N = 8102)
Algo a notar es que estas clases en donde tenemos en cuenta todas las variables, están mejor balanceadas que cuando solo tomamos en cuenta las explicativas. A modo comparativo, se realizan los mismos graficos de radar que antes:
Ahora se utilizan estas clases creadas con todas las variables para analizar la variacón entre provincias
| CM Inactiva (N=6242) | Surgentes (N=8230) | Formados (N=10408) | Vulnerados (N=2978) | Total (N=27858) | p value | |
|---|---|---|---|---|---|---|
| provincia | < 0.001 | |||||
| Buenos Aires | 1435 (23.0%) | 1403 (17.0%) | 2017 (19.4%) | 500 (16.8%) | 5355 (19.2%) | |
| Catamarca | 145 (2.3%) | 301 (3.7%) | 284 (2.7%) | 84 (2.8%) | 814 (2.9%) | |
| Chaco | 180 (2.9%) | 308 (3.7%) | 211 (2.0%) | 211 (7.1%) | 910 (3.3%) | |
| Chubut | 247 (4.0%) | 197 (2.4%) | 425 (4.1%) | 61 (2.0%) | 930 (3.3%) | |
| CABA | 194 (3.1%) | 140 (1.7%) | 987 (9.5%) | 18 (0.6%) | 1339 (4.8%) | |
| Córdoba | 410 (6.6%) | 555 (6.7%) | 785 (7.5%) | 141 (4.7%) | 1891 (6.8%) | |
| Corrientes | 195 (3.1%) | 331 (4.0%) | 328 (3.2%) | 158 (5.3%) | 1012 (3.6%) | |
| Entre Ríos | 395 (6.3%) | 469 (5.7%) | 541 (5.2%) | 150 (5.0%) | 1555 (5.6%) | |
| Formosa | 173 (2.8%) | 315 (3.8%) | 190 (1.8%) | 146 (4.9%) | 824 (3.0%) | |
| Jujuy | 166 (2.7%) | 448 (5.4%) | 211 (2.0%) | 158 (5.3%) | 983 (3.5%) | |
| La Pampa | 167 (2.7%) | 132 (1.6%) | 202 (1.9%) | 33 (1.1%) | 534 (1.9%) | |
| La Rioja | 131 (2.1%) | 271 (3.3%) | 245 (2.4%) | 72 (2.4%) | 719 (2.6%) | |
| Mendoza | 275 (4.4%) | 258 (3.1%) | 375 (3.6%) | 64 (2.1%) | 972 (3.5%) | |
| Misiones | 215 (3.4%) | 402 (4.9%) | 277 (2.7%) | 201 (6.7%) | 1095 (3.9%) | |
| Neuquén | 161 (2.6%) | 160 (1.9%) | 341 (3.3%) | 37 (1.2%) | 699 (2.5%) | |
| Río Negro | 352 (5.6%) | 332 (4.0%) | 634 (6.1%) | 78 (2.6%) | 1396 (5.0%) | |
| Salta | 186 (3.0%) | 550 (6.7%) | 284 (2.7%) | 228 (7.7%) | 1248 (4.5%) | |
| San Juan | 156 (2.5%) | 217 (2.6%) | 179 (1.7%) | 92 (3.1%) | 644 (2.3%) | |
| San Luis | 221 (3.5%) | 233 (2.8%) | 333 (3.2%) | 63 (2.1%) | 850 (3.1%) | |
| Santa Cruz | 117 (1.9%) | 111 (1.3%) | 287 (2.8%) | 14 (0.5%) | 529 (1.9%) | |
| Santa Fe | 370 (5.9%) | 486 (5.9%) | 705 (6.8%) | 181 (6.1%) | 1742 (6.3%) | |
| Santiago del Estero | 89 (1.4%) | 256 (3.1%) | 123 (1.2%) | 126 (4.2%) | 594 (2.1%) | |
| Tierra del Fuego | 46 (0.7%) | 53 (0.6%) | 193 (1.9%) | 5 (0.2%) | 297 (1.1%) | |
| Tucumán | 216 (3.5%) | 302 (3.7%) | 251 (2.4%) | 157 (5.3%) | 926 (3.3%) |
Figura 4/Tabla 2: Distribución de provincias en cada clase
Se puede ver que CABA tiene muchos formados lo cual es esperable mientras que provincias mas bien pobres como formosa tiene muchos vulnerados.
El Análisis de Perfiles Latentes (LPA) es el análisis a utilizar cuando las variables predictoras son cuantitativas. Es similar al análisis de clases. Se utilizan los modelos EEI, EEE, VVI y VVV para ver el mejor agrupamiento.
Se van a correr 3 analisis de perfiles utilizando diferentes variables:
Todas las variables (horas sentado, MET semanal, edad, ingresos, nivel de instruccion (ordinal) y genero (binaria))
Sin genero
Sin genero ni nivel de instruccion
Esto se hace porque tanto el genero como nivel de instruccion no tienen una naturaleza cuantitativa emergente sino que son más bien clasificaciones cualitativas. Los resultados son los siguientes
##
## 1
## 27858
##
## 1 2
## 21144 6714
##
## 1 2 3 4
## 10857 7634 2383 6984
Se puede ver en la tabla que a medida que removemos las variables que no son de naturaleza numerica estricta, los modelos mejoran segun BIC, y loglik; sin embargo, aumenta la incerteza (maxima y promedio). En cuanto a la naturaleza estadística, tambien se puede ver que remover variables no numericas es beneficioso porque pasamos de 1 solo perfil a 4, haciendo que el analisis pueda ser interpretado.
Si observamos lo que sucede dentro del modelo sin genero ni nivel de instruccion se puede ver la probabilidad de pertenencia de cada perfil y sus parametros para las variables usadas.
## Group.1 prob (perfil 1) prob (perfil 2) prob (perfil 3) prob (perfil 4)
## 1 1 0.827611437737254763 0.07399398 0.001214541 0.09718004
## 2 2 0.054945984022634370 0.85726584 0.053268111 0.03452006
## 3 3 0.000000000002485589 0.07243210 0.903101012 0.02446689
## 4 4 0.070373670709060726 0.11958216 0.018835118 0.79120905
Se observa que las probabilidades de pertenencia son altas por lo que los perfiles están bien definidos. Y en cuanto a los parametros, se observa que:
Perfil 1: la menos sedentaria (menor cantidad de horas sentado) pero tambien muy inactiva físicamente (con una irrisoria cantidad de MET semanales), y tambien son los de menores ingresos. Esta clase podría la ser la más desfavorecida (los vulnerados en el analisis de clases latentes)
Perfil 2: es la clase menos sedentaria de todas y también es muy activa. Los ingresos indican que este perfil pertenece a la clase media. Esta clase podría ser los los surgentes (porque tambien son los más jovenes) del analisis anterior
Perfil 3: es poco sedentaria y además la más activa físicamente de todas. Tmabien posee los ingresos más altos. Esta clase está conformando lo que en el analisis anterior llamamos “formados”
Perfil 4: es el perfil mas sedentario de todos y el menos activo de todos. Sus ingresos indican que son clase media, y su edad marca que quizas son la clase media inactiva del analsis anterior.
Cabe acalrar que la mediana de salarios en 2018 era de $25,000 (fuente: https://www.infobae.com/economia/2018/11/29/el-salario-medio-de-la-economia-perdio-96-de-su-capacidad-de-compra-en-un-ano/)
Ahora se procede a realizar lo mismo pero con las variables normalizadas por logaritmo. Cuando las variables son normalizadas de esta manera, existe una mejor probabilidad de agrupar correctamente ya que las variables originales son demasiado asimétricas
##
## 1
## 22547
##
## 1 2
## 14865 7682
##
## 1 2 3 4 5 6
## 2231 1938 8010 2578 2404 5386
Parecería que los resultados expanden un poco sus fronteras porque ahora teneos 6 perfiles. SIn embargo, las variables que no son naturalmente cuantitativas siguen sin dar buenos resultados. Cabe aclarar que los BIC de estos modelos mejoraron un MONTON respecto de su version no logaritmizada
Veamos los resultados:
## Group.1 prob (perfil 1) prob (perfil 2) prob (perfil 3) prob (perfil 4)
## 1 1 0.590678515895 0.006959694 0.021248192 0.1623216241
## 2 2 0.000007123306 0.721180942 0.197416483 0.0009004589
## 3 3 0.000058058810 0.171498748 0.740447964 0.0515726226
## 4 4 0.091056232631 0.016466806 0.134212115 0.6116376239
## 5 5 0.118125946472 0.006700796 0.003067318 0.0359643561
## 6 6 0.076751880420 0.101913774 0.083401644 0.0495398418
## prob (perfil 5) prob (perfil 6)
## 1 0.0536281769441 0.16516380
## 2 0.0000307783371 0.08046422
## 3 0.0000001289187 0.03642248
## 4 0.0029765523772 0.14365067
## 5 0.7467162736304 0.08942531
## 6 0.0200795798516 0.66831328
Si tomamos esta tabla, y deshacemos los logaritmos se obtiene lo siguiente:
Puede verse que siguen apareciendo categorias bien definidas similares a las anteriores pero con un poco mas de matices. Por ejemplo, el perfil 4 se asemeja a los formados por sus ingresos, horas sentado y MET semanal, asi como tambien el perfil 5 se parece a los surgentes. El perfil 2 serían los vulnerados, y la CM ina ctiva seria el 3. Los perfiles remanentes como 1 y 6 son matices de los surgenes y formados respectivamente.
Ahora se procede a realizar analisis de cluster para comparar con analisis de perfiles latentes. Para ello se emplean analisis de cluster de 3 a 6 centros y se compara la suma de cuadrados dentro en cada caso. Los resultados son los siguientes. Se utilizan las variables logaritmizadas para evitar problemas por variables asimétricas
Para encontrar el número óptimo de clústers hay que encontrar el “elbow point” donde se puede notar un cambio de pendiente con una leve caída posterior. Ese punto me parece que es el punto 3, por lo que k = 3 es el número óptimo de clústers.
Si ahora observamos qué dentro de este analisis de 3 clústers se observa lo siguiente:
Se puede ver que el modelo con 3 clusters está fuertemente desenfocado y no es capaz de separar ningun grupo aislado. Este no es un buen resultado.