Análisis de clases latentes con variables respuesta.

La idea de este análisis es tomar las variables respuesta de nivel de actividad física y comportamiento sedentario, y utilizarlos para formar grupos discretos apoyados por evidencia basada en modelos.

Se realizan modelos de Clases Latentes usando estas variables y proponiendo diferentes numeros de clases de 2 a 4. Lamentablemente, la cantidad de categorías determina una insuficiente cantidad de grados de libertad haciendo que los modelos queden con grados de libertad residuales negativos. Esto es inadmisible.

Como puede verse en la columna de grados de libertad residuales (resid.df), todos los modelos son invalidos por tener valores negativos en dicha columna.

Análisis de clases latentes con variables explicativas

En esta sección se propone realizar el mismo análisis de clases latentes pero para las variables explicativas con el objetivo de encontrar una variable generalizadora que sirva para explicar los estratos previamente propuestos de manera más sencilla

Puede verse que a medida que sumamos clases, los criterios de información se hacen cada vez mejores. Si bien el modelo de 5 clases es el mejor en términos de ajuste y criterios de información, considero oportuno usar el modelo de 4 clases para una mejor interpretabilidad.

El modelo de 4 clases posee la siguiente información:

## Conditional item response (column) probabilities,
##  by outcome variable, for each class (row) 
##  
## $rango_edad
##           18 a 24 25 a 34 35 a 49 50 a 64 65 o +
## class 1:   0.0038  0.0233  0.1287  0.2966 0.5477
## class 2:   0.3024  0.3271  0.2879  0.0819 0.0008
## class 3:   0.0781  0.2174  0.3399  0.2374 0.1272
## class 4:   0.0729  0.1619  0.3271  0.2954 0.1427
## 
## $quintil_ingreso
##           Quintil 1 Quintil 2 Quintil 3 Quintil 4 Quintil 5
## class 1:     0.0525    0.2971    0.2859    0.2639    0.1006
## class 2:     0.3600    0.2882    0.2315    0.1190    0.0013
## class 3:     0.0248    0.0721    0.1469    0.2919    0.4643
## class 4:     0.6191    0.2583    0.1048    0.0163    0.0015
## 
## $nivel_instruccion
##           Hasta Primario Completo Hasta Secundario Completo Hasta Uni. Completo
## class 1:                   0.7338                    0.2569              0.0093
## class 2:                   0.0000                    0.7294              0.2706
## class 3:                   0.0041                    0.3726              0.6232
## class 4:                   0.7950                    0.1982              0.0068
## 
## $CMT
##           No tiene Si tiene
## class 1:    0.7764   0.2236
## class 2:    0.5451   0.4549
## class 3:    0.8646   0.1354
## class 4:    0.3051   0.6949
## 
## Estimated class population shares 
##  0.2267 0.2528 0.3857 0.1348 
##  
## Predicted class memberships (by modal posterior prob.) 
##  0.2241 0.2954 0.3736 0.1069 
##  
## ========================================================= 
## Fit for 4 latent classes: 
## ========================================================= 
## number of observations: 27858 
## number of estimated parameters: 47 
## residual degrees of freedom: 102 
## maximum log-likelihood: -129768.8 
##  
## AIC(4): 259631.6
## BIC(4): 260018.6
## G^2(4): 621.1714 (Likelihood ratio/deviance statistic) 
## X^2(4): 626.6296 (Chi-square goodness of fit) 
##  
## ALERT: iterations finished, MAXIMUM LIKELIHOOD NOT FOUND 
## 

Respecto a cada clase, se puede observar lo siguiente:

De forma comparativa, se realizan graficos de tipo radar para visualizar las diferencias de cada clase en cada variable:

Descriptiva usando las 4 clases encontradas

Ya con las clases encontradas, se utilizan para ver cómo se relacionan con la AF y el CS.

Tabla 1: Descriptiva de cada estrato según las clases encontradas y el género (notar buen balanceo de cada estrato)

Distribución de cada estrato según el género
**Figura 1: Distribución de géneros en cada estrato**

Figura 1: Distribución de géneros en cada estrato

Se puede ver que la AF insuficiente se concentra en mujeres preferentemente.

Ahora se analiza la distribución de los estratos según las clases ecnontradas en el analisis de clases latentes.

**Figura 2: Distribución de clases en cada estrato**

Figura 2: Distribución de clases en cada estrato

se puede ver que los formados se caracterizan por un alto grado de CS Alto, y tambien AF suficiente lo cual tiene sentido dado que se trata de personas jovenes, de formación y altos ingresos. Por otro lado, los vulnerados se concentran en CS medio y bajo lo cual se explica porque una gran parte del tiempo están realizando trabajos de exigencia física. la clase media inactiva se concentra en AF insuficiente lo cual tiene sentido dado que se trata de personas más bien jubiladas. Finalmente, los surgentes se reparten en todos los estratos por ser muy jovenes, estudiantes, y con trabajo.

Si invertimos los ejes, obtenemos la descripcion de cada clase:

**Figura 3: Distribución de estratos en cada clase**

Figura 3: Distribución de estratos en cada clase

Puede verse que las clases resultantes poseen un N más bien poco balanceado. Sin embargo, puede verse que los patrones en este caso son mas claros en donde los formados poseen la mayor prevalencia de AF suficiente y CS bajo, mientras que los jubilados en CM inactiva tienen la mayor prevalncia de AF insuficiente y CS alto.

Clases latentes con todas las variables

A continuación se realizan clases latentes usando todas las variables pertinentes para el analisis, es decir tanto las variables respuesta como las explicativas. Las variables a utilizar son las siguientes: * Nivel de AF * CS en terciles * Rango etario * Sexo * Quintil de ingresos * Nivel educativo * Carencias materiales y de vivienda

Puede verse que a medida que sumamos clases, los criterios de información se hacen cada vez mejores. Si bien el modelo de 6 clases es el mejor en términos de ajuste y criterios de información, considero oportuno usar el modelo de 4 clases para una mejor interpretabilidad. Además, los modelos de 5 y 6 clases tienen categorias con probabilidad posterior igual a 0 por lo que no es recomendable según las personas que entienden el funcionamiento de LCA

El modelo de 4 clases posee la siguiente información:

## Conditional item response (column) probabilities,
##  by outcome variable, for each class (row) 
##  
## $nivel_actividad_fisica
##           Suficiente Insuficiente
## class 1:      0.3719       0.6281
## class 2:      0.5281       0.4719
## class 3:      0.6171       0.3829
## class 4:      0.6047       0.3953
## 
## $CS_terciles
##           Bajo CS Medio CS Alto CS
## class 1:   0.3312   0.3430  0.3257
## class 2:   0.5289   0.3180  0.1531
## class 3:   0.2416   0.3270  0.4314
## class 4:   0.3289   0.3404  0.3307
## 
## $rango_edad
##           18 a 24 25 a 34 35 a 49 50 a 64 65 o +
## class 1:   0.0001  0.0141  0.1217  0.3036 0.5605
## class 2:   0.0982  0.2077  0.3528  0.2621 0.0791
## class 3:   0.0708  0.2206  0.3468  0.2462 0.1156
## class 4:   0.2932  0.3238  0.2994  0.0835 0.0000
## 
## $quintil_ingreso
##           Quintil 1 Quintil 2 Quintil 3 Quintil 4 Quintil 5
## class 1:     0.0891    0.2995    0.2711    0.2454    0.0949
## class 2:     0.5922    0.2531    0.1167    0.0324    0.0055
## class 3:     0.0036    0.0188    0.1154    0.3056    0.5565
## class 4:     0.2915    0.2965    0.2577    0.1484    0.0059
## 
## $nivel_instruccion
##           Hasta Primario Completo Hasta Secundario Completo Hasta Uni. Completo
## class 1:                   0.6755                    0.2572              0.0673
## class 2:                   0.6304                    0.3696              0.0000
## class 3:                   0.0093                    0.3591              0.6316
## class 4:                   0.0000                    0.6486              0.3514
## 
## $CMT
##           No tiene Si tiene
## class 1:    0.7700   0.2300
## class 2:    0.2927   0.7073
## class 3:    0.8716   0.1284
## class 4:    0.6271   0.3729
## 
## $genero
##            Varon  Mujer
## class 1:  0.4154 0.5846
## class 2:  0.4690 0.5310
## class 3:  0.4594 0.5406
## class 4:  0.3914 0.6086
## 
## Estimated class population shares 
##  0.2565 0.1569 0.3155 0.2711 
##  
## Predicted class memberships (by modal posterior prob.) 
##  0.2518 0.129 0.3283 0.2908 
##  
## ========================================================= 
## Fit for 4 latent classes: 
## ========================================================= 
## number of observations: 27858 
## number of estimated parameters: 63 
## residual degrees of freedom: 1736 
## maximum log-likelihood: -197805.1 
##  
## AIC(4): 395736.2
## BIC(4): 396255
## G^2(4): 4696.137 (Likelihood ratio/deviance statistic) 
## X^2(4): 4670.718 (Chi-square goodness of fit) 
## 

En este caso las 4 clases poseen las siguientes caracteristicas:

Algo a notar es que estas clases en donde tenemos en cuenta todas las variables, están mejor balanceadas que cuando solo tomamos en cuenta las explicativas. A modo comparativo, se realizan los mismos graficos de radar que antes:

Clases latentes cruzado con provincia

Ahora se utilizan estas clases creadas con todas las variables para analizar la variacón entre provincias

CM Inactiva (N=6242) Surgentes (N=8230) Formados (N=10408) Vulnerados (N=2978) Total (N=27858) p value
provincia < 0.001
   Buenos Aires 1435 (23.0%) 1403 (17.0%) 2017 (19.4%) 500 (16.8%) 5355 (19.2%)
   Catamarca 145 (2.3%) 301 (3.7%) 284 (2.7%) 84 (2.8%) 814 (2.9%)
   Chaco 180 (2.9%) 308 (3.7%) 211 (2.0%) 211 (7.1%) 910 (3.3%)
   Chubut 247 (4.0%) 197 (2.4%) 425 (4.1%) 61 (2.0%) 930 (3.3%)
   CABA 194 (3.1%) 140 (1.7%) 987 (9.5%) 18 (0.6%) 1339 (4.8%)
   Córdoba 410 (6.6%) 555 (6.7%) 785 (7.5%) 141 (4.7%) 1891 (6.8%)
   Corrientes 195 (3.1%) 331 (4.0%) 328 (3.2%) 158 (5.3%) 1012 (3.6%)
   Entre Ríos 395 (6.3%) 469 (5.7%) 541 (5.2%) 150 (5.0%) 1555 (5.6%)
   Formosa 173 (2.8%) 315 (3.8%) 190 (1.8%) 146 (4.9%) 824 (3.0%)
   Jujuy 166 (2.7%) 448 (5.4%) 211 (2.0%) 158 (5.3%) 983 (3.5%)
   La Pampa 167 (2.7%) 132 (1.6%) 202 (1.9%) 33 (1.1%) 534 (1.9%)
   La Rioja 131 (2.1%) 271 (3.3%) 245 (2.4%) 72 (2.4%) 719 (2.6%)
   Mendoza 275 (4.4%) 258 (3.1%) 375 (3.6%) 64 (2.1%) 972 (3.5%)
   Misiones 215 (3.4%) 402 (4.9%) 277 (2.7%) 201 (6.7%) 1095 (3.9%)
   Neuquén 161 (2.6%) 160 (1.9%) 341 (3.3%) 37 (1.2%) 699 (2.5%)
   Río Negro 352 (5.6%) 332 (4.0%) 634 (6.1%) 78 (2.6%) 1396 (5.0%)
   Salta 186 (3.0%) 550 (6.7%) 284 (2.7%) 228 (7.7%) 1248 (4.5%)
   San Juan 156 (2.5%) 217 (2.6%) 179 (1.7%) 92 (3.1%) 644 (2.3%)
   San Luis 221 (3.5%) 233 (2.8%) 333 (3.2%) 63 (2.1%) 850 (3.1%)
   Santa Cruz 117 (1.9%) 111 (1.3%) 287 (2.8%) 14 (0.5%) 529 (1.9%)
   Santa Fe 370 (5.9%) 486 (5.9%) 705 (6.8%) 181 (6.1%) 1742 (6.3%)
   Santiago del Estero 89 (1.4%) 256 (3.1%) 123 (1.2%) 126 (4.2%) 594 (2.1%)
   Tierra del Fuego 46 (0.7%) 53 (0.6%) 193 (1.9%) 5 (0.2%) 297 (1.1%)
   Tucumán 216 (3.5%) 302 (3.7%) 251 (2.4%) 157 (5.3%) 926 (3.3%)
**Figura 4/Tabla 2: Distribución de provincias en cada clase**

Figura 4/Tabla 2: Distribución de provincias en cada clase

Se puede ver que CABA tiene muchos formados lo cual es esperable mientras que provincias mas bien pobres como formosa tiene muchos vulnerados.

Analisis de Perfiles Latentes con variables cuantitativas

El Análisis de Perfiles Latentes (LPA) es el análisis a utilizar cuando las variables predictoras son cuantitativas. Es similar al análisis de clases. Se utilizan los modelos EEI, EEE, VVI y VVV para ver el mejor agrupamiento.

Se van a correr 3 analisis de perfiles utilizando diferentes variables:

  • Todas las variables (horas sentado, MET semanal, edad, ingresos, nivel de instruccion (ordinal) y genero (binaria))

  • Sin genero

  • Sin genero ni nivel de instruccion

Esto se hace porque tanto el genero como nivel de instruccion no tienen una naturaleza cuantitativa emergente sino que son más bien clasificaciones cualitativas. Los resultados son los siguientes

## 
##     1 
## 27858
## 
##     1     2 
## 21144  6714
## 
##     1     2     3     4 
## 10857  7634  2383  6984

Se puede ver en la tabla que a medida que removemos las variables que no son de naturaleza numerica estricta, los modelos mejoran segun BIC, y loglik; sin embargo, aumenta la incerteza (maxima y promedio). En cuanto a la naturaleza estadística, tambien se puede ver que remover variables no numericas es beneficioso porque pasamos de 1 solo perfil a 4, haciendo que el analisis pueda ser interpretado.

Si observamos lo que sucede dentro del modelo sin genero ni nivel de instruccion se puede ver la probabilidad de pertenencia de cada perfil y sus parametros para las variables usadas.

##   Group.1      prob (perfil 1) prob (perfil 2) prob (perfil 3) prob (perfil 4)
## 1       1 0.827611437737254763      0.07399398     0.001214541      0.09718004
## 2       2 0.054945984022634370      0.85726584     0.053268111      0.03452006
## 3       3 0.000000000002485589      0.07243210     0.903101012      0.02446689
## 4       4 0.070373670709060726      0.11958216     0.018835118      0.79120905

Se observa que las probabilidades de pertenencia son altas por lo que los perfiles están bien definidos. Y en cuanto a los parametros, se observa que:

  • Perfil 1: la menos sedentaria (menor cantidad de horas sentado) pero tambien muy inactiva físicamente (con una irrisoria cantidad de MET semanales), y tambien son los de menores ingresos. Esta clase podría la ser la más desfavorecida (los vulnerados en el analisis de clases latentes)

  • Perfil 2: es la clase menos sedentaria de todas y también es muy activa. Los ingresos indican que este perfil pertenece a la clase media. Esta clase podría ser los los surgentes (porque tambien son los más jovenes) del analisis anterior

  • Perfil 3: es poco sedentaria y además la más activa físicamente de todas. Tmabien posee los ingresos más altos. Esta clase está conformando lo que en el analisis anterior llamamos “formados”

  • Perfil 4: es el perfil mas sedentario de todos y el menos activo de todos. Sus ingresos indican que son clase media, y su edad marca que quizas son la clase media inactiva del analsis anterior.

Cabe acalrar que la mediana de salarios en 2018 era de $25,000 (fuente: https://www.infobae.com/economia/2018/11/29/el-salario-medio-de-la-economia-perdio-96-de-su-capacidad-de-compra-en-un-ano/)

Ahora se procede a realizar lo mismo pero con las variables normalizadas por logaritmo. Cuando las variables son normalizadas de esta manera, existe una mejor probabilidad de agrupar correctamente ya que las variables originales son demasiado asimétricas

## 
##     1 
## 22547
## 
##     1     2 
## 14865  7682
## 
##    1    2    3    4    5    6 
## 2231 1938 8010 2578 2404 5386

Parecería que los resultados expanden un poco sus fronteras porque ahora teneos 6 perfiles. SIn embargo, las variables que no son naturalmente cuantitativas siguen sin dar buenos resultados. Cabe aclarar que los BIC de estos modelos mejoraron un MONTON respecto de su version no logaritmizada

Veamos los resultados:

##   Group.1 prob (perfil 1) prob (perfil 2) prob (perfil 3) prob (perfil 4)
## 1       1  0.590678515895     0.006959694     0.021248192    0.1623216241
## 2       2  0.000007123306     0.721180942     0.197416483    0.0009004589
## 3       3  0.000058058810     0.171498748     0.740447964    0.0515726226
## 4       4  0.091056232631     0.016466806     0.134212115    0.6116376239
## 5       5  0.118125946472     0.006700796     0.003067318    0.0359643561
## 6       6  0.076751880420     0.101913774     0.083401644    0.0495398418
##   prob (perfil 5) prob (perfil 6)
## 1 0.0536281769441      0.16516380
## 2 0.0000307783371      0.08046422
## 3 0.0000001289187      0.03642248
## 4 0.0029765523772      0.14365067
## 5 0.7467162736304      0.08942531
## 6 0.0200795798516      0.66831328

Si tomamos esta tabla, y deshacemos los logaritmos se obtiene lo siguiente:

Puede verse que siguen apareciendo categorias bien definidas similares a las anteriores pero con un poco mas de matices. Por ejemplo, el perfil 4 se asemeja a los formados por sus ingresos, horas sentado y MET semanal, asi como tambien el perfil 5 se parece a los surgentes. El perfil 2 serían los vulnerados, y la CM ina ctiva seria el 3. Los perfiles remanentes como 1 y 6 son matices de los surgenes y formados respectivamente.

Analisis de Cluster

Ahora se procede a realizar analisis de cluster para comparar con analisis de perfiles latentes. Para ello se emplean analisis de cluster de 3 a 6 centros y se compara la suma de cuadrados dentro en cada caso. Los resultados son los siguientes. Se utilizan las variables logaritmizadas para evitar problemas por variables asimétricas

Para encontrar el número óptimo de clústers hay que encontrar el “elbow point” donde se puede notar un cambio de pendiente con una leve caída posterior. Ese punto me parece que es el punto 3, por lo que k = 3 es el número óptimo de clústers.

Si ahora observamos qué dentro de este analisis de 3 clústers se observa lo siguiente:

Se puede ver que el modelo con 3 clusters está fuertemente desenfocado y no es capaz de separar ningun grupo aislado. Este no es un buen resultado.