Objetivos

Recordamos los objetivos principales de la tesis

Descriptiva

Alto (N=14957) Bajo (N=12901) Total (N=27858)
Rango etario
   18 a 24 2117 (64.8%) 1150 (35.2%) 3267 (100.0%)
   25 a 34 3342 (62.0%) 2052 (38.0%) 5394 (100.0%)
   35 a 49 4238 (54.9%) 3483 (45.1%) 7721 (100.0%)
   50 a 64 3084 (50.5%) 3025 (49.5%) 6109 (100.0%)
   65 o + 2176 (40.5%) 3191 (59.5%) 5367 (100.0%)
Género
   Varon 6809 (56.7%) 5203 (43.3%) 12012 (100.0%)
   Mujer 8148 (51.4%) 7698 (48.6%) 15846 (100.0%)
nivel_instruccion
   Hasta Primario Completo 3328 (43.4%) 4335 (56.6%) 7663 (100.0%)
   Hasta Secundario Completo 6268 (54.5%) 5240 (45.5%) 11508 (100.0%)
   Hasta Uni. Completo 5361 (61.7%) 3326 (38.3%) 8687 (100.0%)
Quintil de Ingresos
   Quintil 1 2839 (52.0%) 2619 (48.0%) 5458 (100.0%)
   Quintil 2 2832 (50.1%) 2819 (49.9%) 5651 (100.0%)
   Quintil 3 2803 (51.8%) 2605 (48.2%) 5408 (100.0%)
   Quintil 4 3129 (54.9%) 2573 (45.1%) 5702 (100.0%)
   Quintil 5 3354 (59.5%) 2285 (40.5%) 5639 (100.0%)
CMV
   No tiene 10332 (53.9%) 8846 (46.1%) 19178 (100.0%)
   Si tiene 4625 (53.3%) 4055 (46.7%) 8680 (100.0%)
No Sedentario (N=23480) Sedentario (N=4378) Total (N=27858)
Rango etario
   18 a 24 2651 (81.1%) 616 (18.9%) 3267 (100.0%)
   25 a 34 4536 (84.1%) 858 (15.9%) 5394 (100.0%)
   35 a 49 6495 (84.1%) 1226 (15.9%) 7721 (100.0%)
   50 a 64 5306 (86.9%) 803 (13.1%) 6109 (100.0%)
   65 o + 4492 (83.7%) 875 (16.3%) 5367 (100.0%)
Género
   Varon 9884 (82.3%) 2128 (17.7%) 12012 (100.0%)
   Mujer 13596 (85.8%) 2250 (14.2%) 15846 (100.0%)
nivel_instruccion
   Hasta Primario Completo 6672 (87.1%) 991 (12.9%) 7663 (100.0%)
   Hasta Secundario Completo 10017 (87.0%) 1491 (13.0%) 11508 (100.0%)
   Hasta Uni. Completo 6791 (78.2%) 1896 (21.8%) 8687 (100.0%)
Quintil de Ingresos
   Quintil 1 4845 (88.8%) 613 (11.2%) 5458 (100.0%)
   Quintil 2 4897 (86.7%) 754 (13.3%) 5651 (100.0%)
   Quintil 3 4631 (85.6%) 777 (14.4%) 5408 (100.0%)
   Quintil 4 4712 (82.6%) 990 (17.4%) 5702 (100.0%)
   Quintil 5 4395 (77.9%) 1244 (22.1%) 5639 (100.0%)
CMV
   No tiene 15872 (82.8%) 3306 (17.2%) 19178 (100.0%)
   Si tiene 7608 (87.6%) 1072 (12.4%) 8680 (100.0%)

Primer objetivo: estratificación de la sociedad

Para la estratificación de la sociedad se realiza un analisis de clases latentes. Este análisis va a tomar varias variables como input y va a devolver la manera más parsimoniosa y verosimil de estratificar a la sociedad. Es una manera de resumir mucha información en una sola variable para ser usada en futuros análisis.

En este caso, para el análisis de clases latentes, se utilizan las siguientes variables:

Para llevar a cabo el análisis es necesario fijar de antemano cuántas clases se desean. Luego, podemos comparar cada modelo en función de criterios de información para decidir el mejor número de clases.

Puede verse que conforme aumentamos el número de clases, los criterios de información siempre mejoran. Esto era de esperarse pues estamos dando más libertad al modelo de categorizar a las personas por lo que los criterios de informacion aumentan. Entonces, ¿cómo elegimos el mejor numero de clases? Para eso tenemos que ver dos cosas:

Este grafico se ve así:

Se puede ver que el número de clases optimo está entre 3 o 4. Elegimos 4 para que sea más cómodo.

Si elegimos el modelo de 4 clases, estos son los resultados

## Conditional item response (column) probabilities,
##  by outcome variable, for each class (row) 
##  
## $rango_edad
##           18 a 24 25 a 34 35 a 49 50 a 64 65 o +
## class 1:   0.0038  0.0233  0.1287  0.2966 0.5477
## class 2:   0.3024  0.3271  0.2879  0.0819 0.0008
## class 3:   0.0781  0.2174  0.3399  0.2374 0.1272
## class 4:   0.0729  0.1619  0.3271  0.2954 0.1427
## 
## $quintil_ingreso
##           Quintil 1 Quintil 2 Quintil 3 Quintil 4 Quintil 5
## class 1:     0.0525    0.2971    0.2859    0.2639    0.1006
## class 2:     0.3600    0.2882    0.2315    0.1190    0.0013
## class 3:     0.0248    0.0721    0.1469    0.2919    0.4643
## class 4:     0.6191    0.2583    0.1048    0.0163    0.0015
## 
## $nivel_instruccion
##           Hasta Primario Completo Hasta Secundario Completo Hasta Uni. Completo
## class 1:                   0.7338                    0.2569              0.0093
## class 2:                   0.0000                    0.7294              0.2706
## class 3:                   0.0041                    0.3726              0.6232
## class 4:                   0.7950                    0.1982              0.0068
## 
## $CMT
##           No tiene Si tiene
## class 1:    0.7764   0.2236
## class 2:    0.5451   0.4549
## class 3:    0.8646   0.1354
## class 4:    0.3051   0.6949
## 
## Estimated class population shares 
##  0.2267 0.2528 0.3857 0.1348 
##  
## Predicted class memberships (by modal posterior prob.) 
##  0.2241 0.2954 0.3736 0.1069 
##  
## ========================================================= 
## Fit for 4 latent classes: 
## ========================================================= 
## number of observations: 27858 
## number of estimated parameters: 47 
## residual degrees of freedom: 102 
## maximum log-likelihood: -129768.8 
##  
## AIC(4): 259631.6
## BIC(4): 260018.6
## G^2(4): 621.1714 (Likelihood ratio/deviance statistic) 
## X^2(4): 626.6296 (Chi-square goodness of fit) 
##  
## ALERT: iterations finished, MAXIMUM LIKELIHOOD NOT FOUND 
## 

Respecto a cada clase, se puede observar lo siguiente:

De forma comparativa, se realizan graficos de tipo radar para visualizar las diferencias de cada clase en cada variable:

Y ahora vamos a ver cómo se comportan las clases con AF y CS.

Estratos según Actividad Física

Puede verse que la prevalencia de AF baja es mas importante en Vulnerados y CM Inactiva, mientras que los más activos son los Formados.

Estratos según Comportamiento Sedentario

En este caso, puede verse que el CS es mas importante en los formados mientras que disminuye en el resto de las clases, sobre todo en los vulnerados que es el extremo opuesto del espectro. Esto indica que el CS podría estar involucrado principalmente en las personas más favorecidas por el sistema.

Modelos estadísticos

Los modelos estadisticos se van a particionar en temperaturas por un lado y precipitaciones por otro. Para cada caso, se analizará la relación con AF y CS, y se evaluarán interacciones con el NSE.

Temperatura

Se comienza con AF Se utilizarán diferentes variables indicadoras del NSE.

Clases como indicador de NSE: se intenta correr una regresión logística con AF como VR y el modelo es el siguiente:

\[ logit(\pi(AF_{Baja})) = \beta_{j0} + \beta_1Clase + \beta_2T_{media} + \beta_3Genero + \beta_4Quintil*T_{media} \]

Se puede ver que el supuesto de linealidad entre el PL y el logit(AF) está comprometida para la temperatura. Esto es sumamente lógico porque la bibliografía dice que la AF baja en temperaturas altas y bajas, y como Argentina tiene ambos climas es esperable un comportamiento no lineal. Es por este motivo que las regresiones logísticas no cumplen con el supuestos de linealidad para temperatura por lo que se corre un modelo GAM.

##                           df      AIC
## m1_gam_AF_k4       16.777459 37162.29
## m1_gam_AF_k5       18.799362 37157.54
## m1_gam_AF_k6       19.858305 37161.22
## m1_gam_AF_k4_sinby  7.975649 37162.85
## m1_gam_AF_k5_sinby  8.663662 37161.89
## m1_gam_AF_k6_sinby  9.154258 37165.11
##                           df      BIC
## m1_gam_AF_k4       16.777459 37300.27
## m1_gam_AF_k5       18.799362 37312.15
## m1_gam_AF_k6       19.858305 37324.53
## m1_gam_AF_k4_sinby  7.975649 37228.44
## m1_gam_AF_k5_sinby  8.663662 37233.14
## m1_gam_AF_k6_sinby  9.154258 37240.39

## 
## Method: UBRE   Optimizer: outer newton
## full convergence after 5 iterations.
## Gradient range [3.396192e-12,1.277494e-06]
## (score 0.3483652 & scale 1).
## Hessian positive definite, eigenvalue range [2.542973e-06,6.105877e-06].
## Model rank =  17 / 17 
## 
## Basis dimension (k) checking results. Low p-value (k-index<1) may
## indicate that k is too low, especially if edf is close to k'.
## 
##                                  k'  edf k-index p-value
## s(temp_media):claseCM Inactiva 3.00 2.96    0.99    0.22
## s(temp_media):claseSurgentes   3.00 2.94    0.99    0.20
## s(temp_media):claseFormados    3.00 2.93    0.99    0.17
## s(temp_media):claseVulnerados  3.00 2.94    0.99    0.20
## Summary:
##  * clase : factor; set to the value(s): CM Inactiva, Formados, Surgentes, Vulnerados. 
##  * genero : factor; set to the value(s): Mujer. 
##  * temp_media : numeric predictor; with 30 values ranging from 8.000000 to 23.000000.

Al analizar por AIC y BIC vemos que el mejor modelo es aquel que no asume una interaccion NSE y clima. Decido que esto gana por parsimonia (penalizar por complejidad). Y al graficar lo que se ve es que los grupos desfavorecidos son la CM inactiva y los Vulnerados.

A partir de ahora y a modo de validación, se realizan los mismos modelos pero con los diferentes indicadores usados para construir las clases:

Quintil de ingresos como indicador de NSE: se corre directamente el GAM y da lo siguiente:

##                          df      AIC
## m2_gam_AF_k4       24.63132 36908.09
## m2_gam_AF_k5       26.20414 36908.62
## m2_gam_AF_k6       28.28824 36911.62
## m2_gam_AF_k4_sinby 12.97712 36909.48
## m2_gam_AF_k5_sinby 13.63043 36908.37
## m2_gam_AF_k6_sinby 14.07986 36911.75
##                          df      BIC
## m2_gam_AF_k4       24.63132 37110.66
## m2_gam_AF_k5       26.20414 37124.13
## m2_gam_AF_k6       28.28824 37144.26
## m2_gam_AF_k4_sinby 12.97712 37016.21
## m2_gam_AF_k5_sinby 13.63043 37020.47
## m2_gam_AF_k6_sinby 14.07986 37027.54

## 
## Method: UBRE   Optimizer: outer newton
## full convergence after 4 iterations.
## Gradient range [1.129172e-06,1.129172e-06]
## (score 0.3391924 & scale 1).
## Hessian positive definite, eigenvalue range [3.779971e-06,3.779971e-06].
## Model rank =  13 / 13 
## 
## Basis dimension (k) checking results. Low p-value (k-index<1) may
## indicate that k is too low, especially if edf is close to k'.
## 
##                 k'  edf k-index p-value   
## s(temp_media) 3.00 2.98    0.96   0.005 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Summary:
##  * quintil_ingreso : factor; set to the value(s): Quintil 1, Quintil 2, Quintil 3, Quintil 4, Quintil 5. 
##  * genero : factor; set to the value(s): Mujer. 
##  * rango_edad : factor; set to the value(s): 35 a 49. 
##  * temp_media : numeric predictor; with 30 values ranging from 8.000000 to 23.000000.

El patron que puede observarse es similar a las clases. Los quintiles bajos son los que más AF baja presentan.

Nivel de instrucción como indicador de NSE: se corre directamente el GAM con esta variable

##                          df      AIC
## m3_gam_AF_k4       16.85123 36778.41
## m3_gam_AF_k5       18.40077 36774.60
## m3_gam_AF_k6       19.21107 36777.92
## m3_gam_AF_k4_sinby 10.98018 36781.00
## m3_gam_AF_k5_sinby 11.61850 36779.33
## m3_gam_AF_k6_sinby 12.04881 36782.50
##                          df      BIC
## m3_gam_AF_k4       16.85123 36917.00
## m3_gam_AF_k5       18.40077 36925.93
## m3_gam_AF_k6       19.21107 36935.92
## m3_gam_AF_k4_sinby 10.98018 36871.30
## m3_gam_AF_k5_sinby 11.61850 36874.88
## m3_gam_AF_k6_sinby 12.04881 36881.59

## 
## Method: UBRE   Optimizer: outer newton
## full convergence after 4 iterations.
## Gradient range [6.105095e-07,6.105095e-07]
## (score 0.3345306 & scale 1).
## Hessian positive definite, eigenvalue range [2.574618e-06,2.574618e-06].
## Model rank =  11 / 11 
## 
## Basis dimension (k) checking results. Low p-value (k-index<1) may
## indicate that k is too low, especially if edf is close to k'.
## 
##                 k'  edf k-index p-value   
## s(temp_media) 3.00 2.98    0.96   0.005 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Summary:
##  * nivel_instruccion : factor; set to the value(s): Hasta Primario Completo, Hasta Secundario Completo, Hasta Uni. Completo. 
##  * genero : factor; set to the value(s): Mujer. 
##  * rango_edad : factor; set to the value(s): 35 a 49. 
##  * temp_media : numeric predictor; with 30 values ranging from 8.000000 to 23.000000.

Los patrones son similares, todo en orden.

CMV como indicador de NSE: Se corre directament el GAM con CMV

##                           df      AIC
## m4_gam_AF_k4       12.899793 37004.92
## m4_gam_AF_k5       14.180602 37000.23
## m4_gam_AF_k6       15.704003 36997.48
## m4_gam_AF_k4_sinby  9.976546 37003.14
## m4_gam_AF_k5_sinby 10.629968 36997.99
## m4_gam_AF_k6_sinby 11.026194 37002.26
##                           df      BIC
## m4_gam_AF_k4       12.899793 37111.01
## m4_gam_AF_k5       14.180602 37116.85
## m4_gam_AF_k6       15.704003 37126.63
## m4_gam_AF_k4_sinby  9.976546 37085.19
## m4_gam_AF_k5_sinby 10.629968 37085.42
## m4_gam_AF_k6_sinby 11.026194 37092.94

## 
## Method: UBRE   Optimizer: outer newton
## full convergence after 4 iterations.
## Gradient range [1.425846e-06,1.425846e-06]
## (score 0.3425906 & scale 1).
## Hessian positive definite, eigenvalue range [4.390689e-06,4.390689e-06].
## Model rank =  10 / 10 
## 
## Basis dimension (k) checking results. Low p-value (k-index<1) may
## indicate that k is too low, especially if edf is close to k'.
## 
##                 k'  edf k-index p-value   
## s(temp_media) 3.00 2.98    0.96   0.005 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Summary:
##  * CMT : factor; set to the value(s): No tiene, Si tiene. 
##  * genero : factor; set to the value(s): Mujer. 
##  * rango_edad : factor; set to the value(s): 35 a 49. 
##  * temp_media : numeric predictor; with 30 values ranging from 8.000000 to 23.000000.

Los patrones son iguales a los ya vistos.

En esta parte se continua con CS. Se utilizan las mismas variables como indicadoras de NSE.

Clases como indicaodras de NSE: el modelo GAM muestra lo siguiente

##                           df      AIC
## m5_gam_AF_k4       15.758543 23490.00
## m5_gam_AF_k5       17.533607 23486.18
## m5_gam_AF_k6       18.063037 23487.62
## m5_gam_AF_k4_sinby  7.932827 23502.13
## m5_gam_AF_k5_sinby  8.336217 23499.85
## m5_gam_AF_k6_sinby  8.701956 23500.18
##                           df      BIC
## m5_gam_AF_k4       15.758543 23619.60
## m5_gam_AF_k5       17.533607 23630.38
## m5_gam_AF_k6       18.063037 23636.17
## m5_gam_AF_k4_sinby  7.932827 23567.37
## m5_gam_AF_k5_sinby  8.336217 23568.41
## m5_gam_AF_k6_sinby  8.701956 23571.75

## 
## Method: UBRE   Optimizer: outer newton
## full convergence after 5 iterations.
## Gradient range [1.211237e-06,1.211237e-06]
## (score -0.1472687 & scale 1).
## Hessian positive definite, eigenvalue range [6.508113e-06,6.508113e-06].
## Model rank =  8 / 8 
## 
## Basis dimension (k) checking results. Low p-value (k-index<1) may
## indicate that k is too low, especially if edf is close to k'.
## 
##                 k'  edf k-index p-value
## s(temp_media) 3.00 2.93    0.97    0.78
## Summary:
##  * clase : factor; set to the value(s): CM Inactiva, Formados, Surgentes, Vulnerados. 
##  * genero : factor; set to the value(s): Mujer. 
##  * temp_media : numeric predictor; with 30 values ranging from 8.000000 to 23.000000.

Al analizar por AIC y BIC vemos que el mejor modelo es aquel que no asume una interaccion NSE y clima. Decido que esto gana por parsimonia (penalizar por complejidad). Y al graficar lo que se ve es que los grupos mas sedentarios con los formados.

A partir de ahora y a modo de validación, se realizan los mismos modelos pero con los diferentes indicadores usados para construir las clases:

Quintil de ingresos como indicador de NSE: se corre directamente el GAM y da lo siguiente:

##                          df      AIC
## m6_gam_AF_k4       23.16050 23458.60
## m6_gam_AF_k5       25.48931 23450.30
## m6_gam_AF_k6       27.00184 23452.64
## m6_gam_AF_k4_sinby 12.92886 23449.55
## m6_gam_AF_k5_sinby 13.29163 23448.29
## m6_gam_AF_k6_sinby 13.58937 23448.97
##                          df      BIC
## m6_gam_AF_k4       23.16050 23649.07
## m6_gam_AF_k5       25.48931 23659.92
## m6_gam_AF_k6       27.00184 23674.70
## m6_gam_AF_k4_sinby 12.92886 23555.88
## m6_gam_AF_k5_sinby 13.29163 23557.61
## m6_gam_AF_k6_sinby 13.58937 23560.73

## 
## Method: UBRE   Optimizer: outer newton
## full convergence after 5 iterations.
## Gradient range [1.153787e-06,1.153787e-06]
## (score -0.1491764 & scale 1).
## Hessian positive definite, eigenvalue range [6.615237e-06,6.615237e-06].
## Model rank =  13 / 13 
## 
## Basis dimension (k) checking results. Low p-value (k-index<1) may
## indicate that k is too low, especially if edf is close to k'.
## 
##                 k'  edf k-index p-value
## s(temp_media) 3.00 2.93    0.97    0.84
## Summary:
##  * quintil_ingreso : factor; set to the value(s): Quintil 1, Quintil 2, Quintil 3, Quintil 4, Quintil 5. 
##  * genero : factor; set to the value(s): Mujer. 
##  * rango_edad : factor; set to the value(s): 35 a 49. 
##  * temp_media : numeric predictor; with 30 values ranging from 8.000000 to 23.000000.

El patron que puede observarse es similar a las clases. Los quintiles altos son los que más CS presentan.

Nivel de instrucción como indicador de NSE: se corre directamente el GAM con esta variable

##                          df      AIC
## m7_gam_AF_k4       16.46591 23354.62
## m7_gam_AF_k5       17.50920 23350.75
## m7_gam_AF_k6       18.41417 23350.31
## m7_gam_AF_k4_sinby 10.93141 23370.49
## m7_gam_AF_k5_sinby 11.46738 23366.12
## m7_gam_AF_k6_sinby 11.70016 23366.54
##                          df      BIC
## m7_gam_AF_k4       16.46591 23490.04
## m7_gam_AF_k5       17.50920 23494.75
## m7_gam_AF_k6       18.41417 23501.75
## m7_gam_AF_k4_sinby 10.93141 23460.39
## m7_gam_AF_k5_sinby 11.46738 23460.43
## m7_gam_AF_k6_sinby 11.70016 23462.76

## 
## Method: UBRE   Optimizer: outer newton
## full convergence after 5 iterations.
## Gradient range [1.174861e-06,1.174861e-06]
## (score -0.1520448 & scale 1).
## Hessian positive definite, eigenvalue range [6.51714e-06,6.51714e-06].
## Model rank =  11 / 11 
## 
## Basis dimension (k) checking results. Low p-value (k-index<1) may
## indicate that k is too low, especially if edf is close to k'.
## 
##                 k'  edf k-index p-value
## s(temp_media) 3.00 2.93    0.97    0.78
## Summary:
##  * nivel_instruccion : factor; set to the value(s): Hasta Primario Completo, Hasta Secundario Completo, Hasta Uni. Completo. 
##  * genero : factor; set to the value(s): Mujer. 
##  * rango_edad : factor; set to the value(s): 35 a 49. 
##  * temp_media : numeric predictor; with 30 values ranging from 8.000000 to 23.000000.

Los patrones son similares, todo en orden.

CMV como indicador de NSE: Se corre directament el GAM con CMV

##                           df      AIC
## m8_gam_AF_k4       12.691166 23601.95
## m8_gam_AF_k5       13.822686 23595.09
## m8_gam_AF_k6       14.041025 23595.38
## m8_gam_AF_k4_sinby  9.945658 23601.52
## m8_gam_AF_k5_sinby 10.656734 23593.56
## m8_gam_AF_k6_sinby 10.893549 23593.88
##                           df      BIC
## m8_gam_AF_k4       12.691166 23706.33
## m8_gam_AF_k5       13.822686 23708.77
## m8_gam_AF_k6       14.041025 23710.86
## m8_gam_AF_k4_sinby  9.945658 23683.32
## m8_gam_AF_k5_sinby 10.656734 23681.20
## m8_gam_AF_k6_sinby 10.893549 23683.47

## 
## Method: UBRE   Optimizer: outer newton
## full convergence after 4 iterations.
## Gradient range [8.190349e-07,8.190349e-07]
## (score -0.1439514 & scale 1).
## Hessian positive definite, eigenvalue range [1.61299e-05,1.61299e-05].
## Model rank =  11 / 11 
## 
## Basis dimension (k) checking results. Low p-value (k-index<1) may
## indicate that k is too low, especially if edf is close to k'.
## 
##                 k'  edf k-index p-value
## s(temp_media) 4.00 3.66    0.97    0.81
## Summary:
##  * CMT : factor; set to the value(s): No tiene, Si tiene. 
##  * genero : factor; set to the value(s): Mujer. 
##  * rango_edad : factor; set to the value(s): 35 a 49. 
##  * temp_media : numeric predictor; with 30 values ranging from 8.000000 to 23.000000.

Mismos patrones. No tener CMV genera más CS.