CONSIGNA: Construir un modelo de regresión múltiple que permita responder al objetivo planteado siguiendo las siguientes etapas:

Etapa 1: Explicar en forma detallada el plan de análisis.

Se evaluará la asociación entre la PCR y la cantidad de horas semanales de actividad física de intensidad moderada o vigorosa (hs_af). Para ello emplearemos un modelo de regresión lineal múltiple donde la variable dependiente es hs_af y la variable independiente es PCR.

En el estudio se han recabado datos de otras variables clínicas y sociodemográficas. Dentro de ella se enumeran: edad, género, nivel de educación (educ), estado civil (estciv), edad, diag de hipertensión arterial (hta), diag de diabetes (dbt), diag de hipercolesterolemia (hipercol), tabaquismo activo (tabaq) e índice de masa corporal (imc).

En base a una búsqueda bibliográfica y junto a los conocimientos sobre el tema que disponemos, seleccionaremos las variables más importantes para ser ingresados en el análisis. Para esquematizar dichos conocimientos, realizaremos un DAG que servirá para identificar los posibles confundidores y los mediadores de efecto. Se evaluará cuidadosamente si edad, género, imc_cat, dbt, hta y hipercol tienen un rol como modificadora de efecto.

Estrategia implementada: MANUAL.

Etapa A: análisis bivariado Se realizará un modelo de regresión lineal simple para cada variable independiente Vs PCR. El objetivo es identificar las variables con asociación prelimilar utilizando el siguiente criterio de seleccion: p < 0,25.

Etapa B: ingreso de las variable al modelo de regresión múltiple Se ingresarán las variables al modelo de mayor a menor significancia estadística. En ella se retendrán las variables que cumplan con los siguientes criterios:

  1. Coeficiente β parcial significativo (p < 0.05).
  2. Relevancia biológica o clínica.
  3. Variable a ser evaluada con efecto confundidor sobre otra hs_af (cambio ≥ 10 % en β de hs_ah).
  4. Diferencia estadísticamente significativa (p < 0.05) entre el modelo nuevo (más grande) vs el modelo previo (más chico).

Los diferentes modelos seran comparados considerando:

  1. Coeficiente de determinación múltiple ajustado (R2 adj). Identifica el modelo con mejor capacidad predictiva.
  2. Error Estándar Residual (Residual Standard Error en salidas de R). Identifica el modelo con menor residuo (error).
  3. Test F para comparación de modelos anidados.

Por último se evaluará la multicolinealidad.

Etapa C: Se evaluaran las variables no significativas en el modelo bivariado. Se agregarán una por una dichas variables. Solamente se las mantendrá si son significativas en el modelo múltiple o si actuan como confundidores.

Etapa D: Se explorará la presencia de interacciones. Se explorarán posibles interacciones entre hs_af y variables que, según la literatura, puedan actuar como modificadores de efecto. Según bibliografía se ha reportado interacción entre la actividad física y:

  1. imc
  2. educación
  3. género
  4. edad

Por lo tanto de encontrarse interacciones significativas, se reportarán los efectos por subgrupos.

Etapa E: Diagnóstico del modelo. Se evaluarán los supuestos de:

  1. linealidad: a través de los gráficos.
  2. varianza: a través del gráfico de residuos vs predicho y el test de Breusch-Pagan.
  3. normalidad: a través de gráficos como el gráfico de densidad, histograma boxplot y gráfico cuantil-cuantil de residuos estandarizados y el test Shapiro-Wilk.
  4. independencia: por diseño del estudio.

Etapa F: Evaluacion de la presencia de outliers y valores influyentes Se evaluarán las observaciones y se detectarán aquellas que sean atípicas usando los residuos studentizados > 3 desviaciones standard. Posteriormente se identificarán aquellas observaciones que superen el umbral determinado para la distancia de Cook para ser consideradas influyentes. En ese caso, las posibles acciones serán:

  1. Verificar si son errores de carga o datos mal ingresados.
  2. Evaluar si son observaciones válidas.
  3. Reajustar el modelo quitando la observación y comparar los coeficientes beta de hs_af. Si la variación relativa es mayor al 10%, se considera que la observación tiene un impacto significativo en la estimación del coeficiente y se la considerará como influyente.
  4. Considerar su exclusion de la observacion.
  5. Otras opciones: regresión robusta, transformación de variables e inclusión de nuevas variables.

Etapa 2: Desarrollar los pasos de construcción del modelo, especificando en cada caso los criterios utilizados para decidir qué variables se incluyen. Presentar los outputs obtenidos de R que se consideren necesarios. NO incluir outputs sin explicación o comentarios. En base a nuestros conocimientos sobre el tema y a la bibliografia (1, 2, 3, 4) hemos decidido evaluar las siguientes variables: género, edad, estciv, educ, dbt,hta,hipercol,tabaq,imc eimc_cat. Las hemos volcado en un DAG para identificar los posibles confundidores y mediadores.

## 
## Adjuntando el paquete: 'ggdag'
## The following objects are masked from 'package:table1':
## 
##     label, label<-
## The following object is masked from 'package:stats':
## 
##     filter

Variables potencialmente confundidoras: género, edad, estciv, educ, imc

Variables mediadoras: dbt, hta, hipercol, tabaq

Se evalua la asociación entre la PCR y hs_af.

  pcr
Predictors Estimates CI p
(Intercept) 2.44 2.29 – 2.59 <0.001
hs af -0.06 -0.10 – -0.03 <0.001
Observations 318
R2 / R2 adjusted 0.039 / 0.036

Podemos observar que en promedio hay una disminución de 0,06 de pcr por cada hora de aumento de hs_af. La misma es estadísticamente significativa (p < 0,05). Dicho valores pueden econtrarse entre -0,01 y -0.03 con intervalo de confianza del 95%. La misma es significativa dado que no contiene al valor de nulidad. En resumen, podemos decir que hay una asociacion entre hs_af y pcr.

ETAPA A:

análisis bivariados:

## # A tibble: 13 × 5
##    variable categoria        estimate std_error p_value     
##    <chr>    <chr>               <dbl>     <dbl> <chr>       
##  1 imc_cat  imc_catobesidad     0.712     0.128 0.0000000605
##  2 imc      imc                 0.039     0.008 0.000000958 
##  3 hipercol hipercolSI         -0.385     0.09  0.0000247   
##  4 hta      htaSI               0.383     0.095 0.0000647   
##  5 genero   generoH             0.349     0.092 0.000167    
##  6 hs_af    hs_af              -0.063     0.017 0.000367    
##  7 tabaq    tabaqSI             0.387     0.111 0.000572    
##  8 educ     educMSC            -0.316     0.091 0.00064     
##  9 imc_cat  imc_catsobrepeso    0.339     0.107 0.0017600000
## 10 dbt      dbtSI               0.253     0.105 0.0171      
## 11 estciv   estcivC            -0.144     0.093 0.123       
## 12 imc_cat  imc_catbajo peso   -0.035     0.276 0.8990000000
## 13 edad     edad                0         0.006 0.99

El imc y imc_cat son representaciones distintas de la misma información y generarían colinealidad. Incluirlas a ambas en un mismo modelo no sería lo correcto. Por tal motivo decidimos incluir imc_cat dado que tiene mayor utilidad clinica y en ese contexto tambien aporta mayor interpretabilidad.

Según el criterio descripto previamente, podemos encontrar que obesidad, hipercolesterolemia, hipertensión, horas de actividad física, genero, tabaquismo, sobrepeso, educacion, diabetes y estado civil serían las variables que inicialmente incluiríamos en el modelo de regresión lineal multivariado (considerando p < 0,25).

Las variable edad quedó inicialmente afuera.

ETAPA B

Modelo paso a paso para la construcción de los modelos:

MODELO 1

  pcr
Predictors Estimates CI p
(Intercept) 2.44 2.29 – 2.59 <0.001
hs af -0.06 -0.10 – -0.03 <0.001
Observations 318
R2 / R2 adjusted 0.039 / 0.036

MODELO 2 (Agregando imc_cat)

  pcr
Predictors Estimates CI p
(Intercept) 2.12 1.91 – 2.33 <0.001
hs af -0.06 -0.09 – -0.03 <0.001
imc cat [bajo peso] -0.06 -0.60 – 0.47 0.812
imc cat [obesidad] 0.70 0.45 – 0.95 <0.001
imc cat [sobrepeso] 0.32 0.11 – 0.52 0.003
Observations 318
R2 / R2 adjusted 0.131 / 0.120

El Coeficiente B parcial es significativo? Las categorias de sobrepeso y obesidad SI son significativas.

Es confundidor de hs_af

## # Fixed Effects
## 
## Parameter | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ---------------------------------------------------------------------------------
## hs_af     |     -0.06 |       -0.06 |                3.83 |                    No

No es confundidor de nuestra variable principal de interes: hs_af

Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?

## Analysis of Variance Table
## 
## Model 1: pcr ~ hs_af
## Model 2: pcr ~ hs_af + imc_cat
##   Res.Df    RSS Df Sum of Sq      F       Pr(>F)    
## 1    316 205.93                                     
## 2    313 186.34  3     19.59 10.969 0.0000007216 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

SI. Mediante el análisis de anova determina que hay una diferencia significativa entre ambos modelos (p < 0,05). Esto quiere decir que el modelo nuevo ofrece información adicional en comparación al modelo previo. De esta manera se justifica la incorporación imc_cat al modelo de regresión lineal múltiple.

Es biológicamente importante: SI

CONCLUSIÓN: Por todo lo expuesto en este punto, se decide mantener imc_cat en el modelo.

MODELO 3: Agregando hipercol

  pcr
Predictors Estimates CI p
(Intercept) 2.20 1.99 – 2.42 <0.001
hs af -0.05 -0.08 – -0.01 0.009
imc cat [bajo peso] -0.02 -0.54 – 0.51 0.950
imc cat [obesidad] 0.67 0.42 – 0.91 <0.001
imc cat [sobrepeso] 0.33 0.12 – 0.53 0.002
hipercol [SI] -0.27 -0.45 – -0.09 0.003
Observations 318
R2 / R2 adjusted 0.155 / 0.142

El Coeficiente B parcial es significativo? SI

Es confundidor de hs_af?

## # Fixed Effects
## 
## Parameter        | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ----------------------------------------------------------------------------------------
## hs_af            |     -0.06 |       -0.05 |               24.84 |                    Sí
## imc_catbajo peso |     -0.06 |       -0.02 |               73.74 |                    Sí
## imc_catobesidad  |      0.70 |        0.67 |                4.67 |                    No
## imc_catsobrepeso |      0.32 |        0.33 |                3.96 |                    No

SI es confundidor de nuestra variable principal de interes: hs_af

Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?

## Analysis of Variance Table
## 
## Model 1: pcr ~ hs_af + imc_cat
## Model 2: pcr ~ hs_af + imc_cat + hipercol
##   Res.Df    RSS Df Sum of Sq      F   Pr(>F)   
## 1    313 186.34                                
## 2    312 181.06  1     5.274 9.0878 0.002784 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

SI. Mediante el análisis de anova determina que hay una diferencia significativa entre ambos modelos (p < 0,05). Esto quiere decir que el modelo nuevo ofrece información adicional en comparación al modelo previo. De esta manera se justifica la incorporación de hipercol al modelo de regresión lineal múltiple.

Es biológicamente importante: SI

CONCLUSIÓN: Por todo lo expuesto en este punto, se decide mantener hipercol en el modelo.

MODELO 4: Agregando hta

  pcr
Predictors Estimates CI p
(Intercept) 2.12 1.90 – 2.34 <0.001
hs af -0.04 -0.07 – -0.01 0.018
imc cat [bajo peso] -0.06 -0.59 – 0.46 0.808
imc cat [obesidad] 0.61 0.36 – 0.85 <0.001
imc cat [sobrepeso] 0.31 0.11 – 0.52 0.003
hipercol [SI] -0.25 -0.43 – -0.07 0.006
hta [SI] 0.24 0.06 – 0.42 0.010
Observations 318
R2 / R2 adjusted 0.173 / 0.157

El Coeficiente B parcial es significativo? SI

Es confundidor?

## # Fixed Effects
## 
## Parameter        | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ----------------------------------------------------------------------------------------
## hs_af            |     -0.05 |       -0.04 |                9.94 |                    No
## imc_catbajo peso |     -0.02 |       -0.06 |              283.87 |                    Sí
## imc_catobesidad  |      0.67 |        0.61 |                8.99 |                    No
## imc_catsobrepeso |      0.33 |        0.31 |                4.69 |                    No
## hipercolSI       |     -0.27 |       -0.25 |                7.77 |                    No

No es confundidor de nuestra variable principal de interés: hs_af

Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?

## Analysis of Variance Table
## 
## Model 1: pcr ~ hs_af + imc_cat + hipercol
## Model 2: pcr ~ hs_af + imc_cat + hipercol + hta
##   Res.Df    RSS Df Sum of Sq      F  Pr(>F)  
## 1    312 181.06                              
## 2    311 177.25  1    3.8132 6.6907 0.01015 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

SI. Mediante el análisis de anova determina que hay una diferencia significativa entre ambos modelos (p < 0,05). Esto quiere decir que el modelo nuevo ofrece información adicional en comparación al modelo previo. De esta manera se justifica la incorporación de Hipertensión arterial al modelo de regresión lineal múltiple.

Es biológicamente importante: SI

CONCLUSIÓN: Por todo lo expuesto en este punto, se decide mantener hipertensión arterial en el modelo.

MODELO 5 (agregando genero)

  pcr
Predictors Estimates CI p
(Intercept) 1.99 1.77 – 2.21 <0.001
hs af -0.04 -0.08 – -0.01 0.010
imc cat [bajo peso] -0.08 -0.59 – 0.43 0.753
imc cat [obesidad] 0.61 0.37 – 0.85 <0.001
imc cat [sobrepeso] 0.30 0.10 – 0.50 0.003
hipercol [SI] -0.24 -0.41 – -0.07 0.006
hta [SI] 0.22 0.05 – 0.40 0.013
genero [H] 0.35 0.18 – 0.51 <0.001
Observations 318
R2 / R2 adjusted 0.217 / 0.199

El Coeficiente B parcial es significativo? SI

Es confundidor?

## # Fixed Effects
## 
## Parameter        | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ----------------------------------------------------------------------------------------
## hs_af            |     -0.04 |       -0.04 |                6.60 |                    No
## imc_catbajo peso |     -0.06 |       -0.08 |               26.10 |                    Sí
## imc_catobesidad  |      0.61 |        0.61 |                1.23 |                    No
## imc_catsobrepeso |      0.31 |        0.30 |                4.71 |                    No
## hipercolSI       |     -0.25 |       -0.24 |                3.17 |                    No
## htaSI            |      0.24 |        0.22 |                5.92 |                    No

No es confundidor de nuestra variable principal de interes: hs_af

Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?

## Analysis of Variance Table
## 
## Model 1: pcr ~ hs_af + imc_cat + hipercol + hta
## Model 2: pcr ~ hs_af + imc_cat + hipercol + hta + genero
##   Res.Df    RSS Df Sum of Sq      F     Pr(>F)    
## 1    311 177.25                                   
## 2    310 167.88  1    9.3745 17.311 0.00004114 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

SI. Mediante el análisis de anova determina que hay una diferencia significativa entre ambos modelos (p < 0,05). Esto quiere decir que el modelo nuevo ofrece información adicional en comparación al modelo previo. De esta manera se justifica la incorporación de género al modelo de regresión lineal múltiple.

Es biológicamente importante: SI

CONCLUSIÓN: Por todo lo expuesto en este punto, se decide mantener genero en el modelo.

MODELO 6 (agregando tabaquismo)

  pcr
Predictors Estimates CI p
(Intercept) 1.95 1.72 – 2.17 <0.001
hs af -0.04 -0.08 – -0.01 0.009
imc cat [bajo peso] -0.12 -0.63 – 0.38 0.631
imc cat [obesidad] 0.60 0.36 – 0.84 <0.001
imc cat [sobrepeso] 0.29 0.10 – 0.49 0.004
hipercol [SI] -0.23 -0.40 – -0.06 0.009
hta [SI] 0.21 0.03 – 0.38 0.021
genero [H] 0.33 0.17 – 0.50 <0.001
tabaq [SI] 0.27 0.07 – 0.47 0.007
Observations 318
R2 / R2 adjusted 0.235 / 0.215

El Coeficiente B parcial es significativo? SI

Es confundidor?

## # Fixed Effects
## 
## Parameter        | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ----------------------------------------------------------------------------------------
## hs_af            |     -0.04 |       -0.04 |                0.46 |                    No
## imc_catbajo peso |     -0.08 |       -0.12 |               51.10 |                    Sí
## imc_catobesidad  |      0.61 |        0.60 |                2.77 |                    No
## imc_catsobrepeso |      0.30 |        0.29 |                2.19 |                    No
## hipercolSI       |     -0.24 |       -0.23 |                5.66 |                    No
## htaSI            |      0.22 |        0.21 |                7.39 |                    No
## generoH          |      0.35 |        0.33 |                5.11 |                    No

No es confundidor de nuestra variable principal de interes: hs_af.

Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?

## Analysis of Variance Table
## 
## Model 1: pcr ~ hs_af + imc_cat + hipercol + hta + genero
## Model 2: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq
##   Res.Df    RSS Df Sum of Sq      F   Pr(>F)   
## 1    310 167.88                                
## 2    309 163.99  1    3.8873 7.3247 0.007179 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

SI. Mediante el análisis de anova determina que hay una diferencia significativa entre ambos modelos (p < 0,05). Esto quiere decir que el modelo nuevo ofrece información adicional en comparación al modelo previo. De esta manera se justifica la incorporación de tabaquismo al modelo de regresión lineal múltiple.

Es biológicamente importante: SI

CONCLUSIÓN: Por todo lo expuesto en este punto, se decide mantener tabaquismo en el modelo.

MODELO 7 (agregando educación)

  pcr
Predictors Estimates CI p
(Intercept) 2.03 1.80 – 2.26 <0.001
hs af -0.04 -0.07 – -0.01 0.017
imc cat [bajo peso] -0.06 -0.56 – 0.45 0.824
imc cat [obesidad] 0.62 0.38 – 0.85 <0.001
imc cat [sobrepeso] 0.29 0.10 – 0.48 0.003
hipercol [SI] -0.21 -0.38 – -0.04 0.015
hta [SI] 0.21 0.04 – 0.39 0.016
genero [H] 0.33 0.17 – 0.49 <0.001
tabaq [SI] 0.24 0.04 – 0.43 0.020
educ [MSC] -0.25 -0.42 – -0.09 0.003
Observations 318
R2 / R2 adjusted 0.257 / 0.236

El Coeficiente B parcial es significativo? SI

Es confundidor?

## # Fixed Effects
## 
## Parameter        | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ----------------------------------------------------------------------------------------
## hs_af            |     -0.04 |       -0.04 |                9.27 |                    No
## imc_catbajo peso |     -0.12 |       -0.06 |               54.05 |                    Sí
## imc_catobesidad  |      0.60 |        0.62 |                3.70 |                    No
## imc_catsobrepeso |      0.29 |        0.29 |                0.64 |                    No
## hipercolSI       |     -0.23 |       -0.21 |                8.53 |                    No
## htaSI            |      0.21 |        0.21 |                2.61 |                    No
## generoH          |      0.33 |        0.33 |                0.50 |                    No
## tabaqSI          |      0.27 |        0.24 |               14.30 |                    Sí

No es confundidor de nuestra variable principal de interes: hs_af

Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?

## Analysis of Variance Table
## 
## Model 1: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq
## Model 2: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq + educ
##   Res.Df    RSS Df Sum of Sq      F   Pr(>F)   
## 1    309 163.99                                
## 2    308 159.21  1    4.7807 9.2486 0.002559 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

SI. Mediante el análisis de anova determina que hay una diferencia significativa entre ambos modelos (p < 0,05). Esto quiere decir que el modelo nuevo ofrece información adicional en comparación al modelo previo. De esta manera se justifica la incorporación de educación al modelo de regresión lineal múltiple.

Es biológicamente importante: SI

CONCLUSIÓN: Por todo lo expuesto en este punto, se decide mantener educación en el modelo.

MODELO 8 (agregando diabetes)

  pcr
Predictors Estimates CI p
(Intercept) 2.03 1.80 – 2.26 <0.001
hs af -0.04 -0.07 – -0.01 0.017
imc cat [bajo peso] -0.06 -0.56 – 0.44 0.819
imc cat [obesidad] 0.62 0.38 – 0.85 <0.001
imc cat [sobrepeso] 0.29 0.10 – 0.49 0.003
hipercol [SI] -0.21 -0.38 – -0.04 0.016
hta [SI] 0.19 0.01 – 0.38 0.042
genero [H] 0.33 0.16 – 0.49 <0.001
tabaq [SI] 0.23 0.03 – 0.43 0.022
educ [MSC] -0.25 -0.42 – -0.09 0.002
dbt [SI] 0.05 -0.15 – 0.25 0.608
Observations 318
R2 / R2 adjusted 0.258 / 0.234

El Coeficiente B parcial es significativo? NO

Es confundidor?

## # Fixed Effects
## 
## Parameter        | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ----------------------------------------------------------------------------------------
## hs_af            |     -0.04 |       -0.04 |                0.41 |                    No
## imc_catbajo peso |     -0.06 |       -0.06 |                2.99 |                    No
## imc_catobesidad  |      0.62 |        0.62 |                0.15 |                    No
## imc_catsobrepeso |      0.29 |        0.29 |                0.48 |                    No
## hipercolSI       |     -0.21 |       -0.21 |                0.85 |                    No
## htaSI            |      0.21 |        0.19 |                8.67 |                    No
## generoH          |      0.33 |        0.33 |                0.78 |                    No
## tabaqSI          |      0.24 |        0.23 |                1.15 |                    No
## educMSC          |     -0.25 |       -0.25 |                0.41 |                    No

No es confundidor de nuestra variable principal de interes: hs_af

Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?

## Analysis of Variance Table
## 
## Model 1: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq + educ
## Model 2: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq + educ + 
##     dbt
##   Res.Df    RSS Df Sum of Sq      F Pr(>F)
## 1    308 159.21                           
## 2    307 159.07  1   0.13643 0.2633 0.6082

NO. Mediante el análisis de anova determina que NO hay una diferencia significativa entre ambos modelos (p >0,05). Esto quiere decir que el modelo nuevo NO ofrece información adicional en comparación al modelo previo. De esta manera se puede no incluir de diabetes al modelo de regresión lineal múltiple.

Es biológicamente importante: SI.

CONCLUSIÓN: Por todo lo expuesto en este punto, se decide mantener diabetes en el modelo.

MODELO 9 (agregando estado civil)

  pcr
Predictors Estimates CI p
(Intercept) 2.14 1.89 – 2.39 <0.001
hs af -0.04 -0.07 – -0.01 0.013
imc cat [bajo peso] -0.06 -0.56 – 0.44 0.819
imc cat [obesidad] 0.63 0.39 – 0.86 <0.001
imc cat [sobrepeso] 0.29 0.10 – 0.49 0.003
hipercol [SI] -0.23 -0.39 – -0.06 0.009
hta [SI] 0.19 0.00 – 0.38 0.047
genero [H] 0.32 0.16 – 0.48 <0.001
tabaq [SI] 0.21 0.01 – 0.41 0.037
educ [MSC] -0.25 -0.41 – -0.08 0.003
dbt [SI] 0.07 -0.13 – 0.27 0.475
estciv [C] -0.17 -0.34 – -0.01 0.038
Observations 318
R2 / R2 adjusted 0.268 / 0.242

El Coeficiente B parcial es significativo? SI

Es confundidor?

## # Fixed Effects
## 
## Parameter        | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ----------------------------------------------------------------------------------------
## hs_af            |     -0.04 |       -0.04 |                3.39 |                    No
## imc_catbajo peso |     -0.06 |       -0.06 |                0.49 |                    No
## imc_catobesidad  |      0.62 |        0.63 |                1.67 |                    No
## imc_catsobrepeso |      0.29 |        0.29 |                0.14 |                    No
## hipercolSI       |     -0.21 |       -0.23 |                8.76 |                    No
## htaSI            |      0.19 |        0.19 |                2.75 |                    No
## generoH          |      0.33 |        0.32 |                2.79 |                    No
## tabaqSI          |      0.23 |        0.21 |                8.91 |                    No
## educMSC          |     -0.25 |       -0.25 |                3.43 |                    No
## dbtSI            |      0.05 |        0.07 |               39.44 |                    Sí

No es confundidor de nuestra variable principal de interes: hs_af

Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?

## Analysis of Variance Table
## 
## Model 1: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq + educ + 
##     dbt
## Model 2: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq + educ + 
##     dbt + estciv
##   Res.Df    RSS Df Sum of Sq      F  Pr(>F)  
## 1    307 159.07                              
## 2    306 156.84  1    2.2333 4.3574 0.03768 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

SI. Mediante el análisis de anova determina que hay una diferencia significativa entre ambos modelos (p < 0,05). Esto quiere decir que el modelo nuevo ofrece información adicional en comparación al modelo previo. De esta manera se justifica la incorporación de estado civil al modelo de regresión lineal múltiple.

Es biológicamente importante: SI. Mediante el esquema DAG se observa que es necesario ajustar por estado civil ya que es un confundidor.

CONCLUSIÓN: Por todo lo expuesto en este punto, se decide mantener estado civil en el modelo.

EVALUAR MULTICOLINEALINALIDAD

Indice de VIF

##              GVIF Df GVIF^(1/(2*Df))
## hs_af    1.117625  1        1.057178
## imc_cat  1.095252  3        1.015280
## hipercol 1.145571  1        1.070314
## hta      1.258938  1        1.122024
## genero   1.018168  1        1.009043
## tabaq    1.054916  1        1.027091
## educ     1.049980  1        1.024685
## dbt      1.217735  1        1.103510
## estciv   1.044339  1        1.021929

Todos los valores de VIF son muy cercanos a 1: NO existe multicolinealidad entre las variables independientes del modelo.

Tolerancia

##               GVIF        Df GVIF^(1/(2*Df))
## hs_af    0.8947545 1.0000000       0.9459146
## imc_cat  0.9130320 0.3333333       0.9849503
## hipercol 0.8729268 1.0000000       0.9343055
## hta      0.7943200 1.0000000       0.8912463
## genero   0.9821558 1.0000000       0.9910378
## tabaq    0.9479430 1.0000000       0.9736236
## educ     0.9523991 1.0000000       0.9759094
## dbt      0.8211965 1.0000000       0.9061989
## estciv   0.9575434 1.0000000       0.9785415

Todos los valores de tolerancia se encuentran por encima del umbral de 0.2: NO existe evidencia de multicolinealidad significativa entre las variables independientes del modelo.

ETAPA C: Evaluación de las variables no significativas en el modelo bivariado. Se agregarán una por uno dichas variables. Solamente se las mantendrán si son significativas en el modelo múltiple o si actúan como confundidores.

MODELO 10 (agregando la variable que quedó fuera en el análsisis bivariado: edad)

  pcr
Predictors Estimates CI p
(Intercept) 2.40 1.79 – 3.01 <0.001
hs af -0.04 -0.07 – -0.01 0.012
imc cat [bajo peso] -0.08 -0.58 – 0.42 0.759
imc cat [obesidad] 0.62 0.38 – 0.86 <0.001
imc cat [sobrepeso] 0.29 0.10 – 0.49 0.003
hipercol [SI] -0.22 -0.39 – -0.05 0.012
hta [SI] 0.20 0.01 – 0.39 0.036
genero [H] 0.32 0.16 – 0.48 <0.001
tabaq [SI] 0.21 0.01 – 0.41 0.037
educ [MSC] -0.25 -0.42 – -0.09 0.003
dbt [SI] 0.08 -0.12 – 0.28 0.452
estciv [C] -0.17 -0.34 – -0.01 0.037
edad -0.00 -0.01 – 0.01 0.353
Observations 318
R2 / R2 adjusted 0.270 / 0.242

El Coeficiente B parcial es significativo? NO

Es confundidor?

## # Fixed Effects
## 
## Parameter        | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ----------------------------------------------------------------------------------------
## hs_af            |     -0.04 |       -0.04 |                1.10 |                    No
## imc_catbajo peso |     -0.06 |       -0.08 |               34.32 |                    Sí
## imc_catobesidad  |      0.63 |        0.62 |                1.24 |                    No
## imc_catsobrepeso |      0.29 |        0.29 |                0.90 |                    No
## hipercolSI       |     -0.23 |       -0.22 |                3.10 |                    No
## htaSI            |      0.19 |        0.20 |                6.29 |                    No
## generoH          |      0.32 |        0.32 |                1.17 |                    No
## tabaqSI          |      0.21 |        0.21 |                0.31 |                    No
## educMSC          |     -0.25 |       -0.25 |                3.65 |                    No
## dbtSI            |      0.07 |        0.08 |                5.38 |                    No
## estcivC          |     -0.17 |       -0.17 |                0.34 |                    No

No es confundidor de nuestra variable principal de interes: hs_af

Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?

## Analysis of Variance Table
## 
## Model 1: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq + educ + 
##     dbt + estciv
## Model 2: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq + educ + 
##     dbt + estciv + edad
##   Res.Df    RSS Df Sum of Sq      F Pr(>F)
## 1    306 156.84                           
## 2    305 156.39  1   0.44364 0.8652  0.353

NO. Mediante el análisis de anova determina que NO hay una diferencia significativa entre ambos modelos (p >0,05). Esto quiere decir que el modelo nuevo NO ofrece información adicional en comparación al modelo previo. De esta manera se puede no incluir de edad al modelo de regresión lineal múltiple.

Es biológicamente importante: SI. Segun el esquema DAG, edad es un confundidor y si bien en la evaluación previa no hemos encontrado una efecto confundidor estadístico, el DAg refleja nuestra hipótesis causal y no sólo los datos de esta muestra particular. Por tal motivo debe ser considerado en el ajuste.

CONCLUSIÓN: Dado que edad es biológicamente importante, se decide mantener edad en el modelo.

ETAPA 3: Obtener el “mejor modelo” a su criterio, escribir la ecuación de regresión correspondiente e interpretar cada uno de los coeficientes. Elaborar tablas que resuman los hallazgos del estudio y desarrollar CONCLUSIÓNes finales.

Tabla Resumen: Comparación de métricas y características de las variables incorporadas en cada modelo.

Comparación del modelo_1 al modelo_10
Modelo Var_agregado Coef_Beta_Sig Bio_importante Confundidor_C10 TestF_ANOVA R2_ajustado Error_estandar_residual F_statistic Se_mantiene
modelo_1 hs_af SI: V Exposicion 0.0003673 0.03639 0.8073 12.97 SI
modelo_2 imc_cat SI SI. DAG: confundidor NO 0.0000007 0.11970 0.7716 11.78 SI
modelo_3 hipercol SI SI. DAG: mediador SI 0.0027840 0.14190 0.7618 11.48 SI
modelo_4 hta SI SI. DAG: mediador NO 0.0101500 0.15720 0.7549 10.86 SI
modelo_5 genero SI SI. DAG: confundidor NO 0.0000411 0.19920 0.7359 12.27 SI
modelo_6 TBQ SI SI. DAG: mediador NO 0.0071790 0.21530 0.7285 11.87 SI
modelo_7 educacion SI SI. DAG confundidor NO 0.0025590 0.23570 0.7190 11.86 SI
modelo_8 DBT NO SI. DAG mediador NO 0.6082000 0.23380 0.7198 10.67 SI
modelo_9 estciv SI SI. DAG: confundidor NO 0.0433100 0.24330 0.7154 11.19 SI
modelo_10 edad NO SI. DAG: confundidor NO 0.3530000 0.24280 0.7156 10.24 SI

Un mayor R2 ajustado indica que el modelo explica mejor la variabilidad de la variable dependiente, mientras que un menor error estándar residual sugiere predicciones más precisas. Por otro lado, un estadístico F mayor a 2 con un valor de p significativo (p < 0.05) respalda que al menos uno de los coeficientes del modelo es diferente de cero, lo que justifica su utilidad para explicar el fenómeno en estudio. La presencia de un test F de Anova estadísticamente significativo nos sugiere que el nuevo modelo es mejor que el modelo previo. Por ultimo, pero no menos importante, la imporancia biologica y el conocimiento sobre el tema nos seran de guia para determinar si la variable debe permanecer o no en el modelo.

El modelo_10 tiene una capacidad explicativa y predicciones igual de precisas en comparación al modelo_9. Por otro lado, dicho modelo no es estadísticamente mejor (test F de anova; p 0.353) comparado con el modelo previo. Sin embargo, edad es un confundidor entre hs_af y pcr, por tal motivo se lo mantiene en el modelo.

  pcr
Predictors Estimates CI p
(Intercept) 2.40 1.79 – 3.01 <0.001
hs af -0.04 -0.07 – -0.01 0.012
imc cat [bajo peso] -0.08 -0.58 – 0.42 0.759
imc cat [obesidad] 0.62 0.38 – 0.86 <0.001
imc cat [sobrepeso] 0.29 0.10 – 0.49 0.003
hipercol [SI] -0.22 -0.39 – -0.05 0.012
hta [SI] 0.20 0.01 – 0.39 0.036
genero [H] 0.32 0.16 – 0.48 <0.001
tabaq [SI] 0.21 0.01 – 0.41 0.037
educ [MSC] -0.25 -0.42 – -0.09 0.003
dbt [SI] 0.08 -0.12 – 0.28 0.452
estciv [C] -0.17 -0.34 – -0.01 0.037
edad -0.00 -0.01 – 0.01 0.353
Observations 318
R2 / R2 adjusted 0.270 / 0.242

Ecuacion del modelo_10

PCR = - 0.041 (hs_af) 
      - 0.078 (imc_cat bajo peso) 
      + 0.620 (imc_cat obesidad) 
      + 0.294 (imc_cat obesidad) 
      - 0.218 (hipercol) 
      + 0.201 (hta) 
      + 0.321 (genero) 
      + 0.212 (tabac) 
      - 0,254 (educ) 
      + 0,008 (DBT) 
      - 0.170 (estciv) 
      - 0.004 (edad)

Interpretación de coeficientes:

hs_af: Por cada hora semanal de actividad física moderada o intensa, la PCR serica disminuye en promedio 0.04 unidades ajustadas por las otras variables independientes. Este efecto se encuentra entre -0.073 y -0.009, con un intervalo de confianza del 95%.

imc_cat: tiene 4 categorías (categoría normal de referencia):

hipercolesterolemia: la presencia de hipercolesterolemia disminuye en promedio 0.220 unidades el valor de PCR en sangre en comparación a los que no la presentan, independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre -0.390, -0.051 con un intervalo de confianza del 95%.

hipertensión arterial: la presencia de hipertensión aumenta en promedio 0.19 el valor de la PCR en sangre con comparación a los que no tienen HTA, independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre 0.0530 y 0.402, con un intervalo de confianza del 95%.

género: pertenecer al género masculino aumenta en promedio 0.326 unidades el valor de la PCR en sangre en comparación al género femenino, independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre 00.164 y 0.487 con un intervalo de confianza del 95%.

tabaquismo: aquellos fumadores tienen una PCR en sangre en promedio 0.217 unidades mayor que aquellos que no fuman, independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre 00.164 y 0.487 con un intervalo de confianza del 95%.

nivel educativo: aquellos con secundario completo tienen en promedio 0.252 puntos de PCR en sangre menos que en aquellos que no tienen secundario completo, independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre -0.417, -0.088 con un intervalo de confianza del 95%.

diabetes: las personas con diabetes tienen en promedio 0.077 puntos más de PCR en sangre que las personas sin dbt independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre -0.124083 y 0.278165 con un intervalo de confianza del 95%. La misma no es estadísticamente significativo porque el intervalo contiene al valor nulo.

estado civil: las personas casadas tienen en promedio 0.168 puntos menos de PCR en sangre que las personas solteras independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre -0.331, -0.005 con un intervalo de confianza del 95%.

edad: por cada año de edad, la PCR sérica disminuye en promedio 0.004 unidades, independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre -0.016 y 0.005, con un intervalo de confianza del 95%. La misma no es estadísticamente significativo porque el intervalo contiene al valor nulo.

Evaluación de supuestos

1. Linealidad

Gráfico de residuos crudos frente a valores predichos

Mediante el gráfico de residuos vs predichos, podemos observar que los residuos se distribuyen aproximadamente de forma pareja (similar numero de observaciones) por encima y por debajo de la media residual.

avPlots(modelo_10)

Mediante el AvPlots podemos visualizar la relación parcial entre cada predictor y la variable dependiente, controlado por los otros predictores. En cada una de ellas podemos vizualizar un patron lineal (linea azul). Por todo lo expresado previamente, podemos decir que el modelo es adecuado desde el punto de vista de la linealidad.

2. Homocedasticidad (supuesto de igual varianzas)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_10
## BP = 28.802, df = 12, p-value = 0.004215

Mediante el grafico de residuos vs predichos, podemos observar que la dispercion de los residuos no es del todo homogenea. Da la impresion de tener una forma de embudo hacia la izquierda aunque la evidencia gráfica no es evidente. Por otro lado el test de Breusch-Pagan presenta una p < 0.05. De esta manera se rechaza la H0 (los residuos tienen varianza constante). En conclusión, podemos decir que no se cumple el criterio de homocedasticidad.

Posibles acciones:

  1. Usar errores estandar robustos
  2. Transformar las variable dependiente.
  3. Usar modelos alternativos que no requieran homocedasticidad como: A.Regresión robusta B.Quantile regression 4.Modelar explícitamente la varianza

3. Normalidad

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

## [1]  90 304
##    vars   n mean  sd median trimmed  mad   min  max range  skew kurtosis   se
## X1    1 318    0 0.7   0.02       0 0.67 -2.26 2.16  4.42 -0.03     0.04 0.04
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_10$residuals
## W = 0.99785, p-value = 0.9574

Al evaluar tanto los graficos (histograma, box-plot, curva suavizada, qqplot), los indicadores numéricos (media, mediana, skewnness y kurtosis) y el test de shapiro-wilk (p=0.96) podemos decir que los residuos cumplen con el criterio de normalidad.

4. Independencia

El supuesto de independencia en el modelo de regresión lineal supone que los residuos no están autocorrelacionados, por lo cual son independientes. Esto puede asegurarse a través de:

  1. Un correcto diseño de la muestra
  2. Una selección aleatoria de la misma
  3. Sin medidas repetidas por participante

Evaluación de la presencia de outliers y valores influyentes

A. Determinar aquellas observaciones con residuos studentizados > +/- 3

En el gráfico de residuos studentizados vs valores predichos se puede identificar 2 observaciones con valores mayores a +/- 3: c099 y c332. Las mismas indican la presencia de outliers.

B. Distancia de COOK

##   2   5  23  33  73  84  90  96 114 134 185 190 218 219 293 304 
##   2   5  23  33  73  84  90  96 114 134 185 190 218 219 293 304

Se determinó la distancia de Cook para evaluar la influencia de cada observación en el modelo. Se identificaron 16 observaciones con valores por encima del umbral clásico (4/n), lo que sugiere que podrían ser potencialmente influyentes.

Las observaciones c099 y c332 son influyentes y a su vez outliers. Por tal motivo, ambos son prioritarias a ser evaluadas en detalle según los pasos previos.

C. Evaluación de influyentes

## # A tibble: 2 × 13
##   id    genero  edad estciv educ    pcr dbt   hta   hipercol tabaq   imc hs_af
##   <chr> <fct>  <dbl> <fct>  <fct> <dbl> <fct> <fct> <fct>    <fct> <dbl> <dbl>
## 1 c099  H         44 S      HSC   0.751 NO    SI    NO       NO     28.9     0
## 2 c332  H         45 C      HSC   5.29  SI    SI    NO       SI     29.3     0
## # ℹ 1 more variable: imc_cat <fct>

1 y 2. La inspección de cada campo de las observaciones influyentes indica que los valores son plausibles para una persona y no impresiona un error de dataentry.

Coeficiente Completo Sin_c099 Variacion_c099 Sin_c332 Variacion_c332
hs_af hs_af -0.041 -0.044 6.99% -0.039 6.56%
imc_catbajo peso imc_catbajo peso -0.078 -0.085 8.34% -0.063 19.98%
imc_catobesidad imc_catobesidad 0.620 0.613 1.08% 0.632 1.96%
imc_catsobrepeso imc_catsobrepeso 0.294 0.307 4.35% 0.282 4.25%
hipercolSI hipercolSI -0.219 -0.228 4.36% -0.216 1.21%
htaSI htaSI 0.201 0.234 16.3% 0.187 7.11%
generoH generoH 0.322 0.341 6.04% 0.307 4.76%
tabaqSI tabaqSI 0.212 0.196 7.87% 0.182 14.24%
educMSC educMSC -0.254 -0.268 5.24% -0.244 4.11%
dbtSI dbtSI 0.077 0.058 24.95% 0.056 27.77%
estcivC estcivC -0.174 -0.192 10.53% -0.187 7.52%
edad edad -0.005 -0.007 39.15% -0.003 37.23%
  1. Se evaluó el modelo_10 excluyendo las observaciones influyentes, comparando los coeficientes β de hs_af. La variación en dicho coeficiente fue menor al 10%. Sin embargo, al eliminar la observación con id c099, los coeficientes de hta, dbt, estciv y edad se modificaron de forma significativa. De manera similar, al excluir la observación con id c332, los coeficientes de imc_catbajo peso, tabaq, dbt y edad presentaron variaciones mayores al 10%

Los pasos a seguir serían:

  1. Considerar su exclusion de la observacion.
  2. Otras opciones: regresión robusta, transformación de variables e inclusión de nuevas variables.

ETAPA D Evaluar interacciones:

En base a estudios previos, se evaluaron posibles efectos de interacción entre las horas de actividad física con:

  1. imc
  2. nivel educativo
  3. género
  4. edad. Para esta última, se realizó una categorización: adulto joven (e_aj) para personas de 40 a 60 años inclusive, y adulto mayor (e_am) para aquellas mayores de 60 años.

A partir de éste análisis, se obtuvieron los coeficientes de interacción correspondientes que se resumen en la siguiente tabla:

## # A tibble: 6 × 2
##   Interaccion            p_value
##   <chr>                    <dbl>
## 1 hs_af:imc_catbajo peso   0.290
## 2 hs_af:imc_catobesidad    0.583
## 3 hs_af:imc_catsobrepeso   0.456
## 4 hs_af:educMSC            0.852
## 5 hs_af:generoH            0.460
## 6 hs_af:edad_cat>60        0.184

De los coeficientes de interacción se observa que ninguno es significativo con lo cual no se descarta la hipótesis nula de que la interacción en hs_af y cada una de las otras covariables = 0.

CONCLUSIÓN

Podemos concluir que el modelo_10 fue el más adecuado entre las alternativas evaluadas, logrando un equilibrio óptimo entre capacidad explicativa, precisión, parsimonia y, por sobre todo, un fundamento biológico sólido.

Se evaluó el cumplimiento de los supuestos del modelo seleccionado. Se confirmó la validez de los supuestos de linealidad y normalidad, aunque se detectó heterocedasticidad. Para abordar esta limitación, se propusieron soluciones como el uso de errores estándar robustos, la transformación de la variable dependiente o la aplicación de modelos robustos alternativos.

Asimismo, se analizaron las posibles observaciones influyentes c099 y c332. En primer lugar, se verificó que no se tratara de errores de carga de datos (data entry), mediante una inspección visual de la plausibilidad de los valores. Una vez confirmada su validez, se evaluó el modelo (modelo_10) excluyendo dichas observaciones, comparando los coeficientes β de la variable hs_af. La variación en este coeficiente fue inferior al 10%. No obstante, al eliminar la observación c099, los coeficientes correspondientes a hta, dbt, estciv y edad mostraron modificaciones significativas. De manera similar, la exclusión de la observación c332 generó variaciones superiores al 10% en los coeficientes de imc_cat (bajo peso), tabaq, dbt y edad. Consideraciones futuras podrían ser la exclusion de la observacion u otras técnicas como la regresión robusta, transformación de variables e inclusión de nuevas variables.

Por último, se exploraron interacciones entre hs_af con imc, educ, genero y edad que, según la bibliografía y el conocimiento clínico y fisiopatológico, podrían actuar como modificadoras del efecto. En nuestra muestra estas interacciones no resultaron estadísticamente significativas.

Este modelo final representa un equilibrio entre simplicidad, respaldo teórico y estabilidad estadística, lo que permite una interpretación válida y clínicamente relevante de los resultados.

BIBLIOGRAFÍA

  1. Sproston NR, Ashworth JJ. Role of C-reactive protein at sites of inflammation and infection. Vol. 9, Frontiers in Immunology. Frontiers Media S.A.; 2018.
  2. Puzianowska-Kuźnicka M, Owczarz M, Wieczorowska-Tobis K, Nadrowski P, Chudek J, Slusarczyk P, et al. Interleukin-6 and C-reactive protein, successful aging, and mortality: The PolSenior study. Immunity and Ageing. 2016 Jun 3;13(1).
  3. Kanthajan T, Pandey M, Alqassab O, Sreenivasan C, Parikh A, Francis AJ, et al. The Impact of Exercise on C-reactive Protein Levels in Hypertensive Patients: A Systematic Review.
  4. Amanat S, Ghahri S, Dianatinasab A, Fararouei M, Dianatinasab M. Exercise and Type 2 Diabetes. In: Advances in Experimental Medicine and Biology. Springer; 2020. p. 91–105.