CONSIGNA: Construir un modelo de regresión múltiple que permita responder al objetivo planteado siguiendo las siguientes etapas:
Etapa 1: Explicar en forma detallada el plan de análisis.
Se evaluará la asociación entre la PCR y la cantidad de horas semanales de actividad física de intensidad moderada o vigorosa (hs_af). Para ello emplearemos un modelo de regresión lineal múltiple donde la variable dependiente es hs_af y la variable independiente es PCR.
En el estudio se han recabado datos de otras variables clínicas y sociodemográficas. Dentro de ella se enumeran: edad, género, nivel de educación (educ), estado civil (estciv), edad, diag de hipertensión arterial (hta), diag de diabetes (dbt), diag de hipercolesterolemia (hipercol), tabaquismo activo (tabaq) e índice de masa corporal (imc).
En base a una búsqueda bibliográfica y junto a los conocimientos sobre el tema que disponemos, seleccionaremos las variables más importantes para ser ingresados en el análisis. Para esquematizar dichos conocimientos, realizaremos un DAG que servirá para identificar los posibles confundidores y los mediadores de efecto. Se evaluará cuidadosamente si edad, género, imc_cat, dbt, hta y hipercol tienen un rol como modificadora de efecto.
Estrategia implementada: MANUAL.
Etapa A: análisis bivariado Se realizará un modelo de regresión lineal simple para cada variable independiente Vs PCR. El objetivo es identificar las variables con asociación prelimilar utilizando el siguiente criterio de seleccion: p < 0,25.
Etapa B: ingreso de las variable al modelo de regresión múltiple Se ingresarán las variables al modelo de mayor a menor significancia estadística. En ella se retendrán las variables que cumplan con los siguientes criterios:
Los diferentes modelos seran comparados considerando:
Por último se evaluará la multicolinealidad.
Etapa C: Se evaluaran las variables no significativas en el modelo bivariado. Se agregarán una por una dichas variables. Solamente se las mantendrá si son significativas en el modelo múltiple o si actuan como confundidores.
Etapa D: Se explorará la presencia de interacciones. Se explorarán posibles interacciones entre hs_af y variables que, según la literatura, puedan actuar como modificadores de efecto. Según bibliografía se ha reportado interacción entre la actividad física y:
Por lo tanto de encontrarse interacciones significativas, se reportarán los efectos por subgrupos.
Etapa E: Diagnóstico del modelo. Se evaluarán los supuestos de:
Etapa F: Evaluacion de la presencia de outliers y valores influyentes Se evaluarán las observaciones y se detectarán aquellas que sean atípicas usando los residuos studentizados > 3 desviaciones standard. Posteriormente se identificarán aquellas observaciones que superen el umbral determinado para la distancia de Cook para ser consideradas influyentes. En ese caso, las posibles acciones serán:
Etapa 2: Desarrollar los pasos de construcción del modelo, especificando en cada caso los criterios utilizados para decidir qué variables se incluyen. Presentar los outputs obtenidos de R que se consideren necesarios. NO incluir outputs sin explicación o comentarios. En base a nuestros conocimientos sobre el tema y a la bibliografia (1, 2, 3, 4) hemos decidido evaluar las siguientes variables: género, edad, estciv, educ, dbt,hta,hipercol,tabaq,imc eimc_cat. Las hemos volcado en un DAG para identificar los posibles confundidores y mediadores.
##
## Adjuntando el paquete: 'ggdag'
## The following objects are masked from 'package:table1':
##
## label, label<-
## The following object is masked from 'package:stats':
##
## filter
Variables potencialmente confundidoras: género, edad, estciv, educ, imc
Variables mediadoras: dbt, hta, hipercol, tabaq
Se evalua la asociación entre la PCR y hs_af.
| pcr | |||
|---|---|---|---|
| Predictors | Estimates | CI | p |
| (Intercept) | 2.44 | 2.29 – 2.59 | <0.001 |
| hs af | -0.06 | -0.10 – -0.03 | <0.001 |
| Observations | 318 | ||
| R2 / R2 adjusted | 0.039 / 0.036 | ||
Podemos observar que en promedio hay una disminución de 0,06 de pcr por cada hora de aumento de hs_af. La misma es estadísticamente significativa (p < 0,05). Dicho valores pueden econtrarse entre -0,01 y -0.03 con intervalo de confianza del 95%. La misma es significativa dado que no contiene al valor de nulidad. En resumen, podemos decir que hay una asociacion entre hs_af y pcr.
ETAPA A:
análisis bivariados:
## # A tibble: 13 × 5
## variable categoria estimate std_error p_value
## <chr> <chr> <dbl> <dbl> <chr>
## 1 imc_cat imc_catobesidad 0.712 0.128 0.0000000605
## 2 imc imc 0.039 0.008 0.000000958
## 3 hipercol hipercolSI -0.385 0.09 0.0000247
## 4 hta htaSI 0.383 0.095 0.0000647
## 5 genero generoH 0.349 0.092 0.000167
## 6 hs_af hs_af -0.063 0.017 0.000367
## 7 tabaq tabaqSI 0.387 0.111 0.000572
## 8 educ educMSC -0.316 0.091 0.00064
## 9 imc_cat imc_catsobrepeso 0.339 0.107 0.0017600000
## 10 dbt dbtSI 0.253 0.105 0.0171
## 11 estciv estcivC -0.144 0.093 0.123
## 12 imc_cat imc_catbajo peso -0.035 0.276 0.8990000000
## 13 edad edad 0 0.006 0.99
El imc y imc_cat son representaciones distintas de la misma información y generarían colinealidad. Incluirlas a ambas en un mismo modelo no sería lo correcto. Por tal motivo decidimos incluir imc_cat dado que tiene mayor utilidad clinica y en ese contexto tambien aporta mayor interpretabilidad.
Según el criterio descripto previamente, podemos encontrar que obesidad, hipercolesterolemia, hipertensión, horas de actividad física, genero, tabaquismo, sobrepeso, educacion, diabetes y estado civil serían las variables que inicialmente incluiríamos en el modelo de regresión lineal multivariado (considerando p < 0,25).
Las variable edad quedó inicialmente afuera.
ETAPA B
Modelo paso a paso para la construcción de los modelos:
MODELO 1
| pcr | |||
|---|---|---|---|
| Predictors | Estimates | CI | p |
| (Intercept) | 2.44 | 2.29 – 2.59 | <0.001 |
| hs af | -0.06 | -0.10 – -0.03 | <0.001 |
| Observations | 318 | ||
| R2 / R2 adjusted | 0.039 / 0.036 | ||
MODELO 2 (Agregando imc_cat)
| pcr | |||
|---|---|---|---|
| Predictors | Estimates | CI | p |
| (Intercept) | 2.12 | 1.91 – 2.33 | <0.001 |
| hs af | -0.06 | -0.09 – -0.03 | <0.001 |
| imc cat [bajo peso] | -0.06 | -0.60 – 0.47 | 0.812 |
| imc cat [obesidad] | 0.70 | 0.45 – 0.95 | <0.001 |
| imc cat [sobrepeso] | 0.32 | 0.11 – 0.52 | 0.003 |
| Observations | 318 | ||
| R2 / R2 adjusted | 0.131 / 0.120 | ||
El Coeficiente B parcial es significativo? Las categorias de sobrepeso y obesidad SI son significativas.
Es confundidor de hs_af
## # Fixed Effects
##
## Parameter | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ---------------------------------------------------------------------------------
## hs_af | -0.06 | -0.06 | 3.83 | No
No es confundidor de nuestra variable principal de interes: hs_af
Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?
## Analysis of Variance Table
##
## Model 1: pcr ~ hs_af
## Model 2: pcr ~ hs_af + imc_cat
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 316 205.93
## 2 313 186.34 3 19.59 10.969 0.0000007216 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
SI. Mediante el análisis de anova determina que hay una diferencia significativa entre ambos modelos (p < 0,05). Esto quiere decir que el modelo nuevo ofrece información adicional en comparación al modelo previo. De esta manera se justifica la incorporación imc_cat al modelo de regresión lineal múltiple.
Es biológicamente importante: SI
CONCLUSIÓN: Por todo lo expuesto en este punto, se decide mantener imc_cat en el modelo.
MODELO 3: Agregando hipercol
| pcr | |||
|---|---|---|---|
| Predictors | Estimates | CI | p |
| (Intercept) | 2.20 | 1.99 – 2.42 | <0.001 |
| hs af | -0.05 | -0.08 – -0.01 | 0.009 |
| imc cat [bajo peso] | -0.02 | -0.54 – 0.51 | 0.950 |
| imc cat [obesidad] | 0.67 | 0.42 – 0.91 | <0.001 |
| imc cat [sobrepeso] | 0.33 | 0.12 – 0.53 | 0.002 |
| hipercol [SI] | -0.27 | -0.45 – -0.09 | 0.003 |
| Observations | 318 | ||
| R2 / R2 adjusted | 0.155 / 0.142 | ||
El Coeficiente B parcial es significativo? SI
Es confundidor de hs_af?
## # Fixed Effects
##
## Parameter | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ----------------------------------------------------------------------------------------
## hs_af | -0.06 | -0.05 | 24.84 | Sí
## imc_catbajo peso | -0.06 | -0.02 | 73.74 | Sí
## imc_catobesidad | 0.70 | 0.67 | 4.67 | No
## imc_catsobrepeso | 0.32 | 0.33 | 3.96 | No
SI es confundidor de nuestra variable principal de interes: hs_af
Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?
## Analysis of Variance Table
##
## Model 1: pcr ~ hs_af + imc_cat
## Model 2: pcr ~ hs_af + imc_cat + hipercol
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 313 186.34
## 2 312 181.06 1 5.274 9.0878 0.002784 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
SI. Mediante el análisis de anova determina que hay una diferencia significativa entre ambos modelos (p < 0,05). Esto quiere decir que el modelo nuevo ofrece información adicional en comparación al modelo previo. De esta manera se justifica la incorporación de hipercol al modelo de regresión lineal múltiple.
Es biológicamente importante: SI
CONCLUSIÓN: Por todo lo expuesto en este punto, se decide mantener hipercol en el modelo.
MODELO 4: Agregando hta
| pcr | |||
|---|---|---|---|
| Predictors | Estimates | CI | p |
| (Intercept) | 2.12 | 1.90 – 2.34 | <0.001 |
| hs af | -0.04 | -0.07 – -0.01 | 0.018 |
| imc cat [bajo peso] | -0.06 | -0.59 – 0.46 | 0.808 |
| imc cat [obesidad] | 0.61 | 0.36 – 0.85 | <0.001 |
| imc cat [sobrepeso] | 0.31 | 0.11 – 0.52 | 0.003 |
| hipercol [SI] | -0.25 | -0.43 – -0.07 | 0.006 |
| hta [SI] | 0.24 | 0.06 – 0.42 | 0.010 |
| Observations | 318 | ||
| R2 / R2 adjusted | 0.173 / 0.157 | ||
El Coeficiente B parcial es significativo? SI
Es confundidor?
## # Fixed Effects
##
## Parameter | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ----------------------------------------------------------------------------------------
## hs_af | -0.05 | -0.04 | 9.94 | No
## imc_catbajo peso | -0.02 | -0.06 | 283.87 | Sí
## imc_catobesidad | 0.67 | 0.61 | 8.99 | No
## imc_catsobrepeso | 0.33 | 0.31 | 4.69 | No
## hipercolSI | -0.27 | -0.25 | 7.77 | No
No es confundidor de nuestra variable principal de interés: hs_af
Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?
## Analysis of Variance Table
##
## Model 1: pcr ~ hs_af + imc_cat + hipercol
## Model 2: pcr ~ hs_af + imc_cat + hipercol + hta
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 312 181.06
## 2 311 177.25 1 3.8132 6.6907 0.01015 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
SI. Mediante el análisis de anova determina que hay una diferencia significativa entre ambos modelos (p < 0,05). Esto quiere decir que el modelo nuevo ofrece información adicional en comparación al modelo previo. De esta manera se justifica la incorporación de Hipertensión arterial al modelo de regresión lineal múltiple.
Es biológicamente importante: SI
CONCLUSIÓN: Por todo lo expuesto en este punto, se decide mantener hipertensión arterial en el modelo.
MODELO 5 (agregando genero)
| pcr | |||
|---|---|---|---|
| Predictors | Estimates | CI | p |
| (Intercept) | 1.99 | 1.77 – 2.21 | <0.001 |
| hs af | -0.04 | -0.08 – -0.01 | 0.010 |
| imc cat [bajo peso] | -0.08 | -0.59 – 0.43 | 0.753 |
| imc cat [obesidad] | 0.61 | 0.37 – 0.85 | <0.001 |
| imc cat [sobrepeso] | 0.30 | 0.10 – 0.50 | 0.003 |
| hipercol [SI] | -0.24 | -0.41 – -0.07 | 0.006 |
| hta [SI] | 0.22 | 0.05 – 0.40 | 0.013 |
| genero [H] | 0.35 | 0.18 – 0.51 | <0.001 |
| Observations | 318 | ||
| R2 / R2 adjusted | 0.217 / 0.199 | ||
El Coeficiente B parcial es significativo? SI
Es confundidor?
## # Fixed Effects
##
## Parameter | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ----------------------------------------------------------------------------------------
## hs_af | -0.04 | -0.04 | 6.60 | No
## imc_catbajo peso | -0.06 | -0.08 | 26.10 | Sí
## imc_catobesidad | 0.61 | 0.61 | 1.23 | No
## imc_catsobrepeso | 0.31 | 0.30 | 4.71 | No
## hipercolSI | -0.25 | -0.24 | 3.17 | No
## htaSI | 0.24 | 0.22 | 5.92 | No
No es confundidor de nuestra variable principal de interes: hs_af
Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?
## Analysis of Variance Table
##
## Model 1: pcr ~ hs_af + imc_cat + hipercol + hta
## Model 2: pcr ~ hs_af + imc_cat + hipercol + hta + genero
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 311 177.25
## 2 310 167.88 1 9.3745 17.311 0.00004114 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
SI. Mediante el análisis de anova determina que hay una diferencia significativa entre ambos modelos (p < 0,05). Esto quiere decir que el modelo nuevo ofrece información adicional en comparación al modelo previo. De esta manera se justifica la incorporación de género al modelo de regresión lineal múltiple.
Es biológicamente importante: SI
CONCLUSIÓN: Por todo lo expuesto en este punto, se decide mantener genero en el modelo.
MODELO 6 (agregando tabaquismo)
| pcr | |||
|---|---|---|---|
| Predictors | Estimates | CI | p |
| (Intercept) | 1.95 | 1.72 – 2.17 | <0.001 |
| hs af | -0.04 | -0.08 – -0.01 | 0.009 |
| imc cat [bajo peso] | -0.12 | -0.63 – 0.38 | 0.631 |
| imc cat [obesidad] | 0.60 | 0.36 – 0.84 | <0.001 |
| imc cat [sobrepeso] | 0.29 | 0.10 – 0.49 | 0.004 |
| hipercol [SI] | -0.23 | -0.40 – -0.06 | 0.009 |
| hta [SI] | 0.21 | 0.03 – 0.38 | 0.021 |
| genero [H] | 0.33 | 0.17 – 0.50 | <0.001 |
| tabaq [SI] | 0.27 | 0.07 – 0.47 | 0.007 |
| Observations | 318 | ||
| R2 / R2 adjusted | 0.235 / 0.215 | ||
El Coeficiente B parcial es significativo? SI
Es confundidor?
## # Fixed Effects
##
## Parameter | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ----------------------------------------------------------------------------------------
## hs_af | -0.04 | -0.04 | 0.46 | No
## imc_catbajo peso | -0.08 | -0.12 | 51.10 | Sí
## imc_catobesidad | 0.61 | 0.60 | 2.77 | No
## imc_catsobrepeso | 0.30 | 0.29 | 2.19 | No
## hipercolSI | -0.24 | -0.23 | 5.66 | No
## htaSI | 0.22 | 0.21 | 7.39 | No
## generoH | 0.35 | 0.33 | 5.11 | No
No es confundidor de nuestra variable principal de interes: hs_af.
Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?
## Analysis of Variance Table
##
## Model 1: pcr ~ hs_af + imc_cat + hipercol + hta + genero
## Model 2: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 310 167.88
## 2 309 163.99 1 3.8873 7.3247 0.007179 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
SI. Mediante el análisis de anova determina que hay una diferencia significativa entre ambos modelos (p < 0,05). Esto quiere decir que el modelo nuevo ofrece información adicional en comparación al modelo previo. De esta manera se justifica la incorporación de tabaquismo al modelo de regresión lineal múltiple.
Es biológicamente importante: SI
CONCLUSIÓN: Por todo lo expuesto en este punto, se decide mantener tabaquismo en el modelo.
MODELO 7 (agregando educación)
| pcr | |||
|---|---|---|---|
| Predictors | Estimates | CI | p |
| (Intercept) | 2.03 | 1.80 – 2.26 | <0.001 |
| hs af | -0.04 | -0.07 – -0.01 | 0.017 |
| imc cat [bajo peso] | -0.06 | -0.56 – 0.45 | 0.824 |
| imc cat [obesidad] | 0.62 | 0.38 – 0.85 | <0.001 |
| imc cat [sobrepeso] | 0.29 | 0.10 – 0.48 | 0.003 |
| hipercol [SI] | -0.21 | -0.38 – -0.04 | 0.015 |
| hta [SI] | 0.21 | 0.04 – 0.39 | 0.016 |
| genero [H] | 0.33 | 0.17 – 0.49 | <0.001 |
| tabaq [SI] | 0.24 | 0.04 – 0.43 | 0.020 |
| educ [MSC] | -0.25 | -0.42 – -0.09 | 0.003 |
| Observations | 318 | ||
| R2 / R2 adjusted | 0.257 / 0.236 | ||
El Coeficiente B parcial es significativo? SI
Es confundidor?
## # Fixed Effects
##
## Parameter | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ----------------------------------------------------------------------------------------
## hs_af | -0.04 | -0.04 | 9.27 | No
## imc_catbajo peso | -0.12 | -0.06 | 54.05 | Sí
## imc_catobesidad | 0.60 | 0.62 | 3.70 | No
## imc_catsobrepeso | 0.29 | 0.29 | 0.64 | No
## hipercolSI | -0.23 | -0.21 | 8.53 | No
## htaSI | 0.21 | 0.21 | 2.61 | No
## generoH | 0.33 | 0.33 | 0.50 | No
## tabaqSI | 0.27 | 0.24 | 14.30 | Sí
No es confundidor de nuestra variable principal de interes: hs_af
Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?
## Analysis of Variance Table
##
## Model 1: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq
## Model 2: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq + educ
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 309 163.99
## 2 308 159.21 1 4.7807 9.2486 0.002559 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
SI. Mediante el análisis de anova determina que hay una diferencia significativa entre ambos modelos (p < 0,05). Esto quiere decir que el modelo nuevo ofrece información adicional en comparación al modelo previo. De esta manera se justifica la incorporación de educación al modelo de regresión lineal múltiple.
Es biológicamente importante: SI
CONCLUSIÓN: Por todo lo expuesto en este punto, se decide mantener educación en el modelo.
MODELO 8 (agregando diabetes)
| pcr | |||
|---|---|---|---|
| Predictors | Estimates | CI | p |
| (Intercept) | 2.03 | 1.80 – 2.26 | <0.001 |
| hs af | -0.04 | -0.07 – -0.01 | 0.017 |
| imc cat [bajo peso] | -0.06 | -0.56 – 0.44 | 0.819 |
| imc cat [obesidad] | 0.62 | 0.38 – 0.85 | <0.001 |
| imc cat [sobrepeso] | 0.29 | 0.10 – 0.49 | 0.003 |
| hipercol [SI] | -0.21 | -0.38 – -0.04 | 0.016 |
| hta [SI] | 0.19 | 0.01 – 0.38 | 0.042 |
| genero [H] | 0.33 | 0.16 – 0.49 | <0.001 |
| tabaq [SI] | 0.23 | 0.03 – 0.43 | 0.022 |
| educ [MSC] | -0.25 | -0.42 – -0.09 | 0.002 |
| dbt [SI] | 0.05 | -0.15 – 0.25 | 0.608 |
| Observations | 318 | ||
| R2 / R2 adjusted | 0.258 / 0.234 | ||
El Coeficiente B parcial es significativo? NO
Es confundidor?
## # Fixed Effects
##
## Parameter | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ----------------------------------------------------------------------------------------
## hs_af | -0.04 | -0.04 | 0.41 | No
## imc_catbajo peso | -0.06 | -0.06 | 2.99 | No
## imc_catobesidad | 0.62 | 0.62 | 0.15 | No
## imc_catsobrepeso | 0.29 | 0.29 | 0.48 | No
## hipercolSI | -0.21 | -0.21 | 0.85 | No
## htaSI | 0.21 | 0.19 | 8.67 | No
## generoH | 0.33 | 0.33 | 0.78 | No
## tabaqSI | 0.24 | 0.23 | 1.15 | No
## educMSC | -0.25 | -0.25 | 0.41 | No
No es confundidor de nuestra variable principal de interes: hs_af
Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?
## Analysis of Variance Table
##
## Model 1: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq + educ
## Model 2: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq + educ +
## dbt
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 308 159.21
## 2 307 159.07 1 0.13643 0.2633 0.6082
NO. Mediante el análisis de anova determina que NO hay una diferencia significativa entre ambos modelos (p >0,05). Esto quiere decir que el modelo nuevo NO ofrece información adicional en comparación al modelo previo. De esta manera se puede no incluir de diabetes al modelo de regresión lineal múltiple.
Es biológicamente importante: SI.
CONCLUSIÓN: Por todo lo expuesto en este punto, se decide mantener diabetes en el modelo.
MODELO 9 (agregando estado civil)
| pcr | |||
|---|---|---|---|
| Predictors | Estimates | CI | p |
| (Intercept) | 2.14 | 1.89 – 2.39 | <0.001 |
| hs af | -0.04 | -0.07 – -0.01 | 0.013 |
| imc cat [bajo peso] | -0.06 | -0.56 – 0.44 | 0.819 |
| imc cat [obesidad] | 0.63 | 0.39 – 0.86 | <0.001 |
| imc cat [sobrepeso] | 0.29 | 0.10 – 0.49 | 0.003 |
| hipercol [SI] | -0.23 | -0.39 – -0.06 | 0.009 |
| hta [SI] | 0.19 | 0.00 – 0.38 | 0.047 |
| genero [H] | 0.32 | 0.16 – 0.48 | <0.001 |
| tabaq [SI] | 0.21 | 0.01 – 0.41 | 0.037 |
| educ [MSC] | -0.25 | -0.41 – -0.08 | 0.003 |
| dbt [SI] | 0.07 | -0.13 – 0.27 | 0.475 |
| estciv [C] | -0.17 | -0.34 – -0.01 | 0.038 |
| Observations | 318 | ||
| R2 / R2 adjusted | 0.268 / 0.242 | ||
El Coeficiente B parcial es significativo? SI
Es confundidor?
## # Fixed Effects
##
## Parameter | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ----------------------------------------------------------------------------------------
## hs_af | -0.04 | -0.04 | 3.39 | No
## imc_catbajo peso | -0.06 | -0.06 | 0.49 | No
## imc_catobesidad | 0.62 | 0.63 | 1.67 | No
## imc_catsobrepeso | 0.29 | 0.29 | 0.14 | No
## hipercolSI | -0.21 | -0.23 | 8.76 | No
## htaSI | 0.19 | 0.19 | 2.75 | No
## generoH | 0.33 | 0.32 | 2.79 | No
## tabaqSI | 0.23 | 0.21 | 8.91 | No
## educMSC | -0.25 | -0.25 | 3.43 | No
## dbtSI | 0.05 | 0.07 | 39.44 | Sí
No es confundidor de nuestra variable principal de interes: hs_af
Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?
## Analysis of Variance Table
##
## Model 1: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq + educ +
## dbt
## Model 2: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq + educ +
## dbt + estciv
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 307 159.07
## 2 306 156.84 1 2.2333 4.3574 0.03768 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
SI. Mediante el análisis de anova determina que hay una diferencia significativa entre ambos modelos (p < 0,05). Esto quiere decir que el modelo nuevo ofrece información adicional en comparación al modelo previo. De esta manera se justifica la incorporación de estado civil al modelo de regresión lineal múltiple.
Es biológicamente importante: SI. Mediante el esquema DAG se observa que es necesario ajustar por estado civil ya que es un confundidor.
CONCLUSIÓN: Por todo lo expuesto en este punto, se decide mantener estado civil en el modelo.
EVALUAR MULTICOLINEALINALIDAD
Indice de VIF
## GVIF Df GVIF^(1/(2*Df))
## hs_af 1.117625 1 1.057178
## imc_cat 1.095252 3 1.015280
## hipercol 1.145571 1 1.070314
## hta 1.258938 1 1.122024
## genero 1.018168 1 1.009043
## tabaq 1.054916 1 1.027091
## educ 1.049980 1 1.024685
## dbt 1.217735 1 1.103510
## estciv 1.044339 1 1.021929
Todos los valores de VIF son muy cercanos a 1: NO existe multicolinealidad entre las variables independientes del modelo.
Tolerancia
## GVIF Df GVIF^(1/(2*Df))
## hs_af 0.8947545 1.0000000 0.9459146
## imc_cat 0.9130320 0.3333333 0.9849503
## hipercol 0.8729268 1.0000000 0.9343055
## hta 0.7943200 1.0000000 0.8912463
## genero 0.9821558 1.0000000 0.9910378
## tabaq 0.9479430 1.0000000 0.9736236
## educ 0.9523991 1.0000000 0.9759094
## dbt 0.8211965 1.0000000 0.9061989
## estciv 0.9575434 1.0000000 0.9785415
Todos los valores de tolerancia se encuentran por encima del umbral de 0.2: NO existe evidencia de multicolinealidad significativa entre las variables independientes del modelo.
ETAPA C: Evaluación de las variables no significativas en el modelo bivariado. Se agregarán una por uno dichas variables. Solamente se las mantendrán si son significativas en el modelo múltiple o si actúan como confundidores.
MODELO 10 (agregando la variable que quedó fuera en el análsisis bivariado: edad)
| pcr | |||
|---|---|---|---|
| Predictors | Estimates | CI | p |
| (Intercept) | 2.40 | 1.79 – 3.01 | <0.001 |
| hs af | -0.04 | -0.07 – -0.01 | 0.012 |
| imc cat [bajo peso] | -0.08 | -0.58 – 0.42 | 0.759 |
| imc cat [obesidad] | 0.62 | 0.38 – 0.86 | <0.001 |
| imc cat [sobrepeso] | 0.29 | 0.10 – 0.49 | 0.003 |
| hipercol [SI] | -0.22 | -0.39 – -0.05 | 0.012 |
| hta [SI] | 0.20 | 0.01 – 0.39 | 0.036 |
| genero [H] | 0.32 | 0.16 – 0.48 | <0.001 |
| tabaq [SI] | 0.21 | 0.01 – 0.41 | 0.037 |
| educ [MSC] | -0.25 | -0.42 – -0.09 | 0.003 |
| dbt [SI] | 0.08 | -0.12 – 0.28 | 0.452 |
| estciv [C] | -0.17 | -0.34 – -0.01 | 0.037 |
| edad | -0.00 | -0.01 – 0.01 | 0.353 |
| Observations | 318 | ||
| R2 / R2 adjusted | 0.270 / 0.242 | ||
El Coeficiente B parcial es significativo? NO
Es confundidor?
## # Fixed Effects
##
## Parameter | Coef_prev | Coef_actual | Diferencia_relativa | Potencial_confundidor
## ----------------------------------------------------------------------------------------
## hs_af | -0.04 | -0.04 | 1.10 | No
## imc_catbajo peso | -0.06 | -0.08 | 34.32 | Sí
## imc_catobesidad | 0.63 | 0.62 | 1.24 | No
## imc_catsobrepeso | 0.29 | 0.29 | 0.90 | No
## hipercolSI | -0.23 | -0.22 | 3.10 | No
## htaSI | 0.19 | 0.20 | 6.29 | No
## generoH | 0.32 | 0.32 | 1.17 | No
## tabaqSI | 0.21 | 0.21 | 0.31 | No
## educMSC | -0.25 | -0.25 | 3.65 | No
## dbtSI | 0.07 | 0.08 | 5.38 | No
## estcivC | -0.17 | -0.17 | 0.34 | No
No es confundidor de nuestra variable principal de interes: hs_af
Hay una diferencia significativa entre el modelo nuevo (más grande) y el modelo previo (más chico)?
## Analysis of Variance Table
##
## Model 1: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq + educ +
## dbt + estciv
## Model 2: pcr ~ hs_af + imc_cat + hipercol + hta + genero + tabaq + educ +
## dbt + estciv + edad
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 306 156.84
## 2 305 156.39 1 0.44364 0.8652 0.353
NO. Mediante el análisis de anova determina que NO hay una diferencia significativa entre ambos modelos (p >0,05). Esto quiere decir que el modelo nuevo NO ofrece información adicional en comparación al modelo previo. De esta manera se puede no incluir de edad al modelo de regresión lineal múltiple.
Es biológicamente importante: SI. Segun el esquema DAG, edad es un confundidor y si bien en la evaluación previa no hemos encontrado una efecto confundidor estadístico, el DAg refleja nuestra hipótesis causal y no sólo los datos de esta muestra particular. Por tal motivo debe ser considerado en el ajuste.
CONCLUSIÓN: Dado que edad es biológicamente importante, se decide mantener edad en el modelo.
ETAPA 3: Obtener el “mejor modelo” a su criterio, escribir la ecuación de regresión correspondiente e interpretar cada uno de los coeficientes. Elaborar tablas que resuman los hallazgos del estudio y desarrollar CONCLUSIÓNes finales.
Tabla Resumen: Comparación de métricas y características de las variables incorporadas en cada modelo.
| Modelo | Var_agregado | Coef_Beta_Sig | Bio_importante | Confundidor_C10 | TestF_ANOVA | R2_ajustado | Error_estandar_residual | F_statistic | Se_mantiene |
|---|---|---|---|---|---|---|---|---|---|
| modelo_1 | hs_af | – | SI: V Exposicion | – | 0.0003673 | 0.03639 | 0.8073 | 12.97 | SI |
| modelo_2 | imc_cat | SI | SI. DAG: confundidor | NO | 0.0000007 | 0.11970 | 0.7716 | 11.78 | SI |
| modelo_3 | hipercol | SI | SI. DAG: mediador | SI | 0.0027840 | 0.14190 | 0.7618 | 11.48 | SI |
| modelo_4 | hta | SI | SI. DAG: mediador | NO | 0.0101500 | 0.15720 | 0.7549 | 10.86 | SI |
| modelo_5 | genero | SI | SI. DAG: confundidor | NO | 0.0000411 | 0.19920 | 0.7359 | 12.27 | SI |
| modelo_6 | TBQ | SI | SI. DAG: mediador | NO | 0.0071790 | 0.21530 | 0.7285 | 11.87 | SI |
| modelo_7 | educacion | SI | SI. DAG confundidor | NO | 0.0025590 | 0.23570 | 0.7190 | 11.86 | SI |
| modelo_8 | DBT | NO | SI. DAG mediador | NO | 0.6082000 | 0.23380 | 0.7198 | 10.67 | SI |
| modelo_9 | estciv | SI | SI. DAG: confundidor | NO | 0.0433100 | 0.24330 | 0.7154 | 11.19 | SI |
| modelo_10 | edad | NO | SI. DAG: confundidor | NO | 0.3530000 | 0.24280 | 0.7156 | 10.24 | SI |
Un mayor R2 ajustado indica que el modelo explica mejor la variabilidad de la variable dependiente, mientras que un menor error estándar residual sugiere predicciones más precisas. Por otro lado, un estadístico F mayor a 2 con un valor de p significativo (p < 0.05) respalda que al menos uno de los coeficientes del modelo es diferente de cero, lo que justifica su utilidad para explicar el fenómeno en estudio. La presencia de un test F de Anova estadísticamente significativo nos sugiere que el nuevo modelo es mejor que el modelo previo. Por ultimo, pero no menos importante, la imporancia biologica y el conocimiento sobre el tema nos seran de guia para determinar si la variable debe permanecer o no en el modelo.
El modelo_10 tiene una capacidad explicativa y predicciones igual de precisas en comparación al modelo_9. Por otro lado, dicho modelo no es estadísticamente mejor (test F de anova; p 0.353) comparado con el modelo previo. Sin embargo, edad es un confundidor entre hs_af y pcr, por tal motivo se lo mantiene en el modelo.
| pcr | |||
|---|---|---|---|
| Predictors | Estimates | CI | p |
| (Intercept) | 2.40 | 1.79 – 3.01 | <0.001 |
| hs af | -0.04 | -0.07 – -0.01 | 0.012 |
| imc cat [bajo peso] | -0.08 | -0.58 – 0.42 | 0.759 |
| imc cat [obesidad] | 0.62 | 0.38 – 0.86 | <0.001 |
| imc cat [sobrepeso] | 0.29 | 0.10 – 0.49 | 0.003 |
| hipercol [SI] | -0.22 | -0.39 – -0.05 | 0.012 |
| hta [SI] | 0.20 | 0.01 – 0.39 | 0.036 |
| genero [H] | 0.32 | 0.16 – 0.48 | <0.001 |
| tabaq [SI] | 0.21 | 0.01 – 0.41 | 0.037 |
| educ [MSC] | -0.25 | -0.42 – -0.09 | 0.003 |
| dbt [SI] | 0.08 | -0.12 – 0.28 | 0.452 |
| estciv [C] | -0.17 | -0.34 – -0.01 | 0.037 |
| edad | -0.00 | -0.01 – 0.01 | 0.353 |
| Observations | 318 | ||
| R2 / R2 adjusted | 0.270 / 0.242 | ||
Ecuacion del modelo_10
PCR = - 0.041 (hs_af)
- 0.078 (imc_cat bajo peso)
+ 0.620 (imc_cat obesidad)
+ 0.294 (imc_cat obesidad)
- 0.218 (hipercol)
+ 0.201 (hta)
+ 0.321 (genero)
+ 0.212 (tabac)
- 0,254 (educ)
+ 0,008 (DBT)
- 0.170 (estciv)
- 0.004 (edad)
Interpretación de coeficientes:
hs_af: Por cada hora semanal de actividad física moderada o intensa, la PCR serica disminuye en promedio 0.04 unidades ajustadas por las otras variables independientes. Este efecto se encuentra entre -0.073 y -0.009, con un intervalo de confianza del 95%.
imc_cat: tiene 4 categorías (categoría normal de referencia):
bajo peso: la PCR disminuye en promedio 0.0,075 unidades con respecto a los pacientes con normopeso independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre -0.577, 0.426479 con un intervalo de confianza del 95%. La misma no es estadísticamente signifiativo porque el intervalo contiene al valor nulo.
sobrepeso: aumenta en promedio 0.292 unidades con respecto a los que tienen normopeso independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre 0.098 y 0.486, con un intervalo de confianza del 95%.
obesidad: el valor de PCR aumenta en promedio 0.621 unidades con respecto a los pacientes con normopeso independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre 0.384 y 0.857, con un intervalo de confianza del 95%.
hipercolesterolemia: la presencia de hipercolesterolemia disminuye en promedio 0.220 unidades el valor de PCR en sangre en comparación a los que no la presentan, independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre -0.390, -0.051 con un intervalo de confianza del 95%.
hipertensión arterial: la presencia de hipertensión aumenta en promedio 0.19 el valor de la PCR en sangre con comparación a los que no tienen HTA, independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre 0.0530 y 0.402, con un intervalo de confianza del 95%.
género: pertenecer al género masculino aumenta en promedio 0.326 unidades el valor de la PCR en sangre en comparación al género femenino, independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre 00.164 y 0.487 con un intervalo de confianza del 95%.
tabaquismo: aquellos fumadores tienen una PCR en sangre en promedio 0.217 unidades mayor que aquellos que no fuman, independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre 00.164 y 0.487 con un intervalo de confianza del 95%.
nivel educativo: aquellos con secundario completo tienen en promedio 0.252 puntos de PCR en sangre menos que en aquellos que no tienen secundario completo, independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre -0.417, -0.088 con un intervalo de confianza del 95%.
diabetes: las personas con diabetes tienen en promedio 0.077 puntos más de PCR en sangre que las personas sin dbt independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre -0.124083 y 0.278165 con un intervalo de confianza del 95%. La misma no es estadísticamente significativo porque el intervalo contiene al valor nulo.
estado civil: las personas casadas tienen en promedio 0.168 puntos menos de PCR en sangre que las personas solteras independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre -0.331, -0.005 con un intervalo de confianza del 95%.
edad: por cada año de edad, la PCR sérica disminuye en promedio 0.004 unidades, independientemente del valor de las otras variables ajustadas en el modelo. Este efecto se encuentra entre -0.016 y 0.005, con un intervalo de confianza del 95%. La misma no es estadísticamente significativo porque el intervalo contiene al valor nulo.
Evaluación de supuestos
1. Linealidad
Gráfico de residuos crudos frente a valores predichos
Mediante el gráfico de residuos vs predichos, podemos observar que los residuos se distribuyen aproximadamente de forma pareja (similar numero de observaciones) por encima y por debajo de la media residual.
avPlots(modelo_10)
Mediante el AvPlots podemos visualizar la relación parcial entre cada predictor y la variable dependiente, controlado por los otros predictores. En cada una de ellas podemos vizualizar un patron lineal (linea azul). Por todo lo expresado previamente, podemos decir que el modelo es adecuado desde el punto de vista de la linealidad.
2. Homocedasticidad (supuesto de igual varianzas)
##
## studentized Breusch-Pagan test
##
## data: modelo_10
## BP = 28.802, df = 12, p-value = 0.004215
Mediante el grafico de residuos vs predichos, podemos observar que la dispercion de los residuos no es del todo homogenea. Da la impresion de tener una forma de embudo hacia la izquierda aunque la evidencia gráfica no es evidente. Por otro lado el test de Breusch-Pagan presenta una p < 0.05. De esta manera se rechaza la H0 (los residuos tienen varianza constante). En conclusión, podemos decir que no se cumple el criterio de homocedasticidad.
Posibles acciones:
3. Normalidad
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## [1] 90 304
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 318 0 0.7 0.02 0 0.67 -2.26 2.16 4.42 -0.03 0.04 0.04
##
## Shapiro-Wilk normality test
##
## data: modelo_10$residuals
## W = 0.99785, p-value = 0.9574
Al evaluar tanto los graficos (histograma, box-plot, curva suavizada, qqplot), los indicadores numéricos (media, mediana, skewnness y kurtosis) y el test de shapiro-wilk (p=0.96) podemos decir que los residuos cumplen con el criterio de normalidad.
4. Independencia
El supuesto de independencia en el modelo de regresión lineal supone que los residuos no están autocorrelacionados, por lo cual son independientes. Esto puede asegurarse a través de:
Evaluación de la presencia de outliers y valores influyentes
A. Determinar aquellas observaciones con residuos studentizados > +/- 3
En el gráfico de residuos studentizados vs valores predichos se puede identificar 2 observaciones con valores mayores a +/- 3: c099 y c332. Las mismas indican la presencia de outliers.
B. Distancia de COOK
## 2 5 23 33 73 84 90 96 114 134 185 190 218 219 293 304
## 2 5 23 33 73 84 90 96 114 134 185 190 218 219 293 304
Se determinó la distancia de Cook para evaluar la influencia de cada observación en el modelo. Se identificaron 16 observaciones con valores por encima del umbral clásico (4/n), lo que sugiere que podrían ser potencialmente influyentes.
Las observaciones c099 y c332 son influyentes y a su vez outliers. Por tal motivo, ambos son prioritarias a ser evaluadas en detalle según los pasos previos.
C. Evaluación de influyentes
## # A tibble: 2 × 13
## id genero edad estciv educ pcr dbt hta hipercol tabaq imc hs_af
## <chr> <fct> <dbl> <fct> <fct> <dbl> <fct> <fct> <fct> <fct> <dbl> <dbl>
## 1 c099 H 44 S HSC 0.751 NO SI NO NO 28.9 0
## 2 c332 H 45 C HSC 5.29 SI SI NO SI 29.3 0
## # ℹ 1 more variable: imc_cat <fct>
1 y 2. La inspección de cada campo de las observaciones influyentes indica que los valores son plausibles para una persona y no impresiona un error de dataentry.
| Coeficiente | Completo | Sin_c099 | Variacion_c099 | Sin_c332 | Variacion_c332 | |
|---|---|---|---|---|---|---|
| hs_af | hs_af | -0.041 | -0.044 | 6.99% | -0.039 | 6.56% |
| imc_catbajo peso | imc_catbajo peso | -0.078 | -0.085 | 8.34% | -0.063 | 19.98% |
| imc_catobesidad | imc_catobesidad | 0.620 | 0.613 | 1.08% | 0.632 | 1.96% |
| imc_catsobrepeso | imc_catsobrepeso | 0.294 | 0.307 | 4.35% | 0.282 | 4.25% |
| hipercolSI | hipercolSI | -0.219 | -0.228 | 4.36% | -0.216 | 1.21% |
| htaSI | htaSI | 0.201 | 0.234 | 16.3% | 0.187 | 7.11% |
| generoH | generoH | 0.322 | 0.341 | 6.04% | 0.307 | 4.76% |
| tabaqSI | tabaqSI | 0.212 | 0.196 | 7.87% | 0.182 | 14.24% |
| educMSC | educMSC | -0.254 | -0.268 | 5.24% | -0.244 | 4.11% |
| dbtSI | dbtSI | 0.077 | 0.058 | 24.95% | 0.056 | 27.77% |
| estcivC | estcivC | -0.174 | -0.192 | 10.53% | -0.187 | 7.52% |
| edad | edad | -0.005 | -0.007 | 39.15% | -0.003 | 37.23% |
Los pasos a seguir serían:
ETAPA D Evaluar interacciones:
En base a estudios previos, se evaluaron posibles efectos de interacción entre las horas de actividad física con:
A partir de éste análisis, se obtuvieron los coeficientes de interacción correspondientes que se resumen en la siguiente tabla:
## # A tibble: 6 × 2
## Interaccion p_value
## <chr> <dbl>
## 1 hs_af:imc_catbajo peso 0.290
## 2 hs_af:imc_catobesidad 0.583
## 3 hs_af:imc_catsobrepeso 0.456
## 4 hs_af:educMSC 0.852
## 5 hs_af:generoH 0.460
## 6 hs_af:edad_cat>60 0.184
De los coeficientes de interacción se observa que ninguno es significativo con lo cual no se descarta la hipótesis nula de que la interacción en hs_af y cada una de las otras covariables = 0.
CONCLUSIÓN
Podemos concluir que el modelo_10 fue el más adecuado entre las alternativas evaluadas, logrando un equilibrio óptimo entre capacidad explicativa, precisión, parsimonia y, por sobre todo, un fundamento biológico sólido.
Se evaluó el cumplimiento de los supuestos del modelo seleccionado. Se confirmó la validez de los supuestos de linealidad y normalidad, aunque se detectó heterocedasticidad. Para abordar esta limitación, se propusieron soluciones como el uso de errores estándar robustos, la transformación de la variable dependiente o la aplicación de modelos robustos alternativos.
Asimismo, se analizaron las posibles observaciones influyentes c099 y c332. En primer lugar, se verificó que no se tratara de errores de carga de datos (data entry), mediante una inspección visual de la plausibilidad de los valores. Una vez confirmada su validez, se evaluó el modelo (modelo_10) excluyendo dichas observaciones, comparando los coeficientes β de la variable hs_af. La variación en este coeficiente fue inferior al 10%. No obstante, al eliminar la observación c099, los coeficientes correspondientes a hta, dbt, estciv y edad mostraron modificaciones significativas. De manera similar, la exclusión de la observación c332 generó variaciones superiores al 10% en los coeficientes de imc_cat (bajo peso), tabaq, dbt y edad. Consideraciones futuras podrían ser la exclusion de la observacion u otras técnicas como la regresión robusta, transformación de variables e inclusión de nuevas variables.
Por último, se exploraron interacciones entre hs_af con imc, educ, genero y edad que, según la bibliografía y el conocimiento clínico y fisiopatológico, podrían actuar como modificadoras del efecto. En nuestra muestra estas interacciones no resultaron estadísticamente significativas.
Este modelo final representa un equilibrio entre simplicidad, respaldo teórico y estabilidad estadística, lo que permite una interpretación válida y clínicamente relevante de los resultados.
BIBLIOGRAFÍA