Objetivo del taller:

Interpretación de los coeficientes del modelo, cálculo del Odds Ratio, uso del modelo con fines explicativos. Valoración de supuestos.

Problema de estudio

Se quiere estudiar la asociación entre algunos factores asociados a la depresión en una población colombiana. Se realizó un estudio de casos y controles. Los casos son aquellos participantes con diagnóstico de depresión seleccionados en la consulta psiquiátrica de un hospital de referencia en la ciudad de Medellín. Los controles eran pacientes que acudieron a dicho hospital pero cuyo motivo de consulta no estaba asociado con algún síntoma psiquiátrico o específicamente por sintomatología de depresión.

Variable Nombre Descripción Códigos/Valores
1 id identificador número del 1 al 15
2 sexo
3 depresion
4 edad Índice de masa corporal kg/m^2
5 escolar Nivel de escolaridad 1=primaria, 2=secundaria , 3=profesional, 4=posgrado, 5=doctorado
6 ese Estrato socioeconómico 0=Bajo, 1=Medio, 2=Alto
7 perdida_familiar 0=No, 1=Si
8 alcoholismo Autorreporte enfermedad 0=No, 1=Si
9 desempleo Diabetes 0=No, 1=Si
10 apoyosocial Colesterol total basal mg/dL
11 probl_familiares 0=No, 1=Si
12 anteced_fam_psiquiat Antescedentes familiares psiquiatric 0=No, 1=Si
13 logodds
14 prob
15 ingresos Ingresos en el hogar, anuales dólares.

La base original tenía 478 observaciones de 15 variables.

1. Calcule e interprete la odds ratio correspondiente a cada exposición o factor con base en la información de cada uno de los siguientes modelos:

1.1 Sexo


Call:
glm(formula = depresion ~ sexo, family = binomial, data = mydata)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.217  -1.217  -0.761   1.138   1.662  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)    -1.092      0.163   -6.68  2.4e-11 ***
sexoFemenino    1.185      0.203    5.85  5.0e-09 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 647.09  on 477  degrees of freedom
Residual deviance: 610.53  on 476  degrees of freedom
AIC: 614.5

Number of Fisher Scoring iterations: 4
 (Intercept) sexoFemenino 
     0.33557      3.27128 

Interpretación de los signos de los coeficientes del logit

  • Ser de género femenino aumenta la probabilidad de sufrir depresión.

Interpretación de los Odds ratio:

  • Esta variable es significativa según el modelo ya que su valor p es < 0.05.
  • Las mujeres tienen 2.27 veces más probabilidad de sufrir depresión que los hombres

1.2 Edad


Call:
glm(formula = depresion ~ edad, family = binomial, data = mydata)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.118  -1.034  -0.986   1.317   1.448  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)   0.0715     0.4140    0.17     0.86
edad         -0.0164     0.0152   -1.08     0.28

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 647.09  on 477  degrees of freedom
Residual deviance: 645.93  on 476  degrees of freedom
AIC: 649.9

Number of Fisher Scoring iterations: 4
(Intercept)        edad 
   1.074127    0.983742 

Interpretación de los signos de los coeficientes del logit

  • El aumento de la edad tiende a disminuir la probabidad de sufrir depresión.

Interpretación de los Odds ratio:

  • Esta variables no es significativa según el modelo ya que su valor p es > que 0.05, sin embargo se interpreta como si lo fuera.

*Por cada año que incremente la edad, la probabilidad de sufrir depresión tiende a disminuir en un 1.6%. Es decir la edad se comporta como un factor protector para la depresión, sin embargo por estar tan cercano al 1 puede que no sea tan significativo esto y habría que evaluar el IC.

1.3 Estrato socieconómico (ese)


Call:
glm(formula = depresion ~ factor(ese), family = binomial, data = mydata)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.207  -0.964  -0.964   1.260   1.408  

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)  
(Intercept)        -0.193      0.151   -1.28    0.202  
factor(ese)Medio   -0.334      0.196   -1.70    0.089 .
factor(ese)Alto     0.262      0.401    0.65    0.514  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 647.09  on 477  degrees of freedom
Residual deviance: 642.76  on 475  degrees of freedom
AIC: 648.8

Number of Fisher Scoring iterations: 4
     (Intercept) factor(ese)Medio  factor(ese)Alto 
        0.824742         0.716155         1.299107 

Interpretación de los Odds ratio:

Estas variables no son significativas según el modelo ya que su valor p es > que 0.05, sin embargo se interpreta como si lo fueran. El estrato medio tiene 28.38% menos probabilidad de sufrir depresión que el estrato bajo. *El estrato alto tiene 29.9% más probabilidad de sufrir depresión que el estrato bajo.

1.4 Desempleo


Call:
glm(formula = depresion ~ desempleo, family = binomial, data = mydata)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.560  -0.998  -0.998   1.368   1.368  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -0.4370     0.0964   -4.53  5.9e-06 ***
desempleoSi   1.3020     0.4324    3.01   0.0026 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 647.09  on 477  degrees of freedom
Residual deviance: 637.01  on 476  degrees of freedom
AIC: 641

Number of Fisher Scoring iterations: 4
(Intercept) desempleoSi 
   0.645985    3.676554 

Interpretación de los signos de los coeficientes del logit

  • Estar deempleado tiende a aumentar la probabidad de sufrir depresión.

Interpretación de los Odds ratio:

Esta variable es significativa según el modelo ya que su valor p es < 0.05. Los pacientes desempleados tienen 2.67 veces más probabilidad de sufrir depresión que los que se encuentran empleados.

2. Confusión. Evalúe el papel confusor de cada exposición sobre el desenlace de interés después de ajustar por otros factores.

2.1 Perdida de un familiar ajustado por edad, sexo, apoyo social

  Modelo Sin ajustar Modelo ajustado
Predictors Odds Ratios CI p Odds Ratios CI p
(Intercept) 0.64 0.53 – 0.78 <0.001 0.50 0.20 – 1.20 0.123
perdida_familiar: Si 2.02 1.15 – 3.59 0.015 2.05 1.13 – 3.77 0.018
edad 0.98 0.95 – 1.01 0.249
sexo: Femenino 3.32 2.24 – 5.00 <0.001
apoyosocial: Si 0.83 0.11 – 4.19 0.832
Observations 478 478
R2 Tjur 0.013 0.089

El OR del modelo ajustado se incrementa en tan sólo 3.0% respecto al modelo sin ajustar y para ambos modelos el OR es significativo. En este mismo modelo el sexo se comporta como variable confusora ya que es significativa. Su OR indica que las mujeres tienen 2.32 veces más probabilidad de sufrir depresión que los hombres en presencia de pérdida familiar previa.

2.2 Alcoholismo ajustado por edad, sexo, apoyo social, perdida familiar

  Modelo Sin ajustar Modelo ajustado
Predictors Odds Ratios CI p Odds Ratios CI p
(Intercept) 0.62 0.51 – 0.76 <0.001 0.48 0.20 – 1.17 0.109
alcoholismo: Si 2.65 1.48 – 4.85 0.001 1.68 0.86 – 3.32 0.133
edad 0.98 0.95 – 1.01 0.282
sexo: Femenino 3.15 2.11 – 4.77 <0.001
apoyosocial: Si 0.71 0.09 – 3.71 0.706
perdida_familiar: Si 1.67 0.86 – 3.25 0.127
Observations 478 478
R2 Tjur 0.023 0.094

El OR del modelo ajustado vale 1.68, el cual es menor que el OR del modelo sin ajustar que es de 2.65 (57.74% de disminución). Para este ultimo el OR es significativo, mientras que para el modelo ajustado el OR no es significativo. El sexo se comporta como variable confusora, es decir es la encargada de la pérdida de significancia del OR de la variable alcoholismo. Este OR indica que las mujeres tienen 2.15 veces más probabilidad de sufrir depresión que los hombres, en presencia de alcoholismo previo.

3 Valoración del supuesto de linealidad

Evalúe con los siguientes gráficos si se cumple el supuesto de linealidad para la variable escolaridad y la edad.

3.1 Escolaridad

Comenzamos calculando los logit o logodds del siguiente modelo, para luego proceder a graficar logit vs escolaridad:

Logodd vs escolaridad como factor

No se cumple el supuesto de linealidad.

Probabilidad vs escolaridad como factor

No se cumple el supuesto de linealidad.

3.2 Ingresos en el hogar (en dólares al año)

Probabilidad vs ingresos

No se cumple el supuesto de linealidad.

Logit vs ingresos

No se cumple el supuesto de linealidad.

4. Plantee un ejemplo en su área de interés en el que se pueda utilizar un modelo de regresión logistica con fines explicativos. Defina desenlace, exposición y potenciales variables de confusión.

Se desea realizar un estudio de casos y controles, para evaluar el estado de continencia urinaria en relación a la diabetes mellitus.

Casos: Mujeres antioqueñas mayores de 50 años que desarrollan incontinencia urinaria. Controles: Mujeres antioqueñas mayores de 50 años que no desarrollan incontinencia urinaria. Descenlace: Estado de continencia urinaria (si o no). Exposición: Diabetes Mellitus. Variables de confusión: Obesidad, la edad, le menopausia, el antecedente de cirugía pelvica, nuliparidad.

5 Plantee un ejemplo en su área de interés en el que se pueda utilizar un modelo de regresión logistica con fines predictivos (modelo depredicción clínico)

Se desea realizar una escala predictiva para evaluar la tasa “libre de cálculos” en relación a la carga litiasica que el paciente presenta.