Situación

Con el objeto de evaluar los factores asociados a diversos eventos cardiovasculares, un grupo de investigadores realizó la evaluación de factores de riesgo sociodemográficos de estilos de vida, antecedentes familiares, datos antropométricos y presencia de enfermedades (HTA, Diabetes).

Base de datos

A partir de los datos suminsitrados por el Sistema Nacional de Vigilancia en Salud Pública -SIVIGILA, que contienen información acerca de los estilos de vida, antecedentes familiares y datos antropométricos y presencia de enfermedades como Diabetes, entre otras; se encuentran 341 personas, con 31 variables.A continuación se presenta la base de datos del Sistema Nacional de Vigilancia en Salud Pública -SIVIGILA, en donde se muestran todas las variables recopiladas en cada una de las 31 columnas y los primeras 15 sujetos sometidos al estudio de factores de riesgo sociodemográficos de estilos de vida.

Tabla 1: Base de datos, Sistema Nacional de Vigilancia en Salud Pública -SIVIGILA
Numero paciente Sexo Edad Estadocivil Estudios Trabajo Fuma Frecuencia Fuma Actividad Fisica Frec.ActFisica ACV HTA…12 DIABETES ANTOBESIDAD ObesAutor Cintura Peso Talla IMC Nutricional OBS_IMC PAS PAD HTA…24 Diabetes TTODIABETES Alcohol EDADINICIO FRECUENCIA BioquimicAS estadodesalud Diabetes1
1 2 14 1 4 2 2 0 2 1 2 1 2 2 2 73 54.6 1.68 19.34524 0 2 117 62 2 2 2 2 0 0 1 3 Sin Diabetes
2 1 39 2 7 1 2 0 1 0 2 1 2 2 2 93 72.5 1.75 23.67347 1 2 130 90 2 1 2 2 0 0 1 1 Sin Diabetes
3 1 25 3 6 2 2 0 2 2 2 2 2 2 2 87 70.8 1.63 26.64760 2 2 115 58 2 2 2 1 18 3 1 2 Sin Diabetes
4 1 29 3 5 1 2 0 2 3 2 2 2 2 2 96 85.0 1.70 29.41176 2 2 153 82 2 2 2 1 14 3 2 4 Sin Diabetes
5 1 24 1 7 2 2 0 2 3 2 2 2 2 2 96 81.0 1.70 28.02768 2 2 130 84 2 2 2 1 17 3 1 5 Sin Diabetes
6 2 48 3 8 2 1 3 1 0 2 1 1 1 2 94 70.4 1.65 25.85859 2 2 105 70 2 2 2 1 22 3 1 2 Con Diabetes
7 1 28 3 6 2 2 0 2 2 2 2 2 2 2 81 53.9 1.55 22.43496 1 2 134 86 2 2 2 1 16 3 1 3 Sin Diabetes
8 2 15 1 5 2 2 0 1 0 2 2 2 1 1 102 81.9 1.61 31.59600 3 1 127 76 2 2 2 1 14 3 1 3 Sin Diabetes
9 2 53 2 8 2 1 0 0 0 2 1 1 2 2 86 61.0 1.62 23.24341 1 2 118 86 2 1 1 2 0 0 1 3 Con Diabetes
10 1 38 2 6 1 2 0 2 2 2 1 1 2 2 79 59.1 1.68 20.93963 1 2 116 60 2 2 2 2 0 0 1 3 Con Diabetes
11 2 46 2 7 2 2 0 2 1 2 1 1 2 2 87 68.6 1.66 24.89476 1 2 124 62 2 2 2 1 25 2 1 3 Con Diabetes
12 2 35 3 5 2 2 0 2 1 1 1 1 2 2 74 49.0 1.54 20.66116 1 2 100 55 2 2 2 1 15 3 1 2 Con Diabetes
13 2 44 1 3 1 2 0 1 0 2 1 2 2 2 91 70.6 1.57 28.64214 2 2 122 78 2 2 2 1 15 2 2 3 Sin Diabetes
14 2 28 2 6 2 2 0 1 0 2 3 2 2 2 74 52.6 1.61 20.29243 1 2 104 70 2 2 2 1 18 3 2 2 Sin Diabetes
15 1 33 3 6 1 2 0 2 1 2 2 2 2 2 94 88.1 1.77 28.12091 2 2 129 76 2 2 2 1 16 2 2 2 Sin Diabetes
16 2 44 1 8 1 2 0 2 1 2 1 1 0 2 88 60.0 1.60 23.43750 1 2 147 98 1 1 2 1 15 3 1 5 Con Diabetes
17 1 23 1 6 2 2 0 2 1 2 2 2 2 2 83 66.0 1.60 25.78125 2 2 180 80 2 2 2 1 13 3 2 3 Sin Diabetes

1. Exploración de variables

En este trabajo, se busca relacionar la condición de tener diabetes o no tener diabetes con algunas covariables, tales como el hábito de fumar, realizar actividad fisica, consumo de alcohol, entre otras. Esto con el objetivo de evaluar el efecto que pueden tener estos factores sobre la probabilidad de ser diabético.

En primer lugar, se observa la relación existente entre la presencia de diabetes y la edad, teniendo en cuenta la base de datos del estudio. Para esto se agrupan las personas que presentan diabetes y aquellas que no, para mostrar graficamente la distribución entre hombres y mujeres.

Como se puede observar, entre las personas con diabetes, las mujeres representan la mayor proporción con un 66,7% del total de personas que presentan esta condición. Mientras que los hombres representan el 54,7% del total de personas no diabéticas.Sin embargo, esta herramienta visual no permite definir si verdaderamente existe una relación significativa entre la edad y tener o no diabetes, por lo que se realiza una prueba Chi, con el objetivo de evaluar la independencia entre estas variables. La prueba consta de las siguientes hipótesis:

\[\begin{aligned} H_0&:\mbox{El sexo es independiente en la presencia de la Diabetes } vs \\ H_1&:\mbox{El sexo es dependiente en la presencia de la Diabetes } \end{aligned} \]

Tabla 2: Prueba chi para las variables Diabetes y sexo
Variables Estadístico gdl P-valor
2 3.45 1 0.0634

A partir de los resultados de la prueba plasmados en la tabla anterior, se puede afirmar que con una confianza del \(95\%\), la hipótesis nula no se rechaza, por lo que es posible inferir que hay evidencia estadística para sostener que la presencia de diabetes no depente del sexo de las personas. Por otra parte, otro factor con el que se podría relacionar la presencia de diabetes, es con la edad, de manera similar que con el sexo, es posible evaluar si existe independencia entre ambas variables. Para este caso se compara una variable categórica nominal (dicotomica) que se traduce en tener o no diabetes y la edad como continua. En este caso, se presenta el siguiente grafico de cajas y bigotes, para comparar cuartiles, entre ellos la mediana para la edad, teniendo en cuenta que los datos se agrupan en tener o no diabetes.A simple vista, la diferencia entre los dos grupos respecto a la edad no parece ser muy grande, si se toma el 25%; de las personas con diabetes se encuentra que la persona con mas edad, pasa los 20 años mientras que si se tomas el 25% de las personas sin diabetes, la persona que mas edad tiene, no llega a los 20 años; por otro lado si se toma la mitad de las personas de cada grupo (con diabetes y sin diabetes),se evidencia que la mitad de las personas con diabetes pasan de los 30 años y del grupo de las personas que no tienen diabetes, la persona que mas edad tiene, se encuentra en los 30 años.

En esta conclusión se pudo deducir que al comparar las edades par ambos grupos, se evidencia que para el grupo de personas con diabetes siempre las edades estan por encima de las edades del otro grupo; respecto a las medias y desviaciones para ambos grupos (tabla 3), ambos parecen obtener resultados muy similares.

## `summarise()` ungrouping output (override with `.groups` argument)
Tabla 3: Relación presencia de diabetes y edad
Condición Casos Media Desviación estandar
Con Diabetes 84 34.07 14.44
Sin Diabetes 247 32.12 15.13

A pesar de que las medias son similares, se hace uso de una prueba t para la diferencia de medias en ambos grupos, de manera que se pueda establecer si existen o no diferencias significativas. Las hipótesis a contrastar son las siguientes:

\[\begin{aligned} H_0&: \mbox{media de edad diabéticos = media de edad no diabéticos } vs\\ H_1&: \mbox{media de edad diabéticos} \neq \mbox{media de edad no diabéticos } \end{aligned}\]

Los resultados de la prueba se presentan en la siguiente tabla:

Tabla 4: Prueba t para la diferencia de medias entre las edades de diabéticos y no diabéticos
Promedio grupo con diabetes promedio grupo sin diabetes Estadístico gdl Límite inf Límite sup P-valor
34.07 32.12 1.03 329 -1.76 5.67 0.3018

A partir de los resultados obtenidos y un pvalor mayor que el 5%, se puede afirmar que con una confianza del \(95\%\), la hipótesis nula no se rechaza, por lo que hay evidencia estadística para sostener que no hay diferencia entre el promedio de las edades de los dos grupos.

Modelo de Regresión logístico inicial

Como se mencionó al principio de este trabajo, se busca relacionar la probabilidad de tener diabetes frente a ciertas covariables. Es por esto, que se realiza un un modelo de regresión logística simple entre la variable DIABETES y las siguientes variables independientes:

  • Hábito de fumar (si/no)
  • Consumo de alcohol (si/no)
  • Realización de actividad física (sí/no)
  • Antecedente familiar de obesidad (sí/no)
  • Alteraciones en lípido y glicemia (sí/no)

En este sentido, el modelo planteado sería el siguiente:

\(log\left [ p(Diabetes)) \right ]=ln\left [ \frac{P(Tener diabetes)}{1-P(Tener diabetes)}\right]=\)-16.97 - 0.44 Fuman + 0.56 Alcohol + 16.123 Act. Fisica + 16.123 Actividad Fisica +2.22 Antobesidad + 0.71 Bioquímicas.

Los resultados se resumen en la siguiente tabla:

Tabla 5.Resumen del Modelo con todas las covariables
Coeficientes Est. P.valor
Intercepto -16.974 0.9800
Fuma -0.446 0.2100
Alcohol 0.569 0.0530
Actividad física 16.123 0.0985
Antecedentes de Obesidad 2.220 0.1010
Bioquímicas 0.710 0.0090
Note:
Variable predictora: Diabétes y un R^2: 0.0448

El modelo saturado (con todas las covariables predictoras) revela que bajo una significancia al 5%, la presencia de alteraciones en lípido y glicemia es la única covariable con efectos significativos sobre la probabilidad de tener diabetes.

Por otra parte se necesita saber la eficacia del modelo, conocida como la bondad de ajuste al momento de predecir si la probabilidad de tener Diabetes; para esto se utiliza, el valor de la Devianza nulla que es cuando el modelo va a predecir sin tener en cuenta los factores asociados como el hábito de fumar, consumir alchohol, antecedentes de obesidad, alteraciones en lípidos y glicemia por ultimo la actividad fisica; la Devianza residual que es cuando el modelo va a predecir teniendo en cuenta los factores asociados mencionados anteriormente y esta debe ser menor a la devianza nulla, indicando que el modelo predice con mayor presición. posteriormente se conoce el estadístico chi-cuadrado, que mide la diferencia entre los dos modelos y con este valor se calcula el p-valor indicando si el modelo es significativo <0.05 para predecir la probabilidad de tener Diabetes.

A continuación se muestra la información de la bondad de ajuste:

Tabla 6:Bondad de ajuste para calcular la precisión del modelo saturado al predecir la Diabétes
Devianza Nula Devianza Residual Chi-Cuadrado P-valor
374.99 358.17 16.82 0.032

De la bondad de ajuste mostrada anteriormente, se puede notar que con un P-valor de 0.0320, siendo menor al 5% el modelo es significativo para predecir la prbabilidad de tener Diabetes. Luego de que se conoce que el modelo es significativo para predecir la probabilidad d ela diabétes se muestra el aporte de cada variable predictora utilizando el (Test de wald) para conocer su significancia a la hora de predecir el modelo saturado.

Tabla 7. Test de Wald y VIF para el Modelo Saturado
Covariables Chi_Cuadrado P_Valor VIF
Fumar 1.60000 0.2100 1.16
Alcohol 3.70000 0.0530 1.11
Actividad Fisica 0.00046 0.9800 1.06
Antecentes de Obesidad 40.00000 0.2600 1.12
Bioquímicas 6.28000 0.0089 1.02
Note:
VIF:Toleracia en las matrices de Correlación

De la anterior información acerca del análisis VIF: toleracia en las matrices de correlación, como ninguna de las covariables son mayores a 10, se dice que ninguna es dependiente de la otra por ejemplo: el hábito de fumar no depende ni del consumo del alcohol,ni de realizar actividad fisica, ni tene rantecedentes de obesidad ni alteraciones en los lípidos y glicemia de igual manera las demas covariables, esto quiere decir que los datos observaos en los pacientes estadisticamente son simétricos, o no sesgados por lo tanto no se necesita omitir variable. Respecto la prueba de Test de Wald la cual mostró la significancia o el aporte de cada covariable del modelo saturado; Con esta prueba se corroboró el resultado del modelo en donde la unica covariable que unfluye en la predicción de la diabetes es la Alteración en lípidos y glicemia (Bioquímicas)con P-valor de 0,0089.

Sabiendo que la variable que aporta significativamente al modelo Inicial son alteraciones en lípidos y glicemia. se calculan los odds ratio (OR) para expresar si la probabilidad de ocurrencia de algunos factores (covariables) inciden en la presencia/ausencia de la diabetes. Los Odds se expresan de la siguiente manera:

\[Odds=\frac{P(Tener Diabétes)}{1-P(Tener Diabétes)}=e^{logit}\]

Al momento de predecir la ocurrencia de la diabétes como ya sabemos que las alteraciones bioquímicas inciden mucho en la predicción, le calculamos el OR para conocer de que manera su ocurrencia influye, \(exp(0,71)=\) 2,03, como 2,03 mayor que 1 se dice que al aumentar las alteraciones en lípidos y glicemia, la probabilidad de tener diabetes tambien aumenta, esta afirmación se sustenta en el intervalo de confianza que esta dado por IC:(1.206-3.521) al no contener al 1.

Modelo de Regresión logístico Final.

A partir del criterio Akaike (AIC), el cual se conoce como una una medida de la calidad relativa de un modelo que explica el ajuste y el número de términos por esto se realiza un modelo final el cual esta dado por la siguiente ecuación:

\[log\left [ p(Diabetes)) \right ]=ln\left [ \frac{P(Tener Diabétes)}{1-P(Tener Diabétes)}\right]=0.659 + 0.400 Alcohol + 0.702 Bioquimicas\]

Tabla 8 .Resumen del Modelo Final
Resumen Coeficientes P.valor
Intercepto 0.659 0.000
Alcohol 0.400 0.144
Bioquímicas 0.702 0.009
Note:
Variable predictora: Diabétes y un R^2:0,024

A partir del modelo final, las variables que explican de manera significativa la probabilidad de tener diabetes son en primer lugar, la presencia de alteraciones em lípido y glicemia y el consumo de alcohol.

Tabla 9:Bondad de ajuste para calcular la precisión del modelo Final al predecir la Diabétes
Devianza Nula Devianza Residual Chi-Cuadrado P-valor
374.987 366.11 8.87 0.01184

La bondad de ajuste para el modelo final revela con un P-valor de 0.0118, que el modelo es significativo para predecir la probabilidad de tener Diabetes.Luego de que se sabe que el modelo es significativo para predecir es importante calcular el aporte de cada variable predictora (Test de waldS)para conocer su significancia a la hora de predecir el modelo.

Tabla 10. Test de Walds y VIF para el Modelo Final
Variables. Chi_Cuadrado. P_Valor. VIF.
Alcohol 2.1 0.1400 1
Bioquimicas 6.9 0.0088 1
Note:
VIF: Tolerancia en las matrices de correlación

Como se puede notar en la tabla anterior, el supuesto de multicolinealidad no se viola, conociendo el resultado de los VIF, menores a 10 indican que ni el consumo de alcohol depende las alteraciones en lipidos y glicemia y viceversa, siendo asi se dice que el modelo no esta sesgado. Por otro lado acerca de la prueba de Test de Wald la cual mostró la significancia o el aporte de cada covariable del modelo final; Con esta prueba se corroboró el resultado del primer modelo en donde la covariables que influye en la predicción de la diabetes es la alteración en lípidos y glicemia con P-valor de 0,0088; Sabiendo que la variable que aporta significativamente al modelo final son alteraciones en lípidos y glicemia. Por medio de los Odds, el indicador para predecir la probabilidad de tener diabétes teniendo en cuenta el coeficiente de la variable predictora (Bioquimicas) como 2,016 es mayor que 1 se dice que al aumentar en una unidad las alteraciones en lípidos y glicemia, la probabilidad de tener diabetes se duplica frente a la probabilidad de no tener diabétes, esto se corrobora en el intervalo de confianza de la covariable Bioquimicas ya que no incluye al uno dentro de su intervalo, tal como lo muestra la tabla 11.

Tabla 11. Resultados de OR e Intervalos de confianza AL 95% del Modelo Final
Betas. OR IC.Inferior IC.Superior
Intercepto 1.932 0.296 1.032
Alcohol 1.491 -0.127 0.946
Bioquimicas 2.016 0.185 1.237
Note:
Variable predictora: Diabétes

Luego que se tienen el modelo saturado y el modelo final se realiza una comparación de modelos para escoger el mejor modelo que prediga la probabilidad de tener diabétes

Comparación de Modelos

Criterio comparación Grafico, curva Roc:

La función de la curva Roc en la prediction de la diabetes es mostrar la la fracción de falsos positivos definida como FP/(FP + VN), frente a la fracción de verdaderos positivos definida como VP/ (VP +FN), es decir,de los los pacientes observados diabeticos, el modelo los clasifique como diabeticos y aquellos pacientes observados como no diabeticos el modelo los clasifique como no diabeticos con un punto de corte del 0,5 es decir que el modelo clasifique con una probabilidad mayor o igual al 50% y que a su vez de esta manera lo que se busca que el modelo que se va a escoger maximice la fraccion de verdaderos positivos y que minimice la fraccion de falsos positivos. por tal razón se conoceran las dos curvas de los modelos hallados anteriormente para conocer cual de las dos curvas se aproxima mas al borde superior izquierdo, es decir con mayor fracción de verdaderos positivos.

Observando los dos curvas Roc del modelo inicial y la del grafico del modelo final a pesar de no tener una diferencia tan marcada en los dos comportamientos de las curvas, la curva del modelo final no se muestra tan inclinada hacian el borde superior izquierdo en donde se encuentran la fracción de los verdaderos pacientes con diabetes clasificados por el modelo a diferencia de la curva del modelo inicial en donde su comportamiento tiende un poco mas hacia al borde superior izquierdo en donde se encuentran las fraccion de verdaderos positivos, como los comportamientos de ambas curvas no estan tan marcados se hace necesario calcular la probabilidad del área bajo la curva, denominado criterio AUC para poder escoger el mejor modelo, el mejor modelo seria aquel que represente mayor probabilidad de clasificación.

Criterio Análitico:

A continuación se muestran ciertos criterios que ayudaran a tomar una mejor elección a la hora de predecir la probabilidad de tener diabetes, por otra parte, se comprobara por medio del criterio de AUC si e realidad el modelo del grafico 3 es el mas adecuado para la predicción.

Tabla 11. Comparación de criterios para ambos Modelos
Modelos Gl AIC Devianza Tasa C.AUC
Modelo Inicial 9 376 358 75.5 0.621
Modelo Final 3 372 366 25.3 0.601
Note:
Tasa: Porcentaje de clasificación de individuos y AUC: Probabilidad a calcular verdaderos positivos

Teniendo en cuenta los valores o los criterio de bondad de ajuste, en los AIC, para ambos modelos,el modelo saturado tuvo un valor de 376 y el modelo final con 372, para el criterio de la deviance el primer modelo tuvo un valor de 358 frente al del modleo final que esta mas elevado en 366, siendo asi se diria que el modelo inicial presenta una mayor precisión pero en este caso se desea calcular la probabilidad de tener o no diabetes, por tal motivo seria relevante tener en cuenta el modelo que tiene mayor clasificación correctas de individuos, siendo el inicial con un porcentaje del 75% mientras que el final tiene un porcentaje del 25%, se escoge el modelo saturado aquel que tiene en cuenta el hábito de fumar, practicar actividad fisica, consumir alcohol, presentar antecedentes de obesidad y tener alteraciones en lípidos y glicemia porque tiene un mayor porcentaje de clasificacines correctas es decir de los observados como diabeticos el modelo los clasifique como diabeticos, lo mismo en el caso contrario. Adicionalmente si se analiza el criterio AUC, siendo éste la probabilidad a clasificar verdaderos diabeticos se corroborá que el mejor modelo escogido para predecir la probabilidad de obtener diabetes es el Modelo Inicial con un AIC:0.62, frente al modelo final ocn un AUC: 0.60.

Análisis del Diagnóstico

Con este estudio aplicados a 331 sujetos donde se evaluó los factores de riesgo sociodemográficos de estilos de vida, antecedentes familiares, datos antropométricos y presencia de enfermedades como la (HTA, Diabetes); se realizo un modelo de regresión logística binario para predecir la probabilidad de tener diabetes (variable respuesta) teniendo en cuenta ciertos factores tales como el hábito de fumar, consumir alcohol, practicar actividad física, tener antecedentes de obesidad y por ultimo tener alteraciones en lípidos y glicemia (variables predictoras o covariables), como primera iniciativa se realizo un modelo de regresión logístico saturado y este nos arrojo un AIC:376, criterio que indica la presición del modelo y el número de covariables asociadas al momento de predecir, con este criterio se realizó un paso a paso hasta llegar al modelo final; este modelo final llego a tener un criterio de AIC de 372 indicando que las unicas covariables que deben tenerse en cuenta a la hora de predecir la diabetes son el consumo de alcohol y las alteraciones en lípidos y glicemia, siendo las alteraciones en lípidos y glicemia el unico factor significativo en ambos modelos segun el resultado arrojado del Test de Walds.

Finalmente se análizo la clasificación de cada modelo y resulto que el modelo para predecir la probailidad de tener diabetes es el modelo saturado con un 75% de pacientes clasificados correctamente, es decir que para predecir el la diabetes se debe tener en cuenta el hábito de fumar, el consumo del alcohol, las actividades fisicas, los antecedentes de obesidad y las alteraciones de los lípidos y glicemia aunque la unica significativa que aporta al modelo son las alteraciones en lipidos y glicemia.

A continuación se presenta la tabla de los 331 pacientes observados, de estos observados hay 84 con diabetes, de los cuales el modelo solo clasifico 4 correctamente a tener diabetes y 80 a no tener diabetes, de los 247 observados que no tienen diabetes, el modelo los clasifico a no tener diabetes 246 y a tener diabetes, con total de 250 pacientes clasificados el modelo clasifica al 75% de la poblacion estudiada.ademas de esto se puede decir que el modelo tiene una porcentaje de clasificaciones correctas a tener diabetes de 4.7% y y a no tener con un porcentaje de 99%, se recomienda que con este modelo se predigan a las personas que no poseen la enfermedad.

Tabla 12. Clasificación del Modelo Escogido
Observados Pred.D Pred.N.D Porcentaje
Tienen Diabetes 4 80 4.77
No tienen Diabetes 1 246 99.50
Note:
n: 331; Pred.D:Pacientes predecidos en tener diabetes; Pred.N.D:Pacientes no predecidos a tener diabetes