Situación

Con el objeto de evaluar los factores asociados a diversos eventos cardiovasculares, un grupo de investigadores realizó la evaluación de factores de riesgo sociodemográficos de estilos de vida, antecedentes familiares, datos antropométricos y presencia de enfermedades (HTA, Diabetes). La base de datos Tallerlogistica_basededatos.xls contiene información de 472 sujetos de las variables mencionadas anteriormente, a continuación, se muestran las primeras 15 observaciones de la base de datos:

Tabla 1: Base de datos
Numero paciente Sexo Edad Estadocivil Estudios Trabajo Fuma Frecuencia Fuma Actividad Fisica Frec.ActFisica ACV HTA…12 DIABETES ANTOBESIDAD ObesAutor Cintura Peso Talla IMC Nutricional OBS_IMC PAS PAD HTA…24 Diabetes TTODIABETES Alcohol EDADINICIO FRECUENCIA BioquimicAS estadodesalud Diabetes1
1 2 14 1 4 2 2 0 2 1 2 1 2 2 2 73 54.6 1.68 19.34524 0 2 117 62 2 2 2 2 0 0 1 3 Sin Diabetes
2 1 39 2 7 1 2 0 1 0 2 1 2 2 2 93 72.5 1.75 23.67347 1 2 130 90 2 1 2 2 0 0 1 1 Sin Diabetes
3 1 25 3 6 2 2 0 2 2 2 2 2 2 2 87 70.8 1.63 26.64760 2 2 115 58 2 2 2 1 18 3 1 2 Sin Diabetes
4 1 29 3 5 1 2 0 2 3 2 2 2 2 2 96 85.0 1.70 29.41176 2 2 153 82 2 2 2 1 14 3 2 4 Sin Diabetes
5 1 24 1 7 2 2 0 2 3 2 2 2 2 2 96 81.0 1.70 28.02768 2 2 130 84 2 2 2 1 17 3 1 5 Sin Diabetes
6 2 48 3 8 2 1 3 1 0 2 1 1 1 2 94 70.4 1.65 25.85859 2 2 105 70 2 2 2 1 22 3 1 2 Con Diabetes
7 1 28 3 6 2 2 0 2 2 2 2 2 2 2 81 53.9 1.55 22.43496 1 2 134 86 2 2 2 1 16 3 1 3 Sin Diabetes
8 2 15 1 5 2 2 0 1 0 2 2 2 1 1 102 81.9 1.61 31.59600 3 1 127 76 2 2 2 1 14 3 1 3 Sin Diabetes
9 2 53 2 8 2 1 0 0 0 2 1 1 2 2 86 61.0 1.62 23.24341 1 2 118 86 2 1 1 2 0 0 1 3 Con Diabetes
10 1 38 2 6 1 2 0 2 2 2 1 1 2 2 79 59.1 1.68 20.93963 1 2 116 60 2 2 2 2 0 0 1 3 Con Diabetes
11 2 46 2 7 2 2 0 2 1 2 1 1 2 2 87 68.6 1.66 24.89476 1 2 124 62 2 2 2 1 25 2 1 3 Con Diabetes
12 2 35 3 5 2 2 0 2 1 1 1 1 2 2 74 49.0 1.54 20.66116 1 2 100 55 2 2 2 1 15 3 1 2 Con Diabetes
13 2 44 1 3 1 2 0 1 0 2 1 2 2 2 91 70.6 1.57 28.64214 2 2 122 78 2 2 2 1 15 2 2 3 Sin Diabetes
14 2 28 2 6 2 2 0 1 0 2 3 2 2 2 74 52.6 1.61 20.29243 1 2 104 70 2 2 2 1 18 3 2 2 Sin Diabetes
15 1 33 3 6 1 2 0 2 1 2 2 2 2 2 94 88.1 1.77 28.12091 2 2 129 76 2 2 2 1 16 2 2 2 Sin Diabetes

1. Exploración de variables

En este trabajo, se busca relacionar la condición de tener diabetes o no tener diabetes con algunas covariables, tales como el hábito de fumar, realizar actividad fisica, consumo de alcohol, entre otras. Esto con el objetivo de evaluar el efecto que pueden tener estos factores sobre la probabilidad de ser diabético.

En primer lugar, se observa la relación existente entre la presencia de diabetes y la edad, teniendo en cuenta la base de datos del estudio. Para esto se agrupan las personas que presentan diabetes y aquellas que no, para mostrar graficamente la distribución entre hombres y mujeres.

Como se puede observar, entre las personas con diabetes, las mujeres representan la mayor proporción con un 66,7% del total de personas que presentan esta condición. Mientras que los hombres representan el 54,7% del total de personas no diabéticas. Sin embargo, esta herramienta visual no permite definir si verdaderamente existe una relación significativa entre la edad y tener o no diabetes, por lo que se realiza una prueba Chi, con el objetivo de evaluar la independencia entre estas variables. Las prueba consta de las siguientes hipótesis:

\[\begin{aligned} H_0&:\mbox{Tener diabetes es independiente del sexo } vs \\ H_1&:\mbox{Tener diabetes dependiente del sexo} \end{aligned} \]

Tabla 2: Prueba chi para las variables Diabetes y sexo
Variables Estadístico gdl P-valor
2 3.45 1 0.0634

A partir de los resultados de la prueba plasmados en la tabla anterior, se puede afirmar que con una confianza del \(95\%\), la hipótesis nula no se rechaza, por lo que es posible inferir que hay evidencia estadística para sostener que la presencia de diabetes no depente del sexo de las personas.

Por otra parte, otro factor con el que se podría relacionar la presencia de diabetes, es con la edad, de manera similar que con el sexo, es posible evaluar si existe independencia entre ambas variables. Para este caso se compara una variable discreta que se traduce entener o no diabetes y la edad como continua. En primer lugar, se presenta el siguiente grafico de cajas y bigotes, para comparar cuartiles, entre ellos la mediana para la edad, teniendo en cuenta que los datos se agrupan en tener o no diabetes.A simple vista, la diferencia entre los dos grupos respecto a la edad no parece ser muy grande.(:::::: MEJORAR, no sé interpretar mucho este gráfico::::::::::::::) Esta misma conlcusión se pudo obtener al comparar las medias y desviaciones para ambos grupos (tabla 3), ambos parecen obtener resultados muy similares.

## `summarise()` ungrouping output (override with `.groups` argument)
Tabla 3: Relación presencia de diabetes y edad
Condición Casos Media Desviación estandar
Con Diabetes 84 34.07 14.44
Sin Diabetes 247 32.12 15.13

A pesar de que las medias son similares, se hace uso de una prueba t para la diferencia de medias en ambos grupos, de manera que se pueda establecer si existen o no diferencias significativas. Las hipótesis a contrastar son las siguientes:

\[\begin{aligned} H_0&: \mbox{media de edad diabéticos = media de edad no diabéticos } vs\\ H_1&: \mbox{media de edad diabéticos} \neq \mbox{media de edad no diabéticos } \end{aligned}\]

Los resultados de la prueba se presentan en la siguiente tabla:

Tabla 4: Prueba t para la diferencia de medias entre las edades de diabéticos y no diabéticos
Promedio grupo con diabetes promedio grupo sin diabetes Estadístico gdl Límite inf Límite sup P-valor
34.07 32.12 1.03 329 -1.76 5.67 0.3018

A partir de los resulpados obtenidos y un pvalor mayor que el 5%, se puede afirmar que con una confianza del \(95\%\), la hipótesis nula no se rechaza, por lo que hay evidencia estadística para sostener que no hay diferencia entre el promedio de las edades de los dos grupos.

Modelo logístico simple

Como se mencionó al principio de este trabajo, se busca relacionar la probabilidad de tener diabetes frente a ciertas covariables. Es por esto, que se realiza un un modelo de regresión logística simple entre la variable DIABETES y las siguientes variables independientes:

En este sentido, el modelo planteado sería el siguiente:

(:::::::ESCRIBIR LA ECUACIÓN DEL MODELO::::::::::::::::::::::) , donde y significa ….. B1 …. etc etc

Y los resultados se resumen en la siguiente tabla:

χ²(8) 16.821
Pseudo-R² (Cragg-Uhler) 0.073
Pseudo-R² (McFadden) 0.045
AIC 376.166
BIC 410.385
Est. S.E. z val. p
(Intercept) -16.974 882.744 -0.019 0.985
Fuma2 -0.446 0.358 -1.245 0.213
Alcohol2 0.569 0.294 1.936 0.053
Actividad Fisica1 16.095 882.744 0.018 0.985
Actividad Fisica2 16.123 882.743 0.018 0.985
ANTOBESIDAD1 2.222 1.357 1.638 0.101
ANTOBESIDAD2 1.839 1.265 1.454 0.146
ANTOBESIDAD3 0.717 1.570 0.456 0.648
BioquimicAS2 0.713 0.273 2.617 0.009
Standard errors: MLE

El modelo saturado (con todas las covariables) revela que bajo una significancia al 5%, la presencia de alteraciones en lípido y glicemia es la única covariable con efectos significativos sobre la probabilidad de tener diabetes. Sin embargo, es posible utilizar el criterio AIC para seleccionar un modelo más adecuado con las variables necesarias.

A partir del criterio AIC, el modelo final vendría dado por la siguiente ecucaión:

(:::::::: ESCRIBIR LA ECUACIÓN DEL MODELO FINAL Y EXPLICARLA::::::::::::)

χ²(2) 8.871
Pseudo-R² (Cragg-Uhler) 0.039
Pseudo-R² (McFadden) 0.024
AIC 372.116
BIC 383.523
Est. S.E. z val. p
(Intercept) 0.659 0.187 3.518 0.000
Alcohol2 0.400 0.273 1.463 0.144
BioquimicAS2 0.702 0.268 2.621 0.009
Standard errors: MLE

A partir del modelo final, las variables que explican de manera significativa la probabilidad de tener diabetes son en primer lugar, la presencia de alteraciones em lípido y glicemia y el consumo de alcohol.

Pendiente (supuestos del modelo):

Esta es una parte del segundo ejemplo que ella dio, falta reemplazar datos e interpretarlos

  1. Redactar las interpretaciones de los resultados y cómo pueden ser útiles a los profesionales de la salud.
  • Desenlace: Diabetes