Contexto
Con el objeto de evaluar los factores asociados a diversos eventos cardiovasculares, un grupo de investigadores realizó la evaluación de factores de riesgo sociodemográficos de estilos de vida, antecedentes familiares, datos antropométricos y presencia de enfermedades (HTA, Diabetes).
Los datos contienen información de 341 sujetos con respecto a treinta variables, de la cuales se tratarán en este estudio, las siguientes: Sexo, Edad, Hábito de fumar(Fuma), Consumo de alcohol(Alcohol), Realización de actividad física(Act.Fisica), Antecedente familiar de obesidad(ANTOBESIDAD), Alteraciones en lípido y glicemia(BioquimicAs) y la variable respuesta Hipertensión arterial(HTA).
knitr::kable(round(addmargins(prop.table(x=table(Sexo,HTA))),3))
| 0 | 1 | Sum | |
|---|---|---|---|
| 0 | 0.064 | 0.429 | 0.492 |
| 1 | 0.058 | 0.450 | 0.508 |
| Sum | 0.122 | 0.878 | 1.000 |
El procentaje de mujeres es similar al de los hombres con 49,2% y 50,8% respectivamente. Además, apoximadamente el 87,8% de todas las personas padece la enfermedad (HTA) y el 12,2% no la padece; entre los enfermos, aproximadamente el 51,14% son hombres y el 48,86% son mujeres.
Se realiza una prueba de hipótesis con el fin de observar si existe independencia entre las variables HTA y Sexo. Como son variables categóricas dicotómicas se aplica un test \(\chi^{2}\) Dichas hipótesis se expresan a continuación. \[H_{0}:La\ hipertensión\ arterial\ es\ independiente\ del\ sexo \] \[H_{1}:La\ hipertensión\ arterial \ depende\ del\ sexo\]
##
## Pearson's Chi-squared test
##
## data: table(Sexo, HTA)
## X-squared = 0.19361, df = 1, p-value = 0.6599
La prueba arroja un valor p de 0.6599, lo cual indica que con un nivel de significancia del 5% no se rechaza la hipótesis nula, por lo tanto, no hay evidencia estadística suficiente para inferir que la variable hipertensión arterial depende del sexo.
Ahora, se establecerá la relación entre las variables HTA y edad. Primero, a través de un gráfico de caja y bigotes se explorará la distribución y variabilidad de la variable edad de acuerdo a quienes presentan o no la condición de HTA.
#Gráfica de caja y bigotes.
boxplot(formula=Edad~HTA,main="HTA por Edad",xlab = "Condicón HTA",ylab = "Edad",col=c("pink","grey"))
Las edades oscilan entre los 10 y los 64 años, el 50% de las personas sanas está aproximadamente entre los 19 años y los 44 años, el 50% de los que padecen la enfermedad está aproximadamente entre los 24 años y 46 años, el valor de la mediana de los que no prenetan la enfermedad es de 30 años aproximadamente y el valor de la mediana de los que presentan la enfermedad es de 40 años aproximadamente. No se observan datos atípicos de acuerdo al estudio realizado.
A partir de lo observado, se podría considerar una prueba de comparación de medias.
Se verificará el supuesto de normalidad de la variable edad, para identificar las técnicas estadísticas adecuadas de análisis, es decir, si se utiliza una prueba paramétrica o no paramétrica.
Se aplica una prueba de Kolmogorov-Smirnov para detectar la normalidad de la variable edad, cuyas hipótesis se plantean a continuación. \[H_{0}: Los\ datos\ de\ la\ variables\ edad\ poseen\ distribución\ normal\] \[H_{1}: Los\ datos\ de\ la\ variables\ edad\ no\ poseen\ distribución\ normal\]
## Warning in ks.test(Edad, "pnorm", mean(Edad), sd(Edad)): ties should not be
## present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: Edad
## D = 0.089984, p-value = 0.009708
## alternative hypothesis: two-sided
Teniendo en cuenta el valor p de 0.009708 que arroja la prueba, se rechaza la hipótesis nula, es decir, hay evidencia estadística suficiente para inferir que la variable edad no sigue una distribución normal.
Por lo expuesto anteriormente, se aplica una prueba no paramétrica para determinar si existe o no diferencia significativa entre las medias de los grupos que presentan la enfermedad y los que no. En este caso, la prueba a aplicar es el test de Wilcoxon.
Las hipótesis que se plantean son las siguientes. \[H_{0}: La\ media\ de\ la\ edad\ del\ grupo\ que\ presenta\ HTA\ es\ igual\ a\ la\ media\ de\ la\ edad\ del\ grupo\ que\ no\ presenta\ HTA.\] \[H_{1}: La\ media\ de\ la\ edad\ del\ grupo\ que\ presenta\ HTA\ es\ diferente\ a\ la\ media\ de\ la\ edad\ del\ grupo\ que\ no\ presenta\ HTA.\]
wilcox.test(Edad~HTA,correct=FALSE,exact=FALSE)
##
## Wilcoxon rank sum test
##
## data: Edad by HTA
## W = 6901.5, p-value = 0.04663
## alternative hypothesis: true location shift is not equal to 0
El valor p de 0.04663 indica que, con una significancia del 5%, se rechaza la hipótesis nula, es decir, existe evidencia estadística suficiente para inferir que la media del grupo que presenta HTA es diferente a la media del grupo de no presenta HTA. Por lo tanto, la edad causa efecto sobre la HTA.
Modelo de regresión logística simple
Se desea plantear un modelo que se ajuste a los datos teniendo en cuenta la variable respuesta dicotómica HTA, a partir de las variables predictoras Fuma, Alcohol, Actividad.Fisica, ANTOBESIDAD y BioquimicAS, que permita calcular la probabilidad de que una persona padezca la enfermedad (HTA) con la presencia de algunas de las características determinadas por las variables explicativas.
En este caso, se aplica un modelo de regresión logística simple de la forma \[\pi \left ( x \right )=\frac{1}{1+e^{-(\beta x)}}\]
Para plantear el modelo se utilizó el sofware RStudio 4.0.2.
mod1 <-glm(HTA~Alcohol+ANTOBESIDAD+BioquimicAS+Fuma+Actividad.Fisica, family ="binomial",data =datos)
summary(mod1)
##
## Call:
## glm(formula = HTA ~ Alcohol + ANTOBESIDAD + BioquimicAS + Fuma +
## Actividad.Fisica, family = "binomial", data = datos)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.5623 0.3434 0.4123 0.5495 1.0190
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.4747 1.4577 -1.698 0.0896 .
## Alcohol 0.8218 0.4408 1.864 0.0623 .
## ANTOBESIDAD 0.3641 0.5509 0.661 0.5086
## BioquimicAS 0.6084 0.3652 1.666 0.0957 .
## Fuma 0.6223 0.3985 1.561 0.1184
## Actividad.Fisica 0.4430 0.3825 1.158 0.2468
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 243.50 on 328 degrees of freedom
## Residual deviance: 230.16 on 323 degrees of freedom
## AIC: 242.16
##
## Number of Fisher Scoring iterations: 5
Teniendo en cuenta los valores de la devianza del modelo, se observa que el valor para el modelo que incluye las variables explicativas es menor que el valor para el modelo no las incluye, por lo cual se elige el modelo que incluye las variables explicativas. Los parámetros se estimaron mediante el método numérico iterativo Fisher Scoring, en 5 iteraciones. El criterio de Acaike(AIC) arroja un valor de 242.16 que permitiría comparar modelos de ser necesario.
El modelo que se ajusta a los datos es \[\pi \left ( x \right )=\frac{1}{1+e^{-(\ -2.4747\ +\ 0.8218Alcohol\ +\ 0.3641ANTOBESIDAD\ +\ 0.6084BioquicAS\ +\ 0.6223Fuma\ +\ 0.4430Actividad.Fisica)}}\]
Con este modelo se puede predecir la probabilidad de que una persona sufra de HTA dado que consuma o no alcohol, que tenga o no antecedentes de obesidad, que presente una prueba bioquímica normal o alteración en lípido y glicemia, y que fume o no.
A continuación, se estudiarán dos observaciones para determinar la probabilidad de que presenten HTA y se calculan las respectivas razones de probabilidad.
Obs1 <- data.frame(Fuma=1,Alcohol=2,ANTOBESIDAD=2,BioquimicAS=2, Actividad.Fisica=1)
Pi1<-predict(mod1,newdata=Obs1,type="response");Pi1
## 1
## 0.8983586
Según el modelo, una persona que fuma, que no consume alcohol, que no tiene antecedentes de obesidad, que presenta una prueba bioquímica normal y que no realiza actividad física tiene una probabilidad del 89,83% de presentar HTA.
OddsPi1 <- Pi1/(1-Pi1);OddsPi1
## 1
## 8.838512
Este resultado representa la razón de la probabilidad de que una persona presente HTA dado que fuma, no consume alcohol, no tiene antecedentes de obesidad, presenta una prueba bioquímica normal y no realiza actividad física, y la probabilidad de que no presente estas condiciones.
Obs2 <- data.frame(Fuma=1,Alcohol=1,ANTOBESIDAD=2,BioquimicAS=1, Actividad.Fisica=2)
Pi2 <- predict(mod1,newdata = Obs2, type="response");Pi2
## 1
## 0.767091
Según el modelo, una persona que fuma, que consume alcohol, que no tiene antecedentes de obesidad, que presenta una prueba bioquímica con alteración en lípido y glicemia y que realiza actividad física tiene una probabilidad del 76,70% de presentar HTA.
OddsPi2 <- Pi2/(1-Pi2);OddsPi2
## 1
## 3.293522
Este resultado representa la razón de la probabilidad de que una persona presente HTA dado que fuma, consume alcohol, no tiene antecedentes de obesidad, presenta una prueba bioquímica con alteración en lípido y glicemia y realiza actividad física, y la probabilidad de que no presente estas condiciones.
RR <- (OddsPi1/OddsPi2);RR
## 1
## 2.683605
Este valor representa el riesgo relativo de que una persona presente HTA dado que fuma, no consume alcohol, no tiene antecedentes de obesidad, presenta una prueba bioquímica normal y no realiza actividad física frente a una que presente HTA dado que fuma, consume alcohol, no tiene antecedentes de obesidad, presenta una prueba bioquímica con alteración en lípido y glicemia y realiza actividad física. Es decir, la primera persona tiene aproximadamente el doble de riesgo de presentar HTA que la segunda.
Conclusiones
Se encontró que el modelo con los factores asociados a diversos eventos cardiovasculares explica estadísticamente bien la variable de HTA (Hipertensión arterial). Los resultados del análisis estadístico fueron coherentes con el comportamiento sospechado, como se resume o continuación.
Se evidencia que las variables “Hábito de fumar”, “Consumo de alcohol”, “Realización de actividad física (sí / no)”, “Antecedente familiar de obesidad” y “Alteraciones en lípido y glicemia”, juegan un papel importante en el riesgo de presenatr o no HTA.
También, se aprecia que la hipertensión arterial posee cierta dependencia con respecto a la edad, pero no depende del sexo.
De acuerdo con el modelo obtenido en este estudio, se puede identificar que el consumo de Alcohol es la variable que más contribuye al riesgo de presentar enfermedad de HTA (Hipertensión arterial).