Las enfermedades cardíacas figuran entre las afecciones crónicas más prevalentes en los Estados Unidos, afectando a millones de estadounidenses cada año, con implicaciones significativas tanto para la salud individual como para la economía nacional. En los Estados Unidos, estas enfermedades cardiacas se sitúan como una de las principales causas de muerte, con aproximadamente 647,000 personas falleciendo por estas afecciones anualmente. La compleja interacción entre variables como el envejecimiento, la hipertensión y la diabetes contribuye como factores de riesgo y causas de enfermedades cardíacas.
El Sistema de Vigilancia de Factores de Riesgo Conductuales (BRFSS, por sus siglas en inglés) es una encuesta telefónica sobre la salud que se recopila anualmente por los Centros para el Control y la Prevención de Enfermedades (CDC). Cada año, la encuesta recopila respuestas de más de 400,000 estadounidenses sobre comportamientos relacionados con la salud, condiciones de salud crónicas y el uso de servicios preventivos. Esta encuesta se realiza anualmente desde 1984. Para este proyecto, descargué un archivo CSV del conjunto de datos disponible en Kaggle correspondiente al año 2015. Este conjunto de datos original contiene respuestas de 441,455 individuos y comprende 330 características. Estas características incluyen preguntas directamente formuladas a los participantes o variables calculadas basadas en las respuestas individuales de los participantes.
Este conjunto de datos depurado contiene 253,680 respuestas de la encuesta BRFSS 2015, utilizado principalmente para la clasificación binaria de enfermedades cardíacas. Es relevante señalar que existe un fuerte desequilibrio de clases en este conjunto de datos: 229,787 encuestados no tienen o no han tenido enfermedad cardíaca, mientras que 23,893 han tenido enfermedad cardíaca.
## [1] "HeartDiseaseorAttack" "HighBP" "HighChol"
## [4] "BMI" "Smoker" "Stroke"
## [7] "Diabetes" "PhysActivity" "Fruits"
## [10] "Veggies" "HvyAlcoholConsump" "Sex"
## [13] "Age" "Education" "Income"
Se estudiarán diversas variables relacionadas con enfermedades cardíacas en el contexto de un modelo de regresión logística. Estas variables incluyen la presión arterial alta (HighBP), el colesterol alto (HighChol), el índice de masa corporal (BMI), el cual es calculado de foirma imperial es decir haciendo uso de unidades como lb y inches, el hábito de fumar (Smoker), la ocurrencia de accidentes cerebrovasculares (Stroke), el tipo de diabetes (Diabetes), la actividad física (PhysActivity), el consumo de frutas (Fruits), el consumo de verduras (Veggies) y el consumo intenso de alcohol (HvyAlcoholConsump). Además, se explorarán factores socioeconómicos como la educación (Education) y la categoria con respecto a los ingresos del encuestado (Income), junto con variables demográficas como el género (Sex) y la edad (Age) que esta encapsulada en 13 grupos donde los intervalos van de la siguiente manera:
Grupo1: 18≤edad<24, Grupo2: 24≤edad<30, Grupo3: 30≤edad<36 Grupo4: 36≤edad<43, Grupo5: 43≤edad<49,Grupo6: 49≤edad<55 Grupo7: 55≤edad<62, Grupo8: 62≤edad<68, Grupo9: 68≤edad<74 Grupo10: 74≤edad<81, Grupo11: 81≤edad<87, Grupo12: 87≤edad<93 Grupo13: 93≤edad<100,
Estos grupos fueron calculados de la siguiente manera: \[ \begin{align*} & Rango = 100 - 18 = 82 \\ & Ancho = \frac{82}{13}\approx6.31 \end{align*} \]
Este trabajo reconoce el impacto que esta enfermedad tiene en la tasa de mortalidad de los habitantes de los Estados Unidos y, más allá, el peso financiero generado. A partir de esto, surge la iniciativa de desarrollar diversas estrategias de prevención efectivas y precisas. El hecho de que las personas tiendan a descubrir que padecen alguna enfermedad cardíaca después de experimentar los primeros síntomas o, en casos extremos, después de un episodio que requirió intervención médica, como un paro cardíaco, respalda la urgencia de implementar medidas de intervención proactivas para evitar los desenlaces más graves. Esto construirá una cultura de cuidado y prevención en torno a esta enfermedad, desde el profesional de la salud hasta el individuo.
Identificar los factores de riesgo es fundamental para los Centros de Control y Prevención. De manera alarmante, aproximadamente la mitad de los estadounidenses presenta al menos uno de estos factores de riesgo. El Instituto Nacional del Corazón, Pulmón y Sangre destaca una gama más amplia de consideraciones diagnósticas, que abarcan la edad, el entorno, antecedentes familiares, genética, hábitos de vida, otras condiciones médicas, raza o etnia, y género. Estos factores constituyen la base para encuestas iniciales y pruebas diagnósticas posteriores.
El diagnóstico de una enfermedad cardíaca debe tener un enfoque integral, no basarse solo en las causas tradicionales, sino también considerar el panorama de la salud individual. Por lo tanto, herramientas como encuestas y pruebas diagnósticas, acompañadas de muestras de sangre, amplían la detección de factores de riesgo a un nivel más único para cada paciente, permitiendo una gestión efectiva de la enfermedad.
Abordar esta problemática desde el enfoque de la prevención es altamente relevante, como se ha observado en los párrafos anteriores. Además de la carga emocional y física para los individuos afectados, también representa un enorme desafío económico para el sistema de atención médica y para la sociedad en general. El costo asociado con el tratamiento de enfermedades cardíacas, incluyendo hospitalizaciones, procedimientos médicos y medicamentos, contribuye significativamente a los gastos totales en salud. La importancia de la prevención radica en la capacidad de mitigar estos costos, mejorar la calidad de vida de los individuos y, lo más crucial, salvar vidas. Las estrategias preventivas pueden abordar no solo los factores de riesgo conocidos, sino también educar y empoderar a la población para tomar decisiones saludables en su vida diaria.
En este trabajo, el objetivo principal es predecir de manera asertiva y eficiente el riesgo que una persona tiene de padecer una enfermedad cardíaca. También se tiene en cuenta la relación entre las variables actuales del conjunto de datos extraído, con el fin de explicar y entender los resultados a nivel predictivo. Es importante considerar que puede haber variables igualmente relevantes que no fueron incluidas en esta encuesta, de la cual se tomaron los datos.
## # A tibble: 5 × 15
## HeartDiseaseorAttack HighBP HighChol BMI Smoker Stroke Diabetes PhysActivity
## <fct> <fct> <fct> <dbl> <fct> <fct> <fct> <fct>
## 1 0 1 1 40 1 0 0 0
## 2 0 0 0 25 1 0 0 1
## 3 0 1 1 28 0 0 0 0
## 4 0 1 0 27 0 0 0 1
## 5 0 1 1 24 0 0 0 1
## # ℹ 7 more variables: Fruits <fct>, Veggies <fct>, HvyAlcoholConsump <fct>,
## # Sex <fct>, Age <fct>, Education <fct>, Income <fct>
Previo a continuar con la exploración de los datos, se han eliminado 7 variables que teóricamente o por la forma en que fueron evaluadas no presentan una relación directa con nuestra variable independiente, HeartDiseaseorAttack. Variables como “PhysHlth”, “CholCheck”, “AnyHealthcare”, “NoDocbcCost”, “GenHlth”, “MentHlth” y “DiffWalk” podrían no ser óptimas para incluirlas en un modelo de predicción de enfermedad cardíaca. Por ejemplo, “GenHlth”, referente a la salud general, podría considerarse un concepto amplio y correlacionarse con otras variables más específicas ya incluidas en el modelo. Además, su relación directa con la enfermedad cardíaca puede no ser tan clara como con otras variables más específicas. En cuanto a “DiffWalk” (dificultad para caminar), aunque podría indicar limitaciones de movilidad, su inclusión dependerá de su relevancia específica para la población estudiada, por esa misma razón no es incluida en el estudio.
## tibble [51,000 × 15] (S3: tbl_df/tbl/data.frame)
## $ HeartDiseaseorAttack: Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 2 1 ...
## $ HighBP : Factor w/ 2 levels "0","1": 2 1 2 2 2 2 2 2 2 1 ...
## $ HighChol : Factor w/ 2 levels "0","1": 2 1 2 1 2 2 1 2 2 1 ...
## $ BMI : num [1:51000] 40 25 28 27 24 25 30 25 30 24 ...
## $ Smoker : Factor w/ 2 levels "0","1": 2 2 1 1 1 2 2 2 2 1 ...
## $ Stroke : Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
## $ Diabetes : Factor w/ 3 levels "0","1","2": 1 1 1 1 1 1 1 1 3 1 ...
## $ PhysActivity : Factor w/ 2 levels "0","1": 1 2 1 2 2 2 1 2 1 1 ...
## $ Fruits : Factor w/ 2 levels "0","1": 1 1 2 2 2 2 1 1 2 1 ...
## $ Veggies : Factor w/ 2 levels "0","1": 2 1 1 2 2 2 1 2 2 2 ...
## $ HvyAlcoholConsump : Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
## $ Sex : Factor w/ 2 levels "0","1": 1 1 1 1 1 2 1 1 1 2 ...
## $ Age : Factor w/ 13 levels "1","2","3","4",..: 9 7 9 11 11 10 9 11 9 8 ...
## $ Education : Factor w/ 6 levels "1","2","3","4",..: 4 6 4 3 5 6 6 4 5 4 ...
## $ Income : Factor w/ 8 levels "1","2","3","4",..: 3 1 8 6 4 8 7 4 1 3 ...
## HeartDiseaseorAttack HighBP HighChol BMI Smoker Stroke
## 0:46426 0:29435 0:29480 Min. :12.00 0:28325 0:48856
## 1: 4574 1:21565 1:21520 1st Qu.:24.00 1:22675 1: 2144
## Median :27.00
## Mean :27.85
## 3rd Qu.:31.00
## Max. :96.00
##
## Diabetes PhysActivity Fruits Veggies HvyAlcoholConsump Sex
## 0:42918 0:11418 0:18062 0: 9038 0:47912 0:28564
## 1: 1077 1:39582 1:32938 1:41962 1: 3088 1:22436
## 2: 7005
##
##
##
##
## Age Education Income
## 10 : 6659 1: 38 8 :19512
## 9 : 6447 2: 1019 7 : 8168
## 8 : 5891 3: 1987 6 : 6839
## 7 : 5152 4:11085 5 : 4924
## 11 : 4958 5:13684 4 : 3907
## 6 : 3856 6:23187 3 : 3178
## (Other):18037 (Other): 4472
En el análisis descriptivo de nuestro conjunto de datos, observamos que alrededor del 9% de las 51,000 personas han experimentado un ataque cardíaco o tienen enfermedades cardíacas (variable “Heartdiseaseorattack”). Al explorar las variables predictoras, notamos patrones interesantes. La presión arterial alta (highbp) está presente en el 42% de los individuos, y el colesterol alto (highchol) en una proporción similar. Además, alrededor del 44% de la población se identifica como fumadora (smoker).
En cuanto a los factores de estilo de vida, observamos que el 77% de la muestra tiene una actividad física alta (physactivity). Sin embargo, es destacable que el 64% de las personas no consumen regularmente frutas (fruits), mientras que el 18% no consume vegetales regularmente (veggies). La variable de consumo pesado de alcohol (hvyalcoholcomsump) está presente en aproximadamente el 6% de los casos.
En el caso de la diabetes (diabetes), la mayoría de las personas (85%) no tienen esta condición, pero dentro de los que la tienen, se divide entre diabetes tipo 1 (2%) y tipo 2 (14%).
Estas observaciones proporcionan un panorama inicial que sugiere posibles relaciones entre ciertos factores de riesgo y la presencia de enfermedades cardíacas. Por ejemplo, la alta prevalencia de presión arterial alta y colesterol alto podría indicar la importancia de estos factores en el desarrollo de enfermedades cardíacas. Del mismo modo, la baja proporción de consumidores regulares de frutas y vegetales podría señalar un área de intervención para mejorar la salud cardiovascular.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12.00 24.00 27.00 27.85 31.00 96.00
El resumen estadístico del Índice de Masa Corporal
(BMI) revela información valiosa sobre la distribución
de los datos. El BMI promedio es de aproximadamente 27.85, lo cual
sugiere que, en promedio, la población tiende a tener un peso superior
al considerado “normal” según los estándares de BMI. El rango de valores
oscila entre 12 y 96, indicando una variabilidad significativa en los
datos. Este amplio rango refleja diferencias sustanciales en los niveles
de masa corporal entre los individuos estudiados.
La mediana del BMI se sitúa en 27, señalando que el 50% de la población tiene un BMI inferior a este valor. Por otro lado, el valor máximo de 96 indica la presencia de datos atípicos o valores extremos que pueden afectar la interpretación general. En cuanto al mínimo de 12, sugiere la existencia de casos con bajo peso significativo.
Es importante destacar que, aunque el promedio y la mediana proporcionan una visión central de los datos, la variabilidad en el rango y los valores extremos resalta la diversidad en la composición corporal de la población. Esta variabilidad puede deberse a factores como diferencias en la constitución física, hábitos alimenticios y niveles de actividad física.
Análisis de Gráficos: Tipos de Variables Se han generado dos tipos de
gráficos, uno de barras y otro de caja y bigotes, para analizar
diferentes tipos de variables. Los gráficos de barras se han agrupado en
tres conjuntos:
<<<<<<< HEAD Grupo 1: HighBP, HighChol, Smoker -Se observa una predominancia del color amarillo (NO) en las variables de alto ritmo cardiaco, alto colesterol y tabaquismo. -Notablemente, en el caso del ataque cardíaco (color morado, 1 en el eje x), la proporción es mayor, indicando que las personas que sufren un ataque cardíaco tienden a presentar estas condiciones.
Grupo 2: PhysActivity, Fruits, Veggies -Contrariamente al Grupo 1, aquí la concentración es mayor en el color morado (SI) para variables relacionadas con actividad física, consumo de frutas y dieta vegana. -Se destaca que, incluso en casos sin ataque cardíaco, hay una proporción considerable de personas que siguen hábitos saludables.
Grupo 3: HvyAlcoholConsump, Sex, Stroke -Mayor concentración en el color amarillo (NO) indica una prevalencia de respuestas negativas en cuanto al consumo excesivo de alcohol, género y accidente cerebrovascular. -Se observa una proporción significativa de hombres en la muestra, y en términos de ataque cardíaco, las diferencias no son tan marcadas.
Gráficos de Caja y Bigotes: Edad y BMI EDAD: Aquellos sin ataque cardíaco muestran una distribución sin datos atípicos, con cuartiles entre 6 y 10. En contraste, las personas que sufren un ataque cardíaco tienen datos atípicos, y sus cuartiles están ubicados entre 8 y 12, sugiriendo una distribución más dispersa y posiblemente una mayor variabilidad de edades.
La presencia de datos atípicos en la distribución de edades en el grupo con ataques cardíacos puede indicar una mayor variabilidad en las edades de este grupo.
A pesar de la prevalencia de hábitos saludables en el Grupo 2, es esencial tener en cuenta que otras variables podrían estar contribuyendo a la presencia de ataques cardíacos.
3.La mayor concentración de hombres en la muestra puede tener implicaciones en las diferencias observadas en los resultados de ataques cardíacos entre géneros. Es importante explorar más a fondo estas diferencias potenciales.
BMI: En el gráfico de caja y bigotes correspondiente al Índice de Masa Corporal (BMI), se observa una notable similitud entre las dos distribuciones. Ambas muestran la presencia de datos atípicos y tienden a superponerse una sobre la otra. En relación con las cajas, se destaca que, en el caso de la ausencia de ataque cardíaco, los datos atípicos son ligeramente más pronunciados en comparación con aquellos que sí experimentan un ataque cardíaco. Este hallazgo sugiere una mayor variabilidad en los valores de BMI entre las personas sin ataques cardíacos, pero la similitud general entre las distribuciones indica que el BMI no presenta diferencias significativas entre ambos grupos.
GRUPO NUEVO: Educación, Ingresos y Diabetes en Relación con Ataques
Cardíacos Las nuevas gráficas se centran en la relación entre ataques
cardíacos y las variables de educación, ingresos y diabetes. En las
gráficas de educación e ingresos, se observa un comportamiento creciente
hacia la derecha, indicando que a medida que la educación y los ingresos
aumentan, la incidencia de ataques cardíacos también tiende a aumentar.
Este patrón sugiere una posible asociación entre niveles más altos de
educación e ingresos y una mayor probabilidad de ataques cardíacos.
En la gráfica de diabetes, se identifica una mayor concentración de casos en personas que no han experimentado un ataque cardíaco, destacada por el predominio del color verde. Dentro de los casos de diabetes, se observa una mayor cantidad de personas con diabetes tipo 1, seguido por aquellos con diabetes tipo 3, y la menor concentración se encuentra en el tipo 2. Este hallazgo podría indicar una relación inversa entre la presencia de diabetes tipo 2 y la probabilidad de sufrir un ataque cardíaco. # Lanzamiento del modelo con regresión logistica:
El siguiente modelo incluye todas la variables que pueden predecir (Incluidas aquellas que han sido usadas para la caracterizacion de la poblacion) HeartDiseaseorAttack.
##
## Call:
## glm(formula = HeartDiseaseorAttack ~ BMI + Age + HighBP + HighChol +
## Smoker + Stroke + Diabetes + PhysActivity + Fruits + Veggies +
## Education + Income + Sex + HvyAlcoholConsump, family = binomial(link = "logit"),
## data = df)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -5.567028 0.153191 -36.341 < 2e-16 ***
## BMI 0.015936 0.002843 5.605 2.09e-08 ***
## Age 0.234678 0.007621 30.795 < 2e-16 ***
## HighBP 0.687254 0.039700 17.311 < 2e-16 ***
## HighChol 0.637218 0.036409 17.502 < 2e-16 ***
## Smoker 0.409043 0.034793 11.756 < 2e-16 ***
## Stroke 1.305558 0.052359 24.935 < 2e-16 ***
## Diabetes 0.214429 0.020041 10.699 < 2e-16 ***
## PhysActivity -0.200140 0.037900 -5.281 1.29e-07 ***
## Fruits -0.032814 0.036373 -0.902 0.366981
## Veggies 0.063346 0.043262 1.464 0.143134
## Education -0.006470 0.018155 -0.356 0.721567
## Income -0.124057 0.008888 -13.958 < 2e-16 ***
## Sex 0.687453 0.035339 19.453 < 2e-16 ***
## HvyAlcoholConsump -0.281909 0.083459 -3.378 0.000731 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 30785 on 50999 degrees of freedom
## Residual deviance: 24796 on 50985 degrees of freedom
## AIC: 24826
##
## Number of Fisher Scoring iterations: 6
## (Intercept) BMI Age HighBP
## -5.567028402 0.015936327 0.234678329 0.687253882
## HighChol Smoker Stroke Diabetes
## 0.637217653 0.409043444 1.305557647 0.214428500
## PhysActivity Fruits Veggies Education
## -0.200140116 -0.032814019 0.063345801 -0.006469795
## Income Sex HvyAlcoholConsump
## -0.124056819 0.687452882 -0.281909083
## 2.5 % 97.5 %
## (Intercept) -5.86825588 -5.26772437
## BMI 0.01034121 0.02148806
## Age 0.21980638 0.24968022
## HighBP 0.60967369 0.76530925
## HighChol 0.56602097 0.70875106
## Smoker 0.34092967 0.47732500
## Stroke 1.20269921 1.40796344
## Diabetes 0.17506191 0.25362653
## PhysActivity -0.27425024 -0.12567564
## Fruits -0.10399035 0.03859975
## Veggies -0.02109665 0.14850372
## Education -0.04198447 0.02918553
## Income -0.14145548 -0.10661475
## Sex 0.61828463 0.75681927
## HvyAlcoholConsump -0.44839055 -0.12106364
## [1] 24826.15
Los coeficientes del modelo de regresión logística revelan asociaciones significativas entre diversas variables y la presencia de enfermedad cardíaca. El intercepto, que representa el logaritmo de la razón de odds (log-odds) cuando todas las demás variables son cero, es -5.567028, lo anterior no tiene sentido ya que en la variable Age el 0 no está en los grupos o buckets existentes, lo mismo pasaría con la variable BMI, es imposible que tome un valor nulo.
El índice de masa corporal (BMI) muestra una asociación positiva, con un aumento de aproximadamente 0.0159 en el log-odds por cada unidad adicional. La edad (Age) también presenta una relación positiva, con un incremento de aproximadamente 0.2347 en el log-odds por cada año adicional.
La presión arterial alta (HighBP) y niveles altos de colesterol (HighChol) están asociados con aumentos significativos en el log-odds, siendo 0.6873 y 0.6372, respectivamente. Ser fumador (Smoker) y haber experimentado un accidente cerebrovascular (Stroke) también muestran asociaciones positivas fuertes, con aumentos de 0.409 y 1.3056 en el log-odds, respectivamente.
En contraste, la actividad física (PhysActivity) se asocia negativamente, indicando una disminución de 0.2001 en el log-odds con mayor actividad física. Las variables “Fruits”, “Veggies”, y “Education” no presentan asociaciones significativas con la presencia de enfermedades cardíacas.
En términos de significancia estadística, todas las variables, excepto “Fruits”, “Veggies”, y “Education”, son significativas a un nivel de confianza del 95%.
##
## Call:
## glm(formula = HeartDiseaseorAttack ~ BMI + Age + HighBP + HighChol +
## Smoker + Stroke + Diabetes + PhysActivity + Income + Sex +
## HvyAlcoholConsump, family = binomial(link = "logit"), data = df)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -5.567916 0.135930 -40.962 < 2e-16 ***
## BMI 0.016015 0.002840 5.639 1.71e-08 ***
## Age 0.234186 0.007578 30.902 < 2e-16 ***
## HighBP 0.687450 0.039673 17.328 < 2e-16 ***
## HighChol 0.637648 0.036385 17.525 < 2e-16 ***
## Smoker 0.411349 0.034699 11.855 < 2e-16 ***
## Stroke 1.304085 0.052345 24.913 < 2e-16 ***
## Diabetes 0.214455 0.020024 10.710 < 2e-16 ***
## PhysActivity -0.199493 0.037365 -5.339 9.35e-08 ***
## Income -0.124067 0.007962 -15.582 < 2e-16 ***
## Sex 0.685676 0.035133 19.516 < 2e-16 ***
## HvyAlcoholConsump -0.277921 0.083389 -3.333 0.00086 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 30785 on 50999 degrees of freedom
## Residual deviance: 24799 on 50988 degrees of freedom
## AIC: 24823
##
## Number of Fisher Scoring iterations: 6
## [1] 24822.74
A continuacion se hará uso de la funcion Step en el ultimo modelo, aquel que elimino las varibales menos significativas (Education, Veggies, Fruits ) para verificar sino hay alguna otra variable que pueda ser eliminada y asi mejorar el ajuste:
## Start: AIC=24822.74
## HeartDiseaseorAttack ~ BMI + Age + HighBP + HighChol + Smoker +
## Stroke + Diabetes + PhysActivity + Income + Sex + HvyAlcoholConsump
##
## Df Deviance AIC
## <none> 24799 24823
## - HvyAlcoholConsump 1 24810 24832
## - PhysActivity 1 24827 24849
## - BMI 1 24830 24852
## - Diabetes 1 24910 24932
## - Smoker 1 24941 24963
## - Income 1 25036 25058
## - HighBP 1 25112 25134
## - HighChol 1 25116 25138
## - Sex 1 25186 25208
## - Stroke 1 25369 25391
## - Age 1 25882 25904
Se omite eliminar más variables dado que elnumero actual presenta el AIC más bajo, si llegan a elimnar variables como HvyAlcoholConsump o PhysActivity este valor comenzará a aumentar.
##
## Call:
## glm(formula = HeartDiseaseorAttack ~ BMI + Age + HighBP + HighChol +
## Smoker + Stroke + Diabetes + PhysActivity + Income + Sex +
## HvyAlcoholConsump, family = binomial(link = "logit"), data = df)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -5.567916 0.135930 -40.962 < 2e-16 ***
## BMI 0.016015 0.002840 5.639 1.71e-08 ***
## Age 0.234186 0.007578 30.902 < 2e-16 ***
## HighBP 0.687450 0.039673 17.328 < 2e-16 ***
## HighChol 0.637648 0.036385 17.525 < 2e-16 ***
## Smoker 0.411349 0.034699 11.855 < 2e-16 ***
## Stroke 1.304085 0.052345 24.913 < 2e-16 ***
## Diabetes 0.214455 0.020024 10.710 < 2e-16 ***
## PhysActivity -0.199493 0.037365 -5.339 9.35e-08 ***
## Income -0.124067 0.007962 -15.582 < 2e-16 ***
## Sex 0.685676 0.035133 19.516 < 2e-16 ***
## HvyAlcoholConsump -0.277921 0.083389 -3.333 0.00086 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 30785 on 50999 degrees of freedom
## Residual deviance: 24799 on 50988 degrees of freedom
## AIC: 24823
##
## Number of Fisher Scoring iterations: 6
## [1] 24822.74
Intercept (Intercepto): El intercepto es -5.567916. En el contexto de la regresión logística, el intercepto representa el logaritmo de la razón de odds (log-odds) cuando todas las demás variables predictoras son cero. En este caso, sugiere el log-odds de tener una enfermedad cardíaca cuando todas las demás variables son cero. Este intercepto no se puede interpretar dada la naturaleza de variables como el BMI y Age que en ningun momento pueden llegar a tomar un valor nulo.
Coeficientes de las Variables Predictoras:
BMI: Un aumento de una unidad en el índice de masa corporal (BMI) está asociado con un aumento de aproximadamente 0.0160 en el log-odds de tener una enfermedad cardíaca, manteniendo otras variables constantes. Age: Cada año adicional de edad se asocia con un aumento de aproximadamente 0.2342 en el log-odds de tener una enfermedad cardíaca. HighBP: La presión arterial alta (HighBP) está asociada con un aumento de 0.6875 en el log-odds de tener una enfermedad cardíaca. HighChol: Niveles altos de colesterol (HighChol) están asociados con un aumento de 0.6376 en el log-odds de tener una enfermedad cardíaca. Smoker: Ser fumador está asociado con un aumento de 0.4113 en el log-odds de tener una enfermedad cardíaca. Stroke: Haber tenido un accidente cerebrovascular (Stroke) está asociado con un aumento significativo de 1.3041 en el log-odds de tener una enfermedad cardíaca. Diabetes: Tener diabetes está asociado con un aumento de 0.2145 en el log-odds de tener una enfermedad cardíaca. PhysActivity: La actividad física está asociada con una disminución de 0.1995 en el log-odds de tener una enfermedad cardíaca. Income: Los ingresos más bajos están asociados con un descenso de 0.1241 en el log-odds de tener una enfermedad cardíaca. Sex: Ser mujer (Sex = 1) está asociado con un aumento de 0.6857 en el log-odds de tener una enfermedad cardíaca. HvyAlcoholConsump: El consumo pesado de alcohol está asociado con una disminución de 0.2779 en el log-odds de tener una enfermedad cardíaca.
Significación Estadística: Todos los coeficientes son significativos a un nivel de confianza del 95% (indicado por los códigos *, , etc.).
Residual Deviance y AIC: La deviance residual y el criterio de información de Akaike (AIC) se utilizan para evaluar el ajuste del modelo. En este caso, el modelo tiene una deviance residual de 24799 y un AIC de 24823. Un AIC más bajo indica un mejor ajuste, y en este caso, el modelo parece proporcionar un ajuste razonable.
## `geom_smooth()` using formula = 'y ~ x'
## Install package "strengejacke" from GitHub (`devtools::install_github("strengejacke/strengejacke")`) to load all sj-packages at once!
## Profiled confidence intervals may take longer time to compute.
## Use `ci_method="wald"` for faster computation of CIs.
- Gráfico del Modelo: A medida que la combinación lineal de las
variables del modelo aumenta, las cuales son BMI, Age, HighBP, HighChol,
Smoker, Stroke, Diabetes, PhysActivity, Income, Sex, HvyAlcoholConsump,
observamos que la línea ajustada, que representa la relación entre las
variables independientes y la probabilidad de tener enfermedad cardíaca
o ataque al corazón, asciende gradualmente. Este ascenso se vuelve más
evidente al superar el valor de 30 en el eje x. Cuando la probabilidad
alcanza el umbral del 0.50, indicativo de la decisión de un ataque
cardíaco, se encuentra en el rango de 78-82 en el eje y. A medida que la
probabilidad se acerca a 1, se observa que no hay observaciones
registradas sobre la presencia o ausencia de un ataque cardíaco.
Esta gráfica nos permite examinar la magnitud de la influencia de las variables en nuestra variable “Heart Disease or Attack”. Observamos que todas las variables, excepto “HvyAlcoholConsump,” “PhysActivity,” e “income,” tienen efectos positivos en nuestro modelo. Esto implica que a medida que incrementamos una unidad en edad (age), el índice de masa corporal (BMI) también aumenta. Sin embargo, nuestras variables excepcionales son negativas, lo que indica una influencia negativa en el modelo. No obstante, esto no significa que carezcan de importancia, ya que previamente hemos evaluado la influencia de estas variables seleccionadas en el modelo.
Un aspecto adicional a considerar es que nuestro intercepto es el más negativo, indicando que la suma ponderada de nuestras variables predictoras contribuye a un valor negativo en la variable de respuesta.
# Establecer el diseño de la ventana gráfica
par(mfrow = c(1, 2))
# Graficar las cuatro gráficas
plot(modeloFinal)
Residuals vs Fitted (Gráfico de Residuos vs. Valores Ajustados): Al observar la homocedasticidad que nos proporciona el gráfico, notamos una leve homocedasticidad. Sin embargo, se identifica una homocedasticidad significativa al analizar el inicio de la gráfica.
Normal Q-Q Plot (Gráfico Cuantil-Cuantil Normal): Hasta cierto punto, podemos observar una normalidad en los residuos del modelo. No obstante, a medida que avanzamos en las gráficas, esta normalidad disminuye, iniciando en 2 cuando la representación gráfica de la normalidad se intensifica.
Scale-Location Plot (Gráfico de Escala y Ubicación): También se evidencia una homocedasticidad significativa, ya que las gráficas no muestran uniformidad. Destaca el punto de intersección de estas dos líneas en el 0, lo cual refuerza esta observación.
Residuals vs Leverage Plot (Gráfico de Residuos vs. Palanca): Se observa la presencia de muchos puntos influyentes, lo que genera una concentración alta de puntos sobre la banda horizontal.
Este estudio por medio del análisis de regresión logística en el conjunto de datos heart_disease_health_indicators_BRFSS2015 proporciona información esencial sobre la relación entre diversas variables y la probabilidad de padecer enfermedad cardíaca. En particular, el modelo final ajustado revela coeficientes significativos para varios factores de riesgo. Por ejemplo, el índice de masa corporal (BMI) y la edad presentan asociaciones positivas, indicando que un aumento en el BMI y el envejecimiento se relacionan con un incremento en la probabilidad de enfermedad cardíaca. Factores clásicos como la presión arterial alta (HighBP), niveles elevados de colesterol (HighChol) y el hábito de fumar (Smoker) también destacan como elementos de riesgo, al igual que antecedentes de accidente cerebrovascular (Stroke) y la presencia de diabetes.
En contraste, la actividad física (PhysActivity) se asocia negativamente, sugiriendo un efecto protector. Además, el análisis revela que las personas que hacen parte de grupos con ingresos más bajos (Income) están vinculados a un mayor riesgo. Género (Sex) y el consumo pesado de alcohol (HvyAlcoholConsump) también se destacan como influencias significativas. El modelo general muestra un buen ajuste, respaldado por un AIC de 24823, fortaleciendo la validez de las predicciones.
Este análisis integral ofrece una comprensión detallada de cómo diversas variables contribuyen a la predicción de enfermedades cardíacas en esta población específica. Las asociaciones identificadas son consistentes con la literatura médica y proporcionan una base sólida para comprender los factores de riesgo cardiovascular. Sin embargo, es crucial reconocer que, aunque el modelo es informativo y respaldado por métricas de ajuste sólidas, la aplicación clínica debe considerar la complejidad de los casos individuales y la necesidad de validación en conjuntos de datos externos.
1. Joaquin_AR. (2016). Introducción a la Regresión Lineal Múltiple.\ https://rpubs.com/Joaquin_AR/226291
2. ebologna. (2023-06-20). Introducción a RStudio: medidas descriptivas.\ https://rpubs.com/ebologna/1056389
3. Silverberg, J. (2015). **Asociación entre dermatitis atópica en adultos, enfermedades cardiovasculares y aumento de ataques cardíacos en tres estudios poblacionales. National library of medicine.\ https://pubmed.ncbi.nlm.nih.gov/26148129/
4. Rico, V. A. (2021). Estadística Descriptiva Básica en R.\ https://www.youtube.com/watch?v=Sn_D6AhMWjY
5. Centers for Disease Control and Prevention. (2015). Codebook de BRFSS 2015.\ https://www.cdc.gov/brfss/annual_data/2015/pdf/codebook15_llcp.pdf
6. Alex Teboul. (2015). Heart Disease Health Indicators Dataset.\ https://www.kaggle.com/datasets/alexteboul/heart-disease-health-indicators-dataset/data
7. MedlinePlus. (2022). MedlinePlus - Información de salud.\ https://medlineplus.gov/spanish/ency/article/000195.htm