Introducción:

Contextualización:

Las enfermedades cardíacas figuran entre las afecciones crónicas más prevalentes en los Estados Unidos, afectando a millones de estadounidenses cada año, con implicaciones significativas tanto para la salud individual como para la economía nacional. En los Estados Unidos, estas enfermedades cardiacas se sitúan como una de las principales causas de muerte, con aproximadamente 647,000 personas falleciendo por estas afecciones anualmente. La compleja interacción entre variables como el envejecimiento, la hipertensión y la diabetes contribuye como factores de riesgo y causas de enfermedades cardíacas.

Contenido:

El Sistema de Vigilancia de Factores de Riesgo Conductuales (BRFSS, por sus siglas en inglés) es una encuesta telefónica sobre la salud que se recopila anualmente por los Centros para el Control y la Prevención de Enfermedades (CDC). Cada año, la encuesta recopila respuestas de más de 400,000 estadounidenses sobre comportamientos relacionados con la salud, condiciones de salud crónicas y el uso de servicios preventivos. Esta encuesta se realiza anualmente desde 1984. Para este proyecto, descargué un archivo CSV del conjunto de datos disponible en Kaggle correspondiente al año 2015. Este conjunto de datos original contiene respuestas de 441,455 individuos y comprende 330 características. Estas características incluyen preguntas directamente formuladas a los participantes o variables calculadas basadas en las respuestas individuales de los participantes.

Este conjunto de datos depurado contiene 253,680 respuestas de la encuesta BRFSS 2015, utilizado principalmente para la clasificación binaria de enfermedades cardíacas. Es relevante señalar que existe un fuerte desequilibrio de clases en este conjunto de datos: 229,787 encuestados no tienen o no han tenido enfermedad cardíaca, mientras que 23,893 han tenido enfermedad cardíaca.

Variables de estudio:

##  [1] "HeartDiseaseorAttack" "HighBP"               "HighChol"            
##  [4] "BMI"                  "Smoker"               "Stroke"              
##  [7] "Diabetes"             "PhysActivity"         "Fruits"              
## [10] "Veggies"              "HvyAlcoholConsump"    "Sex"                 
## [13] "Age"                  "Education"            "Income"

Se estudiarán diversas variables relacionadas con enfermedades cardíacas en el contexto de un modelo de regresión logística. Estas variables incluyen la presión arterial alta (HighBP), el colesterol alto (HighChol), el índice de masa corporal (BMI), el cual es calculado de foirma imperial es decir haciendo uso de unidades como lb y inches, el hábito de fumar (Smoker), la ocurrencia de accidentes cerebrovasculares (Stroke), el tipo de diabetes (Diabetes), la actividad física (PhysActivity), el consumo de frutas (Fruits), el consumo de verduras (Veggies) y el consumo intenso de alcohol (HvyAlcoholConsump). Además, se explorarán factores socioeconómicos como la educación (Education) y la categoria con respecto a los ingresos del encuestado (Income), junto con variables demográficas como el género (Sex) y la edad (Age) que esta encapsulada en 13 grupos donde los intervalos van de la siguiente manera:

Grupo1: 18≤edad<24, Grupo2: 24≤edad<30, Grupo3: 30≤edad<36 Grupo4: 36≤edad<43, Grupo5: 43≤edad<49,Grupo6: 49≤edad<55 Grupo7: 55≤edad<62, Grupo8: 62≤edad<68, Grupo9: 68≤edad<74 Grupo10: 74≤edad<81, Grupo11: 81≤edad<87, Grupo12: 87≤edad<93 Grupo13: 93≤edad<100,

Estos grupos fueron calculados de la siguiente manera: \[ \begin{align*} & Rango = 100 - 18 = 82 \\ & Ancho = \frac{82}{13}\approx6.31 \end{align*} \]

Relevancia del trabajo:

Este trabajo reconoce el impacto que esta enfermedad tiene en la tasa de mortalidad de los habitantes de los Estados Unidos y, más allá, el peso financiero generado. A partir de esto, surge la iniciativa de desarrollar diversas estrategias de prevención efectivas y precisas. El hecho de que las personas tiendan a descubrir que padecen alguna enfermedad cardíaca después de experimentar los primeros síntomas o, en casos extremos, después de un episodio que requirió intervención médica, como un paro cardíaco, respalda la urgencia de implementar medidas de intervención proactivas para evitar los desenlaces más graves. Esto construirá una cultura de cuidado y prevención en torno a esta enfermedad, desde el profesional de la salud hasta el individuo.

Identificar los factores de riesgo es fundamental para los Centros de Control y Prevención. De manera alarmante, aproximadamente la mitad de los estadounidenses presenta al menos uno de estos factores de riesgo. El Instituto Nacional del Corazón, Pulmón y Sangre destaca una gama más amplia de consideraciones diagnósticas, que abarcan la edad, el entorno, antecedentes familiares, genética, hábitos de vida, otras condiciones médicas, raza o etnia, y género. Estos factores constituyen la base para encuestas iniciales y pruebas diagnósticas posteriores.

El diagnóstico de una enfermedad cardíaca debe tener un enfoque integral, no basarse solo en las causas tradicionales, sino también considerar el panorama de la salud individual. Por lo tanto, herramientas como encuestas y pruebas diagnósticas, acompañadas de muestras de sangre, amplían la detección de factores de riesgo a un nivel más único para cada paciente, permitiendo una gestión efectiva de la enfermedad.

Abordar esta problemática desde el enfoque de la prevención es altamente relevante, como se ha observado en los párrafos anteriores. Además de la carga emocional y física para los individuos afectados, también representa un enorme desafío económico para el sistema de atención médica y para la sociedad en general. El costo asociado con el tratamiento de enfermedades cardíacas, incluyendo hospitalizaciones, procedimientos médicos y medicamentos, contribuye significativamente a los gastos totales en salud. La importancia de la prevención radica en la capacidad de mitigar estos costos, mejorar la calidad de vida de los individuos y, lo más crucial, salvar vidas. Las estrategias preventivas pueden abordar no solo los factores de riesgo conocidos, sino también educar y empoderar a la población para tomar decisiones saludables en su vida diaria.

Objetivos:

En este trabajo, el objetivo principal es predecir de manera asertiva y eficiente el riesgo que una persona tiene de padecer una enfermedad cardíaca. También se tiene en cuenta la relación entre las variables actuales del conjunto de datos extraído, con el fin de explicar y entender los resultados a nivel predictivo. Es importante considerar que puede haber variables igualmente relevantes que no fueron incluidas en esta encuesta, de la cual se tomaron los datos.

Dataset:

## # A tibble: 5 × 15
##   HeartDiseaseorAttack HighBP HighChol   BMI Smoker Stroke Diabetes PhysActivity
##   <fct>                <fct>  <fct>    <dbl> <fct>  <fct>  <fct>    <fct>       
## 1 0                    1      1           40 1      0      0        0           
## 2 0                    0      0           25 1      0      0        1           
## 3 0                    1      1           28 0      0      0        0           
## 4 0                    1      0           27 0      0      0        1           
## 5 0                    1      1           24 0      0      0        1           
## # ℹ 7 more variables: Fruits <fct>, Veggies <fct>, HvyAlcoholConsump <fct>,
## #   Sex <fct>, Age <fct>, Education <fct>, Income <fct>

Previo a continuar con la exploración de los datos, se han eliminado 7 variables que teóricamente o por la forma en que fueron evaluadas no presentan una relación directa con nuestra variable independiente, HeartDiseaseorAttack. Variables como “PhysHlth”, “CholCheck”, “AnyHealthcare”, “NoDocbcCost”, “GenHlth”, “MentHlth” y “DiffWalk” podrían no ser óptimas para incluirlas en un modelo de predicción de enfermedad cardíaca. Por ejemplo, “GenHlth”, referente a la salud general, podría considerarse un concepto amplio y correlacionarse con otras variables más específicas ya incluidas en el modelo. Además, su relación directa con la enfermedad cardíaca puede no ser tan clara como con otras variables más específicas. En cuanto a “DiffWalk” (dificultad para caminar), aunque podría indicar limitaciones de movilidad, su inclusión dependerá de su relevancia específica para la población estudiada, por esa misma razón no es incluida en el estudio.

Caracterizacion de la poblacion de estudio:

Distribucion por sexo y edad:

Distribucion por eduacion e ingresos:

Exploratorio:

Estructura del dataset:

## tibble [51,000 × 15] (S3: tbl_df/tbl/data.frame)
##  $ HeartDiseaseorAttack: Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 2 1 ...
##  $ HighBP              : Factor w/ 2 levels "0","1": 2 1 2 2 2 2 2 2 2 1 ...
##  $ HighChol            : Factor w/ 2 levels "0","1": 2 1 2 1 2 2 1 2 2 1 ...
##  $ BMI                 : num [1:51000] 40 25 28 27 24 25 30 25 30 24 ...
##  $ Smoker              : Factor w/ 2 levels "0","1": 2 2 1 1 1 2 2 2 2 1 ...
##  $ Stroke              : Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
##  $ Diabetes            : Factor w/ 3 levels "0","1","2": 1 1 1 1 1 1 1 1 3 1 ...
##  $ PhysActivity        : Factor w/ 2 levels "0","1": 1 2 1 2 2 2 1 2 1 1 ...
##  $ Fruits              : Factor w/ 2 levels "0","1": 1 1 2 2 2 2 1 1 2 1 ...
##  $ Veggies             : Factor w/ 2 levels "0","1": 2 1 1 2 2 2 1 2 2 2 ...
##  $ HvyAlcoholConsump   : Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
##  $ Sex                 : Factor w/ 2 levels "0","1": 1 1 1 1 1 2 1 1 1 2 ...
##  $ Age                 : Factor w/ 13 levels "1","2","3","4",..: 9 7 9 11 11 10 9 11 9 8 ...
##  $ Education           : Factor w/ 6 levels "1","2","3","4",..: 4 6 4 3 5 6 6 4 5 4 ...
##  $ Income              : Factor w/ 8 levels "1","2","3","4",..: 3 1 8 6 4 8 7 4 1 3 ...

Descriptivo de las variables del dataset a utilizar:

Summary:

##  HeartDiseaseorAttack HighBP    HighChol       BMI        Smoker    Stroke   
##  0:46426              0:29435   0:29480   Min.   :12.00   0:28325   0:48856  
##  1: 4574              1:21565   1:21520   1st Qu.:24.00   1:22675   1: 2144  
##                                           Median :27.00                      
##                                           Mean   :27.85                      
##                                           3rd Qu.:31.00                      
##                                           Max.   :96.00                      
##                                                                              
##  Diabetes  PhysActivity Fruits    Veggies   HvyAlcoholConsump Sex      
##  0:42918   0:11418      0:18062   0: 9038   0:47912           0:28564  
##  1: 1077   1:39582      1:32938   1:41962   1: 3088           1:22436  
##  2: 7005                                                               
##                                                                        
##                                                                        
##                                                                        
##                                                                        
##       Age        Education     Income     
##  10     : 6659   1:   38   8      :19512  
##  9      : 6447   2: 1019   7      : 8168  
##  8      : 5891   3: 1987   6      : 6839  
##  7      : 5152   4:11085   5      : 4924  
##  11     : 4958   5:13684   4      : 3907  
##  6      : 3856   6:23187   3      : 3178  
##  (Other):18037             (Other): 4472

En el análisis descriptivo de nuestro conjunto de datos, observamos que alrededor del 9% de las 51,000 personas han experimentado un ataque cardíaco o tienen enfermedades cardíacas (variable “Heartdiseaseorattack”). Al explorar las variables predictoras, notamos patrones interesantes. La presión arterial alta (highbp) está presente en el 42% de los individuos, y el colesterol alto (highchol) en una proporción similar. Además, alrededor del 44% de la población se identifica como fumadora (smoker).

En cuanto a los factores de estilo de vida, observamos que el 77% de la muestra tiene una actividad física alta (physactivity). Sin embargo, es destacable que el 64% de las personas no consumen regularmente frutas (fruits), mientras que el 18% no consume vegetales regularmente (veggies). La variable de consumo pesado de alcohol (hvyalcoholcomsump) está presente en aproximadamente el 6% de los casos.

En el caso de la diabetes (diabetes), la mayoría de las personas (85%) no tienen esta condición, pero dentro de los que la tienen, se divide entre diabetes tipo 1 (2%) y tipo 2 (14%).

Estas observaciones proporcionan un panorama inicial que sugiere posibles relaciones entre ciertos factores de riesgo y la presencia de enfermedades cardíacas. Por ejemplo, la alta prevalencia de presión arterial alta y colesterol alto podría indicar la importancia de estos factores en el desarrollo de enfermedades cardíacas. Del mismo modo, la baja proporción de consumidores regulares de frutas y vegetales podría señalar un área de intervención para mejorar la salud cardiovascular.

Analisis del BMI por separado:

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   12.00   24.00   27.00   27.85   31.00   96.00

El resumen estadístico del Índice de Masa Corporal (BMI) revela información valiosa sobre la distribución de los datos. El BMI promedio es de aproximadamente 27.85, lo cual sugiere que, en promedio, la población tiende a tener un peso superior al considerado “normal” según los estándares de BMI. El rango de valores oscila entre 12 y 96, indicando una variabilidad significativa en los datos. Este amplio rango refleja diferencias sustanciales en los niveles de masa corporal entre los individuos estudiados.

La mediana del BMI se sitúa en 27, señalando que el 50% de la población tiene un BMI inferior a este valor. Por otro lado, el valor máximo de 96 indica la presencia de datos atípicos o valores extremos que pueden afectar la interpretación general. En cuanto al mínimo de 12, sugiere la existencia de casos con bajo peso significativo.

Es importante destacar que, aunque el promedio y la mediana proporcionan una visión central de los datos, la variabilidad en el rango y los valores extremos resalta la diversidad en la composición corporal de la población. Esta variabilidad puede deberse a factores como diferencias en la constitución física, hábitos alimenticios y niveles de actividad física.

Analisis de las Relaciones entre las variables expuestas en el data set con las variable dependiente (HeartDiseaseorAttack) :

Análisis de Gráficos: Tipos de Variables Se han generado dos tipos de gráficos, uno de barras y otro de caja y bigotes, para analizar diferentes tipos de variables. Los gráficos de barras se han agrupado en tres conjuntos:

<<<<<<< HEAD Grupo 1: HighBP, HighChol, Smoker -Se observa una predominancia del color amarillo (NO) en las variables de alto ritmo cardiaco, alto colesterol y tabaquismo. -Notablemente, en el caso del ataque cardíaco (color morado, 1 en el eje x), la proporción es mayor, indicando que las personas que sufren un ataque cardíaco tienden a presentar estas condiciones.

Grupo 2: PhysActivity, Fruits, Veggies -Contrariamente al Grupo 1, aquí la concentración es mayor en el color morado (SI) para variables relacionadas con actividad física, consumo de frutas y dieta vegana. -Se destaca que, incluso en casos sin ataque cardíaco, hay una proporción considerable de personas que siguen hábitos saludables.

Grupo 3: HvyAlcoholConsump, Sex, Stroke -Mayor concentración en el color amarillo (NO) indica una prevalencia de respuestas negativas en cuanto al consumo excesivo de alcohol, género y accidente cerebrovascular. -Se observa una proporción significativa de hombres en la muestra, y en términos de ataque cardíaco, las diferencias no son tan marcadas.

Gráficos de Caja y Bigotes: Edad y BMI EDAD: Aquellos sin ataque cardíaco muestran una distribución sin datos atípicos, con cuartiles entre 6 y 10. En contraste, las personas que sufren un ataque cardíaco tienen datos atípicos, y sus cuartiles están ubicados entre 8 y 12, sugiriendo una distribución más dispersa y posiblemente una mayor variabilidad de edades.

La presencia de datos atípicos en la distribución de edades en el grupo con ataques cardíacos puede indicar una mayor variabilidad en las edades de este grupo.
A pesar de la prevalencia de hábitos saludables en el Grupo 2, es esencial tener en cuenta que otras variables podrían estar contribuyendo a la presencia de ataques cardíacos.

3.La mayor concentración de hombres en la muestra puede tener implicaciones en las diferencias observadas en los resultados de ataques cardíacos entre géneros. Es importante explorar más a fondo estas diferencias potenciales.

BMI: En el gráfico de caja y bigotes correspondiente al Índice de Masa Corporal (BMI), se observa una notable similitud entre las dos distribuciones. Ambas muestran la presencia de datos atípicos y tienden a superponerse una sobre la otra. En relación con las cajas, se destaca que, en el caso de la ausencia de ataque cardíaco, los datos atípicos son ligeramente más pronunciados en comparación con aquellos que sí experimentan un ataque cardíaco. Este hallazgo sugiere una mayor variabilidad en los valores de BMI entre las personas sin ataques cardíacos, pero la similitud general entre las distribuciones indica que el BMI no presenta diferencias significativas entre ambos grupos.

GRUPO NUEVO: Educación, Ingresos y Diabetes en Relación con Ataques Cardíacos Las nuevas gráficas se centran en la relación entre ataques cardíacos y las variables de educación, ingresos y diabetes. En las gráficas de educación e ingresos, se observa un comportamiento creciente hacia la derecha, indicando que a medida que la educación y los ingresos aumentan, la incidencia de ataques cardíacos también tiende a aumentar. Este patrón sugiere una posible asociación entre niveles más altos de educación e ingresos y una mayor probabilidad de ataques cardíacos.

En la gráfica de diabetes, se identifica una mayor concentración de casos en personas que no han experimentado un ataque cardíaco, destacada por el predominio del color verde. Dentro de los casos de diabetes, se observa una mayor cantidad de personas con diabetes tipo 1, seguido por aquellos con diabetes tipo 3, y la menor concentración se encuentra en el tipo 2. Este hallazgo podría indicar una relación inversa entre la presencia de diabetes tipo 2 y la probabilidad de sufrir un ataque cardíaco. # Lanzamiento del modelo con regresión logistica:

Modelo Completo:

El siguiente modelo incluye todas la variables que pueden predecir (Incluidas aquellas que han sido usadas para la caracterizacion de la poblacion) HeartDiseaseorAttack.

## 
## Call:
## glm(formula = HeartDiseaseorAttack ~ BMI + Age + HighBP + HighChol + 
##     Smoker + Stroke + Diabetes + PhysActivity + Fruits + Veggies + 
##     Education + Income + Sex + HvyAlcoholConsump, family = binomial(link = "logit"), 
##     data = df)
## 
## Coefficients:
##                    Estimate Std. Error z value Pr(>|z|)    
## (Intercept)       -5.567028   0.153191 -36.341  < 2e-16 ***
## BMI                0.015936   0.002843   5.605 2.09e-08 ***
## Age                0.234678   0.007621  30.795  < 2e-16 ***
## HighBP             0.687254   0.039700  17.311  < 2e-16 ***
## HighChol           0.637218   0.036409  17.502  < 2e-16 ***
## Smoker             0.409043   0.034793  11.756  < 2e-16 ***
## Stroke             1.305558   0.052359  24.935  < 2e-16 ***
## Diabetes           0.214429   0.020041  10.699  < 2e-16 ***
## PhysActivity      -0.200140   0.037900  -5.281 1.29e-07 ***
## Fruits            -0.032814   0.036373  -0.902 0.366981    
## Veggies            0.063346   0.043262   1.464 0.143134    
## Education         -0.006470   0.018155  -0.356 0.721567    
## Income            -0.124057   0.008888 -13.958  < 2e-16 ***
## Sex                0.687453   0.035339  19.453  < 2e-16 ***
## HvyAlcoholConsump -0.281909   0.083459  -3.378 0.000731 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 30785  on 50999  degrees of freedom
## Residual deviance: 24796  on 50985  degrees of freedom
## AIC: 24826
## 
## Number of Fisher Scoring iterations: 6

##       (Intercept)               BMI               Age            HighBP 
##      -5.567028402       0.015936327       0.234678329       0.687253882 
##          HighChol            Smoker            Stroke          Diabetes 
##       0.637217653       0.409043444       1.305557647       0.214428500 
##      PhysActivity            Fruits           Veggies         Education 
##      -0.200140116      -0.032814019       0.063345801      -0.006469795 
##            Income               Sex HvyAlcoholConsump 
##      -0.124056819       0.687452882      -0.281909083

##                         2.5 %      97.5 %
## (Intercept)       -5.86825588 -5.26772437
## BMI                0.01034121  0.02148806
## Age                0.21980638  0.24968022
## HighBP             0.60967369  0.76530925
## HighChol           0.56602097  0.70875106
## Smoker             0.34092967  0.47732500
## Stroke             1.20269921  1.40796344
## Diabetes           0.17506191  0.25362653
## PhysActivity      -0.27425024 -0.12567564
## Fruits            -0.10399035  0.03859975
## Veggies           -0.02109665  0.14850372
## Education         -0.04198447  0.02918553
## Income            -0.14145548 -0.10661475
## Sex                0.61828463  0.75681927
## HvyAlcoholConsump -0.44839055 -0.12106364

## [1] 24826.15

Interpretacion Modelo completo:

Los coeficientes del modelo de regresión logística revelan asociaciones significativas entre diversas variables y la presencia de enfermedad cardíaca. El intercepto, que representa el logaritmo de la razón de odds (log-odds) cuando todas las demás variables son cero, es -5.567028, lo anterior no tiene sentido ya que en la variable Age el 0 no está en los grupos o buckets existentes, lo mismo pasaría con la variable BMI, es imposible que tome un valor nulo.

El índice de masa corporal (BMI) muestra una asociación positiva, con un aumento de aproximadamente 0.0159 en el log-odds por cada unidad adicional. La edad (Age) también presenta una relación positiva, con un incremento de aproximadamente 0.2347 en el log-odds por cada año adicional.

La presión arterial alta (HighBP) y niveles altos de colesterol (HighChol) están asociados con aumentos significativos en el log-odds, siendo 0.6873 y 0.6372, respectivamente. Ser fumador (Smoker) y haber experimentado un accidente cerebrovascular (Stroke) también muestran asociaciones positivas fuertes, con aumentos de 0.409 y 1.3056 en el log-odds, respectivamente.

En contraste, la actividad física (PhysActivity) se asocia negativamente, indicando una disminución de 0.2001 en el log-odds con mayor actividad física. Las variables “Fruits”, “Veggies”, y “Education” no presentan asociaciones significativas con la presencia de enfermedades cardíacas.

En términos de significancia estadística, todas las variables, excepto “Fruits”, “Veggies”, y “Education”, son significativas a un nivel de confianza del 95%.

## 
## Call:
## glm(formula = HeartDiseaseorAttack ~ BMI + Age + HighBP + HighChol + 
##     Smoker + Stroke + Diabetes + PhysActivity + Income + Sex + 
##     HvyAlcoholConsump, family = binomial(link = "logit"), data = df)
## 
## Coefficients:
##                    Estimate Std. Error z value Pr(>|z|)    
## (Intercept)       -5.567916   0.135930 -40.962  < 2e-16 ***
## BMI                0.016015   0.002840   5.639 1.71e-08 ***
## Age                0.234186   0.007578  30.902  < 2e-16 ***
## HighBP             0.687450   0.039673  17.328  < 2e-16 ***
## HighChol           0.637648   0.036385  17.525  < 2e-16 ***
## Smoker             0.411349   0.034699  11.855  < 2e-16 ***
## Stroke             1.304085   0.052345  24.913  < 2e-16 ***
## Diabetes           0.214455   0.020024  10.710  < 2e-16 ***
## PhysActivity      -0.199493   0.037365  -5.339 9.35e-08 ***
## Income            -0.124067   0.007962 -15.582  < 2e-16 ***
## Sex                0.685676   0.035133  19.516  < 2e-16 ***
## HvyAlcoholConsump -0.277921   0.083389  -3.333  0.00086 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 30785  on 50999  degrees of freedom
## Residual deviance: 24799  on 50988  degrees of freedom
## AIC: 24823
## 
## Number of Fisher Scoring iterations: 6

## [1] 24822.74

A continuacion se hará uso de la funcion Step en el ultimo modelo, aquel que elimino las varibales menos significativas (Education, Veggies, Fruits ) para verificar sino hay alguna otra variable que pueda ser eliminada y asi mejorar el ajuste:

## Start:  AIC=24822.74
## HeartDiseaseorAttack ~ BMI + Age + HighBP + HighChol + Smoker + 
##     Stroke + Diabetes + PhysActivity + Income + Sex + HvyAlcoholConsump
## 
##                     Df Deviance   AIC
## <none>                    24799 24823
## - HvyAlcoholConsump  1    24810 24832
## - PhysActivity       1    24827 24849
## - BMI                1    24830 24852
## - Diabetes           1    24910 24932
## - Smoker             1    24941 24963
## - Income             1    25036 25058
## - HighBP             1    25112 25134
## - HighChol           1    25116 25138
## - Sex                1    25186 25208
## - Stroke             1    25369 25391
## - Age                1    25882 25904

Se omite eliminar más variables dado que elnumero actual presenta el AIC más bajo, si llegan a elimnar variables como HvyAlcoholConsump o PhysActivity este valor comenzará a aumentar.

Modelo final:

## 
## Call:
## glm(formula = HeartDiseaseorAttack ~ BMI + Age + HighBP + HighChol + 
##     Smoker + Stroke + Diabetes + PhysActivity + Income + Sex + 
##     HvyAlcoholConsump, family = binomial(link = "logit"), data = df)
## 
## Coefficients:
##                    Estimate Std. Error z value Pr(>|z|)    
## (Intercept)       -5.567916   0.135930 -40.962  < 2e-16 ***
## BMI                0.016015   0.002840   5.639 1.71e-08 ***
## Age                0.234186   0.007578  30.902  < 2e-16 ***
## HighBP             0.687450   0.039673  17.328  < 2e-16 ***
## HighChol           0.637648   0.036385  17.525  < 2e-16 ***
## Smoker             0.411349   0.034699  11.855  < 2e-16 ***
## Stroke             1.304085   0.052345  24.913  < 2e-16 ***
## Diabetes           0.214455   0.020024  10.710  < 2e-16 ***
## PhysActivity      -0.199493   0.037365  -5.339 9.35e-08 ***
## Income            -0.124067   0.007962 -15.582  < 2e-16 ***
## Sex                0.685676   0.035133  19.516  < 2e-16 ***
## HvyAlcoholConsump -0.277921   0.083389  -3.333  0.00086 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 30785  on 50999  degrees of freedom
## Residual deviance: 24799  on 50988  degrees of freedom
## AIC: 24823
## 
## Number of Fisher Scoring iterations: 6

## [1] 24822.74

Interpretacion modelo final

Intercept (Intercepto): El intercepto es -5.567916. En el contexto de la regresión logística, el intercepto representa el logaritmo de la razón de odds (log-odds) cuando todas las demás variables predictoras son cero. En este caso, sugiere el log-odds de tener una enfermedad cardíaca cuando todas las demás variables son cero. Este intercepto no se puede interpretar dada la naturaleza de variables como el BMI y Age que en ningun momento pueden llegar a tomar un valor nulo.

Coeficientes de las Variables Predictoras:

BMI: Un aumento de una unidad en el índice de masa corporal (BMI) está asociado con un aumento de aproximadamente 0.0160 en el log-odds de tener una enfermedad cardíaca, manteniendo otras variables constantes. Age: Cada año adicional de edad se asocia con un aumento de aproximadamente 0.2342 en el log-odds de tener una enfermedad cardíaca. HighBP: La presión arterial alta (HighBP) está asociada con un aumento de 0.6875 en el log-odds de tener una enfermedad cardíaca. HighChol: Niveles altos de colesterol (HighChol) están asociados con un aumento de 0.6376 en el log-odds de tener una enfermedad cardíaca. Smoker: Ser fumador está asociado con un aumento de 0.4113 en el log-odds de tener una enfermedad cardíaca. Stroke: Haber tenido un accidente cerebrovascular (Stroke) está asociado con un aumento significativo de 1.3041 en el log-odds de tener una enfermedad cardíaca. Diabetes: Tener diabetes está asociado con un aumento de 0.2145 en el log-odds de tener una enfermedad cardíaca. PhysActivity: La actividad física está asociada con una disminución de 0.1995 en el log-odds de tener una enfermedad cardíaca. Income: Los ingresos más bajos están asociados con un descenso de 0.1241 en el log-odds de tener una enfermedad cardíaca. Sex: Ser mujer (Sex = 1) está asociado con un aumento de 0.6857 en el log-odds de tener una enfermedad cardíaca. HvyAlcoholConsump: El consumo pesado de alcohol está asociado con una disminución de 0.2779 en el log-odds de tener una enfermedad cardíaca.

Significación Estadística: Todos los coeficientes son significativos a un nivel de confianza del 95% (indicado por los códigos *, , etc.).

Residual Deviance y AIC: La deviance residual y el criterio de información de Akaike (AIC) se utilizan para evaluar el ajuste del modelo. En este caso, el modelo tiene una deviance residual de 24799 y un AIC de 24823. Un AIC más bajo indica un mejor ajuste, y en este caso, el modelo parece proporcionar un ajuste razonable.

Grafico del modelo:

## `geom_smooth()` using formula = 'y ~ x'

## Install package "strengejacke" from GitHub (`devtools::install_github("strengejacke/strengejacke")`) to load all sj-packages at once!
## Profiled confidence intervals may take longer time to compute.
##   Use `ci_method="wald"` for faster computation of CIs.

- Gráfico del Modelo: A medida que la combinación lineal de las variables del modelo aumenta, las cuales son BMI, Age, HighBP, HighChol, Smoker, Stroke, Diabetes, PhysActivity, Income, Sex, HvyAlcoholConsump, observamos que la línea ajustada, que representa la relación entre las variables independientes y la probabilidad de tener enfermedad cardíaca o ataque al corazón, asciende gradualmente. Este ascenso se vuelve más evidente al superar el valor de 30 en el eje x. Cuando la probabilidad alcanza el umbral del 0.50, indicativo de la decisión de un ataque cardíaco, se encuentra en el rango de 78-82 en el eje y. A medida que la probabilidad se acerca a 1, se observa que no hay observaciones registradas sobre la presencia o ausencia de un ataque cardíaco.

Odds Ratios: Este gráfico proporciona información sobre la influencia de los puntos en el modelo. Además, indica, a través del color azul, las variables que aumentan el intercepto, mientras que las variables representadas en rojo disminuyen el intercepto, afectando la pendiente de la recta. Es notable que la edad destaca como el punto de mayor influencia, mientras que el ingreso (income) tiene la menor influencia en el modelo.

Grafico del log_ODDs:

Esta gráfica nos permite examinar la magnitud de la influencia de las variables en nuestra variable “Heart Disease or Attack”. Observamos que todas las variables, excepto “HvyAlcoholConsump,” “PhysActivity,” e “income,” tienen efectos positivos en nuestro modelo. Esto implica que a medida que incrementamos una unidad en edad (age), el índice de masa corporal (BMI) también aumenta. Sin embargo, nuestras variables excepcionales son negativas, lo que indica una influencia negativa en el modelo. No obstante, esto no significa que carezcan de importancia, ya que previamente hemos evaluado la influencia de estas variables seleccionadas en el modelo.

Un aspecto adicional a considerar es que nuestro intercepto es el más negativo, indicando que la suma ponderada de nuestras variables predictoras contribuye a un valor negativo en la variable de respuesta.

Supuestos en los residuos:

# Establecer el diseño de la ventana gráfica
par(mfrow = c(1, 2))

# Graficar las cuatro gráficas
plot(modeloFinal)

Residuals vs Fitted (Gráfico de Residuos vs. Valores Ajustados): Al observar la homocedasticidad que nos proporciona el gráfico, notamos una leve homocedasticidad. Sin embargo, se identifica una homocedasticidad significativa al analizar el inicio de la gráfica.
Normal Q-Q Plot (Gráfico Cuantil-Cuantil Normal): Hasta cierto punto, podemos observar una normalidad en los residuos del modelo. No obstante, a medida que avanzamos en las gráficas, esta normalidad disminuye, iniciando en 2 cuando la representación gráfica de la normalidad se intensifica.
Scale-Location Plot (Gráfico de Escala y Ubicación): También se evidencia una homocedasticidad significativa, ya que las gráficas no muestran uniformidad. Destaca el punto de intersección de estas dos líneas en el 0, lo cual refuerza esta observación.
Residuals vs Leverage Plot (Gráfico de Residuos vs. Palanca): Se observa la presencia de muchos puntos influyentes, lo que genera una concentración alta de puntos sobre la banda horizontal.

Conclusiones:

Este estudio por medio del análisis de regresión logística en el conjunto de datos heart_disease_health_indicators_BRFSS2015 proporciona información esencial sobre la relación entre diversas variables y la probabilidad de padecer enfermedad cardíaca. En particular, el modelo final ajustado revela coeficientes significativos para varios factores de riesgo. Por ejemplo, el índice de masa corporal (BMI) y la edad presentan asociaciones positivas, indicando que un aumento en el BMI y el envejecimiento se relacionan con un incremento en la probabilidad de enfermedad cardíaca. Factores clásicos como la presión arterial alta (HighBP), niveles elevados de colesterol (HighChol) y el hábito de fumar (Smoker) también destacan como elementos de riesgo, al igual que antecedentes de accidente cerebrovascular (Stroke) y la presencia de diabetes.

En contraste, la actividad física (PhysActivity) se asocia negativamente, sugiriendo un efecto protector. Además, el análisis revela que las personas que hacen parte de grupos con ingresos más bajos (Income) están vinculados a un mayor riesgo. Género (Sex) y el consumo pesado de alcohol (HvyAlcoholConsump) también se destacan como influencias significativas. El modelo general muestra un buen ajuste, respaldado por un AIC de 24823, fortaleciendo la validez de las predicciones.

Este análisis integral ofrece una comprensión detallada de cómo diversas variables contribuyen a la predicción de enfermedades cardíacas en esta población específica. Las asociaciones identificadas son consistentes con la literatura médica y proporcionan una base sólida para comprender los factores de riesgo cardiovascular. Sin embargo, es crucial reconocer que, aunque el modelo es informativo y respaldado por métricas de ajuste sólidas, la aplicación clínica debe considerar la complejidad de los casos individuales y la necesidad de validación en conjuntos de datos externos.

Bibliografia:

1. Joaquin_AR. (2016). Introducción a la Regresión Lineal Múltiple.\ https://rpubs.com/Joaquin_AR/226291

2. ebologna. (2023-06-20). Introducción a RStudio: medidas descriptivas.\ https://rpubs.com/ebologna/1056389

3. Silverberg, J. (2015). **Asociación entre dermatitis atópica en adultos, enfermedades cardiovasculares y aumento de ataques cardíacos en tres estudios poblacionales. National library of medicine.\ https://pubmed.ncbi.nlm.nih.gov/26148129/

4. Rico, V. A. (2021). Estadística Descriptiva Básica en R.\ https://www.youtube.com/watch?v=Sn_D6AhMWjY

5. Centers for Disease Control and Prevention. (2015). Codebook de BRFSS 2015.\ https://www.cdc.gov/brfss/annual_data/2015/pdf/codebook15_llcp.pdf

6. Alex Teboul. (2015). Heart Disease Health Indicators Dataset.\ https://www.kaggle.com/datasets/alexteboul/heart-disease-health-indicators-dataset/data

7. MedlinePlus. (2022). MedlinePlus - Información de salud.\ https://medlineplus.gov/spanish/ency/article/000195.htm

Proyecto Final: Predicción del Riesgo de Enfermedades Cardíacas mediante Regresión Logística

Autores: Jesus David Arevalo, Juan Sebastian Quintana