Reporte final: Narrativa analítica (visual y estadística)

Pregunta de investigación

La presión saguínea en reposo y el colesterol total son los valores medidos fácilmente a los pacientes. Estos valores han sido detectados en diversos estudios clínicos como factores de riesgo a Evento Cardioovascular. Pero también se tiene evidencia médica de que estos factores está relacionados y se tiene la sospecha de que uno de ellos podría ser un factor indirecto del riesgo cardiovascular.

¿El colesterol total puede predecir la presión saguínea en reposo?

## corrplot 0.95 loaded
## 
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
## 
##     chisq.test, fisher.test

Análisis exploratorio de datos

Estadística descriptiva

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    94.0   120.0   130.0   131.8   140.0   200.0

Gráficos descriptivos

Gráfico de Presión sanguínea en reposo vs Colesterol total

Modelo de regresión lineal

## 
## Call:
## lm(formula = trestbps ~ chol, data = cleaned_data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -36.666 -11.390  -2.231  10.193  65.731 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 117.25609    5.17511  22.658  < 2e-16 ***
## chol          0.05907    0.02065   2.861  0.00453 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 17.54 on 296 degrees of freedom
## Multiple R-squared:  0.0269, Adjusted R-squared:  0.02361 
## F-statistic: 8.183 on 1 and 296 DF,  p-value: 0.00453
## `geom_smooth()` using formula = 'y ~ x'

Interpretación del modelo preliminar.

Coeficientes y su sentido.

Indican la magnitud y dirección de la relación. El coeficiente para colesterol total es 0.05907, sigifica que por cada unidad adicionalde colesterol, la presión sanguínea en reposo incrementa en 0.05907 unidades.

Significancia estadística.

Valor P (Pr(>|t|)): Un valor pequeño (usualmente < 0.05) sugiere que la relación es estadísticamente significativa. En este caso, el modelo de regresión lineal indica que es la relación es significativa, ya que p (0.00453) < 0.01.

Indicadores globales del modelo (R²).

R-cuadrado (\(R^{2}\)): Mide qué proporción de la varianza en la variable dependiente (presión saguínea en reposo) es explicada por la variable independiente (colesterol total). En este caso la \(R^{2}\) = 0.0269; lo cual indica que el colesterol total tiene una relación estadísticamente significativa, pero que explica poco de la variación en los datos; o sea, que el efecto es pequeño.

Relevancia práctica de las variables consideradas.

Las variables consideradas son fáciles de obteer para un paciente y hay muchos registros en muchas poblaciones. También están estandarizadas en las organizaciones de salud y oresentan comportamiento normal. Por ello son muy relelantes, pero se requiere construir modelos más completos que separen el efecto etre sexos, edades, etre otros factores.

Conclusiones preliminares

Sobre la calidad del modelo y su utilidad para responder la pregunta predictiva.

El modelo es muy simple, pero es indicativo de una relación importante para considerar y seguir analizando. Es necesario construir un modelo de regresión múltiple con pruebas que pernitan eliminar las variables que aportan poco al modelo para elimiarlas y calcular sus coeficientes de correlacioes parciales para determinar relaciones indirectas y espurias.

Refinamieto del modelo predictivo y conclusiones finales.

La evaluación de correlaciones y posible colinealidad.

En el grafo se observan una correlación positva alta con la edad y a su vez, de la edad negativamente con la thalch; la cual también muestra ua correelación negativa con oldpeak. Se decide incluir en un modelo de regresión lineal múltiple a todas las variables y realizar una eliminnación iterativa de variables que no aporten significativamete en la reducción dele error de ajuste, mediante ANOVA.

Se replamtea la pregunta de investigación:

¿Cuáles son las variables predictores más eficaces para la presión sanguínea en reposo?

Comparación de modelos.

## 
## Call:
## lm(formula = trestbps ~ ., data = solo_numericos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -38.181 -10.936  -1.136   9.966  59.322 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 75.35327   11.68274   6.450 4.61e-10 ***
## age          0.55967    0.11917   4.696 4.08e-06 ***
## chol         0.03839    0.02006   1.914   0.0566 .  
## thalch       0.09144    0.04778   1.914   0.0566 .  
## oldpeak      2.69156    0.88960   3.026   0.0027 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 16.69 on 293 degrees of freedom
## Multiple R-squared:  0.1283, Adjusted R-squared:  0.1164 
## F-statistic: 10.78 on 4 and 293 DF,  p-value: 3.614e-08

Elección del modelo final y justificación.

Se ejecuta un análisis de varianza sobre los coeficietes para evaluar su aportación a la reducción del error del ajuste.

## Analysis of Variance Table
## 
## Response: trestbps
##            Df Sum Sq Mean Sq F value    Pr(>F)    
## age         1   7974  7974.2 28.6420 1.759e-07 ***
## chol        1   1182  1182.4  4.2470  0.040203 *  
## thalch      1    305   304.9  1.0950  0.296218    
## oldpeak     1   2549  2548.6  9.1541  0.002702 ** 
## Residuals 293  81574   278.4                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

La variable que menos contribuye a la reducción del error de ajuste del modelo es: “thalch”. Por lo tanto se remueve.

## 
## Call:
## lm(formula = trestbps ~ age + chol + oldpeak, data = solo_numericos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -39.640 -10.952  -0.691  10.068  61.203 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 93.17255    7.08863  13.144  < 2e-16 ***
## age          0.47828    0.11183   4.277 2.57e-05 ***
## chol         0.04169    0.02007   2.077   0.0387 *  
## oldpeak      2.17577    0.85163   2.555   0.0111 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 16.76 on 294 degrees of freedom
## Multiple R-squared:  0.1174, Adjusted R-squared:  0.1084 
## F-statistic: 13.04 on 3 and 294 DF,  p-value: 5.097e-08

El ajuste solo mejoró en un 11%, lo cual no es satisfactorio. Se procede a realizar una comparación más formal comparando los dos modelos, una vez más con un ANOVA.

## Analysis of Variance Table
## 
## Model 1: trestbps ~ age + chol + thalch + oldpeak
## Model 2: trestbps ~ age + chol + oldpeak
##   Res.Df   RSS Df Sum of Sq      F  Pr(>F)  
## 1    293 81574                              
## 2    294 82594 -1   -1019.8 3.6628 0.05661 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El análisis de varianza de los dos modelos usado una Prueba de F para evaluar la significacia de las diferencias, aunque la suma de cuadrados disminuyó (-1020), la comparación muestra que las diferenncias no son significativas (p = 0.06), pero es aceptable; además el modelo es más simple. Este proceso debe ser iterativo hasta que o se tenga candidsatos para remover.

Conclusiones.

Si el objetivo del modelado es predictivo, el criterio se centra en la reducción del error de ajuste y se puede realizar una reducción iterativa de variables eliminando las varables que meos aportan y comparado loos modelos para verificar que los modelos sean significativamete diferentes, para proceder a la elimiación.

En este caso, se elimina la variable talch, ya que las diferencias son sigificativas y se obtine un modelo más simple.