La presión saguínea en reposo y el colesterol total son los valores medidos fácilmente a los pacientes. Estos valores han sido detectados en diversos estudios clínicos como factores de riesgo a Evento Cardioovascular. Pero también se tiene evidencia médica de que estos factores está relacionados y se tiene la sospecha de que uno de ellos podría ser un factor indirecto del riesgo cardiovascular.
¿El colesterol total puede predecir la presión saguínea en reposo?
## corrplot 0.95 loaded
##
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
##
## chisq.test, fisher.test
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 94.0 120.0 130.0 131.8 140.0 200.0
##
## Call:
## lm(formula = trestbps ~ chol, data = cleaned_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -36.666 -11.390 -2.231 10.193 65.731
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 117.25609 5.17511 22.658 < 2e-16 ***
## chol 0.05907 0.02065 2.861 0.00453 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 17.54 on 296 degrees of freedom
## Multiple R-squared: 0.0269, Adjusted R-squared: 0.02361
## F-statistic: 8.183 on 1 and 296 DF, p-value: 0.00453
## `geom_smooth()` using formula = 'y ~ x'
Indican la magnitud y dirección de la relación. El coeficiente para colesterol total es 0.05907, sigifica que por cada unidad adicionalde colesterol, la presión sanguínea en reposo incrementa en 0.05907 unidades.
Valor P (Pr(>|t|)): Un valor pequeño (usualmente < 0.05) sugiere que la relación es estadísticamente significativa. En este caso, el modelo de regresión lineal indica que es la relación es significativa, ya que p (0.00453) < 0.01.
R-cuadrado (\(R^{2}\)): Mide qué proporción de la varianza en la variable dependiente (presión saguínea en reposo) es explicada por la variable independiente (colesterol total). En este caso la \(R^{2}\) = 0.0269; lo cual indica que el colesterol total tiene una relación estadísticamente significativa, pero que explica poco de la variación en los datos; o sea, que el efecto es pequeño.
Las variables consideradas son fáciles de obteer para un paciente y hay muchos registros en muchas poblaciones. También están estandarizadas en las organizaciones de salud y oresentan comportamiento normal. Por ello son muy relelantes, pero se requiere construir modelos más completos que separen el efecto etre sexos, edades, etre otros factores.
Sobre la calidad del modelo y su utilidad para responder la pregunta predictiva.
El modelo es muy simple, pero es indicativo de una relación importante para considerar y seguir analizando. Es necesario construir un modelo de regresión múltiple con pruebas que pernitan eliminar las variables que aportan poco al modelo para elimiarlas y calcular sus coeficientes de correlacioes parciales para determinar relaciones indirectas y espurias.
En el grafo se observan una correlación positva alta con la edad y a su vez, de la edad negativamente con la thalch; la cual también muestra ua correelación negativa con oldpeak. Se decide incluir en un modelo de regresión lineal múltiple a todas las variables y realizar una eliminnación iterativa de variables que no aporten significativamete en la reducción dele error de ajuste, mediante ANOVA.
Se replamtea la pregunta de investigación:
##
## Call:
## lm(formula = trestbps ~ ., data = solo_numericos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -38.181 -10.936 -1.136 9.966 59.322
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 75.35327 11.68274 6.450 4.61e-10 ***
## age 0.55967 0.11917 4.696 4.08e-06 ***
## chol 0.03839 0.02006 1.914 0.0566 .
## thalch 0.09144 0.04778 1.914 0.0566 .
## oldpeak 2.69156 0.88960 3.026 0.0027 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 16.69 on 293 degrees of freedom
## Multiple R-squared: 0.1283, Adjusted R-squared: 0.1164
## F-statistic: 10.78 on 4 and 293 DF, p-value: 3.614e-08
Se ejecuta un análisis de varianza sobre los coeficietes para evaluar su aportación a la reducción del error del ajuste.
## Analysis of Variance Table
##
## Response: trestbps
## Df Sum Sq Mean Sq F value Pr(>F)
## age 1 7974 7974.2 28.6420 1.759e-07 ***
## chol 1 1182 1182.4 4.2470 0.040203 *
## thalch 1 305 304.9 1.0950 0.296218
## oldpeak 1 2549 2548.6 9.1541 0.002702 **
## Residuals 293 81574 278.4
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
La variable que menos contribuye a la reducción del error de ajuste del modelo es: “thalch”. Por lo tanto se remueve.
##
## Call:
## lm(formula = trestbps ~ age + chol + oldpeak, data = solo_numericos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -39.640 -10.952 -0.691 10.068 61.203
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 93.17255 7.08863 13.144 < 2e-16 ***
## age 0.47828 0.11183 4.277 2.57e-05 ***
## chol 0.04169 0.02007 2.077 0.0387 *
## oldpeak 2.17577 0.85163 2.555 0.0111 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 16.76 on 294 degrees of freedom
## Multiple R-squared: 0.1174, Adjusted R-squared: 0.1084
## F-statistic: 13.04 on 3 and 294 DF, p-value: 5.097e-08
El ajuste solo mejoró en un 11%, lo cual no es satisfactorio. Se procede a realizar una comparación más formal comparando los dos modelos, una vez más con un ANOVA.
## Analysis of Variance Table
##
## Model 1: trestbps ~ age + chol + thalch + oldpeak
## Model 2: trestbps ~ age + chol + oldpeak
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 293 81574
## 2 294 82594 -1 -1019.8 3.6628 0.05661 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El análisis de varianza de los dos modelos usado una Prueba de F para evaluar la significacia de las diferencias, aunque la suma de cuadrados disminuyó (-1020), la comparación muestra que las diferenncias no son significativas (p = 0.06), pero es aceptable; además el modelo es más simple. Este proceso debe ser iterativo hasta que o se tenga candidsatos para remover.