r Sys.Date(){r} library(readxl) act5 <- read_excel("C:/Users/psicr/Downloads/a4_heart_disease_uci.xlsx", sheet =1) summary(act5)
## La base que se emplea contiene variables sobre características
fisiológicas de las personas que pueden vincularse al diagnóstico de
enfermedades cardiacas de acuerdo con literatura previa. ## De las
variables posibles se retoma la presión arterial en reposo (trestbps),
el colesterol sérico (chol) y la frecuencia cardiaca máxima alcanzada
(thalch), además del registro del diagnóstico que los participantes
recibieron sobre enfermedad cardiaca (num). La pregunta es ¿las
variables presión arterial, colesterol y frecuencia cardiaca son
predictores del nivel de enfermedad cardiaca diagnosticada? ## Primero,
se hipotetiza que las variables presión, colesterol y frecuencia
cardiaca se relacionan significativamente de forma positiva con el
diagnóstico.
{r} cor.test(act5$trestbps, act5$num, alternative = "greater", method = "spearman", conf.level = 0.99, continuity = TRUE) cor.test(act5$chol, act5$num, alternative = "greater", method = "spearman", conf.level = 0.99, continuity = TRUE) cor.test(act5$thalch, act5$num, alternative = "greater", method = "spearman", conf.level = 0.99, continuity = TRUE) cor.test(act5$chol, act5$num, alternative = "less", method = "spearman", conf.level = 0.99, continuity = TRUE) cor.test(act5$thalch, act5$num, alternative = "less", method = "spearman", conf.level = 0.99, continuity = TRUE)
## Los resultados de las pruebas de correlación de Spearman indican que
solamente la presión arterial en reposo presenta una relación positiva
significativa con el diagnóstico de enfermedad cardiaca aunque baja
(r=0.12); mientras que el colesterol sérico y la frecuencia cardiaca
máxima alcanzada presentan una relación negativa estadísticamente
significativa con la VD de r=-0.15 y r=-0.39 respectivamente. Las
hipótesis encuentran respaldo solo en el primer caso, aunque todas
correlaciones son significativas, la relación de las últimas dos es
contraria a lo esperado. ## Se llevarán a cabo dos análisis de regresión
lineal, el primero simple que incluye a la presión arterial como
variable predictora y al diagnóstico como VD. Y otro que incluye a la
presión arterial y a la frecuencia máxima (debido a que presentó la
correlación más alta) como VI, y al diagnóstico como VD solo para
observar el resultado como modelo predictivo.
{r} modelo1 <- lm(num ~ trestbps, data = act5) summary(modelo1)
## El modelo 1, que incluye únicamente a la VI presión arterial en
reposo, resultó estadísticamente significativo, se presenta un
coeficiente Beta= 0.007 significativo de la VI, sin embargo, el valor
indicaría que cambio en la VD es mínimo por cada unidad de cambia en la
VI, y la R2 nos muestra que apenas explica el 1.4% de la varianza, lo
que también indica que hay un ajuste pobre.
{r} modelo2 <- lm(num ~ trestbps + thalch, data = act5) summary(modelo2)
## El modelo dos también indica ser estadísticamente significativo, y
presenta una varianza explicada mayor al primer modelo con R2
ajustada=0.137, los dos factores fueron significativos, pero, conforme
al resultado de la correlación de Spearman, la presión arterial presenta
un efecto significativo pero bajo, mientras que la aportación de la
frecuencia cardiaca máxima es mayor pero negativa, es decir, que aunque
el aumento en la frecuencia máxima reportada se espera un nivel menor de
enfermedad cardiaca e incluso diagnóstico de no enfermedad. ## A pesar
de que el resultado del análisis indica que el modelo predictivo es
significativo, la varianza explicada sigue siendo baja, y la
interpretación de la variable frecuencia cardiaca no es clara.