Realizado por: Klever Suqui
Fecha: 2024-08-27
Tema: Analítica de datos (utilizando RStudio + highcharter)
Descripción: Este taller calificado consiste en realizar un informe estadístico utilizando alguno de los siguientes conjuntos de datos presentados a continuación.
# Cargar los datos desde la URL
data <- read.csv("https://raw.githubusercontent.com/geovannychoez/prueba/master/processed.cleveland.data", header = FALSE, sep = ",", na.strings = '?')
# Renombrar las columnas
names(data) <- c("edad", "sexo", "tipo_dolor_pecho", "presion_arterial", "colesterol", "azucar_en_ayunas", "electrocardiograma", "frecuencia_cardiaca_max", "angina_ejercicio", "depresion_ST", "pendiente_ST", "vasos_obstruidos", "talasemia", "diagnostico")
Basándonos en la muestra de datos proporcionada y considerando que el “objetivo (diagnostico)” es una variable categórica (ya que representa diferentes niveles de enfermedad cardíaca), podemos identificar las siguientes variables cuantitativas:
edad: Representa la edad del paciente en años. presion_arterial: Indica la presión arterial del paciente. colesterol: Muestra el nivel de colesterol en sangre. frecuencia_cardiaca_max: Indica la frecuencia cardíaca máxima alcanzada. depresion_ST: Probablemente relacionado con un cambio en el segmento ST del electrocardiograma, lo cual es una medida cuantitativa.
Exclusión de variables categóricas: Variables como “sexo”, “tipo_dolor_pecho”, “electrocardiograma”, “angina_ejercicio”,“azucar_en_ayunas”,“depresion_ST”, “pendiente_ST”, “vasos_obstruidos”, “talasemia” y “diagnostico” son categóricas, ya que representan categorías o grupos (por ejemplo, sexo masculino o femenino).
Realizando el gráfico podremos identificar nuestra variable y para realización de nuestra acuación teniendo como objetivo siempre el análisis sobre “Heart Disease”
library(corrplot)
## corrplot 0.94 loaded
mod <- data[, c("edad","presion_arterial","colesterol","frecuencia_cardiaca_max", "depresion_ST" )]
# Crear la matriz de correlación
cor_matrix <- cor(mod)
# Graficar la matriz de correlación
corrplot.mixed(cor_matrix,
lower = "number",
upper = "circle",
tl.col = "black",
tl.cex = 0.5 )
Con la observación de nuestro gráfico identificamos a la “edad” como nuestra variable dependiente y posiblemente como esta variable se relacionaria con el diagnostico de las enfermedades cardiovasculares.
La ecuación del modelo de regresión lineal múltiple que has construido es:
edad=B0+B1⋅presion_arterial+B2⋅colesterol+B3⋅frecuencia_cardiaca_max+B4⋅depresion_ST
# Construcción del modelo final
mod_analisis <- lm(edad ~ presion_arterial + colesterol + frecuencia_cardiaca_max + depresion_ST, data = data)
# Resumen del modelo
summary(mod_analisis)
##
## Call:
## lm(formula = edad ~ presion_arterial + colesterol + frecuencia_cardiaca_max +
## depresion_ST, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.4996 -5.7636 0.2805 5.8592 23.6448
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 52.575368 4.989757 10.537 < 2e-16 ***
## presion_arterial 0.123813 0.026317 4.705 3.90e-06 ***
## colesterol 0.030601 0.008792 3.481 0.000575 ***
## frecuencia_cardiaca_max -0.148146 0.021006 -7.052 1.23e-11 ***
## depresion_ST 0.166631 0.421138 0.396 0.692632
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.841 on 298 degrees of freedom
## Multiple R-squared: 0.2573, Adjusted R-squared: 0.2474
## F-statistic: 25.81 on 4 and 298 DF, p-value: < 2.2e-16
De acuerdo a los resultados del modelo, la ecuación es:
edad=52.575+0.124presion_arterial+0.031colesterol−0.148frecuencia_cardiaca_max+0.167depresion_ST
La prueba de hipótesis global se realiza utilizando el estadístico F en la regresión lineal múltiple. Esta prueba evalúa si al menos uno de los coeficientes de regresión es significativamente diferente de cero.
Hipótesis Nula (H0 ): Todos los coeficientes de regresión son cero (B1=B2=B3=B4=0).
Hipótesis Alternativa (HA): Al menos uno de los coeficientes de regresión es diferente de cero.
En muestro caso, el valor de F es 25.81 con un p-valor muy bajo (< 2.2e-16), lo que indica que podemos rechazar la hipótesis nula. Por lo tanto, hay evidencia significativa de que al menos uno de los coeficientes es diferente de cero y que el modelo en su conjunto es significativo.
Cada coeficiente de regresión se prueba con una prueba t para determinar si es significativamente diferente de cero.
Hipótesis Nula (H0): El coeficiente para una variable es cero (Bi=0).
Hipótesis Alternativa (HA): El coeficiente para una variable es diferente de cero (Bi≠0).
Para cada variable independiente:
Presión Arterial: p-valor = 3.90e-06 (significativo) Colesterol: p-valor = 0.000575 (significativo) Frecuencia Cardíaca Máxima: p-valor = 1.23e-11 (significativo) Depresión ST: p-valor = 0.692632 (no significativo)
Esto significa que la presión arterial, el colesterol y la frecuencia cardíaca máxima tienen un impacto significativo en la edad, mientras que la depresión ST no parece tener un impacto significativo en este modelo.
El coeficiente de determinación R^2 es 0.2573. Esto indica que aproximadamente el 25.73% de la variabilidad en la edad puede ser explicada por las variables independientes del modelo. Aunque no es un porcentaje alto, muestra que las variables seleccionadas tienen un impacto moderado en la predicción.
Aunque el modelo no está directamente prediciendo la presencia de enfermedad cardíaca, las variables usadas en el modelo están relacionadas con factores que se conocen afectan el riesgo cardiovascular. La significancia de la presión arterial, colesterol y frecuencia cardíaca máxima sugiere que estos factores pueden estar asociados con el envejecimiento y, potencialmente, con el riesgo de enfermedad cardíaca a medida que las personas envejecen.
El modelo con un R^2 moderado sugiere que hay otros factores no incluidos que podrían influir en la edad y, en consecuencia, en el riesgo de enfermedad cardíaca.
Realizaremos ACP utilizando todas las variables cuantitativas del conjunto de datos seleccionado, cuyos resultados deben incluir lo siguiente:
edad
presion_arterial
colesterol
frecuencia_cardiaca_max
depresion_ST
# Cargar las librerías necesarias
library(ggplot2)
library(FactoMineR)
library(factoextra)
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
# Seleccionar solo las variables cuantitativas
data_quant <- data[, c("edad", "presion_arterial", "colesterol", "frecuencia_cardiaca_max", "depresion_ST")]
# Realizar el ACP
acp <- PCA(data_quant, graph = FALSE)
fviz_pca_var(acp, col.var = "blue", repel = TRUE) +
ggtitle("Coeficientes de las Componentes y Variables Originales")
fviz_eig(acp) +
ggtitle("Varianza Explicada por Cada Componente")
fviz_pca_biplot(acp, repel = TRUE) +
ggtitle("Biplot de las Dos Primeras Componentes")
El análisis de componetes principales ayuda a reducir la dimensionalidad del conjunto de datos manteniendo la mayor cantidad posible de varianza. Los gráficos nos permiten identificar qué variables tienen mayor impacto en las componentes principales y cuánto de la varianza total puede explicarse con un número reducido de componentes, por lo tanto a traves de las observaciones gráficas podemos confirmar que las variables usadas en el modelo están relacionadas con factores que se conocen afectan el riesgo cardiovascular. La significancia de la presión arterial, colesterol y frecuencia cardíaca máxima sugiere que estos factores pueden estar asociados con el envejecimiento y, potencialmente, con el riesgo de enfermedad cardíaca a medida que las personas envejecen.
Las primeras dos o tres componentes (Comp 1, Comp 2 y posiblemente Comp 3) son las más relevantes porque explican la mayor parte de la variabilidad en los datos. Esto significa que estas componentes principales capturan las relaciones más significativas entre las variables, que podrían estar asociadas con la presencia de enfermedad cardíaca.
El biplot puede revelar patrones o agrupaciones en los datos, así como la relación entre las variables y las observaciones en el espacio reducido de las componentes principales. Por ejemplo, presion_arterial tiene altos coeficientes en las primeras componentes, esto sugiere que es una variable importante en el análisis de la enfermedad cardíaca.