TALLER # 2

Informe de Análisis Estadístico

Realizado por: Klever Suqui

Fecha: 2024-08-27

Tema: Analítica de datos (utilizando RStudio + highcharter)

Descripción: Este taller calificado consiste en realizar un informe estadístico utilizando alguno de los siguientes conjuntos de datos presentados a continuación.

Carga del Conjunto de Datos

# Cargar los datos desde la URL

data <- read.csv("https://raw.githubusercontent.com/geovannychoez/prueba/master/processed.cleveland.data", header = FALSE, sep = ",", na.strings = '?')

# Renombrar las columnas

names(data) <- c("edad", "sexo", "tipo_dolor_pecho", "presion_arterial", "colesterol", "azucar_en_ayunas", "electrocardiograma", "frecuencia_cardiaca_max", "angina_ejercicio", "depresion_ST", "pendiente_ST", "vasos_obstruidos", "talasemia", "diagnostico")

Análisis de regresión lineal múltiple

Selección de Variables Cuantitativas

Basándonos en la muestra de datos proporcionada y considerando que el “objetivo (diagnostico)” es una variable categórica (ya que representa diferentes niveles de enfermedad cardíaca), podemos identificar las siguientes variables cuantitativas:

edad: Representa la edad del paciente en años. presion_arterial: Indica la presión arterial del paciente. colesterol: Muestra el nivel de colesterol en sangre. frecuencia_cardiaca_max: Indica la frecuencia cardíaca máxima alcanzada. depresion_ST: Probablemente relacionado con un cambio en el segmento ST del electrocardiograma, lo cual es una medida cuantitativa.

Exclusión de variables categóricas: Variables como “sexo”, “tipo_dolor_pecho”, “electrocardiograma”, “angina_ejercicio”,“azucar_en_ayunas”,“depresion_ST”, “pendiente_ST”, “vasos_obstruidos”, “talasemia” y “diagnostico” son categóricas, ya que representan categorías o grupos (por ejemplo, sexo masculino o femenino).

Gráfico de Correlación

Realizando el gráfico podremos identificar nuestra variable y para realización de nuestra acuación teniendo como objetivo siempre el análisis sobre “Heart Disease”

  library(corrplot)

## corrplot 0.94 loaded

  mod <- data[, c("edad","presion_arterial","colesterol","frecuencia_cardiaca_max", "depresion_ST" )]
  
  # Crear la matriz de correlación
  cor_matrix <- cor(mod)
  
  # Graficar la matriz de correlación
  corrplot.mixed(cor_matrix,
                 lower = "number",
                 upper = "circle",
                 tl.col = "black",
                 tl.cex = 0.5 )

Con la observación de nuestro gráfico identificamos a la “edad” como nuestra variable dependiente y posiblemente como esta variable se relacionaria con el diagnostico de las enfermedades cardiovasculares.

Análisis del Modelo Planteado

La ecuación del modelo de regresión lineal múltiple que has construido es:

edad=B0+B1⋅presion_arterial+B2⋅colesterol+B3⋅frecuencia_cardiaca_max+B4⋅depresion_ST

  # Construcción del modelo final
  mod_analisis <- lm(edad ~ presion_arterial + colesterol + frecuencia_cardiaca_max + depresion_ST, data = data)
  
  # Resumen del modelo
  summary(mod_analisis)

## 
## Call:
## lm(formula = edad ~ presion_arterial + colesterol + frecuencia_cardiaca_max + 
##     depresion_ST, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -19.4996  -5.7636   0.2805   5.8592  23.6448 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)             52.575368   4.989757  10.537  < 2e-16 ***
## presion_arterial         0.123813   0.026317   4.705 3.90e-06 ***
## colesterol               0.030601   0.008792   3.481 0.000575 ***
## frecuencia_cardiaca_max -0.148146   0.021006  -7.052 1.23e-11 ***
## depresion_ST             0.166631   0.421138   0.396 0.692632    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.841 on 298 degrees of freedom
## Multiple R-squared:  0.2573, Adjusted R-squared:  0.2474 
## F-statistic: 25.81 on 4 and 298 DF,  p-value: < 2.2e-16

Ecuación Matemática del Modelo

De acuerdo a los resultados del modelo, la ecuación es:

edad=52.575+0.124presion_arterial+0.031colesterol−0.148frecuencia_cardiaca_max+0.167depresion_ST

Prueba de Hipótesis Global

La prueba de hipótesis global se realiza utilizando el estadístico F en la regresión lineal múltiple. Esta prueba evalúa si al menos uno de los coeficientes de regresión es significativamente diferente de cero.

Hipótesis Nula (H0 ): Todos los coeficientes de regresión son cero (B1=B2=B3=B4=0).

Hipótesis Alternativa (HA): Al menos uno de los coeficientes de regresión es diferente de cero.

En muestro caso, el valor de F es 25.81 con un p-valor muy bajo (< 2.2e-16), lo que indica que podemos rechazar la hipótesis nula. Por lo tanto, hay evidencia significativa de que al menos uno de los coeficientes es diferente de cero y que el modelo en su conjunto es significativo.

Pruebas de Hipótesis Individuales

Cada coeficiente de regresión se prueba con una prueba t para determinar si es significativamente diferente de cero.

Hipótesis Nula (H0): El coeficiente para una variable es cero (Bi=0).

Hipótesis Alternativa (HA): El coeficiente para una variable es diferente de cero (Bi≠0).

Para cada variable independiente:

Presión Arterial: p-valor = 3.90e-06 (significativo) Colesterol: p-valor = 0.000575 (significativo) Frecuencia Cardíaca Máxima: p-valor = 1.23e-11 (significativo) Depresión ST: p-valor = 0.692632 (no significativo)

Esto significa que la presión arterial, el colesterol y la frecuencia cardíaca máxima tienen un impacto significativo en la edad, mientras que la depresión ST no parece tener un impacto significativo en este modelo.

Coeficiente de Determinación R^2

El coeficiente de determinación R^2 es 0.2573. Esto indica que aproximadamente el 25.73% de la variabilidad en la edad puede ser explicada por las variables independientes del modelo. Aunque no es un porcentaje alto, muestra que las variables seleccionadas tienen un impacto moderado en la predicción.

Conclusión sobre el Modelo

Aunque el modelo no está directamente prediciendo la presencia de enfermedad cardíaca, las variables usadas en el modelo están relacionadas con factores que se conocen afectan el riesgo cardiovascular. La significancia de la presión arterial, colesterol y frecuencia cardíaca máxima sugiere que estos factores pueden estar asociados con el envejecimiento y, potencialmente, con el riesgo de enfermedad cardíaca a medida que las personas envejecen.
El modelo con un R^2 moderado sugiere que hay otros factores no incluidos que podrían influir en la edad y, en consecuencia, en el riesgo de enfermedad cardíaca.

Análisis de componentes principales (ACP)

Realizaremos ACP utilizando todas las variables cuantitativas del conjunto de datos seleccionado, cuyos resultados deben incluir lo siguiente:

edad

presion_arterial

colesterol

frecuencia_cardiaca_max

depresion_ST

Selección de las Variables

# Cargar las librerías necesarias
library(ggplot2)
library(FactoMineR)
library(factoextra)

## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

# Seleccionar solo las variables cuantitativas
data_quant <- data[, c("edad", "presion_arterial", "colesterol", "frecuencia_cardiaca_max", "depresion_ST")]

# Realizar el ACP
acp <- PCA(data_quant, graph = FALSE)

1. Gráfica de los coeficientes de las componentes y variables originales

fviz_pca_var(acp, col.var = "blue", repel = TRUE) +
  ggtitle("Coeficientes de las Componentes y Variables Originales")

2. Gráfico de la varianza explicada por cada componente

fviz_eig(acp) +
  ggtitle("Varianza Explicada por Cada Componente")

3. Biplot (variables y observaciones) sobre las dos primeras componentes

fviz_pca_biplot(acp, repel = TRUE) +
  ggtitle("Biplot de las Dos Primeras Componentes")

Conclusiones sobre los Gráficos Obtenidos

El análisis de componetes principales ayuda a reducir la dimensionalidad del conjunto de datos manteniendo la mayor cantidad posible de varianza. Los gráficos nos permiten identificar qué variables tienen mayor impacto en las componentes principales y cuánto de la varianza total puede explicarse con un número reducido de componentes, por lo tanto a traves de las observaciones gráficas podemos confirmar que las variables usadas en el modelo están relacionadas con factores que se conocen afectan el riesgo cardiovascular. La significancia de la presión arterial, colesterol y frecuencia cardíaca máxima sugiere que estos factores pueden estar asociados con el envejecimiento y, potencialmente, con el riesgo de enfermedad cardíaca a medida que las personas envejecen.
Las primeras dos o tres componentes (Comp 1, Comp 2 y posiblemente Comp 3) son las más relevantes porque explican la mayor parte de la variabilidad en los datos. Esto significa que estas componentes principales capturan las relaciones más significativas entre las variables, que podrían estar asociadas con la presencia de enfermedad cardíaca.
El biplot puede revelar patrones o agrupaciones en los datos, así como la relación entre las variables y las observaciones en el espacio reducido de las componentes principales. Por ejemplo, presion_arterial tiene altos coeficientes en las primeras componentes, esto sugiere que es una variable importante en el análisis de la enfermedad cardíaca.