INTRODUCCION

En este informe correspondiente al primer avance de trabajo final tiene como propósito aplicar conocimientos previamente adquiridos y lograrlos aplicar a un conjunto de datos para así analizarlos. Donde se establecen las bases metodológicas para el desarrollo del proyecto seleccionando datos y detallando de manera clara sus características. El análisis de datos sobre enfermedades cardiovasculares constituye una etapa fundamental dentro de la estadística ya que nos permite el conocer características principales de un conjunto de información y así lograr detectar patrones, tendencias y las relaciones que hay entre las variables. Este conjunto de datos se desarrolló con el fin de aplicar herramientas básicas de análisis con ayuda de R y Rstudio, lo que facilita la exploración y representación de información. Dentro de este estudio se presentan aspectos como caracterizar el tamaño de muestra a trabajar también así el número de variables, la clasificación de estas según su tipo y escala de medición, finalmente logrando analizar la calidad de los datos y garantizar la fiabilidad de los resultados.

Obvetivos

Objetivo general:

Aplicar herramientas que permitan el análisis de datos sobre enfermedades cardiovasculares con ayuda de R y RStudio con el fin de describir y representar el comportamiento de variables de interés.

Objetivos especificos

● Seleccionar un conjunto de datos logrando identificar el tamaño de muestra, número de variables y características de cada una.

● Identificar y corregir inconsistencias y errores de digitación mediante una limpieza y preprocesamiento de los datos.

● Elaborar representaciones gráficas para lograr identificar patrones y posibles relaciones.

Metodologia

La metodología empleada para este informe integra procesos de selección y descripción de las variables, limpieza y preprocesamiento de la información de datos, aplicación de la estadísticas y representaciones gráficas, apoyándose en el uso de herramientas computacionales como lo es R y RStudio.

1.Seleccion del conjunto de datos

Conjunto de datos a trabajar

● Nombre: Cardiovascular Disease dataset (Conjunto de datos sobre enfermedades cardiovasculares)

● Tamaño de muestra: 70.000 registros

● Número de variables: 13(columnas) pero 12 a trabajar .(Figura 1)

2. Descropcion de variables

Tabla 1: Descripción de variables

3.Revision y depuracion de datos

Al realizar la revisión de los datos se tuvo algunas inconsistencias en la altura con valores irreales que pudieron ser errores de dedo y también se encontró en la presión arterial sistólica y presión arterial diastólica donde se encontraron valores negativos (menores a cero)donde en la vida real no existen esos datos quedando así la muestra de un tamaño de 69991 (figura 2) quedando 9 errores eliminados.

4. Analisis descriptivo

Se tiene una representación estadística descriptiva (Tabla 2) en la siguiente tabla donde se encuentran varias variables cuantitativas que corresponden a medidas de una muestra de personas entre ellas se tiene: la edad, el peso, la estatura, la presión arterial sistólica y presión arterial diastólica, donde se incluyó medidas de tendencia central como la media o promedio , moda y mediana, medidas de dispersión como el rango, desviación estándar, la varianza y el rango intercuartílico, por último se tomó cuales fueron los valores máximos y mínimos de la muestra de 69991 personas con problemas cardiovasculares.

En la siguiente tabla se tiene una representación de las variables cualitativas (tabla 3) de la muestra de personas que sufren de enfermedades cardiovasculares con su cantidad en porcentajes

5. Representacion grafica

Histogramas

par(mflow=c(2,2))

## Warning in par(mflow = c(2, 2)): "mflow" is not a graphical parameter

hist(cardio_train$age, col="red" , xlab="Edad",
     ylab="Personas ", main = "Histograma de la edad (dias) ")

hist(cardio_train$height, col="blue" , xlab="Altura",
     ylab="Personas ", main = "Histograma de altura (cm) ")

hist(cardio_train$weight, col="yellow" , xlab="Peso",
     ylab="Personas ", main = "Histograma de peso(Kg) ")

hist(cardio_train$ap_hi, col="green" , xlab="Ap_hi",
     ylab="Personas ", main = "Histograma de la presion arterial sistolica ")

hist(cardio_train$ap_lo, col="pink" , xlab="Ap_lo",
     ylab="Personas ", main = "Histograma de la presion arteriar diastolica ")

Diagrama de cajas

par(mflow=c(2,2))

## Warning in par(mflow = c(2, 2)): "mflow" is not a graphical parameter

boxplot(cardio_train$age, col="red" , xlab="Edad",
        ylab="Personas ", main = "Diagarama de caja  de la edad (dias) ")

boxplot(cardio_train$height, col="blue" , xlab="Altura",
        ylab="Personas ", main = "Diagarama de caja  de altura (cm) ")

boxplot(cardio_train$weight, col="yellow" , xlab="Peso",
        ylab="Personas ", main = "Diagarama de caja de peso(Kg) ")

Histograma compartido genero y peso

library(ggplot2)

ggplot(cardio_train, aes(x = factor(gender), y = weight)) +
  geom_boxplot(fill = "blue") +
  labs(x = "Género", y = "Peso (kg)",
       title = "Distribución del peso según género") +
  scale_x_discrete(labels = c("1" = "Mujer", "2" = "Hombre"))

Analisis con dos variables

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(corrplot)

## corrplot 0.95 loaded

x = cor(cardio_train %>% select(age, height, weight, ap_hi, ap_lo))
corrplot(x, method="number", tl.cex = 0.6, cl.cex = 0.4)

Entre las variables height – weight exiteuna correlacion de 0.29 es una relacion relación positiva débil pero existente: personas más altas tienden a pesar más tambien podemos observar en los valores de la tabla de correlacion una relacion entre age – height con una correlacion de -0.08 es una relación negativa muy débil: ligera disminución de talla en personas mayores

Analisis con 2 variables numericas

ggplot(cardio_train, aes(x=weight, y=ap_hi))+
  geom_jitter()+
  geom_smooth(method="lm", colour="red")

El valor de la correlación cercana a cero sugiere que no existe una relación significativa entre las variables del peso corporal y la presión arterial sistólica. Esto implica que, según los datos disponibles del analisis , un mayor peso no está claramente asociado con un aumento directo en la presión sistólica

Analisis de variables cualitativa y cuantitativsa

ggplot(cardio_train, aes(x=cholesterol,y=weight,fill="pink"))+
  geom_boxplot()+
  labs(title="Peso segun niveles de colesterol ",
       x="Nivel de colesterol",Y="Peso(Kg)")

## Ignoring unknown labels:
## • Y : "Peso(Kg)"

## Warning: Orientation is not uniquely specified when both the x and y aesthetics are
## continuous. Picking default orientation 'x'.

Tabla cruzada

ggplot(cardio_train, aes(x = factor(gender), fill = factor(cardio))) +
  geom_bar(position = "stack") +
  labs(title = "Casos de enfermedad cardiovascular según género",
       x = "Género",
       y = "Cantidad",
       fill = "Cardiopatía") +
  scale_x_discrete(labels = c("1" = "Mujer",
                              "2" = "Hombre")) +
  theme_minimal()

En la siguiente tabla cruzada se analizaron las variables cualitativas de los casos de enfermedades cardiovascular según el género.Se observa que la base de datos contiene una mayor cantidad de mujeres en comparación con hombres, lo cual se refleja en las alturas de las barras. Al analizar los colores dentro de cada barra,se identifica que en ambos géneros existe un número considerable de personas diagnosticadas con la enfermedad. No obstante, debido al mayor número de mujeres en la muestra, el total de casos es más elevado en este grupo.Sin embargo, al observar las proporciones se llega apreciar que la presencia de enfermedad cardiovascular no difiere de manera drástica entre mujeres y hombres, es decir, ambos géneros presentan una distribución relativamente similar entre quienes padecen la enfermedad y quienes no. Esto sugiere que, aunque la cantidad absoluta de casos es mayor en mujeres debido al tamaño de la muestra, la prevalencia relativa entre géneros es comparable.

Conclusiones

Con los resultados obtenidos por las representaciones gráficas se puede mirar que la mayoría de población es femenina con un 65% en el que la variable de riesgo cardiovascular prevalece en las personas con sobrepeso , la presión arterial y los desórdenes como el de la glucosa y el colesterol, también se logró observar que los hábitos de fumar y el consumir alcohol tiene una poca frecuencia en las personas que se evaluaron y también la alta prevalencia de la enfermedad cardiovascular.

Referencia

● https://www.kaggle.com/datasets/sulianova/cardiovascular-disease-dataset

Laboratorio 3

Daniela Carlosama

2025-11-26