cardio_train =read.table("cardio_train.csv",header = TRUE,
sep = ";",dec = ".",stringsAsFactors = TRUE)
summary(cardio_train)
## id age gender height
## Min. : 0 Min. :10798 Min. :1.00 Min. : 55.0
## 1st Qu.:25007 1st Qu.:17664 1st Qu.:1.00 1st Qu.:159.0
## Median :50002 Median :19703 Median :1.00 Median :165.0
## Mean :49972 Mean :19469 Mean :1.35 Mean :164.4
## 3rd Qu.:74889 3rd Qu.:21327 3rd Qu.:2.00 3rd Qu.:170.0
## Max. :99999 Max. :23713 Max. :2.00 Max. :250.0
## weight ap_hi ap_lo cholesterol
## Min. : 10.00 Min. : -150.0 Min. : -70.00 Min. :1.000
## 1st Qu.: 65.00 1st Qu.: 120.0 1st Qu.: 80.00 1st Qu.:1.000
## Median : 72.00 Median : 120.0 Median : 80.00 Median :1.000
## Mean : 74.21 Mean : 128.8 Mean : 96.63 Mean :1.367
## 3rd Qu.: 82.00 3rd Qu.: 140.0 3rd Qu.: 90.00 3rd Qu.:2.000
## Max. :200.00 Max. :16020.0 Max. :11000.00 Max. :3.000
## gluc smoke alco active
## Min. :1.000 Min. :0.00000 Min. :0.00000 Min. :0.0000
## 1st Qu.:1.000 1st Qu.:0.00000 1st Qu.:0.00000 1st Qu.:1.0000
## Median :1.000 Median :0.00000 Median :0.00000 Median :1.0000
## Mean :1.226 Mean :0.08813 Mean :0.05377 Mean :0.8037
## 3rd Qu.:1.000 3rd Qu.:0.00000 3rd Qu.:0.00000 3rd Qu.:1.0000
## Max. :3.000 Max. :1.00000 Max. :1.00000 Max. :1.0000
## cardio
## Min. :0.0000
## 1st Qu.:0.0000
## Median :0.0000
## Mean :0.4997
## 3rd Qu.:1.0000
## Max. :1.0000
En este informe correspondiente al primer avance de trabajo final tiene como propósito aplicar conocimientos previamente adquiridos y lograrlos aplicar a un conjunto de datos para así analizarlos. Donde se establecen las bases metodológicas para el desarrollo del proyecto seleccionando datos y detallando de manera clara sus características. El análisis de datos sobre enfermedades cardiovasculares constituye una etapa fundamental dentro de la estadística ya que nos permite el conocer características principales de un conjunto de información y así lograr detectar patrones, tendencias y las relaciones que hay entre las variables. Este conjunto de datos se desarrolló con el fin de aplicar herramientas básicas de análisis con ayuda de R y Rstudio, lo que facilita la exploración y representación de información. Dentro de este estudio se presentan aspectos como caracterizar el tamaño de muestra a trabajar también así el número de variables, la clasificación de estas según su tipo y escala de medición, finalmente logrando analizar la calidad de los datos y garantizar la fiabilidad de los resultados.
Aplicar herramientas que permitan el análisis de datos sobre enfermedades cardiovasculares con ayuda de R y RStudio con el fin de describir y representar el comportamiento de variables de interés.
● Seleccionar un conjunto de datos logrando identificar el tamaño de muestra, número de variables y características de cada una.
● Identificar y corregir inconsistencias y errores de digitación mediante una limpieza y preprocesamiento de los datos.
● Elaborar representaciones gráficas para lograr identificar patrones y posibles relaciones.
La metodología empleada para este informe integra procesos de selección y descripción de las variables, limpieza y preprocesamiento de la información de datos, aplicación de la estadísticas y representaciones gráficas, apoyándose en el uso de herramientas computacionales como lo es R y RStudio.
● Nombre: Cardiovascular Disease dataset (Conjunto de datos sobre enfermedades cardiovasculares)
● Tamaño de muestra: 70.000 registros
● Número de variables: 13(columnas) pero 12 a trabajar .(Figura 1)
Tabla 1: Descripción de variables
Al realizar la revisión de los datos se tuvo algunas inconsistencias en la altura con valores irreales que pudieron ser errores de dedo y también se encontró en la presión arterial sistólica y presión arterial diastólica donde se encontraron valores negativos (menores a cero)donde en la vida real no existen esos datos quedando así la muestra de un tamaño de 69991 (figura 2) quedando 9 errores eliminados.
Se tiene una representación estadística descriptiva (Tabla 2) en la siguiente tabla donde se encuentran varias variables cuantitativas que corresponden a medidas de una muestra de personas entre ellas se tiene: la edad, el peso, la estatura, la presión arterial sistólica y presión arterial diastólica, donde se incluyó medidas de tendencia central como la media o promedio , moda y mediana, medidas de dispersión como el rango, desviación estándar, la varianza y el rango intercuartílico, por último se tomó cuales fueron los valores máximos y mínimos de la muestra de 69991 personas con problemas cardiovasculares.
En la siguiente tabla se tiene una representación de las variables cualitativas (tabla 3) de la muestra de personas que sufren de enfermedades cardiovasculares con su cantidad en porcentajes
par(mflow=c(2,2))
## Warning in par(mflow = c(2, 2)): "mflow" is not a graphical parameter
hist(cardio_train$age, col="red" , xlab="Edad",
ylab="Personas ", main = "Histograma de la edad (dias) ")
hist(cardio_train$height, col="blue" , xlab="Altura",
ylab="Personas ", main = "Histograma de altura (cm) ")
hist(cardio_train$weight, col="yellow" , xlab="Peso",
ylab="Personas ", main = "Histograma de peso(Kg) ")
hist(cardio_train$ap_hi, col="green" , xlab="Ap_hi",
ylab="Personas ", main = "Histograma de la presion arterial sistolica ")
hist(cardio_train$ap_lo, col="pink" , xlab="Ap_lo",
ylab="Personas ", main = "Histograma de la presion arteriar diastolica ")
par(mflow=c(2,2))
## Warning in par(mflow = c(2, 2)): "mflow" is not a graphical parameter
boxplot(cardio_train$age, col="red" , xlab="Edad",
ylab="Personas ", main = "Diagarama de caja de la edad (dias) ")
boxplot(cardio_train$height, col="blue" , xlab="Altura",
ylab="Personas ", main = "Diagarama de caja de altura (cm) ")
boxplot(cardio_train$weight, col="yellow" , xlab="Peso",
ylab="Personas ", main = "Diagarama de caja de peso(Kg) ")
library(ggplot2)
ggplot(cardio_train, aes(x = factor(gender), y = weight)) +
geom_boxplot(fill = "blue") +
labs(x = "Género", y = "Peso (kg)",
title = "Distribución del peso según género") +
scale_x_discrete(labels = c("1" = "Mujer", "2" = "Hombre"))
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(corrplot)
## corrplot 0.95 loaded
x = cor(cardio_train %>% select(age, height, weight, ap_hi, ap_lo))
corrplot(x, method="number", tl.cex = 0.6, cl.cex = 0.4)
Entre las variables height – weight exiteuna correlacion de 0.29 es una relacion relación positiva débil pero existente: personas más altas tienden a pesar más tambien podemos observar en los valores de la tabla de correlacion una relacion entre age – height con una correlacion de -0.08 es una relación negativa muy débil: ligera disminución de talla en personas mayores
ggplot(cardio_train, aes(x=weight, y=ap_hi))+
geom_jitter()+
geom_smooth(method="lm", colour="red")
El valor de la correlación cercana a cero sugiere que no existe una relación significativa entre las variables del peso corporal y la presión arterial sistólica. Esto implica que, según los datos disponibles del analisis , un mayor peso no está claramente asociado con un aumento directo en la presión sistólica
ggplot(cardio_train, aes(x=cholesterol,y=weight,fill="pink"))+
geom_boxplot()+
labs(title="Peso segun niveles de colesterol ",
x="Nivel de colesterol",Y="Peso(Kg)")
## Ignoring unknown labels:
## • Y : "Peso(Kg)"
## Warning: Orientation is not uniquely specified when both the x and y aesthetics are
## continuous. Picking default orientation 'x'.
ggplot(cardio_train, aes(x = factor(gender), fill = factor(cardio))) +
geom_bar(position = "stack") +
labs(title = "Casos de enfermedad cardiovascular según género",
x = "Género",
y = "Cantidad",
fill = "Cardiopatía") +
scale_x_discrete(labels = c("1" = "Mujer",
"2" = "Hombre")) +
theme_minimal()
En la siguiente tabla cruzada se analizaron las variables cualitativas de los casos de enfermedades cardiovascular según el género.Se observa que la base de datos contiene una mayor cantidad de mujeres en comparación con hombres, lo cual se refleja en las alturas de las barras. Al analizar los colores dentro de cada barra,se identifica que en ambos géneros existe un número considerable de personas diagnosticadas con la enfermedad. No obstante, debido al mayor número de mujeres en la muestra, el total de casos es más elevado en este grupo.Sin embargo, al observar las proporciones se llega apreciar que la presencia de enfermedad cardiovascular no difiere de manera drástica entre mujeres y hombres, es decir, ambos géneros presentan una distribución relativamente similar entre quienes padecen la enfermedad y quienes no. Esto sugiere que, aunque la cantidad absoluta de casos es mayor en mujeres debido al tamaño de la muestra, la prevalencia relativa entre géneros es comparable.
Con los resultados obtenidos por las representaciones gráficas se puede mirar que la mayoría de población es femenina con un 65% en el que la variable de riesgo cardiovascular prevalece en las personas con sobrepeso , la presión arterial y los desórdenes como el de la glucosa y el colesterol, también se logró observar que los hábitos de fumar y el consumir alcohol tiene una poca frecuencia en las personas que se evaluaron y también la alta prevalencia de la enfermedad cardiovascular.