data <- read.csv("https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data",header=FALSE,sep=",",na.strings = '?')
names(data) <- c( "edad", "sexo", "tipo de dolor de pecho", "presión arterial", "colesterol sérico","azúcar en sangre en ayunas", "resultados electrocardioagráficos","frecuencia cardíaca max alcanzada","angina por ejercicio", " depresión en el test de estres ","pendiente del test de estres", "numero de vasos principales", "talasemia", "diagnostico de enfermedad cardíaca")
##Estadistica descriptiva univariable
##Bloque 1
table(data$fbs)
## < table of extent 0 >
##Histograma de presion arterial
hist(data$`presión arterial`,col = "light blue")
##Diagrama de Caja de presion arterial
boxplot(data$`presión arterial`,col = "light blue")
##Medidas estadisticas de presion arterial
mean(data$`presión arterial`)
## [1] 131.6898
median(data$`presión arterial`)
## [1] 130
sd(data$`presión arterial`)
## [1] 17.59975
quantile(data$`presión arterial`)
## 0% 25% 50% 75% 100%
## 94 120 130 140 200
##Histogrma de colesterol serico
hist(data$`colesterol sérico`,col = "red")
##Diagrama de caja de colesterol serico
boxplot(data$`colesterol sérico`,col = "red")
##Medidas estadisticas de colesterol serico
mean(data$`colesterol sérico`)
## [1] 246.6931
median(data$`colesterol sérico`)
## [1] 241
sd(data$`colesterol sérico`)
## [1] 51.77692
quantile(data$`colesterol sérico`)
## 0% 25% 50% 75% 100%
## 126 211 241 275 564
##Histograma de frecuencia cardiaca maxima alcanzada
hist(data$`frecuencia cardíaca max alcanzada`,col = "blue")
##Diagrama de caja de frecuencia cardaica max alcanzada
boxplot(data$`frecuencia cardíaca max alcanzada`,col = "yellow")
##Medidas estadisticas de frecuencia cardiaca max alcanzada
mean(data$`frecuencia cardíaca max alcanzada`)
## [1] 149.6073
median(data$`frecuencia cardíaca max alcanzada`)
## [1] 153
sd(data$`frecuencia cardíaca max alcanzada`)
## [1] 22.875
quantile(data$`frecuencia cardíaca max alcanzada`)
## 0% 25% 50% 75% 100%
## 71.0 133.5 153.0 166.0 202.0
##Histograma de depresion en test del estres
hist(data$` depresión en el test de estres `, col = "red")
##Diagrama de caja de depresion en el test del estres
boxplot(data$` depresión en el test de estres `,col = "orange")
##Medidas estadisticas de depresion en el test del estres
mean(data$` depresión en el test de estres `)
## [1] 1.039604
median(data$` depresión en el test de estres `)
## [1] 0.8
sd(data$` depresión en el test de estres `)
## [1] 1.161075
quantile(data$` depresión en el test de estres `)
## 0% 25% 50% 75% 100%
## 0.0 0.0 0.8 1.6 6.2
##Tabla de frecuencias de angina por ejercicio
table(data$`angina por ejercicio`)
##
## 0 1
## 204 99
##Diagrana de barras de angina por ejercicio
barplot(table(data$`angina por ejercicio`),col = "red")
##Tabla de frecuencias de pendiente del test de estres
table(data$`pendiente del test de estres`)
##
## 1 2 3
## 142 140 21
##Diagrama de barras de pendiente del test de estres
barplot(table(data$`pendiente del test de estres`),col = "red")
##Tabla de frecuencias de numeros de vasos principales
table(data$`numero de vasos principales`)
##
## 0 1 2 3
## 176 65 38 20
##Diagrama de barras de numeros de vasos principales
barplot(table(data$`numero de vasos principales`),col = "gold")
##Matriz de correlacion de presion arterial
z<- data$`presión arterial`
y<- 1:303
cor(z,y)
## [1] -0.02202834
##Matriz de varianzas y covarianzas de presion arterial
z<- data$`presión arterial`
y<- 1:303
cov(z,y)
## [1] -33.96689
##Matriz de diagramas de dispersion de presion arterial
z<- data$`presión arterial`
y<- 1:303
plot(z,y,col="orange")
##Matriz de correlacion de colesterol serico
f<- data$`colesterol sérico`
y<- 1:303
cor(f,y)
## [1] -0.09551825
##Matriz de varianzas y covarianzas de colesterol serico
f<- data$`colesterol sérico`
y<- 1:303
cov(f,y)
## [1] -433.3013
##Matriz de diagramas de dispersion de colesterol serico
f<- data$`colesterol sérico`
y<- 1:303
plot(f,y,col="blue")
##Matriz de correlacion de frecuencia cardiaca max alcanzada
s<- data$`frecuencia cardíaca max alcanzada`
y<- 1:303
cor(s,y)
## [1] -0.1054884
##Matriz de varianzas y covarianzas de frecuencia cardiaca max alcanzada
s<- data$`frecuencia cardíaca max alcanzada`
y<- 1:303
cov(s,y)
## [1] -211.4139
##Matriz de diagramas de dispersion de frecuenciia cardiaca max alcanzada
s<- data$`frecuencia cardíaca max alcanzada`
y<- 1:303
plot(s,y,col="green")
##Matriz de correlacion de depresion en el test de estres
j<- data$` depresión en el test de estres `
y<- 1:303
cor(j,y)
## [1] -0.1203836
##Matriz de varianzas y covarianzas de depresion en el test de estres
j<- data$` depresión en el test de estres `
y<- 1:303
cov(j,y)
## [1] -12.24603
##Matriz de diagramas de dispersion de depresion en el test de estres
j<- data$` depresión en el test de estres `
y<- 1:303
plot(j,y,col="red")
##Diagrama de caja de trestbps segmentado con presion arterial
boxplot(data$`presión arterial`~data$`tipo de dolor de pecho`)
##Diagrma de caja de chol segmentado con slope
boxplot(data$`colesterol sérico`~data$`pendiente del test de estres`)
##Diagrama de cajas de thalach segmentado con exang
boxplot(data$`frecuencia cardíaca max alcanzada`~data$`angina por ejercicio`)
##Diagrama de cajas de oldpeak segmentado con ca
boxplot((data$` depresión en el test de estres `~data$`numero de vasos principales`),main="oldpeak")
ANALISIS DE DATOS GABRIEL LOPEZ NOBOA
Segun los datos obtenidos de las variables cuantitativas escogidas se pudo apreciar que en el histograma de presión arterial hay un porcentaje alto de personas tienen una presión alta entre 120 y 140, mientras que el mas bajo es de personas que alcanzan presión arterial de 200. En el diagrama de caja se ve una media en las personas que tienen una presión arterial entre 120 y 140.
En el histograma de colesterol cerico se observa un pequeño porcentaje de personas con colesterol de mas de 100, mientras que en donde se encuentra el mayor porcentaje es entre las personas que tienen un colesterol entre 200 y 300 al igual que en el diagrama de caja siendo su media.
En el grafico de la frecuencia máxima alcanzada se observa un pequeño porcentaje en las frecuencias bajas y la mas alta, mientras que la mas frecuente ronda en las personas que tuvieron una frecuencia cardiaca entre 140 a 180, siendo este la media que se observa en el diagrama de caja de este. Lo que significaría que las personas evaluadas en estos datos tienen una frecuencia cardiaca muy alta siendo propensos a tener problemas cardiacos.
En la angina por ejercicio se observa a los hombres tener un mayor porcentaje de poseer esa angina, en los números de vasos principales se denota que el que mayor numero el que mas diagnostico de enfermedades de corazón como la angina o problemas del corazón.