#Objetivo: Aplicar el lenguaje estadístico R para analítica de datos
#Tema de la actividad: Analítica de datos (RStudio + highcharter)
#Descripción: Informe estadístico #—————————————————————————————–
###Base “Heart Disease”
#Se importa la base a ser analizada, se renombran las variables y se le aplican comandos de viscualizacion
data=read.csv("https://raw.githubusercontent.com/geovannychoez/prueba/master/processed.cleveland.data",header=FALSE,sep=",",na.strings = '?')
names(data) <- c( "age", "sex", "cp", "trestbps", "chol","fbs",
"restecg","thalach","exang","oldpeak","slope", "ca", "thal",
"num")
View(data)
names(data)
## [1] "age" "sex" "cp" "trestbps" "chol" "fbs"
## [7] "restecg" "thalach" "exang" "oldpeak" "slope" "ca"
## [13] "thal" "num"
str(data)
## 'data.frame': 303 obs. of 14 variables:
## $ age : num 63 67 67 37 41 56 62 57 63 53 ...
## $ sex : num 1 1 1 1 0 1 0 0 1 1 ...
## $ cp : num 1 4 4 3 2 2 4 4 4 4 ...
## $ trestbps: num 145 160 120 130 130 120 140 120 130 140 ...
## $ chol : num 233 286 229 250 204 236 268 354 254 203 ...
## $ fbs : num 1 0 0 0 0 0 0 0 0 1 ...
## $ restecg : num 2 2 2 0 2 0 2 0 2 2 ...
## $ thalach : num 150 108 129 187 172 178 160 163 147 155 ...
## $ exang : num 0 1 1 0 0 0 0 1 0 1 ...
## $ oldpeak : num 2.3 1.5 2.6 3.5 1.4 0.8 3.6 0.6 1.4 3.1 ...
## $ slope : num 3 2 2 3 1 1 3 1 2 3 ...
## $ ca : num 0 3 2 0 0 0 2 0 1 0 ...
## $ thal : num 6 3 7 3 3 3 3 3 7 7 ...
## $ num : int 0 2 1 0 0 0 3 0 2 1 ...
#Se detectan 303 observaciones y 14 variables. #—————————————————————————————–
###Estadística descriptiva univariante #Diagramas de barras con variables cualitativas utilizando la librería highcharter #Variables Cualitativas: sex,fbs, exang, ca
###Instalación de librería “highcharter” y creación de diagramas
knitr::opts_chunk$set(echo = TRUE)
library(highcharter)
## Registered S3 method overwritten by 'quantmod':
## method from
## as.zoo.data.frame zoo
###seleccion de variables cualitativas como “factor”
sex <- factor(data$sex)
fbs <- factor(data$fbs)
exang <- factor(data$exang)
ca <- factor(data$ca)
###GRAFICO DE BARRAS
highchart()%>%
hc_add_series(
sex,
name= "Grafico de Barras $sex",
type="bar")
highchart()%>%
hc_add_series(
fbs,
name= "Grafico de Barras $fbs",
type="bar")
highchart()%>%
hc_add_series(
exang,
name= "Grafico de Barras $exang",
type="column")
highchart()%>%
hc_add_series(
ca,
name= "Grafico de Barras $ca",
type="column")
#—————————————————————————————–
##Estadística descriptiva bivariante
#Diagramas de Dispersion con variables cuantitativas utilizando la
librería highcharter #Variables Cuantitativas: age, trestbps, chol,
thalach
###GRAFICO DE DISPERSION
highchart()%>%
hc_add_series(
data,
name= "Grafico de Dispersion age-trestbps",
"scatter",
hcaes(x =age , y = trestbps))
highchart()%>%
hc_add_series(
data,
name= "Grafico de Dispersion chol-thalach",
"scatter",
hcaes(x =chol , y = thalach))
#—————————————————————————————–
##Estadística descriptiva multivariante #Variables Cuantitativas: age, trestbps, chol, thalach
#Importar Libreria “GGally”
if (!requireNamespace("GGally", quietly = TRUE)) {
install.packages("GGally")
}
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
library(GGally)
## Cargando paquete requerido: ggplot2
###seleccion de variables cuantitativas en un dataframe
cuatro_cuantitativas <- data[, c('age', 'trestbps', 'chol', 'thalach')]
#Matriz4x4 gráfica de diagramas de dispersión
ggpairs(cuatro_cuantitativas,
title = "Matriz de Diagramas de Dispersión de 4 Variables",
upper = list(continuous = "points"),
lower = list(continuous = "smooth"))
#Importar Libreria “corrplot”
if (!requireNamespace("corrplot", quietly = TRUE)) {
install.packages("corrplot")
}
library(corrplot)
## corrplot 0.92 loaded
###Calculo de correlacion
matriz_correlacion <- cor(cuatro_cuantitativas)
###Matriz4x4 gráfica de correlación
corrplot(matriz_correlacion,
method = "color",
type = "upper",
tl.col = "black",
tl.srt = 45,
title = "Matriz de Correlación de 4 Variables",
addCoef.col = "black")
#—————————————————————————————–
###CONCLUSIONES
#C1: Al analizar el diagrama de matriz de correlacion, observé que 3 varibles (age, trestbps, chol) no se relacionan positivamente con “thalach” puesto que esta tiende a disminuir cuando las demás aumentan, excepto con “chol” que no provoca ningún cambio en “thalach”
#C2: En cuanto a los graficos de dispersion “Bivariante” se observa que en el rango de edades (50-70) existe un mayor númer de “trestbps”. mientras que a menor “chol” mayor número de “thalach”