#Objetivo: Aplicar el lenguaje estadístico R para analítica de datos

#Tema de la actividad: Analítica de datos (RStudio + highcharter)

#Descripción: Informe estadístico #—————————————————————————————–

###Base “Heart Disease”

#Se importa la base a ser analizada, se renombran las variables y se le aplican comandos de viscualizacion

data=read.csv("https://raw.githubusercontent.com/geovannychoez/prueba/master/processed.cleveland.data",header=FALSE,sep=",",na.strings = '?')

names(data) <- c( "age", "sex", "cp", "trestbps", "chol","fbs", 
                  "restecg","thalach","exang","oldpeak","slope", "ca", "thal", 
                  "num")
View(data)
names(data)
##  [1] "age"      "sex"      "cp"       "trestbps" "chol"     "fbs"     
##  [7] "restecg"  "thalach"  "exang"    "oldpeak"  "slope"    "ca"      
## [13] "thal"     "num"
str(data)
## 'data.frame':    303 obs. of  14 variables:
##  $ age     : num  63 67 67 37 41 56 62 57 63 53 ...
##  $ sex     : num  1 1 1 1 0 1 0 0 1 1 ...
##  $ cp      : num  1 4 4 3 2 2 4 4 4 4 ...
##  $ trestbps: num  145 160 120 130 130 120 140 120 130 140 ...
##  $ chol    : num  233 286 229 250 204 236 268 354 254 203 ...
##  $ fbs     : num  1 0 0 0 0 0 0 0 0 1 ...
##  $ restecg : num  2 2 2 0 2 0 2 0 2 2 ...
##  $ thalach : num  150 108 129 187 172 178 160 163 147 155 ...
##  $ exang   : num  0 1 1 0 0 0 0 1 0 1 ...
##  $ oldpeak : num  2.3 1.5 2.6 3.5 1.4 0.8 3.6 0.6 1.4 3.1 ...
##  $ slope   : num  3 2 2 3 1 1 3 1 2 3 ...
##  $ ca      : num  0 3 2 0 0 0 2 0 1 0 ...
##  $ thal    : num  6 3 7 3 3 3 3 3 7 7 ...
##  $ num     : int  0 2 1 0 0 0 3 0 2 1 ...

#Se detectan 303 observaciones y 14 variables. #—————————————————————————————–

###Estadística descriptiva univariante #Diagramas de barras con variables cualitativas utilizando la librería highcharter #Variables Cualitativas: sex,fbs, exang, ca

###Instalación de librería “highcharter” y creación de diagramas

knitr::opts_chunk$set(echo = TRUE)
library(highcharter)
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo

###seleccion de variables cualitativas como “factor”

sex <- factor(data$sex)
fbs <- factor(data$fbs)
exang <- factor(data$exang)
ca <- factor(data$ca)

###GRAFICO DE BARRAS

highchart()%>%
  hc_add_series(
    sex,
    name= "Grafico de Barras $sex",
    type="bar")
highchart()%>%
  hc_add_series(
    fbs,
    name= "Grafico de Barras $fbs",
    type="bar")
highchart()%>%
  hc_add_series(
    exang,
    name= "Grafico de Barras $exang",
    type="column")
highchart()%>%
  hc_add_series(
    ca,
    name= "Grafico de Barras $ca",
    type="column")

#—————————————————————————————–

##Estadística descriptiva bivariante
#Diagramas de Dispersion con variables cuantitativas utilizando la librería highcharter #Variables Cuantitativas: age, trestbps, chol, thalach

###GRAFICO DE DISPERSION

highchart()%>%
  hc_add_series(
    data,
    name= "Grafico de Dispersion age-trestbps",
    "scatter", 
    hcaes(x =age , y = trestbps))
highchart()%>%
  hc_add_series(
    data,
    name= "Grafico de Dispersion chol-thalach",
    "scatter", 
    hcaes(x =chol , y = thalach))

#—————————————————————————————–

##Estadística descriptiva multivariante #Variables Cuantitativas: age, trestbps, chol, thalach

#Importar Libreria “GGally”

if (!requireNamespace("GGally", quietly = TRUE)) {
  install.packages("GGally")
}
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
library(GGally)
## Cargando paquete requerido: ggplot2

###seleccion de variables cuantitativas en un dataframe

cuatro_cuantitativas <- data[, c('age', 'trestbps', 'chol', 'thalach')]

#Matriz4x4 gráfica de diagramas de dispersión

ggpairs(cuatro_cuantitativas, 
        title = "Matriz de Diagramas de Dispersión de 4 Variables",
        upper = list(continuous = "points"),
        lower = list(continuous = "smooth"))

#Importar Libreria “corrplot”

if (!requireNamespace("corrplot", quietly = TRUE)) {
  install.packages("corrplot")
}
library(corrplot)
## corrplot 0.92 loaded

###Calculo de correlacion

matriz_correlacion <- cor(cuatro_cuantitativas)

###Matriz4x4 gráfica de correlación

corrplot(matriz_correlacion, 
         method = "color", 
         type = "upper", 
         tl.col = "black", 
         tl.srt = 45, 
         title = "Matriz de Correlación de 4 Variables",
         addCoef.col = "black") 

#—————————————————————————————–

###CONCLUSIONES

#C1: Al analizar el diagrama de matriz de correlacion, observé que 3 varibles (age, trestbps, chol) no se relacionan positivamente con “thalach” puesto que esta tiende a disminuir cuando las demás aumentan, excepto con “chol” que no provoca ningún cambio en “thalach”

#C2: En cuanto a los graficos de dispersion “Bivariante” se observa que en el rango de edades (50-70) existe un mayor númer de “trestbps”. mientras que a menor “chol” mayor número de “thalach”