Control 3

Para comenzar con su análisis:

1.Cargue todos los paquetes que necesita para trabajar con data.table, modelos de predicción de regresión, árboles de decisión, cluster y Cross-Validation. Además, cargue la base de datos. (1 punto)

Importante: Verifique la clase (class) de las variables que vaya a utilizar en todos sus modelos y si es necesario transformarla a numérica o factor, hágalo!

## Loading required package: lattice

## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

heart<- fread("C:/Users/ejbuz/OneDrive/Desktop/DATA SCIENCE/Control 3/heart.csv")

class(heart)

## [1] "data.table" "data.frame"

as.data.table(heart)

##      age sex cp trtbps chol fbs restecg thalachh exng oldpeak slp caa thall
##   1:  63   1  3    145  233   1       0      150    0     2.3   0   0     1
##   2:  37   1  2    130  250   0       1      187    0     3.5   0   0     2
##   3:  41   0  1    130  204   0       0      172    0     1.4   2   0     2
##   4:  56   1  1    120  236   0       1      178    0     0.8   2   0     2
##   5:  57   0  0    120  354   0       1      163    1     0.6   2   0     2
##  ---                                                                       
## 299:  57   0  0    140  241   0       1      123    1     0.2   1   0     3
## 300:  45   1  3    110  264   0       1      132    0     1.2   1   0     3
## 301:  68   1  0    144  193   1       1      141    0     3.4   1   2     3
## 302:  57   1  0    130  131   0       1      115    1     1.2   1   1     3
## 303:  57   0  1    130  236   0       0      174    0     0.0   1   1     2
##      output
##   1:      1
##   2:      1
##   3:      1
##   4:      1
##   5:      1
##  ---       
## 299:      0
## 300:      0
## 301:      0
## 302:      0
## 303:      0

2.Realice dos modelos de regresión lineal multiple para predecir la Presión arterial en reposo ¿Cuál predice mejor dentro de muestra?. (8 puntos)

Observación: No obtendrá puntaje si compara un modelo de regresión de una variable.

reg1<- lm(trtbps~ chol + oldpeak + trtbps + caa, data=heart )
summary(reg1)

## 
## Call:
## lm(formula = trtbps ~ chol + oldpeak + trtbps + caa, data = heart)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -34.411 -11.365  -1.452   9.720  61.507 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 119.03460    4.83972  24.595  < 2e-16 ***
## chol          0.03718    0.01911   1.946  0.05261 .  
## oldpeak       2.64520    0.87270   3.031  0.00265 ** 
## caa           0.93720    0.99189   0.945  0.34550    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 17.15 on 299 degrees of freedom
## Multiple R-squared:  0.05291,    Adjusted R-squared:  0.04341 
## F-statistic: 5.568 on 3 and 299 DF,  p-value: 0.000993

reg2<- lm(trtbps ~ age + sex + thalachh + caa, data=heart )
summary(reg2)

## 
## Call:
## lm(formula = trtbps ~ age + sex + thalachh + caa, data = heart)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -37.901 -10.647  -1.197  10.161  66.844 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 91.65317   11.50974   7.963 3.56e-14 ***
## age          0.57356    0.12089   4.745 3.25e-06 ***
## sex         -1.08131    2.12629  -0.509    0.611    
## thalachh     0.06036    0.04671   1.292    0.197    
## caa          0.67775    1.00605   0.674    0.501    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 16.89 on 298 degrees of freedom
## Multiple R-squared:  0.08493,    Adjusted R-squared:  0.07265 
## F-statistic: 6.914 on 4 and 298 DF,  p-value: 2.466e-05

3.Realice validación cruzada (CV) a los modelos de la pregunta anterior por el método K-folds con 5 folds. ¿Se mantienen las conclusiones anteriores?. (8 putos)

Pista1: Recuerde setear la semilla set.seed(12345).

Pista2: Si existen variables con NA recuerde que puede excluirlas esas observaciones del análisis, pero no las elimine.

set.seed(12345)
setupKCV<- trainControl(method = "cv", number = 5)

predkreg1<- train(data=heart,trtbps~ chol + oldpeak + trtbps + caa , method="lm", trcontrol = setupKCV )
print(predkreg1)

## Linear Regression 
## 
## 303 samples
##   3 predictor
## 
## No pre-processing
## Resampling: Bootstrapped (25 reps) 
## Summary of sample sizes: 303, 303, 303, 303, 303, 303, ... 
## Resampling results:
## 
##   RMSE      Rsquared    MAE     
##   17.23012  0.05197353  13.30823
## 
## Tuning parameter 'intercept' was held constant at a value of TRUE

set.seed(12345)
setupKCV<- trainControl(method = "cv", number = 5)

predkreg2<- train(data=heart,trtbps ~ age + sex + thalachh + caa , method="lm", trcontrol = setupKCV )
print(predkreg2)

## Linear Regression 
## 
## 303 samples
##   4 predictor
## 
## No pre-processing
## Resampling: Bootstrapped (25 reps) 
## Summary of sample sizes: 303, 303, 303, 303, 303, 303, ... 
## Resampling results:
## 
##   RMSE      Rsquared    MAE     
##   17.25385  0.05947673  13.20228
## 
## Tuning parameter 'intercept' was held constant at a value of TRUE

4.Proponga dos variables sobre las cuales segmentar la muestra, en orden de hacer análisis de clusters con el método de kmeans. Muestre sus resultados gráficamente. (5 puntos)

Pista1: Si existen outliers recuerde eliminarlos, para esto cree un nuevo objeto donde se encuentren estas dos variables.

sample1<-heart[,. (trtbps, thalachh)]

k1<- kmeans(x=sample1, centers = 5, nstart = 29)

fviz_cluster(k1, data = sample1, geom = "point")

5.Realice dos modelos de árboles de clasificación de la variable output. Pruebe cuál modelo clasifica mejor con validación cruzada. Entrene el modelo con un 80% de la muestra y testee con el 20% restante. Explicite qué modelo es mejor y porqué. (12 puntos)

Importante: Recuerde setear la semilla set.seed(12345).

Observación: No obtendrá puntaje si compara un modelo de clasificación de una variable.

Parte 2: Charla

6.Dada la charla del profesor Esteban Lopéz, explique brevemente, ¿Por qué es importante Spatial Analytics?

El spatial Analytics es una manera de ver los datos a partir de la ubicación geografica de estos. Esto es importante para llevar a cabo analisis de datos mas completos y una mejor toma de deciciones debido a las distintas perspectivas geograficas y geopoliticas que otorga cada dato.

7.Mencioné tres ejemplos del machine learning, intesligencia artificial, que señaló el profesor Alexis Montecinos.

Diferenciación entre fotos de perros y gatos, identificar y reproducir una voz en el fondo de un audio, y mandar diferentes ofertas a partir de distintos secotres demograficos.