Importante: Verifique la clase (class) de las variables que vaya a utilizar en todos sus modelos y si es necesario transformarla a numérica o factor, hágalo!
## Loading required package: lattice
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
heart<- fread("C:/Users/ejbuz/OneDrive/Desktop/DATA SCIENCE/Control 3/heart.csv")
class(heart)
## [1] "data.table" "data.frame"
as.data.table(heart)
## age sex cp trtbps chol fbs restecg thalachh exng oldpeak slp caa thall
## 1: 63 1 3 145 233 1 0 150 0 2.3 0 0 1
## 2: 37 1 2 130 250 0 1 187 0 3.5 0 0 2
## 3: 41 0 1 130 204 0 0 172 0 1.4 2 0 2
## 4: 56 1 1 120 236 0 1 178 0 0.8 2 0 2
## 5: 57 0 0 120 354 0 1 163 1 0.6 2 0 2
## ---
## 299: 57 0 0 140 241 0 1 123 1 0.2 1 0 3
## 300: 45 1 3 110 264 0 1 132 0 1.2 1 0 3
## 301: 68 1 0 144 193 1 1 141 0 3.4 1 2 3
## 302: 57 1 0 130 131 0 1 115 1 1.2 1 1 3
## 303: 57 0 1 130 236 0 0 174 0 0.0 1 1 2
## output
## 1: 1
## 2: 1
## 3: 1
## 4: 1
## 5: 1
## ---
## 299: 0
## 300: 0
## 301: 0
## 302: 0
## 303: 0
Observación: No obtendrá puntaje si compara un modelo de regresión de una variable.
reg1<- lm(trtbps~ chol + oldpeak + trtbps + caa, data=heart )
summary(reg1)
##
## Call:
## lm(formula = trtbps ~ chol + oldpeak + trtbps + caa, data = heart)
##
## Residuals:
## Min 1Q Median 3Q Max
## -34.411 -11.365 -1.452 9.720 61.507
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 119.03460 4.83972 24.595 < 2e-16 ***
## chol 0.03718 0.01911 1.946 0.05261 .
## oldpeak 2.64520 0.87270 3.031 0.00265 **
## caa 0.93720 0.99189 0.945 0.34550
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 17.15 on 299 degrees of freedom
## Multiple R-squared: 0.05291, Adjusted R-squared: 0.04341
## F-statistic: 5.568 on 3 and 299 DF, p-value: 0.000993
reg2<- lm(trtbps ~ age + sex + thalachh + caa, data=heart )
summary(reg2)
##
## Call:
## lm(formula = trtbps ~ age + sex + thalachh + caa, data = heart)
##
## Residuals:
## Min 1Q Median 3Q Max
## -37.901 -10.647 -1.197 10.161 66.844
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 91.65317 11.50974 7.963 3.56e-14 ***
## age 0.57356 0.12089 4.745 3.25e-06 ***
## sex -1.08131 2.12629 -0.509 0.611
## thalachh 0.06036 0.04671 1.292 0.197
## caa 0.67775 1.00605 0.674 0.501
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 16.89 on 298 degrees of freedom
## Multiple R-squared: 0.08493, Adjusted R-squared: 0.07265
## F-statistic: 6.914 on 4 and 298 DF, p-value: 2.466e-05
Pista1: Recuerde setear la semilla set.seed(12345).
Pista2: Si existen variables con NA recuerde que puede excluirlas esas observaciones del análisis, pero no las elimine.
set.seed(12345)
setupKCV<- trainControl(method = "cv", number = 5)
predkreg1<- train(data=heart,trtbps~ chol + oldpeak + trtbps + caa , method="lm", trcontrol = setupKCV )
print(predkreg1)
## Linear Regression
##
## 303 samples
## 3 predictor
##
## No pre-processing
## Resampling: Bootstrapped (25 reps)
## Summary of sample sizes: 303, 303, 303, 303, 303, 303, ...
## Resampling results:
##
## RMSE Rsquared MAE
## 17.23012 0.05197353 13.30823
##
## Tuning parameter 'intercept' was held constant at a value of TRUE
set.seed(12345)
setupKCV<- trainControl(method = "cv", number = 5)
predkreg2<- train(data=heart,trtbps ~ age + sex + thalachh + caa , method="lm", trcontrol = setupKCV )
print(predkreg2)
## Linear Regression
##
## 303 samples
## 4 predictor
##
## No pre-processing
## Resampling: Bootstrapped (25 reps)
## Summary of sample sizes: 303, 303, 303, 303, 303, 303, ...
## Resampling results:
##
## RMSE Rsquared MAE
## 17.25385 0.05947673 13.20228
##
## Tuning parameter 'intercept' was held constant at a value of TRUE
Pista1: Si existen outliers recuerde eliminarlos, para esto cree un nuevo objeto donde se encuentren estas dos variables.
sample1<-heart[,. (trtbps, thalachh)]
k1<- kmeans(x=sample1, centers = 5, nstart = 29)
fviz_cluster(k1, data = sample1, geom = "point")
Importante: Recuerde setear la semilla set.seed(12345).
Observación: No obtendrá puntaje si compara un modelo de clasificación de una variable.
El spatial Analytics es una manera de ver los datos a partir de la ubicación geografica de estos. Esto es importante para llevar a cabo analisis de datos mas completos y una mejor toma de deciciones debido a las distintas perspectivas geograficas y geopoliticas que otorga cada dato.
Diferenciación entre fotos de perros y gatos, identificar y reproducir una voz en el fondo de un audio, y mandar diferentes ofertas a partir de distintos secotres demograficos.