El formato de respuesta es el siguiente:
Antes de la respuesta debes agregar un encabezado de tercer nivel (###) con P y el número de pregunta.
Abajo del encabezado, debe estar escrita la pregunta.
Agregar la linea de código.
Agregar el output de ser necesario.
Si requieres agregar alguna respuesta analítica, agregar al final de la pregunta (después del output).
El nombre del archivo .rmd debe tener la siguiente forma: Control 3 - Apellido.
El formato tiene un puntaje asignado dentro de la nota (3 puntos)
Importante: Deben ser suprimidos los mensajes y warnings del informe. (3 puntos)
Se habilitará en webcursos un apartado para que envíen el control publicada en su rpubs y el archivo .rmd.
El plazo para enviar es hasta finalizar la clase.
El control constará de cuatro partes la primera es predicción de regresión, la segunda será la predicción de árboles de decisión, la tercera de cluster y la última serán preguntas de desarrollo. Se utilizarán tres bases de datos distintas.
Cargue todos los paquetes que necesita para trabajar
con data.table, modelos de predicción de regresión, árboles
de decisión, cluster y Cross-Validation. Además, cargue las bases de
datos. (1 punto)
Importante: Verifique la clase (class)
de las variables que vaya a utilizar en todos sus modelos y si es
necesario transformarla a numérica o factor, hágalo!
Para la primera parte cuenta con el siguiente diccionario de variable (casas en París):
squareMeters: metros cuadrados
numberOfRooms
hasYard: la casa incluye el patio
hasPool: tiene piscina
floors: número de pisos
cityCode: código zip
cityPartRange: cuanto más alto sea el rango, más
exclusivo será el barrio
numPrevOwners: número de propietarios
anteriores
basement: metros cuadrados de sótano
attic: metros cuadrados del atico
garage: tamaño de garage
hasStorageRoom
hasGuestRoom : tiene de dormitorios de
visitas
price: precio (variable a predecir)
Para la segunda parte tiene este diccionario de variables (diabetes)
Pregnancies: número de embarazos.
Glucose: Concentración de glucosa en plasma a las 2
horas en una prueba de tolerancia a la glucosa oral.
BloodPressure: Presión arterial diastólica (mm
Hg)
SkinThickness: Espesor del pliegue cutáneo del
tríceps (mm)
Insulin: Insulina sérica de 2 horas (mu
U/ml)
BMI: Índice de masa corporal (peso en kg/(altura en
m)^2)
DiabetesPedigreeFunction: Función del pedigrí de la
diabetes
age: Edad (años)
Resultado: Variable de clase (0 o 1)
Para la tecera parte tiene este diccionario de variables (tarjetas de crédito)
CUSTID : Identificación del titular de la tarjeta de crédito (Categórica)
Balance : Cantidad de saldo que queda en su cuenta para realizar compras (
BALANCEFREQUENCY : Frecuencia de actualización del saldo, puntuación entre 0 y 1 (1 = actualización frecuente, 0 = no actualización frecuente)
PURCHASES : Cantidad de compras realizadas desde la cuenta
ONEOFFPURCHASES : Importe máximo de las compras realizadas en una sola vez
INSTALLMENTPURCHASES : Importe de las compras realizadas a plazos
CASHADVANCE : Efectivo adelantado por el usuario
PURCHASESFREQUENCY : Frecuencia de las compras, puntuación entre 0 y 1 (1 = compra frecuente, 0 = no compra frecuente)
FRECUENCIA DE LAS COMPRAS: Frecuencia con la que se realizan las compras de una sola vez (1 = compras frecuentes, 0 = compras no frecuentes)
PURCHASESINSTALLMENTSFREQUENCY : Con qué frecuencia se realizan las compras a plazos (1 = frecuentemente realizadas, 0 = no frecuentemente realizadas)
CASHADVANCEFREQUENCY : Con qué frecuencia se paga el efectivo por adelantado
CASHADVANCETRX : Número de transacciones realizadas con “efectivo por adelantado”
PURCHASESTRX : Número de transacciones de compra realizadas
CREDITLIMIT : Límite de la tarjeta de crédito del usuario
PAGOS : Importe de los pagos realizados por el usuario
MINIMUM_PAYMENTS : Importe mínimo de pagos realizados por el usuario
PRCFULLPAYMENT : Porcentaje del pago total realizado por el usuario
TENURE : Tenencia del servicio de tarjeta de crédito para el usuario
f1 <- formula(price ~.)
f2 <- formula(price ~ squareMeters+numberOfRooms+hasPool+cityPartRange)
regresion <- lm(formula = f1, data = houses_prices)
regresion2 <- lm(formula = f2, data = houses_prices)
summary(regresion)
##
## Call:
## lm(formula = f1, data = houses_prices)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6988.9 -1192.2 -3.2 1198.7 7005.6
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.927e+03 4.092e+03 1.204 0.228666
## squareMeters 1.000e+02 6.602e-04 151480.243 < 2e-16 ***
## numberOfRooms 2.518e-01 6.597e-01 0.382 0.702640
## hasYard 3.012e+03 3.799e+01 79.289 < 2e-16 ***
## hasPool 2.977e+03 3.799e+01 78.365 < 2e-16 ***
## floors 5.454e+01 6.576e-01 82.943 < 2e-16 ***
## cityCode -8.039e-04 6.547e-04 -1.228 0.219513
## cityPartRange 4.737e+01 6.614e+00 7.162 8.51e-13 ***
## numPrevOwners -3.957e-01 6.654e+00 -0.059 0.952580
## made -2.313e+00 2.040e+00 -1.134 0.256940
## isNewBuilt 1.580e+02 3.800e+01 4.159 3.22e-05 ***
## hasStormProtector 1.412e+02 3.798e+01 3.718 0.000202 ***
## basement -2.106e-03 6.604e-03 -0.319 0.749846
## attic -4.509e-03 6.563e-03 -0.687 0.492064
## garage 1.134e-01 7.255e-02 1.563 0.117967
## hasStorageRoom 1.949e+01 3.802e+01 0.512 0.608332
## hasGuestRoom -5.620e+00 5.984e+00 -0.939 0.347641
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1898 on 9983 degrees of freedom
## Multiple R-squared: 1, Adjusted R-squared: 1
## F-statistic: 1.436e+09 on 16 and 9983 DF, p-value: < 2.2e-16
summary(regresion2)
##
## Call:
## lm(formula = f2, data = houses_prices)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6435 -2261 -262 1891 10864
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.649e+03 9.789e+01 47.496 < 2e-16 ***
## squareMeters 1.000e+02 1.005e-03 99517.895 < 2e-16 ***
## numberOfRooms 8.806e-01 1.003e+00 0.878 0.38
## hasPool 3.011e+03 5.784e+01 52.056 < 2e-16 ***
## cityPartRange 4.705e+01 1.007e+01 4.673 3.01e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2891 on 9995 degrees of freedom
## Multiple R-squared: 1, Adjusted R-squared: 1
## F-statistic: 2.476e+09 on 4 and 9995 DF, p-value: < 2.2e-16
set.seed(12345)
setupKCV <- trainControl(method = "cv" , number = 5)
predkfolds1<-train(f1,data=houses_prices,method="lm",trControl= setupKCV)
print(predkfolds1)
## Linear Regression
##
## 10000 samples
## 16 predictor
##
## No pre-processing
## Resampling: Cross-Validated (5 fold)
## Summary of sample sizes: 8000, 8000, 8000, 8000, 8000
## Resampling results:
##
## RMSE Rsquared MAE
## 1900.376 0.9999996 1480.621
##
## Tuning parameter 'intercept' was held constant at a value of TRUE
arbol_1 <- rpart(Outcome~., data=diabetes, method = "class")
arbol_2 <- rpart(Outcome~Glucose+Insulin+BloodPressure+Age, data=diabetes, method = "class")
rpart.plot(arbol_1, main = "Arbol de decisión: diabetes")
rpart.plot(arbol_2, main = "Arbol de decisión: diabetes")
set.seed(12345)
division <- createDataPartition(diabetes$Outcome, times = 1, p = 0.75, list = F)
train <- diabetes[division,]
test <- diabetes[-division,]
arbol_3 <- rpart(Outcome~Glucose+Insulin+BloodPressure+Age, data = train, method = "class")
rpart.plot(arbol_2)
datacor <- cor(credit_card[,c(2:18)])
corrplot(datacor, method = 'color', tl.cex = 0.5)