Construir y evaluar un modelo de árbol de regresión para realizar predicciones y comparar resultados con el modelo de regresión lineal múltiple
Se cargan las librerías necesarias
Se cargan los datos Se exploran los datos
Se crear los datos de entrenamiento y validación 70% y 30% respectivamente
Las métricas a valorar serán:
Que los coeficientes sean estadísticamente significativos por encima del 95%.
R Squared Ajustado el modelo se acepta si sobrepasa en el 80%
rmse comparado con otro modelo mismos datos se acepta o se establece que un modelo es mejor que otro.
Comparaciones con el modelo de regresión lineak múltiple
Pendiente … pendiente …
library(readr) # Para importar datos
library(dplyr) # Para filtrar
library(knitr) # Para datos tabulares
library(ggplot2) # Para visualizar
library(plotly)
library(caret) # Para particionar
library(Metrics) # Para determinar rmse
library(rpart) # Para árbol
library(rpart.plot) # Para árbol
datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Analisis-Inteligente-de-datos/main/datos/Advertising.csv")
summary(datos)
## X TV Radio Newspaper
## Min. : 1.00 Min. : 0.70 Min. : 0.000 Min. : 0.30
## 1st Qu.: 50.75 1st Qu.: 74.38 1st Qu.: 9.975 1st Qu.: 12.75
## Median :100.50 Median :149.75 Median :22.900 Median : 25.75
## Mean :100.50 Mean :147.04 Mean :23.264 Mean : 30.55
## 3rd Qu.:150.25 3rd Qu.:218.82 3rd Qu.:36.525 3rd Qu.: 45.10
## Max. :200.00 Max. :296.40 Max. :49.600 Max. :114.00
## Sales
## Min. : 1.60
## 1st Qu.:10.38
## Median :12.90
## Mean :14.02
## 3rd Qu.:17.40
## Max. :27.00
str(datos)
## 'data.frame': 200 obs. of 5 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ TV : num 230.1 44.5 17.2 151.5 180.8 ...
## $ Radio : num 37.8 39.3 45.9 41.3 10.8 48.9 32.8 19.6 2.1 2.6 ...
## $ Newspaper: num 69.2 45.1 69.3 58.5 58.4 75 23.5 11.6 1 21.2 ...
## $ Sales : num 22.1 10.4 9.3 18.5 12.9 7.2 11.8 13.2 4.8 10.6 ...
Son 200 registros tres variables independientes y una variable dependiente.
La variable dependiente o variable objetivo es Sales que deberá estar en función de la inversión que se hace en TV, Radio o Newspaper.
Quitar la variable x que no es de interés
datos <- datos %>%
select (TV, Radio, Newspaper, Sales)
kable(head(datos, 20), caption = "Primeros 20 registros")
| TV | Radio | Newspaper | Sales |
|---|---|---|---|
| 230.1 | 37.8 | 69.2 | 22.1 |
| 44.5 | 39.3 | 45.1 | 10.4 |
| 17.2 | 45.9 | 69.3 | 9.3 |
| 151.5 | 41.3 | 58.5 | 18.5 |
| 180.8 | 10.8 | 58.4 | 12.9 |
| 8.7 | 48.9 | 75.0 | 7.2 |
| 57.5 | 32.8 | 23.5 | 11.8 |
| 120.2 | 19.6 | 11.6 | 13.2 |
| 8.6 | 2.1 | 1.0 | 4.8 |
| 199.8 | 2.6 | 21.2 | 10.6 |
| 66.1 | 5.8 | 24.2 | 8.6 |
| 214.7 | 24.0 | 4.0 | 17.4 |
| 23.8 | 35.1 | 65.9 | 9.2 |
| 97.5 | 7.6 | 7.2 | 9.7 |
| 204.1 | 32.9 | 46.0 | 19.0 |
| 195.4 | 47.7 | 52.9 | 22.4 |
| 67.8 | 36.6 | 114.0 | 12.5 |
| 281.4 | 39.6 | 55.8 | 24.4 |
| 69.2 | 20.5 | 18.3 | 11.3 |
| 147.3 | 23.9 | 19.1 | 14.6 |
kable(tail(datos, 20), caption = "Últimos 20 registros")
| TV | Radio | Newspaper | Sales | |
|---|---|---|---|---|
| 181 | 156.6 | 2.6 | 8.3 | 10.5 |
| 182 | 218.5 | 5.4 | 27.4 | 12.2 |
| 183 | 56.2 | 5.7 | 29.7 | 8.7 |
| 184 | 287.6 | 43.0 | 71.8 | 26.2 |
| 185 | 253.8 | 21.3 | 30.0 | 17.6 |
| 186 | 205.0 | 45.1 | 19.6 | 22.6 |
| 187 | 139.5 | 2.1 | 26.6 | 10.3 |
| 188 | 191.1 | 28.7 | 18.2 | 17.3 |
| 189 | 286.0 | 13.9 | 3.7 | 15.9 |
| 190 | 18.7 | 12.1 | 23.4 | 6.7 |
| 191 | 39.5 | 41.1 | 5.8 | 10.8 |
| 192 | 75.5 | 10.8 | 6.0 | 9.9 |
| 193 | 17.2 | 4.1 | 31.6 | 5.9 |
| 194 | 166.8 | 42.0 | 3.6 | 19.6 |
| 195 | 149.7 | 35.6 | 6.0 | 17.3 |
| 196 | 38.2 | 3.7 | 13.8 | 7.6 |
| 197 | 94.2 | 4.9 | 8.1 | 9.7 |
| 198 | 177.0 | 9.3 | 6.4 | 12.8 |
| 199 | 283.6 | 42.0 | 66.2 | 25.5 |
| 200 | 232.1 | 8.6 | 8.7 | 13.4 |
n <- nrow(datos)
# Modificar la semilla estableciendo como parámetro los útimos cuatro dígitos de su no de control.
# Ej. set.seed(0732), o set.seed(1023)
# set.seed(2022)
set.seed(2022)
De manera aleatoria se construyen los datos de entrenamiento y los datos de validación.
En la variable entrena se generan los registros que van a ser los datos de entrenamiento, de tal forma que los datos de validación serán los que no sena de entrenamiento [-entrena].
entrena <- createDataPartition(y = datos$Sales, p = 0.70, list = FALSE, times = 1)
# Datos entrenamiento
datos.entrenamiento <- datos[entrena, ] # [renglones, columna]
# Datos validación
datos.validacion <- datos[-entrena, ]
kable(head(datos.entrenamiento, 20), caption = "Datos de Entrenamiento. Primeros 20 registros")
| TV | Radio | Newspaper | Sales | |
|---|---|---|---|---|
| 1 | 230.1 | 37.8 | 69.2 | 22.1 |
| 2 | 44.5 | 39.3 | 45.1 | 10.4 |
| 3 | 17.2 | 45.9 | 69.3 | 9.3 |
| 4 | 151.5 | 41.3 | 58.5 | 18.5 |
| 5 | 180.8 | 10.8 | 58.4 | 12.9 |
| 6 | 8.7 | 48.9 | 75.0 | 7.2 |
| 7 | 57.5 | 32.8 | 23.5 | 11.8 |
| 8 | 120.2 | 19.6 | 11.6 | 13.2 |
| 9 | 8.6 | 2.1 | 1.0 | 4.8 |
| 11 | 66.1 | 5.8 | 24.2 | 8.6 |
| 12 | 214.7 | 24.0 | 4.0 | 17.4 |
| 13 | 23.8 | 35.1 | 65.9 | 9.2 |
| 14 | 97.5 | 7.6 | 7.2 | 9.7 |
| 15 | 204.1 | 32.9 | 46.0 | 19.0 |
| 16 | 195.4 | 47.7 | 52.9 | 22.4 |
| 17 | 67.8 | 36.6 | 114.0 | 12.5 |
| 18 | 281.4 | 39.6 | 55.8 | 24.4 |
| 19 | 69.2 | 20.5 | 18.3 | 11.3 |
| 23 | 13.2 | 15.9 | 49.6 | 5.6 |
| 25 | 62.3 | 12.6 | 18.3 | 9.7 |
kable(tail(datos.entrenamiento, 20), caption = "Datos de entrenamiento ültimos 20 registros")
| TV | Radio | Newspaper | Sales | |
|---|---|---|---|---|
| 175 | 222.4 | 3.4 | 13.1 | 11.5 |
| 176 | 276.9 | 48.9 | 41.8 | 27.0 |
| 179 | 276.7 | 2.3 | 23.7 | 11.8 |
| 180 | 165.6 | 10.0 | 17.6 | 12.6 |
| 181 | 156.6 | 2.6 | 8.3 | 10.5 |
| 183 | 56.2 | 5.7 | 29.7 | 8.7 |
| 184 | 287.6 | 43.0 | 71.8 | 26.2 |
| 185 | 253.8 | 21.3 | 30.0 | 17.6 |
| 186 | 205.0 | 45.1 | 19.6 | 22.6 |
| 187 | 139.5 | 2.1 | 26.6 | 10.3 |
| 188 | 191.1 | 28.7 | 18.2 | 17.3 |
| 189 | 286.0 | 13.9 | 3.7 | 15.9 |
| 190 | 18.7 | 12.1 | 23.4 | 6.7 |
| 192 | 75.5 | 10.8 | 6.0 | 9.9 |
| 193 | 17.2 | 4.1 | 31.6 | 5.9 |
| 195 | 149.7 | 35.6 | 6.0 | 17.3 |
| 196 | 38.2 | 3.7 | 13.8 | 7.6 |
| 197 | 94.2 | 4.9 | 8.1 | 9.7 |
| 198 | 177.0 | 9.3 | 6.4 | 12.8 |
| 200 | 232.1 | 8.6 | 8.7 | 13.4 |
Los datos de validación deben ser diferentes a los datos den entrenamiento.
kable(head(datos.validacion, 20), caption = "Datos de Validación Primeros 20 registros")
| TV | Radio | Newspaper | Sales | |
|---|---|---|---|---|
| 10 | 199.8 | 2.6 | 21.2 | 10.6 |
| 20 | 147.3 | 23.9 | 19.1 | 14.6 |
| 21 | 218.4 | 27.7 | 53.4 | 18.0 |
| 22 | 237.4 | 5.1 | 23.5 | 12.5 |
| 24 | 228.3 | 16.9 | 26.2 | 15.5 |
| 26 | 262.9 | 3.5 | 19.5 | 12.0 |
| 27 | 142.9 | 29.3 | 12.6 | 15.0 |
| 30 | 70.6 | 16.0 | 40.8 | 10.5 |
| 31 | 292.9 | 28.3 | 43.2 | 21.4 |
| 33 | 97.2 | 1.5 | 30.0 | 9.6 |
| 34 | 265.6 | 20.0 | 0.3 | 17.4 |
| 35 | 95.7 | 1.4 | 7.4 | 9.5 |
| 36 | 290.7 | 4.1 | 8.5 | 12.8 |
| 42 | 177.0 | 33.4 | 38.7 | 17.1 |
| 48 | 239.9 | 41.5 | 18.5 | 23.2 |
| 50 | 66.9 | 11.7 | 36.8 | 9.7 |
| 54 | 182.6 | 46.2 | 58.7 | 21.2 |
| 55 | 262.7 | 28.8 | 15.9 | 20.2 |
| 60 | 210.7 | 29.5 | 9.3 | 18.4 |
| 63 | 239.3 | 15.5 | 27.3 | 15.7 |
kable(tail(datos.validacion, 20), caption = "Datos de validació últimos 20 registros")
| TV | Radio | Newspaper | Sales | |
|---|---|---|---|---|
| 118 | 76.4 | 0.8 | 14.8 | 9.4 |
| 120 | 19.4 | 16.0 | 22.3 | 6.6 |
| 125 | 229.5 | 32.3 | 74.2 | 19.7 |
| 128 | 80.2 | 0.0 | 9.2 | 8.8 |
| 130 | 59.6 | 12.0 | 43.1 | 9.7 |
| 133 | 8.4 | 27.2 | 2.1 | 5.7 |
| 139 | 43.0 | 25.9 | 20.5 | 9.6 |
| 140 | 184.9 | 43.9 | 1.7 | 20.7 |
| 144 | 104.6 | 5.7 | 34.4 | 10.4 |
| 149 | 38.0 | 40.3 | 11.9 | 10.9 |
| 151 | 280.7 | 13.9 | 37.0 | 16.1 |
| 153 | 197.6 | 23.3 | 14.2 | 16.6 |
| 171 | 50.0 | 11.6 | 18.4 | 8.4 |
| 172 | 164.5 | 20.9 | 47.4 | 14.5 |
| 177 | 248.4 | 30.2 | 20.3 | 20.2 |
| 178 | 170.2 | 7.8 | 35.2 | 11.7 |
| 182 | 218.5 | 5.4 | 27.4 | 12.2 |
| 191 | 39.5 | 41.1 | 5.8 | 10.8 |
| 194 | 166.8 | 42.0 | 3.6 | 19.6 |
| 199 | 283.6 | 42.0 | 66.2 | 25.5 |
¿Que significado tiene el estadístico R Square para ambos modelos?
Una medida estadística que representa la proporción de la varianza para una variable dependiente
¿Que significado tiene la fórmula de mínimos cuadrados en el modelo de regresión lineal simple?
El método de mínimos cuadrados es un enfoque estándar en el análisis de regresión para aproximar la solución de sistemas sobredeterminados
¿Cuáles son los valores de los coeficientes a y b para el modelo de regresión lineal simple?
Valor de a: [-67.50986539]Valor de b; [[78.78539487]]
¿Para qué sirven los datos de entrenamiento y los datos de validación?
Son datos iniciales los cuales ayudaran al programa a comprender como aplicar la tecnologia y los de validacion son los datos seleccionados que obtuvieron mejores resultados
¿Cómo se puede predecir valores en ambos modelos?
Por medio de la regresion lineal en base a los datos de validacion