1 Objetivo

Evaluar y comparar los modelos de regresión lineal simple y polinomial de segunda y quinta pontecia con datos de Adverstising_WEB.csv

2 Descripción

Se cargan los datos de la dirección:https://raw.githubusercontent.com/rpizarrog/Analisis-Inteligente-de-datos/main/datos/Advertising_Web.csv

Los datos contienen variables que en el contexto se interpreta que son inversiones hechas de una empresa y las ventas de la misma, a tanta inversión de marketing en medios tales como TV, Radio, NewsPapers (medios impresos) y Web (digital) existe en relacuón a las ventas (Sales) generadas.

Se trata de comparar modelos predictivos para evaluar cuál es mejor con respecto a los estadísticos R Square y RMSE.

Las variables de interés serán:

TV como variable independiente o la variable explicativa hacia la variables Sales
Sales como variable dependiente que es la variable a predecir.
Se construyen datos de entrenamiento y datos de validacion al 70 y 30% respectivamente

Se construyen el modelo de regresión lineal simple con los datos de entrenamiento y se evaluán los siguiente aspectos:

Se identifican los coeficientes a y b
Se analizan los niveles de confianza de los coeficientes.
Se identifica el valor de R Square par evaluar el grado de explicación de la variable dependiente con respecto a la variable independiente. El modelo se acepta si está por encima del 60%.
Se hacen prediciones con la funcion predict() con los datos de validación.
Se mide el valor de RMSE Root Mean Stándar Error.

Se construye el modelo polinomial a la segunda potencia y quinta potencia con los datos de entrenamiento y se evalúan los siguientes aspectos.

Se identifican los coeficientes
Se analizan los niveles de confianza de los coeficientes.
Se identifica el valor de R Square para evaluar el grado de explicación de la variable independiente con respecto a la variable dependiente. Se acepta si está por encima del 60%
Se hacen prediciones con la funcion predict() con los datos de validación.
Se mide el valor de rmse Root Mean Stándar Error.

3 Desarrollo

3.1 Cargar librerías

library(readr)   # Sirve para importar datos
library(Metrics) # Sirve para construir métricas y valorar modelos 
library (ggplot2) # Sirve para gráficos
library(caret)    # Para partir los datos Entrenamiento y Validación.
library(knitr)

3.2 Cargar datos

datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Analisis-Inteligente-de-datos/main/datos/Advertising_Web.csv")

3.3 Describir datos

summary(datos)

##       X.1               X                TV             Radio       
##  Min.   :  1.00   Min.   :  1.00   Min.   :  0.70   Min.   : 0.000  
##  1st Qu.: 50.75   1st Qu.: 50.75   1st Qu.: 74.38   1st Qu.: 9.975  
##  Median :100.50   Median :100.50   Median :149.75   Median :22.900  
##  Mean   :100.50   Mean   :100.50   Mean   :147.04   Mean   :23.264  
##  3rd Qu.:150.25   3rd Qu.:150.25   3rd Qu.:218.82   3rd Qu.:36.525  
##  Max.   :200.00   Max.   :200.00   Max.   :296.40   Max.   :49.600  
##    Newspaper           Web              Sales      
##  Min.   :  0.30   Min.   :  4.308   Min.   : 1.60  
##  1st Qu.: 12.75   1st Qu.: 99.049   1st Qu.:10.38  
##  Median : 25.75   Median :156.862   Median :12.90  
##  Mean   : 30.55   Mean   :159.587   Mean   :14.02  
##  3rd Qu.: 45.10   3rd Qu.:212.312   3rd Qu.:17.40  
##  Max.   :114.00   Max.   :358.247   Max.   :27.00

str(datos)

## 'data.frame':    200 obs. of  7 variables:
##  $ X.1      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ X        : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ TV       : num  230.1 44.5 17.2 151.5 180.8 ...
##  $ Radio    : num  37.8 39.3 45.9 41.3 10.8 48.9 32.8 19.6 2.1 2.6 ...
##  $ Newspaper: num  69.2 45.1 69.3 58.5 58.4 75 23.5 11.6 1 21.2 ...
##  $ Web      : num  306.6 302.7 49.5 257.8 195.7 ...
##  $ Sales    : num  22.1 10.4 9.3 18.5 12.9 7.2 11.8 13.2 4.8 10.6 ...

3.3.1 Visualizar la dispersión de los datos

ggplot(datos, aes(x = TV, y = Sales)) + 
  geom_point(colour = "blue") + 
  geom_smooth(colour = 'orange', method = lm) +
  geom_smooth(colour = 'red')

Se observa que la relación entre las dos variables no es del todo lineal.

3.4 Construir Datos de entrenamiento y validación

Los datos de entrenamiento son el 70% de los datos originales y los de validación el 30%.

Se siembra una semilla del año en curso 1271 para generar los mismos valores cada vez que se cnstruya el documento markdown.

set.seed(1271)

Los datos se particionan usando la función createDataPartition() al 70 % el resultado es vector con los registros que pertenecen a datos de entrenamiento de los datos originales.

datos[entrena, ], son los datos de entrenamiento y
datos[- entrena, ] son los datos de validación.

entrena <- createDataPartition(y = datos$Sales, p = 0.70, list = FALSE, times = 1)
# Datos entrenamiento
datos.entrenamiento <- datos[entrena, ]  # [renglones, columna]
# Datos validación
datos.validacion <- datos[-entrena, ]

3.4.1 Datos de entrenamiento 70%

Se despliegan los primeros diez registros de los datos de entrenamiento y no deben aparecer en los datos de validación deben ser diferentes unos con otros.

head(datos.entrenamiento, 10)

##    X.1  X    TV Radio Newspaper       Web Sales
## 2    2  2  44.5  39.3      45.1 302.65307  10.4
## 3    3  3  17.2  45.9      69.3  49.49891   9.3
## 4    4  4 151.5  41.3      58.5 257.81689  18.5
## 5    5  5 180.8  10.8      58.4 195.66008  12.9
## 6    6  6   8.7  48.9      75.0  22.07240   7.2
## 8    8  8 120.2  19.6      11.6 229.97146  13.2
## 9    9  9   8.6   2.1       1.0 144.61739   4.8
## 11  11 11  66.1   5.8      24.2  45.35903   8.6
## 12  12 12 214.7  24.0       4.0 164.97176  17.4
## 13  13 13  23.8  35.1      65.9  87.92109   9.2

paste("Número de observaciones en datos de entrenamiento ", nrow(datos.entrenamiento))

## [1] "Número de observaciones en datos de entrenamiento  142"

3.4.2 Datos de validación 30%

Se despliegan los primeros diez registros y no deben estar en los datos de entrenamiento

head(datos.validacion, 10)

##    X.1  X    TV Radio Newspaper       Web Sales
## 1    1  1 230.1  37.8      69.2 306.63475  22.1
## 7    7  7  57.5  32.8      23.5 246.81160  11.8
## 10  10 10 199.8   2.6      21.2 111.27226  10.6
## 16  16 16 195.4  47.7      52.9 148.09513  22.4
## 17  17 17  67.8  36.6     114.0 202.63890  12.5
## 19  19 19  69.2  20.5      18.3 210.48991  11.3
## 20  20 20 147.3  23.9      19.1 268.73538  14.6
## 23  23 23  13.2  15.9      49.6 219.88278   5.6
## 37  37 37 266.9  43.8       5.0  96.31683  25.4
## 39  39 39  43.1  26.7      35.1 122.75359  10.1

paste("Número de observaciones en datos de entrenamiento ", nrow(datos.validacion))

## [1] "Número de observaciones en datos de entrenamiento  58"

3.5 Modelo de regresión lineal simple

La variable dependiente Sales está en función de la variable independiente TV y se designa con el argumento Formula = Sales ~ TV de los datos (data) de entrenamiento.

modelo.simple <- lm(data = datos.entrenamiento, formula = Sales ~ TV)

3.5.1 Resumen del modelo

Generando el resumen del modelo

resumen <- summary(modelo.simple)
resumen

## 
## Call:
## lm(formula = Sales ~ TV, data = datos.entrenamiento)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -7.922 -2.022 -0.199  2.107  7.516 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 7.269492   0.553258   13.14   <2e-16 ***
## TV          0.045004   0.003189   14.11   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.266 on 140 degrees of freedom
## Multiple R-squared:  0.5872, Adjusted R-squared:  0.5843 
## F-statistic: 199.2 on 1 and 140 DF,  p-value: < 2.2e-16

3.5.2 El valor de los coeficientes a y b

a <- modelo.simple$coefficients[1]
b <- modelo.simple$coefficients[2]
a; b

## (Intercept) 
##    7.269492

##         TV 
## 0.04500449

Los coeficientes tienen un nivel de confianza a 99% (‘***’) por lo que el modelo tiene buenos predictores o al 99% de confianza.

3.5.3 Valor de R Square

El valor de Multiple R-squared es de 0.6466 o del 64.66% por lo que SI SE ACEPTA EL MODELO por encima del 60% como inicialmente se estableció como meta.

resumen$r.squared

## [1] 0.5872492

3.5.4 Predicciones del modelo

Con la función predict() se generan predicciones de los datos de validación.

Las predicciones estarán en función de la fórmula y de los valores de los coeficentes a y b:

\[ Y = a + b \cdot x_i \\ \therefore\\ Y = 6.801923 + 0.05013817 \cdot TV_i \]

predicciones <- predict(object = modelo.simple, newdata = datos.validacion)

3.5.4.1 Estimación lineal

ggplot(data = datos.entrenamiento, aes(x = TV, y = Sales)) + 
  geom_point(colour = "blue") + 
  geom_line(aes(x = TV, y = modelo.simple$fitted.values, colour = 'red'))

3.5.4.2 Generar tabla comparativa

Se construye una tabla comparativa con los datos de validación y las predicciones generadas para comparar y generar el estadístico rmse.

tabla <- data.frame(TV = datos.validacion$TV, Sales.real = datos.validacion$Sales, Sales.predicciones = predicciones)
tabla

##        TV Sales.real Sales.predicciones
## 1   230.1       22.1          17.625026
## 7    57.5       11.8           9.857250
## 10  199.8       10.6          16.261390
## 16  195.4       22.4          16.063370
## 17   67.8       12.5          10.320797
## 19   69.2       11.3          10.383803
## 20  147.3       14.6          13.898654
## 23   13.2        5.6           7.863551
## 37  266.9       25.4          19.281191
## 39   43.1       10.1           9.209186
## 42  177.0       17.1          15.235287
## 43  293.6       20.7          20.482811
## 46  175.1       14.9          15.149779
## 49  227.2       14.8          17.494513
## 52  100.4       10.7          11.787943
## 56  198.9       23.7          16.220885
## 57    7.3        5.5           7.598025
## 66   69.0        9.3          10.374802
## 68  139.3       13.4          13.538618
## 70  216.8       22.3          17.026466
## 74  129.4       11.0          13.093073
## 78  120.5       14.2          12.692533
## 80  116.0       11.0          12.490013
## 83   75.3       11.3          10.658330
## 84   68.4       13.6          10.347799
## 87   76.3       12.0          10.703335
## 88  110.7       16.0          12.251489
## 92   28.6        7.3           8.556621
## 100 135.2       17.2          13.354099
## 101 222.4       11.7          17.278491
## 108  90.4        8.7          11.337898
## 109  13.1        5.3           7.859051
## 110 255.4       19.8          18.763639
## 116  75.1       12.6          10.649329
## 119 125.7       15.9          12.926557
## 126  87.2       10.6          11.193884
## 130  59.6        9.7           9.951760
## 131   0.7        1.6           7.300995
## 132 265.2       12.7          19.204683
## 137  25.6        9.5           8.421607
## 138 273.7       20.8          19.587221
## 139  43.0        9.6           9.204685
## 143 220.5       20.1          17.192982
## 148 243.2       25.4          18.214584
## 158 149.8       10.1          14.011165
## 161 172.5       14.4          15.032767
## 164 163.5       18.0          14.627726
## 167  17.9        8.0           8.075072
## 168 206.8       12.2          16.576421
## 169 215.4       17.1          16.963460
## 172 164.5       14.5          14.672731
## 176 276.9       27.0          19.731236
## 177 248.4       20.2          18.448608
## 185 253.8       17.6          18.691632
## 193  17.2        5.9           8.043569
## 195 149.7       17.3          14.006664
## 196  38.2        7.6           8.988664
## 198 177.0       12.8          15.235287

3.5.4.3 Evaluar predicciones con rmse

Se determina la variación de los valores reales contra las predicciones por medio del estadístico rmse (Root Mean Stándar Error) que servirá para compararse con otro modelo concluyendo que en el que tenga menor error es mas eficiente el modelo.

rmse Root Mean Stándar Error, este valor normalmente se compara contra otro modelo y el que esté mas cerca de cero es mejor.

RMSE es una forma útil de ver qué tan bien un modelo de regresión puede ajustarse a un conjunto de datos.

Cuanto mayor sea el rmse, mayor será la diferencia entre los valores predichos y reales, lo que significa que peor se ajusta un modelo de regresión a los datos. Por el contrario, cuanto más pequeño sea el rmse, mejor podrá un modelo ajustar los datos.

\[ rmse = \sqrt{\frac{\sum(predicho_i - real_i)^{2}}{n}} \]

Se obtiene la métrica con la función rmse() de la librería Metrics previamente argada.

rmse.lineal <- rmse(actual = tabla$Sales.real, predicted = tabla$Sales.predicciones)
rmse.lineal

## [1] 3.274451

El valor de rmse es de: 3.2744511 y habrá que compararse con otro modelo que se haya construído con los mismos datos y las mismas variables, ejemplo modelos de regresión polinomial.

3.6 Modelo de regresión polinomial de segundo nivel

La variable dependiente Sales está en función de la variable independiente TV y se designa con el argumento Formula = Sales ~ TV de los datos (data) de entrenamiento pero en función de elevar al cuadrado el valor del coeficiente TV.

\[ Y = \beta0 + \beta_1\cdot x_i+\beta_2\cdot x_i^2 + ... \beta_n \cdot x_i^n \]

3.6.1 Usando argumento Poly

modelo.poly2 <- lm(data = datos.entrenamiento, formula = Sales ~ poly(x = TV, degree = 2, raw = TRUE))

3.6.2 Usando argumento I

modelo.poly2.I <- lm(Sales ~ TV + I(x = TV ^ 2), data = datos.entrenamiento)

3.6.3 Resumen del modelo

Generando el resumen del modelo

resumen <- summary(modelo.poly2)
resumen

## 
## Call:
## lm(formula = Sales ~ poly(x = TV, degree = 2, raw = TRUE), data = datos.entrenamiento)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.2387 -2.0754 -0.2335  1.9948  7.3935 
## 
## Coefficients:
##                                         Estimate Std. Error t value Pr(>|t|)
## (Intercept)                            6.326e+00  7.943e-01   7.965 5.34e-13
## poly(x = TV, degree = 2, raw = TRUE)1  6.507e-02  1.260e-02   5.166 8.14e-07
## poly(x = TV, degree = 2, raw = TRUE)2 -6.913e-05  4.200e-05  -1.646    0.102
##                                          
## (Intercept)                           ***
## poly(x = TV, degree = 2, raw = TRUE)1 ***
## poly(x = TV, degree = 2, raw = TRUE)2    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.247 on 139 degrees of freedom
## Multiple R-squared:  0.5951, Adjusted R-squared:  0.5893 
## F-statistic: 102.2 on 2 and 139 DF,  p-value: < 2.2e-16

Los coeficientes tienen un nivel de confianza a 99% (‘***’) excepto el predictor b2 que tienen un nivel de confianza por debajo del 90%. Sin embargo se aceptan los predictores.

3.6.4 El valor de los coeficientes con modelo Poly

b0 <- modelo.poly2$coefficients[1]
b1 <- modelo.poly2$coefficients[2]
b2 <- modelo.poly2$coefficients[3]
b0; b1; b2

## (Intercept) 
##    6.326107

## poly(x = TV, degree = 2, raw = TRUE)1 
##                            0.06507278

## poly(x = TV, degree = 2, raw = TRUE)2 
##                         -6.913325e-05

3.6.5 Coeficientes con el modelo I

bI0 <- modelo.poly2$coefficients[1]
bI1 <- modelo.poly2$coefficients[2]
bI2 <- modelo.poly2$coefficients[3]
bI0; bI1; bI2

## (Intercept) 
##    6.326107

## poly(x = TV, degree = 2, raw = TRUE)1 
##                            0.06507278

## poly(x = TV, degree = 2, raw = TRUE)2 
##                         -6.913325e-05

Deben ser los mismos valores.

3.6.6 Valor de R Square

El valor de Multiple R-squared es de 0.6299282 o del 62.99% por lo que SI SE ACEPTA EL MODELO por encima del 60% como inicialmente se estableció como meta.

resumen$r.squared

## [1] 0.5951414

3.6.7 Predicciones del modelo

Con la función predict() se generan predicciones de los datos de validación.

Las predicciones estarán en función de la fórmula y de los valores de los coeficentes a y b:

\[ Y = \beta0 + \beta_1\cdot x+\beta_2\cdot x^2 + ... \beta_n \cdot x^n \\ \therefore Y = 6.108493 + 0.06526148 \cdot TV_i + -5.309162e-05 \cdot TV_i^2 \]

predicciones <- predict(object = modelo.poly2, newdata = datos.validacion)

3.6.7.1 Curva de estimación

ggplot(data = datos.entrenamiento, aes(x = TV, y = Sales)) + 
  geom_point(colour = "blue") + 
  geom_line(aes(x = TV, y = modelo.poly2$fitted.values, colour = 'red'))

3.6.7.2 Generar tabla comparativa

Se construye una tabla comparativa con los datos de validación y las predicciones generadas para comparar y generar el estadístico rmse.

tabla <- data.frame(TV = datos.validacion$TV, Sales.real = datos.validacion$Sales, Sales.predicciones = predicciones)
tabla

##        TV Sales.real Sales.predicciones
## 1   230.1       22.1          17.639025
## 7    57.5       11.8           9.839220
## 10  199.8       10.6          16.567847
## 16  195.4       22.4          16.401741
## 17   67.8       12.5          10.420247
## 19   69.2       11.3          10.498089
## 20  147.3       14.6          14.411324
## 23   13.2        5.6           7.173022
## 37  266.9       25.4          18.769284
## 39   43.1       10.1           9.002321
## 42  177.0       17.1          15.678114
## 43  293.6       20.7          19.472124
## 46  175.1       14.9          15.600725
## 49  227.2       14.8          17.541996
## 52  100.4       10.7          12.162540
## 56  198.9       23.7          16.534089
## 57    7.3        5.5           6.797454
## 66   69.0        9.3          10.486986
## 68  139.3       13.4          14.049250
## 70  216.8       22.3          17.184469
## 74  129.4       11.0          13.588933
## 78  120.5       14.2          13.163545
## 80  116.0       11.0          12.944293
## 83   75.3       11.3          10.834096
## 84   68.4       13.6          10.453641
## 87   76.3       12.0          10.888688
## 88  110.7       16.0          12.682471
## 92   28.6        7.3           8.130640
## 100 135.2       17.2          13.860258
## 101 222.4       11.7          17.378842
## 108  90.4        8.7          11.643719
## 109  13.1        5.3           7.166696
## 110 255.4       19.8          18.436192
## 116  75.1       12.6          10.823161
## 119 125.7       15.9          13.413417
## 126  87.2       10.6          11.474776
## 130  59.6        9.7           9.958873
## 131   0.7        1.6           6.371624
## 132 265.2       12.7          18.721196
## 137  25.6        9.5           7.946663
## 138 273.7       20.8          18.957639
## 139  43.0        9.6           8.996409
## 143 220.5       20.1          17.313380
## 148 243.2       25.4          18.062836
## 158 149.8       10.1          14.522657
## 161 172.5       14.4          15.494016
## 164 163.5       18.0          15.117420
## 167  17.9        8.0           7.468759
## 168 206.8       12.2          16.826589
## 169 215.4       17.1          17.135198
## 172 164.5       14.5          15.159817
## 176 276.9       27.0          19.044065
## 177 248.4       20.2          18.224488
## 185 253.8       17.6          18.388400
## 193  17.2        5.9           7.424906
## 195 149.7       17.3          14.518220
## 196  38.2        7.6           8.711005
## 198 177.0       12.8          15.678114

3.6.7.3 Evaluar predicciones con rmse

rmse Root Mean Stándar Error, este valor normalmente se compara contra otro modelo y el que esté mas cerca de cero es mejor.

RMSE es una forma útil de ver qué tan bien un modelo de regresión puede ajustarse a un conjunto de datos.

\[ rmse = \sqrt{\frac{\sum(predicho_i - real_i)^{2}}{n}} \]

Se obtiene la métrica con la función rmse() de la librería Metrics previamente argada.

rmse.poly2 <- rmse(actual = tabla$Sales.real, predicted = tabla$Sales.predicciones)
rmse.poly2

## [1] 3.243766

El valor de rmse es de: 3.2437655 y habrá que compararse con otro modelo que se haya construido con los mismos datos y las mismas variables, ejemplo modelos de regresión polinomial.

3.7 Modelo de regresión polinomial de quinto nivel

\[ Y = \beta0 + \beta_1\cdot x_i+\beta_2\cdot x_i^2 + ... \beta_5\cdot x_i^5 \]

3.7.1 Usando argumento Poly

modelo.poly5 <- lm(data = datos.entrenamiento, formula = Sales ~ poly(x = TV, degree = 5, raw = TRUE))

3.7.2 Resumen del modelo

Generando el resumen del modelo

resumen <- summary(modelo.poly5)
resumen

## 
## Call:
## lm(formula = Sales ~ poly(x = TV, degree = 5, raw = TRUE), data = datos.entrenamiento)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.7186 -1.8303 -0.1965  1.9391  7.4632 
## 
## Coefficients:
##                                         Estimate Std. Error t value Pr(>|t|)  
## (Intercept)                            3.714e+00  1.755e+00   2.115   0.0362 *
## poly(x = TV, degree = 5, raw = TRUE)1  2.906e-01  1.251e-01   2.322   0.0217 *
## poly(x = TV, degree = 5, raw = TRUE)2 -4.987e-03  2.584e-03  -1.930   0.0557 .
## poly(x = TV, degree = 5, raw = TRUE)3  4.270e-05  2.182e-05   1.957   0.0524 .
## poly(x = TV, degree = 5, raw = TRUE)4 -1.599e-07  8.053e-08  -1.986   0.0490 *
## poly(x = TV, degree = 5, raw = TRUE)5  2.153e-10  1.076e-10   2.001   0.0474 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.23 on 136 degrees of freedom
## Multiple R-squared:  0.6079, Adjusted R-squared:  0.5935 
## F-statistic: 42.18 on 5 and 136 DF,  p-value: < 2.2e-16

Los coeficientes tienen un nivel de confianza por encima del 90% (‘***’) excepto el predictor b5 que tienen un nivel de confianza por debajo del 90%. Sin embargo se aceptan los predictores.

3.7.3 El valor de los coeficientes con modelo Poly

b0 <- modelo.poly5$coefficients[1]
b1 <- modelo.poly5$coefficients[2]
b2 <- modelo.poly5$coefficients[3]
b3 <- modelo.poly5$coefficients[4]
b4 <- modelo.poly5$coefficients[5]
b5 <- modelo.poly5$coefficients[6]
b0; b1; b2; b3; b4; b5

## (Intercept) 
##    3.713603

## poly(x = TV, degree = 5, raw = TRUE)1 
##                             0.2905507

## poly(x = TV, degree = 5, raw = TRUE)2 
##                          -0.004987459

## poly(x = TV, degree = 5, raw = TRUE)3 
##                           4.27025e-05

## poly(x = TV, degree = 5, raw = TRUE)4 
##                         -1.599296e-07

## poly(x = TV, degree = 5, raw = TRUE)5 
##                          2.152689e-10

3.7.4 Valor de R Square

El valor de Multiple R-squared es de 0.6426 o del 64.26% por lo que SI SE ACEPTA EL MODELO por encima del 60% como inicialmente se estableció como meta.

resumen$r.squared

## [1] 0.6079402

3.7.5 Predicciones del modelo

Con la función predict() se generan predicciones de los datos de validación.

Las predicciones estarán en función de la fórmula y de los valores de los coeficentes a y b:

\[ Y = \beta0 + \beta_1\cdot x+\beta_2\cdot x^2 \beta_3\cdot x^3+ \beta_4\cdot x^4 + \beta_5\cdot x^5 \\ \therefore \\ Y = 3.200194 + 0.2979779\cdot TV_i + -0.004548809 \cdot TV_i^2 + 3.519913e-05 \cdot TV_i^3 + -1.218158e-07 \cdot TV_i^4 + 1.547874e-10 \cdot TV_i^5 \]

predicciones <- predict(object = modelo.poly5, newdata = datos.validacion)

3.7.5.1 Curva de estimación

ggplot(data = datos.entrenamiento, aes(x = TV, y = Sales)) + 
  geom_point(colour = "blue") + 
  geom_line(aes(x = TV, y = modelo.poly5$fitted.values, colour = 'red'))

3.7.5.2 Generar tabla comparativa

Se construye una tabla comparativa con los datos de validación y las predicciones generadas para comparar y generar el estadístico rmse.

tabla <- data.frame(TV = datos.validacion$TV, Sales.real = datos.validacion$Sales, Sales.predicciones = predicciones)
tabla

##        TV Sales.real Sales.predicciones
## 1   230.1       22.1          17.271097
## 7    57.5       11.8          10.435699
## 10  199.8       10.6          16.939235
## 16  195.4       22.4          16.821237
## 17   67.8       12.5          10.724246
## 19   69.2       11.3          10.761299
## 20  147.3       14.6          14.412376
## 23   13.2        5.6           6.773302
## 37  266.9       25.4          17.863189
## 39   43.1       10.1           9.870619
## 42  177.0       17.1          16.110347
## 43  293.6       20.7          21.098658
## 46  175.1       14.9          16.018497
## 49  227.2       14.8          17.264931
## 52  100.4       10.7          11.773198
## 56  198.9       23.7          16.916772
## 57    7.3        5.5           5.585004
## 66   69.0        9.3          10.756010
## 68  139.3       13.4          13.907176
## 70  216.8       22.3          17.211785
## 74  129.4       11.0          13.293427
## 78  120.5       14.2          12.771887
## 80  116.0       11.0          12.524304
## 83   75.3       11.3          10.924314
## 84   68.4       13.6          10.740137
## 87   76.3       12.0          10.951750
## 88  110.7       16.0          12.249443
## 92   28.6        7.3           8.839896
## 100 135.2       17.2          13.650151
## 101 222.4       11.7          17.247979
## 108  90.4        8.7          11.386986
## 109  13.1        5.3           6.755291
## 110 255.4       19.8          17.450571
## 116  75.1       12.6          10.918861
## 119 125.7       15.9          13.072098
## 126  87.2       10.6          11.278351
## 130  59.6        9.7          10.498587
## 131   0.7        1.6           3.914559
## 132 265.2       12.7          17.777833
## 137  25.6        9.5           8.533227
## 138 273.7       20.8          18.315060
## 139  43.0        9.6           9.865498
## 143 220.5       20.1          17.237995
## 148 243.2       25.4          17.303096
## 158 149.8       10.1          14.569436
## 161 172.5       14.4          15.887925
## 164 163.5       18.0          15.397513
## 167  17.9        8.0           7.545319
## 168 206.8       12.2          17.085158
## 169 215.4       17.1          17.199245
## 172 164.5       14.5          15.454615
## 176 276.9       27.0          18.599064
## 177 248.4       20.2          17.342136
## 185 253.8       17.6          17.418537
## 193  17.2        5.9           7.439201
## 195 149.7       17.3          14.563173
## 196  38.2        7.6           9.592064
## 198 177.0       12.8          16.110347

3.7.5.3 Evaluar predicciones con rmse

rmse Root Mean Stándar Error, este valor normalmente se compara contra otro modelo y el que esté mas cerca de cero es mejor.

RMSE es una forma útil de ver qué tan bien un modelo de regresión puede ajustarse a un conjunto de datos.

\[ rmse = \sqrt{\frac{\sum(predicho_i - real_i)^{2}}{n}} \]

Se obtiene la métrica con la función rmse() de la librería Metrics previamente argada.

rmse.poly5 <- rmse(actual = tabla$Sales.real, predicted = tabla$Sales.predicciones)
rmse.poly5

## [1] 3.262464

El valor de rmse es de: 3.2624641 y habrá que compararse con otro modelo que se haya construido con los mismos datos y las mismas variables, ejemplo modelos de regresión polinomial.

4 Interpretación

Se cambio la semilla como se recomendo, con esto podemos ver que los valores de R Square se logro mantener por encima del 60%, por lo que podemos aceptar el modelo conforme los valores que se nos dieron.

Los tres modelos tienen un R Square por encima del 60% por lo que se acepta el modelo conforme a la métrica establecida como estadístico de medición. Estosignifica que la variable TV explica al menos el 60% a la variable Sales.

Los coeficientes de los tres modelos son diferents de 0 con nivees de confianza en su mayoría por encima del 90%

La tabla siguiente resume cual modelo es más eficiente dado que tiene menor error de variación rmse = Root Mean Stándar Error.

modelos <- c("Lineal Simple", "Polinomial Segundo nivel", "Polinomial Quinto nivel")
rmse <- c(c(rmse.lineal, rmse.poly2, rmse.poly5))
comparativo.rmse <- data.frame(modelos, rmse)

kable(x = comparativo.rmse, caption = "Comparativo con rmse", )

Comparativo con rmse
modelos	rmse
Lineal Simple	3.274451
Polinomial Segundo nivel	3.243765
Polinomial Quinto nivel	3.262464

El modelo más óptimo en cuanto a la métrica de rmse es Polinomial Segundo nivel con un valor de 3.243765 comparado con los otros dos y que significa que las predicciones tienen menor variación o diferencia con respecto a los valores reales.

Algo interesante a notar, es que incluso con ese simple cambio en la semilla, podemos ver como resultan algunas mejores que otras, en nuestro caso con 1271, obtuvimos un valor peor que el obtenido con la semilla 2022, donde el mejor valor de rmse resulto de: 3.092417

Caso Especial Comparar Regresión Lineal Simple VS Regresión Polinomial con datos de Advertising

Luis Alberto Jimenez Soto

2022-09-20

1 Objetivo

2 Descripción

3 Desarrollo

3.1 Cargar librerías

3.2 Cargar datos

3.3 Describir datos

3.3.1 Visualizar la dispersión de los datos

3.4 Construir Datos de entrenamiento y validación

3.4.1 Datos de entrenamiento 70%

3.4.2 Datos de validación 30%

3.5 Modelo de regresión lineal simple

3.5.1 Resumen del modelo

3.5.2 El valor de los coeficientes a y b

3.5.3 Valor de R Square

3.5.4 Predicciones del modelo

3.5.4.1 Estimación lineal

3.5.4.2 Generar tabla comparativa

3.5.4.3 Evaluar predicciones con rmse

3.6 Modelo de regresión polinomial de segundo nivel

3.6.1 Usando argumento Poly

3.6.2 Usando argumento I

3.6.3 Resumen del modelo

3.6.4 El valor de los coeficientes con modelo Poly

3.6.5 Coeficientes con el modelo I

3.6.6 Valor de R Square

3.6.7 Predicciones del modelo

3.6.7.1 Curva de estimación

3.6.7.2 Generar tabla comparativa

3.6.7.3 Evaluar predicciones con rmse

3.7 Modelo de regresión polinomial de quinto nivel

3.7.1 Usando argumento Poly

3.7.2 Resumen del modelo

3.7.3 El valor de los coeficientes con modelo Poly

3.7.4 Valor de R Square

3.7.5 Predicciones del modelo

3.7.5.1 Curva de estimación

3.7.5.2 Generar tabla comparativa

3.7.5.3 Evaluar predicciones con rmse

4 Interpretación