En este análisis, construiremos un modelo de regresión lineal simple para predecir las ventas en función del dinero gastado en diferentes plataformas de marketing. Utilizaremos el conjunto de datos de publicidad proporcionado en el libro “Introduction to Statistical Learning with Applications in R”.
¿Cómo se relaciona la publicidad en TV con las ventas, y qué tan bien podemos predecir las ventas utilizando el gasto en publicidad en TV como variable predictora?
Lectura y Comprensión de los Datos
## TV Radio Periodico Ventas
## 1 230.1 37.8 69.2 22.1
## 2 44.5 39.3 45.1 10.4
## 3 17.2 45.9 69.3 12.0
## 4 151.5 41.3 58.5 16.5
## 5 180.8 10.8 58.4 17.9
## 6 8.7 48.9 75.0 7.2
## TV Radio Periodico Ventas
## Min. : 0.70 Min. : 0.000 Min. : 0.30 Min. : 1.60
## 1st Qu.: 74.38 1st Qu.: 9.975 1st Qu.: 12.75 1st Qu.:11.00
## Median :149.75 Median :22.900 Median : 25.75 Median :16.00
## Mean :147.04 Mean :23.264 Mean : 30.55 Mean :15.13
## 3rd Qu.:218.82 3rd Qu.:36.525 3rd Qu.: 45.10 3rd Qu.:19.05
## Max. :296.40 Max. :49.600 Max. :114.00 Max. :27.00
En las siguientes gráficas se presentan dos tipos de gráficos de
correlación, el primero haciendo uso de la funcion ggcorr y el segundo
con la función corrplot el cual utiliza el método de pearson o
coeficiente de correlación de Pearson.
##
## Call:
## lm(formula = Ventas ~ TV, data = publicidad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.4438 -1.4857 0.0218 1.5042 5.6932
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.974821 0.322553 21.62 <2e-16 ***
## TV 0.055465 0.001896 29.26 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.296 on 198 degrees of freedom
## Multiple R-squared: 0.8122, Adjusted R-squared: 0.8112
## F-statistic: 856.2 on 1 and 198 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = Ventas ~ TV, data = publicidad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.4438 -1.4857 0.0218 1.5042 5.6932
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.974821 0.322553 21.62 <2e-16 ***
## TV 0.055465 0.001896 29.26 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.296 on 198 degrees of freedom
## Multiple R-squared: 0.8122, Adjusted R-squared: 0.8112
## F-statistic: 856.2 on 1 and 198 DF, p-value: < 2.2e-16
## RMSE R2
## 1 2.73423 0.8065807
De las gráficas de la varianza se observa que hasta la componente 2 se recoge un 82.35%.
## [1] 1.4317933 1.1153044 0.8095162 0.2252724
## Standard deviations (1, .., p=4):
## [1] 1.4317933 1.1153044 0.8095162 0.2252724
##
## Rotation (n x k) = (4 x 4):
## PC1 PC2 PC3 PC4
## TV -0.6085318 -0.4011181 0.16730207 -0.663930277
## Radio -0.3395897 0.6040707 -0.68455238 -0.226197877
## Periodico -0.2485536 0.6627595 0.70635810 0.005396795
## Ventas -0.6727474 -0.1869563 -0.06675545 0.712742577
En este análisis, se construyó un modelo de regresión lineal simple para predecir las ventas en función del gasto en publicidad en TV. El modelo mostró un ajuste razonable y las métricas de evaluación indicaron que es capaz de explicar una parte significativa de la variabilidad en las ventas. Sin embargo, se observó que todavía hay variabilidad en las ventas que no está explicada por el gasto en TV, lo que sugiere que otros factores también pueden ser importantes.