Introducción

En este análisis, construiremos un modelo de regresión lineal simple para predecir las ventas en función del dinero gastado en diferentes plataformas de marketing. Utilizaremos el conjunto de datos de publicidad proporcionado en el libro “Introduction to Statistical Learning with Applications in R”.

Pregunta de Investigación

¿Cómo se relaciona la publicidad en TV con las ventas, y qué tan bien podemos predecir las ventas utilizando el gasto en publicidad en TV como variable predictora?

Estadísticas Descriptivas

Lectura y Comprensión de los Datos

##      TV Radio Periodico Ventas
## 1 230.1  37.8      69.2   22.1
## 2  44.5  39.3      45.1   10.4
## 3  17.2  45.9      69.3   12.0
## 4 151.5  41.3      58.5   16.5
## 5 180.8  10.8      58.4   17.9
## 6   8.7  48.9      75.0    7.2

Inspección de Datos

##        TV             Radio          Periodico          Ventas     
##  Min.   :  0.70   Min.   : 0.000   Min.   :  0.30   Min.   : 1.60  
##  1st Qu.: 74.38   1st Qu.: 9.975   1st Qu.: 12.75   1st Qu.:11.00  
##  Median :149.75   Median :22.900   Median : 25.75   Median :16.00  
##  Mean   :147.04   Mean   :23.264   Mean   : 30.55   Mean   :15.13  
##  3rd Qu.:218.82   3rd Qu.:36.525   3rd Qu.: 45.10   3rd Qu.:19.05  
##  Max.   :296.40   Max.   :49.600   Max.   :114.00   Max.   :27.00

Análisis Exploratorio de Datos

Análisis Univariado

Ventas (Variable Objetivo)

Gráfico de Correlación

En las siguientes gráficas se presentan dos tipos de gráficos de correlación, el primero haciendo uso de la funcion ggcorr y el segundo con la función corrplot el cual utiliza el método de pearson o coeficiente de correlación de Pearson.

Histograma de los Residuales

## 
## Call:
## lm(formula = Ventas ~ TV, data = publicidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.4438 -1.4857  0.0218  1.5042  5.6932 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 6.974821   0.322553   21.62   <2e-16 ***
## TV          0.055465   0.001896   29.26   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.296 on 198 degrees of freedom
## Multiple R-squared:  0.8122, Adjusted R-squared:  0.8112 
## F-statistic: 856.2 on 1 and 198 DF,  p-value: < 2.2e-16

Gastos por cada medio

Gráfico de Dispersión con Facetas

Construcción del Modelo

## 
## Call:
## lm(formula = Ventas ~ TV, data = publicidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.4438 -1.4857  0.0218  1.5042  5.6932 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 6.974821   0.322553   21.62   <2e-16 ***
## TV          0.055465   0.001896   29.26   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.296 on 198 degrees of freedom
## Multiple R-squared:  0.8122, Adjusted R-squared:  0.8112 
## F-statistic: 856.2 on 1 and 198 DF,  p-value: < 2.2e-16

Evaluación del Modelo

Análisis de Residuales

Predicciones en el Conjunto de Prueba

##      RMSE        R2
## 1 2.73423 0.8065807

Visualización del Ajuste en el Conjunto de Prueba

Análisis de componentes principales PCA

De las gráficas de la varianza se observa que hasta la componente 2 se recoge un 82.35%.

## [1] 1.4317933 1.1153044 0.8095162 0.2252724
## Standard deviations (1, .., p=4):
## [1] 1.4317933 1.1153044 0.8095162 0.2252724
## 
## Rotation (n x k) = (4 x 4):
##                  PC1        PC2         PC3          PC4
## TV        -0.6085318 -0.4011181  0.16730207 -0.663930277
## Radio     -0.3395897  0.6040707 -0.68455238 -0.226197877
## Periodico -0.2485536  0.6627595  0.70635810  0.005396795
## Ventas    -0.6727474 -0.1869563 -0.06675545  0.712742577

Conclusión

En este análisis, se construyó un modelo de regresión lineal simple para predecir las ventas en función del gasto en publicidad en TV. El modelo mostró un ajuste razonable y las métricas de evaluación indicaron que es capaz de explicar una parte significativa de la variabilidad en las ventas. Sin embargo, se observó que todavía hay variabilidad en las ventas que no está explicada por el gasto en TV, lo que sugiere que otros factores también pueden ser importantes.