Exploración de las Ventas

##   promedio desviacion
## 1   16.827   6.260948
g1 <- ggplot(data = marketing, mapping = aes(x=sales))+geom_histogram(fill="darkblue")+theme_bw()
ggplotly(g1)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Nuestra variable de interes son las ventas, estas ventas tienen un promedio de $16 millones de dolares, con una desviación estandar de $6,2 millones de dolares. Lo que nos puede decir que las ventas varian de manera significativa, como lo podemos confirmar en el gráfico. Se puede hacer un supuesto que estas variaciones de dan gracias a los cambios en las temporadas o tambien se puden dar inyecciones de capital.

Análisis Exploratorio Bivariado

g2 <- ggplot(data=marketing, mapping = aes(x=newspaper, y=sales))+geom_point()+theme_bw()+
  geom_smooth()
ggplotly(g2)
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
## [1] 0.228299

Se puede observar que la correlación entre las publicidad en periodicos y las ventas es 0,22 lo cual es una relación muy baja es un ajuste muy malo de datos. Se recomienda cambiar los variables a relacionar

Exploración Bivariada

## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
## [1] 0.5762226

La correlacion entre las ventas y la inversion en publicidad de facebook es positiva, es decir es 0.57. Sin embargo, es una relación que se regular, no se podria considerar buena.

Exploración Bivariada

## `geom_smooth()` using formula = 'y ~ x'
## [1] 0.7822244

La relacion entre las ventas y la publicidad en Youtube es muy alta, llegando a 0.78. Es decir, tiene una fuerte coeficiente de correlación lo que nos puede indicar que existe una gran relevancian en la inversion en Youtube

Estimación de Modelo de Regresión Lineal Simple

## 
## Call:
## lm(formula = sales ~ youtube, data = marketing)
## 
## Coefficients:
## (Intercept)      youtube  
##     8.43911      0.04754

\(Sales = 8.43911 + 0.04754(youtube)\)

El modelo estimado es Ventas =. 8.43911 + 0.04754(YT), en donde \(β_0= 8.43911\) y \(β_1= 0.04754\). Es decir, en promedio las ventas ventas serán 8,34 Mill USD si no hay inversion adicional en Youtube. Mientras que por cada cambio adicional en la ventas se espera un retorno de 0.04 Mill USD en la inversion de Youtube

## 
## Call:
## lm(formula = sales ~ youtube, data = marketing)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -10.0632  -2.3454  -0.2295   2.4805   8.6548 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 8.439112   0.549412   15.36   <2e-16 ***
## youtube     0.047537   0.002691   17.67   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.91 on 198 degrees of freedom
## Multiple R-squared:  0.6119, Adjusted R-squared:  0.6099 
## F-statistic: 312.1 on 1 and 198 DF,  p-value: < 2.2e-16

Se observa en la tabla del summary del modelo que youtube es significativo en el modelo por que el valor p lo indica con un nivel de confianza del 99.9% (***), adicionalmente este modelo logra explicar el 61.19% de la variabilidad de las ventas (en general de las ventas).

Predecir el Modelo

##        fit      lwr      upr
## 1 11.52899 10.72462 12.33337

El promedio esperado de ventas para una eventual inversión en youtube de 65 mil dolares seria de 11.528 millones de dolares. El intervalo de confianza para la predicción de las ventas nos indica que el promedio de ventas estaria entre los 10.72 y 12.33 millones de dolares con un 95% de confianza.

Validación Cruzada

Se hace un conjunto de muestra y entrenamiento, se reparte 80-20

## [1] 3.182985

La validación cruzada en un primer paso, segmentamos los datos dejando 80% para el modelo y 20% aleteatorios para validar. Luego se ajusta el modelo con el 80%. Posteriormente predecimos las ventas del \(20\%\) y finalmente se comparan los resultados del modelo contra los reales por medio de la metrica MAE que en este caso nos da alrededor de \(2,7\) millones de dolares como error de predicción (pronóstico de ventas).