require(ggplot2)
## Cargando paquete requerido: ggplot2
require(plotly)
## Cargando paquete requerido: plotly
##
## Adjuntando el paquete: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
require(datarium)
## Cargando paquete requerido: datarium
data("marketing")
head(marketing)
## youtube facebook newspaper sales
## 1 276.12 45.36 83.04 26.52
## 2 53.40 47.16 54.12 12.48
## 3 20.64 55.08 83.16 11.16
## 4 181.80 49.56 70.20 22.20
## 5 216.96 12.96 70.08 15.48
## 6 10.44 58.68 90.00 8.64
g1=ggplot(data = marketing,mapping = aes(x=sales))+geom_histogram(fill="blue")+theme_bw()
ggplotly(g1)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Se observa que las ventas promedio del historico de datos son de 16 millones de dólares con una desviación estandar de 6 millones, indicado que las ventas en general varian de manera significativa y suponemos que esas variaciones pueden estar relacionadas con la inversión en mercadeo y por ello el siguiente paso es un análisis exploratorio bivariado:
##Exploración Bivariada - (Relaciones entre ventas con mercadeo)
g2=ggplot(data=marketing,mapping = aes(x=newspaper,y=sales))+geom_point()+theme_bw()+
geom_smooth()
ggplotly(g2)
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
cor(marketing$newspaper,marketing$sales)
## [1] 0.228299
La gráfica muestra una relación no lineal entre la variable independiente y las ventas. Al principio, las ventas bajan levemente, luego suben y finalmente se estabilizan o bajan un poco. Hay mucha dispersión en los datos, lo que indica influencia de otros factores. Además, la incertidumbre aumenta en los extremos del gráfico. Se sugiere usar modelos no lineales para un mejor análisis.
##Exploración Bivariada - (Relaciones entre ventas con mercadeo)
g3=ggplot(data=marketing,mapping = aes(x=facebook,y=sales))+geom_point()+theme_bw()+
geom_smooth()
ggplotly(g3)
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
La gráfica muestra una relación positiva entre la inversión o actividad en Facebook (eje x) y las ventas (eje y). A medida que aumenta el valor en Facebook, las ventas también tienden a subir. La línea morada lo confirma, mostrando una tendencia ascendente. Aunque hay dispersión en los datos, la relación general es clara. La banda gris (intervalo de confianza) es estrecha en la mayoría del rango, lo que indica que el modelo es relativamente confiable. En resumen, más actividad en Facebook se asocia con mayores ventas.
cor(marketing$facebook,marketing$sales)
## [1] 0.5762226
##Exploración Bivariada - (Relaciones entre ventas con mercadeo)
g4=ggplot(data=marketing,mapping = aes(x=youtube,y=sales))+geom_point()+theme_bw()+
geom_smooth(method = "lm")
ggplotly(g4)
## `geom_smooth()` using formula = 'y ~ x'
cor(marketing$youtube,marketing$sales)
## [1] 0.7822244
##Estimación de Modelo de Regresión Lineal Simple
##Estimación del Modelo
##Estimación del Modelo
mod_you=lm(sales~youtube,data=marketing)
mod_you
##
## Call:
## lm(formula = sales ~ youtube, data = marketing)
##
## Coefficients:
## (Intercept) youtube
## 8.43911 0.04754
#sales=8.4391 +(0.04754*youtube)
##Interpretación del summary del modelo
summary(mod_you)
##
## Call:
## lm(formula = sales ~ youtube, data = marketing)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10.0632 -2.3454 -0.2295 2.4805 8.6548
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.439112 0.549412 15.36 <2e-16 ***
## youtube 0.047537 0.002691 17.67 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.91 on 198 degrees of freedom
## Multiple R-squared: 0.6119, Adjusted R-squared: 0.6099
## F-statistic: 312.1 on 1 and 198 DF, p-value: < 2.2e-16
El modelo evalúa el impacto de la inversión en YouTube sobre las ventas. El coeficiente para YouTube es 0.0475, lo que indica que por cada unidad adicional invertida en YouTube, las ventas aumentan en promedio 0.0475 unidades. Este efecto es altamente significativo (p < 2e-16).
El modelo tiene un R² de 0.6119, lo que significa que aproximadamente el 61% de la variabilidad en las ventas se explica por la inversión en YouTube. El error estándar residual es 3.91, lo que indica el promedio del error de predicción.
El intercepto es 8.44, lo cual representa el valor estimado de las ventas cuando la inversión en YouTube es cero.
En resumen, la inversión en YouTube tiene un efecto positivo y estadísticamente significativo sobre las ventas, y el modelo tiene una capacidad explicativa razonablemente fuerte.
##Predecir con el Modelo
#Estimar las ventas para un mes en el cual se invierta en mercadeo en youtube 65 mil dólares.
predict(mod_you,list(youtube=65),interval = "confidence",level = 0.95)
## fit lwr upr
## 1 11.52899 10.72462 12.33337
##validacion cruzada
##Paso 1 - Segmentar los Datos
id_modelar=sample(1:200,size = 160)
marketing_modelar=marketing[id_modelar,]
marketing_validar=marketing[-id_modelar,]
##Paso 2 - Estimar el Modelo Set de Modelar
mod_you_modelar=lm(sales~youtube,data=marketing_modelar)
##Paso 3 - Predeccir Set de Validación
sales_pred=predict(mod_you_modelar,list(youtube=marketing_validar$youtube))
##Paso 4 - Comparar Ventas del Modelo y Reales
sales_real=marketing_validar$sales
error=sales_real-sales_pred
res=data.frame(sales_real,sales_pred,error)
##Paso 5 - Calcular Indicador de Evaluación de la Predicción
MAE=mean(abs(error)) #Mean Absolut Error (Error Medio Absoluto)
MAE
## [1] 3.063256
Se aplicó una validación cruzada para evaluar el modelo de regresión que predice las ventas a partir de la inversión en YouTube. Para ello, se dividieron aleatoriamente los datos en un conjunto de entrenamiento (160 observaciones) y uno de validación (40 observaciones). El modelo se entrenó con los datos de entrenamiento y luego se usó para predecir las ventas en el conjunto de validación. Finalmente, se calculó el Error Medio Absoluto (MAE), obteniendo un valor de 3.45, lo cual indica que, en promedio, el modelo se equivoca en 3.45 unidades al predecir las ventas. Este resultado sugiere que el modelo tiene un nivel de precisión razonable.