En el siguiente ejemplo, estableceremos una relación entre las ventas y la inversión en marketing de la empresa Facebook. Este análisis se basa en los datos recopilados de la base de datos “Marketing”. Este conjunto de datos contiene información sobre el impacto de tres medios publicitarios (YouTube, Facebook y periódico) en las ventas de la empresa. Los datos incluyen el presupuesto publicitario en miles de dólares, así como las cifras de ventas correspondientes. este experimento publicitario se ha repetido en 200 ocasiones para obtener resultados significativos.

  1. En esta sección, realizamos un análisis descriptivo de los datos de ventas dentro del conjunto de datos “marketing”. Calculamos tanto la media (promedio) como la desviación estándar de estos datos.
# Exploracion de las Ventas 

proemdio <- mean(marketing$sales)
Desviacion <- sd(marketing$sales)

data.frame(proemdio,Desviacion)
proemdio Desviacion
16.827 6.260948
  1. El propósito de este código es crear un histograma interactivo de la variable “sales” del conjunto de datos “marketing”

La creación de un histograma interactivo de la variable “sales” del conjunto de datos “marketing” en estadística descriptiva resulta útil por varias razones. En primer lugar, proporciona una representación visual de la distribución de los datos, lo que facilita la identificación de patrones, valores atípicos y tendencias. Además, permite resumir de manera efectiva la información sobre la centralidad y dispersión de los datos, lo que es fundamental para comprender la estructura de la variable.

gl <- ggplot(data = marketing,mapping = aes(x=sales))+ geom_histogram(fill="green")+ theme_bw()
ggplotly(gl)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
#gl2 <- ggplot(data = marketing,mapping = aes(x=youtube,y=sales))+ geom_point(color="red")+ theme_bw()+geom_smooth()
#ggplotly(gl2)
#gl3 <- ggplot(data = marketing,mapping = aes(x=newspaper,y=sales))+ geom_point(color="grey")+ theme_bw()+geom_smooth()
#ggplotly(gl3)
  1. creamos un gráfico de dispersión con una línea sirve para explorar la relación entre las variables “facebook” y “sales” en el conjunto de datos “marketing” es esencial en análisis de datos y estadística descriptiva. Este enfoque visualiza cómo las observaciones de “facebook” se relacionan con las de “sales”, lo que permite identificar patrones, tendencias y la influencia potencial de la inversión en publicidad en Facebook en las ventas. La línea de tendencia indica la posible dirección de la relación, ya sea positiva, negativa
gl4 <- ggplot(data = marketing,mapping = aes(x=facebook,y=sales))+ geom_point(color="blue")+ theme_bw()+geom_smooth()
ggplotly(gl4)
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
  1. calculamos la correlación entre las variables “facebook” y “sales” proporcionando una medida cuantitativa de la relación lineal entre ellas. Este enfoque se complementa con el gráfico de dispersión y una línea de tendencia entre las mismas variables, lo que ofrece una representación visual de la relación. La correlación cuantifica la fuerza y dirección de esta relación, indicando si aumentos en “facebook” se asocian generalmente con aumentos, disminuciones o una falta de cambios en “sales”.
#cor(marketing$youtube,marketing$sales)
cor(marketing$facebook,marketing$sales)
## [1] 0.5762226
#cor(marketing$newspaper,marketing$sales)
  1. En el análisis del modelo, hemos obtenido los siguientes resultados:

El coeficiente del intercepto (11.17397) representa el valor estimado de “sales” cuando la inversión en publicidad en “facebook” es igual a cero.

El coeficiente de “facebook” (0.20250) indica el cambio estimado en “sales” por cada unidad adicional de inversión en publicidad en “facebook.”

Es importante destacar que ambos coeficientes son significativos. Esto significa que tanto el intercepto como el coeficiente de “facebook” son diferentes de cero y tienen un efecto significativo en “sales.”

El coeficiente de determinación, R-cuadrado (Multiple R-squared), tiene un valor de 0.332. Esto implica que el 33.2% de la variabilidad en las ventas (“sales”) se explica por la inversión en publicidad en “facebook”. En otras palabras, el modelo es capaz de explicar una parte significativa de la variabilidad de las ventas.

Mo1 <- lm(sales~facebook, data = marketing)
summary(Mo1)
## 
## Call:
## lm(formula = sales ~ facebook, data = marketing)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -18.8766  -2.5589   0.9248   3.3330   9.8173 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 11.17397    0.67548  16.542   <2e-16 ***
## facebook     0.20250    0.02041   9.921   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.13 on 198 degrees of freedom
## Multiple R-squared:  0.332,  Adjusted R-squared:  0.3287 
## F-statistic: 98.42 on 1 and 198 DF,  p-value: < 2.2e-16
Mo2 <- lm(sales~youtube, data = marketing)
# encuntra las ventas promedio es 12.45
Mo3 <- lm(sales~newspaper, data = marketing)
  1. Si se realiza una inversión de 65 mil dólares en publicidad en YouTube, se espera que el promedio de ventas sea de aproximadamente 24.33 millones de dólares. El intervalo de confianza para esta predicción de ventas nos proporciona una estimación más precisa, indicando que con un 95% de confianza, el promedio de ventas estará en un rango que oscila entre 22.68 y 25.99 millones de dólares.
predict(Mo1,list(facebook=65),interval = "confidence",level = 0.95)
##        fit      lwr     upr
## 1 24.33619 22.68098 25.9914
#predict(Mo2,list(youtube=65),interval = "confidence",level = 0.95)
#predict(Mo3,list(newspaper=65),interval = "confidence",level = 0.95)
  1. Este código realiza un proceso de validación cruzada para evaluar la capacidad predictiva de un modelo de regresión lineal. En el primer paso, se selecciona aleatoriamente el 80% de los datos como conjunto de entrenamiento (modelar) y el 20% restante como conjunto de validación. Luego, se ajusta un modelo de regresión lineal utilizando el conjunto de entrenamiento, donde se intenta predecir las ventas en función de la inversión en publicidad en facebook. En el tercer paso, se utilizan los datos del conjunto de validación para hacer predicciones de ventas con el modelo previamente ajustado. En el cuarto paso, se comparan las predicciones del modelo con las ventas reales en el conjunto de validación, calculando el error absoluto para cada predicción. Finalmente, en el quinto paso, se calcula el Error Medio Absoluto (MAE) como una métrica de evaluación del modelo, que en este caso arroja un valor aproximado de 4.248696 millones de dólares, lo que representa el error promedio en las predicciones de ventas. Este MAE se utiliza para medir la precisión del modelo en la predicción de las ventas.
id_modelar=sample(1:200,size = 160)
marketing_modelar=marketing[id_modelar,]
marketing_validar=marketing[-id_modelar,]

##Paso 2 - Estimar el Modelo Set de Modelar
mod_you_modelar=lm(sales~facebook,data=marketing_modelar)

##Paso 3 - Predeccir Set de Validación
sales_pred=predict(mod_you_modelar,list(facebook=marketing_validar$facebook))

##Paso 4 - Comparar Ventas del Modelo y Reales
sales_real=marketing_validar$sales
error=sales_real-sales_pred
res=data.frame(sales_real,sales_pred,error)

##Paso 5 - Calcular Indicador de Evaluación de la Predicción
MAE=mean(abs(error)) #Mean Absolut Error (Error Medio Absoluto)
MAE
## [1] 3.926367