Modelamiento predictivo

CASO: Publicidad

Las empresa continuamente invierten en publicidad para hacer más conocidos sus productos, utilizan diferente s medios de comunciación ya sea oral o escrito. Para estas empresa es importante evaluar el efecto que tienen cuando se compra un espacio en algún medio de comunicación. El conjunto de datos de publicidad consiste en las ventas (miles de unidades) de un producto en particular en 200 mercados diferentes (Empresas), junto con los presupuestos publicitarios del producto (miles de dólares) para un medio de comunicación televisión.

Ingresamos los datos

publicidad<-read.csv("https://raw.githubusercontent.com/VictorGuevaraP/Estadistica-R/master/publicidad_1.csv", sep = ";" , stringsAsFactors = TRUE)

head(publicidad)
##      TV venta
## 1 230.1  22.1
## 2  44.5  10.4
## 3  17.2   9.3
## 4 151.5  18.5
## 5 180.8  12.9
## 6   8.7   7.2

Pasos para construir un modelo de regresión:

Paso 1: Determinar las variables X,Y

  • Variable independiente (X): Inversión en televisión
  • Variable dependiente (y): Venta total de unidades en el periodo (Miles de unidades)

Paso 2: Evaluar la relación entre variables (Correlación) graficamente

Diagrama de dispersión o puntos

# Gráfico con plot
plot(x=publicidad$TV,y=publicidad$venta)

# Gráfico con pairs
pairs(publicidad)

Interpretación: Según los resultados, hay correlación lineal positiva o directa entre la inversión en Tv´s y la Venta.

Coeficiente de correlación

# Mediante la función cor
cor(publicidad) # Matriz de correlaciones
##              TV     venta
## TV    1.0000000 0.7822244
## venta 0.7822244 1.0000000

Coeficiente de correlación:

r = 0.7822244

Interpretación: Existe correlación positiva alta entre la inversión en Tv´s y la Venta.

(Recordar: Si el r en menor que 0.35 para algunos autores, no es viable la regresión, para otros autores se debe probar hipótesis)

Como en este caso el coeficiente de correlación es superior a 0.35, es viable la regresión.

Paso 3: Regresión

Regresión lineal simple

Modelo general $ = b_o + b_1X $

Modelo para el caso: \(\hat{Venta} = b_0 + b_1 Inversión\)

Para obtener el modelo, se va a utilizar una función de R > lm

# lm, notación: Y ~ X, data=
modelo1 <- lm(venta ~ TV, data=publicidad)

# Resumen de resultados
summary(modelo1)
## 
## Call:
## lm(formula = venta ~ TV, data = publicidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.3860 -1.9545 -0.1913  2.0671  7.2124 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 7.032594   0.457843   15.36   <2e-16 ***
## TV          0.047537   0.002691   17.67   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.259 on 198 degrees of freedom
## Multiple R-squared:  0.6119, Adjusted R-squared:  0.6099 
## F-statistic: 312.1 on 1 and 198 DF,  p-value: < 2.2e-16
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 7.032594   0.457843   15.36   <2e-16 ***
## TV          0.047537   0.002691   17.67   <2e-16 ***
## ---
## Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
##
## Residual standard error: 3.259 on 198 degrees of freedom
## Multiple R-squared:  0.6119, Adjusted R-squared:  0.6099 
## F-statistic: 312.1 on 1 and 198 DF,  p-value: < 2.2e-16

Modelo final con los resultados:

Modelo general

$ = 7.032594 + 0.047537 X $

Modelo para el caso:

\(\hat{venta} = 7.032594 + 0.047537 Inversión\)