Impacto das progagandas nas vendas

Base de dados

O base de dados é composto por 200 observações com 4 variáveis, sendo elas TV, Rádio, Newspaper e Sales. Desta maneira, desenvolveu-se uma análise exploratória dos dados para melhor entender seus comportamentos, além de uma modelagem postarior com o intuito de explicar a variável Sales em relação às variáveis explicativas TV, Rádio e Newspaper. O objetivo do ajuste é explicar o impacto nas vendas de determinado produto com base no investimento em propagandas de rádio, TV e jornal. Todas as variáveis são medidas em unidades monetárias.

## corrplot 0.84 loaded

Análise exploratória dos dados

Análise das medidas resumo

Dados as análises exploratórias iniciais, percebe-se que a média e a variância das variáveis TV, Rádio e Sales são próximas possibilitando uma menor assimetria quando comparado a variável Newspaper.

##      Sales           Radio              TV            Newspaper     
##  Min.   : 3.60   Min.   : 0.000   Min.   : -1.684   Min.   :  0.30  
##  1st Qu.:12.45   1st Qu.: 9.975   1st Qu.: 91.235   1st Qu.: 12.75  
##  Median :15.48   Median :22.900   Median :135.151   Median : 25.75  
##  Mean   :16.84   Mean   :23.264   Mean   :148.898   Mean   : 30.55  
##  3rd Qu.:20.88   3rd Qu.:36.525   3rd Qu.:197.271   3rd Qu.: 45.10  
##  Max.   :32.40   Max.   :49.600   Max.   :388.053   Max.   :114.00

Variável TV

Para a variável TV, observa-se um histograma com o comportamento constante. No entanto, quando analisado o boxplot percebe-se um comportamento aproximadamente simétrico, além de não serem observados pontos outliers.

Variável Rádio

Para a variável Radio, tem-se um histograma com um comportamento de decréscimode acordo com o aumento dos fatores da variável. No entanto, o comportamento do boxplot possui um direcionamento aproximadamente simétrico e não obtém-se dados outliers.

Variável Newspaper

A variável Newspaper possui um claro comportamento de decréscimo em seu histograma e seu boxplot encontra-se com dois valores outliers. Além disso, observa-se um comportamento característico de assimetria, algo também observado na análise exploratória inicial.

Variável Sales

O histograma da variável Sales propõe uma leve assimetria positiva, com um comportamento próximo ao de uma distribuição Gamma. Já o boxplot evidencia a assimetria analisada, além da não presença de outliers no gráfico.

Análise Multivariada

Gráficos de dispersão entre as variáveis

Pelos gráficos de dispersão mostrados acima, podemos observar uma relação crescente entre as variáveis TV e Sales, Radio e Sales e Newspaper e Sales. Entretanto, a relação entre as variáveis Sales e Newspaper não possui um comportamento linear bem definido.

Correlograma

Podemos observar, de acordo com o correlograma, que as variáveis Sales e TV possuem uma correlação positiva fortíssima e que as variáveis Sales e Radio possuem correlação positiva. Apesar de as variáveis Newspaper e Sales terem correlação positiva, esta estatística é fraca, o que nos sugere que, talvez, ela não seja descritiva o suficiente para a modelagem. Isso será analisado posteriormente.

Ajuste do modelo

Para decidir que tipo de modelo utilizar, fizemos o teste de Shapiro-Wilk para verificar a hipótese de normalidade da variável resposta Sales.

H0: A variável Sales é postulada pela distribuição normal

H1: A variável Sales não é postulada pela distribuição normal

## 
##  Shapiro-Wilk normality test
## 
## data:  Sales
## W = 0.97408, p-value = 0.0009292

O teste de Shapiro-Wilk forneceu o p-valor de 0.0017, o que nos leva a rejeitar a hipótese nula a todos os níveis de significância usuais.

Como a hipótese de normalidade da variável resposta foi rejeitada, ajustaremos um modelo linear generalizado. Escolhemos ajustar um MLG utilizando a distribuição Gamma, pois a referida distribuição é adequada para o ajuste de modelos assimétricos com respostas positivas, pela flexibilidade do ajuste. As funções de ligação comumente utilizadas para este modelo são a identidade, a inversa e a logarítmica.

Outros modelos também são adequados para distribuições assimétricas, como a Normal Invertida e a Skew-Normal, pois
a Normal Invertida é bastante utilizada quando, além de assimetria, também há a presença de muitos outliers. A Skew-Normal possui a vantagem de aceitar valores negativos.

Como a distribuição dos dados é positiva, usaremos a Gamma.

## 
## Call:
## glm(formula = Sales ~ TV + Radio + Newspaper, family = Gamma(link = "identity"))
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.25883  -0.09291  -0.01426   0.05839   0.40677  
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 3.932627   0.248414  15.831   <2e-16 ***
## TV          0.084450   0.001866  45.265   <2e-16 ***
## Radio       0.007164   0.008256   0.868   0.3866    
## Newspaper   0.009860   0.005834   1.690   0.0926 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Gamma family taken to be 0.01447881)
## 
##     Null deviance: 29.6114  on 199  degrees of freedom
## Residual deviance:  2.6934  on 196  degrees of freedom
## AIC: 816.3
## 
## Number of Fisher Scoring iterations: 5

## 
## Call:
## glm(formula = Sales ~ TV + Radio + Newspaper, family = Gamma(link = "inverse"))
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.93759  -0.10353   0.00529   0.11526   0.47771  
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  9.552e-02  2.122e-03  45.004   <2e-16 ***
## TV          -1.875e-04  1.180e-05 -15.880   <2e-16 ***
## Radio       -1.053e-04  8.083e-05  -1.303    0.194    
## Newspaper   -1.349e-05  3.878e-05  -0.348    0.728    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Gamma family taken to be 0.04259975)
## 
##     Null deviance: 29.6114  on 199  degrees of freedom
## Residual deviance:  9.6436  on 196  degrees of freedom
## AIC: 1072.6
## 
## Number of Fisher Scoring iterations: 4

## 
## Call:
## glm(formula = Sales ~ TV + Radio + Newspaper, family = Gamma(link = "log"))
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.69317  -0.10079  -0.00466   0.09662   0.48767  
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2.0555207  0.0286693  71.698   <2e-16 ***
## TV          0.0045983  0.0001836  25.039   <2e-16 ***
## Radio       0.0002978  0.0009974   0.299    0.766    
## Newspaper   0.0005458  0.0005789   0.943    0.347    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Gamma family taken to be 0.02766692)
## 
##     Null deviance: 29.6114  on 199  degrees of freedom
## Residual deviance:  5.7387  on 196  degrees of freedom
## AIC: 968.1
## 
## Number of Fisher Scoring iterations: 5

Foram ajustados três modelos, cada um com uma função de ligação diferente, e em todos a variável “Newspaper” foi não significativa para o ajuste. A variável foi retirada e os modelos reajustados.

## 
## Call:
## glm(formula = Sales ~ TV + Radio, family = Gamma(link = "identity"))
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.26578  -0.08826  -0.01452   0.05968   0.41248  
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 4.077517   0.238108  17.125   <2e-16 ***
## TV          0.084879   0.001866  45.482   <2e-16 ***
## Radio       0.011422   0.008059   1.417    0.158    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Gamma family taken to be 0.01468075)
## 
##     Null deviance: 29.6114  on 199  degrees of freedom
## Residual deviance:  2.7377  on 197  degrees of freedom
## AIC: 817.57
## 
## Number of Fisher Scoring iterations: 4

## 
## Call:
## glm(formula = Sales ~ TV + Radio, family = Gamma(link = "inverse"))
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.94048  -0.10452   0.00427   0.11249   0.46808  
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  9.527e-02  1.998e-03  47.684   <2e-16 ***
## TV          -1.876e-04  1.178e-05 -15.926   <2e-16 ***
## Radio       -1.114e-04  7.874e-05  -1.415    0.159    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Gamma family taken to be 0.04240368)
## 
##     Null deviance: 29.6114  on 199  degrees of freedom
## Residual deviance:  9.6487  on 197  degrees of freedom
## AIC: 1070.7
## 
## Number of Fisher Scoring iterations: 4

## 
## Call:
## glm(formula = Sales ~ TV + Radio, family = Gamma(link = "log"))
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.70674  -0.09827  -0.00589   0.09830   0.47361  
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2.0659210  0.0265881  77.701   <2e-16 ***
## TV          0.0045947  0.0001834  25.056   <2e-16 ***
## Radio       0.0005933  0.0009503   0.624    0.533    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Gamma family taken to be 0.02758592)
## 
##     Null deviance: 29.6114  on 199  degrees of freedom
## Residual deviance:  5.7642  on 197  degrees of freedom
## AIC: 966.99
## 
## Number of Fisher Scoring iterations: 5

Foram ajustados novamente três modelos, cada um com uma função de ligação, e foi verificado que, em todos, as variáveis TV e Radio são significativas à todos os níveis de significância usuais.

Para escolher que modelo utilizar, realizou-se a comparação da deviance dos modelos.

##   Função Ligação         Deviance
## 1     Identidade 2.73767377087343
## 2        Inversa 9.64874337836375
## 3    Logaritmica 5.76422334016951

O modelo escolhido utiliza a função logarítmica como função de ligação, pois apresenta a menor deviance, isto é, dentre os modelos apresentados, possui o melhor ajuste.

Análise dos resíduos

Através do gráfico de dispersão dos resíduos do modelo escolhido, podemos ver que eles aparentam estar distribuídos aleatoriamente. porém existem dois pontos que podem estar influenciando na adequação do modelo. Verificaremos que pontos de influência são esses e se há a necessidade de retirá-los para um melhor ajustamento.

#Verificação de pontos influentes

##           dffit       cook.d
## 1   -1.11112429 2.421388e-01
## 2   -0.62924635 8.089044e-02
## 131  0.01233096 5.503855e-05
## 156 -0.06444875 1.379356e-03

Baseado nas medidas de influência e no gráfico apresentado, foram identificados dois pontos de influência. Retiraremos esses pontos da nossa base e reajustaremos um novo modelo.

## 
## Call:
## glm(formula = Sales ~ TV + Radio, family = Gamma(link = "log"))
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -0.70581  -0.09761  -0.00596   0.09868   0.47369  
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2.0651426  0.0267133  77.308   <2e-16 ***
## TV          0.0046038  0.0001847  24.925   <2e-16 ***
## Radio       0.0005832  0.0009542   0.611    0.542    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for Gamma family taken to be 0.02780515)
## 
##     Null deviance: 29.5230  on 197  degrees of freedom
## Residual deviance:  5.7537  on 195  degrees of freedom
## AIC: 958.01
## 
## Number of Fisher Scoring iterations: 5

As análises realizadas no modelo ajustado com os outliers permanecem as mesmas, isto é, o modelo ajustado pela distribuição Gamma com função de ligação log continua sendo com a menor deviance. Seguiremos, então, com a análise dos resíduos.

Os resíduos apresentam tendência, isto é, são heteroscedásticos. Portanto, o modelo não foi capaz de captar a variabilidade dos dados e, por isso, não é adequado.

Modelo Final Ajustado

\[Y = exp^{1,7999653 + 0,0033484*TV + 0.0125546*Radio}\]