Impacto das progagandas nas vendas
Base de dados
O base de dados é composto por 200 observações com 4 variáveis, sendo elas TV, Rádio, Newspaper e Sales. Desta maneira, desenvolveu-se uma análise exploratória dos dados para melhor entender seus comportamentos, além de uma modelagem postarior com o intuito de explicar a variável Sales em relação às variáveis explicativas TV, Rádio e Newspaper. O objetivo do ajuste é explicar o impacto nas vendas de determinado produto com base no investimento em propagandas de rádio, TV e jornal. Todas as variáveis são medidas em unidades monetárias.
## corrplot 0.84 loaded
Análise exploratória dos dados
Análise das medidas resumo
Dados as análises exploratórias iniciais, percebe-se que a média e a variância das variáveis TV, Rádio e Sales são próximas possibilitando uma menor assimetria quando comparado a variável Newspaper.
## Sales Radio TV Newspaper
## Min. : 3.60 Min. : 0.000 Min. : -1.684 Min. : 0.30
## 1st Qu.:12.45 1st Qu.: 9.975 1st Qu.: 91.235 1st Qu.: 12.75
## Median :15.48 Median :22.900 Median :135.151 Median : 25.75
## Mean :16.84 Mean :23.264 Mean :148.898 Mean : 30.55
## 3rd Qu.:20.88 3rd Qu.:36.525 3rd Qu.:197.271 3rd Qu.: 45.10
## Max. :32.40 Max. :49.600 Max. :388.053 Max. :114.00
Variável TV
Para a variável TV, observa-se um histograma com o comportamento constante. No entanto, quando analisado o boxplot percebe-se um comportamento aproximadamente simétrico, além de não serem observados pontos outliers.
Variável Rádio
Para a variável Radio, tem-se um histograma com um comportamento de decréscimode acordo com o aumento dos fatores da variável. No entanto, o comportamento do boxplot possui um direcionamento aproximadamente simétrico e não obtém-se dados outliers.
Variável Newspaper
A variável Newspaper possui um claro comportamento de decréscimo em seu histograma e seu boxplot encontra-se com dois valores outliers. Além disso, observa-se um comportamento característico de assimetria, algo também observado na análise exploratória inicial.
Variável Sales
O histograma da variável Sales propõe uma leve assimetria positiva, com um comportamento próximo ao de uma distribuição Gamma. Já o boxplot evidencia a assimetria analisada, além da não presença de outliers no gráfico.
Análise Multivariada
Gráficos de dispersão entre as variáveis
Pelos gráficos de dispersão mostrados acima, podemos observar uma relação crescente entre as variáveis TV e Sales, Radio e Sales e Newspaper e Sales. Entretanto, a relação entre as variáveis Sales e Newspaper não possui um comportamento linear bem definido.
Correlograma
Podemos observar, de acordo com o correlograma, que as variáveis Sales e TV possuem uma correlação positiva fortíssima e que as variáveis Sales e Radio possuem correlação positiva. Apesar de as variáveis Newspaper e Sales terem correlação positiva, esta estatística é fraca, o que nos sugere que, talvez, ela não seja descritiva o suficiente para a modelagem. Isso será analisado posteriormente.
Ajuste do modelo
Para decidir que tipo de modelo utilizar, fizemos o teste de Shapiro-Wilk para verificar a hipótese de normalidade da variável resposta Sales.
H0: A variável Sales é postulada pela distribuição normal
H1: A variável Sales não é postulada pela distribuição normal
##
## Shapiro-Wilk normality test
##
## data: Sales
## W = 0.97408, p-value = 0.0009292
O teste de Shapiro-Wilk forneceu o p-valor de 0.0017, o que nos leva a rejeitar a hipótese nula a todos os níveis de significância usuais.
Como a hipótese de normalidade da variável resposta foi rejeitada, ajustaremos um modelo linear generalizado. Escolhemos ajustar um MLG utilizando a distribuição Gamma, pois a referida distribuição é adequada para o ajuste de modelos assimétricos com respostas positivas, pela flexibilidade do ajuste. As funções de ligação comumente utilizadas para este modelo são a identidade, a inversa e a logarítmica.
Outros modelos também são adequados para distribuições assimétricas, como a Normal Invertida e a Skew-Normal, pois
a Normal Invertida é bastante utilizada quando, além de assimetria, também há a presença de muitos outliers. A Skew-Normal possui a vantagem de aceitar valores negativos.
Como a distribuição dos dados é positiva, usaremos a Gamma.
##
## Call:
## glm(formula = Sales ~ TV + Radio + Newspaper, family = Gamma(link = "identity"))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.25883 -0.09291 -0.01426 0.05839 0.40677
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.932627 0.248414 15.831 <2e-16 ***
## TV 0.084450 0.001866 45.265 <2e-16 ***
## Radio 0.007164 0.008256 0.868 0.3866
## Newspaper 0.009860 0.005834 1.690 0.0926 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for Gamma family taken to be 0.01447881)
##
## Null deviance: 29.6114 on 199 degrees of freedom
## Residual deviance: 2.6934 on 196 degrees of freedom
## AIC: 816.3
##
## Number of Fisher Scoring iterations: 5
##
## Call:
## glm(formula = Sales ~ TV + Radio + Newspaper, family = Gamma(link = "inverse"))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.93759 -0.10353 0.00529 0.11526 0.47771
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.552e-02 2.122e-03 45.004 <2e-16 ***
## TV -1.875e-04 1.180e-05 -15.880 <2e-16 ***
## Radio -1.053e-04 8.083e-05 -1.303 0.194
## Newspaper -1.349e-05 3.878e-05 -0.348 0.728
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for Gamma family taken to be 0.04259975)
##
## Null deviance: 29.6114 on 199 degrees of freedom
## Residual deviance: 9.6436 on 196 degrees of freedom
## AIC: 1072.6
##
## Number of Fisher Scoring iterations: 4
##
## Call:
## glm(formula = Sales ~ TV + Radio + Newspaper, family = Gamma(link = "log"))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.69317 -0.10079 -0.00466 0.09662 0.48767
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.0555207 0.0286693 71.698 <2e-16 ***
## TV 0.0045983 0.0001836 25.039 <2e-16 ***
## Radio 0.0002978 0.0009974 0.299 0.766
## Newspaper 0.0005458 0.0005789 0.943 0.347
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for Gamma family taken to be 0.02766692)
##
## Null deviance: 29.6114 on 199 degrees of freedom
## Residual deviance: 5.7387 on 196 degrees of freedom
## AIC: 968.1
##
## Number of Fisher Scoring iterations: 5
Foram ajustados três modelos, cada um com uma função de ligação diferente, e em todos a variável “Newspaper” foi não significativa para o ajuste. A variável foi retirada e os modelos reajustados.
##
## Call:
## glm(formula = Sales ~ TV + Radio, family = Gamma(link = "identity"))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.26578 -0.08826 -0.01452 0.05968 0.41248
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.077517 0.238108 17.125 <2e-16 ***
## TV 0.084879 0.001866 45.482 <2e-16 ***
## Radio 0.011422 0.008059 1.417 0.158
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for Gamma family taken to be 0.01468075)
##
## Null deviance: 29.6114 on 199 degrees of freedom
## Residual deviance: 2.7377 on 197 degrees of freedom
## AIC: 817.57
##
## Number of Fisher Scoring iterations: 4
##
## Call:
## glm(formula = Sales ~ TV + Radio, family = Gamma(link = "inverse"))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.94048 -0.10452 0.00427 0.11249 0.46808
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.527e-02 1.998e-03 47.684 <2e-16 ***
## TV -1.876e-04 1.178e-05 -15.926 <2e-16 ***
## Radio -1.114e-04 7.874e-05 -1.415 0.159
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for Gamma family taken to be 0.04240368)
##
## Null deviance: 29.6114 on 199 degrees of freedom
## Residual deviance: 9.6487 on 197 degrees of freedom
## AIC: 1070.7
##
## Number of Fisher Scoring iterations: 4
##
## Call:
## glm(formula = Sales ~ TV + Radio, family = Gamma(link = "log"))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.70674 -0.09827 -0.00589 0.09830 0.47361
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.0659210 0.0265881 77.701 <2e-16 ***
## TV 0.0045947 0.0001834 25.056 <2e-16 ***
## Radio 0.0005933 0.0009503 0.624 0.533
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for Gamma family taken to be 0.02758592)
##
## Null deviance: 29.6114 on 199 degrees of freedom
## Residual deviance: 5.7642 on 197 degrees of freedom
## AIC: 966.99
##
## Number of Fisher Scoring iterations: 5
Foram ajustados novamente três modelos, cada um com uma função de ligação, e foi verificado que, em todos, as variáveis TV e Radio são significativas à todos os níveis de significância usuais.
Para escolher que modelo utilizar, realizou-se a comparação da deviance dos modelos.
## Função Ligação Deviance
## 1 Identidade 2.73767377087343
## 2 Inversa 9.64874337836375
## 3 Logaritmica 5.76422334016951
O modelo escolhido utiliza a função logarítmica como função de ligação, pois apresenta a menor deviance, isto é, dentre os modelos apresentados, possui o melhor ajuste.
Análise dos resíduos
Através do gráfico de dispersão dos resíduos do modelo escolhido, podemos ver que eles aparentam estar distribuídos aleatoriamente. porém existem dois pontos que podem estar influenciando na adequação do modelo. Verificaremos que pontos de influência são esses e se há a necessidade de retirá-los para um melhor ajustamento.
#Verificação de pontos influentes
## dffit cook.d
## 1 -1.11112429 2.421388e-01
## 2 -0.62924635 8.089044e-02
## 131 0.01233096 5.503855e-05
## 156 -0.06444875 1.379356e-03
Baseado nas medidas de influência e no gráfico apresentado, foram identificados dois pontos de influência. Retiraremos esses pontos da nossa base e reajustaremos um novo modelo.
##
## Call:
## glm(formula = Sales ~ TV + Radio, family = Gamma(link = "log"))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.70581 -0.09761 -0.00596 0.09868 0.47369
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.0651426 0.0267133 77.308 <2e-16 ***
## TV 0.0046038 0.0001847 24.925 <2e-16 ***
## Radio 0.0005832 0.0009542 0.611 0.542
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for Gamma family taken to be 0.02780515)
##
## Null deviance: 29.5230 on 197 degrees of freedom
## Residual deviance: 5.7537 on 195 degrees of freedom
## AIC: 958.01
##
## Number of Fisher Scoring iterations: 5
As análises realizadas no modelo ajustado com os outliers permanecem as mesmas, isto é, o modelo ajustado pela distribuição Gamma com função de ligação log continua sendo com a menor deviance. Seguiremos, então, com a análise dos resíduos.
Os resíduos apresentam tendência, isto é, são heteroscedásticos. Portanto, o modelo não foi capaz de captar a variabilidade dos dados e, por isso, não é adequado.
Modelo Final Ajustado
\[Y = exp^{1,7999653 + 0,0033484*TV + 0.0125546*Radio}\]