A base de dados
Importando
rm(list=ls())
base <- read.csv("C:/Users/raphael.fernandez/Downloads/Advertising.csv")
base$X = NULL
kable(head(base)) %>%
kable() %>%
kable_styling()
Error in as.data.frame.default(x) :
cannot coerce class ‘"knitr_kable"’ to a data.frame
Avaliando as variáveis
Como não há informações a priori no quis respeito a natureza das variáveis, faz-se necessária a investigação de algumas características das mesmas.
str(base)
'data.frame': 200 obs. of 4 variables:
$ TV : num 230.1 44.5 17.2 151.5 180.8 ...
$ radio : num 37.8 39.3 45.9 41.3 10.8 48.9 32.8 19.6 2.1 2.6 ...
$ newspaper: num 69.2 45.1 69.3 58.5 58.4 75 23.5 11.6 1 21.2 ...
$ sales : num 22.1 10.4 9.3 18.5 12.9 7.2 11.8 13.2 4.8 10.6 ...
Verifica-se que todas as variáveis são contínuas e não há evidências empíricas que apontem a presença de observações não-positivas
Visualizacão gráfica
par(mfrow=c(2,2))
plot(density(base$TV),main="Densidade da TV")
plot(density(base$radio),main="Densidade da radio")
plot(density(base$newspaper),main="Densidade do Jornal")
plot(density(base$sales),main="Densidade das Vendas")

A densidade da Televisão e do Rádio apontam para uma mistura de distribuições, mas como é considerado anti ético a observação do conjunto dos dados antes da modelagem a priori, iremos apenas nos ater a variável resposta, que demonstra comportamento assimétrico, com decaimento rápido, comportamento comumente observado em um distribuições da família Gama.
Não-normalidade
jarque.bera.test(base$sales)
Jarque Bera Test
data: base$sales
X-squared = 6.9848, df = 2, p-value = 0.03043
hist(base$sales,main="Histograma das Vendas")

qqnorm(base$sales)
qqline(base$sales)

Embora seja possível afrouxar a condição de normalidade, em termos visuais, o teste Jarque Bera elimina qualquer hipótese da mesma, ao nível de 0,05.
Modelo proposto
O modelo ajustado será um Modelo Linear Generalizado através da abordagem bayesiana, com a seguinte equação \(Y_i = \beta_0+\beta_1x_i+\beta_2x_i+\beta_3x_i + e_i\)
Verossimilhança
Posto que a distribuição da variável resposta não pode ser assumida como normal, o conceito de subjetividade da filosofia Bayesiana nos permite atribuir uma distribuição para verossimilhança \(Y|\phi, \beta_0,\beta_1,\beta_2, \sigma^2\), onde todos os parâmetros mencionados são desconhecidos.
Logo, será assumida para a mesma uma distribuição Gamma reparametrizada, com parâmetro de escala \(\phi\) e parâmetro de dispersão \(\cfrac{\phi}{\mu}\)
De modo que \(\mu = e^{\beta_0+\beta_1x_i+\beta_2x_i+\beta_3x_i}\), isto é, o preditor linear de uma regressão linear gama usual supondo a inclusão na família exponencial para garantia das propriedades de converg?ncia.
Prioris hierárquicas
Em inferência bayesiana, quantidades desconhecidas são atribuídas com distribuição, chamadas de priori.
Para os casos estudados:
\(\phi \sim Gamma(1;0,1)\)
\(\beta_0 \sim Gamma(1;0,1)\)
\(\beta_1 \sim Gamma(1;0,1)\)
\(\beta_2 \sim Gamma(1;0,1)\)
\(\beta_3 \sim Gamma(1;0,1)\)
\(\sigma^2 \sim Gamma(1;0,1)\)
Atribui-se os seguintes parâmetros de forma a obter-se média 10 e variância 100, garantindo o que é chamado de priori não informativa, utilizada quando não há informação sob a base trabalhada, o que é o caso.
Markov Chain Monte Carlo
Segue do Teorema de Bayes que
\(\pi(\theta|x) = \cfrac{\pi(x|\theta)\pi(\theta)}{\pi(x)}\)
\(\propto\)
\(\pi(x|\theta)\pi(\theta)\)
Onde
\(\pi(\theta|x)\) é um vetor paramétrico da distribuição a posteriori, desconhecida
\(\pi(x|\theta)\) é a verossimilhaça dos dados, observado
\(\pi(x)\) é um vetor paramétrico de distribuições a priori
Em geral, não é possível a obtenção direta da distribuição a posteriori, que é o grande interesse. Para estas situações, a metodologia de Markov Chain Monte Carlo oferece uma convergência garantida via simulaçao por processos estocásticos.
Simulação da Distribuição a Posteriori
Utilizaremos o pacote R2WinBugs para efeito de c?lculo
y=base$sales
x1=base$newspaper
#Modelo do tipo BUGS
sink("mod1.txt")
cat("
MODEL LR1 {
#Verossimilhan?a
for(i in 1:N) {
y[i] ~ dgamma(mu[i],tau)
mu[i] <- beta0 + beta1*x1[i]
}
#Proris
beta0 ~ dgamma(1,0.1)
beta1 ~ dgamma(1,0.1)
tau ~ dgamma(1,0.1)
#Transforma??o para vari?ncia
sigma2 <- 1/tau
} ", fill = TRUE)
sink()
#Obeservação: A dist normal no bugs está definida para a precisão.
#Tamanho amostral
N = length(y)
#Conjunto de dados observados
data = list("N","y","x1")
#Parâmetros estudados
params = c("beta0", "beta1","tau","sigma2")
#Valores iniciais
inits <- function () {list(beta0 = rnorm(1),
beta1 = rnorm(1),
tau = 1)
sigma2 = 1}
#Modelo final
result <- bugs(data = data, inits = inits, parameters.to.save = params,
model.file = "mod1.txt", n.chains = 3, n.iter = 10000,
n.burnin = 1000, n.thin=9, bugs.directory = "C:/WinBUGS14",
debug = TRUE, save.history = TRUE, DIC = FALSE)
Foram excluídas da análise as covariáveis onde acreditase, antecipadamente, que estas sejam composições, isto é, soma de outras variáveis. São estas: Radio e TV. Permaneceu no modelo apenas o Jornal como priori, por apresentar um comportamento cujo um modelo mais simples, como o aqui apresentado, é mais adequado.
Todas as atribuições aqui definidas foram retiradas de Gelman et al. 2004
Modelo final
Sumário da distribuição a posteriori
result$summary %>%
kable() %>%
kable_styling()
| |
mean |
sd |
2.5% |
25% |
50% |
75% |
97.5% |
Rhat |
n.eff |
| beta0 |
6.2581520 |
0.6621779 |
5.015625 |
5.7970000 |
6.243000 |
6.683000 |
7.6200500 |
1.004490 |
500 |
| beta1 |
0.0278669 |
0.0089434 |
0.010609 |
0.0219275 |
0.027775 |
0.033960 |
0.0455605 |
1.000811 |
3000 |
| tau |
0.5070021 |
0.0507519 |
0.412195 |
0.4731750 |
0.505950 |
0.539025 |
0.6136000 |
1.004720 |
510 |
| sigma2 |
1.9924600 |
0.2029242 |
1.630000 |
1.8550000 |
1.976500 |
2.113250 |
2.4260250 |
1.004718 |
510 |
Convergência das cadeias
bugs = result$sims.list
bugs_b0 = bugs$beta0
bugs_b1 = bugs$beta1
bugs_phi = bugs$tau
plot(bugs_b0,type = "l",main=expression(beta[0]),ylab="",
xlab="",cex.main=2)

plot(bugs_b1,type = "l",main=expression(beta[1]),ylab="",
xlab="",cex.main=2)

plot(bugs_phi,type = "l",main=expression(phi),ylab="",
xlab="",cex.main=2)

Verifca-se uma boa convergência, embora usualmente seja feito critérios, aqui não o será. Apenas critérios visuais.
Densidade das distribuições a posteriori
densplot(as.mcmc(bugs_b0),main=expression(beta[0]),xlab="",ylab="",cex.main=2)

densplot(as.mcmc(bugs_b1),main=expression(beta[1]),xlab="",ylab="",cex.main=2)

densplot(as.mcmc(bugs_phi),main=expression(phi),xlab="",ylab="",cex.main=2)

O comportamento “normal” das posterioris simuladas é esperado. Com as prioris impostas, o resultado analático esperado é de uma distribuição Gama para os parâmetros, maginalmente.
Equação do modelo
Na abordagem bayesiana, considera-se alguma função perda para atribuir a estimação de parâmetros. Aqui, foi utilizado a média, isto é, a perda quadrática.
\(Yi = 6,25 + 0,03Xi\)
Interpretação do modelo
Como a função de ligação é a exponencial, um acréscimo de 1 em TV, significa um acréscimo de \(e^{6,25 + 0,03}\) nas vendas
