(abrir em uma nova janela do navegador)
contato por email: profaliaufmt@gmail.com ou através do AVA UFMT
Material didático Estatística Bayesiana prof. Ricardo Ehlers ;
Material didático Inferência Estatística prof. Ricardo Ehlers ;
Atividades síncronas no google meet (dia & horários no Guia de Estudos)
Exemplo de resolução de exercício com fórmulas no R Markdown:
Exemplo de relatório - para iniciar os trabalhos em R markdown:
Diário de bordo dos encontros síncronos (contém a descrição detalhada de cada aula síncrona): verificar no fórum do AVA (somente alunos da disciplina podem acessar)
Grupo de Whats App link de convite no AVA
## Loading required package: captioner
## Loading required package: DT
Os métodos Bayesianos têm aplicação em muitas áreas como epidemiologia, bioestatística, engenharia, ciência da computação, entre outros.
Definição 1.1: Partição de um Espaço Amostral Dizemos que os eventos \(A_1,A_2,\ldots,A_n\) formam uma partição do espaço amostral \(\Omega\) se as seguintes propriedades são satisfeitas:
Figura 1: Representação Gráfica de partição de um espaço amostral
Definição 1.2: Classe de eventos do espaço amostral A classe de eventos do espaço amostral \(\Omega\), também chamada de classe de subconjuntos do espaço amostral \(\Omega\), ou Conjunto das partes de \(\Omega\), é o conjunto que contém todos os subconjuntos de \(\Omega\) e é representado por \(\mathcal{P}(\Omega)\).
Conceito de probabilidade A probabilidade é definida numa classe de eventos do espaço amostral, com certas propriedades.
Definição 1.3: Probabilidade é uma função \(P(.)\) que associa a cada evento de \(\mathcal{P}(\Omega)\) (ou subconjunto de \(\Omega\)) um número real pertencente ao intervalo \([0,1]\), satisfazendo aos Axiomas de Kolmogorov
significa que a probabilidade da união de dois ou mais eventos é igual à soma de suas respectivas probabilidades, se os eventos forem mutuamente exclusivos aos pares.
Teorema 1.4: Se os eventos \(A_1, A_2, \ldots, A_n\) formam uma partição do espaço amostral, então: \[ \sum_{i=1}^n P(A_{i})=1. \]
Demonstração: A demonstração vem da definição de partição e dos Axiomas 2 e 3 de Kolmogorov.
Definição 1.5: Probabilidade condicional A probabilidade condicional de \(B\) dado \(A\) é dada pela fórmula: \[ P(B|A) = \frac{P(A \cap B)}{P(A)}, \] sendo que \(P(A)\) deve ser maior do que zero.
Teorema 1.6: Teorema do produto \[ P(A \cap B) = P(A) P(B|A) \text{ e também } P(A \cap B) = P(B) P(A|B). \]
Demonstração: A demonstração vem da definição de probabilidade condicional.
Proposição 1.7: Generalização do Teorema do Produto Sejam \(A_1\), \(A_2\),\(\ldots\), \(A_{n-1}\), \(A_n\) eventos do espaço amostral \(\Omega\), onde está definida a probabilidade \(P\), temos: \[ P(A_1\cap A_2 \ldots \cap A_{n-1}\cap A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1\cap A_2)P(A_n|A1\cap A2 \ldots A_{n-1}). \] Demonstração: A demonstração é através do Princípio da Indução Finita.
Teorema 1.8: Teorema da Probabilidade Total (ou Fórmula da Probabilidade Total): Sejam \(A_1,A_2,\ldots,A_n\) eventos que formam uma partição do espaço amostral. Seja \(B\) um evento deste espaço. \[ P(B) = \sum_{i=1}^n P(A_i)P(B|A_i), \] onde \(A_1, A_2, \ldots A_n\) formam uma partição no espaço amostral.
A fórmula da Probabilidade Total permite calcular a probabilidade de um evento \(B\) a partir das probabilidades de um conjunto de eventos disjuntos cuja reunião é o espaço amostral; e as probabilidades condicionais de \(B\) dado cada um destes eventos são fornecidas.
Demonstração - Passo 1: Como \(A_1, \ldots, A_n\) formam uma partição, então podemos escrever \(B\) da seguinte forma: \[ B = (B \cap A_1) \cup (B \cap A_2) \cup (B \cap A_3) \cup \ldots \cup (B \cap A_n). \]
Figura 2: Representação gráfica do teorema da probabilidade total
Teorema 1.9: Teorema de Bayes (ou fórmula de Bayes):
\[ P(A|B)=\frac{P(B|A)P(A)}{P(B)}. \] Demonstração: A demonstração vem da Definição de probabilidade condicional, Teorema do Produto e Teorema da Probabilidade Total.
Teorema de Bayes - Caso geral \[ P(A_i|B)=\frac{P(A_i)P(B|A_i)}{\sum_{i=1}^n P(A_i)P(B|A_i)}, \] onde \(A_1,A_2,\ldots A_n\) formam uma partição no espaço amostral
Exemplo 1: Exames de diagnóstico não são infalíveis, mas deseja-se que tenha probabilidade pequena de erro. Um exame detecta uma certa doença, caso ela exista, com probabilidade 0,9. Se a doença não existir, o exame corretamente aponta isso com probabilidade 0,8. Considere que estamos aplicando esses exames em uma população com \(10\%\) de prevalência dessa doença. Para um indivíduo escolhido ao acaso, pergunta-se:
Resolução:
Figura 3: Diagrama da árvore
Passo I: Calcular a probabilidade Total - que vai no denominador da probabilidade que queremos:
\[ \begin{array}{lll} P(B)&=&P(B|A) \times P(A)+P(B|A^c) \times P(A^c)\\ &=&0,9 \times 0,1+0,2 \times 0,9 \\ &=&0,27 \end{array} \]
Passo II: Calcular a probabilidade condicional \[ \begin{array}{lll} P(A|B)&=& \frac{P(A \cap B)}{P(B)}\\ &=& \frac{P(B| A) \times P(A)}{P(B)} \text{ , o numerador vem da fórmula do produto} \\ &=& \frac{0,9 \times 0,1}{0,27} = \approx 0,33 = 33\% \end{array} \] - item b) esta probabilidade é dada pela soma: P(+ e o indivíduo ser doente ) + P(- e o indivíduo não ser doente): \[ \begin{array}{lll} P(A \cap B) + P(A^c \cap B^c) &=& P(B|A) \times P(A) + P( B^c|A^c) \times P(A^c) \text{ pela fórmula do produto} \\ &=& 0,9 \times 0,1 + 0,8 \times 0,9 = 0,81 = 81 \% \end{array} \]
Ajuda: sensibilidade do teste: é a probabilidade do teste dar resultado positivo para um indivíduo que tem a doença, especificidade do teste: é a probabilidade do teste dar resultado negativo para um indivíduo que não tem doença, prevalência: é a proporção de pessoas com a doença em certa população de interesse. Em testes diagnósticos, temos interesse em encontrar o teste que possui os maiores valores de sensibilidade e especificidade.
Nosso principal objetivo é utilizar a distribuição a posteriori para a nossa tomada de decisões. Pelo Teorema de Bayes, temos:
Observações:
Dicas para o item \(b)\) \[P(Y=y)=?\] Qual é a distribuição de Y (os dados)? \(f(p)=\)? Qual é a distribuição a priori para o parâmetro \(p\)? \(f(p|\boldsymbol{y})=\) ? Qual é a distribuição de \(p\) condicionada aos dados?
## [1] 3 2 0 1 4 4 3 0 3 3
Você vai precisar de
\[ p \vert \boldsymbol{y} \sim \text{Beta}(a+y,b+n-y), \text{ ou seja}\\ f(p \vert \boldsymbol{y})= \frac{1}{B(a+y,b+n-y)}\times p^{a+y-1} \times (1-p)^{b+n-y-1} \times I_{(0,1)}(p) \] - c) média a posteriori - Olhar no apêndice do Mood a fórmula da média: \[ \text{E}(p \vert \boldsymbol{y})= \frac{a+y}{(a+y)+(b+n-y)}\\ =\frac{a+y}{a+b+n} \] - Aplicação com números: Em 16 ensaios de Bernoulli, foram obtidos 7 sucessos. Considere uma priori Beta de parâmetros \(a=0,5\) e \(b=0,5\).
n=16
y=7
logL=function(p){
L=dbinom(y,size=n,prob=p)
log(L)
}
optimize(logL, interval=c(0.01,0.99), maximum=TRUE) #encontra o ponto de máximo
## $maximum
## [1] 0.4374995
##
## $objective
## [1] -1.620156
## [1] "emv= 0.4375"
a=0.5
b=0.5
p=seq(0.01,0.99,0.01)
pri=dbeta(p,shape1=a,shape2=b)
#Aproxima a verossimilhança para o formato de uma densidade (com soma igual a 1, apenas para fins ilustrativos de construção de gráfico)
intervalos=0.01
vero=dbinom(y,size=n,prob=p)
vero_normalizado=vero/sum(vero*intervalos)
pos=dbeta(p,shape1=a+y,shape2=b+n-y)
plot(p,pri,type='l',xlab=expression(p),ylab=expression(f(p)),ylim=c(0,4))
lines(p,vero_normalizado,type='l',col=2)
lines(p,pos,type='l',col=3)
legend("topright",c(expression("priori "*f(p)),expression("verossimilhança "*L(p*"|"*bold(y))),expression("posteriori "*f(p*"|"*bold(y)))),col=c(1,2,3),bty = "n",lty=c(1,1,1))
Você vai precisar de
Aplicando nos dados: \(\hat{\lambda}=2.3\), pois
## [1] 2.3
n=length(x)
logL=function(lambda){
L=exp(-n*lambda)*lambda^(sum(x))/prod(factorial(x))
log(L)
}
optimize(logL, interval=c(0.01,10), maximum=TRUE) #encontra o ponto de máximo
## $maximum
## [1] 2.300012
##
## $objective
## [1] -18.05938
lambda=seq(0.1,5,0.1) #só assume valores positivos
temp <- data.frame(lambda=lambda, logL = logL(lambda))
datatable(temp)
## [1] "somatório de x= 23"
\[ \lambda \vert \boldsymbol{y} \sim \text{Gamma}(a+n,r+\sum_{i=1}^n x_i), \text{ ou seja, }\\ \text{Como } a=r=\frac{1}{5}, n=10, \text{ e }\sum_{i=1}^n x_i=23\\ \lambda \vert \boldsymbol{y} \sim \text{Gamma}\left(\frac{51}{5},\frac{116}{5}\right) \] - c) e d) média e variância a posteriori - Olhar no apêndice do Mood as fórmulas da média & variância: \[ \begin{array}{lll} \text{E}(\lambda \vert \boldsymbol{x})&=& \frac{\frac{116}{5}}{\frac{51}{5}}\approx 2.2745\\ \text{VAR}(\lambda \vert \boldsymbol{x})&=&\frac{\frac{116}{5}}{\left(\frac{51}{5}\right)^2}\approx 0.2230 \end{array} \] - Graficamente: Fazendo os graficos da priori, verossimilhança e posteriori
a=1/5
r=1/5
pri_lambda=dgamma(lambda,shape=r, scale=1/a) #na parametrização do R, o parâmetro de escala (a) é invertido
#Aproxima a verossimilhança para o formato de uma densidade (com soma igual a 1, apenas para fins ilustrativos de construção de gráfico)
intervalos=0.1
L_lambda=exp(-n*lambda)*lambda^(sum(x))/prod(factorial(x))
L_lambda_normalizado=L_lambda/sum(L_lambda*intervalos)
pos_lambda=dgamma(lambda,shape=r+sum(x), scale= 1/(a+n)) #na parametrização do R, o parâmetro de escala beta é invertido
plot(lambda,pri_lambda,type='l',xlab=expression(lambda),ylab=expression(f(lambda)),ylim=c(0,1.5))
lines(lambda,L_lambda_normalizado,type='l',col=2)
lines(lambda,pos_lambda,type='l',col=3)
legend("topright",c(expression("priori "*f(lambda)),expression("verossimilhança "*L(lambda*"|"*bold(x))),expression("posteriori "*f(lambda*"|"*bold(x)))),col=c(1,2,3),bty = "n",lty=c(1,1,1))
Figura 4: Priori, Verossimilhança e Posteriori
Exemplo 1: Ensaios de Bernoulli com distribuição a priori discreta.
Uma determinada droga tem taxa de resposta \(\theta\) podendo assumir os seguintes valores a priori: \(0,2\); \(0,4\), \(0,6\) ou \(0,8\), sendo cada um dos valores com mesma probabilidade de ocorrência. Do resultado de uma amostra unitária, obtivemos sucesso. Como nossa crença pode ser revisada? Podemos representar o problema através de uma tabela.
Atribui-se priori uniforme discreta para a proporção \(\theta\);
E a distribuição a posteriori para esta proporção será uniforme discreta.
Resolução: Você vai precisar de
Passo I: atribuir priori para \(\theta\), sendo \(\theta\)=0,2 ou 0,4 ou 0,6 ou 0,8:
## Loading required package: kableExtra
##
## Attaching package: 'kableExtra'
## The following object is masked from 'package:dplyr':
##
## group_rows
theta = c(0.2,0.4,0.6,0.8)
priori_theta = c(0.25,0.25,0.25,0.25)
tabela <- data.frame(
theta,
priori_theta)
names(tabela) = c("$\\theta_j$","$P(\\theta=\\theta_j)$")
tabela=rbind(tabela,c("Total",1))
tabela %>%
kbl(escape = FALSE) %>%
kable_classic(full_width = F, html_font = "Cambria") %>%
kable_styling(bootstrap_options = c("striped","hold_position"),
full_width = F)
\(\theta_j\) | \(P(\theta=\theta_j)\) |
---|---|
0.2 | 0.25 |
0.4 | 0.25 |
0.6 | 0.25 |
0.8 | 0.25 |
Total | 1 |
Passo II: atribuir distribuição Bernoulli para os dados(amostra de tamanho unitário): \[ Y ~ \sim \text{ Bernoulli }(\theta) \text{ então }\\ P(Y=1) = \theta \]
theta = c(0.2,0.4,0.6,0.8)
L_theta = theta
tabela <- data.frame(
theta,
L_theta)
names(tabela) = c("$\\theta_j$","$P(Y=1 \\vert \\theta = \\theta_j)$")
tabela %>%
kbl(escape = FALSE) %>%
kable_classic(full_width = F, html_font = "Cambria") %>%
kable_styling(bootstrap_options = c("striped","hold_position"),
full_width = F)
\(\theta_j\) | \(P(Y=1 \vert \theta = \theta_j)\) |
---|---|
0.2 | 0.2 |
0.4 | 0.4 |
0.6 | 0.6 |
0.8 | 0.8 |
Passo III:Aplicar a fórmula
theta = c(0.2,0.4,0.6,0.8)
priori_theta = c(0.25,0.25,0.25,0.25)
L_theta = theta
post_theta=priori_theta*L_theta/sum(priori_theta*L_theta)
tabela <- data.frame(
theta,
priori_theta,
L_theta,
post_theta)
names(tabela) = c("$\\theta_j$","$P(\\theta=\\theta_j)$","$P(Y=1 \\vert \\theta = \\theta_j)$","$P(\\theta=\\theta_j \\vert y=1)$")
tabela=rbind(tabela,c("Total",1,"",1))
tabela %>%
kbl(escape = FALSE) %>%
kable_classic(full_width = F, html_font = "Cambria") %>%
kable_styling(bootstrap_options = c("striped","hold_position"),
full_width = F)
\(\theta_j\) | \(P(\theta=\theta_j)\) | \(P(Y=1 \vert \theta = \theta_j)\) | \(P(\theta=\theta_j \vert y=1)\) |
---|---|---|---|
0.2 | 0.25 | 0.2 | 0.1 |
0.4 | 0.25 | 0.4 | 0.2 |
0.6 | 0.25 | 0.6 | 0.3 |
0.8 | 0.25 | 0.8 | 0.4 |
Total | 1 | 1 |
Ilustração:
plot(theta,priori_theta,xlab=expression(theta),ylab=expression(p(theta)),type='p',col=2,ylim=c(0,1),pch=2)
lines(theta,L_theta,type='p',col=3,pch=3)
lines(theta,post_theta,type='p',col=4,pch=4)
legend("topleft",c("priori","verossimilhança","posteriori"),col=c(2,3,4),pch=c(2,3,4),bty = "n")
Exemplos de aplicação. Material de Inferência Estatística Ricardo Ehlers pag. 7:
Resposta: Considerando a parametrização para a exponencial: \[ \begin{array}{lll} f(x)=\lambda e^{-\lambda x} \text{ então}\\ \hat{\lambda}=\frac{1}{\bar{x}}, \text{ou seja, a e.m.v. de } \lambda \text{ é dada pelo inverso da média amostral} \end{array} \] - Passo a passo
set.seed(05102020)
lambda=5 #valor utilizado para gerar os dados
n=30
x=rexp(n,lambda)
x_bar=mean(x)
paste0("n= ",n)
## [1] "n= 30"
## [1] "média amostral=0.148695362229909"
## [1] "emv=6.72515931232494"
logL=function(lambda){
L=lambda^n *exp(-lambda*sum(x))
log=log(L)
log
}
optimize(logL, interval=c(0.1, 10), maximum=TRUE) #encontra o ponto de máximo
## $maximum
## [1] 6.725157
##
## $objective
## [1] 27.17567
Uma família de distribuições a priori é conjugada se as distribuições a posteriori pertencem a esta mesma família de distribuições.
Caso 1: Quando os dados têm distribuição normal com média desconhecida e variância conhecida
Resolução: Você vai precisar de
Passo I: atribuir priori para \(\mu\), sendo \(-\infty<\mu\infty\),
\[ \begin{array}{ll} & \mu \sim \text{Normal}(m_0,s_0^2):\\ &f(\mu)=\frac{1}{\sqrt{2 \pi} s_0} \exp \left[-\frac{1}{2 s_0^2} (\mu-m_0)^2 \right] \end{array}\\ \text{considere } m_0 \text{ e } s_0^2 \text{ os parâmetros da média e variância da distribuição a priori, respectivamente} \] - com \(m_0\) e \(s_0^2\) conhecidos; - A distribuição a priori nos traz o conhecimento a priori sobre a média \(\mu\); - Se temos pouca informação a respeito de \(\mu\), podemos fixar a média \(m_0\) e atribuir uma variância \(s_0^2\) grande; - Se temos muita informação a respeito de \(\mu\), podemos fixar a média \(m_0\) e atribuir uma variância \(s_0^2\) pequena.
Passo II: atribuir distribuição Normal para os dados \[ Y_1, Y_2,Y_3,\ldots,Y_n \sim \text{Normal}(\mu,\sigma^2) \text{ então }\\ \begin{array}{lll} f_{\boldsymbol{Y}}(\boldsymbol{y})&=&\prod_{i=1}^n\frac{1}{\sqrt{2 \pi} \sigma} \exp\left[-\frac{1}{2\sigma^2} (y_i-\mu)^2 \right]\\ &=& \left(\frac{1}{\sqrt{2\pi}\sigma}\right)^n \exp\left[-\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\mu)^2\right]\\ &=&L(\mu \vert \boldsymbol{y}) \end{array} \] distribuição dos dados = função de verossimilhança de \(\mu\) dado os dados
Passo III:Aplicar a fórmula - pode-se dispensar os termos constantes \[ \begin{array}{lll} f(\mu \vert \boldsymbol{y}) &\propto& f(\mu) L(\mu \vert \boldsymbol{y})\\ &\propto& \exp \left[-\frac{1}{2} \left( \frac{1}{s_0^2} (\mu-m_0)^2 + \frac{1}{\sigma^2} \sum \limits_{i=1}^n (y_i-\mu)^2 \right) \right],\\ &\text{ Então }& \mu | \boldsymbol{y} \sim N\left(\frac{\frac{m_0}{s_0^2}+\frac{n \overline{y}}{\sigma^2}}{\frac{1}{s_0^2}+\frac{n}{\sigma^2}},\frac{1}{\frac{1}{s_0^2}+\frac{n}{\sigma^2}}\right) \end{array} \] - o símbolo \(\propto\) significa “é proporcional a”, ou seja, todos os termos multiplicativos que não dependem de \(\mu\) podem ser desconsiderados na fórmula. - A demonstração pode ser encontrada em Box & Tiao (1973)
Exemplo 1 Box & Tiao (1973) Os físicos A e B desejam determinar uma quantidade física \(\mu\). O físico A tem mais experiência nesta área e especifica sua priori como \(\mu \sim N(900,20^2)\). O físico B tem pouca experiência e especifica uma priori muito mais incerta em relação à posição de \(\mu\): \(\mu\sim N(800,80^2)\). Faz-se então uma medição \(X\) de \(\mu\) em laboratório com um aparelho calibrado com distribuição amostral \(X \vert \mu \sim N(\mu,40^2)\) e observa-se \(X=850\). Este exemplo corresponde ao “Caso 1)” de prioris conjugadas.
Explorando o exemplo e obtendo a posteriori:
para o físico A:
para o físico B:
A distribuição a posteriori representa um compromisso entre a distribuição a priori e a verossimilhança. Além disso, como as incertezas iniciais são bem diferentes, o mesmo experimento fornece muito pouca informação adicional para o físico A enquanto que a incerteza do físico B foi bastante reduzida.
Cálculos para este exemplo:
#Informações a priori
m_0=c(900,800)
s_0=c(20,80)
quantis_A=qnorm(c(0.025,0.975),mean=m_0[1],sd=s_0[1])
quantis_B=qnorm(c(0.025,0.975),mean=m_0[2],sd=s_0[2])
quantis=data.frame(prob=c(0.025,0.975),quantis_A,quantis_B)
datatable(quantis,caption="Distribuição a priori")
#Amostra
x=850
n=1
sigma=40
sigma2=sigma^2
x_bar=mean(x)
#Informações a posteriori
media=(m_0/s_0^2+n*x_bar/sigma2)/(1/s_0^2+n/sigma2)
variancia=1/(1/s_0^2+n/sigma2)
posteriori=data.frame(rbind(media,variancia))
names(posteriori)=c("Fisico A","Fisico B")
datatable(posteriori,caption="Distribuição a posteriori")
mu=seq(500,1000,1)
priori_A=dnorm(mu,mean=m_0[1],sd=s_0[1])
priori_B=dnorm(mu,mean=m_0[2],sd=s_0[2])
L_mu=dnorm(x,mean=mu,sd=40)
#Aproxima a verossimilhança para o formato de uma densidade (com soma igual a 1, apenas para fins ilustrativos de construção de gráfico)
intervalos=1
L_mu_normalizado=L_mu/sum(L_mu*intervalos)
posteriori_A=dnorm(mu,mean=media[1],sd=sqrt(variancia[1]))
posteriori_B=dnorm(mu,mean=media[2],sd=sqrt(variancia[2]))
par(mfrow=c(1,2))
plot(mu,L_mu_normalizado,type='l',xlab=expression(mu),ylab=expression(f(mu)),main="Fisico A",ylim=c(0,0.03),col=2)
lines(mu,priori_A,type='l',col=1)
lines(mu,posteriori_A,type='l',col=3)
legend("topleft",c(expression("priori: "*mu*"~"*N(900,40^2)),expression("Veross.: "*X*"~"*N(mu,40^2)),expression("poster.: "*mu*"~"*N(890,320))),col=c(1,2,3),lty=c(1,1,1),bty = "n")
plot(mu,L_mu_normalizado,type='l',xlab=expression(mu),ylab=expression(f(mu)),main="Fisico B",ylim=c(0,0.03),col=2)
lines(mu,priori_B,type='l',col=1)
lines(mu,posteriori_B,type='l',col=3)
legend("topleft",c(expression("priori: "*mu*"~"*N(800,80^2)),expression("Veross.: "*X*"~"*N(mu,40^2)),expression("poster.: "*mu*"~"*N(840,1280))),col=c(1,2,3),lty=c(1,1,1),bty = "n")
Figura 5: Gráficos das três funções conjuntamente: priori, verossimilhança e posteriori
Caso 2: Quando os dados têm distribuição de Poisson
Resolução: Você vai precisar de
Passo I: atribuir priori para \(\lambda\), sendo \(0<\lambda<\infty\),
\[ \begin{array}{lll} \lambda \sim \text{Gamma}(a,r) \text{ então}\\ f(\lambda)=\underbrace{\frac{a^r}{\Gamma[r]} \lambda^{r-1} e^{-a \lambda} I_{(0,\infty)}(\lambda)}_{\text{considere } a \text{ o primeiro parâmetro da Gamma, para não confundir com }\lambda \text{ na fórmula}} \end{array} \] Passo II: atribuir distribuição Poisson para os dados \[ Y_1, Y_2,Y_3,\ldots,Y_n \sim \text{Poisson}(\lambda) \text{ então }\\ \begin{array}{lll} \underbrace{P(\boldsymbol{Y}=\boldsymbol{y})}_{\text{vetor }\boldsymbol{Y}\text{ ser igual a "vetorzinho" }\boldsymbol{y}\text{, de valores observados}}&=&\prod_{i=1}^n \frac{e^{-\lambda}\lambda^{y_i}}{y_i!}\times \underbrace{\prod_{i=1}^n I_{\{0,1,\ldots\}} (y_i)}_{\text{produto de funções indicadoras}}\\ &=& \frac{e^{-n\lambda}\lambda^{\sum_{i=1}^n y_i}}{\prod_{i=1}^n y_i!} \times I_{\{0,1,\ldots\}}(\prod_{i=1}^n y_i)\\ &=&L(\lambda \vert \boldsymbol{y}) \end{array}\\ \text{distribuição dos dados = função de verossimilhança de } \lambda \text{ dado os dados} \] Passo III:Aplicar a fórmula - pode-se dispensar os termos constantes \[ \begin{array}{lll} f(\lambda \vert \boldsymbol{y})&\propto& f(\lambda)L(\lambda \vert \boldsymbol{y})\\ &\propto& \frac{a^r}{\Gamma[r]} \lambda^{r-1} e^{-a \lambda} I_{(0,\infty)}(\lambda) \times \frac{e^{-n\lambda}\lambda^{\sum_{i=1}^n y_i}}{\prod_{i=1}^n y_i!}\\ &\propto& \lambda^{r+\sum_{i=1}^n y_i-1} e^{-(a+n)\lambda} I_{(0,\infty)}(\lambda)\\ &\text{ Então }& \lambda \vert \boldsymbol{y} \sim \text{Gamma}(a+n,r+\sum_{i=1}^n y_i) \text{ é só incluir as constantes na fórmula:} \\ f(\lambda \vert \boldsymbol{y})&=& \frac{(a+n)^{r+\sum_{i=1}^n y_i}}{\Gamma[r+\sum_{i=1}^n y_i]} \lambda^{r+\sum_{i=1}^n y_i-1} e^{-(a+n) \lambda} I_{(0,\infty)}(\lambda) \end{array} \]
Caso 3: Quando os dados têm distribuição Binomial
Resolução: Você vai precisar de
Passo I: atribuir priori para \(p\), sendo \(0<p<1\), \[ \begin{array}{lll} p \sim \text{Beta}(a,b) \text{ então }\\ f(p)=\frac{1}{B(a,b)} \times p^{a-1} (1-p)^{b-1} I_{(0,1)}(p) \end{array} \] Passo II: atribuir distribuição Binomial para os dados \[ \begin{array}{lll} Y \sim \text{Binominal}(n,p) \text{ então }\\ P(Y=y)=\underbrace{ \left(\begin{array}{ll} n\\y \end{array}\right) \times p^y (1-p)^{n-y}=L(p \vert \boldsymbol{y})}_{\text{distribuição dos dados = função de verossimilhança de }p\text{ dado os dados}} \end{array} \] Passo III: Aplicar a fórmula - pode-se dispensar os termos constantes \[ \begin{array}{lll} f(p \vert \boldsymbol{y})&\propto& f(p)L(p \vert \boldsymbol{y})\\ &\propto& \frac{1}{B(a,b)} \times p^{a-1} (1-p)^{b-1} I_{(0,1)}(p) \times \left(\begin{array}{ll} n\\y \end{array}\right) \times p^y (1-p)^{n-y}\\ &\propto& p^{a+y-1} \times (1-p)^{b+n-y-1} \times I_{(0,1)}(p)\\ &\text{ Então }& p \vert \boldsymbol{y} \sim \text{Beta}(a+y,b+n-y) \text{ é só incluir as constantes na fórmula:}\\ f(p \vert \boldsymbol{y})&=& \frac{1}{B(a+y,b+n-y)}\times p^{a+y-1} \times (1-p)^{b+n-y-1} \times I_{(0,1)}(p) \end{array}\\ \] - Também pode-se mostrar que sendo \(Y_1,Y_2,\ldots,Y_N \sim\) Binomial \((n,p)\) a priori conjugada é Beta - com parâmetros atualizados para N experimentos de Bernoulli.
N = 20 #Número de experimentos
n = 10 #Número de ensaios de Bernoulli para cada experimento
p = 0.4 #probabilidade de sucesso para cada ensaio de Bernoulli
set.seed(18102020)
y = rbinom(N, n, p) #vetor y
y
## [1] 4 4 5 5 7 5 5 3 5 5 4 6 6 4 4 5 3 5 7 5
Caso 4: Quando os dados têm distribuição normal com média conhecida e variância desconhecida
Resolução: Você vai precisar de
Passo I: atribuir priori para \(\sigma^2\), sendo \(0<\sigma^2 < \infty\), \[ \begin{array}{lll} \sigma^2 \sim \text{Gamma Invertida}(\alpha,\beta) \text{ então}\\ f(\sigma^2)=\frac{\beta^\alpha}{\Gamma (\alpha)} \left(\sigma^2\right)^{-\alpha+1} \exp\left[-\frac{\beta}{\sigma^2}\right] \end{array} \] \(\text{ com } \alpha>0 \text{ e } \beta>0\) parâmetros conhecidos.
Passo II: atribuir distribuição Normal para os dados \[ Y_1, Y_2,Y_3,\ldots,Y_n \sim \text{Normal}(\mu,\sigma^2) \text{ então }\\ \begin{array}{lll} f_{\boldsymbol{Y}}(\boldsymbol{y})&=&\prod_{i=1}^n\frac{1}{\sqrt{2 \pi} \sigma} \exp \left[-\frac{1}{2 \sigma^2} (y_i-\mu)^2 \right]\\ &=& \left(\frac{1}{\sqrt{2\pi}\sigma}\right)^n \exp\left[-\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\mu)^2\right]\\ &=&L(\sigma^2 \vert \boldsymbol{y}) \end{array}\\ \text{distribuição dos dados = função de verossimilhança de } \sigma^2 \text{ dado os dados}\\ \] - A função de verossimilhança nos traz toda a informação disponível na amostra (nos dados); - com \(\mu\) conhecido e \(\sigma^2\) desconhecido;
Passo III: Aplicar a fórmula - pode-se dispensar os termos constantes \[ \begin{array}{llll} f(\sigma^2 \vert \boldsymbol{y}) &\propto& f(\sigma^2) L(\sigma^2 \vert \boldsymbol{y})\\ &\propto& \frac{\beta^\alpha}{\Gamma (\alpha)} \left(\sigma^2\right)^{-\alpha+1} \exp\left[-\frac{\beta}{\sigma^2}\right] \times \left(\frac{1}{\sqrt{2\pi}\sigma}\right)^n \exp\left[-\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\mu)^2\right]\\ &\propto& \left(\sigma^2 \right)^{-\left(\alpha+\frac{n}{2}\right)+1} \exp\left[-\frac{\beta+\frac{1}{2}\sum_{i=1}^n (y_i-\mu)^2}{\sigma^2}\right]\\ & \text{Então}& \sigma^2 \vert \boldsymbol{y} \sim \text{Gamma Invertida} \left(\alpha + \frac{n}{2},\beta+\frac{1}{2} \sum \limits_{i=1}^n (y_i-\mu)^2\right), \text{ é só incluir as constantes na fórmula} \\ f(\sigma^2 \vert \boldsymbol{y}) &=& \frac{\left(\beta+\frac{1}{2} \sum_{i=1}^n (y_i-\mu)^2\right)^{\alpha + \frac{n}{2}}}{\Gamma[\alpha + \frac{n}{2}]} \left(\sigma^2 \right)^{-\left(\alpha+\frac{n}{2}\right)+1} \exp\left[-\frac{\beta+\frac{1}{2}\sum_{i=1}^n (y_i-\mu)^2}{\sigma^2}\right] \end{array} \]
Caso 5: Quando os dados têm distribuição normal com média conhecida e variância desconhecida
Resolução: Você vai precisar de
Passo I: atribuir priori para \(\tau\), sendo \(0<\tau < \infty\), \[ \begin{array}{lll} \tau \sim \text{Gamma}(\lambda,r) \text{ então}\\ f(\tau)=\frac{\lambda^r}{\Gamma (r)} \tau^{r-1} e^{-\lambda \tau} I_{(0,\infty)}(\tau) \end{array} \] \(\text{ com } \lambda>0 \text{ e } r>0\) parâmetros conhecidos (chamados de hiperparâmetros no contexto Bayesiano)
Passo II: atribuir distribuição Normal para os dados \[ Y_1, Y_2,Y_3,\ldots,Y_n \sim \text{Normal}(\mu,\sigma^2) \text{ então }\\ \begin{array}{lll} f_{\boldsymbol{Y}}(\boldsymbol{y})&=&\prod_{i=1}^n\frac{\sqrt{\tau}}{\sqrt{2 \pi}} \exp \left[-\frac{\tau}{2} (y_i-\mu)^2 \right]\\ &=& \left(\frac{\tau}{2\pi}\right)^{\frac{n}{2}} \exp\left[-\frac{\tau}{2}\sum_{i=1}^n(y_i-\mu)^2\right]\\ &=&L(\tau \vert \boldsymbol{y}) \end{array}\\ \text{distribuição dos dados = função de verossimilhança de } \tau \text{ dado os dados}\\ \] - A função de verossimilhança nos traz toda a informação disponível na amostra (nos dados); - com \(\mu\) conhecido e \(\tau\) desconhecido;
Passo III: Aplicar a fórmula - pode-se dispensar os termos constantes
\[ \begin{array}{lll} f(\tau \vert \boldsymbol{y}) &\propto& f(\tau) L(\tau \vert \boldsymbol{y})\\ &\propto& \frac{\lambda^r}{\Gamma (r)} \tau^{r-1} e^{-\lambda \tau} I_{(0,\infty)}(\tau) \times \left(\frac{\tau}{2\pi}\right)^{\frac{n}{2}} \exp\left[-\frac{\tau}{2}\sum_{i=1}^n(y_i-\mu)^2\right] \\ &\propto& \tau^{r+\frac{n}{2}-1} \exp \left[-\left(\lambda+\sum_{i=1}^n(y_i-\mu)^2\right) \tau \right] I_{(0,\infty)}(\tau)\\ & \text{Então}& \tau \vert \boldsymbol{y} \sim \text{Gamma} \left(\lambda+\frac{1}{2} \sum \limits_{i=1}^n (y_i-\mu)^2,r+\frac{n}{2}\right), \text{ é só incluir as constantes na fórmula} \\ f(\tau \vert \boldsymbol{y}) &=& \frac{\left(\lambda+\frac{1}{2} \sum \limits_{i=1}^n (y_i-\mu)^2 \right)^{r+\frac{n}{2}}}{\Gamma[r+\frac{n}{2}]}\tau^{r+\frac{n}{2}-1} \exp \left[-\left(\lambda+\sum_{i=1}^n(y_i-\mu)^2\right) \tau \right] I_{(0,\infty)}(\tau) \end{array} \]
Exemplo 2 Abaixo temos \(10\) valores provenientes de uma distribuição normal com média \(\mu\) e variância \(\sigma^2\).
set.seed(05062017) #cria uma semente única
n=10
mu=2 #este é o valor da média mu
sigma2=3 #este é o valor da variancia sigma2 para a criação dos dados
y=rnorm(n,mean=mu,sd=sqrt(sigma2))
y=round(y,4)
y
## [1] 1.2156 1.2000 2.1362 2.1139 2.6546 0.0135 -0.0007 0.2131 3.3849
## [10] 4.9196
Solução: Você vai precisar de
Fazendo os cálculos no R:
## [1] "sigma2_hat= 2.2837365641"
## [1] "Modo alternativo: sigma2_hat= 2.2837365641"
logL=function(sigma2){
L=(1/sqrt(2*pi*sigma2))^n*exp(-1/(2*sigma2)*sum((y-mean(y))^2))
log(L)
}
optimize(logL, interval=c(0.01,10), maximum=TRUE) #encontra o ponto de máximo
## $maximum
## [1] 2.283739
##
## $objective
## [1] -18.31845
sigma2=seq(0.01,20,0.01) #só assume valores positivos
temp <- data.frame(sigma2=sigma2, logL = logL(sigma2))
datatable(temp)
## Warning: Removed 1 rows containing non-finite values (stat_peaks).
\[ \tau \vert \boldsymbol{y} \sim \text{Gamma}\left(\lambda+\frac{1}{2}\sum_{i=1}^n (y_i-\mu)^2,r+\frac{n}{2}\right), \text{ ou seja, }\\ \text{Como } \lambda=1, r=\frac{1}{2} \text{ e } \mu=2:\\ \tau \vert \boldsymbol{y} \sim \text{Gamma}\left(\frac{2+\sum_{i=1}^n (y_i-2)^2}{2},\frac{1+n}{2}\right) \] - Fazendo os cálculos no R: \(\tau | \boldsymbol{y} \sim \text{Gamma} (12.6496,5.5)\)
## [1] "par_1= 12.649657345 e par_2= 5.5"
tau=seq(0,1.5,0.01)
lambda=1
r=1/2
mu=2
constante=exp(19)
priori=dgamma(tau,shape=r, scale=1/lambda)
L_tau=(1/sqrt(2*pi))^n*tau^(n/2)*exp(-tau/2*sum((y-mu)^2))
#Aproxima a verossimilhança para o formato de uma densidade (com soma igual a 1, apenas para fins ilustrativos de construção de gráfico)
intervalos=0.01
L_tau_normalizado=L_tau/sum(L_tau*intervalos)
posteriori=dgamma(tau,shape=par2, scale=1/par1)
plot(tau,priori,type='l',xlab=expression(tau),ylab=expression(f(tau)))
lines(tau,L_tau_normalizado,type='l',col=2)
lines(tau,posteriori,type='l',col=3)
legend("topright",c(expression("priori "*f(tau)),expression("verossimilhança "*L(tau*"|"*bold(y))),expression("posteriori "*f(tau*"|"*bold(y)))),col=c(1,2,3),bty = "n",lty=c(1,1,1))
Figura 6: Gráficos do exemplo 2
Caso 6: Vemos que a família de distribuições Beta é conjugada a distribuição Geométrica:
Sejam \(Y_1,Y_2,\ldots,Y_n\) variáveis aleatórias i.i.d. com distribuição geométrica com probabilidade de sucesso igual a \(p\).
Resolução:
Pela fórmula de Bayes, dispensando o termo do denominador (pois é uma constante com relação ao parâmetro \(p\); \[ f(p \vert \boldsymbol{y})\propto f(p)L(p \vert \boldsymbol{y}) \]
o termo \(\boldsymbol{y}\) se refere aos dados observados (Modelo Geométrico), ou seja, quando realizados ensaios de Bernoulli independentes com probabilidade igual a \(p\), verificou-se os valores observados \(y_1,y_1,\ldots,y_n\) das tentativas anteriores ao primeiro sucesso.
Passo I: atribuir priori para \(p\), sendo \(0<p<1\), \[ \begin{array}{lll} p \sim \text{Beta}(a,b) \text{ então }\\ f(p)=\frac{1}{B(a,b)} \times p^{a-1} (1-p)^{b-1} I_{(0,1)}(p) \end{array} \]
Passo II: atribuir distribuição geométrica para os dados \[ \begin{array}{lll} Y_1, Y_2,\ldots,Y_n \sim \text{Geom}(p) \text{ então }\\ P(\boldsymbol{Y}=\boldsymbol{y})&=&\underbrace{\prod_{i=1}^n p (1-p)^{y_i}}_{\text{os experimentos são independentes}} \\ &=& p^n (1-p)^{\sum_{i=1}^n y_i}\\ &=& L(p \vert \boldsymbol{y}) \end{array}\\ \text{distribuição dos dados = função de verossimilhança de }p\text{ dado os dados} \] Passo III: Aplicar a fórmula - pode-se dispensar os termos constantes \[ \begin{array}{lll} f(p \vert \boldsymbol{y})&\propto& f(p)L(p \vert \boldsymbol{y})\\ &\propto& \frac{1}{B(a,b)} \times p^{a-1} (1-p)^{b-1} I_{(0,1)}(p) \times p^n (1-p)^{\sum_{i=1}^n y_i}\\ &\propto& p^{a+n-1} \times (1-p)^{b+\sum_{i=1}^n y_i-1} \times I_{(0,1)}(p)\\ &\text{ Então }& p \vert \boldsymbol{y} \sim \text{Beta}(a+n,b+\sum_{i=1}^n y_i) \text{ é só incluir as constantes na fórmula:}\\ f(p \vert \boldsymbol{y})&=& \frac{1}{B\left(a+n,b+\sum_{i=1}^n y_i\right)}\times p^{a+n} \times (1-p)^{b+\sum_{i=1}^n y_i-1} \times I_{(0,1)}(p) \end{array}\\ \] Implementação numérica do Caso 6:
set.seed(10102020) #cria uma semente única
p0=0.3 #este é o valor de p utilizado para gerar os dados
n=10 #tamanho da amostra
y=rgeom(n,prob=p0)
y
## [1] 4 6 0 1 0 1 7 7 0 0
logL=function(p){
L=p^n* (1-p)^sum(y)
log(L)
}
optimize(logL, interval=c(0.001, 0.999), maximum=TRUE) #encontra o ponto de máximo
## $maximum
## [1] 0.2777811
##
## $objective
## [1] -21.27032
a=0.4
b=0.6
pri=dbeta(p,shape1=a,shape2=b)
#Aproxima a verossimilhança para o formato de uma densidade (com soma igual a 1, apenas para fins ilustrativos de construção de gráfico)
intervalos=0.001
vero=p^n* (1-p)^sum(y)
vero_normalizado=vero/sum(vero*intervalos)
pos=dbeta(p,shape1=a+n,shape2=b+sum(y))
plot(p,pri,type='l',xlab=expression(p),ylab=expression(f(p)))
lines(p,vero_normalizado,type='l',col=2)
lines(p,pos,type='l',col=3)
legend("topright",c(expression("priori "*f(p)),expression("verossimilhança "*L(p*"|"*bold(y))),expression("posteriori "*f(p*"|"*bold(y)))),col=c(1,2,3),bty = "n",lty=c(1,1,1))
Cenários | Distribuição a priori | Distribuição dos dados | Distribuição a posteriori |
Caso 1 | \(\mu \sim\) N\((m_0,\sigma_0^2\)) | \(X_1,\ldots,X_n \sim\) N\((\mu,\sigma^2)\), com \(\sigma^2\) conhecido | \(\mu \vert \boldsymbol{x} \sim\) N\(\left(\frac{\frac{m_0}{s_0^2}+\frac{n \overline{y}}{\sigma^2}}{\frac{1}{s_0^2}+\frac{n}{\sigma^2}},\frac{1}{\frac{1}{s_0^2}+\frac{n}{\sigma^2}}\right)\) |
Caso 2 | \(\lambda \sim\) Gamma \((a,r)\) | \(X_1,\ldots,X_n \sim\) Poisson \((\lambda)\) | \(\lambda \vert \boldsymbol{x} \sim\) Gamma\((a+n,r+\sum_{i=1}^n x_i)\) |
Caso 3 | \(p \sim\) Beta\((a,b)\) | \(X \sim\) Binomial\((n,p)\) | \(p \vert \boldsymbol{x} \sim\) Beta\((a+y,b+n-x)\) |
Caso 4 | \(\sigma^2 \sim\) Gamma Inv. \((\alpha,\beta)\) | \(X_1,\ldots,X_n \sim\) N\((\mu,\sigma^2)\), com \(\mu\) conhecido | \(\sigma^2 \vert \boldsymbol{x} \sim\) Gamma Inv.\((\alpha+\frac{n}{2},\beta+\frac{n}{2} \sum_{i=1}^n (x_i-\mu)^2)\) |
Caso 5 | \(\tau \sim\) Gamma\((\lambda,r)\) | \(X_1,\ldots,X_n \sim\) N\((\mu,\frac{1}{\tau})\), com \(\mu\) conhecido | \(\tau \vert \boldsymbol{x} \sim\) Gamma\((\lambda+\frac{1}{2}\sum_{i=1}^n (x_i-\mu)^2,r+\frac{n}{2})\) |
Caso 6 | \(p \sim\) Beta\((a,b)\) | \(X_1,\ldots,X_n \sim\) Geom\((p)\) | \(p \vert \boldsymbol{x} \sim\) Beta\((a+n,b+\sum_{i=1}^n x_i)\) |
Exemplo: Suponha que desejamos estimar \(\theta\), a probabilidade de observar cara (C) no lançamento de uma moeda e que, para um determinado experimento, observou-se: \[ \{C,\bar{C},\bar{C},C,C,\bar{C},\bar{C},\bar{C},\bar{C},C\} \] Entre outras possibilidades, os dados acima podem ter sido gerados a partir dos seguintes experimentos:
Seja \(X\) o número de caras em \(10\) lançamentos da moeda: \[ X \sim \text{ Binomial }(10,\theta), \text{ e os resultados poderiam ser: } X = 0,1,2,\ldots,10. \]
Seja \(Y\) o número de lançamentos da moeda até a obtenção de \(4\) caras: \[ Y \sim \text{ Binomial Negativa }(4,\theta), \text{ e os resultados poderiam ser: } Y = 4,5,6,\ldots \]
Considerando os resultados do experimento no modelo Binomial:
\[ \begin{array}{lll} &&P(X = 4 \mid \theta) = \left(\begin{array}{l l}10\\4\end{array}\right) \theta^4 (1 - \theta)^{10-4}, \\ \end{array} \]
de modo que a função de verossimilhança será: \(L(\theta \mid \text{ x} ) \propto \theta^4 (1 - \theta)^6\);
\[ \begin{array}{lll} && P(Y = 10 \mid \theta) = \left(\begin{array}{l l}10-1\\4-1\end{array}\right) \theta^4 (1 -\theta)^{10-4},\\ && \text{ de modo que a função de verossimilhança será: } L(\theta \mid \text{ y} ) \propto \theta^4 (1 - \theta)^6; \end{array} \]
\(X\) Sob a mesma priori para \(\theta\), a posteriori obtida a partir do modelo Binomial é igual à posteriori obtida a partir do modelo Binomial-Negativa.
Porém, as estimativas de máxima verossimilhança sob cada um dos modelos são diferentes. Tarefa: justificar esta afirmação;
Formalmente: Se temos dois vetores aleatórios pertencentes a um mesmo espaço amostral, que dependem do mesmo parâmetro \(\theta\) e que possuem verossimilhancas distintas, diferindo apenas por uma constante que não depende de \(\theta\), Então as posterioris obtidas a partir destes dois vetores são iguais.
Em outras palavras, a inferência Bayesiana é a mesma quando a condição de proporcionalidade das verossimilhanças é satisfeita.
É uma priori intuitiva porque todos os possíveis valores do parâmetro \(\theta\) são igualmente prováveis: \[ f(\theta)\propto k, \] com \(\theta\) variando em um subconjunto da reta de modo que nenhum valor particular tem preferência (Bayes, 1763).
A priori uniforme, no entanto, apresenta algumas dificuldades:
É uma priori construída a partir da medida de informação esperada de Fisher, proposta por Jeffreys (1961).
Definição: Medida de informação esperada de Fisher Considere uma única observação \(X\) com f.d.p. indexada pelo parâmetro \(\theta\): \(f(x \vert \theta)\). A medida de informação esperada de Fisher de \(\theta\) através de \(X\) é definida como \[ \displaystyle I(\theta)=E \left[-\frac{\partial^2\log f(x \vert \theta)}{\partial\theta^2}\right], \] em que a esperança matemática é tomada em relação à distribuição amostral \(f(x \vert \theta)\) (a esperança é com respeito a \(X\) e não com respeito a \(\theta\)). - A informação esperada de Fisher \(I(\theta)\) é uma medida de informação global.
Extendendo esta definição para uma amostra i.i.d. \(X_1,X_2,\ldots,X_n\), temos: \(f(\boldsymbol{x} \vert \theta)=\prod \limits_{i=1}^n f(x_i \vert \theta)\) e \[ \displaystyle I(\theta)=E \left[-\frac{\partial^2\log f(\boldsymbol{x} \vert \theta)}{\partial\theta^2}\right], \] é a informação esperada de Fisher de \(\theta\) através do vetor \(\boldsymbol{x}\).
Definição: priori de Jeffreys A priori de Jeffreys é dada por: \[ \sqrt{I(\theta)}. \]
No caso multiparamétrico (mais de um parâmetro), a medida de Informação de Fisher é dada de forma matricial, então temos: \[ \sqrt{\left| \text{det}\left[I(\boldsymbol{\theta})\right]\right|}. \]
Exemplo: Sejam \(X_1,\ldots,X_n \sim \text{Poisson} (\theta)\).
\[ \begin{array}{lll} \log f(\boldsymbol{x} \vert \theta) &=&-n\theta + \sum_{i=1}^n x_i \log (\theta) - \log\left(\prod_{i=1}^n x_i!\right) \\ \frac{\partial \log f(\boldsymbol{x} \vert\theta)}{\partial\theta}&=&-n+\frac{\sum_{i=1}^n x_i}{\theta}\\ \frac{\partial^2 \log f(\boldsymbol{x} \vert \theta)}{\partial\theta^2}&=&-\frac{\sum_{i=1}^n x_i}{\theta^2}\\ I(\theta) &=& \frac{n}{\theta}\\ &\propto& \frac{1}{\theta}\\ \end{array} \]
Modelo de Locação \(X\) tem um modelo de locação se existem uma função \(g\) e uma quantidade \(\mu\) tais que: \[ f(x \vert \mu)=g(x-\mu), \] logo \(\mu\) é o parâmetro de locação.
mu=c(-1,0,1) #cria um vetor de médias de -1, 0 e 1
sigma=2 #fixa o desvio padrao em 2, ou seja, a variancia é igual a 4
x=seq(-10,10,0.1)
y_1=dnorm(x,mean=mu[1],sd=sigma)
y_2=dnorm(x,mean=mu[2],sd=sigma)
y_3=dnorm(x,mean=mu[3],sd=sigma)
dados=data.frame(x,y_1,y_2,y_3)
colors <- c("y_1"="blue", "y_2"="red", "y_3"="green")
ggplot(dados, aes(x = x,y = y_1, color = "y_1")) +
geom_line() +
geom_line(aes(x = x,y = y_2, color = "y_2")) +
geom_line(aes(x = x,y = y_3, color = "y_3")) +
labs(x="x",
y="f(x)",
title=expression(N(mu,4)),
color = "Valores da média") +
scale_color_manual(labels=c(expression(mu==-1),expression(mu==0),expression(mu==1)),values = colors)
x=seq(4,6,.5)
f= dnorm(x,mean=5,sd=2)
g= dnorm(x-5,mean=0,sd=2)
temp=data.frame(x,f,g)
require(kableExtra)
names(temp) = c("$x$","$f(x)$","$g(x-5$)")
temp %>%
kbl(escape = FALSE) %>%
kable_classic(full_width = F, html_font = "Cambria") %>%
kable_styling(bootstrap_options = c("striped","hold_position")) %>%
add_header_above(c("","$f(.)$ vem da N(5,4)","$g(.)$ vem da N(0,4)"))
\(f(.)\) vem da N(5,4)
|
\(g(.)\) vem da N(0,4)
|
|
---|---|---|
\(x\) | \(f(x)\) | \(g(x-5\)) |
4.0 | 0.1760327 | 0.1760327 |
4.5 | 0.1933341 | 0.1933341 |
5.0 | 0.1994711 | 0.1994711 |
5.5 | 0.1933341 | 0.1933341 |
6.0 | 0.1760327 | 0.1760327 |
Modelo de Escala \(X\) tem um modelo de escala se existem uma função \(g\) e uma quantidade \(\sigma\) tais que: \[ f(x \vert \sigma)=\frac{1}{\sigma} g\left(\frac{x}{\sigma}\right), \] logo \(\sigma\) é o parâmetro de escala.
Exemplos: Na distribuição \(\text{Exp}(\theta)\) o parâmetro de escala é \(\sigma=\frac{1}{\theta}\), e na distribuição \(\text{N}(\mu,\sigma^2)\) com média conhecida o parâmetro de escala é \(\sigma\);
Propriedade: A priori de Jeffreys para o parâmetro de escala \(\sigma\) é: \[ f(\sigma) \propto \frac{1}{\sigma}. \]
Mostrando que o Modelo normal com media conhecida é modelo de escala
sigma=c(1,2,3) #cria um vetor de desvios padroes de 1, 2 e 3
media=0 #fixa a média em zero
x=seq(-10,10,0.1)
y_1=dnorm(x,mean=media,sd=sigma[1])
y_2=dnorm(x,mean=media,sd=sigma[2])
y_3=dnorm(x,mean=media,sd=sigma[3])
dados=data.frame(x,y_1,y_2,y_3)
colors <- c("y_1"="blue", "y_2"="red", "y_3"="green")
ggplot(dados, aes(x = x,y = y_1, color = "y_1")) +
geom_line() +
geom_line(aes(x = x,y = y_2, color = "y_2")) +
geom_line(aes(x = x,y = y_3, color = "y_3")) +
labs(x="x",
y="f(x)",
title=expression(N(0,sigma^2)),
color = "Valores da variância") +
scale_color_manual(labels=c(expression(sigma^2==1),expression(sigma^2==4),expression(sigma^2==9)),values = colors)
x=seq(4,6,.5)
mu=5
sigma=2
f=dnorm(x,mean=5,sd=sigma)
g=1/sigma*dnorm(x/sigma,mean=mu/sigma,sd=1)
temp=data.frame(x,f,g)
names(temp) = c("$x$","$f(x)$","$\\frac{1}{2}g(\\frac{x}{2})$")
temp %>%
kbl(escape = FALSE) %>%
kable_classic(full_width = F, html_font = "Cambria") %>%
kable_styling(bootstrap_options = c("striped","hold_position")) %>%
add_header_above(c("","$f(.)$ vem da N(5,4)","$g(.)$ vem da N(5,1)"))
\(f(.)\) vem da N(5,4)
|
\(g(.)\) vem da N(5,1)
|
|
---|---|---|
\(x\) | \(f(x)\) | \(\frac{1}{2}g(\frac{x}{2})\) |
4.0 | 0.1760327 | 0.1760327 |
4.5 | 0.1933341 | 0.1933341 |
5.0 | 0.1994711 | 0.1994711 |
5.5 | 0.1933341 | 0.1933341 |
6.0 | 0.1760327 | 0.1760327 |
Definição: Modelo de Locação-escala \(X\) tem um modelo de locação-escala se existem uma função \(g\) e as quantidades \(\mu\) e \(\sigma\) tais que \[ f(x\vert\mu,\sigma)=\frac{1}{\sigma}g\left(\frac{x-\mu}{\sigma}\right), \] logo \(\mu\) é o parâmetro de locação e \(\sigma\) é o parâmetro de escala.
#é modelo de locação-escala
media=c(-1,1) #a média assume os valores -1 ou 1
sigma=c(1,2) #o desvio padrão assume os valores 1 ou 2
x=seq(-10,10,0.1)
y_1= dnorm(x,media[1],sigma[1])
y_2= dnorm(x,media[1],sigma[2])
y_3= dnorm(x,media[2],sigma[1])
y_4= dnorm(x,media[2],sigma[2])
dados=data.frame(x,y_1,y_2,y_3,y_4)
colors <- c("y_1"="blue", "y_2"="red", "y_3"="green","y_4"="orange")
ggplot(dados, aes(x = x,y = y_1, color = "y_1")) +
geom_line() +
geom_line(aes(x = x,y = y_2, color = "y_2")) +
geom_line(aes(x = x,y = y_3, color = "y_3")) +
geom_line(aes(x = x,y = y_4, color = "y_4")) +
labs(x="x",
y="f(x)",
title=expression(N(mu,sigma^2)),
color = "Valores da média e variância") +
scale_color_manual(labels=c(
expression(mu==-1~"e"~sigma^2==1),
expression(mu==-1~"e"~sigma^2==4),
expression(mu==1~"e"~sigma^2==1),
expression(mu==1~"e"~sigma^2==4)),
values = colors)
x=seq(4,6,.5)
mu=5
sigma=2
f=dnorm(x,mean=5,sd=sigma)
g=1/sigma*dnorm((x-mu)/sigma,mean=0,sd=1)
temp=data.frame(x,f,g)
names(temp) = c("$x$","$f(x)$","$\\frac{1}{2}g(\\frac{x-5}{2})$")
temp %>%
kbl(escape = FALSE) %>%
kable_classic(full_width = F, html_font = "Cambria") %>%
kable_styling(bootstrap_options = c("striped","hold_position")) %>%
add_header_above(c("","$f(.)$ vem da N(5,4)","$g(.)$ vem da N(0,1)"))
\(f(.)\) vem da N(5,4)
|
\(g(.)\) vem da N(0,1)
|
|
---|---|---|
\(x\) | \(f(x)\) | \(\frac{1}{2}g(\frac{x-5}{2})\) |
4.0 | 0.1760327 | 0.1760327 |
4.5 | 0.1933341 | 0.1933341 |
5.0 | 0.1994711 | 0.1994711 |
5.5 | 0.1933341 | 0.1933341 |
6.0 | 0.1760327 | 0.1760327 |
Exemplo: Sejam \(X_1,\dots,X_n \sim N(\mu,\sigma^2)\) com \(\mu\) e \(\sigma^2\) desconhecidos, temos: \[ f\left(x \vert \mu, \sigma^2 \right)=\frac{1}{\sigma} \left\{\frac{1}{\sqrt{2\pi}} \exp\left[-\frac{1}{2} \left(\frac{ x-\mu}{\sigma}\right)^2\right] \right\}, \] logo \(\mu\) é o parâmetro de locação e \(\sigma\) é o parâmetro de escala.
tabela <- data.frame(
col0 = c("Cenários","Caso 1","Caso 2","Caso 3","Caso 4","Caso 5","Caso 6"),
col1 = c("priori de Jeffreys (é não informativa)","$\\mu \\sim$ N$(m_0,\\sigma_0^2$)","$\\lambda \\sim$ Gamma $(a,r)$","$p \\sim$ Beta$(a,b)$","$\\sigma^2 \\sim$ Gamma Inv. $(\\alpha,\\beta)$","$\\tau \\sim$ Gamma$(\\lambda,r)$","$p \\sim$ Beta$(a,b)$"),
col2 = c("Distribuição dos dados","$X_1,\\ldots,X_n \\sim$ N$(\\mu,\\sigma^2)$, com $\\sigma^2$ conhecido", "$X_1,\\ldots,X_n \\sim$ Poisson $(\\lambda)$", "$X \\sim$ Binomial$(n,p)$","$X_1,\\ldots,X_n \\sim$ N$(\\mu,\\sigma^2)$, com $\\mu$ conhecido","$X_1,\\ldots,X_n \\sim$ N$(\\mu,\\frac{1}{\\tau})$, com $\\mu$ conhecido","$X_1,\\ldots,X_n \\sim$ Geom$(p)$"),
col3 = c("Distribuição dos dados","$X_1,\\ldots,X_n \\sim$ N$(\\mu,\\sigma^2)$, com $\\sigma^2$ conhecido", "$X_1,\\ldots,X_n \\sim$ Poisson $(\\lambda)$", "$X \\sim$ Binomial$(n,p)$","$X_1,\\ldots,X_n \\sim$ N$(\\mu,\\sigma^2)$, com $\\mu$ conhecido","$X_1,\\ldots,X_n \\sim$ N$(\\mu,\\frac{1}{\\tau})$, com $\\mu$ conhecido","$X_1,\\ldots,X_n \\sim$ Geom$(p)$"))
tabela %>%
kbl(col.names = NULL,escape = FALSE) %>%
kable_classic(full_width = F, html_font = "Cambria") %>%
kable_styling(bootstrap_options = c("striped","hold_position"),
full_width = F)
Cenários | priori de Jeffreys (é não informativa) | Distribuição dos dados | Distribuição dos dados |
Caso 1 | \(\mu \sim\) N\((m_0,\sigma_0^2\)) | \(X_1,\ldots,X_n \sim\) N\((\mu,\sigma^2)\), com \(\sigma^2\) conhecido | \(X_1,\ldots,X_n \sim\) N\((\mu,\sigma^2)\), com \(\sigma^2\) conhecido |
Caso 2 | \(\lambda \sim\) Gamma \((a,r)\) | \(X_1,\ldots,X_n \sim\) Poisson \((\lambda)\) | \(X_1,\ldots,X_n \sim\) Poisson \((\lambda)\) |
Caso 3 | \(p \sim\) Beta\((a,b)\) | \(X \sim\) Binomial\((n,p)\) | \(X \sim\) Binomial\((n,p)\) |
Caso 4 | \(\sigma^2 \sim\) Gamma Inv. \((\alpha,\beta)\) | \(X_1,\ldots,X_n \sim\) N\((\mu,\sigma^2)\), com \(\mu\) conhecido | \(X_1,\ldots,X_n \sim\) N\((\mu,\sigma^2)\), com \(\mu\) conhecido |
Caso 5 | \(\tau \sim\) Gamma\((\lambda,r)\) | \(X_1,\ldots,X_n \sim\) N\((\mu,\frac{1}{\tau})\), com \(\mu\) conhecido | \(X_1,\ldots,X_n \sim\) N\((\mu,\frac{1}{\tau})\), com \(\mu\) conhecido |
Caso 6 | \(p \sim\) Beta\((a,b)\) | \(X_1,\ldots,X_n \sim\) Geom\((p)\) | \(X_1,\ldots,X_n \sim\) Geom\((p)\) |
O problema envolve as variáveis \(X\): a dose de um medicamento anti-alérgico em estudo, e \(Y\): tempo de duração do efeito (alívio dos sintomas alérgicos). Abaixo temos a representação gráfica dos dados observados Pelo gráfico, nós concluímos que uma relação linear (reta) é satisfatória para os dados. Também iremos supor que \(X\) é uma variável controlada pelo pesquisador (sem a presença de erros).
x=c(3,3,4,5,6,6,7,8,8,9)
y=c(9,5,12,9,14,16,22,18,24,22)
a=cbind(x,y)
tab_nums <- captioner(prefix = "Tabela")
tab_cap = tab_nums("tabela1","Dados do Exemplo")
datatable(as.data.frame(a),caption=tab_cap)
Figura 7: Diagrama de dispersão dos dados
Modelo Estatístico O modelo estatístico será o modelo de regressão simples com erros i.i.d. normais: \[
y_i=\beta_0+\beta_1 x_i + \epsilon_i, i=1,\ldots,n,
\] onde \(\beta_0\): intercepto da linha de regressão com o eixo \(y\);
\(\beta_1\): coeficiente de inclinação da reta: é o nº de unidades em \(y\) que mudam para cada unidade da variável independente \(x\).
\(\epsilon_i\): erros aleatórios com distribuição normal: \(\epsilon_i \sim N(0,\sigma^2)\).
Estimadores de mínimos quadrados da regressão Encontrar \(\widehat{\beta_0}\) e \(\widehat{\beta_1}\) que minimizam a soma de quadrados dos erros:
\(S(\beta_0,\beta_1)=\sum \limits_{i=1}^{n} \epsilon_i^2 = \sum \limits_{i=1}^{n} (y_i-\beta_0-\beta_1 x_i)^2\).
Então temos as equações normais:
\[ \frac{\partial S} {\partial \beta_0} =0 \text{ e } \frac{\partial S} {\partial \beta_1} =0. \]
A solução é dada por:
\[ \begin{array}{lll} \widehat{\beta_1}&=&\frac{\sum \limits_{i=1}^{n} (x_i-\bar{x})(y_i-\bar{y})}{\sum \limits_{i=1}^{n} (x_i-\bar{x})^2}\\ \widehat{\beta_0}&=&\bar{y}-\widehat{\beta_1}\bar{x}. \end{array} \]
Com respeito a variância \(\sigma_2\): \[ \widehat{\sigma_2}=\frac{SQR}{n-2}, \] ou seja, a estimativa da variância é igual à soma dos quadrados dos resíduos sobre o número graus de liberdade do modelo. Os intervalos de confiança e testes de hipóteses para \(\beta_0\) e \(\beta_1\) são baseados na distribuição t-student.
Voltando ao R:
- Método dos mínimos quadrados: cálculo das estimativas passo a passo
soma_xx=sum((x-mean(x))^2)
soma_xy=sum((x-mean(x))*(y-mean(y)))
beta1_hat=soma_xy/soma_xx
beta0_hat=mean(y)-beta1_hat*mean(x)
print(paste0("beta0_hat=",beta0_hat," & beta1_hat=",beta1_hat))
## [1] "beta0_hat=-1.07090464547677 & beta1_hat=2.74083129584352"
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.6333 -2.0128 -0.3741 2.0428 3.8851
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.0709 2.7509 -0.389 0.707219
## x 2.7408 0.4411 6.214 0.000255 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.821 on 8 degrees of freedom
## Multiple R-squared: 0.8284, Adjusted R-squared: 0.8069
## F-statistic: 38.62 on 1 and 8 DF, p-value: 0.0002555
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x 1 307.247 307.247 38.615 0.0002555 ***
## Residuals 8 63.653 7.957
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Shapiro-Wilk normality test
##
## data: residuals(a)
## W = 0.93227, p-value = 0.4706
Assumimos as seguintes distribuições a priori:
\(\beta_0 \sim N(0,a_0^2)\) com \(a_0\) conhecido \(\beta_0 \sim N(0,a_1^2)\) com \(a_1\) conhecido \(\sigma_2 \sim IG(b,d)\) com \(b\) e \(d\) conhecidos Iremos assumir independência a priori entre os parâmetros.
\[ \begin{array}{lll} L(\beta_0,\beta_1,\sigma^2)&=&\prod \limits_{i=1}^n \frac{1}{2 \pi \sigma^2} \exp\left[-\frac{1}{2\sigma^2}(y_i-\beta_0-\beta_1x_i)^2\right]\\ &=& (\sigma^2)^{-\frac{n}{2}} \exp\left[-\frac{1}{2\sigma^2}\sum \limits_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2\right] \end{array} \]
\[ \begin{array}{lll} f(\beta_0,\beta_1,\sigma^2 \mid \boldsymbol{x}, \boldsymbol{y}) &\propto& \exp\left[-\frac{\beta_0^2}{2a_0^2}\right] \exp\left[-\frac{\beta_1^2}{2a_1^2}\right] (\sigma^2)^{-(b+1)} \exp\left[-\frac{d}{\sigma^2}\right] (\sigma^2)^{-\frac{n}{2}} \exp\left[-\frac{1}{2\sigma^2}\sum \limits_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2\right]\\ &\propto& \exp\left[-\frac{\beta_0^2}{2a_0^2}\right] \exp\left[-\frac{\beta_1^2}{2a_1^2}\right] (\sigma^2)^{-(b+\frac{n}{2}+1)} \exp\left[-\frac{d}{\sigma^2}\right] \exp\left[-\frac{1}{2\sigma^2}\sum \limits_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2\right] \end{array} \]
\(\checkmark\) A marginal de \(\sigma^2\) é obtida da integração com respeito à \(\beta_0\) e \(\beta_1\): \[ f(\sigma^2\mid \boldsymbol{x}, \boldsymbol{y}) = \int \limits _{-\infty}^\infty \int \limits _{-\infty}^\infty f(\beta_0,\beta_1,\sigma^2 \mid \boldsymbol{x}, \boldsymbol{y}) d\beta_0 d\beta_1 \]
\(\checkmark\) A marginal de \(\beta_0\) é obtida da integração com respeito à \(\beta_1\): \[ f(\beta_0\mid \boldsymbol{x}, \boldsymbol{y}) = \int \limits _{-\infty}^\infty f(\beta_0,\beta_1 \mid \boldsymbol{x}, \boldsymbol{y}) d\beta_1 \]
\(\checkmark\) A marginal de \(\beta_1\) é obtida da integração com respeito à \(\beta_0\): \[ f(\beta_1\mid \boldsymbol{x}, \boldsymbol{y}) = \int \limits _{-\infty}^\infty f(\beta_0,\beta_1 \mid \boldsymbol{x}, \boldsymbol{y}) d\beta_0 \]
\(\checkmark\) A conjunta de \(\beta_0\) e \(\beta_1\) pode ser obtida analiticamente:
\[ \begin{array}{lll} f(\beta_0,\beta_1 \mid \boldsymbol{x}, \boldsymbol{y}) &\propto& \exp\left[-\frac{\beta_0^2}{2a_0^2}\right] \exp\left[-\frac{\beta_1^2}{2a_1^2}\right] \int \limits _{0}^\infty (\sigma^2)^{-(b+\frac{n}{2}+1)} \exp\left[-\frac{1}{\sigma^2} \left(d + \frac{1}{2}\sum \limits_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2\right)\right]d\sigma^2\\ &\propto& \exp\left[-\frac{\beta_0^2}{2a_0^2}\right] \exp\left[-\frac{\beta_1^2}{2a_1^2}\right] \left[d + \frac{1}{2}\sum \limits_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2\right]^{-\left(b+\frac{n}{2}\right)}. \end{array} \]
Tarefa: Provar este resultado. Dica: envolve a integral da distribuição
Gamma Invertida \(\left(b+\frac{n}{2},d+\frac{1}{2}\sum \limits_{i=1}^n (y_i - \beta_0 -\beta_1 x_i)^2\right)\) e o fato de que a integral de uma função de densidade sempre é igual a 1.
Observe que mesmo tendo obtido a integral, ela não tem forma conhecida - não conseguimos identificar esta na tábua de distribuições com suporte de \(-\infty\) a \(\infty\).
Já as outras marginais não têm forma fechada - não são obtidas analiticamente - integrais analíticas não são possíveis.
Devido à este inconveniente com respeito às integrais, nós recorremos às distribuições a posteriori condicionais. Este tópico está relacionado com métodos MCMC (método de Monte Carlo com cadeias de Markov) e o amostrador de GIBBS que veremos mais adiante. As distribuições As *posterioris} condicionais são facilmente obtidas: \(\checkmark\) A condicional de \(\sigma^2\) dado \(\beta_0\), \(\beta_1\) e os dados:
\[ \begin{array}{lll} &&f(\sigma^2 \mid \beta_0, \beta_1, \boldsymbol{x}, \boldsymbol{y}) \propto (\sigma^2)^ {-(b+\frac{n}{2}+1)} \exp \left[-\frac{1}{\sigma^2}\left(d+\frac{1}{2}\sum \limits_{i=1}^n (y_i - \beta_0 -\beta_1 x_i)^2\right) \right],\\ \text{ou seja, } &&\sigma^2 \mid \beta_0, \beta_1, \boldsymbol{x}, \boldsymbol{y} \sim IG \left(b+\frac{n}{2},d+\frac{1}{2}\sum \limits_{i=1}^n (y_i - \beta_0 -\beta_1 x_i)^2\right). \end{array} \]
a idéia de condicional nos diz que \(\beta_0\) e \(\beta_1\) são tratadas como constantes com respeito a \(\sigma^2\).
\(\checkmark\) A condicional de \(\beta_0\) dado \(\beta_1\), \(\sigma^2\) e os dados:
\[ \begin{array}{lll} &&f(\beta_0 \mid \beta_1, \sigma^2, \boldsymbol{x}, \boldsymbol{y}) \propto \exp\left[-\frac{\beta_0^2}{2a_0^2}\right] \exp\left[-\frac{1}{2\sigma^2}\sum \limits_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2\right]\\ && \textbf{ Ideia: }\text{expandir os termos e identificar uma distribuição normal! Tome } \mu_i^{(1)} = y_i - \beta_1 x_i\\ &&\propto \exp\left[-\frac{\beta_0^2}{2a_0^2}\right] \exp\left[-\frac{1}{2\sigma^2}\sum \limits_{i=1}^n (\beta_0-\mu_i^{(1)})^2\right] \\ &&\propto \exp\left[-\frac{\beta_0^2}{2a_0^2}\right] \exp\left[-\frac{1}{2\sigma^2} \left(n \beta_0^2 + 2\beta_0 \sum \limits_{i=1}^n \mu_i^{(1)} + \sum \limits_{i=1}^n \mu_i^{{(1)}^2}\right)\right] \\ &&\propto \exp\left[-\frac{\beta_0^2}{2} \left(\frac{1}{a_0^2}+\frac{n}{\sigma^2}\right)+\frac{\beta_0 \sum \limits_{i=1}^n \mu_i^{(1)} }{\sigma^2}\right], \text{ o termo } \sum \limits_{i=1}^n \mu_i^{{(1)}^2} \text{ "caiu" pois é constante com respeito a } \beta_0\\ && \propto \exp\left[-\frac{1}{2\left(\frac{1}{a_0^2}+\frac{n}{\sigma^2}\right)^{-1}} \left(\beta_0^2-\frac{2\beta_0 \sum \limits_{i=1}^n \mu_i^{(1)} }{\sigma^2 \left(\frac{1}{a_0^2}+\frac{n}{\sigma^2}\right)}\right)\right]. \text{ Mas } \left(\frac{1}{a_0^2}+\frac{n}{\sigma^2}\right)^{-1} = \left(\frac{\sigma^2+a_0^2n}{a_0^2 \sigma^2}\right)^{-1}= \left(\frac{a_0^2 \sigma^2}{\sigma^2+a_0^2n}\right)\\ && \propto \exp\left[-\frac{1}{2\left(\frac{a_0^2 \sigma^2}{\sigma^2+a_0^2n}\right)} \left(\beta_0^2-\frac{2\beta_0 \sum \limits_{i=1}^n \mu_i^{(1)} }{\sigma^2 \left(\frac{a_0^2 \sigma^2}{\sigma^2+a_0^2n}\right)}\right)\right], \text{ e simplificando um pouco mais: }\\ && \propto \exp\left[-\frac{1}{2\left(\frac{a_0^2 \sigma^2}{\sigma^2+a_0^2n}\right)} \left(\beta_0^2-\frac{2\beta_0 a_0^2 \sum \limits_{i=1}^n \mu_i^{(1)} }{ \sigma^2+a_0^2n}\right)\right] \text{ e completando quadrados: }\\ && \propto \exp\left[-\frac{1}{2\left(\frac{a_0^2 \sigma^2}{\sigma^2+a_0^2n}\right)} \left(\beta_0^2-\frac{2\beta_0 a_0^2 \sum \limits_{i=1}^n \mu_i^{(1)} }{ \sigma^2+a_0^2n} + \left(\frac{ a_0^2 \sum \limits_{i=1}^n \mu_i^{(1)} }{ \sigma^2+a_0^2n}\right)^2 \right)\right]\\ && \propto \exp\left[-\frac{1}{2\left(\frac{a_0^2 \sigma^2}{\sigma^2+a_0^2n}\right)} \left(\beta_0-\frac{ a_0^2 \sum \limits_{i=1}^n \mu_i^{(1)} }{ \sigma^2+a_0^2n}\right)^2\right]\\ && \text{ou seja, } \beta_0 \mid \beta_1, \sigma^2, \boldsymbol{x}, \boldsymbol{y} \sim N\left(\frac{ a_0^2 \sum \limits_{i=1}^n \mu_i^{(1)}}{ \sigma^2+a_0^2n},\frac{a_0^2 \sigma^2}{\sigma^2+a_0^2n}\right) \end{array} \]
\(\checkmark\) A condicional de \(\beta_1\) dado \(\beta_0\), \(\sigma^2\) e os dados: Note que o parâmetro \(\beta_1\) acompanha o termo \(x_i\):
\[ \begin{array}{lll} &&f(\beta_1 \mid \beta_0, \sigma^2, \boldsymbol{x}, \boldsymbol{y}) \propto \exp\left[-\frac{\beta_1^2}{2a_1^2}\right] \exp\left[-\frac{1}{2\sigma^2}\sum \limits_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2\right]. \text{ Tome } \mu_i^{(2)} = y_i - \beta_0 \\ && \propto \exp\left[-\frac{\beta_1^2}{2a_1^2}\right] \exp\left[-\frac{1}{2\sigma^2}\sum \limits_{i=1}^n (\beta_1 x_i -\mu_i^{(2)})^2\right]\\ && \propto \exp\left[-\frac{\beta_1^2}{2a_1^2}\right] \exp\left[-\frac{1}{2\sigma^2} \left(\sum \limits_{i=1}^n \beta_1^2 x_i^2 -2\beta_1\sum \limits_{i=1}^n \mu_i^{(2)} x_i + \sum \limits_{i=1}^n \mu_i^{(2)^2} \right) \right]\\ && \propto \exp\left[-\frac{\beta_1^2}{2a_1^2}\right] \exp\left[-\frac{1}{2\sigma^2} \left(\sum \limits_{i=1}^n \beta_1^2 x_i^2 -2\beta_1\sum \limits_{i=1}^n \mu_i^{(2)} x_i \right) \right]\\ && \propto \exp\left[-\frac{\beta_1^2}{2}\left(\frac{1}{a_1^2}+\frac{\sum \limits_{i=1}^n x_i^2}{\sigma^2}\right)+\frac{\beta_1\sum \limits_{i=1}^n \mu_i^{(2)} x_i}{\sigma^2}\right]\\ && \propto \exp\left[-\frac{1}{2 \left(\frac{1}{a_1^2}+\frac{\sum \limits_{i=1}^n x_i^2}{\sigma^2}\right)^{-1}}\left(\beta_1^2-\frac{2\beta_1\sum \limits_{i=1}^n \mu_i^{(2)} x_i}{\sigma^2 \left(\frac{1}{a_1^2}+\frac{\sum \limits_{i=1}^n x_i^2}{\sigma^2}\right)}\right)\right] \text{ Mas } \left(\frac{1}{a_1^2}+\frac{\sum \limits_{i=1}^n x_i^2}{\sigma^2}\right)^{-1}=\frac{a_1^2 \sigma^2}{\sigma^2+a_1^2 \sum \limits_{i=1}^n x_i^2}\\ &&\propto \exp\left[-\frac{1}{2 \left(\frac{a_1^2 \sigma^2}{\sigma^2+a_1^2 \sum \limits_{i=1}^n x_i^2}\right)}\left(\beta_1^2-\frac{2\beta_1\sum \limits_{i=1}^n \mu_i^{(2)} x_i}{\sigma^2 \left(\frac{a_1^2 \sigma^2}{\sigma^2+a_1^2 \sum \limits_{i=1}^n x_i^2}\right)}\right)\right]\\ &&\propto \exp\left[-\frac{1}{2 \left(\frac{a_1^2 \sigma^2}{\sigma^2+a_1^2 \sum \limits_{i=1}^n x_i^2}\right)}\left(\beta_1^2-\frac{2 a_1^2 \beta_1\sum \limits_{i=1}^n \mu_i^{(2)} x_i}{\sigma^2+a_1^2 \sum \limits_{i=1}^n x_i^2}\right)\right]\\ &&\propto \exp\left[-\frac{1}{2 \left(\frac{a_1^2 \sigma^2}{\sigma^2+a_1^2 \sum \limits_{i=1}^n x_i^2}\right)}\left(\beta_1^2-\frac{2 a_1^2 \beta_1\sum \limits_{i=1}^n \mu_i^{(2)} x_i}{\sigma^2+a_1^2 \sum \limits_{i=1}^n x_i^2}+\left( \frac{a_1^2 \sum \limits_{i=1}^n \mu_i^{(2)} x_i}{\sigma^2+a_1^2 \sum \limits_{i=1}^n x_i^2}\right)^2\right)\right]\\ &&\propto \exp\left[-\frac{1}{2 \left(\frac{a_1^2 \sigma^2}{\sigma^2+a_1^2 \sum \limits_{i=1}^n x_i^2}\right)}\left(\beta_1-\frac{a_1^2 \sum \limits_{i=1}^n \mu_i^{(2)} x_i}{\sigma^2+a_1^2 \sum \limits_{i=1}^n x_i^2}\right)^2\right]\\ && \text{ou seja, } \beta_1 \mid \beta_0, \sigma^2, \boldsymbol{x}, \boldsymbol{y} \sim N\left(\frac{a_1^2 \sigma^2}{\sigma^2+a_1^2 \sum \limits_{i=1}^n x_i^2},\frac{a_1^2 \sum \limits_{i=1}^n \mu_i^{(2)} x_i}{\sigma^2+a_1^2 \sum \limits_{i=1}^n x_i^2}\right) \end{array} \]
\(\checkmark\) Por fim, a condicional de \(\sigma^2\) dado \(\beta_1\), \(\beta_0\) e os dados:
\[ \begin{array}{lll} f(\sigma^2 \mid \beta_0,\beta_1,\boldsymbol{x}, \boldsymbol{y}) &\propto& (\sigma^2)^{-(b+\frac{n}{2}+1)} \exp\left[-\frac{d}{\sigma^2}\right] \exp\left[-\frac{1}{2\sigma^2}\sum \limits_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2\right]\\ && \text{ou seja, } \sigma^2 \mid \beta_0,\beta_1,\boldsymbol{x}, \boldsymbol{y} \sim \text{ IG } \left(b+\frac{n}{2},d+\frac{1}{2}\sum \limits_{i=1}^n (y_i - \beta_0 -\beta_1 x_i)^2\right) \end{array} \]
\(\checkmark\) Esta metodologia de encontrar as posterioris condicionais para os coeficientes da regressão se extende ao modelo de regressão linear múltipla de maneira análoga. \(\checkmark\) Uma outra alternativa a este problema é utilizar uma *priori} conjunta conjugada. Veja o texto: Exemplo Regressao.pdf.
Aplicação da Metodologia
\(\checkmark\) Atribuir prioris não informativas para \(\beta_0\) e \(\beta_1\): Normais com média igual a zero e variância grande, por exemplo \(10^6\).
\(\checkmark\) Atribuir prioris não informativas para \(\sigma^2\). A distribuição \(IG (0.001,0.001)\) é não informativa, e é muito próxima à priori de Jeffreys para o modelo normal com média e variância desconhecidos. Tarefa: Verificar! \(\checkmark\) Utilizar o algoritmo de Gibbs. Veja descrição em sala com aplicação no R e Winbugs.