[1] 0.3333333
[1] 3333.333
FAEST/ICEN/UFPA
Na inferência bayesiana, a incerteza sobre o parâmetro desconhecido \(\theta\) é modelada por meio de uma distribuição de probabilidade, chamada distribuição a priori e denotada por \(p(\theta)\).
Assim, \(\theta\) é tratado como uma variável aleatória.
Enquanto a inferência clássica utiliza a distribuição amostral de uma estatística (com \(\theta\) fixo e desconhecido), a abordagem bayesiana baseia-se na distribuição a posteriori, obtida pela aplicação do Teorema de Bayes:
\[ p(\theta|x) = \frac{f(x|\theta)p(\theta)}{\int_\Theta f(x|\theta)p(\theta)d\theta} \]
Em que:
Como o denominador não depende de \(\theta\), pode-se escrever:
\[ p(\theta|x) \propto f(x|\theta)p(\theta) \]
Essa relação mostra que a posteriori é proporcional ao produto da verossimilhança e da priori, o que constitui a base da inferência bayesiana.
A escolha de \(p(\theta)\) é um ponto crítico da análise bayesiana. Essa distribuição deve refletir o conhecimento prévio do pesquisador e respeitar o espaço paramétrico.
Ela pode ser classificada de várias formas:
Própria: integra-se a 1 (função densidade válida);
Imprópria: não integra a 1 (usada em priores não informativos).
Subjetiva: independe da amostra (baseada em conhecimento prévio);
Objetiva: pode depender dos dados (por exemplo, priori de Jeffreys).
Não informativa: representa ausência de conhecimento prévio (proporcional a uma constante);Informativa: incorpora conhecimento anterior sobre o parâmetro.Uma priori conjugada é uma distribuição escolhida de forma que, após atualizar com os dados, a posteriori pertença à mesma família de distribuições.
Essa escolha simplifica muito o cálculo da posteriori e é amplamente usada em aplicações práticas, como a precificação de seguros.
Dizemos que uma distribuição \(p(\theta)\) é conjugada à verossimilhança \(p(x|\theta)\) se a distribuição a posteriori \(p(\theta|x)\) tem a mesma forma funcional que \(p(\theta)\).
\[ p(\theta | x) \propto p(x | \theta) \, p(\theta) \]
👉 Assim, basta atualizar os parâmetros da distribuição para obter a posteriori.
| Verossimilhança | Distribuição Conjugada a Priori | Distribuição a Posteriori | Aplicação na Precificação de Seguros |
|---|---|---|---|
| Binomial | Beta\((\alpha, \beta)\) | Beta\((\alpha + x,\ \beta + n - x)\) | Estimar probabilidade de sinistro (frequência de ocorrências). |
| Poisson | Gama\((\alpha, \beta)\) | Gama\((\alpha + \sum x_i,\ \beta + n)\) | Modelar frequência de sinistros por tempo (número médio de ocorrências anuais). |
| Verossimilhança | Distribuição Conjugada a Priori | Distribuição a Posteriori | Aplicação na Precificação de Seguros |
|---|---|---|---|
| Exponencial | Gama\((\alpha, \beta)\) | Gama\((\alpha + n,\ \beta + \sum x_i)\) | Avaliar tempo médio entre sinistros ou duração de contratos. |
| Normal (σ² conhecida) | Normal\((\mu_0, \tau_0^2)\) | Normal\((\mu_n, \tau_n^2)\) | Estimar valor médio de indenização ou custos médios de reparo. |
| Verossimilhança | Distribuição Conjugada a Priori | Distribuição a Posteriori | Aplicação na Precificação de Seguros |
|---|---|---|---|
| Normal (μ e σ² desconhecidos) | Normal–Gama | Normal–Gama (atualizada) | Modelagem conjunta de média e variabilidade dos custos. |
| Multinomial | Dirichlet\((\alpha_1,\ldots,\alpha_k)\) | Dirichlet\((\alpha_i + x_i)\) | Precificação de múltiplas categorias de risco (ex.: tipo de veículo, região, faixa etária). |
Quando a variável aleatória segue uma Binomial, a conjugada natural da probabilidade de sucesso θ é uma distribuição Beta.
Verossimilhança:
\[ X | \theta \sim \text{Binomial}(n, \theta) \]
Priori:
\[ \theta \sim \text{Beta}(\alpha, \beta) \]
Posteriori (conjugada):
\[ \theta | x \sim \text{Beta}(\alpha + x,\ \beta + n - x) \]
| Parâmetro | Interpretação |
|---|---|
alpha |
Número “fictício” de sucessos anteriores (crença prévia) |
beta |
Número “fictício” de fracassos anteriores |
x |
Sucessos observados nos dados |
n |
Total de tentativas (ou contratos, no caso de seguros) |
A conjugação Beta–Binomial pode ser entendida como uma média ponderada entre:
a informação anterior (priori), e
os dados observados (verossimilhança).
\[ \text{Posteriori} = \text{Atualização}(\text{Priori}, \text{Dados}) \]
Cada observação ajusta os “contadores” da distribuição Beta:
Aumenta alpha quando há sinistro (sucesso);
Aumenta beta quando não há sinistro.
Suponha que a probabilidade de sinistro \(\theta\) segue a priori:
\[ \theta \sim \text{Beta}(2, 5) \]
Após observar 3 sinistros em 10 contratos, temos:
\[ \theta | x \sim \text{Beta}(2 + 3,\ 5 + 10 - 3) = \text{Beta}(5, 12) \]
A média a posteriori é:
\[ E[\theta|x] = \frac{5}{5 + 12} \approx 0.294 \]
Na precificação:
Cada contrato pode ou não gerar sinistro → modelo Binomial.
A probabilidade de sinistro é incerta → priori Beta.
A conjugação Beta–Binomial permite atualizar as crenças e prever sinistros futuros de forma simples e coerente.
Usadas quando a informação prévia é escassa ou se deseja que os dados dominem a inferência.
O que é: Assume que todos os valores possíveis de \(\theta\) são igualmente prováveis em um intervalo. Priori: \(\pi(\theta) \propto 1\).Objetivo: Introduzir o mínimo de informação prévia.Exemplo: Um novo tipo de seguro (nova taxa \(\lambda\)). Se não há dados históricos, assume-se que \(\lambda\) pode ser qualquer valor de 0 a um limite máximo razoável com a mesma probabilidade.O que é: Uma priori objetiva baseada na Informação de Fisher.Vantagem: Garante que a inferência não mude se você escolher modelar, por exemplo, \(\theta\) ou \(\log(\theta)\).Exemplo: Para a taxa de sinistros \(\lambda\) (Poisson), a Prior de Jeffreys é \(\pi(\lambda) \propto \frac{1}{\sqrt{\lambda}}\).Após observar os dados \(x\), a distribuição a posteriori \(p(\theta|x)\) contém toda a informação atualizada sobre \(\theta\).
Inferências pontuais podem ser obtidas por:
Média a posteriori: \(E[\theta|x]\)Moda a posteriori (MAP): valor de \(\theta\) que maximiza \(p(\theta|x)\)Mediana a posteriori: \(P(\theta \le \tilde{\theta}|x) = 0.5\)Intervalos de credibilidade podem ser obtidos diretamente da posteriori.
ExemploUma seguradora oferece um seguro residencial contra incêndio. Ainda há poucos dados disponíveis: em 10 contratos observados no último ano, ocorreram 3 sinistros.
Queremos estimar a probabilidade de ocorrência de sinistro por contrato:
\[ \theta = P(\text{sinistro}) \]
Como cada contrato pode ou não ter sinistro:
\[ X \sim \text{Binomial}(n=10, \theta) \]
A seguradora não possui crenças anteriores sobre \(\theta\),
então adota a priori uniforme, ou seja:
\[ \theta \sim \text{Uniforme}(0,1) \]
Equivalentemente:
\[ \theta \sim \text{Beta}(1,1) \]
Com \(x=3\) sinistros em \(n=10\) contratos,
a posteriori segue uma distribuição Beta com parâmetros atualizados:
\[ \theta | x \sim \text{Beta}(x + 1, n - x + 1) \]
Substituindo os valores:
\[ \boxed{\theta | x \sim \text{Beta}(4,8)} \]
A média a posteriori é:
\[ E[\theta | x] = \frac{4}{4 + 8} = \frac{1}{3} \approx 0.333 \]
O valor estimado de \(\theta\) indica um sinistro a cada três contratos.
Se o custo médio por sinistro é \(C = R\$10.000\),
o prêmio puro esperado é:
\[ \text{Prêmio Bayesiano} = C \times E[\theta|x] = 10.000 \times 0.333 = R\$3.333 \]
# Dados do problema
n <- 10
x <- 3
custo <- 10000
# Priori Uniforme (Beta(1,1))
alpha_prior <- 1
beta_prior <- 1
# Posteriori
alpha_post <- alpha_prior + x
beta_post <- beta_prior + (n - x)
# Estimativa Bayesiana
theta_bayes <- alpha_post / (alpha_post + beta_post)
premio_puro <- theta_bayes * custo
theta_bayes
premio_puro[1] 0.3333333
[1] 3333.333
A distribuição preditiva posterior é utilizada quando queremos prever novos sinistros, e não apenas estimar o parâmetro de probabilidade de sinistro (theta).
Após observar os dados, temos a distribuição a posteriori para theta, que representa nossa crença sobre a probabilidade de sinistro.
Mas ainda existe incerteza sobre theta.
Para incorporar essa incerteza nas previsões de novos contratos, usamos:
\[ p(y_{novo} | x) = \int p(y_{novo} | \theta)\, p(\theta | x)\, d\theta \]
Essa expressão calcula a probabilidade preditiva de novos sinistros, considerando todas as possíveis probabilidades theta, ponderadas pela incerteza da posteriori.
O modelo de sinistros segue uma distribuição Binomial, pois cada contrato pode ou não ter sinistro:
\[ Y | \theta \sim \text{Binomial}(m, \theta) \]
A incerteza sobre theta é modelada pela distribuição Beta, proveniente da posteriori:
\[ \theta | x \sim \text{Beta}(\text{alpha_post}, \text{beta_post}) \]
A combinação dessas duas distribuições (Binomial e Beta) leva a uma distribuição Beta-Binomial:
\[ Y | x \sim \text{Beta-Binomial}(m, \text{alpha_post}, \text{beta_post}) \]
Essa distribuição incorpora a variabilidade dos dados futuros e a incerteza sobre o parâmetro, sendo portanto mais realista.
O intervalo de credibilidade é uma medida de incerteza bayesiana sobre o parâmetro de interesse — neste caso, a probabilidade de sinistro (theta).
Enquanto o intervalo de confiança clássico (frequentista) se baseia em amostras hipotéticas repetidas, o intervalo de credibilidade é obtido diretamente da distribuição a posteriori, representando a probabilidade de que o parâmetro esteja em determinado intervalo.
Dada uma posteriori \(p(\theta | x)\), o intervalo de credibilidade de 95% é o intervalo \([a, b]\) tal que:
\[ P(a \leq \theta \leq b \mid x) = 0.95 \]
Isso significa que, com base nos dados observados e na informação prévia, há 95% de probabilidade de que o verdadeiro valor de \(\theta\) esteja entre a e b.
| Aspecto | Intervalo de Confiança (Clássico) | Intervalo de Credibilidade (Bayesiano) |
|---|---|---|
| Base | Amostragem repetida | Distribuição a posteriori |
| Interpretação | O intervalo contém o valor verdadeiro em 95% das amostras possíveis | Há 95% de probabilidade de que o parâmetro esteja dentro do intervalo |
| Natureza | Frequencista | Probabilística |
| Depende de priori | Não | Sim |
IMPORTANTE
Intervalo de confiança: Não podemos dizer que há 95% de chance de o parâmetro estar dentro do intervalo - o parâmetro é fixo, o intervalo é aleatório.
Intervalo de credibilidade: Aqui o parâmetro é tratado como uma variável aleatória - o intervalo é fixo.
O intervalo de credibilidade mostra onde o parâmetro é mais plausível, dados:
O que sabíamos antes (a priori), e
O que observamos nos dados (verossimilhança).
No exemplo da posteriori Beta(4,8), ele indicará a faixa mais provável para a chance real de sinistro.
O intervalo de credibilidade de 95% mostra os valores mais prováveis para a verdadeira probabilidade de sinistro.
Para Beta(4,8):
\[IC_{95\%} = [0,11; 0,61]\]
Há 95% de probabilidade de que theta esteja entre 0,11 e 0,61.
A média posteriori é round(media_post, 2) \(\rightarrow\) probabilidade média de sinistro \(\approx\) 33%.
O valor médio da posteriori (0,33) implica um prêmio puro de aproximadamente R$3.333,00, considerando um custo médio de sinistro de R$ 10.000.
O intervalo [0,11; 0,61] indica que o prêmio realista pode variar entre R$ 1.100,00 e R$ 6.100,00, refletindo a incerteza decorrente de poucos dados.
Essa faixa auxilia a seguradora a definir uma margem de segurança sobre o prêmio médio, garantindo sustentabilidade diante da variabilidade de risco.
O intervalo de credibilidade é uma forma intuitiva e probabilística de expressar incerteza.
Ele respeita o raciocínio bayesiano, pois parte da crença anterior e a atualiza com os dados.
Em precificação de seguros, o intervalo ajuda a:
Dados: Insurance, disponível no pacote MASS do R.
Este banco contém informações reais de seguros automotivos na Suíça, sendo amplamente usado em exemplos de modelagem atuarial e de risco.
| Variável | Tipo | Descrição |
|---|---|---|
District |
Fator (1–4) | Região geográfica do segurado. |
Group |
Fator (1–4) | Grupo de risco do veículo ou do segurado. |
Age |
Fator (1–4) | Faixa etária do segurado. |
Holders |
Numérica | Número de apólices (contratos) emitidas naquele grupo. |
Claims |
Numérica | Número de sinistros (ocorrências de acidentes) reportados naquele grupo. |
📊 Objetivo: Estimar a probabilidade média de sinistro
\[\theta = \frac{\text{Claims}}{\text{Holders}}\]
usando inferência bayesiana, e com base nela calcular os prêmios puro e conservador.
library(MASS)
data("Insurance")
head(Insurance, 5)
summary(Insurance)
# Totais agregados
n <- sum(Insurance$Holders) # total de apólices
x <- sum(Insurance$Claims) # total de sinistros
cat("Total de apólices:", n, "\n")
cat("Total de sinistros:", x, "\n")
cat("Taxa bruta de sinistros:", round(x/n, 7)) District Group Age Holders Claims
1 1 <1l <25 197 38
2 1 <1l 25-29 264 35
3 1 <1l 30-35 246 20
4 1 <1l >35 1680 156
5 1 1-1.5l <25 284 63
District Group Age Holders Claims
1:16 <1l :16 <25 :16 Min. : 3.00 Min. : 0.00
2:16 1-1.5l:16 25-29:16 1st Qu.: 46.75 1st Qu.: 9.50
3:16 1.5-2l:16 30-35:16 Median : 136.00 Median : 22.00
4:16 >2l :16 >35 :16 Mean : 364.98 Mean : 49.23
3rd Qu.: 327.50 3rd Qu.: 55.50
Max. :3582.00 Max. :400.00
Total de apólices: 23359
Total de sinistros: 3151
Taxa bruta de sinistros: 0.1348945
Cada linha representa uma combinação de região, grupo e faixa etária.
As colunas Holders e Claims nos permitem observar a frequência de sinistros por grupo.
Essa estrutura permite aplicar a inferência Bayesiana conjugada:
Priori: crença inicial sobre o risco de sinistro.
Verossimilhança: dados observados (Claims / Holders).
Posteriori: atualização das crenças após observar os dados.
Verossimilhança: X \(\sim\) Binomial(\(n, \theta\))
Priori: \(\theta \sim\) Beta(1,1) (Uniforme)
Posteriori: \(\theta | x \sim\) Beta(\(x+1,n-x+1\))
alpha_prior <- 1
beta_prior <- 1
alpha_post <- alpha_prior + x
beta_post <- beta_prior + (n - x)
media_post <- alpha_post / (alpha_post + beta_post)
ic_95 <- qbeta(c(0.025, 0.975), alpha_post, beta_post)
cat("Número de apólices:", n, "\n")
cat("Número de sinistros:", x, "\n")
cat("Probabilidade média de sinistro:", round(media_post, 7), "\n")
cat("Intervalo de credibilidade 95%:", round(ic_95, 4), "\n")Intervalo de credibilidade e Distribuição posteriori
Número de apólices: 23359
Número de sinistros: 3151
Probabilidade média de sinistro: 0.1349257
Intervalo de credibilidade 95%: 0.1306 0.1393
Custo médio (R$): 10000
Prêmio puro estimado (R$): 1349.26
Prêmio conservador (R$): 1393.36
Para m=10 novos contratos
Distribuição preditiva
Estatísticas preditivas e prêmios
media_pred <- m * alpha_post / (alpha_post + beta_post)
variancia_pred <- m * alpha_post * beta_post * (alpha_post + beta_post + m) /
((alpha_post + beta_post)^2 * (alpha_post + beta_post + 1))
cat("Média preditiva (nº esperado de sinistros):", round(media_pred, 4), "\n")
cat("Variância preditiva:", round(variancia_pred, 4), "\n")
# Cálculo dos prêmios
custo_sinistro <- 10000
premio_puro <- media_post * custo_sinistro
premio_conservador <- ic_95[2] * custo_sinistro
cat("Prêmio puro esperado (R$):", round(premio_puro, 2), "\n")
cat("Prêmio conservador (R$):", round(premio_conservador, 2), "\n")Média preditiva (nº esperado de sinistros): 1.3493
Variância preditiva: 1.1677
Prêmio puro esperado (R$): 1349.26
Prêmio conservador (R$): 1393.36
Considerações
A posterior Beta(\(x+1, n–x+1\)) concentra a probabilidade em valores baixos de \(\theta\), refletindo a baixa taxa de sinistros observada.
A distribuição preditiva mostra o número provável de sinistros em novos contratos.
O prêmio puro baseia-se na média da posteriori (cenário esperado).
O prêmio conservador usa o limite superior do IC 95% (cenário prudente).
Considerações
Conforme aumenta o número de sinistros observados, a posteriori se desloca para valores maiores de \(\theta\).
Isso aumenta o prêmio puro esperado, e mais ainda o prêmio conservador.
A abordagem bayesiana permite que essas mudanças sejam gradualmente incorporadas, refletindo o aprendizado da seguradora à medida que acumula novos dados.
Fluxo Conceitual da Inferência Bayesiana Aplicada à Precificação
\[ \textbf{Priori: } \theta \sim \text{Beta}(\alpha, \beta) \] Representa o conhecimento prévio sobre a probabilidade de sinistro.
Incorporação de dados
\[ \textbf{Verossimilhança: } X \mid \theta \sim \text{Binomial}(n, \theta) \] Os dados observados (sinistros) atualizam a informação sobre \(\theta\).
Atualização Bayesiana
\[ \textbf{Posteriori: } \theta \mid X \sim \text{Beta}(\alpha + x, \beta + n - x) \] Combinação de crença anterior + evidência dos dados → nova crença sobre \(\theta\).
Previsão
Distribuição Preditiva: \[ Y \mid X \sim \text{Beta–Binomial}(m, \alpha + x, \beta + n - x) \] Predição do número de sinistros em novos contratos.
Decisão Atuarial
\[ \textbf{Prêmio Esperado: } \pi = C \cdot E[\theta \mid X] \] \[ \textbf{Prêmio Conservador: } \pi_c = C \cdot q_{0.95}(\theta \mid X) \]
Em que:
Fluxo Bayesiano Resumido:
🟦 Priori
⬇️
🟧 Dados (Verossimilhança)
⬇️
🟥 Posteriori
⬇️
🟩 Preditiva
⬇️
🟨 Decisão / Precificação
| Aspecto | Abordagem Clássica | Abordagem Bayesiana |
|---|---|---|
| Base conceitual | Frequencista | Probabilística (subjetiva) |
| Uso de informação prévia | Não utiliza | Incorporada formalmente |
| Aspecto | Abordagem Clássica | Abordagem Bayesiana |
|---|---|---|
| Intervalos | De confiança (repetição amostral) | De credibilidade (interpretação direta) |
| Adaptação a novos dados | Requer reanálise | Atualização incremental |
| Complexidade | Menor | Maior (mas mais informativa) |
Ehlers, R. S. (2007) Introducao a Inferencia Bayesiana. Disponvel em http://www.leg.ufpr.br/~paulojus/CE227/ce227.pdf. Acesso em: 30/10/2025.
Paulino, C. D.; Turkman, M. A. A.; Murteira, B. Estatstica Bayesiana.Fundacao Calouste Gulbenkian, ISBN 972-31-1043-1, Lisboa 2003