Unidade II - Princípio da Verossimilhança

require(ggplot2)

## Loading required package: ggplot2

0.0.1 prioris não informativas

As prioris não informativas estão presentes quando se espera que a informação dos dados seja dominante, significa que a informação a priori é vaga, então temos o conceito de “conhecimento vago”, “não informação” ou “ignorância a priori”.
Referências sobre prioris não informativas estão em , e .

0.0.2 priori Uniforme

É uma priori intuitiva porque todos os possíveis valores do parâmetro \(\theta\) são igualmente prováveis: \[ f(\theta)\propto k, \] com \(\theta\) variando em um subconjunto da reta de modo que nenhum valor particular tem preferência (Bayes, 1763).

A priori uniforme, no entanto, apresenta algumas dificuldades:

Se o intervalo de variação de \(\theta\) for a reta real então a distribuição é imprópria: \[ \int \limits_{-\infty}^{\infty} f(\theta )d\theta =\infty, \] mas este não chega a ser um impedimento para a escolha de prioris, como veremos mais adiante.
Se \(\phi =g(\theta )\) é uma reparametrização não linear monótona de \(\theta\) então a priori para o parâmetro \(\phi\) será: \[ f(\phi)=f(\theta(\phi))\left\vert\frac{d\theta}{d\phi}\right\vert\propto \left\vert\frac{d\theta}{d\phi}\right\vert, \] e vemos pelo Teorema de transformação de variáveis que a priori para \(\phi\) não é uniforme.

0.0.3 priori de Jeffreys

É uma priori construída a partir da medida de informação esperada de Fisher, proposta por Jeffreys (1961).

é uma priori imprópria;
é invariante a transformações \(1\) a \(1\).

Definição: Medida de informação esperada de Fisher Considere uma única observação \(X\) com f.d.p. indexada pelo parâmetro \(\theta\): \(f(x \vert \theta)\). A medida de informação esperada de Fisher de \(\theta\) através de \(X\) é definida como \[ \displaystyle I(\theta)=E \left[-\frac{\partial^2\log f(x \vert \theta)}{\partial\theta^2}\right], \] em que a esperança matemática é tomada em relação à distribuição amostral \(f(x \vert \theta)\) (a esperança é com respeito a \(X\) e não com respeito a \(\theta\)). - A informação esperada de Fisher \(I(\theta)\) é uma medida de informação global.

Extendendo esta definição para uma amostra i.i.d. \(X_1,X_2,\ldots,X_n\), temos: \(f(\boldsymbol{x} \vert \theta)=\prod \limits_{i=1}^n f(x_i \vert \theta)\) e \[ \displaystyle I(\theta)=E \left[-\frac{\partial^2\log f(\boldsymbol{x} \vert \theta)}{\partial\theta^2}\right], \] é a informação esperada de Fisher de \(\theta\) através do vetor \(\boldsymbol{x}\).

Definição: priori de Jeffreys A priori de Jeffreys é dada por: \[ \sqrt{I(\theta)}. \]

No caso multiparamétrico (mais de um parâmetro), a medida de Informação de Fisher é dada de forma matricial, então temos: \[ \sqrt{\left| \text{det}\left[I(\boldsymbol{\theta})\right]\right|}. \]

Exemplo: Sejam \(X_1,\ldots,X_n \sim \text{Poisson} (\theta)\).

\[ \begin{array}{lll} \log f(\boldsymbol{x} \vert \theta) &=&-n\theta + \sum_{i=1}^n x_i \log (\theta) - \log\left(\prod_{i=1}^n x_i!\right) \\ \frac{\partial \log f(\boldsymbol{x} \vert\theta)}{\partial\theta}&=&-n+\frac{\sum_{i=1}^n x_i}{\theta}\\ \frac{\partial^2 \log f(\boldsymbol{x} \vert \theta)}{\partial\theta^2}&=&-\frac{\sum_{i=1}^n x_i}{\theta^2}\\ I(\theta) &=& \frac{n}{\theta}\\ &\propto& \frac{1}{\theta}\\ \end{array} \]

A priori de Jeffreys para \(\theta\) no modelo Poisson é \(f(\theta)\propto\theta^{-1/2}\);
Esta priori também pode ser obtida tomando-se a priori conjugada \(\text{Gamma}(\alpha,\beta)\) com \(\alpha=\frac{1}{2}\) e \(\beta \rightarrow 0\). Note que o parâmetro \(\beta\) é sempre positivo, por isso a noção de “tender a zero”. Tarefa: verificar;
Em geral, quando o modelo admite priori conjugada, basta fixar um dos parâmetros da priori conjugada e o outro parâmetro “tender a zero”, resultando na priori de Jeffreys;
A priori de Jeffreys não satisfaz o princípio da verossimilhança, pois a informação esperada de Fisher depende da distribuição amostral (o cálculo das esperanças matemáticas podem ser diferentes se os modelos forem diferentes como no exemplo modelos Binomial e Binomial-Negativa).
A priori de Jeffreys apresenta algumas particularidades nos modelos de locação-escala, como veremos a seguir.

0.1 Modelos de locação-escala

Modelo de Locação \(X\) tem um modelo de locação se existem uma função \(g\) e uma quantidade \(\mu\) tais que: \[ f(x \vert \mu)=g(x-\mu), \] logo \(\mu\) é o parâmetro de locação.

A definição se extende para o caso multiparamétrico;
Exemplo: distribuição normal com variância conhecida é um modelo de locação:

mu=c(-1,0,1)  #cria um vetor de médias de -1, 0 e 1
sigma=2 #fixa o desvio padrao em 2, ou seja, a variancia é igual a 4
x=seq(-10,10,0.1)
y_1=dnorm(x,mean=mu[1],sd=sigma)
y_2=dnorm(x,mean=mu[2],sd=sigma)
y_3=dnorm(x,mean=mu[3],sd=sigma)
dados=data.frame(x,y_1,y_2,y_3)

colors <- c("y_1"="blue", "y_2"="red", "y_3"="green")

ggplot(dados, aes(x = x,y = y_1, color = "y_1")) +
    geom_line() +
    geom_line(aes(x = x,y = y_2, color = "y_2")) +
    geom_line(aes(x = x,y = y_3, color = "y_3")) +
    labs(x="x",
         y="f(x)",
         title=expression(N(mu,4)),
         color = "Valores da média") +
    scale_color_manual(labels=c(expression(mu==-1),expression(mu==0),expression(mu==1)),values = colors)

È possivel calcular valores de uma normal não central a partir da normal centrada no zero

x=seq(4,6,.5)
f=  dnorm(x,mean=5,sd=2)
g=  dnorm(x-5,mean=0,sd=2)
temp=data.frame(x,f,g)

require(kableExtra)

## Loading required package: kableExtra

names(temp) = c("$x$","$f(x)$","$g(x-5$)")
temp %>%
   kbl(escape = FALSE) %>%
 kable_classic(full_width = F, html_font = "Cambria") %>%
kable_styling(bootstrap_options = c("striped","hold_position")) %>%
 add_header_above(c("","$f(.)$ vem da N(5,4)","$g(.)$ vem da N(0,4)"))

	\(f(.)\) vem da N(5,4)	\(g(.)\) vem da N(0,4)
\(x\)	\(f(x)\)	\(g(x-5\))
4.0	0.1760327	0.1760327
4.5	0.1933341	0.1933341
5.0	0.1994711	0.1994711
5.5	0.1933341	0.1933341
6.0	0.1760327	0.1760327

Propriedade: A priori de Jeffreys para o parâmetro de locação \(\mu\) é: \[ f(\mu)\propto k, \] onde \(k\) é uma constante.

Modelo de Escala \(X\) tem um modelo de escala se existem uma função \(g\) e uma quantidade \(\sigma\) tais que: \[ f(x \vert \sigma)=\frac{1}{\sigma} g\left(\frac{x}{\sigma}\right), \] logo \(\sigma\) é o parâmetro de escala.

Exemplos: Na distribuição \(\text{Exp}(\theta)\) o parâmetro de escala é \(\sigma=\frac{1}{\theta}\), e na distribuição \(\text{N}(\mu,\sigma^2)\) com média conhecida o parâmetro de escala é \(\sigma\);
Propriedade: A priori de Jeffreys para o parâmetro de escala \(\sigma\) é: \[ f(\sigma) \propto \frac{1}{\sigma}. \]
Mostrando que o Modelo normal com media conhecida é modelo de escala

sigma=c(1,2,3)  #cria um vetor de desvios padroes de 1, 2 e 3
media=0 #fixa a média em zero
x=seq(-10,10,0.1)
y_1=dnorm(x,mean=media,sd=sigma[1])
y_2=dnorm(x,mean=media,sd=sigma[2])
y_3=dnorm(x,mean=media,sd=sigma[3])
dados=data.frame(x,y_1,y_2,y_3)

colors <- c("y_1"="blue", "y_2"="red", "y_3"="green")

ggplot(dados, aes(x = x,y = y_1, color = "y_1")) +
    geom_line() +
    geom_line(aes(x = x,y = y_2, color = "y_2")) +
    geom_line(aes(x = x,y = y_3, color = "y_3")) +
    labs(x="x",
         y="f(x)",
         title=expression(N(0,sigma^2)),
         color = "Valores da variância") +
    scale_color_manual(labels=c(expression(sigma^2==1),expression(sigma^2==4),expression(sigma^2==9)),values = colors)

È possivel calcular valores de uma normal com desvio padrão diferente de 1 a partir de uma normal com desvio padrão igual a 1:

x=seq(4,6,.5)
mu=5
sigma=2
f=dnorm(x,mean=5,sd=sigma)
g=1/sigma*dnorm(x/sigma,mean=mu/sigma,sd=1)

temp=data.frame(x,f,g)
names(temp) = c("$x$","$f(x)$","$\\frac{1}{2}g(\\frac{x}{2})$")
temp %>%
   kbl(escape = FALSE) %>%
 kable_classic(full_width = F, html_font = "Cambria") %>%
kable_styling(bootstrap_options = c("striped","hold_position")) %>%
 add_header_above(c("","$f(.)$ vem da N(5,4)","$g(.)$ vem da N(5,1)"))

	\(f(.)\) vem da N(5,4)	\(g(.)\) vem da N(5,1)
\(x\)	\(f(x)\)	\(\frac{1}{2}g(\frac{x}{2})\)
4.0	0.1760327	0.1760327
4.5	0.1933341	0.1933341
5.0	0.1994711	0.1994711
5.5	0.1933341	0.1933341
6.0	0.1760327	0.1760327

Definição: Modelo de Locação-escala \(X\) tem um modelo de locação-escala se existem uma função \(g\) e as quantidades \(\mu\) e \(\sigma\) tais que \[ f(x\vert\mu,\sigma)=\frac{1}{\sigma}g\left(\frac{x-\mu}{\sigma}\right), \] logo \(\mu\) é o parâmetro de locação e \(\sigma\) é o parâmetro de escala.

Exemplos: Na distribuição \(\text{N}(\mu,\sigma^2)\) o parâmetro de locação é \(\mu\) e o parâmetro de escala é \(\sigma\), e a distribuição de Cauchy também é um modelo de locação-escala.

    #é modelo de locação-escala
media=c(-1,1) #a média assume os valores -1 ou 1
sigma=c(1,2)  #o desvio padrão assume os valores 1 ou 2
x=seq(-10,10,0.1)
y_1= dnorm(x,media[1],sigma[1])
y_2= dnorm(x,media[1],sigma[2])
y_3= dnorm(x,media[2],sigma[1])
y_4= dnorm(x,media[2],sigma[2])
dados=data.frame(x,y_1,y_2,y_3,y_4)
    
colors <- c("y_1"="blue", "y_2"="red", "y_3"="green","y_4"="orange")

ggplot(dados, aes(x = x,y = y_1, color = "y_1")) +
    geom_line() +
    geom_line(aes(x = x,y = y_2, color = "y_2")) +
    geom_line(aes(x = x,y = y_3, color = "y_3")) +
    geom_line(aes(x = x,y = y_4, color = "y_4")) +
    labs(x="x",
         y="f(x)",
         title=expression(N(mu,sigma^2)),
         color = "Valores da média e variância") +
    scale_color_manual(labels=c(
      expression(mu==-1~"e"~sigma^2==1),
      expression(mu==-1~"e"~sigma^2==4),
      expression(mu==1~"e"~sigma^2==1),
      expression(mu==1~"e"~sigma^2==4)),
      values = colors)

È possivel calcular valores de uma normal genérica a partir de uma normal padrão:

x=seq(4,6,.5)
mu=5
sigma=2
f=dnorm(x,mean=5,sd=sigma)
g=1/sigma*dnorm((x-mu)/sigma,mean=0,sd=1)

temp=data.frame(x,f,g)
names(temp) = c("$x$","$f(x)$","$\\frac{1}{2}g(\\frac{x-5}{2})$")
temp %>%
   kbl(escape = FALSE) %>%
 kable_classic(full_width = F, html_font = "Cambria") %>%
kable_styling(bootstrap_options = c("striped","hold_position")) %>%
 add_header_above(c("","$f(.)$ vem da N(5,4)","$g(.)$ vem da N(0,1)"))

	\(f(.)\) vem da N(5,4)	\(g(.)\) vem da N(0,1)
\(x\)	\(f(x)\)	\(\frac{1}{2}g(\frac{x-5}{2})\)
4.0	0.1760327	0.1760327
4.5	0.1933341	0.1933341
5.0	0.1994711	0.1994711
5.5	0.1933341	0.1933341
6.0	0.1760327	0.1760327

Propriedade A priori conjunta de Jeffreys para os parâmetros de locação \(\mu\) e escala \(\sigma\) é: \[ f(\mu,\sigma)=f(\mu)f(\sigma) \propto \frac{1}{\sigma}, \] onde nós assumimos independência (a priori conjunta é o produto das prioris).

Exemplo: Sejam \(X_1,\dots,X_n \sim N(\mu,\sigma^2)\) com \(\mu\) e \(\sigma^2\) desconhecidos, temos: \[ f\left(x \vert \mu, \sigma^2 \right)=\frac{1}{\sigma} \left\{\frac{1}{\sqrt{2\pi}} \exp\left[-\frac{1}{2} \left(\frac{ x-\mu}{\sigma}\right)^2\right] \right\}, \] logo \(\mu\) é o parâmetro de locação e \(\sigma\) é o parâmetro de escala.

A priori não informativa de Jeffreys para o vetor \((\mu,\sigma)\) é: \[ f(\mu,\sigma)\propto\frac{1}{\sigma} \]
Pela propriedade da invariância, a priori não informativa de Jeffreys para o vetor \((\mu,\sigma^2)\) é: \[ f(\mu,\sigma^2)\propto\frac{1}{\sigma^2} \]

0.2 Síntese de prioris de Jeffreys

## Loading required package: captioner

#PENDENTE

0.2 Exercícios

1. Considerando o modelo normal média conhecida e variância desconhecida:
- 1. Mostre que este modelo é de escala, sendo o desvio padrão o parâmetro de escala;
- 1. Mostre que a priori de Jeffreys para a o desvio padrão \(\sigma\) é \(f(\sigma)\propto \frac{1}{\sigma}\). Primeiro encontre pela informação esperada de Fisher, depois verifique se satisfaz a propriedade dos modelos de locação-escala.
1. Para cada uma das distribuições abaixo verifique se o modelo é de locação, escala ou locação-escala e obtenha a priori não informativa de Jeffreys para os parâmetros desconhecidos.
- 1. \(\text{Cauchy}(0,\beta)\);
- 1. \(t_{\nu}(\mu,\sigma^2)\), com \(\nu\) conhecido;
- 1. \(\text{Pareto}(a,b)\), com \(b\) conhecido;
- 1. \(\text{Uniforme} (\theta-1,\theta+1)\);
- 1. \(\text{Uniforme} (-\theta,\theta)\).
1. Mostre que a dist. Cauchy é um modelo de locação-escala onde \(\alpha\) é o parâmetro de locação e \(\beta\) é o parametro de escala.
1. Mostrar que a priori de Jeffreys no modelo Normal com variancia conhecida é dada por uma constante, como diz a fórmula COLOCAR.