Este material tem como objetivo contribuir para o entendimento sobre o princípio de máxima verossimilhança. Além da parte teórica, vamos aplicá-lo usando o R. Este procedimento, assim como o método de mínimos quadrados, permite a estimação dos parâmetros de modelos econométricos e a realização de testes de hipóteses relativos a restrições lineares e não lineares ao vetor de parâmetros de um modelo.
Suponha que temos uma amostra aleatória \(\left(y_{1},y_{2},...,y_{n}\right)\) de tamanho \(n\) retirada de uma população. Cada observação é uma variável aleatória com uma função de densidade de probabilidade \(f\left( y_{i}|\theta \right)\) que depende do vetor de parâmetros \(\theta\). Assim, a densidade de probabilidade conjunta para a amostra aleatória (ou vetor aleatório) será dada por:
\[
f \left(y_1, y_2, ...,y_n | \theta \right) = \prod _{i=1}^{n}{f\left({y}_{i}|\theta \right)} =f\left({y}_{1}|\theta \right) \times f\left({y}_{2}|\theta \right) \times ,..., \times f\left({y}_{n}|\theta \right)
\]
onde \(\theta\) é fixo. Note que, antes da retirada da amostra, cada observação é uma variável aleatória cuja função de densidade de probabilidade é igual à função de densidade de probabilidade da população. A média e a variância de cada observação a ser retirada também são iguais à média e variância da população em questão.
Contudo, uma vez que tenha sido obtida uma amostra específica, \(y_{i}\) torna-se fixo e a função de densidade de probabilidade conjunta pode então ser reinterpretada como sendo uma função do vetor de parâmetros \(\theta\) que se torna variável (chamamos esta função de função de verossimilhança).
Em econometria temos o problema de, dada uma amostra, obter a estimativa dos valores dos parâmetros populacionais desconhecidos. Assim, queremos o vetor \(\theta\) que faz a probabilidade de obter-se a amostra já coletada a maior possível, ou seja, temos que achar o \(\theta\) que maximiza a função de verossimilhança abaixo:
\[
L \left(\theta |y_1, y_2, ...,y_n \right) = \prod _{i=1}^{n}{f\left({y}_{i}|\theta \right)}
\]
Matematicamente, basta igualar a zero as derivadas parciais da função de verossimilhança em relação a cada parâmetro do vetor \(\theta\). Podemos também trabalhar com o \(\ln{L}\), pois maximizar o \(\ln{L}\) é em geral mais simples e produz o mesmo resultado dado que o logartimo transforma o produto das densidades de probabilidade na soma dos logaritmos das densidades, conforme abaixo:
\[
\ln{L \left(\theta | y_1, y_2, ...,y_n \right)} = \sum _{i=1}^{n}{\ln{f\left({y}_{i}|\theta \right)}}
\]
Suponha que temos um modelo de regressão linear \(y_{i}=\beta x_{i} + u_{i}\) onde \(u_{i}\) tem distribuição Normal com média \(0\) e variância \(\sigma^{2}\). Por meio do método de máxima verossimilhança obtenha o vetor de parâmetros \(\hat\theta=\left(\hat{\beta},\hat{\sigma}^2\right)\).
Sabemos que a distribuição Normal tem a seguinte função de densidade de probabilidade (forma algébrica de dizer que dado que temos uma média e uma variância, podemos obter a densidade de probabilidade para uma observação de \(x\)):
\[
f\left(x | \mu,\sigma^2\right)=\frac {1}{\sqrt {2\pi {\sigma}^{2}}} exp\left\{-\frac{1}{2} {\left(\frac{x-\mu}{\sigma} \right)}^{2} \right\},\quad -\infty <x<\infty
\]
Isso implica que a função de densidade de probabilidade de \(u_{i}\) é (\(\mu=0\), conforme pressuposto do modelo de regressão linear simples):
\[
f(u_{i} | \mu=0,\sigma²) = \frac {1}{\sqrt {2\pi {\sigma}^{2}}} exp\left\{\frac{-{u}_{i}^{2}}{2{\sigma}^{2}} \right\},\quad para\quad i=1,2,...,n
\]
Em função de \(u_{i}\) ser normalmente distribuído com média \(0\) e variância \(\sigma^{2}\), teremos a seguinte densidade de probabilidade para \(y_{i}\):
\[
f\left({y}_{i} | \mu = \beta x_i, \sigma^2 \right) =\frac{1}{\sqrt{2\pi{\sigma}^{2}}} exp\left\{-\frac{1}{2{\sigma}^{2}} {\left({y}_{i}-\beta{x}_{i} \right)}^{2} \right\} ,\quad para\quad i=1,2,...,n
\]
Com todas estas definições, somos capazes de escrever a função de verosimilhança para o problema em questão. Lembre-se que, como vimos anteriormente, no momento que observamos os valores de \(y_{i}\) passamos a ter como objetivo encontrar quais os parâmetros de \(\theta = \left(\hat{\beta},\hat{\sigma}^{2}\right)\) que maximiza a função de verossimilhança de \(y_{i}\). Logo, temos a seguinte função de verossimilhança para o problema:
\[
L(\theta | y_{i}) = L(\beta,\sigma^{2} | y_{i}) = \prod_{i=1}^{n}{f(\beta,\sigma^{2} | {y}_{i})} = \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi{\sigma}^{2}}} exp\left\{-\frac{1}{2{\sigma}^{2}} {\left({y}_{i}-\beta{x}_{i} \right)}^{2} \right\}
\] Uma alternativa mais razoável para encontrar os valores de \(\theta\) que maximizam a função de verosimilhança é trabalharmos com o logaritmo da verossimilhança, como abaixo (aplicando apenas o logaritmo na função anterior):
\[
\begin{aligned}
&&& \ln{L(\beta,\sigma^{2} | y_{i})} = \ln{\left[\frac{1}{\sqrt{2\pi {\sigma}^{2}}} exp\left\{-\frac{1}{2{\sigma}^{2}} {\left({y}_{1}-\beta{x}_{1}\right)}^{2} \right\}\right]} +...+\ln{\left[\frac{1}{\sqrt{2\pi {\sigma}^{2}}} exp\left\{-\frac{1}{2{\sigma}^{2}} {\left({y}_{n}-\beta{x}_{n}\right)}^{2} \right\}\right]} \\
&&& \ln{L(\beta,\sigma^{2} | y_{i})} = \ln{\left[\frac{1}{\sqrt{2\pi {\sigma}^{2}}}\right]}-\frac{1}{2{\sigma}^{2}}{\left({y}_{1}-\beta{x}_{1}\right)}^{2} + ... + \ln{\left[\frac{1}{\sqrt{2\pi {\sigma}^{2}}}\right]}-\frac{1}{2{\sigma}^{2}}{\left({y}_{n}-\beta{x}_{n}\right)}^{2} \\
\end{aligned}
\] que organizando, se transforma em:
\[
\begin{aligned}
&& \ln{L(\beta,\sigma^{2} | y_{i})} = n \times\ln{\left[\frac{1}{\sqrt{2\pi {\sigma}^{2}}}\right]}-\frac{1}{2{\sigma}^{2}} \sum_{i=1}^{n}{{\left({y}_{i}-\beta{x}_{i} \right)}^{2}} \\
&& \ln{L(\beta,\sigma^{2} | y_{i})} = n \times \ln{{(2\pi {\sigma}^{2})}^{-\frac{1}{2}}} -\frac{1}{2{\sigma}^{2}} \sum_{i=1}^{n}{{\left({y}_{i}-\beta{x}_{i} \right)}^{2}}
\end{aligned}
\]
Observe que temos agora uma função que depende de \(\beta\) e \(\sigma^{2}\) para valores de \(y_{i}\). Sabemos que para encontrar os valores críticos que otimizam (seja maximizar ou minimizar) uma função precisamos achar os pontos onde a primeira derivada da função em relação a cada um dos parâmetros é igual a zero (condição de primeira ordem).
Além disso, é necessário avaliar a curvatura da função nas proximidades dos valores críticos (condição de segunda ordem) o que nos permite determiar se a função é maximizada ou minimizada nos pontos críticos.
Para este problema, a condição de primeira ordem (CPO) será:
\[
\frac{\partial L}{\partial \theta} = \left(\begin{array}{c} \frac{\partial \ln{L}}{\partial\beta} \\ \frac{\partial \ln{L}}{\partial{\sigma}^{2}} \end{array}\right) = 0
\]
O vetor gradiente \(\frac{\partial L}{\partial \theta}\) é chamado de vetor escore, pois ele representa as primeiras derivadas do logaritmo da densidade. Assim, temos:
\[
\frac{\partial \ln{L}}{\partial\beta}=-\frac{1}{2{\sigma}^{2}}\sum_{i=1}^{n}{2({y}_{i}-\beta{x}_{i})(-{x}_{i})}=0\Rightarrow \hat {\beta} =\frac{ \sum _{i=1}^{n}{({y}_{i}{x}_{i})}}{\sum_{i=1}^{n}{{x}_{i}^{2}}}
\] \[
\frac{\partial \ln{L}}{\partial{\sigma}^{2}} =-\frac{N}{2{\sigma}^{2}} +\frac{1}{2{\left({\sigma}^{2} \right)}^{2}} \sum_{i=1}^{N}{{\left({y}_{i}-\beta{x}_{i} \right)}^{2}}=0\Rightarrow {\hat{\sigma}}^{2}=\frac{\sum _{i=1}^{N}{{\left({y}_{i}-\beta{x}_{i} \right)}^{2}}}{n}
\] A partir dos resultados obtidos acima, podemos observar que o estimador de máxima verossimilhança para \(\beta\) é igual ao estimador de mínimos quadrados ordinários. Por outro lado, o estimador da variância do termo de erro obtido por máxima verossimilhança é viesado, mas consistente.
- PROPRIEDADES DOS ESTIMADORES OBTIDOS PELO PRINCÍPIO DA MÁXIMA VEROSSIMILHANÇA
- São consistentes: \(p \lim{\hat{\theta}}=\theta\)
- Têm distribuição assintótica Normal: \(\hat{\theta} \sim N\left(\theta, I^{-1}(\theta)\right)\) onde \(I(\theta)\) é a matriz de informação de Fischer.
- São assintoticamente eficientes
- São invariantes
A matriz de informação de Fischer é definida como:
\[
I\left(\theta\right) = E\left[\left(\frac{\partial L}{\partial \theta}\right)^2\right] = - E\left[\left(\frac{\partial^2 L}{\partial \theta^2}\right)\right]
\]
onde \(L(\theta)\) é o logaritmo da função de verossimilhança. A terminologia matriz de informação é utilizada em função de \(L(\theta)\) ser a variância de \(\frac{\partial L}{\partial \theta}\) (que é o score cuja média é zero).
Assim, valores altos de \(L(\theta)\) significam que pequenas alterações em \(\theta\) conduzem a grandes alterações no valor do logaritmo da verossimilhança. Além disso, \(I(\theta)\) nos fornece informação sobre a curvatura do logaritmo da verossimilhança (concavidade da função)
Quanto mais côncava a função, mais fácil de detectar o \(\hat{\theta}\) máximo. Caso contrário (mais plana), teremos \(\hat{\theta}\)’s muito próximos do \(\hat{\theta}\) que gera o máximo da função e será difícil encontrar o \(\hat{\theta}\) máximo.
PRÁTICA
Nesta seção você conseguirá aplicar no R todos os conceitos estudados anteriormente.
-
ESTIMAR PARÂMETROS DE UMA AMOSTRA ALEATÓRIA
Suponha que você tem uma amostra aleatória \((x_{1},x_{2},...,x_{n})\) composta por variáveis aleatórias retiradas de uma população com uma função de densidade de probabilidade Normal com média \(\mu\) e variância \(\sigma^{2}\), como abaixo:
\[
f(x|\mu,\sigma^{2})=\frac{1}{\sqrt{2\pi{\sigma}^{2}}} exp \left\{-\frac{1}{2}{\left(\frac{x-\mu}{\sigma}\right)}^{2}\right\}
\] Isto implica que a função densidade de probabilidade conjunta da amostra aleatória (ou vetor aleatório) é:
\[
f(x_{1},x_{2},...,x_{n} | \mu,\sigma^{2}) = \prod_{i=1}^{n}{f({x}_{1},...,x_{n}|\mu,\sigma^{2}})
\] Você quer descobrir quais os valores dos parâmetros \(\mu\) e \(\sigma^{2}\) para sua amostra aleatória. Pelo princípio da verossimilhança sabemos que o problema pode ser escrito da seguinte forma:
\[
L(\mu,\sigma^{2}|x_{1},x_{2},...,x_{n}) = \prod_{i=1}^{n}f({{x}_{1},...,x_{n}|\mu,\sigma^{2}}) = f({{x}_{1}|\mu,\sigma^{2}})\times f({{x}_{2}|\mu,\sigma^{2}}) \times... \times f({x_{n}|\mu,\sigma^{2}})
\] Na parte teórica deste documento, vimos que uma alternativa para a solução do problema é trabalhar com o logaritmo da verossimilhança, que aplicado no presente problema, temos:
\[
\begin{aligned}
&&& L(\mu,\sigma^{2}|x_{1},x_{2},...,x_{n}) = \sum_{i=1}^{n}{\ln{f({{x}_{1},...,x_{n}|\mu,\sigma^{2}})}} \\
&&& L(\mu,\sigma^{2}|x_{1},x_{2},...,x_{n}) = \ln{f(x_1|\mu,\sigma^2)}+\ln{f(x_2|\mu,\sigma^2)}+...+\ln{f(x_n|\mu,\sigma^2)} \\
&&& L(\mu,\sigma^{2}|x_{1},x_{2},...,x_{n}) = \ln{\left[\frac{1}{\sqrt{2\pi{\sigma}^{2}}} exp \left\{-\frac{1}{2}{\left(\frac{x_1-\mu}{\sigma}\right)}^{2}\right\}\right]} + ...+\ln{\left[\frac{1}{\sqrt{2\pi{\sigma}^{2}}} exp \left\{-\frac{1}{2}{\left(\frac{x_n-\mu}{\sigma}\right)}^{2}\right\}\right]} \\
&&& L(\mu,\sigma^{2}|x_{1},x_{2},...,x_{n}) = \ln{\left[\frac{1}{\sqrt{2\pi {\sigma}^{2}}}\right]}-\frac{1}{2{\sigma}^{2}}{\left({x}_{1}-\mu\right)}^{2} + ... + \ln{\left[\frac{1}{\sqrt{2\pi {\sigma}^{2}}}\right]}-\frac{1}{2{\sigma}^{2}}{\left({x}_{n}-\mu\right)}^{2} \\
&&& L(\mu,\sigma^{2}|x_{1},x_{2},...,x_{n}) = n*\ln{\left[\frac{1}{\sqrt{2\pi {\sigma}^{2}}}\right]}-\frac{1}{2{\sigma}^{2}} \sum_{i=1}^{n}{{\left({x}_{i}-\mu \right)}^{2}} \\
&&& L(\mu,\sigma^{2}|x_{1},x_{2},...,x_{n}) = n*\ln{{(2\pi {\sigma}^{2})}^{-\frac{1}{2}}} -\frac{1}{2{\sigma}^{2}} \sum_{i=1}^{n}{{\left({x}_{i}-\mu \right)}^{2}} \\
&&& L(\mu,\sigma^{2}|x_{1},x_{2},...,x_{n}) = -\left(\frac{n}{2}\right)*\ln{{(2\pi {\sigma}^{2})}}-\frac{1}{2{\sigma}^{2}} \sum_{i=1}^{n}{{\left({x}_{i}-\mu \right)}^{2}} \\
\end{aligned}
\]
Nos códigos abaixo mostramos como resolvê-lo usando o logaritmo da verossimilhança e supondo que temos uma amostra aleatória de tamanho \(1000\) para \(x_{i}\).
Num primeiro momento, sabemos os verdadeiros valores de \(\mu\) e \(\sigma^{2}\) (1 e 2, respectivamente) e queremos fazer uso do princípio da verossimilhança para verificar quais os valores o mesmo retorna como estimativa para os parâmetros de interesse (\(\mu\) e \(\sigma^{2}\)). Execute os códigos abaixo e observe que o método da máxima verossimilhança resultará em parâmetros próximos dos verdadeiros parâmetros populacionais.
################################
#### PREPARAR O PROBLEMA #####
################################
# Nese exemplo, vamos mostrar como usar o princípio da máxima verossimilhança para encontrar
# os parâmetros de média e variância de uma amostra de uma variável aleatória que segue
# uma distribuição Normal
# Criamos uma variável aleatória (xi) de tamanho 1000 originada a partir de normal com média 1 e desvio padrão 2
# Para saber as opções da função rnorm execute help(rnorm)
x <- rnorm(1000, mean = 1 , sd = 2)
# função do negativo do log da verossimilhança da Normal
neg_log_lik <- function(x, parametros){
# parâmetros para a distribuição Normal
media <- parametros[1]
desvio <- parametros[2]
n <- length(x)
# log da verossimilhança da Normal
ll <- -(n/2)*log(2*pi*desvio^2) + (-1/(2*desvio^2))*sum((x-media)^2)
# retornar o negativo para maximizar ao invés de minimizar
return(-ll)
}
################################
#### GRÁFICOS #####
################################
# Objetivo: mostrar que maximizar uma função é o mesmo que minimizar o negativo da função
# dividir a tela em duas linhas e uma coluna
par(mfrow=c(2,1))
# gráfico da função do logaritmo da verossmilhança. Observe que estamos multiplicando por -1
# a função que já é o negativo (ou seja, voltando para o seu sinal)
plot(x = seq(from = -3, to = 3, by = 0.1),
y = -1*sapply(seq(from = -3, to = 3, by = 0.1),
FUN = neg_log_lik, par = c(0,1)),
type = "l",
ylab = "",
xlab = "Valor da variável aleatória X",
main = "Log da Verossimilhança para Média=0 e Variância=1")
# gráfico do negativo do logaritmo da verossimilhança
plot(x = seq(from = -3, to = 3, by = 0.1),
y = 1*sapply(seq(from = -3, to = 3, by = 0.1),
FUN = neg_log_lik, par = c(0,1)),
type = "l",
ylab = "",
xlab = "Valor da variável aleatória X",
main = "Negativo do Log da Verossimilhança para Média=0 e Variância=1")
# retornar a tela para uma linha e uma coluna
par(mfrow = c(1,1))
################################
### SOLUCIONAR O PROBLEMA ####
################################
# Uma vez que temos uma função que deve ser maximizada e os parâmetros iniciais, podemos usar
# a função optim do pacote stats para obter as estimativas ótimas para a média e variância.
# - par: atributo que recebe os valores iniciais dos parâmetros. A sequência é importante aqui,
# pois definimos na função que o primeiro é a média e o segundo é a variância
# - fn: a função que deve ser minimizada. Por default, optim faz uma minimização e por isso
# definimos o negativo do logaritmo da verossimilhança dado que minimizar o inverso de uma
# função é o mesmo que maximizá-la
# - method: o algoritmo numérico usado para solucionar o problema.
# - hessian: se queremos (TRUE) ou não (FALSE) que a matriz hessiana do problema de otimização seja
# disponibilizada. Para mais detalhes use help(optim) ou em https://cran.r-project.org/web/packages/fitdistrplus/vignettes/Optimalgo.html
normal.fit <- stats::optim(par = c(0.5,0.5),
fn = neg_log_lik,
x = x,
method = "BFGS",
hessian = TRUE)
################################
#### RESULTADOS ######
################################
# Parâmetros encontrados para a média e variância (condição de primeira ordem). Observe
# que eles estão bem próximos dos valores usados para gerar a variavel aleatória
normal.fit$par
# Resultado: matriz hessiana (condição de segunda ordem). Aqui, temos que avaliar se a matriz
# hessiana é negativa definida ou positiva definida nos pontos críticos encontrados na condição
# de primeira ordem. Como estamos com um problema de minimização (novamente, encontrar os valores
# para a média e variância que minimizam o negativo da função de verossimilhança é o mesmo que
# encontrar os valores que maximizam a função de verossimilhança), temos que verificar se nas
# proximidades da matriz hessiana a função é "convexa". Isso só é possível se os menores principais
# líderes da matriz hessiana são positivos tornando-a positiva definida.
normal.fit$hessian
# Determinante do primeiro menor principal líder
det(matrix(data = normal.fit$hessian[1], nrow = 1, ncol = 1))
# Determinante do segundo menor principal líder
det(matrix(data = normal.fit$hessian, nrow = 2, ncol = 2))
# Matriz de informação de Fisher
# - Mais detalhes em https://rpubs.com/hudsonchavs/maxverosimilhanca
# - Obida por (-hessiana)^(-1). A razão para não ser preciso multiplicar a matriz
# hessiana por -1 é que já fizemos a minimização usando o negativo da verossimilhança
fisher.information.normal.fit <- solve(normal.fit$hessian)
# Desvio padrão de cada estimador (beta0, beta1, desvio)
# - Mais detalhes em https://rpubs.com/hudsonchavs/maxverosimilhanca
# - Usamos a raiz quadrada da diagonal principal
standard.deviance.normal.fit <- sqrt(diag(fisher.information.normal.fit))
# Tabela com os parâmetros estimados, estatística t, desvio padrão do estimador e p-valor
t.normal.fit <- normal.fit$par/standard.deviance.normal.fit
pvalue.normal.fit <- 2*(1-pt(abs(t.normal.fit), length(x)-length(normal.fit$par)))
results.normal.fit <- cbind(normal.fit$par, standard.deviance.normal.fit, t.normal.fit, pvalue.normal.fit)
colnames(results.normal.fit) <- c("parâmetros", "desvio-padrão", "estatística t", "p-valor")
rownames(results.normal.fit) <- c("media", "desvio")
print(results.normal.fit, digits = 3)
-
REGRESSÃO LINEAR SIMPLES
Suponha que você tem uma amostra aleatória de duas variáveis (\(Y_{i},X_{i}\)) de tamanho \(N\) e deseja estimar um modelo de regressão linear simples que relacione elas da seguinte forma:
\[
Y_{i} = \beta_{0} + \beta_{1} X_{i} + \varepsilon_{i}
\] Além disso, assuma a hipótese de que \(\varepsilon \sim N(0,{\sigma}^{2})\) e que você já conhece os verdadeiros parâmetros do modelo econométrico. Seu objetivo é fazer uso do princípio de máxima verossimilhança para testar o quão seus estimadores se aproximam dos parâmetros populacionais conhecidos. Para tanto, vamos supor que a equação populacional é:
\[
Y_{i} = 8 + 3X_{i}
\] Uma vez que \(Y_{i} \sim N(\beta_{0} + \beta_{1}X_{i},{\sigma}^{2})\), temos que a função de verossimilhança para o problema proposto será:
\[
L(\beta_{0} + \beta_{1}X_{i},\sigma^{2}|Y_{i}) = \prod_{i=1}^{N}{f(\beta_{0} + \beta_{1}X_{i},\sigma^{2}|Y_{i})} = \prod_{i=1}^{N}\frac{1}{\sqrt{2\pi{\sigma}^{2}}} exp\left\{-\frac{1}{2{\sigma}^{2}} {\left({y}_{i}-[\beta_{0} + \beta_{1}X_{i}] \right)}^{2} \right\}
\] Nosso objetivo será encontrar \(\hat{{\beta}_{0}}\), \(\hat{{\beta}_{1}}\) e \({\hat{\sigma}}^{2}\) que são os parâmetros a serem estimados para o modelo de regressão linear. Abaixo, códigos que geram os dados e aplicam o princípio de máxima verossimilhança.
################################
#### PREPARAR O PROBLEMA ###
################################
# Neste exemplo vamos mostrar como obter os parâmetros de uma regressão linear simples
# por meio do método da máxima verossimilhança. Para isso, vamos gerar uma amostra de
# y que é função de x e de um ruído. Porém, antes de gerar y com o ruído, saberemos o
# verdadeiro y dado que temos os verdadeiros parâmetros para a regressão linear.
# 1000 observações de X geradas a partir de uma distribuição normal com média 10 e desvio 1
ols.data.x <- rnorm(n = 10000, mean = 10, sd = 1)
# Parâmetros populacionais do modelo de regressão
beta0.true <- 3
beta1.true <- 8
# 1000 observações de Y gerados a partir dos parâmetros populacionais e X
true.y <- beta0.true + beta1.true*ols.data.x
# 1000 observações geradas a partir dos dados populacionais com um termo de erro que segue uma
# normal com média 0 e desvio 1
noise <- rnorm(n = 10000, mean = 0, sd = 1)
data.y <- true.y + noise
# função do negativo do log da verossimilhança da Normal para uma regressão linear
ols_neg_log_lik <- function(y, x, parametros){
# parâmetros para a distribuição Normal de uma regressão linear
desvio <- parametros[1]
betas <- parametros[-1]
media <- cbind(1,x) %*% betas
n <- length(x)
# log da verossimilhança da Normal
ll <- -(n/2)*log(2*pi*desvio^2) + (-1/(2*desvio^2))*sum((y-media)^2)
# retornar o negativo para minimizar ao invés de maximizar
return(-ll)
}
################################
### SOLUCIONAR O PROBLEMA ####
################################
# Uma vez que temos uma função que deve ser maximizada e os parâmetros iniciais, podemos usar
# a função optim do pacote stats para obter as estimativas ótimas para a média (agora uma média
# condicional que é função do vetor beta de parâmetros da regressão linear e a variância que deve
# ser a mesma do termo de erro).
# - par: atributo que recebe os valores iniciais dos parâmetros. A sequência é importante aqui,
# pois definimos na função que o primeiro é a média e o segundo é a variância
# - fn: a função que deve ser minimizada. Por default, optim faz uma minimização e por isso
# definimos o negativo do logaritmo da verossimilhança dado que minimizar o inverso de uma
# função é o mesmo que maximizá-la
# - method: o algoritmo numérico usado para solucionar o problema.
# - hessian: se queremos (TRUE) ou não (FALSE) que a matriz hessiana do problema de otimização seja
# disponibilizada. Para mais detalhes use help(optim) ou em https://cran.r-project.org/web/packages/fitdistrplus/vignettes/Optimalgo.html
ols.fit <- stats::optim(par = c(1,2,2),
fn = ols_neg_log_lik,
y = data.y,
x = ols.data.x,
method = "BFGS",
hessian = TRUE)
# resultado: parâmetros encontrados para desvio, beta0 e beta1 (a ordem é a mesma da definida
# na função ols_neg_log_lik)
ols.fit$par
[1] -1.008859 3.011811 7.997873
# Resultado: matriz hessiana (condição de segunda ordem). Aqui, temos que avaliar se a matriz
# hessiana é negativa definida ou positiva definida nos pontos críticos encontrados na condição
# de primeira ordem. Como estamos com um problema de minimização (novamente, encontrar os valores
# para a média e variância que minimizam o negativo da função de verossimilhança é o mesmo que
# encontrar os valores que maximizam a função de verossimilhança), temos que verificar se nas
# proximidades da matriz hessiana a função é "convexa". Isso só é possível se os menores principais
# líderes da matriz hessiana são positivos tornando-a positiva definida.
ols.fit$hessian
[,1] [,2] [,3]
[1,] 1.965039e+04 1.384797e-02 1.277258e-01
[2,] 1.384797e-02 9.825155e+03 9.825075e+04
[3,] 1.277258e-01 9.825075e+04 9.921188e+05
# Determinante do primeiro menor principal líder
det(matrix(data = ols.fit$hessian[1], nrow = 1, ncol = 1))
[1] 19650.39
# Determinante do segundo menor principal líder
det(matrix(data = ols.fit$hessian[1:2,1:2], nrow = 2, ncol = 2))
[1] 193068131
# Determinante do terceiro menor principal líder
det(matrix(data = ols.fit$hessian, nrow = 3, ncol = 3))
[1] 1.857171e+12
# Matriz de informação de Fisher
# - Mais detalhes em https://rpubs.com/hudsonchavs/maxverosimilhanca
# - Obida por (-hessiana)^(-1). A razão para não ser preciso multiplicar a matriz
# hessiana por -1 é que já fizemos a minimização usando o negativo da verossimilhança
fisher_information <- solve(ols.fit$hessian)
# Desvio padrão de cada estimador (beta0, beta1, desvio)
# - Mais detalhes em https://rpubs.com/hudsonchavs/maxverosimilhanca
# - Usamos a raiz quadrada da diagonal principal
standard_deviance <- sqrt(diag(fisher_information))
# Tabela com os parâmetros estimados, estatística t, desvio padrão do estimador e p-valor
t <- ols.fit$par/standard_deviance
pvalue <- 2*(1-pt(abs(t), length(ols.data.x)-length(ols.fit$par)))
results <- cbind(ols.fit$par, standard_deviance, t, pvalue)
colnames(results) <- c("parâmetros", "desvio-padrão", "estatística t", "p-valor")
rownames(results) <- c("desvio", "beta0", "beta1")
print(results, digits = 3)
parâmetros desvio-padrão estatística t p-valor
desvio -1.01 0.00713 -141.4 0
beta0 3.01 0.10246 29.4 0
beta1 8.00 0.01020 784.4 0
# valor real e ajustado
beta0.estimado <- ols.fit$par[2]
beta1.estimado <- ols.fit$par[3]
y.estimado <- beta0.estimado + beta1.estimado*ols.data.x
residuos <- true.y - y.estimado
# gráfico dos resíduos
plot(residuos, type = "l", xlab = "", ylab = "", main = "resíduos")

######
### PONTO DE ATENÇÃO
######
# O método de máxima verossimilhança é bastante sensível aos valores iniciais usados no problema
# de otimização, principalmente para alguns métodos numéricos. Perceba que se você alterar apenas
# os valores iniciais para c(1,1,1) no problema de regressão linear simples e manter o método numérico,
# os resultados encontrados são alterados. Como não é possível controlar os pontos iniciais bem como
# a escoha do método numérico, a maioria dos pacotes em R que estimam modelos econométricos, fazem
# uso de algum método de estimação a priori (mínimos quadrados ordinários, por exemplo) para encontrar
# parâmetros iniciais e usá-los posteriormente como parâmetros iniciais do método de máxima verossimilhança
REFERÊNCIAS
Campbell, John Y, Andrew Wen-Chuan Lo, and Archie Craig MacKinlay. 1997. The Econometrics of Financial Markets. Princeton (NJ) Princeton University Press.
Morettin, Pedro Alberto. 2008. Econometria Financeira Um Curso Em Séries Temporais Financeiras. Edgard Blucher.
Tsay, Ruey S. 2010. Analysis of Financial Time Series. John Wiley & Sons.
———. 2014. An Introduction to Analysis of Financial Data with R. John Wiley & Sons.
---
title: <center> <h2> <b>O Princípio de Máxima Verossimilhança </b> </h2> </center> 
author: <center> Frank Magalhães de Pinho - IBMEC/MG </center>
graphics: yes
linkcolor: blue
output: 
  html_notebook:
    theme: cerulean
    fig_caption: yes
references:
- id: tsay2014introduction
  title: An introduction to analysis of financial data with R
  author:
  - family: Tsay
    given: Ruey S
  publisher: John Wiley \& Sons
  type: book
  issued:
    year: 2014
- id: campbell1997econometrics
  title: The econometrics of financial markets
  author:
  - family: Campbell
    given: John Y
  - family: Lo
    given: Andrew Wen-Chuan
  - family: MacKinlay
    given: Archie Craig
  publisher: Princeton (NJ) Princeton University Press
  type: book
  issued:
    year: 1997
- id: morettin2008econometria
  title: Econometria financeira um curso em séries temporais financeiras
  author:
  - family: Morettin
    given: Pedro Alberto
  publisher: Edgard Blucher
  type: book
  issued:
    year: 2008
- id: tsay2010analysis
  title: Analysis of financial time series
  author:
  - family: Tsay
    given: Ruey S
  publisher: John Wiley \& Sons
  type: book
  issued:
    year: 2010
nocite: | 
  @tsay2014introduction, @campbell1997econometrics, @morettin2008econometria, @tsay2010analysis
---

Este material tem como objetivo contribuir para o entendimento sobre o **princípio de máxima verossimilhança**. Além da parte teórica, vamos aplicá-lo usando o [R](https://www.r-project.org/). Este procedimento, assim como o método de mínimos quadrados, permite a estimação dos parâmetros de modelos econométricos e a realização de testes de hipóteses relativos a restrições lineares e não lineares ao vetor de parâmetros de um modelo. 

* **MÉTODO**

Suponha que temos uma amostra aleatória [^1] $\left(y_{1},y_{2},...,y_{n}\right)$ de tamanho $n$ retirada de uma população. Cada observação é uma variável aleatória com uma função de densidade de probabilidade $f\left( y_{i}|\theta \right)$ que depende do vetor de parâmetros $\theta$ [^2]. Assim, a densidade de probabilidade conjunta para a amostra aleatória (ou vetor aleatório) será dada por: 

[^1]: Lembre-se de que quando estudamos vetores aleatórios falávamos que ele se caracterizava como um conjunto de variáveis aleatórias. Por isso, temos distribuições de probabilidade conjuntas, marginais e condicionais para vetores aleatórios ao contrário das variáveis aleatórias onde temos distribuições de probabilidade. Aqui, estamos interessados na probabilidade conjunta de obter ao mesmo tempo a nossa amostra aleatória que é um vetor aleatório. Por isso, utilizamos a distribuição de probabilidade conjunta.

[^2]: O que é o vetor de parâmetros $\theta$? Toda distribuição de probabilidade de uma variável aleatória contínua ou discreta tem parâmetros. Por exemplo, a Normal tem a média e a variância. Quando falamos no vetor de parâmetros $\theta$, estamos dizendo que neste vetor estão os parâmetros da distribuição de probabilidade (que no caso da Normal é a média e variância, ou seja, $\theta=\left(\mu,\sigma^{2}\right)$. Na medida que alteramos os componentes deste vetor, o gráfico da distribuição de probabilidade é modificado. Lembra do exemplo onde alteramos a média e a variância da Normal? Acesse este [link](https://statistics.calpoly.edu/shiny) para entender por meio de um simulador.  

$$
f \left(y_1, y_2, ...,y_n | \theta \right) = \prod _{i=1}^{n}{f\left({y}_{i}|\theta  \right)} =f\left({y}_{1}|\theta  \right) \times f\left({y}_{2}|\theta  \right) \times ,..., \times f\left({y}_{n}|\theta  \right) 
$$

onde $\theta$ é fixo. Note que, antes da retirada da amostra, cada observação é uma variável aleatória cuja função de densidade de probabilidade é igual à função de densidade de probabilidade da população. A média e a variância de cada observação a ser retirada também são iguais à média e variância da população em questão. 

Contudo, uma vez que tenha sido obtida uma amostra específica, $y_{i}$ torna-se fixo e a função de densidade de probabilidade conjunta pode então ser reinterpretada como sendo uma função do vetor de parâmetros $\theta$ que se torna variável (chamamos esta função de **função de verossimilhança**).

Em econometria temos o problema de, dada uma amostra, obter a estimativa dos valores dos parâmetros populacionais desconhecidos. Assim, queremos o vetor $\theta$ que faz a probabilidade de obter-se a amostra já coletada a maior possível, ou seja, temos que achar o $\theta$ que maximiza a função de verossimilhança abaixo:

$$
L \left(\theta |y_1, y_2, ...,y_n  \right) = \prod _{i=1}^{n}{f\left({y}_{i}|\theta  \right)}
$$

Matematicamente, basta igualar a zero as derivadas parciais da função de verossimilhança em relação a cada parâmetro do vetor $\theta$. Podemos também trabalhar com o $\ln{L}$, pois maximizar o $\ln{L}$ é em geral mais simples e produz o mesmo resultado dado que o logartimo **transforma o produto das densidades de probabilidade na soma dos logaritmos das densidades**, conforme abaixo:

$$
\ln{L \left(\theta | y_1, y_2, ...,y_n \right)} = \sum _{i=1}^{n}{\ln{f\left({y}_{i}|\theta  \right)}}
$$

* **EXEMPLO**

Suponha que temos um modelo de regressão linear $y_{i}=\beta x_{i} + u_{i}$ onde $u_{i}$ tem distribuição Normal com média $0$ e variância $\sigma^{2}$. Por meio do método de máxima verossimilhança obtenha o vetor de parâmetros $\hat\theta=\left(\hat{\beta},\hat{\sigma}^2\right)$. 

Sabemos que a distribuição Normal tem a seguinte função de densidade de probabilidade (forma algébrica de dizer que dado que temos uma média e uma variância, podemos obter a densidade de probabilidade para uma observação de $x$): 

$$
f\left(x | \mu,\sigma^2\right)=\frac {1}{\sqrt {2\pi {\sigma}^{2}}} exp\left\{-\frac{1}{2} {\left(\frac{x-\mu}{\sigma}  \right)}^{2} \right\},\quad -\infty <x<\infty
$$

Isso implica que a função de densidade de probabilidade de $u_{i}$ é ($\mu=0$, conforme pressuposto do modelo de regressão linear simples):

$$
f(u_{i} | \mu=0,\sigma²) = \frac {1}{\sqrt {2\pi {\sigma}^{2}}} exp\left\{\frac{-{u}_{i}^{2}}{2{\sigma}^{2}}  \right\},\quad para\quad i=1,2,...,n
$$

Em função de $u_{i}$ ser normalmente distribuído com média $0$ e variância $\sigma^{2}$, teremos a seguinte densidade de probabilidade para $y_{i}$:

$$
f\left({y}_{i} | \mu = \beta x_i, \sigma^2 \right) =\frac{1}{\sqrt{2\pi{\sigma}^{2}}} exp\left\{-\frac{1}{2{\sigma}^{2}} {\left({y}_{i}-\beta{x}_{i} \right)}^{2} \right\} ,\quad para\quad i=1,2,...,n
$$

Com todas estas definições, somos capazes de escrever a função de verosimilhança para o problema em questão. Lembre-se que, como vimos anteriormente, no momento que observamos os valores de $y_{i}$ passamos a ter como objetivo encontrar quais os parâmetros de $\theta = \left(\hat{\beta},\hat{\sigma}^{2}\right)$ que maximiza a função de verossimilhança de $y_{i}$. Logo, temos a seguinte função de verossimilhança para o problema:

$$
L(\theta | y_{i}) = L(\beta,\sigma^{2} | y_{i}) = \prod_{i=1}^{n}{f(\beta,\sigma^{2} | {y}_{i})} = \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi{\sigma}^{2}}} exp\left\{-\frac{1}{2{\sigma}^{2}} {\left({y}_{i}-\beta{x}_{i} \right)}^{2} \right\}
$$
Uma alternativa mais razoável para encontrar os valores de $\theta$ que maximizam a função de verosimilhança é trabalharmos com o logaritmo da verossimilhança, como abaixo (aplicando apenas o logaritmo na função anterior):

$$
\begin{aligned}
&&& \ln{L(\beta,\sigma^{2} | y_{i})} = \ln{\left[\frac{1}{\sqrt{2\pi {\sigma}^{2}}} exp\left\{-\frac{1}{2{\sigma}^{2}} {\left({y}_{1}-\beta{x}_{1}\right)}^{2} \right\}\right]} +...+\ln{\left[\frac{1}{\sqrt{2\pi {\sigma}^{2}}} exp\left\{-\frac{1}{2{\sigma}^{2}} {\left({y}_{n}-\beta{x}_{n}\right)}^{2} \right\}\right]} \\
&&& \ln{L(\beta,\sigma^{2} | y_{i})} = \ln{\left[\frac{1}{\sqrt{2\pi {\sigma}^{2}}}\right]}-\frac{1}{2{\sigma}^{2}}{\left({y}_{1}-\beta{x}_{1}\right)}^{2}  + ... + \ln{\left[\frac{1}{\sqrt{2\pi {\sigma}^{2}}}\right]}-\frac{1}{2{\sigma}^{2}}{\left({y}_{n}-\beta{x}_{n}\right)}^{2}  \\
\end{aligned}
$$
que organizando, se transforma em:

$$
\begin{aligned}
&& \ln{L(\beta,\sigma^{2} | y_{i})} = n \times\ln{\left[\frac{1}{\sqrt{2\pi {\sigma}^{2}}}\right]}-\frac{1}{2{\sigma}^{2}} \sum_{i=1}^{n}{{\left({y}_{i}-\beta{x}_{i} \right)}^{2}} \\
&& \ln{L(\beta,\sigma^{2} | y_{i})} = n \times \ln{{(2\pi {\sigma}^{2})}^{-\frac{1}{2}}} -\frac{1}{2{\sigma}^{2}} \sum_{i=1}^{n}{{\left({y}_{i}-\beta{x}_{i} \right)}^{2}}
\end{aligned}
$$

Observe que temos agora uma função que depende de $\beta$ e $\sigma^{2}$ para valores de $y_{i}$. Sabemos que para encontrar os valores críticos que otimizam (seja maximizar ou minimizar) uma função precisamos achar os pontos onde a primeira derivada da função em relação a cada um dos parâmetros é igual a zero (condição de primeira ordem). 

Além disso, é necessário avaliar a curvatura da função nas proximidades dos valores críticos (condição de segunda ordem) o que nos permite determiar se a função é maximizada ou minimizada nos pontos críticos. 

Para este problema, a condição de primeira ordem (CPO) será:

$$
\frac{\partial L}{\partial \theta} = \left(\begin{array}{c} \frac{\partial \ln{L}}{\partial\beta} \\ \frac{\partial \ln{L}}{\partial{\sigma}^{2}} \end{array}\right) = 0
$$

O vetor gradiente $\frac{\partial L}{\partial \theta}$ é chamado de **vetor escore**, pois ele representa as primeiras derivadas do logaritmo da densidade. Assim, temos: 

$$
\frac{\partial \ln{L}}{\partial\beta}=-\frac{1}{2{\sigma}^{2}}\sum_{i=1}^{n}{2({y}_{i}-\beta{x}_{i})(-{x}_{i})}=0\Rightarrow \hat {\beta} =\frac{ \sum _{i=1}^{n}{({y}_{i}{x}_{i})}}{\sum_{i=1}^{n}{{x}_{i}^{2}}} 
$$
$$
\frac{\partial \ln{L}}{\partial{\sigma}^{2}} =-\frac{N}{2{\sigma}^{2}} +\frac{1}{2{\left({\sigma}^{2} \right)}^{2}} \sum_{i=1}^{N}{{\left({y}_{i}-\beta{x}_{i} \right)}^{2}}=0\Rightarrow {\hat{\sigma}}^{2}=\frac{\sum _{i=1}^{N}{{\left({y}_{i}-\beta{x}_{i} \right)}^{2}}}{n} 
$$
A partir dos resultados obtidos acima, podemos observar que o estimador de máxima verossimilhança para $\beta$ é igual ao estimador de mínimos quadrados ordinários. Por outro lado, o estimador da variância do termo de erro obtido por máxima verossimilhança é viesado, mas consistente. 

* **PROPRIEDADES DOS ESTIMADORES OBTIDOS PELO PRINCÍPIO DA MÁXIMA VEROSSIMILHANÇA**

1) São consistentes: $p \lim{\hat{\theta}}=\theta$
2) Têm distribuição assintótica Normal: $\hat{\theta} \sim N\left(\theta, I^{-1}(\theta)\right)$ onde $I(\theta)$ é a **matriz de informação de Fischer**. 
3) São assintoticamente eficientes
4) São invariantes

A **matriz de informação de Fischer** é definida como:

$$
I\left(\theta\right) = E\left[\left(\frac{\partial L}{\partial \theta}\right)^2\right] = - E\left[\left(\frac{\partial^2 L}{\partial \theta^2}\right)\right]
$$

onde $L(\theta)$ é o logaritmo da função de verossimilhança. A terminologia matriz de informação é utilizada em função de $L(\theta)$ ser a variância de $\frac{\partial L}{\partial \theta}$ (que é o score cuja média é zero). 

Assim, valores altos de $L(\theta)$ significam que pequenas alterações em $\theta$ conduzem a grandes alterações no valor do logaritmo da verossimilhança. Além disso, $I(\theta)$ nos fornece informação sobre a curvatura do logaritmo da verossimilhança (concavidade da função) 

Quanto mais côncava a função, mais fácil de detectar o $\hat{\theta}$ máximo. Caso contrário (mais plana), teremos $\hat{\theta}$'s muito próximos do $\hat{\theta}$ que gera o máximo da função e será difícil encontrar o $\hat{\theta}$ máximo.

#### **PRÁTICA**

Nesta seção você conseguirá aplicar no R todos os conceitos estudados anteriormente. 

<ol start="1">
<li> <h5> <b> ESTIMAR PARÂMETROS DE UMA AMOSTRA ALEATÓRIA </b> </h5> </li>
</ol>

Suponha que você tem uma amostra aleatória $(x_{1},x_{2},...,x_{n})$ composta por variáveis aleatórias retiradas de uma população com uma função de densidade de probabilidade Normal com média $\mu$ e variância $\sigma^{2}$, como abaixo:

$$
f(x|\mu,\sigma^{2})=\frac{1}{\sqrt{2\pi{\sigma}^{2}}} exp \left\{-\frac{1}{2}{\left(\frac{x-\mu}{\sigma}\right)}^{2}\right\}
$$
Isto implica que a função densidade de probabilidade conjunta da amostra aleatória (ou vetor aleatório) é:

$$
f(x_{1},x_{2},...,x_{n} | \mu,\sigma^{2}) = \prod_{i=1}^{n}{f({x}_{1},...,x_{n}|\mu,\sigma^{2}})
$$
Você quer descobrir quais os valores dos parâmetros $\mu$ e $\sigma^{2}$ para sua amostra aleatória. Pelo princípio da verossimilhança sabemos que o problema pode ser escrito da seguinte forma:

$$
L(\mu,\sigma^{2}|x_{1},x_{2},...,x_{n}) = \prod_{i=1}^{n}f({{x}_{1},...,x_{n}|\mu,\sigma^{2}}) = f({{x}_{1}|\mu,\sigma^{2}})\times f({{x}_{2}|\mu,\sigma^{2}}) \times... \times f({x_{n}|\mu,\sigma^{2}}) 
$$
Na parte teórica deste documento, vimos que uma alternativa para a solução do problema é trabalhar com o **logaritmo da verossimilhança**, que aplicado no presente problema, temos:

$$
\begin{aligned}
&&& L(\mu,\sigma^{2}|x_{1},x_{2},...,x_{n}) = \sum_{i=1}^{n}{\ln{f({{x}_{1},...,x_{n}|\mu,\sigma^{2}})}} \\
&&& L(\mu,\sigma^{2}|x_{1},x_{2},...,x_{n}) = \ln{f(x_1|\mu,\sigma^2)}+\ln{f(x_2|\mu,\sigma^2)}+...+\ln{f(x_n|\mu,\sigma^2)} \\
&&& L(\mu,\sigma^{2}|x_{1},x_{2},...,x_{n}) = \ln{\left[\frac{1}{\sqrt{2\pi{\sigma}^{2}}} exp \left\{-\frac{1}{2}{\left(\frac{x_1-\mu}{\sigma}\right)}^{2}\right\}\right]} + ...+\ln{\left[\frac{1}{\sqrt{2\pi{\sigma}^{2}}} exp \left\{-\frac{1}{2}{\left(\frac{x_n-\mu}{\sigma}\right)}^{2}\right\}\right]} \\
&&& L(\mu,\sigma^{2}|x_{1},x_{2},...,x_{n}) = \ln{\left[\frac{1}{\sqrt{2\pi {\sigma}^{2}}}\right]}-\frac{1}{2{\sigma}^{2}}{\left({x}_{1}-\mu\right)}^{2} + ... + \ln{\left[\frac{1}{\sqrt{2\pi {\sigma}^{2}}}\right]}-\frac{1}{2{\sigma}^{2}}{\left({x}_{n}-\mu\right)}^{2}  \\
&&& L(\mu,\sigma^{2}|x_{1},x_{2},...,x_{n}) = n*\ln{\left[\frac{1}{\sqrt{2\pi {\sigma}^{2}}}\right]}-\frac{1}{2{\sigma}^{2}} \sum_{i=1}^{n}{{\left({x}_{i}-\mu \right)}^{2}} \\
&&& L(\mu,\sigma^{2}|x_{1},x_{2},...,x_{n}) = n*\ln{{(2\pi {\sigma}^{2})}^{-\frac{1}{2}}} -\frac{1}{2{\sigma}^{2}} \sum_{i=1}^{n}{{\left({x}_{i}-\mu \right)}^{2}} \\
&&& L(\mu,\sigma^{2}|x_{1},x_{2},...,x_{n}) = -\left(\frac{n}{2}\right)*\ln{{(2\pi {\sigma}^{2})}}-\frac{1}{2{\sigma}^{2}} \sum_{i=1}^{n}{{\left({x}_{i}-\mu \right)}^{2}} \\
\end{aligned}
$$

Nos códigos abaixo mostramos como resolvê-lo usando o **logaritmo da verossimilhança** e supondo que temos uma amostra aleatória de tamanho $1000$ para $x_{i}$. 

Num primeiro momento, sabemos os verdadeiros valores de $\mu$ e $\sigma^{2}$ (1 e 2, respectivamente) e queremos fazer uso do princípio da verossimilhança para verificar quais os valores o mesmo retorna como estimativa para os parâmetros de interesse ($\mu$ e $\sigma^{2}$). Execute os códigos abaixo e observe que o método da máxima verossimilhança resultará em parâmetros próximos dos verdadeiros parâmetros populacionais.

```{r, echo=TRUE, eval=FALSE}
################################
####  PREPARAR O PROBLEMA  #####
################################

# Nese exemplo, vamos mostrar como usar o princípio da máxima verossimilhança para encontrar
# os parâmetros de média e variância de uma amostra de uma variável aleatória que segue 
# uma distribuição Normal

# Criamos uma variável aleatória (xi) de tamanho 1000 originada a partir de normal com média 1 e desvio padrão 2
# Para saber as opções da função rnorm execute help(rnorm)
x <- rnorm(1000, mean = 1 , sd = 2)

# função do negativo do log da verossimilhança da Normal
neg_log_lik <- function(x, parametros){
  # parâmetros para a distribuição Normal
  media <- parametros[1]
  desvio <- parametros[2]
  n <- length(x)
  # log da verossimilhança da Normal
  ll <- -(n/2)*log(2*pi*desvio^2) + (-1/(2*desvio^2))*sum((x-media)^2)
  # retornar o negativo para maximizar ao invés de minimizar 
  return(-ll)
}

################################
####      GRÁFICOS         #####
################################

# Objetivo: mostrar que maximizar uma função é o mesmo que minimizar o negativo da função

# dividir a tela em duas linhas e uma coluna
par(mfrow=c(2,1))

# gráfico da função do logaritmo da verossmilhança. Observe que estamos multiplicando por -1
# a função que já é o negativo (ou seja, voltando para o seu sinal)
plot(x = seq(from = -3, to = 3, by = 0.1),
     y = -1*sapply(seq(from = -3, to = 3, by = 0.1), 
                   FUN = neg_log_lik, par = c(0,1)),
     type = "l",
     ylab = "",
     xlab = "Valor da variável aleatória X", 
     main = "Log da Verossimilhança para Média=0 e Variância=1")

# gráfico do negativo do logaritmo da verossimilhança
plot(x = seq(from = -3, to = 3, by = 0.1),
     y = 1*sapply(seq(from = -3, to = 3, by = 0.1), 
                  FUN = neg_log_lik, par = c(0,1)),
     type = "l",
     ylab = "",
     xlab = "Valor da variável aleatória X", 
     main = "Negativo do Log da Verossimilhança para Média=0 e Variância=1")

# retornar a tela para uma linha e uma coluna
par(mfrow = c(1,1))

################################
###  SOLUCIONAR O PROBLEMA  ####
################################

# Uma vez que temos uma função que deve ser maximizada e os parâmetros iniciais, podemos usar
# a função optim do pacote stats para obter as estimativas ótimas para a média e variância. 
# - par: atributo que recebe os valores iniciais dos parâmetros. A sequência é importante aqui, 
# pois definimos na função que o primeiro é a média e o segundo é a variância
# - fn: a função que deve ser minimizada. Por default, optim faz uma minimização e por isso
# definimos o negativo do logaritmo da verossimilhança dado que minimizar o inverso de uma 
# função é o mesmo que maximizá-la
# - method: o algoritmo numérico usado para solucionar o problema. 
# - hessian: se queremos (TRUE) ou não (FALSE) que a matriz hessiana do problema de otimização seja
# disponibilizada. Para mais detalhes use help(optim) ou em https://cran.r-project.org/web/packages/fitdistrplus/vignettes/Optimalgo.html
normal.fit <- stats::optim(par = c(0.5,0.5), 
                            fn = neg_log_lik, 
                            x = x, 
                            method = "BFGS",
                            hessian = TRUE)

################################
####       RESULTADOS     ######
################################

# Parâmetros encontrados para a média e variância (condição de primeira ordem). Observe
# que eles estão bem próximos dos valores usados para gerar a variavel aleatória
normal.fit$par 

# Resultado: matriz hessiana (condição de segunda ordem). Aqui, temos que avaliar se a matriz
# hessiana é negativa definida ou positiva definida nos pontos críticos encontrados na condição
# de primeira ordem. Como estamos com um problema de minimização (novamente, encontrar os valores 
# para a média e variância que minimizam o negativo da função de verossimilhança é o mesmo que 
# encontrar os valores que maximizam a função de verossimilhança), temos que verificar se nas 
# proximidades da matriz hessiana a função é "convexa". Isso só é possível se os menores principais
# líderes da matriz hessiana são positivos tornando-a positiva definida. 
normal.fit$hessian

# Determinante do primeiro menor principal líder
det(matrix(data = normal.fit$hessian[1], nrow = 1, ncol = 1))

# Determinante do segundo menor principal líder
det(matrix(data = normal.fit$hessian, nrow = 2, ncol = 2))

# Matriz de informação de Fisher
#  - Mais detalhes em https://rpubs.com/hudsonchavs/maxverosimilhanca
#  - Obida por (-hessiana)^(-1). A razão para não ser preciso multiplicar a matriz
# hessiana por -1 é que já fizemos a minimização usando o negativo da verossimilhança
fisher.information.normal.fit <- solve(normal.fit$hessian)

# Desvio padrão de cada estimador (beta0, beta1, desvio)
#  - Mais detalhes em https://rpubs.com/hudsonchavs/maxverosimilhanca
#  - Usamos a raiz quadrada da diagonal principal 
standard.deviance.normal.fit <- sqrt(diag(fisher.information.normal.fit))

# Tabela com os parâmetros estimados, estatística t, desvio padrão do estimador e p-valor
t.normal.fit <- normal.fit$par/standard.deviance.normal.fit
pvalue.normal.fit <- 2*(1-pt(abs(t.normal.fit), length(x)-length(normal.fit$par)))
results.normal.fit <- cbind(normal.fit$par, standard.deviance.normal.fit, t.normal.fit, pvalue.normal.fit)
colnames(results.normal.fit) <- c("parâmetros", "desvio-padrão", "estatística t", "p-valor")
rownames(results.normal.fit) <- c("media", "desvio")
print(results.normal.fit, digits = 3)
```


<ol start="2">
<li> <h5> <b> REGRESSÃO LINEAR SIMPLES </b> </h5> </li>
</ol>

Suponha que você tem uma amostra aleatória de duas variáveis ($Y_{i},X_{i}$) de tamanho $N$ e deseja estimar um modelo de regressão linear simples que relacione elas da seguinte forma:

$$
Y_{i} = \beta_{0} + \beta_{1} X_{i} + \varepsilon_{i}
$$
Além disso, assuma a hipótese de que $\varepsilon \sim N(0,{\sigma}^{2})$ e que você já conhece os verdadeiros parâmetros do modelo econométrico. Seu objetivo é fazer uso do **princípio de máxima verossimilhança** para testar o quão seus estimadores se aproximam dos parâmetros populacionais conhecidos. Para tanto, vamos supor que a equação populacional é:

$$
Y_{i} = 8 + 3X_{i}
$$
Uma vez que $Y_{i} \sim N(\beta_{0} + \beta_{1}X_{i},{\sigma}^{2})$, temos que a função de verossimilhança para o problema proposto será:

$$
L(\beta_{0} + \beta_{1}X_{i},\sigma^{2}|Y_{i}) = \prod_{i=1}^{N}{f(\beta_{0} + \beta_{1}X_{i},\sigma^{2}|Y_{i})} = \prod_{i=1}^{N}\frac{1}{\sqrt{2\pi{\sigma}^{2}}} exp\left\{-\frac{1}{2{\sigma}^{2}} {\left({y}_{i}-[\beta_{0} + \beta_{1}X_{i}] \right)}^{2} \right\}
$$
Nosso objetivo será encontrar $\hat{{\beta}_{0}}$, $\hat{{\beta}_{1}}$ e ${\hat{\sigma}}^{2}$ que são os parâmetros a serem estimados para o modelo de regressão linear. Abaixo, códigos que geram os dados e aplicam o princípio de máxima verossimilhança.

```{r}
################################
####  PREPARAR O PROBLEMA    ###
################################

# Neste exemplo vamos mostrar como obter os parâmetros de uma regressão linear simples
# por meio do método da máxima verossimilhança. Para isso, vamos gerar uma amostra de 
# y que é função de x e de um ruído. Porém, antes de gerar y com o ruído, saberemos o
# verdadeiro y dado que temos os verdadeiros parâmetros para a regressão linear.

# 1000 observações de X geradas a partir de uma distribuição normal com média 10 e desvio 1
ols.data.x <- rnorm(n = 10000, mean = 10, sd = 1)

# Parâmetros populacionais do modelo de regressão
beta0.true <- 3
beta1.true <- 8

# 1000 observações de Y gerados a partir dos parâmetros populacionais e X
true.y <- beta0.true + beta1.true*ols.data.x

# 1000 observações geradas a partir dos dados populacionais com um termo de erro que segue uma 
# normal com média 0 e desvio 1
noise <- rnorm(n = 10000, mean = 0, sd = 1)
data.y <- true.y + noise 

# função do negativo do log da verossimilhança da Normal para uma regressão linear
ols_neg_log_lik <- function(y, x, parametros){
  # parâmetros para a distribuição Normal de uma regressão linear
  desvio <- parametros[1]
  betas <- parametros[-1]
  media <- cbind(1,x) %*% betas
  n <- length(x)
  # log da verossimilhança da Normal
  ll <- -(n/2)*log(2*pi*desvio^2) + (-1/(2*desvio^2))*sum((y-media)^2)
  # retornar o negativo para minimizar ao invés de maximizar
  return(-ll)
}

################################
###  SOLUCIONAR O PROBLEMA  ####
################################

# Uma vez que temos uma função que deve ser maximizada e os parâmetros iniciais, podemos usar
# a função optim do pacote stats para obter as estimativas ótimas para a média (agora uma média
# condicional que é função do vetor beta de parâmetros da regressão linear e a variância que deve
# ser a mesma do termo de erro). 
# - par: atributo que recebe os valores iniciais dos parâmetros. A sequência é importante aqui, 
# pois definimos na função que o primeiro é a média e o segundo é a variância
# - fn: a função que deve ser minimizada. Por default, optim faz uma minimização e por isso
# definimos o negativo do logaritmo da verossimilhança dado que minimizar o inverso de uma 
# função é o mesmo que maximizá-la
# - method: o algoritmo numérico usado para solucionar o problema. 
# - hessian: se queremos (TRUE) ou não (FALSE) que a matriz hessiana do problema de otimização seja
# disponibilizada. Para mais detalhes use help(optim) ou em https://cran.r-project.org/web/packages/fitdistrplus/vignettes/Optimalgo.html
ols.fit <- stats::optim(par = c(1,2,2), 
                           fn = ols_neg_log_lik, 
                           y = data.y,
                           x = ols.data.x, 
                           method = "BFGS", 
                           hessian = TRUE)

# resultado: parâmetros encontrados para desvio, beta0 e  beta1 (a ordem é a mesma da definida
# na função ols_neg_log_lik)
ols.fit$par

# Resultado: matriz hessiana (condição de segunda ordem). Aqui, temos que avaliar se a matriz
# hessiana é negativa definida ou positiva definida nos pontos críticos encontrados na condição
# de primeira ordem. Como estamos com um problema de minimização (novamente, encontrar os valores 
# para a média e variância que minimizam o negativo da função de verossimilhança é o mesmo que 
# encontrar os valores que maximizam a função de verossimilhança), temos que verificar se nas 
# proximidades da matriz hessiana a função é "convexa". Isso só é possível se os menores principais
# líderes da matriz hessiana são positivos tornando-a positiva definida. 
ols.fit$hessian

# Determinante do primeiro menor principal líder
det(matrix(data = ols.fit$hessian[1], nrow = 1, ncol = 1))

# Determinante do segundo menor principal líder
det(matrix(data = ols.fit$hessian[1:2,1:2], nrow = 2, ncol = 2))

# Determinante do terceiro menor principal líder
det(matrix(data = ols.fit$hessian, nrow = 3, ncol = 3))

# Matriz de informação de Fisher
#  - Mais detalhes em https://rpubs.com/hudsonchavs/maxverosimilhanca
#  - Obida por (-hessiana)^(-1). A razão para não ser preciso multiplicar a matriz
# hessiana por -1 é que já fizemos a minimização usando o negativo da verossimilhança
fisher_information <- solve(ols.fit$hessian)

# Desvio padrão de cada estimador (beta0, beta1, desvio)
#  - Mais detalhes em https://rpubs.com/hudsonchavs/maxverosimilhanca
#  - Usamos a raiz quadrada da diagonal principal 
standard_deviance <- sqrt(diag(fisher_information))

# Tabela com os parâmetros estimados, estatística t, desvio padrão do estimador e p-valor
t <- ols.fit$par/standard_deviance
pvalue <- 2*(1-pt(abs(t), length(ols.data.x)-length(ols.fit$par)))
results <- cbind(ols.fit$par, standard_deviance, t, pvalue)
colnames(results) <- c("parâmetros", "desvio-padrão", "estatística t", "p-valor")
rownames(results) <- c("desvio", "beta0", "beta1")
print(results, digits = 3)

# valor real e ajustado 
beta0.estimado <- ols.fit$par[2]
beta1.estimado <- ols.fit$par[3]
y.estimado <- beta0.estimado + beta1.estimado*ols.data.x
residuos <- true.y - y.estimado

# gráfico dos resíduos
plot(residuos, type = "l", xlab = "", ylab = "", main = "resíduos")

######
###  PONTO DE ATENÇÃO
######

# O método de máxima verossimilhança é bastante sensível aos valores iniciais usados no problema
# de otimização, principalmente para alguns métodos numéricos. Perceba que se você alterar apenas
# os valores iniciais para c(1,1,1) no problema de regressão linear simples e manter o método numérico, 
# os resultados encontrados são alterados. Como não é possível controlar os pontos iniciais bem como
# a escoha do método numérico, a maioria dos pacotes em R que estimam modelos econométricos, fazem
# uso de algum método de estimação a priori (mínimos quadrados ordinários, por exemplo) para encontrar
# parâmetros iniciais e usá-los posteriormente como parâmetros iniciais do método de máxima verossimilhança
```

#### **REFERÊNCIAS**