Este documento tem como objetivo contribuir para o entendimento de como resolver problemas de otimização não-condicionada no R. Para tanto, vamos aprender os seguintes pontos:

ABORDAGEM DAS DERIVADAS PARCIAIS

Como estudamos em sala de aula, uma alternativa para encontrar os valores críticos (candidatos à máximo e/ou mínimo) de uma função é fazer uso das derivadas parciais. Neste sentido, entendemos que igualar a derivada parcial de primeira ordem nos permite encontrar os valores críticos (chamamos tal procedimento de condição necessária de primeira ordem, CPO). Por outro lado, avaliar o sinal da derivada parcial de segunda ordem nos pontos críticos nos fornece a conclusão se o valor crítico é ponto de máximo, mínimo e/ou inflexão.

No decorrer desta seção, vamos entender como usar o pacote rootSolve para resolver problemas de otimização não-condicionada com 1 variável de escolha por meio da abordagem das derivadas parciais. Para tanto, vamos usar como exemplo a função \(y = x^{3} + 3x^{2} - 6x -8\). Observe o formato da função para o domínio \(-5<x<4\) no gráfico abaixo.

Um dos passos iniciais em qualquer problema de otimização é encontrar condições necessárias e suficientes para o problema em questão. Ou seja, encontrar as raízes responsáveis por atender a condição \(f'(x=x_{0}) = 0\), também conhecida como condição de primeira ordem (CPO).

No código abaixo, mostramos como fazer uso do R para encontrar os valores críticos, ou seja, valor de \(x_{0}\) que torna a primeira derivada igual a zero.

######
### PACOTES NECESSÁRIOS
######

# Instalar pacotes (executar apenas uma vez)
# install.packages("rootSolve")

# Carregar os pacotes no ambiente
suppressMessages(require(rootSolve))               


######
### FUNÇÃO OBJETIVO 
######

# A função que analisaremos
y = function(x) (x^3 + 3*x^2 - 6*x - 8)

######
### CONDIÇÃO DE PRIMEIRA ORDEM 
######

# função vazia que receberá o resultado da primeira derivada 
derivada1 = function(x){}

# resultado da derivação usando as funções body e D. body permite acessar uma função
# seja para gravar o resultado ou para pegar a função. D aplica a derivação
body(derivada1) = D(body(y), 'x')

# Encontrar as raizes que tornam a primeira derivada igual a zero para o intervalo -5<x<4
roots = rootSolve::uniroot.all(derivada1, c(-5, 4))

Como resultado encontramos que os valores críticos são -2.73 e 0.73. Agora, precisamos avaliar se eles são pontos de mínimo, máximo ou sela.

Assim, precisamos verificar a condição de segunda ordem que verifica se a segunda derivada avaliada nas raízes da condição necessária (\(f"(x=x_{0})\)) é positiva, negativa ou igual a zero. Abaixo, exemplo de como encontrar as condições de primeira e segunda ordem

# Função que armazenará o resultado da derivada de segunda ordem
derivada2 = function(x){}
# Obtendo a derivada segunda
body(derivada2) = D(body(derivada1), "x")
# Encontrar o valor da derivada segunda para os valores críticos. Como
# estudamos, valores críticos que geram f"(x)<0 são pontos de máximo e
# valores críticos que geram f"(x)>0 são ponto de mínimo. Assim, pelos
# resultados esperamos que a primeira raiz seja um máximo e a segunda um
# mínimo.
derivada2(roots)
[1] -10.39229  10.39228
# Avaliar a função nas raízes da condição necessária (f'(x)=0).
# Aqui, usamos y() porque definimos a função como y. Observe que 
# confirmamos que a primeira raíz gera um máximo e a segunda um mínimo
y(roots)
[1]  10.3923 -10.3923

Uma vez que testamos as condições de primeira e segunda ordem e temos os valores críticos da condição necessária, \(f'(x=x_{0}) = 0\), avaliados na condição suficiente, \(f"(x=x_{0})\), podemos definir o máximo e/ou mínimo. O código abaixo mostra como criar um gráfico que nos mostra tais avlores.

# Usamos a função curve que desenha a função. Seus parâmetros são:
# - expr: a função a ser plotada
# - from: valor inferior do intervalo
# - to: valor superior do intervalo
# - type: tipo de gráfico (l: em linha)
# - ylab: nome do eixo vertical
# - xlab: nome do eixo horizontal
curve(expr = y, from = -5, to = 4, type = "l", ylab = "y=f(x)", xlab = "")
# Após isso, adicionamos as raízes para a função no intervalo. Usamos
# a função points que tem os seguintes parâmetros:
# - x: a variável do eixo verticial
# - y: a variável do eixo horizontal
# Observe que a função colocará um ponto nas coordenadas (x,y)
points(y(roots) ~ roots)

ABORDAGEM DE DIFERENCIAL TOTAL

Como estudamos em sala de aula, resolver problemas de otimização não-condicionada com \(N\) variáveis de escolha por meio da abordagem de derivadas parciais pode ser trabalhoso. Assim, nesta seção mostramos como usar a abordagem de diferencial total para resolver problemas de otimização não-condicionada com mais de uma variável de escolha no R. Para tanto, vamos aprender os seguintes pontos:

Suponha que temos a função \(f(x,y,z) = -5x^2+10x+xz-2y^2+4y+2yz-4z^2\) e queremos encontrar os valores de \(x\), \(y\) e \(z\) que maximizam \(f(x,y,z)\). O códigoa abaixo, mostra como formular tal problema no R e como fazer uso do função optim para encontrar a solução.

######
### FUNÇÃO OBJETIVO 
######
f = function(x) -5*x[1]^2+10*x[1]+x[1]*x[3]-2*x[2]^2+4*x[2]+2*x[2]*x[3]-4*x[3]^2
#####
### CPO E CSO AO MESMO TEMPO
#####
# Aqui, usamos a função optim que permite resolver diversos problemas 
# de otimização. Seus parâmetros são:
# - par: valores iniciais para as variáveis de escolha
# - fn: a função objetivo que será minimizada (ou maximizada)
# - gr: uma função com a derivada parcial (gradiente) da função objetivo
# - method: o método a ser usado pelo algoritmo (use o help da função para entender melhor)
# - lower: limite inferior para as variáveis de escolha (restringir o domínio)
# - upper: limite superior para as variáveis de escolha (restringir o domínio)
# - hessian: valor lógico (retornar (TRUE) ou não retornar (FALSE) a matriz hessiana)
# - control = define se o problema é de máximo (fnscale=-1) ou mínimo (defaul)
# Otimizacao (repare o uso de control = list(fnscale=1) dado que queremos o máximo)
otimizacao1 = optim(par = c(0,0,0), fn = f, method = "L-BFGS-B", control = list(fnscale =-1), lower = c(0,0,0), hessian = TRUE)
# Valores críticos (CPO)
valores_criticos = otimizacao1$par
# Matriz Hessiana (CSO)
h1 = det(matrix(otimizacao1$hessian[1,1]))                                     # primeiro menor principal líder
h2 = det(matrix(otimizacao1$hessian[c(1,2),c(1,2)], ncol = 2, byrow = TRUE))   # segundo menor principal líder
h3 = det(matrix(otimizacao1$hessian, ncol = 3, byrow = TRUE))                  # terceiro menor principal líder
#####
### REGRA PARA AVALIAÇÃO DOS VALORES CRÍTICOS
#####
# Como estudamos em sala de aula, a regra que deve ser usada para definir se o valor
# crítico gera máximo ou mínimo é:
# - Máximo: H1<0, H2>0, H3<0, ..., (-1)^nHn>0
# - Mínimo: H1>0, H2>0, ..., Hn>0

Como resultado temos que o valor de máximo é 7.652 e que os valores de \(x\), \(y\) e \(z\) que geram este valor são 1.04, 1.22 e 0.43, respectivamente. Além disso, se fizemos o cálculo dos determinantes dos menores principais líderes da matriz hessiana resultante, obtemos que o primeiro menor princial tem valor igual a -10 (negativo) enquanto o segundo tem o valor 40 (positivo) e o terceiro tem o valor -276 (negativo) . Isso confirma que os resultados obtidos são para um máximo, conforme estudamos em sala de aula.

Suponha agora que temos a função \(z(x_{1},x_{2},x_{3}) = 2*(x_{1})^2 + x_{1}*x_{2} + 4*(x_{2})^2 + x_{1}*x_{3} + (x_{3})^2 + 2\) e queremos encontrar os valores de \(x_{1}\), \(x_{2}\) e \(x_{3}\) que minimizam \(z(x_{1},x_{2},x_{3})\). Este exemplo foi resolvido em sala de aula e usaremos o R para cofirmar a resposta encontrada.

f = function(x){
  x1 = x[1]
  x2 = x[2]
  x3 = x[3]
  2*(x1)^2 + x1*x2 + 4*(x2)^2 + x1*x3 + (x3)^2 + 2
}

optim(c(-1,-1,-1), f, method = "BFGS", hessian = TRUE)

Como resultado temos que os valores de \(x_{1}\), \(x_{2}\) e \(x_{3}\) que minimizam \(z(x_{1},x_{2},x_{3})\) são bem próximos de \(0\), conforme encontramos em sala de aula. Ainda, o valor mínimo de \(z(x_{1},x_{2},x_{3})\) é \(2\) e a matriz hessiana é bem próxima da encontrada em sala de aula.

REFERÊNCIAS

Chiang, Alpha C., and Kevin Wainwright. 2006. Matemática Para Economistas. Elsevier.

Soetaert, Karline, and Peter MJ Herman. 2008. A Practical Guide to Ecological Modelling Using R as a Simulation Platform. Springer Science & Business Media.

---
title: <center> <h2> <b> Otimização Não-Condicionada </b> </h2> </center> 
author: <center> Hudson Chaves Costa - IBMEC/MG </center>
graphics: yes
linkcolor: blue
output: 
  html_notebook:
    theme: cerulean
    fig_caption: yes
references:
- id: soetaert2008practical
  title: A practical guide to ecological modelling using R as a simulation platform
  author:
  - family: Soetaert
    given: Karline
  - family: Herman
    given: Peter MJ
  publisher: Springer Science \& Business Media
  type: book
  issued:
    year: 2008
- id: alpha2004matematica
  title: Matemática para economistas
  author: 
  - family: Chiang
    given: Alpha C.
  - family: Wainwright
    given: Kevin
  publisher: Elsevier
  type: book
  issued:
    year: 2006
nocite: | 
  @soetaert2008practical, @alpha2004matematica
---

Este documento tem como objetivo contribuir para o entendimento de como resolver problemas de otimização não-condicionada no [R](https://www.r-project.org/). Para tanto, vamos aprender os seguintes pontos:

* Como usar a abordagem da **derivadas parciais** para solucionar problemas com apenas uma variável de escolha
    * Encontrar as condições de primeira e segunda ordem;
    * Obter os valores máximos e mínimos da função objetivo;
    * Gerar gráficos com os resultados.
* Como usar a abordagem de **diferencial total** para solucionar problemas com $N$ variáveis
    * Encontrar a solução do problema usando a função `optim`
    * Testar se esta função encontra resultados semelhantes aos obtidos por meio dos determinantes dos menores principais líderes da matriz hessiana avaliada nos pontos críticos.


##### **ABORDAGEM DAS DERIVADAS PARCIAIS**

Como estudamos em sala de aula, uma alternativa para encontrar os valores críticos (candidatos à máximo e/ou mínimo) de uma função é fazer uso das derivadas parciais. Neste sentido, entendemos que igualar a derivada parcial de primeira ordem nos permite encontrar os valores críticos (chamamos tal procedimento de condição necessária de primeira ordem, CPO). Por outro lado, avaliar o sinal da derivada parcial de segunda ordem nos pontos críticos nos fornece a conclusão se o valor crítico é ponto de máximo, mínimo e/ou inflexão. 

No decorrer desta seção, vamos entender como usar o pacote `rootSolve` para resolver problemas de otimização não-condicionada com 1 variável de escolha por meio da abordagem das derivadas parciais. Para tanto, vamos usar como exemplo a função $y = x^{3} + 3x^{2} - 6x -8$. Observe o formato da função para o domínio $-5<x<4$ no gráfico abaixo. 

```{r, echo=FALSE, results='asis', fig.height=6, fig.width=9}
y = function(x) (x^3 + 3 * x^2 - 6*x - 8)
curve(y, -5, 4, ylab = "y=f(x)")
```

* **CONDIÇÃO DE PRIMEIRA ORDEM (CPO)**

Um dos passos iniciais em qualquer problema de otimização é encontrar condições necessárias e suficientes para o problema em questão. Ou seja, encontrar as raízes responsáveis por atender a condição $f'(x=x_{0}) = 0$, também conhecida como condição de primeira ordem (CPO). 

No código abaixo, mostramos como fazer uso do R para encontrar os valores críticos, ou seja, valor de $x_{0}$ que torna a primeira derivada igual a zero.

```{r}
######
### PACOTES NECESSÁRIOS
######

# Instalar pacotes (executar apenas uma vez)
# install.packages("rootSolve")

# Carregar os pacotes no ambiente
suppressMessages(require(rootSolve))               


######
### FUNÇÃO OBJETIVO 
######

# A função que analisaremos
y = function(x) (x^3 + 3*x^2 - 6*x - 8)

######
### CONDIÇÃO DE PRIMEIRA ORDEM 
######

# função vazia que receberá o resultado da primeira derivada 
derivada1 = function(x){}

# resultado da derivação usando as funções body e D. body permite acessar uma função
# seja para gravar o resultado ou para pegar a função. D aplica a derivação
body(derivada1) = D(body(y), 'x')

# Encontrar as raizes que tornam a primeira derivada igual a zero para o intervalo -5<x<4
roots = rootSolve::uniroot.all(derivada1, c(-5, 4))
```

Como resultado encontramos que os valores críticos são `r round(roots[1],2)` e `r round(roots[2],2)`. Agora, precisamos avaliar se eles são pontos de mínimo, máximo ou sela. 

* **CONDIÇÃO DE SEGUNDA ORDEM (CSO)**

Assim, precisamos verificar a condição de segunda ordem que verifica se a segunda derivada avaliada nas raízes da condição necessária ($f"(x=x_{0})$) é positiva, negativa ou igual a zero. Abaixo, exemplo de como encontrar as condições de primeira e segunda ordem

```{r}

# Função que armazenará o resultado da derivada de segunda ordem
derivada2 = function(x){}

# Obtendo a derivada segunda
body(derivada2) = D(body(derivada1), "x")

# Encontrar o valor da derivada segunda para os valores críticos. Como
# estudamos, valores críticos que geram f"(x)<0 são pontos de máximo e
# valores críticos que geram f"(x)>0 são ponto de mínimo. Assim, pelos
# resultados esperamos que a primeira raiz seja um máximo e a segunda um
# mínimo.
derivada2(roots)

# Avaliar a função nas raízes da condição necessária (f'(x)=0).
# Aqui, usamos y() porque definimos a função como y. Observe que 
# confirmamos que a primeira raíz gera um máximo e a segunda um mínimo
y(roots)
```

* **GRÁFICO COM OS VALORES DE MÁXIMO E/OU MÍNIMO RELATIVOS**

Uma vez que testamos as condições de primeira e segunda ordem e temos os valores críticos da condição necessária, $f'(x=x_{0}) = 0$, avaliados na condição suficiente, $f"(x=x_{0})$, podemos definir o máximo e/ou mínimo. O código abaixo mostra como criar um gráfico que nos mostra tais avlores.


```{r, fig.height=6, fig.width=9, fig.align='center'}
# Usamos a função curve que desenha a função. Seus parâmetros são:
# - expr: a função a ser plotada
# - from: valor inferior do intervalo
# - to: valor superior do intervalo
# - type: tipo de gráfico (l: em linha)
# - ylab: nome do eixo vertical
# - xlab: nome do eixo horizontal
curve(expr = y, from = -5, to = 4, type = "l", ylab = "y=f(x)", xlab = "")

# Após isso, adicionamos as raízes para a função no intervalo. Usamos
# a função points que tem os seguintes parâmetros:
# - x: a variável do eixo verticial
# - y: a variável do eixo horizontal
# Observe que a função colocará um ponto nas coordenadas (x,y)
points(y(roots) ~ roots)

```

##### **ABORDAGEM DE DIFERENCIAL TOTAL**

Como estudamos em sala de aula, resolver problemas de otimização não-condicionada com $N$ variáveis de escolha por meio da abordagem de derivadas parciais pode ser trabalhoso. Assim, nesta seção mostramos como usar a abordagem de diferencial total para resolver problemas de otimização não-condicionada com mais de uma variável de escolha no [R](https://www.r-project.org/). Para tanto, vamos aprender os seguintes pontos:

* **EXEMPLO 1: ENCONTRAR MÁXIMO**

Suponha que temos a função $f(x,y,z) = -5x^2+10x+xz-2y^2+4y+2yz-4z^2$ e queremos encontrar os valores de $x$, $y$ e $z$ que maximizam $f(x,y,z)$. O códigoa abaixo, mostra como formular tal problema no R e como fazer uso do função `optim` para encontrar a solução.


```{r}
######
### FUNÇÃO OBJETIVO 
######

f = function(x) -5*x[1]^2+10*x[1]+x[1]*x[3]-2*x[2]^2+4*x[2]+2*x[2]*x[3]-4*x[3]^2

#####
### CPO E CSO AO MESMO TEMPO
#####

# Aqui, usamos a função optim que permite resolver diversos problemas 
# de otimização. Seus parâmetros são:
# - par: valores iniciais para as variáveis de escolha
# - fn: a função objetivo que será minimizada (ou maximizada)
# - gr: uma função com a derivada parcial (gradiente) da função objetivo
# - method: o método a ser usado pelo algoritmo (use o help da função para entender melhor)
# - lower: limite inferior para as variáveis de escolha (restringir o domínio)
# - upper: limite superior para as variáveis de escolha (restringir o domínio)
# - hessian: valor lógico (retornar (TRUE) ou não retornar (FALSE) a matriz hessiana)
# - control = define se o problema é de máximo (fnscale=-1) ou mínimo (defaul)

# Otimizacao (repare o uso de control = list(fnscale=1) dado que queremos o máximo)
otimizacao1 = optim(par = c(0,0,0), fn = f, method = "L-BFGS-B", control = list(fnscale =-1), lower = c(0,0,0), hessian = TRUE)

# Valores críticos (CPO)
valores_criticos = otimizacao1$par

# Matriz Hessiana (CSO)
h1 = det(matrix(otimizacao1$hessian[1,1]))                                     # primeiro menor principal líder
h2 = det(matrix(otimizacao1$hessian[c(1,2),c(1,2)], ncol = 2, byrow = TRUE))   # segundo menor principal líder
h3 = det(matrix(otimizacao1$hessian, ncol = 3, byrow = TRUE))                  # terceiro menor principal líder

#####
### REGRA PARA AVALIAÇÃO DOS VALORES CRÍTICOS
#####

# Como estudamos em sala de aula, a regra que deve ser usada para definir se o valor
# crítico gera máximo ou mínimo é:
# - Máximo: H1<0, H2>0, H3<0, ..., (-1)^nHn>0
# - Mínimo: H1>0, H2>0, ..., Hn>0
```

Como resultado temos que o valor de máximo é `r round(otimizacao1$value,3)` e que os valores de $x$, $y$ e $z$ que geram este valor são `r round(valores_criticos[1],2)`, `r round(valores_criticos[2],2)` e `r round(valores_criticos[3],2)`, respectivamente. Além disso, se fizemos o cálculo dos determinantes dos menores principais líderes da matriz hessiana resultante, obtemos que o primeiro menor princial tem valor igual a `r h1` (**negativo**) enquanto o segundo tem o valor `r h2` (**positivo**) e o terceiro tem o valor `r h3` (**negativo**) . Isso confirma que os resultados obtidos são para um **máximo**, conforme estudamos em sala de aula.

* **EXEMPLO 2: ENCONTRAR MÍNIMO**

Suponha agora que temos a função $z(x_{1},x_{2},x_{3}) = 2*(x_{1})^2 + x_{1}*x_{2} + 4*(x_{2})^2 + x_{1}*x_{3} + (x_{3})^2 + 2$ e queremos encontrar os valores de $x_{1}$, $x_{2}$ e $x_{3}$ que minimizam $z(x_{1},x_{2},x_{3})$. Este exemplo foi resolvido em sala de aula e usaremos o [R](https://www.r-project.org/) para cofirmar a resposta encontrada. 

```{r}
f = function(x){
  x1 = x[1]
  x2 = x[2]
  x3 = x[3]
  2*(x1)^2 + x1*x2 + 4*(x2)^2 + x1*x3 + (x3)^2 + 2
}

optim(c(-1,-1,-1), f, method = "BFGS", hessian = TRUE)
```

Como resultado temos que os valores de $x_{1}$, $x_{2}$ e $x_{3}$ que minimizam $z(x_{1},x_{2},x_{3})$ são bem próximos de $0$, conforme encontramos em sala de aula. Ainda, o valor mínimo de $z(x_{1},x_{2},x_{3})$ é $2$ e a matriz hessiana é bem próxima da encontrada em sala de aula.


#### **REFERÊNCIAS**