Faire des prévisions de données revient à observer les valeurs passées, déterminer une dynamique, et tenter d’estimer les évolutions futures à partir du comportement passé de la série temporelle.

Il existe plusieurs moyens d’étudier la dynamique de la série. Tout d’abord, on peut étudier les cycles de la série, c’est notamment ce qui est fait pour étudier l’évolution du PIB qui est soumis à des cycles d’affaires (business cycles) plus ou moins longs. En fonction de l’état du cycle financier, on peut donc anticiper une hausse du PIB dans les périodes futures si le cycle est haussier, ou inversement anticiper une baisse du PIB si le cycle est plutôt baissier. On utilise ce moyen notamment pour faire des prévisions de long-terme (sur quelques années) avec des données à faible fréquence (notamment, des données annuelles ou trimestrielles).

Une méthode plus populaire et efficace (notamment quand on a des données de haute fréquence) est d’utiliser des modèles spécifiquement faits pour faire de la prévision. C’est le cas des Random Walks, des ETS (Exponential Smoothing State-Space) Models, des modèles ARIMA, ou des modèles (beaucoup) plus compliqués comme les transformations de Fourier.

On va étudier quelques une de ces méthodes ici.

data_schularick <- read_excel("C:/users/fkraus/Desktop/data_schularick.xlsx")
donnees_france <- data_schularick %>%
  filter(country=="France")%>%
  select(year, gdp)%>%
  mutate(gdp_growth = (log(gdp) - lag(log(gdp)))*100   )%>%
  na.omit()%>%
  filter(year >= 1950 & year < 2020)
head(donnees_france)

On a retiré 2020 qui est une année exceptionnelle, avec un choc purement exogène (donc impossible de le relier à des variations passées du PIB).

donnees_france %>%
  ggplot(aes(x=year, y=gdp_growth))+
  geom_line()

df <- donnees_france %>% arrange(year)

# Yearly time series
y_ts <- ts(
  df$gdp_growth,
  start     = min(df$year),
  frequency = 1        # yearly data
)

Filters

L’un des filtres les plus connus est le filtre Hodrick-Prescott, très utilisé dans la recherche.

HP <- hpfilter(y_ts,freq=1)

HP

Title:
 Hodrick-Prescott Filter 

Call:
 hpfilter(x = y_ts, freq = 1)

Method:
 hpfilter

Filter Type:
 lambda

Series:
 y_ts
HP_data <- data.frame(
  year = donnees_france$year, 
  gdp_growth = donnees_france$gdp_growth,
  trend = HP$trend[,1], 
  cycle = HP$cycle
  )

head(HP_data)
HP_data %>% ggplot(aes(x=year, y=gdp_growth))+
  geom_line()+
  geom_line(aes(y=trend), color="red", lty=2)

Note : Le filtre HP n’est pas le seul et unique filtre existant. Il existe les filtres Baxter-King, Butterworth, Christiano-Fitzgerald… Vous pouvez regarder dans le package mFilter les différents filtres, et les essayer.

Le filtre HP très critiqué. Notamment, Hamilton (2017) (NBER Working Paper de “Why you should never use the Hodrick Prescott filter”) défend l’idée que le filtre HP produit des séries biaisées, notamment au début et à la fin des observations. Il conseille d’utiliser une autre méthode, qui existe dans R au sein du package neverhpfilter :

require(neverhpfilter)
donnees_france$date <- as.Date(paste0(donnees_france$year, "-01-01"))



donnees_france_xts <- xts(donnees_france$gdp_growth, order.by=donnees_france$date)
  
not_hp <- yth_filter(donnees_france_xts, output=c("x", "cycle", "trend")) 
Avis : Your xts object doesn't have a dimnames attribute, aka names(your_xts) is NULL, which would've produced an error.
    Thus it has been given the name 'y' within the scope, and for the output, of this function.
plot(not_hp)

FORECASTS (ETS & ARIMA)

Prévisions in-sample

require(forecast)


fit_ets  <- ets(y_ts)

fit_arima <- auto.arima(y_ts)

out-sample forecast

fitted_ets   <- fitted(fit_ets)
fitted_arima <- fitted(fit_arima)
df_in_sample <- cbind(
  year         = as.numeric(time(y_ts)),
  gdp_growth       = as.numeric(y_ts),
  ets_fitted   = as.numeric(fitted_ets),
  arima_fitted = as.numeric(fitted_arima)
)
ggplot(df_in_sample, aes(x = year)) +
  geom_line(aes(y = gdp_growth), linetype = "solid") +
  geom_line(aes(y = ets_fitted), linetype = "dashed", color="red") +
  labs(
    title = "In-sample: actual vs ETS fitted",
    y = "Value"
  )

ggplot(df_in_sample, aes(x = year)) +
  geom_line(aes(y = gdp_growth), linetype = "solid") +
  geom_line(aes(y = arima_fitted), linetype = "dashed", color="red") +
  labs(
    title = "In-sample: actual vs ARIMA fitted",
    y = "Value"
  )

n <- length(y_ts)
h <- 15

y_train <- window(y_ts, end = time(y_ts)[n - h])

# Série de test = les 15 dernières années
y_test  <- window(y_ts, start = time(y_ts)[n - h + 1])

fit_ets_oos   <- ets(y_train)
fit_arima_oos <- auto.arima(y_train)

fc_ets_oos   <- forecast(fit_ets_oos,   h = h, level = c(80, 95))
fc_arima_oos <- forecast(fit_arima_oos, h = h, level = c(80, 95))
years_test <- as.numeric(time(y_test))

ets_insample <- data.frame(
  year         = years_test,
  gdp_growth       = as.numeric(y_test),
  ets_forecast = as.numeric(fc_ets_oos$mean),
  ets_lower_95   = fc_ets_oos$lower[, "95%"],
  ets_upper_95   = fc_ets_oos$upper[, "95%"]
)

arima_insample <- data.frame(
  year         = years_test,
  gdp_growth       = as.numeric(y_test),
  arima_forecast = as.numeric(fc_arima_oos$mean),
  arima_lower_95 = fc_arima_oos$lower[, "95%"],
  arima_upper_95 = fc_arima_oos$upper[, "95%"]
)
ggplot(ets_insample, aes(x = year)) +
  geom_line(aes(y = gdp_growth), linetype = "solid") +
  geom_line(aes(y = ets_forecast), linetype = "dashed") +
  geom_ribbon(aes(ymin = ets_lower_95, ymax = ets_upper_95),
              alpha = 0.2) +
  labs(
    title = "Out-of-sample: ETS forecast vs actual",
    y = "Value"
  )

La prévision avec ETS n’est pas très performante. En effet, on voit que l’évolution du PIB suite à la crise des Subprimes n’a pas pu être prise en compte par le modèle. Dans un certain sens, ce n’est pas “grave”, ça signifie que la crise de 2008 provient sûrement d’un choc exogène au système économique, qui ne peut pas être compris (uniquement) à partir des données passées. En revanche, comme de nombreux économistes l’ont défendu, les origines des crises sont souvent endogènes.

Par exemple, Minsky défend le fait que les crises se construisent dans les périodes de croissance économique prolongée, qui réduisent l’aversion au risque et poussent les individus à prendre des risques, jusqu’au “moment Minsky” où la confiance s’érode. Ainsi, un bon modèle de prévision serait capable de prendre en compte ce risque de retournement, avec un interval de confiance plus important.

ggplot(arima_insample, aes(x = year)) +
  geom_line(aes(y = gdp_growth), linetype = "solid") +
  geom_line(aes(y = arima_forecast), linetype = "dashed") +
  geom_ribbon(aes(ymin = arima_lower_95, ymax = arima_upper_95),
              alpha = 0.2) +
  labs(
    title = "Out-of-sample: ARIMA forecast vs actual",
    y = "Value"
  )

C’est le cas de la prévision avec Arima, qui contient l’évolution du PIB post-subprimes dans l’interval de confiance.

On peut à présent faire les prévisions out-sample, c’est-à-dire au delà de 2019.

h <- 5
fc_arima  <- forecast(fit_arima, h = h)
plot(fc_arima)

Avec le modèle ARIMA, on peut anticiper que la croissance du PIB va rester entre -3% et 7-8% jusqu’en 2024. Dans la réalité, la crise du Covid-19 (imprévisible) a plutôt créé une décroissance du PIB en 2020, et un rebond en 2021. En revanche, ces deux variations sont (plus ou moins) compris dans l’interval de confiance du modèle.

Aujourd’hui, les prévisions servent essentiellement a -faire des prévisions macroéconomique (PIB, inflation…) par les institutions internationales -faire des prévisions de prix d’actifs par les institutions financières

En revanche, ces institutions se tournent davantage vers des modèles de Machine Learning, qui vont comprendre la dynamique de la série et s’entraîner à mesure que les données s’actualisent.

---
title: "Séance 6 économétrie"
output: html_notebook
---


Faire des prévisions de données revient à observer les valeurs passées, déterminer une dynamique, et tenter d'estimer les évolutions futures à partir du comportement passé de la série temporelle. 

Il existe plusieurs moyens d'étudier la dynamique de la série. Tout d'abord, on peut étudier les cycles de la série, c'est notamment ce qui est fait pour étudier l'évolution du PIB qui est soumis à des cycles d'affaires (*business cycles*) plus ou moins longs. En fonction de l'état du cycle financier, on peut donc anticiper une hausse du PIB dans les périodes futures si le cycle est haussier, ou inversement anticiper une baisse du PIB si le cycle est plutôt baissier. On utilise ce moyen notamment pour faire des prévisions de long-terme (sur quelques années) avec des données à faible fréquence (notamment, des données annuelles ou trimestrielles).

Une méthode plus populaire et efficace (notamment quand on a des données de haute fréquence) est d'utiliser des modèles spécifiquement faits pour faire de la prévision. C'est le cas des Random Walks, des ETS (Exponential Smoothing State-Space) Models, des modèles ARIMA, ou des modèles (beaucoup) plus compliqués comme les transformations de Fourier.

On va étudier quelques une de ces méthodes ici.

```{r}
data_schularick <- read_excel("C:/users/fkraus/Desktop/data_schularick.xlsx")
donnees_france <- data_schularick %>%
  filter(country=="France")%>%
  select(year, gdp)%>%
  mutate(gdp_growth = (log(gdp) - lag(log(gdp)))*100   )%>%
  na.omit()%>%
  filter(year >= 1950 & year < 2020)
head(donnees_france)
```
On a retiré 2020 qui est une année exceptionnelle, avec un choc purement exogène (donc impossible de le relier à des variations passées du PIB).


```{r}
donnees_france %>%
  ggplot(aes(x=year, y=gdp_growth))+
  geom_line()
```

```{r}
df <- donnees_france %>% arrange(year)

# Yearly time series
y_ts <- ts(
  df$gdp_growth,
  start     = min(df$year),
  frequency = 1        # yearly data
)
```


# Filters

L'un des filtres les plus connus est le filtre Hodrick-Prescott, très utilisé dans la recherche.

```{r}
HP <- hpfilter(y_ts,freq=1)

HP
```
```{r}
HP_data <- data.frame(
  year = donnees_france$year, 
  gdp_growth = donnees_france$gdp_growth,
  trend = HP$trend[,1], 
  cycle = HP$cycle
  )

head(HP_data)
```



```{r}
HP_data %>% ggplot(aes(x=year, y=gdp_growth))+
  geom_line()+
  geom_line(aes(y=trend), color="red", lty=2)
```
*Note : Le filtre HP n'est pas le seul et unique filtre existant. Il existe les filtres Baxter-King, Butterworth, Christiano-Fitzgerald... Vous pouvez regarder dans le package mFilter les différents filtres, et les essayer. *

Le filtre HP très critiqué. Notamment, Hamilton (2017) (NBER Working Paper de  "Why you should never use the Hodrick Prescott filter") défend l'idée que le filtre HP produit des séries biaisées, notamment au début et à la fin des observations. Il conseille d'utiliser une autre méthode, qui existe dans R au sein du package `neverhpfilter` :

```{r}
require(neverhpfilter)
donnees_france$date <- as.Date(paste0(donnees_france$year, "-01-01"))



donnees_france_xts <- xts(donnees_france$gdp_growth, order.by=donnees_france$date)
  
not_hp <- yth_filter(donnees_france_xts, output=c("x", "cycle", "trend")) 

plot(not_hp)

```

 
 
 
# FORECASTS (ETS & ARIMA)

# Prévisions in-sample

```{r}
require(forecast)


fit_ets  <- ets(y_ts)

fit_arima <- auto.arima(y_ts)
```

# out-sample forecast

```{r}
fitted_ets   <- fitted(fit_ets)
fitted_arima <- fitted(fit_arima)
```


```{r}
df_in_sample <- cbind(
  year         = as.numeric(time(y_ts)),
  gdp_growth       = as.numeric(y_ts),
  ets_fitted   = as.numeric(fitted_ets),
  arima_fitted = as.numeric(fitted_arima)
)
```

```{r}
ggplot(df_in_sample, aes(x = year)) +
  geom_line(aes(y = gdp_growth), linetype = "solid") +
  geom_line(aes(y = ets_fitted), linetype = "dashed", color="red") +
  labs(
    title = "In-sample: actual vs ETS fitted",
    y = "Value"
  )
```

```{r}
ggplot(df_in_sample, aes(x = year)) +
  geom_line(aes(y = gdp_growth), linetype = "solid") +
  geom_line(aes(y = arima_fitted), linetype = "dashed", color="red") +
  labs(
    title = "In-sample: actual vs ARIMA fitted",
    y = "Value"
  )
```


```{r}
n <- length(y_ts)
h <- 15

y_train <- window(y_ts, end = time(y_ts)[n - h])

# Série de test = les 15 dernières années
y_test  <- window(y_ts, start = time(y_ts)[n - h + 1])

fit_ets_oos   <- ets(y_train)
fit_arima_oos <- auto.arima(y_train)

fc_ets_oos   <- forecast(fit_ets_oos,   h = h, level = c(80, 95))
fc_arima_oos <- forecast(fit_arima_oos, h = h, level = c(80, 95))

```



```{r}
years_test <- as.numeric(time(y_test))

ets_insample <- data.frame(
  year         = years_test,
  gdp_growth       = as.numeric(y_test),
  ets_forecast = as.numeric(fc_ets_oos$mean),
  ets_lower_95   = fc_ets_oos$lower[, "95%"],
  ets_upper_95   = fc_ets_oos$upper[, "95%"]
)

arima_insample <- data.frame(
  year         = years_test,
  gdp_growth       = as.numeric(y_test),
  arima_forecast = as.numeric(fc_arima_oos$mean),
  arima_lower_95 = fc_arima_oos$lower[, "95%"],
  arima_upper_95 = fc_arima_oos$upper[, "95%"]
)

```

```{r}
ggplot(ets_insample, aes(x = year)) +
  geom_line(aes(y = gdp_growth), linetype = "solid") +
  geom_line(aes(y = ets_forecast), linetype = "dashed") +
  geom_ribbon(aes(ymin = ets_lower_95, ymax = ets_upper_95),
              alpha = 0.2) +
  labs(
    title = "Out-of-sample: ETS forecast vs actual",
    y = "Value"
  )
```
La prévision avec ETS n'est pas très performante. En effet, on voit que l'évolution du PIB suite à la crise des Subprimes n'a pas pu être prise en compte par le modèle. Dans un certain sens, ce n'est pas "grave", ça signifie que la crise de 2008 provient sûrement d'un choc exogène au système économique, qui ne peut pas être compris (uniquement) à partir des données passées. En revanche, comme de nombreux économistes l'ont défendu, les origines des crises sont souvent endogènes. 

Par exemple, Minsky défend le fait que les crises se construisent dans les périodes de croissance économique prolongée, qui réduisent l'aversion au risque et poussent les individus à prendre des risques, jusqu'au "moment Minsky" où la confiance s'érode. Ainsi, un bon modèle de prévision serait capable de prendre en compte ce risque de retournement, avec un interval de confiance plus important.


```{r}
ggplot(arima_insample, aes(x = year)) +
  geom_line(aes(y = gdp_growth), linetype = "solid") +
  geom_line(aes(y = arima_forecast), linetype = "dashed") +
  geom_ribbon(aes(ymin = arima_lower_95, ymax = arima_upper_95),
              alpha = 0.2) +
  labs(
    title = "Out-of-sample: ARIMA forecast vs actual",
    y = "Value"
  )
```

C'est le cas de la prévision avec Arima, qui contient l'évolution du PIB post-subprimes dans l'interval de confiance. 

On peut à présent faire les prévisions out-sample, c'est-à-dire au delà de 2019.

```{r}
h <- 5
fc_arima  <- forecast(fit_arima, h = h)
```



```{r}
plot(fc_arima)
```
Avec le modèle ARIMA, on peut anticiper que la croissance du PIB va rester entre -3% et 7-8% jusqu'en 2024. Dans la réalité, la crise du Covid-19 (imprévisible) a plutôt créé une décroissance du PIB en 2020, et un rebond en 2021. En revanche, ces deux variations sont (plus ou moins) compris dans l'interval de confiance du modèle.

Aujourd'hui, les prévisions servent essentiellement a 
  -faire des prévisions macroéconomique (PIB, inflation...) par les institutions internationales
  -faire des prévisions de prix d'actifs par les institutions financières
  
En revanche, ces institutions se tournent davantage vers des modèles de Machine Learning, qui vont comprendre la dynamique de la série et s'entraîner à mesure que les données s'actualisent. 





