setwd(dir = "C:/Users/fkraus/Desktop/TD/2025-2026/ECONOMETRIE/séance4")

Les résidus d’une régression sont souvent notés \(\varepsilon_t\) par convention. Ils représentent l’écart entre la variable dépendante de la régression et ses valeurs prédites par le modèles : \[\begin{align} &Y_t = a_0 + \beta X_t + \varepsilon_t \\ &\varepsilon_t = Y_t - \hat Y_t \end{align}\]

Et les résidus représentent réellement à quel point notre modèle est précis dans son estimation. Le modèle de régression est censé représenter correctement la dynamique de la variable dépendante \(Y_t\) en fonction de la dynamique d’autres variables (\(X_t\)), du temps (avec une trend, un cycle, une saisonnalité, etc… si on observe leur présence) et de la structure propre de la série (ARIMA). Cependant, on n’est pas censé représenter la variable dépendante avec une précision parfaite : le modèle peut sur-estimer ou sous-estimer de temps en temps la dynamique.

Cependant, quand on fait le modèle de régression, on part du principe que, si il est correct, on va correctement estimer la dynamique dans l’ensemble. On peut sur-estimer ou sous-estimer, mais en moyenne il faut que ces erreurs soient le plus proche possible de 0 : la moyenne des résidus doit donc être proche de 0. Egalement, on veut se tromper autant dans la sur-estimation que dans la sous-estimation (on ne veut pas sous-estimer la variable en permanence) : la somme des résidus doit être proche de 0. Egalement, on veut se tromper du même ordre peu importe la période : la moyenne et la variance des résidus doivent être constants. De cette condition découle une autre : les résidus doivent être indépendants. Autrement dit, le coefficient d’autocorrélation des résidus doit être nul (si on se trompe à une période, ça ne veut pas dire qu’on va se tromper à la période suivante) et ne doivent pas dépendre de \(Y_t\) (le coefficient de régression entre \(\varepsilon_t\) et \(Y_t\) doit être nul). Au final, les résidus doivent donc suivre une loi normale, centrée autour de zéro.

Si on résume ces cas : \[\begin{align} & \mathbb{E}(\varepsilon) = 0 \\ & \sum_{i=1}^N\varepsilon_i = 0 \\ & \mathbb{E}(\varepsilon)=\mathbb{E}(\varepsilon_{t+h}) \\ & \operatorname{Var}(\varepsilon) = \sigma^2_\varepsilon \\ & \operatorname{Cov}(\varepsilon_t, \varepsilon_{t-h})=0 \\ & \operatorname{Cov}(\varepsilon_t, Y_{t})=0\\ & \rightarrow\varepsilon_t \overset{\text{i.i.d.}}{\sim} \mathcal N(0,\sigma_\varepsilon^2) \end{align}\]

Note : \(i.i.d\) signifie identiquement et indépendamment distribués. Ces cas sont nombreux, mais au final on retombe assez vite sur ce qu’on a vu dans la séance sur la stationnarisation : on veut obtenir une suite de bruits blancs.

En effet, il faut imaginer que les séries temporelles ne sont qu’une suite de bruits blancs, et que ces bruits blancs sont impactés par des chocs exogènes (qui proviennent d’autres variables). Avec la régression, on retire l’influence de ces variables exogènes, et on est censé retomber sur la suite de bruits blancs originelle.

data_schularick <- read_excel("C:/users/fkraus/Desktop/data_schularick.xlsx") 

donnees_france <- data_schularick %>%
  filter(country=="France")%>%
  dplyr::select(year, unemp, cpi) %>%
  mutate(inflation = (log(cpi) - lag(log(cpi)))*100)%>%
  mutate(dinflation = inflation - lag(inflation))%>%
  mutate(dunemp = unemp - lag(unemp))%>%
  na.omit()%>%
  filter(year > 1950)

head(donnees_france)
require(fixest)
reg <- feols(inflation ~ dunemp, data=donnees_france)
etable(reg)
                              reg
Dependent Var.:         inflation
                                 
Constant        4.060*** (0.4607)
dunemp            1.663* (0.7335)
_______________ _________________
S.E. type                     IID
Observations                   70
R2                        0.07031
Adj. R2                   0.05664
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Analyse des résidus

On peut comparer la variable dépendante avec les valeurs prédites par le modèles :

fitted_val <- reg$fitted.values
residuals <- reg$residuals

donnees_france_2 <- donnees_france %>%
  cbind(fitted_val)%>%
  cbind(residuals)
ggplot(donnees_france_2, aes(x=year, y=inflation))+
  geom_line(lwd=1)+
  geom_line(aes(y=fitted_val), color="red", lty=2, lwd=1)+ 
  theme_bw()

On peut voir que notre modèle, bien qu’il utilise des variables correctement stationnarisées, ne représente par correctement la dynamique de la série : les fitted values ne suivent pas bien la série d’origine, particulièrement avant les années 1990.

Homoscedasticité

Pour vérifier l’homoscédasticité (=variance constante dans le temps), on peut déjà fait un graphique des résidus dans le temps.

ggplot(donnees_france_2, aes(x=year, y=residuals))+
  geom_line(lwd=1)+
  geom_hline(yintercept = 0, lty=2)+
  theme_bw()

On peut voir que la variance des résidus change drastiquement à partir de la fin des années 1980, ce qui pourrait indiquer que les résidus sont hétéroscédastiques. Cependant, l’analyse visuelle n’est pas un test formel. Pour vérifier l’homoscédasticité ou non des résidus, on doit utiliser le test de Breusch-Pagan (BP). Le test BP a pour hypothèse nulle l’hétéroscédasticité. Si la p-value est significative, on rejette donc l’hypothèse nulle et on conclut de l’homoscédasticité.

require(lmtest)
bptest(inflation ~ dunemp, data=donnees_france) 

    studentized Breusch-Pagan test

data:  inflation ~ dunemp
BP = 4.3177, df = 1, p-value = 0.03772

Ici, la p-value est significative, donc on conclut que les résidus de la régression sont hétéroscédastiques.

Normalité des résidus

ggplot(donnees_france_2, aes(residuals))+geom_density(fill="grey60", bounds=c(-Inf, Inf))+theme_bw()

Les résidus sont bien distribués autour de zéro, et la moyenne est relativement proche de zéro. En revanche, on peut voir que la queue de distribution à droite est relativement large, donc on tend à sous-estimer grandement le modèle à certains moments. La distribution n’est qu’une vérification visuelle, pas un test statistique. Pour un test formel, il faut se tourner vers le test de Shapiro qui teste la normalité d’une série. Le test de Shapiro a pour hypothèse nulle la normalité des résidus. Si la p-value est significative, on rejette donc l’hypothèse nulle, et on conclut de la non-normalité de la série.

shapiro.test(donnees_france_2$residuals)

    Shapiro-Wilk normality test

data:  donnees_france_2$residuals
W = 0.92324, p-value = 0.0003666

Ici, la p-value est significative, donc les résidus ne suivent pas une loi normale selon le test de Shapiro.

Indépendance

D’après l’hypothèse d’indépendance des résidus, les résidus d’une période ne doivent pas être expliqués par les résidus précédents. On peut tester cette hypothèse avec un simple autocorrélogramme :

acf(donnees_france_2$residuals)

Ici, on observe que les résidus ne semblent pas être indépendants, car les résidus passés expliquent de manière systématique les résidus actuels. Après l’analyse visuel, on peut faire le test formel. Le test Ljung-Box effectue le test d’indépendance des résidus, et a pour hypothèse nulle l’indépendance des résidus. Si la p-value est significative, on rejette l’hypothèse nulle et on conclut de l’autocorrélation (donc, l’absence d’indépendance) des résidus.

Box.test(donnees_france_2$residuals, lag = 10, type = "Ljung-Box")

    Box-Ljung test

data:  donnees_france_2$residuals
X-squared = 87.576, df = 10, p-value = 1.621e-14

Ici, il semble que nos résidus ne sont pas indépendants car la p-value est significative.

Note : certains de ces tests sont résumés dans la fonction checkresiduals() du package forecast:

require(forecast)
Le chargement a nécessité le package : forecast
Avis : le package ‘forecast’ a été compilé avec la version R 4.5.1Registered S3 method overwritten by 'quantmod':
  method            from
  as.zoo.data.frame zoo 
checkresiduals(reg)

    Ljung-Box test

data:  Residuals from feols
Q* = 87.576, df = 10, p-value = 1.621e-14

Model df: 0.   Total lags used: 10

Ainsi, dans l’ensemble, notre modèle est peu performant dans l’explication de la dynamique de l’inflation. En revanche, il explique correctement ce qu’il explique ! C’est un bon début, car cela veut dire qu’on peut maintenant ajouter d’autres variables explicatives dans le modèles (en testant, à chaque ajout, les effets sur les résidus pour vérifier qu’on ne crée par de problèmes qui seraient détectés dans les résidus) pour améliorer le pouvoir explicatif, tout en respectant le principe de parsimonie : on ne cherche pas à expliquer la totalité des variations de \(Y_t\), simplement à l’expliquer suffisamment pour que l’estimation de l’impact de \(\beta\) soit correct.

Overfitting

Parfois, on peut ajouter des variables qui vont créer un biais de collinéarité : les variables explicatives peuvent s’influencer entre elles, ou avoir un effet circulaire avec la variable dépendante, ce qui va créer un problème dans la régression.

reg_colin <- feols(inflation ~dunemp + lag(inflation), data= donnees_france)
etable(reg_colin)
                             reg_colin
Dependent Var.:              inflation
                                      
Constant              0e-16 (5.11e-17)
dunemp          4.44e-16*** (5.77e-17)
lag(inflation)         1*** (9.19e-18)
_______________ ______________________
S.E. type                          IID
Observations                        70
R2                                   1
Adj. R2                              1
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Et quand on regard l’écart entre les fitted valued et la variable dépendante, on obtient :

fitted_val_colin <- reg_colin$fitted.values
residuals_colin <- reg_colin$residuals

donnees_france_3 <- donnees_france %>%
  cbind(fitted_val_colin)%>%
  cbind(residuals_colin)
ggplot(donnees_france_3, aes(x=year, y=inflation))+
  geom_line(lwd=1)+
  geom_line(aes(y=fitted_val_colin), color="red", lty=2, lwd=1)+ 
  theme_bw()

Ici, on peut être tenté de dire que notre modèle est parfait parce qu’il explique bien notre variable dépendante. Mais ici, on a un problème de collinéarité : lag(dinflation) explique quasi-parfaitement dinflation, et l’ajouter dans le modèle créé de la collinéarité parfaite.

On peut tester la collinéarité avec un test VIF

require(car)
Le chargement a nécessité le package : car
Le chargement a nécessité le package : carData

Attachement du package : ‘car’

L'objet suivant est masqué depuis ‘package:dplyr’:

    recode

L'objet suivant est masqué depuis ‘package:purrr’:

    some
vif(reg_colin)
                  GVIF Df GVIF^(1/(2*Df))
dunemp         1.07563  0             Inf
lag(inflation) 1.07563  0             Inf

Ici, le GVIF corrigé (colonne à droite) tend vers l’infini. On essaie en général de garder un VIF au maximum a 6 ou 7, au delà il y a un problème.

Donc ici, ajouter le lag de l’inflation va créer plus de problème qu’il n’en résout. Cependant, cette régression a pour mérite de montrer que l’inflation, même si elle est considérée comme étant stationnaire, continue d’avoir une structure auto-régressive importante, au point où si on la néglige, on perd un pouvoir explicatif très important. C’est la raison pour laquelle il faut s’intéresser à la structure Auto-Régressive (AR) des séries temporelles, à leur degré d’intégration (I) et à leur moyenne mobile (Moving Average - MA), dans le cadre des modèles ARIMA que l’on verra dans la séance 4.

---
title: "R Notebook : Analyse des résidus "
output: html_notebook
html_notebook: 
    toc: true # pour afficher une table des matières au début du document (Table of Content)
    toc_depth: 4 # le niveau d'affichage des titres, sous-titres, section... 
    toc_float: false
---

```{r}
setwd(dir = "C:/Users/fkraus/Desktop/TD/2025-2026/ECONOMETRIE/séance4")
```

Les résidus d'une régression sont souvent notés $\varepsilon_t$ par convention. Ils représentent l'écart entre la variable dépendante de la régression et ses valeurs prédites par le modèles :
\begin{align}
 &Y_t = a_0 + \beta X_t + \varepsilon_t \\
 &\varepsilon_t = Y_t - \hat Y_t
\end{align}

Et les résidus représentent réellement à quel point notre modèle est précis dans son estimation. Le modèle de régression est censé représenter correctement la dynamique de la variable dépendante $Y_t$ en fonction de la dynamique d'autres variables ($X_t$), du temps (avec une trend, un cycle, une saisonnalité, etc... si on observe leur présence) et de la structure propre de la série (ARIMA). Cependant, on n'est pas censé représenter la variable dépendante avec une précision parfaite : le modèle peut sur-estimer ou sous-estimer de temps en temps la dynamique. 

Cependant, quand on fait le modèle de régression, on part du principe que, si il est correct, on va correctement estimer la dynamique dans l'ensemble. On peut sur-estimer ou sous-estimer, mais en moyenne il faut que ces erreurs soient le plus proche possible de 0 : **la moyenne des résidus doit donc être proche de 0**. Egalement, on veut se tromper autant dans la sur-estimation que dans la sous-estimation (on ne veut pas sous-estimer la variable en permanence) : **la somme des résidus doit être proche de 0**. Egalement, on veut se tromper du même ordre peu importe la période : **la moyenne et la variance des résidus doivent être constants.** De cette condition découle une autre : **les résidus doivent être indépendants.** Autrement dit, **le coefficient d'autocorrélation des résidus doit être nul** (si on se trompe à une période, ça ne veut pas dire qu'on va se tromper à la période suivante) et ne doivent pas dépendre de $Y_t$ (le coefficient de régression entre $\varepsilon_t$ et $Y_t$ doit être nul). Au final, **les résidus doivent donc suivre une loi normale, centrée autour de zéro.**

Si on résume ces cas :
\begin{align}
& \mathbb{E}(\varepsilon) = 0 \\
& \sum_{i=1}^N\varepsilon_i = 0 \\
& \mathbb{E}(\varepsilon)=\mathbb{E}(\varepsilon_{t+h}) \\
& \operatorname{Var}(\varepsilon) = \sigma^2_\varepsilon \\
& \operatorname{Cov}(\varepsilon_t, \varepsilon_{t-h})=0 \\
& \operatorname{Cov}(\varepsilon_t, Y_{t})=0\\
& \rightarrow\varepsilon_t \overset{\text{i.i.d.}}{\sim} \mathcal N(0,\sigma_\varepsilon^2)
\end{align}

*Note : $i.i.d$ signifie identiquement et indépendamment distribués*. Ces cas sont nombreux, mais au final on retombe assez vite sur ce qu'on a vu dans la séance sur la stationnarisation : on veut obtenir une suite de bruits blancs.

En effet, il faut imaginer que les séries temporelles ne sont qu'une suite de bruits blancs, et que ces bruits blancs sont impactés par des chocs exogènes (qui proviennent d'autres variables). Avec la régression, on retire l'influence de ces variables exogènes, et on est censé retomber sur la suite de bruits blancs originelle.

```{r}
data_schularick <- read_excel("C:/users/fkraus/Desktop/data_schularick.xlsx") 

donnees_france <- data_schularick %>%
  filter(country=="France")%>%
  dplyr::select(year, unemp, cpi) %>%
  mutate(inflation = (log(cpi) - lag(log(cpi)))*100)%>%
  mutate(dinflation = inflation - lag(inflation))%>%
  mutate(dunemp = unemp - lag(unemp))%>%
  na.omit()%>%
  filter(year > 1950)

head(donnees_france)
```


```{r}
require(fixest)
reg <- feols(inflation ~ dunemp, data=donnees_france)
etable(reg)
```
# Analyse des résidus
On peut comparer la variable dépendante avec les valeurs prédites par le modèles :
```{r}
fitted_val <- reg$fitted.values
residuals <- reg$residuals

donnees_france_2 <- donnees_france %>%
  cbind(fitted_val)%>%
  cbind(residuals)
ggplot(donnees_france_2, aes(x=year, y=inflation))+
  geom_line(lwd=1)+
  geom_line(aes(y=fitted_val), color="red", lty=2, lwd=1)+ 
  theme_bw()
```
On peut voir que notre modèle, bien qu'il utilise des variables correctement stationnarisées, ne représente par correctement la dynamique de la série : les *fitted values* ne suivent pas bien la série d'origine, particulièrement avant les années 1990.

## Homoscedasticité

Pour vérifier l'homoscédasticité (=variance constante dans le temps), on peut déjà fait un graphique des résidus dans le temps.
```{r}
ggplot(donnees_france_2, aes(x=year, y=residuals))+
  geom_line(lwd=1)+
  geom_hline(yintercept = 0, lty=2)+
  theme_bw()
```
On peut voir que la variance des résidus change drastiquement à partir de la fin des années 1980, ce qui pourrait indiquer que les résidus sont hétéroscédastiques. Cependant, l'analyse visuelle n'est pas un test formel. Pour vérifier l'homoscédasticité ou non des résidus, on doit utiliser le test de Breusch-Pagan (BP). Le test BP a pour hypothèse nulle l'hétéroscédasticité. Si la p-value est significative, on rejette donc l'hypothèse nulle et on conclut de l'homoscédasticité.

```{r}
require(lmtest)
bptest(inflation ~ dunemp, data=donnees_france) 
```
Ici, la p-value est significative, donc on conclut que les résidus de la régression sont hétéroscédastiques.

## Normalité des résidus
```{r}
ggplot(donnees_france_2, aes(residuals))+geom_density(fill="grey60", bounds=c(-Inf, Inf))+theme_bw()
```
Les résidus sont bien distribués autour de zéro, et la moyenne est relativement proche de zéro. En revanche, on peut voir que la queue de distribution à droite est relativement large, donc on tend à sous-estimer grandement le modèle à certains moments. La distribution n'est qu'une vérification visuelle, pas un test statistique. Pour un test formel, il faut se tourner vers le test de Shapiro qui teste la normalité d'une série. Le test de Shapiro a pour hypothèse nulle la normalité des résidus. Si la p-value est significative, on rejette donc l'hypothèse nulle, et on conclut de la non-normalité de la série.

```{r}
shapiro.test(donnees_france_2$residuals)
```
Ici, la p-value est significative, donc les résidus ne suivent pas une loi normale selon le test de Shapiro.




## Indépendance
D'après l'hypothèse d'indépendance des résidus, les résidus d'une période ne doivent pas être expliqués par les résidus précédents. On peut tester cette hypothèse avec un simple autocorrélogramme :
```{r}
acf(donnees_france_2$residuals)
```

Ici, on observe que les résidus ne semblent pas être indépendants, car les résidus passés expliquent de manière systématique les résidus actuels. Après l'analyse visuel, on peut faire le test formel. Le test Ljung-Box effectue le test d'indépendance des résidus, et a pour hypothèse nulle l'indépendance des résidus. Si la p-value est significative, on rejette l'hypothèse nulle et on conclut de l'autocorrélation (donc, l'absence d'indépendance) des résidus.
```{r}
Box.test(donnees_france_2$residuals, lag = 10, type = "Ljung-Box")
```
Ici, il semble que nos résidus ne sont pas indépendants car la p-value est significative.

*Note : certains de ces tests sont résumés dans la fonction `checkresiduals()` du package `forecast`*:
```{r}
require(forecast)
checkresiduals(reg)
```



Ainsi, dans l'ensemble, notre modèle est peu performant dans l'explication de la dynamique de l'inflation. En revanche, il explique correctement ce qu'il explique ! C'est un bon début, car cela veut dire qu'on peut maintenant ajouter d'autres variables explicatives dans le modèles (en testant, à chaque ajout, les effets sur les résidus pour vérifier qu'on ne crée par de problèmes qui seraient détectés dans les résidus) pour améliorer le pouvoir explicatif, tout en respectant le principe de parsimonie : on ne cherche pas à expliquer la totalité des variations de $Y_t$, simplement à l'expliquer suffisamment pour que l'estimation de l'impact de $\beta$ soit correct.



# Overfitting

Parfois, on peut ajouter des variables qui vont créer un biais de collinéarité : les variables explicatives peuvent s'influencer entre elles, ou avoir un effet circulaire avec la variable dépendante, ce qui va créer un problème dans la régression. 

```{r}
reg_colin <- feols(inflation ~dunemp + lag(inflation), data= donnees_france)
etable(reg_colin)
```

Et quand on regard l'écart entre les *fitted valued* et la variable dépendante, on obtient :
```{r}
fitted_val_colin <- reg_colin$fitted.values
residuals_colin <- reg_colin$residuals

donnees_france_3 <- donnees_france %>%
  cbind(fitted_val_colin)%>%
  cbind(residuals_colin)
ggplot(donnees_france_3, aes(x=year, y=inflation))+
  geom_line(lwd=1)+
  geom_line(aes(y=fitted_val_colin), color="red", lty=2, lwd=1)+ 
  theme_bw()
```
Ici, on peut être tenté de dire que notre modèle est parfait parce qu'il explique bien notre variable dépendante. Mais ici, on a un problème de collinéarité : `lag(dinflation)` explique quasi-parfaitement `dinflation`, et l'ajouter dans le modèle créé de la collinéarité parfaite.


On peut tester la collinéarité avec un test VIF
```{r}
require(car)
vif(reg_colin)
```
Ici, le GVIF corrigé (colonne à droite) tend vers l'infini. On essaie en général de garder un VIF **au maximum** a 6 ou 7, au delà il y a un problème.


Donc ici, **ajouter le lag de l'inflation va créer plus de problème qu'il n'en résout**. Cependant, cette régression a pour mérite de montrer que l'inflation, même si elle est considérée comme étant stationnaire, continue d'avoir une structure auto-régressive importante, au point où si on la néglige, on perd un pouvoir explicatif très important. C'est la raison pour laquelle il faut s'intéresser à la structure Auto-Régressive (AR) des séries temporelles, à leur degré d'intégration (I) et à leur moyenne mobile (Moving Average - MA), dans le cadre des modèles ARIMA que l'on verra dans la séance 4.




