Des séries temporelles au panel
Les modèles de régression de panel sont un des outils les plus
populaires dans la recherche en économie. Ces modèles consistent à
utiliser des données disponibles pour plusieurs pays (la
cross-section), et sur plusieurs périodes (la
time-serie).
Le modèle de panel linéaire classique utilisé en économétrie peut
être décrit par : \[
Y_{i,t} = \beta X_{i,t} + \varepsilon_{i,t}
\] Où \(i = 1, \cdots,n\)
représente les individus (des pays par exemple) et \(t=1, \cdots, T\) représente l’indice
temporel (des années par exemple). Ici, \(Y_{i,t}\) représente la variable dépendante
(ou variable endogène, ou variable expliquée) - par exemple le taux de
chômage - de l’individu \(i\) à la
période \(t\) ; \(X_{i,t}\) représente la variable
indépendante (ou variable exogène, ou variable explicative) - par
exemple le taux d’inflation.
La base de données est donc constituée de \(n \times T\) observations dans ce cas,
contrairement aux modèles de séries temporelles qui ne possèdent que
\(T\) observations.
Pour bien se représenter l’apport des modèles de panel par rapport
aux modèles de séries temporelles, on peut visualiser la différence.
require(readxl)
data_panel <- read_excel("C:/users/fkraus/Desktop/data_schularick.xlsx")%>%
select(year, country, unemp, cpi)
data_ST <- data_panel %>% filter(country=="France")
head(data_panel)
head(data_ST)
D’un côté, la base de données data_ST est une base de
données en série temporelle à fréquence annuelle, c’est-à-dire qui n’est
constituée que d’un individu (la France) entre 1870 et 2020. De l’autre,
la base data_panel contient les données annuelles pour 18
pays entre 1870 et 2020.
Il peut exister deux types de base de données de panel : les panel
balancés (balanced panel) et les non-balancés (unbalanced
panel). Les panel balancés décrivent des bases de données de panel
pour lesquels tous les individus ont exactement le même nombre
d’observations, tandis que les non-balancés sont des bases où le nombre
d’observation peut différer entre chaque individus. On peut vérifier
pour notre cas :
table(data_panel$country)
Australia Belgium Canada Denmark Finland France Germany Ireland Italy Japan Netherlands
151 151 151 151 151 151 151 151 151 151 151
Norway Portugal Spain Sweden Switzerland UK USA
151 151 151 151 151 151 151
Ici, on voit qu’on a moins d’observations pour la Belgique, la
Finlande, l’Allemagne, l’Irlande, l’Italie, le Japon et le Portugal, on
a donc un panel non-balancé. Cela ne pose en revanche pas de problème
majeur dans la plupart des cas.
Si on s’intéresse à la relation entre le taux de chômage et le taux
d’inflation - la courbe de Phillips - on peut analyser la relation pour
la France avec l’équation suivante : \[
Y_{FR, t}= \alpha_0 + \beta X_{FR,t} + \varepsilon_{FR,t}
\] L’ordonnée à l’origine est donnée par \(\alpha_0\) et la pente de la courbe de
régression est donnée par \(\beta\).
Cette équation revient à visualiser le nuage de points entre le taux
d’inflation (\(X_{FR,t}\)) et de
chômage (\(Y_{FR,t}\)) de la France
:
data_ST <- data_ST %>%
mutate(inflation = c(NA, diff(log(cpi))*100))
data_ST %>% ggplot(aes(x=inflation, y=unemp))+
geom_point(size=1)+
labs(title="Nuage de point entre inflation et chômage, France (1871-2020)", y="Chômage (%)", x="Inflation (%)")+
#geom_smooth(method="lm", formula = y ~ x)+
theme_bw()

Ici, on peut voir que dans le cas de la France, on a 109
observations qui nous permettent de déterminer l’allure de la
relation décrite par la courbe de Phillips qui semble être, a priori,
confirmée par les données.
Dans le cas des données de panel, on peut appliquer le même modèle
pour tous les individus de manière séparée : \[
Y_{i, t}= \alpha_{i,0} + \beta_i X_{i,t} + \varepsilon_{i,t}
\] Encore une fois, l’ordonnée à l’origine globale (pour tous les
pays) est donnée par \(\alpha_0\) et la
pente de la courbe de régression (pour tous les pays) est donnée par
\(\beta\). Cela revient à analyser le
nuage de points entre l’inflation (\(X_{i,t}\)) et le chômage (\(Y_{i,t}\)) de tous les pays dans notre base
de données :
data_panel <- data_panel %>%
group_by(country)%>%
mutate(inflation = c(NA, diff(log(cpi))*100))%>%
filter(!inflation >= 50) # pour retirer les valeurs aberrantes
data_panel %>% ggplot(aes(x=inflation, y=unemp))+
geom_point(color="grey60")+
labs(title="Nuage de point entre inflation et chômage", y="Chômage (%)", x="Inflation (%)")+
geom_smooth(se=FALSE, method="lm", color="black")+
theme_minimal()+
theme(legend.position="bottom")+
facet_wrap(~country) # pour avoir un graphique par country

Les données de panel semblent bien confirmer les observations que
l’on avait obtenu pour la France. Cependant, on voit bien que la pente
de la relation semble être plus importante dans certains pays (USA,
Espagne ou Suisse par exemple) que dans d’autres (Portugal, Irlande,
Italie), voire même que cette pente est positive pour le Danemark.
Cette différence peut provenir - dans la majorité des cas - du fait
qu’il y a une hétérogénéité inobservée importante entre les différents
individus (les pays) dans la base de données.
Cette hétérogénéité peut être notamment captée de différentes façons,
c’est ce qui donne lieu aux modèles Between,
Pooled, Within et
Random.
Résumé des modèles
Between \[
\bar Y_i = \alpha_0 + \beta \bar X_i + \varepsilon_{i}
\] Effets aléatoires \[
Y_{i,t} = \alpha + \alpha_i + \beta X_{i,t} + \varepsilon_{i} \quad
\alpha_i \sim iid(0,\sigma^2_\alpha)
\] Suppose $ Cov(X_{i,t}, i) =0 $ Effets
fixes \[
Y_{i,t} = \alpha_i + \beta X_{i,t} + \varepsilon_{i}
\] Autorise $ Cov(X{i,t}, _i) $
Pooled \[
Y_{i,t} = \alpha + \beta X_{i,t} + \varepsilon_{i,t}
\]
Les modèles Between
Les modèles Between vont analyser les différences
structurelles entre les individus (between
individuals), en analysant les moyennes par individus.
C’est souvent le modèle le plus simple, utile pour analyser le
vocabulaire économétrique, et qui sert de base.
En analysant les différences par individus, on va réellement examiner
l’hétérogénéité, en négligeant cependant la dynamique temporelle par
individus.
\[
\bar Y_i = \alpha_0 + \beta \bar X_i + \varepsilon_{i}
\] Où \[
\bar Y_i = \frac{1}{T_i}\sum_t Y_{it}, \quad
\bar X_i = \frac{1}{T_i}\sum_t X_{it}
\] Autrement dit, on ne garde, pour chaque individu \(i\), que la moyenne des observations de
\(Y\) et \(X\), ce qui revient à faire une régression
en coupe transversale.
Visuellement, l’estimation du modèle Between ressemble à :
data_between <- data_panel %>%
group_by(country) %>%
summarise(
unemp_mean = mean(unemp, na.rm = TRUE),
inflation_mean = mean(inflation, na.rm = TRUE)
)
ggplot(data_between,
aes(x = inflation_mean, y = unemp_mean, label = country)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE) +
geom_text(nudge_y = 0.3, size = 3) +
labs(title = "Relation between : moyennes par pays",
x = "Inflation moyenne (%)",
y = "Chômage moyen (%)") +
theme_minimal()

Et formellement, on estime la régression suivante :
reg_between <- feols(unemp_mean ~ inflation_mean, data = data_between)
etable(reg_between_plm)
reg_between_plm
Dependent Var.: unemp_mean
Constant 2.604. (1.273)
inflation_mean 0.9562* (0.3770)
_______________ ________________
S.E. type IID
Observations 18
R2 0.28678
Adj. R2 0.24221
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Le coefficient associé à la ligne Constant représente
l’ordonnée à l’origine \(\alpha_0\), et
le coefficient associé à inflation_mean représente la pente
de régression \(\beta\). Dans le modèle
Between, on observe que les pays qui sont structurellement plus
inflationniste tendent à avoir davantage de chômage.
Ce type de modèle est en revanche davantage descriptif que causal, et
vise en général plutôt à étudier des caractéristiques invariables dans
le temps.
Les modèles Pooled
Les modèles Pooled vont considérer toutes les observations du panel
comme si elles venaient d’un seul individu. On suppose donc
implicitement que pour tous les individus, \(Y\) et \(X\) ont la même relation et qu’il n’y a pas
d’hétérogénéité structurelle propre à chaque individu.
En effectuant des modèles de régression spécifiques à chaque
individus, de sorte à avoir une ordonnée à l’origine et une pente de
régression différente pour chaque individu \(i\) : \[
Y_{i,t} = \alpha + \beta X_{i,t} + \varepsilon_{i,t}
\]
On peut le visualiser en faisant un graphique représentant la
relation inflation-chômage pour chaque individu :
ggplot(data_panel, aes(x = inflation, y = unemp)) +
geom_point(alpha = 0.2) +
geom_smooth(method = "lm", se = FALSE) +
labs(x = "Inflation",
y = "Chômage",
title = "Pooled model") +
theme_minimal()

etable(reg_between, reg_pooled,
headers =c("Between", "Pooled"),
dict= c("unemp_mean"="unemp",
"inflation_mean"="inflation")
)
reg_between reg_pooled
Between Pooled
Dependent Var.: unemp unemp
Constant 2.604. (1.273) 5.932*** (0.1063)
inflation 0.9562* (0.3770) -0.1277*** (0.0159)
_______________ ________________ ___________________
S.E. type IID IID
Observations 18 1,942
R2 0.28678 0.03233
Adj. R2 0.24221 0.03183
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Le modèle Pooled OLS mélange l’analyse entre pays et
dans les pays. On voit qu’avec l’apport de la dimension
temporelle par rapport au modèle Between, le coefficient qui mesure
l’impact de l’inflation sur le taux de chômage est désormais négatif, et
significatif à 1%.
Cependant, si l’hétérogénéité entre les pays est trop forte (si les
institutions sont très différentes par exemple), l’estimation avec
Pooled OLS devient biaisée, et il faut plutôt utiliser des modèles à
effets fixes qui prend réellement en compte la structure de panel des
données.
Les modèles Within
Les modèles within, ou modèles à effets fixes, sont plus utiles pour
étudier des relations causales entre des variables dynamiques. Plutôt
que de s’intéresser aux différences entre pays - ce que fait le modèle
Between - le modèle Within va examiner la relation entre \(Y\) et \(X\) à l’intérieur de chaque pays
(within each country).
Pour cela, on va appliquer à chaque individu la transformation within
aux variables, en mesurant l’écart entre chaque observation avec la
moyenne, et en ajoutant une variable \(\alpha_i\) - appelée effet fixe individuel
- qui prend la forme d’une dummy spécifique à chaque individu, qui capte
les différences d’ordonnées à l’origine entre chaque individus.
\[
Y_{i,t} = \alpha_i + \beta X_{i,t} + \varepsilon_{i,t}
\]
Ici, \(\alpha_i\) représente
l’hétérogénéité inobservée propre à l’individu \(i\) (culture, institutions, structure
économique, …), tandis que \(u_{i,t}\)
représente les chocs idiosyncratiques comme en séries temporelles. \(\alpha_i\) est constant dans le
temps pour un individu, mais il est différent
entre les individus. Egalement, il peut être corrélé
avec les variables explicatives \(X_{i,t}\).
On calcule la moyenne temporelle pour chaque pays :
\[
\bar Y_i = \frac{1}{T}\sum_t Y_{it}, \quad
\bar X_i = \frac{1}{T}\sum_t X_{it}, \quad
\bar \varepsilon_i = \frac{1}{T}\sum_t \varepsilon_{it}
\]
En réécrivant le modèle avec les moyennes, on a :
\[
\bar Y_i = \alpha_i + \beta \bar X_i + \bar \varepsilon_i
\]
On soustrait cette équation à l’équation originale :
\[\begin{align}
Y_{it} - \bar Y_i &= (\alpha_i + \beta X_{it} + \varepsilon_{it}) -
(\alpha_i + \beta \bar X_i + \bar \varepsilon_i) \\
&= \beta (X_{it} - \bar X_i) + (\varepsilon_{it} - \bar
\varepsilon_i).
\end{align}\]
On obtient alors :
\[
\tilde Y_{it} = \beta \tilde X_{it} + \tilde \varepsilon_{it}
\] où les tildes (\(\tilde
y_{it}\), \(\tilde x_{it}\),
\(\tilde \varepsilon_{it}\) ) désignent
les variables ‘centrées’ par individu. On peut alors effectivement
estimer \(\beta\) par une régression
OLS classique sur les variables transformées : c’est
l’estimateur within.
En étudiant uniquement les différences à la moyenne, la
transformation within élimine l’hétérogénéité structurelle entre les
individus, et les observations deviennent donc les variations dans les
individus au cours du temps.
Visuellement, la méthode within permet de mesure l’impact global
d’une variation de \(X\) sur la
variable \(Y\) pour plusieurs
individus, dans le temps.
within_df <- data_panel %>%
group_by(country) %>%
mutate(
unemp_within = unemp - mean(unemp, na.rm = TRUE),
infl_within = inflation - mean(inflation, na.rm = TRUE)
)
ggplot(within_df, aes(x = infl_within, y = unemp_within)) +
geom_point(alpha = 0.2) +
geom_smooth(method = "lm", se = FALSE) +
labs(x = "Inflation centrée par pays (within)",
y = "Chômage centré par pays (within)",
title = "Relation within") +
theme_minimal()
On peut alors estimer le modèle suivant : \[
Y_{it} = \alpha_i + \beta X_{it} + \varepsilon_{it}
\] En prenant en compte l’hétérogénéité entre pays avec \(\alpha_i\), le coefficient \(\beta\) représente désormais l’effet de
\(X_{i,t}\) sur \(Y_{i,t}\) au sein d’un même pays.
On peut estimer l’impact du taux d’inflation sur le taux de chômage
avec un modèle within, en ajoutant des effets fixes (on compare
également avec le modèle Pooled) :
etable(reg_between, reg_pooled, reg_fe_i,
headers =c("Between", "Pooled", "Within"),
dict= c("unemp_mean"="unemp",
"inflation_mean"="inflation"), vcov="iid")
reg_between reg_pooled reg_fe_i
Between Pooled Within
Dependent Var.: unemp unemp unemp
Constant 2.604. (1.273) 5.932*** (0.1063)
inflation 0.9562* (0.3770) -0.1277*** (0.0159) -0.1712*** (0.0146)
Fixed-Effects: ---------------- ------------------- -------------------
country No No Yes
_______________ ________________ ___________________ ___________________
S.E. type IID IID IID
Observations 18 1,942 1,942
R2 0.28678 0.03233 0.22439
Within R2 -- -- 0.06688
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Dans le modèle à effets fixes individuels (Within), le
coefficient \(\beta\) mesure comment le
chômage varie quand l’inflation augmente dans un même pays au cours du
temps, après avoir retiré les différences structurelles entre pays (les
effets fixes individuels).
On voit également que dans le modèle à effets fixes, il n’y a pas de
coefficient associé à Constant, car il y a une constante
pour chaque individu qui est captée par les effets fixes individuels. On
peut cependant récupérer les effets fixes pays, et faire un graphique
pour voir l’hétérogénéité :
fe_country <- fixef(reg_fe_i)
fe_df <- data.frame(
country = names(fe_country$country),
alpha_hat = as.numeric(fe_country$country)
)
ggplot(fe_df, aes(x = reorder(country, alpha_hat), y = alpha_hat)) +
geom_point() +
geom_hline(yintercept = 0, linetype = "dashed") +
coord_flip() +
labs(x = "Pays", y = "Effet fixe estimé (α_i)",
title = "Effets fixes pays") +
theme_minimal()
On peut également vérifier la significativité globale des \(\alpha_i\) afin de regarder s’il existe de
l’hétérogénéité individuelle qui doit être prise en compte par le
modèle. Autrement dit, si tous les effets individuels sont
significatifs, alors on confirme que le modèle Pooled n’est pas
approprié, et on préfera plutôt utilise des modèles à effets fixes ou
effets aléatoires.
mod_fe <- plm(unemp ~ inflation, model="within", data_panel)
mod_pooled <- plm(unemp ~ inflation, model="pooling", data=data_panel)
pFtest(mod_fe, mod_pooled)
F test for individual effects
data: unemp ~ inflation
F = 8.0204, df1 = 149, df2 = 1791, p-value < 2.2e-16
alternative hypothesis: significant effects
L’hypothèse nulle de ce test est que tous les \(\alpha_i\) sont égaux, et qu’il n’y a donc
pas besoin d’effets fixes. L’hypothèse alternative est qu’au moins un
\(\alpha_i\) diffère, donc il y a
besoin d’utiliser des effets fixes.
En l’occurrence ici, la p-value est significative, ce qui indique
qu’on a besoin d’utiliser des effets fixes individuels plutôt qu’un
pooled model.
Effets aléatoire
Comme on a vu dans la partie sur les modèles à effets fixes, dans les
données de panel chaque individu (pays, entreprise, ménage…) possède des
caractéristiques propres et inobservables : institutions, préférences
culturelles, productivité, compétitivité, etc.
Ces caractéristiques sont représentées par un terme individuel \(\alpha_i\), qui déplace vers le haut ou
vers le bas la variable que l’on veut expliquer (ex : chômage
structurel, productivité structurelle, risque pays…). Dans les modèles à
effets fixes, on suppose que ce caractéristiques inobservables sont
corrélées aux variables explicatives. Cependant, dans le cas où ces
caractéristiques ne sont pas corrélées aux variables explicatives \[
Cov(X_{i,t}, \alpha_i)=0
\] les effets fixes sont toujours corrects, mais perdent en
efficacité. Dans ce cas précis, l’utilisation d’effets aléatoires
fournit une estimation plus précise des coefficients, en réduisant la
variance des résidus. Une autre conséquence des effets fixes est qu’il
est impossible d’ajouter des variables constantes, spécifiques à chaque
individu, en même temps que des effets fixes individuels. Dans le cas
des effets aléatoires, il est possible d’ajouter ces variables si elles
nous intéressent.
Formellement, les modèles à effets aléatoires peuvent être écrits :
\[
Y_{i,t} = \alpha + \alpha_i + \beta X_{i,t} +
\varepsilon_{i,t}\\ \alpha_i \sim iid(0,\sigma^2_\alpha) \\
Cov(\alpha_i, X_{i,t})=0
\] Note : L’estimation des modèles à effets aléatoires repose
sur les modèles GLS (Generalized Least Squares).
reg_random <- plm(unemp ~ inflation, data=data_panel, model="random")
summary(reg_random)
Oneway (individual) effect Random Effect Model
(Swamy-Arora's transformation)
Call:
plm(formula = unemp ~ inflation, data = data_panel, model = "random")
Unbalanced Panel: n = 150, T = 2-18, N = 1942
Effects:
var std.dev share
idiosyncratic 10.495 3.240 0.651
individual 5.624 2.371 0.349
theta:
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.3052 0.6570 0.6935 0.6588 0.6935 0.6935
Residuals:
Min. 1st Qu. Median Mean 3rd Qu. Max.
-5.9974 -1.9605 -0.7349 0.0669 1.5502 18.2237
Coefficients:
Estimate Std. Error z-value Pr(>|z|)
(Intercept) 5.388139 0.217691 24.7513 < 2.2e-16 ***
inflation -0.070533 0.017868 -3.9474 7.902e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Total Sum of Squares: 20208
Residual Sum of Squares: 20237
R-Squared: 0.0048866
Adj. R-Squared: 0.0043737
Chisq: 15.5816 on 1 DF, p-value: 7.9021e-05
Effets fixes ou effets aléatoires ?
Le test d’Hausman est un test de spécification qui permet de
déterminer si les effets fixes sont corrélés avec les variables
explicatives. L’idée générale, comme précisé dans la partie sur les
modèles à effets aléatoires, est que si \((\alpha_i)\) est
indépendant de \((X_{it})\), alors FE et RE sont tous les
deux consistants, mais RE est plus précis. Si \((\alpha_i)\) est corrélé à
\((X_{it})\), alors seul FE est
consistant.
Le test d’Hausman a pour hypothèse nulle l’indépendence des effets
fixes avec les variables explicatives. Si la p-value est significative,
on rejette alors cette hypothèse nulle et on confirme qu’il faut
utiliser des effets fixes.
En pratique :
require(plm)
fe_model <- plm(unemp ~ inflation , data=data_panel, model="within") # modèle à effets fixes
re_model <- plm(unemp ~ inflation , data=data_panel, model="random") # modèle à effets individuels
phtest(fe_model, re_model)
Note : la fonction plm() est très utile pour faire
des modèles de panel, et peut être utilisée à la place de
feols() pour faire des régressions en panel. En revanche,
si vous avez des estimations à effets fixes, utilisez plutôt feols().
Dans la majorité des cas, les études en panel sont effectuées avec des
modèles de panel à effets fixes, et le choix de ces effets fixes
(individuel et/ou temporel) repose sur les données et la question de
recherche.
Dans le cas présent, la p-value n’est pas significative ce qui montre
que le modèle à effets aléatoires n’est pas biaisé, et il faut
privilégier ce modèle dans les estimations. En revanche, le modèle à
effets fixes est toujours correct, il est moins efficace que le modèle à
effets aléatoires dans certains cas.
Modèles à effets fixes temporels et individuels
On peut également, de la même façon qu’on peut contrôler l’influence
de variables inobservées propres à chaque individu et qui ne changent
pas dans le temps avec les effets fixes individuels, contrôler
l’influence de variables qui affectent tous les
individus et qui varient dans le temps (par exemple, des chocs
globaux). Pour cela, on a recours à des effets fixes
temporels \(\delta_t\), qui
prennent la forme de dummies spécifique à une date en particulier,
commune à tous les individus :
\[
Y_{it} = \alpha_i + \delta_t+ \beta X_{it} + \varepsilon_{it}
\]
reg_fe_it <- feols(unemp ~ inflation | country + year, data = data_panel)
etable(reg_pooled, reg_fe_i, reg_fe_it,
headers = c("Pooled OLS", "FE pays", "FE pays + année"))
Egalement, les effets fixes temporels vont prendre la forme d’une
dummy spécifique à chaque date, ce qui prend en compte les variables
inobservées communes à tous les individus, y compris les
tendances et l’influence du temps. C’est la raison pour
laquelle, en panel avec des effets fixes temporels, la stationnarité
pose moins problème qu’en séries temporelles.
Ecarts-types robustes.
Vous pouvez voir dans le résultat une ligne S.E. type.
Lorsqu’on fait des régressions - y compris en séries temporelles - les
erreurs (et la variance des erreurs) sont supposées constantes entre
tous les individus (hypothèse d’homoscédasticité des résidus). Dans la
réalité, c’est rarement le cas. L’effet direct de l’hétéroscédasticité
est qu’il va augmenter l’écart-type associé aux coefficients de
régression (donc augmenter l’incertitude dans l’inférence causale).
Il existe cependant une solution relativement simple, qui vise à
estimer les écarts-types d’une autre manière que la méthode
traditionnelle qui correspond aux modèles OLS qui respectent ces
hypothèses. La méthode la plus répandue est d’utiliser des écarts-types
robustes à l’hétéroscédasticité à la White (1980).
Dans d’autes situations, certains phénomènes n’affectent pas toutes
les observations, mais peut-être seulement certains groupes d’individus.
Cela peut obliger à utiliser les écarts-types de différentes façons :
par individu, par date, par individu-date, etc… Lorsqu’on a des données
microéconomiques suffisamment désagrégées, peut également clusteriser
par certains groupes d’individus (type de firmes par exemple),
localisation géographique (départements), etc…
reg_fe_it <- feols(unemp ~ inflation | country + year, data = data_panel)
etable(
reg_fe_it, reg_fe_it,reg_fe_it,
vcov = list(~country, ~country + year, "HC1"),
headers = c("cluster pays", "cluster pays+année", "HC1")
)
Ici on voit que la seule différence entre les deux modèles est
l’écart-type associé au coefficient de l’inflation.
Modèles de panel dynamique et GMM
Dans certains cas, on peut souhaiter estimer des modèles qui prennent
en compte la dynamique d’une série. Par exemple, si la variable \(Y_{i,t}\) est impactée par ses valeurs
passées, on peut vouloir estimer le modèle suivant :
\[
Y_{i,t} = \alpha_i + \alpha_t + \beta_1 Y_{i,t-1} + \beta_2 X_{i,t} +
\varepsilon_{i,t}
\] Ici, \(\beta_1\) va mesurer
l’impact du lag de la variable endogène sur la variable endogène
elle-même, afin de prendre en compte l’autocorrélation de la série.
Cependant, les modèles dynamique ne respectent pas la condition de
stricte exogénéité des variables explicatives, ce qui pose problème sur
l’estimation économétrique. Ces problèmes sont en général gérés par les
modèles GMM.
L’idée des GMM (Arellano-Bond) est de transformer l’équation en
différences premières, d’utiliser les lags de \(Y_t\) comme des instruments afin de
retrouver la causalité entre \(X_t\) et
\(Y_t\).
---
title: "Modèles de panel"
output:
  html_notebook: 
    toc: true
    toc_depth: 3
    toc_float: true
  html_document:
    df_print: paged
  word_document: default
  pdf_document: default
---

# Des séries temporelles au panel 
Les modèles de régression de panel sont un des outils les plus populaires dans la recherche en économie. Ces modèles consistent à utiliser des données disponibles pour plusieurs pays (la *cross-section*), et sur plusieurs périodes (la *time-serie*).

Le modèle de panel linéaire classique utilisé en économétrie peut être décrit par :
$$
Y_{i,t} =  \beta X_{i,t} + \varepsilon_{i,t}
$$
Où $i = 1, \cdots,n$ représente les individus (des pays par exemple) et $t=1, \cdots, T$ représente l'indice temporel (des années par exemple). Ici, $Y_{i,t}$ représente la variable dépendante (ou variable endogène, ou variable expliquée) - par exemple le taux de chômage - de l'individu $i$ à la période $t$ ; $X_{i,t}$ représente la variable indépendante (ou variable exogène, ou variable explicative) - par exemple le taux d'inflation.


La base de données est donc constituée de $n \times T$ observations dans ce cas, contrairement aux modèles de séries temporelles qui ne possèdent que $T$ observations. 

Pour bien se représenter l'apport des modèles de panel par rapport aux modèles de séries temporelles, on peut visualiser la différence. 

```{r}
require(readxl)
data_panel <- read_excel("C:/users/fkraus/Desktop/data_schularick.xlsx")%>%
  select(year, country, unemp, cpi)
data_ST <- data_panel %>% filter(country=="France")

head(data_panel)
head(data_ST)
```

D'un côté, la base de données `data_ST` est une base de données en série temporelle à fréquence annuelle, c'est-à-dire qui n'est constituée que d'un individu (la France) entre 1870 et 2020. De l'autre, la base `data_panel` contient les données annuelles pour 18 pays entre 1870 et 2020. 

Il peut exister deux types de base de données de panel : les panel balancés (*balanced panel*) et les non-balancés (*unbalanced panel*). Les panel balancés décrivent des bases de données de panel pour lesquels tous les individus ont exactement le même nombre d'observations, tandis que les non-balancés sont des bases où le nombre d'observation peut différer entre chaque individus. On peut vérifier pour notre cas :

```{r}
table(data_panel$country)
```
Ici, on voit qu'on a moins d'observations pour la Belgique, la Finlande, l'Allemagne, l'Irlande, l'Italie, le Japon et le Portugal, on a donc un panel non-balancé. Cela ne pose en revanche pas de problème majeur dans la plupart des cas.

Si on s'intéresse à la relation entre le taux de chômage et le taux d'inflation - la courbe de Phillips - on peut analyser la relation pour la France avec l'équation suivante :
$$
Y_{FR, t}= \alpha_0 + \beta X_{FR,t} + \varepsilon_{FR,t}
$$
L'ordonnée à l'origine est donnée par $\alpha_0$ et la pente de la courbe de régression est donnée par $\beta$. Cette équation revient à visualiser le nuage de points entre le taux d'inflation ($X_{FR,t}$) et de chômage ($Y_{FR,t}$) de la France :
```{r, warning=FALSE, message=FALSE}
data_ST <- data_ST %>%
  mutate(inflation = c(NA, diff(log(cpi))*100))

data_ST %>% ggplot(aes(x=inflation, y=unemp))+
  geom_point(size=1)+
  labs(title="Nuage de point entre inflation et chômage, France (1871-2020)", y="Chômage (%)", x="Inflation (%)")+
  #geom_smooth(method="lm", formula = y ~ x)+
  theme_bw()
```
Ici, on peut voir que dans le cas de la France, on a **109 observations** qui nous permettent de déterminer l'allure de la relation décrite par la courbe de Phillips qui semble être, a priori, confirmée par les données. 


Dans le cas des données de panel, on peut appliquer le même modèle pour tous les individus de manière séparée :
$$
Y_{i, t}= \alpha_{i,0} + \beta_i X_{i,t} + \varepsilon_{i,t}
$$
Encore une fois, l'ordonnée à l'origine globale (pour tous les pays) est donnée par $\alpha_0$ et la pente de la courbe de régression (pour tous les pays) est donnée par $\beta$. Cela revient à analyser le nuage de points entre l'inflation ($X_{i,t}$) et le chômage ($Y_{i,t}$) de tous les pays dans notre base de données :

```{r, warning=FALSE, message=FALSE}
data_panel <- data_panel %>%
  group_by(country)%>%
  mutate(inflation = c(NA, diff(log(cpi))*100))%>%
  filter(!inflation >= 50) # pour retirer les valeurs aberrantes

data_panel %>% ggplot(aes(x=inflation, y=unemp))+
  geom_point(color="grey60")+
  labs(title="Nuage de point entre inflation et chômage", y="Chômage (%)", x="Inflation (%)")+
  geom_smooth(se=FALSE, method="lm", color="black")+
  theme_minimal()+
  theme(legend.position="bottom")+
  facet_wrap(~country) # pour avoir un graphique par country
```
Les données de panel semblent bien confirmer les observations que l'on avait obtenu pour la France. 
Cependant, on voit bien que la pente de la relation semble être plus importante dans certains pays (USA, Espagne ou Suisse par exemple) que dans d'autres (Portugal, Irlande, Italie), voire même que cette pente est positive pour le Danemark.

Cette différence peut provenir - dans la majorité des cas - du fait qu'il y a une hétérogénéité inobservée importante entre les différents individus (les pays) dans la base de données. 

Cette hétérogénéité peut être notamment captée de différentes façons, c'est ce qui donne lieu aux modèles **Between**, **Pooled**, **Within** et **Random**.





# Résumé des modèles

**Between**
$$
\bar Y_i = \alpha_0 + \beta \bar X_i + \varepsilon_{i}
$$
**Effets aléatoires**
$$
 Y_{i,t} = \alpha + \alpha_i + \beta X_{i,t} + \varepsilon_{i} \quad \alpha_i \sim iid(0,\sigma^2_\alpha)
$$
Suppose $ Cov(X_{i,t}, \alpha_i) =0 $
**Effets fixes**
$$
 Y_{i,t} = \alpha_i + \beta X_{i,t} + \varepsilon_{i}
$$
Autorise $ Cov(X_{i,t}, \alpha_i) \ne 0 $

**Pooled**
$$
Y_{i,t} = \alpha + \beta X_{i,t} + \varepsilon_{i,t} 
$$

# Les modèles Between

Les modèles **Between** vont analyser les différences structurelles entre les individus (***between individuals***), en analysant les moyennes par individus. C'est souvent le modèle le plus simple, utile pour analyser le vocabulaire économétrique, et qui sert de base.

En analysant les différences par individus, on va réellement examiner l'hétérogénéité, en négligeant cependant la dynamique temporelle par individus.

$$
\bar Y_i = \alpha_0 + \beta \bar X_i + \varepsilon_{i}
$$
Où 
$$
\bar Y_i = \frac{1}{T_i}\sum_t Y_{it}, \quad
\bar X_i = \frac{1}{T_i}\sum_t X_{it}
$$
Autrement dit, on ne garde, pour chaque individu $i$, que la moyenne des observations de $Y$ et $X$, ce qui revient à faire une régression en coupe transversale. 

Visuellement, l'estimation du modèle Between ressemble à :
```{r, warning=FALSE, message=FALSE}
data_between <- data_panel %>%
  group_by(country) %>%
  summarise(
    unemp_mean    = mean(unemp, na.rm = TRUE),
    inflation_mean = mean(inflation, na.rm = TRUE)
  )

ggplot(data_between,
       aes(x = inflation_mean, y = unemp_mean, label = country)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  geom_text(nudge_y = 0.3, size = 3) +
  labs(title = "Relation between : moyennes par pays",
       x = "Inflation moyenne (%)",
       y = "Chômage moyen (%)") +
  theme_minimal()

```

Et formellement, on estime la régression suivante :

```{r}
reg_between <- feols(unemp_mean ~ inflation_mean, data = data_between)
etable(reg_between)
```
Le coefficient associé à la ligne `Constant` représente l'ordonnée à l'origine $\alpha_0$, et le coefficient associé à `inflation_mean` représente la pente de régression $\beta$. Dans le modèle Between, on observe que les pays qui sont structurellement plus inflationniste tendent à avoir davantage de chômage. 

Ce type de modèle est en revanche davantage descriptif que causal, et vise en général plutôt à étudier des caractéristiques invariables dans le temps. 


# Les modèles Pooled

Les modèles Pooled vont considérer toutes les observations du panel comme si elles venaient d'un seul individu. On suppose donc implicitement que pour tous les individus, $Y$ et $X$ ont la même relation et qu'il n'y a pas d'hétérogénéité structurelle propre à chaque individu.

En effectuant des modèles de régression spécifiques à chaque individus, de sorte à avoir une ordonnée à l'origine et une pente de régression différente pour chaque individu $i$ :
$$
Y_{i,t} = \alpha + \beta X_{i,t} + \varepsilon_{i,t} 
$$

On peut le visualiser en faisant un graphique représentant la relation inflation-chômage pour chaque individu :

```{r, message=FALSE, warning=FALSE}
ggplot(data_panel, aes(x = inflation, y = unemp)) +
  geom_point(alpha = 0.2) +
  geom_smooth(method = "lm", se = FALSE) +
  labs(x = "Inflation",
       y = "Chômage",
       title = "Pooled model") +
  theme_minimal()
```


```{r, warning=FALSE, message=FALSE}
reg_pooled <- feols(unemp ~ inflation, data = data_panel)
etable(reg_between, reg_pooled, 
       headers =c("Between", "Pooled"), 
       dict= c("unemp_mean"="unemp", 
               "inflation_mean"="inflation")
       )
```
Le modèle Pooled OLS mélange l'analyse **entre** pays et **dans** les pays. On voit qu'avec l'apport de la dimension temporelle par rapport au modèle Between, le coefficient qui mesure l'impact de l'inflation sur le taux de chômage est désormais négatif, et significatif à 1%. 

Cependant, si l'hétérogénéité entre les pays est trop forte (si les institutions sont très différentes par exemple), l'estimation avec Pooled OLS devient biaisée, et il faut plutôt utiliser des modèles à effets fixes qui prend réellement en compte la structure de panel des données.


# Les modèles Within
Les modèles within, ou modèles à effets fixes, sont plus utiles pour étudier des relations causales entre des variables dynamiques. Plutôt que de s'intéresser aux différences entre pays - ce que fait le modèle Between - le modèle Within va examiner la relation entre $Y$ et $X$ à l'intérieur de chaque pays (***within each country***). 

Pour cela, on va appliquer à chaque individu la transformation within aux variables, en mesurant l'écart entre chaque observation avec la moyenne, et en ajoutant une variable $\alpha_i$ - appelée effet fixe individuel - qui prend la forme d'une dummy spécifique à chaque individu, qui capte les différences d'ordonnées à l'origine entre chaque individus.

$$
 Y_{i,t} = \alpha_i + \beta  X_{i,t} + \varepsilon_{i,t}
$$

Ici, $\alpha_i$ représente l'hétérogénéité inobservée propre à l'individu $i$ (culture, institutions, structure économique, ...), tandis que $u_{i,t}$ représente les chocs idiosyncratiques comme en séries temporelles.  $\alpha_i$ est **constant dans le temps** pour un individu, mais il est différent **entre** les individus. Egalement, il peut être corrélé avec les variables explicatives $X_{i,t}$.

On calcule la moyenne temporelle pour chaque pays :

$$
\bar Y_i = \frac{1}{T}\sum_t Y_{it}, \quad
\bar X_i = \frac{1}{T}\sum_t X_{it}, \quad
\bar \varepsilon_i = \frac{1}{T}\sum_t \varepsilon_{it}
$$

En réécrivant le modèle avec les moyennes, on a :

$$
\bar Y_i = \alpha_i + \beta \bar X_i + \bar \varepsilon_i
$$

On soustrait cette équation à l’équation originale :


\begin{align}
Y_{it} - \bar Y_i &= (\alpha_i + \beta X_{it} + \varepsilon_{it}) - (\alpha_i + \beta \bar X_i + \bar \varepsilon_i) \\
&= \beta (X_{it} - \bar X_i) + (\varepsilon_{it} - \bar \varepsilon_i).
\end{align}


On obtient alors :

$$
\tilde Y_{it} = \beta \tilde X_{it} + \tilde \varepsilon_{it}
$$
où les tildes ($\tilde y_{it}$, $\tilde x_{it}$, $\tilde \varepsilon_{it}$ ) désignent les variables 'centrées' par individu. On peut alors effectivement estimer $\beta$ par une régression OLS classique sur les variables transformées : c'est **l'estimateur within**. 

En étudiant uniquement les différences à la moyenne, la transformation within élimine l'hétérogénéité structurelle entre les individus, et les observations deviennent donc les variations dans les individus au cours du temps.

Visuellement, la méthode within permet de mesure l'impact global d'une variation de $X$ sur la variable $Y$ pour plusieurs individus, dans le temps.

```{r, message=FALSE, warning=FALSE}
within_df <- data_panel %>%
  group_by(country) %>%
  mutate(
    unemp_within = unemp - mean(unemp, na.rm = TRUE),
    infl_within  = inflation - mean(inflation, na.rm = TRUE)
  )

ggplot(within_df, aes(x = infl_within, y = unemp_within)) +
  geom_point(alpha = 0.2) +
  geom_smooth(method = "lm", se = FALSE) +
  labs(x = "Inflation centrée par pays (within)",
       y = "Chômage centré par pays (within)",
       title = "Relation within") +
  theme_minimal()
```


On peut alors estimer le modèle suivant :
$$
Y_{it} = \alpha_i + \beta X_{it} + \varepsilon_{it}
$$
En prenant en compte l'hétérogénéité entre pays avec $\alpha_i$, le coefficient $\beta$ représente désormais l'effet de $X_{i,t}$ sur $Y_{i,t}$ au sein d'un même pays.

On peut estimer l'impact du taux d'inflation sur le taux de chômage avec un modèle within, en ajoutant des effets fixes (on compare également avec le modèle Pooled) :
```{r,warning=FALSE, message=FALSE}
reg_fe_i <- feols(unemp ~ inflation | country, data = data_panel)
etable(reg_between, reg_pooled,  reg_fe_i,
       headers =c("Between", "Pooled", "Within"), 
       dict= c("unemp_mean"="unemp", 
               "inflation_mean"="inflation"), 
       vcov="iid")
```
Dans le modèle à effets fixes individuels (`Within`), le coefficient $\beta$ mesure comment le chômage varie quand l'inflation augmente dans un même pays au cours du temps, après avoir retiré les différences structurelles entre pays (les effets fixes individuels).
 
On voit également que dans le modèle à effets fixes, il n'y a pas de coefficient associé à `Constant`, car il y a une constante pour chaque individu qui est captée par les effets fixes individuels. On peut cependant récupérer les effets fixes pays, et faire un graphique pour voir l'hétérogénéité :

```{r}
fe_country <- fixef(reg_fe_i)

fe_df <- data.frame(
  country   = names(fe_country$country),
  alpha_hat = as.numeric(fe_country$country)
)

ggplot(fe_df, aes(x = reorder(country, alpha_hat), y = alpha_hat)) +
  geom_point() +
  geom_hline(yintercept = 0, linetype = "dashed") +
  coord_flip() +
  labs(x = "Pays", y = "Effet fixe estimé (α_i)",
       title = "Effets fixes pays") +
  theme_minimal()




```

On peut également vérifier la significativité globale des $\alpha_i$ afin de regarder s'il existe de l'hétérogénéité individuelle qui doit être prise en compte par le modèle. Autrement dit, si tous les effets individuels sont significatifs, alors on confirme que le modèle Pooled n'est pas approprié, et on préfera plutôt utilise des modèles à effets fixes ou effets aléatoires.
```{r}
mod_fe <- plm(unemp ~ inflation, model="within", data_panel)
mod_pooled <-  plm(unemp ~ inflation, model="pooling", data=data_panel)

pFtest(mod_fe, mod_pooled)

```
L'hypothèse nulle de ce test est que tous les $\alpha_i$ sont égaux, et qu'il n'y a donc pas besoin d'effets fixes. L'hypothèse alternative est qu'au moins un $\alpha_i$ diffère, donc il y a besoin d'utiliser des effets fixes.

En l'occurrence ici, la p-value est significative, ce qui indique qu'on a besoin d'utiliser des effets fixes individuels plutôt qu'un pooled model.





# Effets aléatoire 
Comme on a vu dans la partie sur les modèles à effets fixes, dans les données de panel chaque individu (pays, entreprise, ménage…) possède des caractéristiques propres et inobservables : institutions, préférences culturelles, productivité, compétitivité, etc.

Ces caractéristiques sont représentées par un terme individuel $\alpha_i$, qui déplace vers le haut ou vers le bas la variable que l’on veut expliquer (ex : chômage structurel, productivité structurelle, risque pays…). Dans les modèles à effets fixes, on suppose que ce caractéristiques inobservables sont corrélées aux variables explicatives. Cependant, dans le cas où ces caractéristiques ne sont pas corrélées aux variables explicatives
$$
Cov(X_{i,t}, \alpha_i)=0
$$
les effets fixes sont toujours corrects, mais perdent en efficacité. Dans ce cas précis, l'utilisation d'effets aléatoires fournit une estimation plus précise des coefficients, en réduisant la variance des résidus. Une autre conséquence des effets fixes est qu'il est impossible d'ajouter des variables constantes, spécifiques à chaque individu, en même temps que des effets fixes individuels. Dans le cas des effets aléatoires, il est possible d'ajouter ces variables si elles nous intéressent. 

Formellement, les modèles à effets aléatoires peuvent être écrits :
$$
 Y_{i,t} = \alpha + \alpha_i + \beta X_{i,t} + \varepsilon_{i,t}\\  \alpha_i \sim iid(0,\sigma^2_\alpha) \\
 Cov(\alpha_i, X_{i,t})=0
$$
*Note : L'estimation des modèles à effets aléatoires repose sur les modèles GLS (Generalized Least Squares).* 

```{r}
reg_random <- plm(unemp ~ inflation, data=data_panel, model="random")
summary(reg_random)
```





# Effets fixes ou effets aléatoires ? 
Le test d'Hausman est un test de spécification qui permet de déterminer si les effets fixes sont corrélés avec les variables explicatives. L'idée générale, comme précisé dans la partie sur les modèles à effets aléatoires, est que si $(\alpha_i)$ est **indépendant** de $(X_{it})$, alors FE et RE sont tous les deux consistants, mais RE est plus précis. Si $(\alpha_i)$ est **corrélé** à $(X_{it})$, alors seul FE est consistant.

Le test d'Hausman a pour hypothèse nulle l'indépendence des effets fixes avec les variables explicatives. Si la p-value est significative, on rejette alors cette hypothèse nulle et on confirme qu'il faut utiliser des effets fixes.

En pratique :

```{r, warning=FALSE, message=FALSE}
require(plm)
fe_model <- plm(unemp ~ inflation , data=data_panel, model="within") # modèle à effets fixes
re_model <- plm(unemp ~ inflation , data=data_panel, model="random") # modèle à effets individuels

phtest(fe_model, re_model)
```
*Note : la fonction `plm()` est très utile pour faire des modèles de panel, et peut être utilisée à la place de `feols()` pour faire des régressions en panel. En revanche, si vous avez des estimations à effets fixes, utilisez plutôt feols(). Dans la majorité des cas, les études en panel sont effectuées avec des modèles de panel à effets fixes, et le choix de ces effets fixes (individuel et/ou temporel) repose sur les données et la question de recherche.*

Dans le cas présent, la p-value n'est pas significative ce qui montre que le modèle à effets aléatoires n'est pas biaisé, et il faut privilégier ce modèle dans les estimations. En revanche, le modèle à effets fixes est toujours correct, il est moins efficace que le modèle à effets aléatoires dans certains cas.





# Modèles à effets fixes temporels et individuels
On peut également, de la même façon qu'on peut contrôler l'influence de variables inobservées propres à chaque individu et qui ne changent pas dans le temps avec les effets fixes individuels, contrôler l'influence de variables qui affectent **tous les individus** et qui varient dans le temps (par exemple, des chocs globaux). Pour cela, on a recours à des **effets fixes temporels** $\delta_t$, qui prennent la forme de dummies spécifique à une date en particulier, commune à tous les individus :

$$
Y_{it} = \alpha_i + \delta_t+ \beta X_{it} + \varepsilon_{it}
$$

```{r, warning=FALSE, message=FALSE}
reg_fe_it <- feols(unemp ~ inflation | country + year, data = data_panel)

etable(reg_pooled, reg_fe_i, reg_fe_it,
       headers = c("Pooled OLS", "FE pays", "FE pays + année"))
```

Egalement, les effets fixes temporels vont prendre la forme d'une dummy spécifique à chaque date, ce qui prend en compte les variables inobservées communes à tous les individus, **y compris les tendances et l'influence du temps**. C'est la raison pour laquelle, en panel avec des effets fixes temporels, la stationnarité pose moins problème qu'en séries temporelles.


# Ecarts-types robustes.
Vous pouvez voir dans le résultat une ligne `S.E. type`. Lorsqu'on fait des régressions - y compris en séries temporelles - les erreurs (et la variance des erreurs) sont supposées constantes entre tous les individus (hypothèse d'homoscédasticité des résidus). Dans la réalité, c'est rarement le cas. L'effet direct de l'hétéroscédasticité est qu'il va augmenter l'écart-type associé aux coefficients de régression (donc augmenter l'incertitude dans l'inférence causale).

Il existe cependant une solution relativement simple, qui vise à estimer les écarts-types d'une autre manière que la méthode traditionnelle qui correspond aux modèles OLS qui respectent ces hypothèses. La méthode la plus répandue est d'utiliser des écarts-types robustes à l'hétéroscédasticité à la White (1980). 

Dans d'autes situations, certains phénomènes n'affectent pas toutes les observations, mais peut-être seulement certains groupes d'individus. Cela peut obliger à utiliser les écarts-types de différentes façons : par individu, par date, par individu-date, etc... Lorsqu'on a des données microéconomiques suffisamment désagrégées, peut également clusteriser par certains groupes d'individus (type de firmes par exemple), localisation géographique (départements), etc...   



```{r}
reg_fe_it <- feols(unemp ~ inflation | country + year, data = data_panel)

etable(
  reg_fe_it, reg_fe_it,reg_fe_it,
  vcov = list(~country, ~country + year, "HC1"),
  headers = c("cluster pays", "cluster pays+année", "HC1")
)

```
Ici on voit que la seule différence entre les deux modèles est l'écart-type associé au coefficient de l'inflation. 



# Modèles de panel dynamique et GMM 
Dans certains cas, on peut souhaiter estimer des modèles qui prennent en compte la dynamique d'une série. Par exemple, si la variable $Y_{i,t}$ est impactée par ses valeurs passées, on peut vouloir estimer le modèle suivant :

$$
Y_{i,t} = \alpha_i + \alpha_t + \beta_1 Y_{i,t-1} + \beta_2 X_{i,t} + \varepsilon_{i,t}
$$
Ici, $\beta_1$ va mesurer l'impact du lag de la variable endogène sur la variable endogène elle-même, afin de prendre en compte l'autocorrélation de la série. 

Cependant, les modèles dynamique ne respectent pas la condition de stricte exogénéité des variables explicatives, ce qui pose problème sur l'estimation économétrique. Ces problèmes sont en général gérés par les modèles GMM.

L'idée des GMM (Arellano-Bond) est de transformer l'équation en différences premières, d'utiliser les lags de $Y_t$ comme des instruments afin de retrouver la causalité entre $X_t$ et $Y_t$. 






