Des séries temporelles au panel

Les modèles de régression de panel sont un des outils les plus populaires dans la recherche en économie. Ces modèles consistent à utiliser des données disponibles pour plusieurs pays (la cross-section), et sur plusieurs périodes (la time-serie).

Le modèle de panel linéaire classique utilisé en économétrie peut être décrit par : \[ Y_{i,t} = \beta X_{i,t} + \varepsilon_{i,t} \]\(i = 1, \cdots,n\) représente les individus (des pays par exemple) et \(t=1, \cdots, T\) représente l’indice temporel (des années par exemple). Ici, \(Y_{i,t}\) représente la variable dépendante (ou variable endogène, ou variable expliquée) - par exemple le taux de chômage - de l’individu \(i\) à la période \(t\) ; \(X_{i,t}\) représente la variable indépendante (ou variable exogène, ou variable explicative) - par exemple le taux d’inflation.

La base de données est donc constituée de \(n \times T\) observations dans ce cas, contrairement aux modèles de séries temporelles qui ne possèdent que \(T\) observations.

Pour bien se représenter l’apport des modèles de panel par rapport aux modèles de séries temporelles, on peut visualiser la différence.

require(readxl)
data_panel <- read_excel("C:/users/fkraus/Desktop/data_schularick.xlsx")%>%
  select(year, country, unemp, cpi)
data_ST <- data_panel %>% filter(country=="France")

head(data_panel)
head(data_ST)

D’un côté, la base de données data_ST est une base de données en série temporelle à fréquence annuelle, c’est-à-dire qui n’est constituée que d’un individu (la France) entre 1870 et 2020. De l’autre, la base data_panel contient les données annuelles pour 18 pays entre 1870 et 2020.

Il peut exister deux types de base de données de panel : les panel balancés (balanced panel) et les non-balancés (unbalanced panel). Les panel balancés décrivent des bases de données de panel pour lesquels tous les individus ont exactement le même nombre d’observations, tandis que les non-balancés sont des bases où le nombre d’observation peut différer entre chaque individus. On peut vérifier pour notre cas :

table(data_panel$country)

  Australia     Belgium      Canada     Denmark     Finland      France     Germany     Ireland       Italy       Japan Netherlands 
        151         151         151         151         151         151         151         151         151         151         151 
     Norway    Portugal       Spain      Sweden Switzerland          UK         USA 
        151         151         151         151         151         151         151 

Ici, on voit qu’on a moins d’observations pour la Belgique, la Finlande, l’Allemagne, l’Irlande, l’Italie, le Japon et le Portugal, on a donc un panel non-balancé. Cela ne pose en revanche pas de problème majeur dans la plupart des cas.

Si on s’intéresse à la relation entre le taux de chômage et le taux d’inflation - la courbe de Phillips - on peut analyser la relation pour la France avec l’équation suivante : \[ Y_{FR, t}= \alpha_0 + \beta X_{FR,t} + \varepsilon_{FR,t} \] L’ordonnée à l’origine est donnée par \(\alpha_0\) et la pente de la courbe de régression est donnée par \(\beta\). Cette équation revient à visualiser le nuage de points entre le taux d’inflation (\(X_{FR,t}\)) et de chômage (\(Y_{FR,t}\)) de la France :

data_ST <- data_ST %>%
  mutate(inflation = c(NA, diff(log(cpi))*100))

data_ST %>% ggplot(aes(x=inflation, y=unemp))+
  geom_point(size=1)+
  labs(title="Nuage de point entre inflation et chômage, France (1871-2020)", y="Chômage (%)", x="Inflation (%)")+
  #geom_smooth(method="lm", formula = y ~ x)+
  theme_bw()

Ici, on peut voir que dans le cas de la France, on a 109 observations qui nous permettent de déterminer l’allure de la relation décrite par la courbe de Phillips qui semble être, a priori, confirmée par les données.

Dans le cas des données de panel, on peut appliquer le même modèle pour tous les individus de manière séparée : \[ Y_{i, t}= \alpha_{i,0} + \beta_i X_{i,t} + \varepsilon_{i,t} \] Encore une fois, l’ordonnée à l’origine globale (pour tous les pays) est donnée par \(\alpha_0\) et la pente de la courbe de régression (pour tous les pays) est donnée par \(\beta\). Cela revient à analyser le nuage de points entre l’inflation (\(X_{i,t}\)) et le chômage (\(Y_{i,t}\)) de tous les pays dans notre base de données :

data_panel <- data_panel %>%
  group_by(country)%>%
  mutate(inflation = c(NA, diff(log(cpi))*100))%>%
  filter(!inflation >= 50) # pour retirer les valeurs aberrantes

data_panel %>% ggplot(aes(x=inflation, y=unemp))+
  geom_point(color="grey60")+
  labs(title="Nuage de point entre inflation et chômage", y="Chômage (%)", x="Inflation (%)")+
  geom_smooth(se=FALSE, method="lm", color="black")+
  theme_minimal()+
  theme(legend.position="bottom")+
  facet_wrap(~country) # pour avoir un graphique par country

Les données de panel semblent bien confirmer les observations que l’on avait obtenu pour la France. Cependant, on voit bien que la pente de la relation semble être plus importante dans certains pays (USA, Espagne ou Suisse par exemple) que dans d’autres (Portugal, Irlande, Italie), voire même que cette pente est positive pour le Danemark.

Cette différence peut provenir - dans la majorité des cas - du fait qu’il y a une hétérogénéité inobservée importante entre les différents individus (les pays) dans la base de données.

Cette hétérogénéité peut être notamment captée de différentes façons, c’est ce qui donne lieu aux modèles Between, Pooled, Within et Random.

Résumé des modèles

Between \[ \bar Y_i = \alpha_0 + \beta \bar X_i + \varepsilon_{i} \] Effets aléatoires \[ Y_{i,t} = \alpha + \alpha_i + \beta X_{i,t} + \varepsilon_{i} \quad \alpha_i \sim iid(0,\sigma^2_\alpha) \] Suppose $ Cov(X_{i,t}, i) =0 $ Effets fixes \[ Y_{i,t} = \alpha_i + \beta X_{i,t} + \varepsilon_{i} \] Autorise $ Cov(X{i,t}, _i) $

Pooled \[ Y_{i,t} = \alpha + \beta X_{i,t} + \varepsilon_{i,t} \]

Les modèles Between

Les modèles Between vont analyser les différences structurelles entre les individus (between individuals), en analysant les moyennes par individus. C’est souvent le modèle le plus simple, utile pour analyser le vocabulaire économétrique, et qui sert de base.

En analysant les différences par individus, on va réellement examiner l’hétérogénéité, en négligeant cependant la dynamique temporelle par individus.

\[ \bar Y_i = \alpha_0 + \beta \bar X_i + \varepsilon_{i} \]\[ \bar Y_i = \frac{1}{T_i}\sum_t Y_{it}, \quad \bar X_i = \frac{1}{T_i}\sum_t X_{it} \] Autrement dit, on ne garde, pour chaque individu \(i\), que la moyenne des observations de \(Y\) et \(X\), ce qui revient à faire une régression en coupe transversale.

Visuellement, l’estimation du modèle Between ressemble à :

data_between <- data_panel %>%
  group_by(country) %>%
  summarise(
    unemp_mean    = mean(unemp, na.rm = TRUE),
    inflation_mean = mean(inflation, na.rm = TRUE)
  )

ggplot(data_between,
       aes(x = inflation_mean, y = unemp_mean, label = country)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  geom_text(nudge_y = 0.3, size = 3) +
  labs(title = "Relation between : moyennes par pays",
       x = "Inflation moyenne (%)",
       y = "Chômage moyen (%)") +
  theme_minimal()

Et formellement, on estime la régression suivante :

reg_between <- feols(unemp_mean ~ inflation_mean, data = data_between)
etable(reg_between_plm)
                 reg_between_plm
Dependent Var.:       unemp_mean
                                
Constant          2.604. (1.273)
inflation_mean  0.9562* (0.3770)
_______________ ________________
S.E. type                    IID
Observations                  18
R2                       0.28678
Adj. R2                  0.24221
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Le coefficient associé à la ligne Constant représente l’ordonnée à l’origine \(\alpha_0\), et le coefficient associé à inflation_mean représente la pente de régression \(\beta\). Dans le modèle Between, on observe que les pays qui sont structurellement plus inflationniste tendent à avoir davantage de chômage.

Ce type de modèle est en revanche davantage descriptif que causal, et vise en général plutôt à étudier des caractéristiques invariables dans le temps.

Les modèles Pooled

Les modèles Pooled vont considérer toutes les observations du panel comme si elles venaient d’un seul individu. On suppose donc implicitement que pour tous les individus, \(Y\) et \(X\) ont la même relation et qu’il n’y a pas d’hétérogénéité structurelle propre à chaque individu.

En effectuant des modèles de régression spécifiques à chaque individus, de sorte à avoir une ordonnée à l’origine et une pente de régression différente pour chaque individu \(i\) : \[ Y_{i,t} = \alpha + \beta X_{i,t} + \varepsilon_{i,t} \]

On peut le visualiser en faisant un graphique représentant la relation inflation-chômage pour chaque individu :

ggplot(data_panel, aes(x = inflation, y = unemp)) +
  geom_point(alpha = 0.2) +
  geom_smooth(method = "lm", se = FALSE) +
  labs(x = "Inflation",
       y = "Chômage",
       title = "Pooled model") +
  theme_minimal()

etable(reg_between, reg_pooled, 
       headers =c("Between", "Pooled"), 
       dict= c("unemp_mean"="unemp", 
               "inflation_mean"="inflation")
       )
                     reg_between          reg_pooled
                         Between              Pooled
Dependent Var.:            unemp               unemp
                                                    
Constant          2.604. (1.273)   5.932*** (0.1063)
inflation       0.9562* (0.3770) -0.1277*** (0.0159)
_______________ ________________ ___________________
S.E. type                    IID                 IID
Observations                  18               1,942
R2                       0.28678             0.03233
Adj. R2                  0.24221             0.03183
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Le modèle Pooled OLS mélange l’analyse entre pays et dans les pays. On voit qu’avec l’apport de la dimension temporelle par rapport au modèle Between, le coefficient qui mesure l’impact de l’inflation sur le taux de chômage est désormais négatif, et significatif à 1%.

Cependant, si l’hétérogénéité entre les pays est trop forte (si les institutions sont très différentes par exemple), l’estimation avec Pooled OLS devient biaisée, et il faut plutôt utiliser des modèles à effets fixes qui prend réellement en compte la structure de panel des données.

Les modèles Within

Les modèles within, ou modèles à effets fixes, sont plus utiles pour étudier des relations causales entre des variables dynamiques. Plutôt que de s’intéresser aux différences entre pays - ce que fait le modèle Between - le modèle Within va examiner la relation entre \(Y\) et \(X\) à l’intérieur de chaque pays (within each country).

Pour cela, on va appliquer à chaque individu la transformation within aux variables, en mesurant l’écart entre chaque observation avec la moyenne, et en ajoutant une variable \(\alpha_i\) - appelée effet fixe individuel - qui prend la forme d’une dummy spécifique à chaque individu, qui capte les différences d’ordonnées à l’origine entre chaque individus.

\[ Y_{i,t} = \alpha_i + \beta X_{i,t} + \varepsilon_{i,t} \]

Ici, \(\alpha_i\) représente l’hétérogénéité inobservée propre à l’individu \(i\) (culture, institutions, structure économique, …), tandis que \(u_{i,t}\) représente les chocs idiosyncratiques comme en séries temporelles. \(\alpha_i\) est constant dans le temps pour un individu, mais il est différent entre les individus. Egalement, il peut être corrélé avec les variables explicatives \(X_{i,t}\).

On calcule la moyenne temporelle pour chaque pays :

\[ \bar Y_i = \frac{1}{T}\sum_t Y_{it}, \quad \bar X_i = \frac{1}{T}\sum_t X_{it}, \quad \bar \varepsilon_i = \frac{1}{T}\sum_t \varepsilon_{it} \]

En réécrivant le modèle avec les moyennes, on a :

\[ \bar Y_i = \alpha_i + \beta \bar X_i + \bar \varepsilon_i \]

On soustrait cette équation à l’équation originale :

\[\begin{align} Y_{it} - \bar Y_i &= (\alpha_i + \beta X_{it} + \varepsilon_{it}) - (\alpha_i + \beta \bar X_i + \bar \varepsilon_i) \\ &= \beta (X_{it} - \bar X_i) + (\varepsilon_{it} - \bar \varepsilon_i). \end{align}\]

On obtient alors :

\[ \tilde Y_{it} = \beta \tilde X_{it} + \tilde \varepsilon_{it} \] où les tildes (\(\tilde y_{it}\), \(\tilde x_{it}\), \(\tilde \varepsilon_{it}\) ) désignent les variables ‘centrées’ par individu. On peut alors effectivement estimer \(\beta\) par une régression OLS classique sur les variables transformées : c’est l’estimateur within.

En étudiant uniquement les différences à la moyenne, la transformation within élimine l’hétérogénéité structurelle entre les individus, et les observations deviennent donc les variations dans les individus au cours du temps.

Visuellement, la méthode within permet de mesure l’impact global d’une variation de \(X\) sur la variable \(Y\) pour plusieurs individus, dans le temps.

within_df <- data_panel %>%
  group_by(country) %>%
  mutate(
    unemp_within = unemp - mean(unemp, na.rm = TRUE),
    infl_within  = inflation - mean(inflation, na.rm = TRUE)
  )

ggplot(within_df, aes(x = infl_within, y = unemp_within)) +
  geom_point(alpha = 0.2) +
  geom_smooth(method = "lm", se = FALSE) +
  labs(x = "Inflation centrée par pays (within)",
       y = "Chômage centré par pays (within)",
       title = "Relation within") +
  theme_minimal()

On peut alors estimer le modèle suivant : \[ Y_{it} = \alpha_i + \beta X_{it} + \varepsilon_{it} \] En prenant en compte l’hétérogénéité entre pays avec \(\alpha_i\), le coefficient \(\beta\) représente désormais l’effet de \(X_{i,t}\) sur \(Y_{i,t}\) au sein d’un même pays.

On peut estimer l’impact du taux d’inflation sur le taux de chômage avec un modèle within, en ajoutant des effets fixes (on compare également avec le modèle Pooled) :

etable(reg_between, reg_pooled,  reg_fe_i,
       headers =c("Between", "Pooled", "Within"), 
       dict= c("unemp_mean"="unemp", 
               "inflation_mean"="inflation"), vcov="iid")
                     reg_between          reg_pooled            reg_fe_i
                         Between              Pooled              Within
Dependent Var.:            unemp               unemp               unemp
                                                                        
Constant          2.604. (1.273)   5.932*** (0.1063)                    
inflation       0.9562* (0.3770) -0.1277*** (0.0159) -0.1712*** (0.0146)
Fixed-Effects:  ---------------- ------------------- -------------------
country                       No                  No                 Yes
_______________ ________________ ___________________ ___________________
S.E. type                    IID                 IID                 IID
Observations                  18               1,942               1,942
R2                       0.28678             0.03233             0.22439
Within R2                     --                  --             0.06688
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Dans le modèle à effets fixes individuels (Within), le coefficient \(\beta\) mesure comment le chômage varie quand l’inflation augmente dans un même pays au cours du temps, après avoir retiré les différences structurelles entre pays (les effets fixes individuels).

On voit également que dans le modèle à effets fixes, il n’y a pas de coefficient associé à Constant, car il y a une constante pour chaque individu qui est captée par les effets fixes individuels. On peut cependant récupérer les effets fixes pays, et faire un graphique pour voir l’hétérogénéité :

fe_country <- fixef(reg_fe_i)

fe_df <- data.frame(
  country   = names(fe_country$country),
  alpha_hat = as.numeric(fe_country$country)
)

ggplot(fe_df, aes(x = reorder(country, alpha_hat), y = alpha_hat)) +
  geom_point() +
  geom_hline(yintercept = 0, linetype = "dashed") +
  coord_flip() +
  labs(x = "Pays", y = "Effet fixe estimé (α_i)",
       title = "Effets fixes pays") +
  theme_minimal()

On peut également vérifier la significativité globale des \(\alpha_i\) afin de regarder s’il existe de l’hétérogénéité individuelle qui doit être prise en compte par le modèle. Autrement dit, si tous les effets individuels sont significatifs, alors on confirme que le modèle Pooled n’est pas approprié, et on préfera plutôt utilise des modèles à effets fixes ou effets aléatoires.

mod_fe <- plm(unemp ~ inflation, model="within", data_panel)
mod_pooled <-  plm(unemp ~ inflation, model="pooling", data=data_panel)

pFtest(mod_fe, mod_pooled)

    F test for individual effects

data:  unemp ~ inflation
F = 8.0204, df1 = 149, df2 = 1791, p-value < 2.2e-16
alternative hypothesis: significant effects

L’hypothèse nulle de ce test est que tous les \(\alpha_i\) sont égaux, et qu’il n’y a donc pas besoin d’effets fixes. L’hypothèse alternative est qu’au moins un \(\alpha_i\) diffère, donc il y a besoin d’utiliser des effets fixes.

En l’occurrence ici, la p-value est significative, ce qui indique qu’on a besoin d’utiliser des effets fixes individuels plutôt qu’un pooled model.

Effets aléatoire

Comme on a vu dans la partie sur les modèles à effets fixes, dans les données de panel chaque individu (pays, entreprise, ménage…) possède des caractéristiques propres et inobservables : institutions, préférences culturelles, productivité, compétitivité, etc.

Ces caractéristiques sont représentées par un terme individuel \(\alpha_i\), qui déplace vers le haut ou vers le bas la variable que l’on veut expliquer (ex : chômage structurel, productivité structurelle, risque pays…). Dans les modèles à effets fixes, on suppose que ce caractéristiques inobservables sont corrélées aux variables explicatives. Cependant, dans le cas où ces caractéristiques ne sont pas corrélées aux variables explicatives \[ Cov(X_{i,t}, \alpha_i)=0 \] les effets fixes sont toujours corrects, mais perdent en efficacité. Dans ce cas précis, l’utilisation d’effets aléatoires fournit une estimation plus précise des coefficients, en réduisant la variance des résidus. Une autre conséquence des effets fixes est qu’il est impossible d’ajouter des variables constantes, spécifiques à chaque individu, en même temps que des effets fixes individuels. Dans le cas des effets aléatoires, il est possible d’ajouter ces variables si elles nous intéressent.

Formellement, les modèles à effets aléatoires peuvent être écrits : \[ Y_{i,t} = \alpha + \alpha_i + \beta X_{i,t} + \varepsilon_{i,t}\\ \alpha_i \sim iid(0,\sigma^2_\alpha) \\ Cov(\alpha_i, X_{i,t})=0 \] Note : L’estimation des modèles à effets aléatoires repose sur les modèles GLS (Generalized Least Squares).

reg_random <- plm(unemp ~ inflation, data=data_panel, model="random")
summary(reg_random)
Oneway (individual) effect Random Effect Model 
   (Swamy-Arora's transformation)

Call:
plm(formula = unemp ~ inflation, data = data_panel, model = "random")

Unbalanced Panel: n = 150, T = 2-18, N = 1942

Effects:
                 var std.dev share
idiosyncratic 10.495   3.240 0.651
individual     5.624   2.371 0.349
theta:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.3052  0.6570  0.6935  0.6588  0.6935  0.6935 

Residuals:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
-5.9974 -1.9605 -0.7349  0.0669  1.5502 18.2237 

Coefficients:
             Estimate Std. Error z-value  Pr(>|z|)    
(Intercept)  5.388139   0.217691 24.7513 < 2.2e-16 ***
inflation   -0.070533   0.017868 -3.9474 7.902e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Total Sum of Squares:    20208
Residual Sum of Squares: 20237
R-Squared:      0.0048866
Adj. R-Squared: 0.0043737
Chisq: 15.5816 on 1 DF, p-value: 7.9021e-05

Effets fixes ou effets aléatoires ?

Le test d’Hausman est un test de spécification qui permet de déterminer si les effets fixes sont corrélés avec les variables explicatives. L’idée générale, comme précisé dans la partie sur les modèles à effets aléatoires, est que si \((\alpha_i)\) est indépendant de \((X_{it})\), alors FE et RE sont tous les deux consistants, mais RE est plus précis. Si \((\alpha_i)\) est corrélé à \((X_{it})\), alors seul FE est consistant.

Le test d’Hausman a pour hypothèse nulle l’indépendence des effets fixes avec les variables explicatives. Si la p-value est significative, on rejette alors cette hypothèse nulle et on confirme qu’il faut utiliser des effets fixes.

En pratique :

require(plm)
fe_model <- plm(unemp ~ inflation , data=data_panel, model="within") # modèle à effets fixes
re_model <- plm(unemp ~ inflation , data=data_panel, model="random") # modèle à effets individuels

phtest(fe_model, re_model)

Note : la fonction plm() est très utile pour faire des modèles de panel, et peut être utilisée à la place de feols() pour faire des régressions en panel. En revanche, si vous avez des estimations à effets fixes, utilisez plutôt feols(). Dans la majorité des cas, les études en panel sont effectuées avec des modèles de panel à effets fixes, et le choix de ces effets fixes (individuel et/ou temporel) repose sur les données et la question de recherche.

Dans le cas présent, la p-value n’est pas significative ce qui montre que le modèle à effets aléatoires n’est pas biaisé, et il faut privilégier ce modèle dans les estimations. En revanche, le modèle à effets fixes est toujours correct, il est moins efficace que le modèle à effets aléatoires dans certains cas.

Modèles à effets fixes temporels et individuels

On peut également, de la même façon qu’on peut contrôler l’influence de variables inobservées propres à chaque individu et qui ne changent pas dans le temps avec les effets fixes individuels, contrôler l’influence de variables qui affectent tous les individus et qui varient dans le temps (par exemple, des chocs globaux). Pour cela, on a recours à des effets fixes temporels \(\delta_t\), qui prennent la forme de dummies spécifique à une date en particulier, commune à tous les individus :

\[ Y_{it} = \alpha_i + \delta_t+ \beta X_{it} + \varepsilon_{it} \]

reg_fe_it <- feols(unemp ~ inflation | country + year, data = data_panel)

etable(reg_pooled, reg_fe_i, reg_fe_it,
       headers = c("Pooled OLS", "FE pays", "FE pays + année"))

Egalement, les effets fixes temporels vont prendre la forme d’une dummy spécifique à chaque date, ce qui prend en compte les variables inobservées communes à tous les individus, y compris les tendances et l’influence du temps. C’est la raison pour laquelle, en panel avec des effets fixes temporels, la stationnarité pose moins problème qu’en séries temporelles.

Ecarts-types robustes.

Vous pouvez voir dans le résultat une ligne S.E. type. Lorsqu’on fait des régressions - y compris en séries temporelles - les erreurs (et la variance des erreurs) sont supposées constantes entre tous les individus (hypothèse d’homoscédasticité des résidus). Dans la réalité, c’est rarement le cas. L’effet direct de l’hétéroscédasticité est qu’il va augmenter l’écart-type associé aux coefficients de régression (donc augmenter l’incertitude dans l’inférence causale).

Il existe cependant une solution relativement simple, qui vise à estimer les écarts-types d’une autre manière que la méthode traditionnelle qui correspond aux modèles OLS qui respectent ces hypothèses. La méthode la plus répandue est d’utiliser des écarts-types robustes à l’hétéroscédasticité à la White (1980).

Dans d’autes situations, certains phénomènes n’affectent pas toutes les observations, mais peut-être seulement certains groupes d’individus. Cela peut obliger à utiliser les écarts-types de différentes façons : par individu, par date, par individu-date, etc… Lorsqu’on a des données microéconomiques suffisamment désagrégées, peut également clusteriser par certains groupes d’individus (type de firmes par exemple), localisation géographique (départements), etc…

reg_fe_it <- feols(unemp ~ inflation | country + year, data = data_panel)

etable(
  reg_fe_it, reg_fe_it,reg_fe_it,
  vcov = list(~country, ~country + year, "HC1"),
  headers = c("cluster pays", "cluster pays+année", "HC1")
)

Ici on voit que la seule différence entre les deux modèles est l’écart-type associé au coefficient de l’inflation.

Modèles de panel dynamique et GMM

Dans certains cas, on peut souhaiter estimer des modèles qui prennent en compte la dynamique d’une série. Par exemple, si la variable \(Y_{i,t}\) est impactée par ses valeurs passées, on peut vouloir estimer le modèle suivant :

\[ Y_{i,t} = \alpha_i + \alpha_t + \beta_1 Y_{i,t-1} + \beta_2 X_{i,t} + \varepsilon_{i,t} \] Ici, \(\beta_1\) va mesurer l’impact du lag de la variable endogène sur la variable endogène elle-même, afin de prendre en compte l’autocorrélation de la série.

Cependant, les modèles dynamique ne respectent pas la condition de stricte exogénéité des variables explicatives, ce qui pose problème sur l’estimation économétrique. Ces problèmes sont en général gérés par les modèles GMM.

L’idée des GMM (Arellano-Bond) est de transformer l’équation en différences premières, d’utiliser les lags de \(Y_t\) comme des instruments afin de retrouver la causalité entre \(X_t\) et \(Y_t\).

---
title: "Modèles de panel"
output:
  html_notebook: 
    toc: true
    toc_depth: 3
    toc_float: true
  html_document:
    df_print: paged
  word_document: default
  pdf_document: default
---

# Des séries temporelles au panel 
Les modèles de régression de panel sont un des outils les plus populaires dans la recherche en économie. Ces modèles consistent à utiliser des données disponibles pour plusieurs pays (la *cross-section*), et sur plusieurs périodes (la *time-serie*).

Le modèle de panel linéaire classique utilisé en économétrie peut être décrit par :
$$
Y_{i,t} =  \beta X_{i,t} + \varepsilon_{i,t}
$$
Où $i = 1, \cdots,n$ représente les individus (des pays par exemple) et $t=1, \cdots, T$ représente l'indice temporel (des années par exemple). Ici, $Y_{i,t}$ représente la variable dépendante (ou variable endogène, ou variable expliquée) - par exemple le taux de chômage - de l'individu $i$ à la période $t$ ; $X_{i,t}$ représente la variable indépendante (ou variable exogène, ou variable explicative) - par exemple le taux d'inflation.


La base de données est donc constituée de $n \times T$ observations dans ce cas, contrairement aux modèles de séries temporelles qui ne possèdent que $T$ observations. 

Pour bien se représenter l'apport des modèles de panel par rapport aux modèles de séries temporelles, on peut visualiser la différence. 

```{r}
require(readxl)
data_panel <- read_excel("C:/users/fkraus/Desktop/data_schularick.xlsx")%>%
  select(year, country, unemp, cpi)
data_ST <- data_panel %>% filter(country=="France")

head(data_panel)
head(data_ST)
```

D'un côté, la base de données `data_ST` est une base de données en série temporelle à fréquence annuelle, c'est-à-dire qui n'est constituée que d'un individu (la France) entre 1870 et 2020. De l'autre, la base `data_panel` contient les données annuelles pour 18 pays entre 1870 et 2020. 

Il peut exister deux types de base de données de panel : les panel balancés (*balanced panel*) et les non-balancés (*unbalanced panel*). Les panel balancés décrivent des bases de données de panel pour lesquels tous les individus ont exactement le même nombre d'observations, tandis que les non-balancés sont des bases où le nombre d'observation peut différer entre chaque individus. On peut vérifier pour notre cas :

```{r}
table(data_panel$country)
```
Ici, on voit qu'on a moins d'observations pour la Belgique, la Finlande, l'Allemagne, l'Irlande, l'Italie, le Japon et le Portugal, on a donc un panel non-balancé. Cela ne pose en revanche pas de problème majeur dans la plupart des cas.

Si on s'intéresse à la relation entre le taux de chômage et le taux d'inflation - la courbe de Phillips - on peut analyser la relation pour la France avec l'équation suivante :
$$
Y_{FR, t}= \alpha_0 + \beta X_{FR,t} + \varepsilon_{FR,t}
$$
L'ordonnée à l'origine est donnée par $\alpha_0$ et la pente de la courbe de régression est donnée par $\beta$. Cette équation revient à visualiser le nuage de points entre le taux d'inflation ($X_{FR,t}$) et de chômage ($Y_{FR,t}$) de la France :
```{r, warning=FALSE, message=FALSE}
data_ST <- data_ST %>%
  mutate(inflation = c(NA, diff(log(cpi))*100))

data_ST %>% ggplot(aes(x=inflation, y=unemp))+
  geom_point(size=1)+
  labs(title="Nuage de point entre inflation et chômage, France (1871-2020)", y="Chômage (%)", x="Inflation (%)")+
  #geom_smooth(method="lm", formula = y ~ x)+
  theme_bw()
```
Ici, on peut voir que dans le cas de la France, on a **109 observations** qui nous permettent de déterminer l'allure de la relation décrite par la courbe de Phillips qui semble être, a priori, confirmée par les données. 


Dans le cas des données de panel, on peut appliquer le même modèle pour tous les individus de manière séparée :
$$
Y_{i, t}= \alpha_{i,0} + \beta_i X_{i,t} + \varepsilon_{i,t}
$$
Encore une fois, l'ordonnée à l'origine globale (pour tous les pays) est donnée par $\alpha_0$ et la pente de la courbe de régression (pour tous les pays) est donnée par $\beta$. Cela revient à analyser le nuage de points entre l'inflation ($X_{i,t}$) et le chômage ($Y_{i,t}$) de tous les pays dans notre base de données :

```{r, warning=FALSE, message=FALSE}
data_panel <- data_panel %>%
  group_by(country)%>%
  mutate(inflation = c(NA, diff(log(cpi))*100))%>%
  filter(!inflation >= 50) # pour retirer les valeurs aberrantes

data_panel %>% ggplot(aes(x=inflation, y=unemp))+
  geom_point(color="grey60")+
  labs(title="Nuage de point entre inflation et chômage", y="Chômage (%)", x="Inflation (%)")+
  geom_smooth(se=FALSE, method="lm", color="black")+
  theme_minimal()+
  theme(legend.position="bottom")+
  facet_wrap(~country) # pour avoir un graphique par country
```
Les données de panel semblent bien confirmer les observations que l'on avait obtenu pour la France. 
Cependant, on voit bien que la pente de la relation semble être plus importante dans certains pays (USA, Espagne ou Suisse par exemple) que dans d'autres (Portugal, Irlande, Italie), voire même que cette pente est positive pour le Danemark.

Cette différence peut provenir - dans la majorité des cas - du fait qu'il y a une hétérogénéité inobservée importante entre les différents individus (les pays) dans la base de données. 

Cette hétérogénéité peut être notamment captée de différentes façons, c'est ce qui donne lieu aux modèles **Between**, **Pooled**, **Within** et **Random**.





# Résumé des modèles

**Between**
$$
\bar Y_i = \alpha_0 + \beta \bar X_i + \varepsilon_{i}
$$
**Effets aléatoires**
$$
 Y_{i,t} = \alpha + \alpha_i + \beta X_{i,t} + \varepsilon_{i} \quad \alpha_i \sim iid(0,\sigma^2_\alpha)
$$
Suppose $ Cov(X_{i,t}, \alpha_i) =0 $
**Effets fixes**
$$
 Y_{i,t} = \alpha_i + \beta X_{i,t} + \varepsilon_{i}
$$
Autorise $ Cov(X_{i,t}, \alpha_i) \ne 0 $

**Pooled**
$$
Y_{i,t} = \alpha + \beta X_{i,t} + \varepsilon_{i,t} 
$$

# Les modèles Between

Les modèles **Between** vont analyser les différences structurelles entre les individus (***between individuals***), en analysant les moyennes par individus. C'est souvent le modèle le plus simple, utile pour analyser le vocabulaire économétrique, et qui sert de base.

En analysant les différences par individus, on va réellement examiner l'hétérogénéité, en négligeant cependant la dynamique temporelle par individus.

$$
\bar Y_i = \alpha_0 + \beta \bar X_i + \varepsilon_{i}
$$
Où 
$$
\bar Y_i = \frac{1}{T_i}\sum_t Y_{it}, \quad
\bar X_i = \frac{1}{T_i}\sum_t X_{it}
$$
Autrement dit, on ne garde, pour chaque individu $i$, que la moyenne des observations de $Y$ et $X$, ce qui revient à faire une régression en coupe transversale. 

Visuellement, l'estimation du modèle Between ressemble à :
```{r, warning=FALSE, message=FALSE}
data_between <- data_panel %>%
  group_by(country) %>%
  summarise(
    unemp_mean    = mean(unemp, na.rm = TRUE),
    inflation_mean = mean(inflation, na.rm = TRUE)
  )

ggplot(data_between,
       aes(x = inflation_mean, y = unemp_mean, label = country)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  geom_text(nudge_y = 0.3, size = 3) +
  labs(title = "Relation between : moyennes par pays",
       x = "Inflation moyenne (%)",
       y = "Chômage moyen (%)") +
  theme_minimal()

```

Et formellement, on estime la régression suivante :

```{r}
reg_between <- feols(unemp_mean ~ inflation_mean, data = data_between)
etable(reg_between)
```
Le coefficient associé à la ligne `Constant` représente l'ordonnée à l'origine $\alpha_0$, et le coefficient associé à `inflation_mean` représente la pente de régression $\beta$. Dans le modèle Between, on observe que les pays qui sont structurellement plus inflationniste tendent à avoir davantage de chômage. 

Ce type de modèle est en revanche davantage descriptif que causal, et vise en général plutôt à étudier des caractéristiques invariables dans le temps. 


# Les modèles Pooled

Les modèles Pooled vont considérer toutes les observations du panel comme si elles venaient d'un seul individu. On suppose donc implicitement que pour tous les individus, $Y$ et $X$ ont la même relation et qu'il n'y a pas d'hétérogénéité structurelle propre à chaque individu.

En effectuant des modèles de régression spécifiques à chaque individus, de sorte à avoir une ordonnée à l'origine et une pente de régression différente pour chaque individu $i$ :
$$
Y_{i,t} = \alpha + \beta X_{i,t} + \varepsilon_{i,t} 
$$

On peut le visualiser en faisant un graphique représentant la relation inflation-chômage pour chaque individu :

```{r, message=FALSE, warning=FALSE}
ggplot(data_panel, aes(x = inflation, y = unemp)) +
  geom_point(alpha = 0.2) +
  geom_smooth(method = "lm", se = FALSE) +
  labs(x = "Inflation",
       y = "Chômage",
       title = "Pooled model") +
  theme_minimal()
```


```{r, warning=FALSE, message=FALSE}
reg_pooled <- feols(unemp ~ inflation, data = data_panel)
etable(reg_between, reg_pooled, 
       headers =c("Between", "Pooled"), 
       dict= c("unemp_mean"="unemp", 
               "inflation_mean"="inflation")
       )
```
Le modèle Pooled OLS mélange l'analyse **entre** pays et **dans** les pays. On voit qu'avec l'apport de la dimension temporelle par rapport au modèle Between, le coefficient qui mesure l'impact de l'inflation sur le taux de chômage est désormais négatif, et significatif à 1%. 

Cependant, si l'hétérogénéité entre les pays est trop forte (si les institutions sont très différentes par exemple), l'estimation avec Pooled OLS devient biaisée, et il faut plutôt utiliser des modèles à effets fixes qui prend réellement en compte la structure de panel des données.


# Les modèles Within
Les modèles within, ou modèles à effets fixes, sont plus utiles pour étudier des relations causales entre des variables dynamiques. Plutôt que de s'intéresser aux différences entre pays - ce que fait le modèle Between - le modèle Within va examiner la relation entre $Y$ et $X$ à l'intérieur de chaque pays (***within each country***). 

Pour cela, on va appliquer à chaque individu la transformation within aux variables, en mesurant l'écart entre chaque observation avec la moyenne, et en ajoutant une variable $\alpha_i$ - appelée effet fixe individuel - qui prend la forme d'une dummy spécifique à chaque individu, qui capte les différences d'ordonnées à l'origine entre chaque individus.

$$
 Y_{i,t} = \alpha_i + \beta  X_{i,t} + \varepsilon_{i,t}
$$

Ici, $\alpha_i$ représente l'hétérogénéité inobservée propre à l'individu $i$ (culture, institutions, structure économique, ...), tandis que $u_{i,t}$ représente les chocs idiosyncratiques comme en séries temporelles.  $\alpha_i$ est **constant dans le temps** pour un individu, mais il est différent **entre** les individus. Egalement, il peut être corrélé avec les variables explicatives $X_{i,t}$.

On calcule la moyenne temporelle pour chaque pays :

$$
\bar Y_i = \frac{1}{T}\sum_t Y_{it}, \quad
\bar X_i = \frac{1}{T}\sum_t X_{it}, \quad
\bar \varepsilon_i = \frac{1}{T}\sum_t \varepsilon_{it}
$$

En réécrivant le modèle avec les moyennes, on a :

$$
\bar Y_i = \alpha_i + \beta \bar X_i + \bar \varepsilon_i
$$

On soustrait cette équation à l’équation originale :


\begin{align}
Y_{it} - \bar Y_i &= (\alpha_i + \beta X_{it} + \varepsilon_{it}) - (\alpha_i + \beta \bar X_i + \bar \varepsilon_i) \\
&= \beta (X_{it} - \bar X_i) + (\varepsilon_{it} - \bar \varepsilon_i).
\end{align}


On obtient alors :

$$
\tilde Y_{it} = \beta \tilde X_{it} + \tilde \varepsilon_{it}
$$
où les tildes ($\tilde y_{it}$, $\tilde x_{it}$, $\tilde \varepsilon_{it}$ ) désignent les variables 'centrées' par individu. On peut alors effectivement estimer $\beta$ par une régression OLS classique sur les variables transformées : c'est **l'estimateur within**. 

En étudiant uniquement les différences à la moyenne, la transformation within élimine l'hétérogénéité structurelle entre les individus, et les observations deviennent donc les variations dans les individus au cours du temps.

Visuellement, la méthode within permet de mesure l'impact global d'une variation de $X$ sur la variable $Y$ pour plusieurs individus, dans le temps.

```{r, message=FALSE, warning=FALSE}
within_df <- data_panel %>%
  group_by(country) %>%
  mutate(
    unemp_within = unemp - mean(unemp, na.rm = TRUE),
    infl_within  = inflation - mean(inflation, na.rm = TRUE)
  )

ggplot(within_df, aes(x = infl_within, y = unemp_within)) +
  geom_point(alpha = 0.2) +
  geom_smooth(method = "lm", se = FALSE) +
  labs(x = "Inflation centrée par pays (within)",
       y = "Chômage centré par pays (within)",
       title = "Relation within") +
  theme_minimal()
```


On peut alors estimer le modèle suivant :
$$
Y_{it} = \alpha_i + \beta X_{it} + \varepsilon_{it}
$$
En prenant en compte l'hétérogénéité entre pays avec $\alpha_i$, le coefficient $\beta$ représente désormais l'effet de $X_{i,t}$ sur $Y_{i,t}$ au sein d'un même pays.

On peut estimer l'impact du taux d'inflation sur le taux de chômage avec un modèle within, en ajoutant des effets fixes (on compare également avec le modèle Pooled) :
```{r,warning=FALSE, message=FALSE}
reg_fe_i <- feols(unemp ~ inflation | country, data = data_panel)
etable(reg_between, reg_pooled,  reg_fe_i,
       headers =c("Between", "Pooled", "Within"), 
       dict= c("unemp_mean"="unemp", 
               "inflation_mean"="inflation"), 
       vcov="iid")
```
Dans le modèle à effets fixes individuels (`Within`), le coefficient $\beta$ mesure comment le chômage varie quand l'inflation augmente dans un même pays au cours du temps, après avoir retiré les différences structurelles entre pays (les effets fixes individuels).
 
On voit également que dans le modèle à effets fixes, il n'y a pas de coefficient associé à `Constant`, car il y a une constante pour chaque individu qui est captée par les effets fixes individuels. On peut cependant récupérer les effets fixes pays, et faire un graphique pour voir l'hétérogénéité :

```{r}
fe_country <- fixef(reg_fe_i)

fe_df <- data.frame(
  country   = names(fe_country$country),
  alpha_hat = as.numeric(fe_country$country)
)

ggplot(fe_df, aes(x = reorder(country, alpha_hat), y = alpha_hat)) +
  geom_point() +
  geom_hline(yintercept = 0, linetype = "dashed") +
  coord_flip() +
  labs(x = "Pays", y = "Effet fixe estimé (α_i)",
       title = "Effets fixes pays") +
  theme_minimal()




```

On peut également vérifier la significativité globale des $\alpha_i$ afin de regarder s'il existe de l'hétérogénéité individuelle qui doit être prise en compte par le modèle. Autrement dit, si tous les effets individuels sont significatifs, alors on confirme que le modèle Pooled n'est pas approprié, et on préfera plutôt utilise des modèles à effets fixes ou effets aléatoires.
```{r}
mod_fe <- plm(unemp ~ inflation, model="within", data_panel)
mod_pooled <-  plm(unemp ~ inflation, model="pooling", data=data_panel)

pFtest(mod_fe, mod_pooled)

```
L'hypothèse nulle de ce test est que tous les $\alpha_i$ sont égaux, et qu'il n'y a donc pas besoin d'effets fixes. L'hypothèse alternative est qu'au moins un $\alpha_i$ diffère, donc il y a besoin d'utiliser des effets fixes.

En l'occurrence ici, la p-value est significative, ce qui indique qu'on a besoin d'utiliser des effets fixes individuels plutôt qu'un pooled model.





# Effets aléatoire 
Comme on a vu dans la partie sur les modèles à effets fixes, dans les données de panel chaque individu (pays, entreprise, ménage…) possède des caractéristiques propres et inobservables : institutions, préférences culturelles, productivité, compétitivité, etc.

Ces caractéristiques sont représentées par un terme individuel $\alpha_i$, qui déplace vers le haut ou vers le bas la variable que l’on veut expliquer (ex : chômage structurel, productivité structurelle, risque pays…). Dans les modèles à effets fixes, on suppose que ce caractéristiques inobservables sont corrélées aux variables explicatives. Cependant, dans le cas où ces caractéristiques ne sont pas corrélées aux variables explicatives
$$
Cov(X_{i,t}, \alpha_i)=0
$$
les effets fixes sont toujours corrects, mais perdent en efficacité. Dans ce cas précis, l'utilisation d'effets aléatoires fournit une estimation plus précise des coefficients, en réduisant la variance des résidus. Une autre conséquence des effets fixes est qu'il est impossible d'ajouter des variables constantes, spécifiques à chaque individu, en même temps que des effets fixes individuels. Dans le cas des effets aléatoires, il est possible d'ajouter ces variables si elles nous intéressent. 

Formellement, les modèles à effets aléatoires peuvent être écrits :
$$
 Y_{i,t} = \alpha + \alpha_i + \beta X_{i,t} + \varepsilon_{i,t}\\  \alpha_i \sim iid(0,\sigma^2_\alpha) \\
 Cov(\alpha_i, X_{i,t})=0
$$
*Note : L'estimation des modèles à effets aléatoires repose sur les modèles GLS (Generalized Least Squares).* 

```{r}
reg_random <- plm(unemp ~ inflation, data=data_panel, model="random")
summary(reg_random)
```





# Effets fixes ou effets aléatoires ? 
Le test d'Hausman est un test de spécification qui permet de déterminer si les effets fixes sont corrélés avec les variables explicatives. L'idée générale, comme précisé dans la partie sur les modèles à effets aléatoires, est que si $(\alpha_i)$ est **indépendant** de $(X_{it})$, alors FE et RE sont tous les deux consistants, mais RE est plus précis. Si $(\alpha_i)$ est **corrélé** à $(X_{it})$, alors seul FE est consistant.

Le test d'Hausman a pour hypothèse nulle l'indépendence des effets fixes avec les variables explicatives. Si la p-value est significative, on rejette alors cette hypothèse nulle et on confirme qu'il faut utiliser des effets fixes.

En pratique :

```{r, warning=FALSE, message=FALSE}
require(plm)
fe_model <- plm(unemp ~ inflation , data=data_panel, model="within") # modèle à effets fixes
re_model <- plm(unemp ~ inflation , data=data_panel, model="random") # modèle à effets individuels

phtest(fe_model, re_model)
```
*Note : la fonction `plm()` est très utile pour faire des modèles de panel, et peut être utilisée à la place de `feols()` pour faire des régressions en panel. En revanche, si vous avez des estimations à effets fixes, utilisez plutôt feols(). Dans la majorité des cas, les études en panel sont effectuées avec des modèles de panel à effets fixes, et le choix de ces effets fixes (individuel et/ou temporel) repose sur les données et la question de recherche.*

Dans le cas présent, la p-value n'est pas significative ce qui montre que le modèle à effets aléatoires n'est pas biaisé, et il faut privilégier ce modèle dans les estimations. En revanche, le modèle à effets fixes est toujours correct, il est moins efficace que le modèle à effets aléatoires dans certains cas.





# Modèles à effets fixes temporels et individuels
On peut également, de la même façon qu'on peut contrôler l'influence de variables inobservées propres à chaque individu et qui ne changent pas dans le temps avec les effets fixes individuels, contrôler l'influence de variables qui affectent **tous les individus** et qui varient dans le temps (par exemple, des chocs globaux). Pour cela, on a recours à des **effets fixes temporels** $\delta_t$, qui prennent la forme de dummies spécifique à une date en particulier, commune à tous les individus :

$$
Y_{it} = \alpha_i + \delta_t+ \beta X_{it} + \varepsilon_{it}
$$

```{r, warning=FALSE, message=FALSE}
reg_fe_it <- feols(unemp ~ inflation | country + year, data = data_panel)

etable(reg_pooled, reg_fe_i, reg_fe_it,
       headers = c("Pooled OLS", "FE pays", "FE pays + année"))
```

Egalement, les effets fixes temporels vont prendre la forme d'une dummy spécifique à chaque date, ce qui prend en compte les variables inobservées communes à tous les individus, **y compris les tendances et l'influence du temps**. C'est la raison pour laquelle, en panel avec des effets fixes temporels, la stationnarité pose moins problème qu'en séries temporelles.


# Ecarts-types robustes.
Vous pouvez voir dans le résultat une ligne `S.E. type`. Lorsqu'on fait des régressions - y compris en séries temporelles - les erreurs (et la variance des erreurs) sont supposées constantes entre tous les individus (hypothèse d'homoscédasticité des résidus). Dans la réalité, c'est rarement le cas. L'effet direct de l'hétéroscédasticité est qu'il va augmenter l'écart-type associé aux coefficients de régression (donc augmenter l'incertitude dans l'inférence causale).

Il existe cependant une solution relativement simple, qui vise à estimer les écarts-types d'une autre manière que la méthode traditionnelle qui correspond aux modèles OLS qui respectent ces hypothèses. La méthode la plus répandue est d'utiliser des écarts-types robustes à l'hétéroscédasticité à la White (1980). 

Dans d'autes situations, certains phénomènes n'affectent pas toutes les observations, mais peut-être seulement certains groupes d'individus. Cela peut obliger à utiliser les écarts-types de différentes façons : par individu, par date, par individu-date, etc... Lorsqu'on a des données microéconomiques suffisamment désagrégées, peut également clusteriser par certains groupes d'individus (type de firmes par exemple), localisation géographique (départements), etc...   



```{r}
reg_fe_it <- feols(unemp ~ inflation | country + year, data = data_panel)

etable(
  reg_fe_it, reg_fe_it,reg_fe_it,
  vcov = list(~country, ~country + year, "HC1"),
  headers = c("cluster pays", "cluster pays+année", "HC1")
)

```
Ici on voit que la seule différence entre les deux modèles est l'écart-type associé au coefficient de l'inflation. 



# Modèles de panel dynamique et GMM 
Dans certains cas, on peut souhaiter estimer des modèles qui prennent en compte la dynamique d'une série. Par exemple, si la variable $Y_{i,t}$ est impactée par ses valeurs passées, on peut vouloir estimer le modèle suivant :

$$
Y_{i,t} = \alpha_i + \alpha_t + \beta_1 Y_{i,t-1} + \beta_2 X_{i,t} + \varepsilon_{i,t}
$$
Ici, $\beta_1$ va mesurer l'impact du lag de la variable endogène sur la variable endogène elle-même, afin de prendre en compte l'autocorrélation de la série. 

Cependant, les modèles dynamique ne respectent pas la condition de stricte exogénéité des variables explicatives, ce qui pose problème sur l'estimation économétrique. Ces problèmes sont en général gérés par les modèles GMM.

L'idée des GMM (Arellano-Bond) est de transformer l'équation en différences premières, d'utiliser les lags de $Y_t$ comme des instruments afin de retrouver la causalité entre $X_t$ et $Y_t$. 






