EDP (Grunfeld)

La base de données “Grunfeld” est un ensemble de données classique en économétrie des données de panel, disponible dans le package AER. Dans cet exemple, nous allons utiliser une régression simple de données de panel avec l’investissement comme variable dépendante et le capital et le travail comme variables indépendantes.

Base de données “Grunfeld”

# install.packages("AER")
library(AER)

data("Grunfeld")
head(Grunfeld)

##   invest  value capital           firm year
## 1  317.6 3078.5     2.8 General Motors 1935
## 2  391.8 4661.7    52.6 General Motors 1936
## 3  410.6 5387.1   156.9 General Motors 1937
## 4  257.7 2792.2   209.2 General Motors 1938
## 5  330.8 4313.2   203.4 General Motors 1939
## 6  461.2 4643.9   207.2 General Motors 1940

Maintenant, effectuons une régression de données de panel en utilisant la fonction plm du package plm. Dans cette régression, nous allons considérer l’investissement comme la variable dépendante et le capital et le travail comme variables indépendantes :

library(plm)

# Créer un objet plm
panel_data <- pdata.frame(Grunfeld, index = c("firm", "year"))

# Régression de données de panel
model <- plm(invest ~ value + capital, data = panel_data, model = "pooling")

# Résumé du modèle
summary(model)

## Pooling Model
## 
## Call:
## plm(formula = invest ~ value + capital, data = panel_data, model = "pooling")
## 
## Balanced Panel: n = 11, T = 20, N = 220
## 
## Residuals:
##     Min.  1st Qu.   Median  3rd Qu.     Max. 
## -290.331  -25.762   11.059   29.741  377.936 
## 
## Coefficients:
##                Estimate  Std. Error t-value  Pr(>|t|)    
## (Intercept) -38.4100540   8.4133709 -4.5654  8.35e-06 ***
## value         0.1145344   0.0055188 20.7534 < 2.2e-16 ***
## capital       0.2275141   0.0242283  9.3904 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Total Sum of Squares:    9712000
## Residual Sum of Squares: 1768700
## R-Squared:      0.81789
## Adj. R-Squared: 0.81621
## F-statistic: 487.284 on 2 and 217 DF, p-value: < 2.22e-16

Interprétations :

Balanced Panel :

n = 11 : Cela signifie qu’il y a 11 entreprises différentes dans votre échantillon. T = 20 : Cela signifie qu’il y a 20 périodes de temps différentes dans votre échantillon. N = 220 : Il y a un total de 220 observations dans votre échantillon, ce qui signifie qu’il y a 220 lignes de données.

Residuals (Résidus):

Min. (Minimum) : -290.331 1st Qu. (1er Quartile) : -25.762 Median (Médiane) : 11.059 3rd Qu. (3e Quartile) : 29.741 Max. (Maximum) : 377.936 Ces statistiques résiduelles indiquent la distribution des résidus de votre modèle. La médiane à 11.059 signifie que la médiane des résidus est légèrement positive, indiquant que, en moyenne, le modèle sous-estime légèrement les valeurs observées.

Coefficients :

(Intercept) (Interception) : -38.4100540
value (valeur) : 0.1145344
capital (capital) : 0.2275141 Ces coefficients indiquent l’effet de chaque variable indépendante sur la variable dépendante (investissement). Par exemple, le coefficient de “value” est de 0.1145344, ce qui signifie que, toutes choses étant égales par ailleurs, une augmentation d’une unité dans la variable “value” est associée à une augmentation d’environ 0.1145 unité dans l’investissement.

Signif. codes (Codes de Signification) :

*** : p-value < 0.001 ** : p-value < 0.01 : p-value < 0.05 . : p-value < 0.1 ” ” : p-value >= 0.1

Ces codes de signification indiquent la significativité statistique des coefficients. Par exemple, les coefficients de “value” et “capital” sont marqués avec “***“, ce qui signifie que ces coefficients sont hautement significatifs (p-value très faible).

R-Squared (R-carré) : 0.81789

L’R-carré mesure la proportion de la variance totale de la variable dépendante qui est expliquée par le modèle. Dans ce cas, environ 81,79 % de la variance de l’investissement est expliquée par les variables “value” et “capital”.

Adj. R-Squared (R-carré ajusté) : 0.81621

Le R-carré ajusté tient compte du nombre de variables dans le modèle et pénalise les modèles avec un grand nombre de variables. Il est légèrement inférieur à l’R-carré brut.

F-statistic (Statistique F) : 487.284

La statistique F teste l’hypothèse nulle que tous les coefficients de régression sont égaux à zéro (c’est-à-dire que le modèle est sans valeur). Avec une statistique F élevée comme celle-ci, nous rejetons l’hypothèse nulle, ce qui signifie que le modèle est globalement significatif.

p-value (p-valeur) : < 2.22e-16

La p-valeur associée à la statistique F est très faible, ce qui indique que le modèle est statistiquement significatif.

En conclusion, notre modèle de régression de données de panel “pooling” semble être statistiquement significatif, avec des coefficients significatifs pour “value” et “capital”. Le modèle explique environ 81,79 % de la variance de l’investissement.

Nuage de points :

Représentation graphique de la variable dépendante :

# Graphique de la variable dépendante (Investissement)
library(ggplot2)
ggplot(Grunfeld, aes(x = year, y = invest, group = firm, color = firm)) +
  geom_line() +
  labs(title = "Investissement par Année pour Chaque Entreprise",
       x = "Année",
       y = "Investissement")

Distribution des Résidus :

residuals <- resid(model)
ggplot() +
  geom_histogram(aes(x = residuals), bins = 30, fill = "blue", alpha = 0.7) +
  labs(title = "Distribution des Résidus",
       x = "Résidus",
       y = "Fréquence")