Réalisé par
La SG-SERVICE
Date :
01 juin 2025
Le modèle Tobit généralisé ou Type II Tobit, également appelé modèle Heckit est :
Le modèle Heckit se compose de deux équations :
Probit prédisant la non-réponse (équation de participation ou de sélection) :
\[ y_{1i} = \begin{cases} 1, & \text{si } y_{1i}^* > 0 \\ 0, & \text{sinon} \end{cases} \quad \Rightarrow \quad y_{1i}^* = \mathbf{z}\boldsymbol{\gamma} + v \tag{1} \]
Linéaire sur le sous-échantillon des données disponibles (équation d’intérêt) :
\[ y_{2i} = \begin{cases} y_{2i}^*, & \text{si } y_{1i}^* > 0 \\ -, & \text{sinon} \end{cases} \quad \Rightarrow \quad y_{2i}^* = \mathbf{x}\boldsymbol{\beta} + u \tag{2} \]
→ Restriction d’exclusion :
→ Les hypothèses sur la distribution des termes d’erreurs :
→ Suite : Les hypothèses sur la distribution des termes d’erreurs
\[ \begin{bmatrix} y_{1i}^* \\ y_{2i}^* \end{bmatrix} = \begin{bmatrix} \gamma z_i \\ \beta x_i \end{bmatrix} + \begin{bmatrix} v_i \\ u_i \end{bmatrix} ; \quad \begin{bmatrix} v_i \\ u_i \end{bmatrix} \sim \mathcal{N}\left( \begin{bmatrix} 0 \\ 0 \end{bmatrix}, \begin{bmatrix} 1 & \rho_{vu} \\ \rho_{vu} & \sigma_u^2 \end{bmatrix} \right) \]
où le zéro désigne la moyenne de deux termes d’erreur ; \(v \sim \mathcal{N}(0,1)\) ; \(u \sim \mathcal{N}(0, \sigma_u)\) et \(\rho_{vu}\) est le coefficient de corrélation entre les deux termes d’erreur.
L’espérance conditionnelle de l’équation d’outcome (2) est donnée par :
\[ \mathbb{E}(y_2 \mid y_1^* > 0) = \mathbb{E}(y_2 \mid v > - z\gamma) = \mathbb{E}(x\beta + u \mid v > - z\gamma) \]
\[ = x\beta + \mathbb{E}(u \mid v > - z\gamma) = x\beta + \rho_{vu} \sigma_u \lambda(w_v) \]
\[ \mathbb{E}(y_2 \mid y_1^* > 0) = x\beta + \sigma_{vu} \lambda(w_v) \]
\[ \text{où } \sigma_{vu} = \rho_{vu} \sigma_u, \quad \rho_{vu} = \frac{\sigma_{vu}}{\sigma_v \sigma_u}, \quad \lambda(w_v) = \frac{\varphi(z\gamma)}{\Phi(z\gamma)} \]
avec \(\varphi\) la densité et \(\Phi\) la fonction de répartition de la loi normale standard.
\[ \mathbb{E}(y_2 \mid y_1^* > 0) = \mathbf{x} \boldsymbol{\beta} + \underbrace{\sigma_{vu}}_{\rho_{vu} \sigma_v \sigma_u = \rho_{vu} \sigma_u} \lambda(w_v) \tag{3} \]
Heckman a montré que le biais de sélection d’échantillon peut être considéré comme un biais de variable omise, où la variable omise est λ(·).
\[ \mathbb{E}(y_2 \mid y_1^* > 0) = \mathbf{x} \boldsymbol{\beta} + \sigma_{vu} \lambda(w_v) \tag{4} \]
Modèle Tobit
généralisé
→ Package nécessaire :
install.packages("sampleSelection") # Installer au besoin
library(sampleSelection) # Charger les packages→ Préparer les données :
data("Mroz87",package="sampleSelection") # Charger la base
# Affichage des données du jeu de données
kable(Mroz87[1:8, 1:5]) | lfp | hours | kids5 | kids618 | age |
|---|---|---|---|---|
| 1 | 1610 | 1 | 0 | 32 |
| 1 | 1656 | 0 | 2 | 30 |
| 1 | 1980 | 1 | 3 | 35 |
| 1 | 456 | 0 | 3 | 34 |
| 1 | 1568 | 1 | 2 | 31 |
| 1 | 2032 | 0 | 0 | 54 |
| 1 | 1440 | 0 | 2 | 37 |
| 1 | 1020 | 0 | 0 | 54 |
→ Ajustement du modèle Tobit généralisé :
# Création de la variable
Mroz87$expersq <- Mroz87$exper^2
# Modèle de Heckman : sélection = lfp, outcome = wage
model_heckman <- selection(
selection = lfp ~ age + educ + kids5 + kids618 + huswage,
outcome = wage ~ educ + exper + expersq,
data = Mroz87,
method = "2step")
# Affihage des résultats
summary(model_heckman)## --------------------------------------------
## Tobit 2 model (sample selection model)
## 2-step Heckman / heckit estimation
## 753 observations (325 censored and 428 observed)
## 13 free parameters (df = 741)
## Probit selection equation:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.582748 0.468543 1.244 0.213986
## age -0.037070 0.007514 -4.933 9.99e-07 ***
## educ 0.144492 0.023520 6.143 1.32e-09 ***
## kids5 -0.890015 0.113394 -7.849 1.47e-14 ***
## kids618 -0.053683 0.040190 -1.336 0.182050
## huswage -0.041469 0.012389 -3.347 0.000857 ***
## Outcome equation:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.9122739 1.3441735 -2.911 0.00372 **
## educ 0.5568889 0.0785780 7.087 3.19e-12 ***
## exper 0.0447469 0.0612940 0.730 0.46560
## expersq -0.0006785 0.0018326 -0.370 0.71130
## Multiple R-Squared:0.1252, Adjusted R-Squared:0.1169
## Error terms:
## Estimate Std. Error t value Pr(>|t|)
## invMillsRatio 1.0076 0.6829 1.475 0.141
## sigma 3.1801 NA NA NA
## rho 0.3168 NA NA NA
## --------------------------------------------
→ Les résultats du modèle Tobit généralisé en image :
→ Interprétation des résultats du modèle Heckit :
Équation de sélection (probit) : elle modélise la
probabilité que la femme participe au marché du travail (lfp =
1) en fonction de caractéristiques personnelles et familiales :
age) : coefficient négatif
significatif (p < 0.001) ⇒ Les femmes plus âgées sont
moins susceptibles de participer au marché du travail.
educ) : coefficient positif
significatif (p < 0.001) ⇒ Les femmes plus éduquées sont
plus susceptibles de travailler.
kids5) : effet
très négatif et significatif (p < 0.001) ⇒ Avoir de jeunes
enfants réduit fortement la probabilité de travailler.
kids618) : non
significatif (p = 0.18) ⇒ Pas d’effet significatif.
huswage) : coefficient
négatif significatif (t = -3.35, p < 0.001) ⇒ Un revenu plus
élevé du mari réduit la probabilité que la femme
travaille.
lfp = 1).
educ) : effet positif
et significatif (p < 0.001) ⇒ Un niveau d’éducation
plus élevé est associé à un meilleur salaire.
exper) : effet non
significatif (p = 0.465) ⇒ Pas d’effet significatif.
expersq) :
également non significatif (p = 0.711) ⇒ Pas d’évidence de
rendement croissant ou décroissant.