Considérons un modèle de régression :
\(Y= X\beta + \epsilon\)
ou \(Y\) est un vecteur de taille \(n\),
\(X\) est une matrice de taille \(n \times p\) composé des prédicteurs \(X_1,\dots, X_p\) (\(X_1\) étant un vecteur de \(1\) pour l’intercept),
\(\beta\) est un vecteur de taille \(p\) (le premier élément de \(\beta\) correspond à l’intercept),
et \(\epsilon \sim \mathcal{N}(0,\sigma^2 I)\) est un vecteur de taille \(n\).
| Y | X1 | X2 |
|---|---|---|
| 0.892 | -0.626 | 0.409 |
| 2.733 | 0.184 | 1.689 |
| -0.090 | -0.836 | 1.587 |
| 0.719 | 1.595 | -0.331 |
| -5.198 | 0.330 | -2.285 |
| 5.306 | -0.820 | 2.498 |
| 0.173 | 0.487 | 0.667 |
| 3.439 | 0.738 | 0.541 |
| 1.475 | 0.576 | -0.013 |
| 1.756 | -0.305 | 0.510 |
Un scatterplot représente chaque individu (ligne de la base de données) par un point. Les axes orthonormées permettent de lire la valeur que prenne les variables.
En se représentant la base de données comme une matrice, il est possible d’en prendre la transposée.
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | |
|---|---|---|---|---|---|---|---|
| Y | 0.892 | 2.733 | -0.090 | 0.719 | -5.198 | 5.306 | 0.173 |
| X1 | -0.626 | 0.184 | -0.836 | 1.595 | 0.330 | -0.820 | 0.487 |
| X2 | 0.409 | 1.689 | 1.587 | -0.331 | -2.285 | 2.498 | 0.667 |
En construisant le scatterplot de cette base de données transposées, les points représentent les variables et les axes les individus.
Comme il n’est pas possible de représenter plus de 3 variables dans un scatterplot, il n’est possible de représenter que 3 individus.
You must enable Javascript to view this page properly.
La totalité de la base de données serait représentée par \(p+1\) points (\(p-1\) régresseurs + \(1\) intercept + \(1\) VD ) dans un espace à \(n\) dimension.
L’intercept serait représenter par le point \((1,\dots, 1)\). Cependant, dans les exemples suivant, ce point sera homi et on considera un regression sans estimation de l’intercept.
Dans cet type de graphique, on préfère représenter les variables par des vecteurs.
You must enable Javascript to view this page properly.
You must enable Javascript to view this page properly.
Le sous-espace engendrée par les vecteurs \(X=X_1,\dots,X_p\) est l’ensemble des combinaisons linéaires de \(X\tilde{\beta}\).
You must enable Javascript to view this page properly.
La sommes des carrées d’un vecteur représente le carré de sa longueur.
L’estimation des moindres carrés (OLS) minimise la somme des carrées des résidus. Géométriquement, il s’agit donc de trouver \(\hat{\beta}\) tel que le vecteur \(Y-\hat{Y}=Y-X\hat\beta\) a une longueur minimum. \(\hat{Y}=X\hat{\beta}\) se situe dans le sous-espace engendré par \(X\) (ici un plan). Et la somme des carrés des résidus est la distance entre \(Y\) et la solution \(Y\hat{\beta}\), un point du plan.
La solution se trouve donc à l’endroit ou cette distance est la plus faible. Et il s’agit de la projection orthogonale de \(Y\) sur le sous-espace engendré par \(X\).
Cela se formalise par une matrice \(H\) qui permet d’obtenir une projection orthogonale de tout vecteur \(Y\) sur \(X\). Cette matrice est nommé matrice “hat” et s’écrit \(H=X(X^\top X)^{-1}X^\top\). La prédiction est donc \(\hat{Y} = HY=X(X^\top X)^{-1}X^{\top}Y=X\hat{\beta}_{OLS}\) ou \(\hat{\beta}_{OLS}=(X^\top X)^{-1}X^{\top}Y\).
Les résidus peuvent aussi se calculer grâce à un matrice \(R\), tel que \(Y-X\hat{\beta}=Y-HY=(I-H)Y=RY\).
You must enable Javascript to view this page properly.
Dans un modèle de régression ou l’on veut estimer \(Y\) en fonction de \(X_1\) et de \(X_2\), un test F compare 2 modèles.
Pour tester \(H_0 : \beta_1=0\), ou \(\beta_1\) est le paramètre accocié à \(X_1\), on compare un “grand” modèle avec \(X_1\) et \(X_2\) comme régresseurs et un “petit” modèle avec seulement \(X_2\) comme régresseur. La statistique de test est :
\[F=\frac{RSS_{\textrm{petit}}-RSS_{\textrm{grand}}}{RSS_{\textrm{grand}}}\frac{n-p}{p-q}\]
You must enable Javascript to view this page properly.
La statistique F correspond donc au rapport des carrées des longueurs des ségments \(\textrm{Numer.}\) et \(\textrm{RY}\). Soit le carré de la tangente de l’angle entre les vecteurs \(\textrm{RY}\) et \(\textrm{R2Y}\).