Introduction

Considérons un modèle de régression :

\(Y= X\beta + \epsilon\)

ou \(Y\) est un vecteur de taille \(n\),

\(X\) est une matrice de taille \(n \times p\) composé des prédicteurs \(X_1,\dots, X_p\) (\(X_1\) étant un vecteur de \(1\) pour l’intercept),

\(\beta\) est un vecteur de taille \(p\) (le premier élément de \(\beta\) correspond à l’intercept),

et \(\epsilon \sim \mathcal{N}(0,\sigma^2 I)\) est un vecteur de taille \(n\).

Un exemple de base de données

Y X1 X2
0.892 -0.626 0.409
2.733 0.184 1.689
-0.090 -0.836 1.587
0.719 1.595 -0.331
-5.198 0.330 -2.285
5.306 -0.820 2.498
0.173 0.487 0.667
3.439 0.738 0.541
1.475 0.576 -0.013
1.756 -0.305 0.510

Représentation graphique : scatterplot

Un scatterplot représente chaque individu (ligne de la base de données) par un point. Les axes orthonormées permettent de lire la valeur que prenne les variables.

Base de données transformées

En se représentant la base de données comme une matrice, il est possible d’en prendre la transposée.

1 2 3 4 5 6 7
Y 0.892 2.733 -0.090 0.719 -5.198 5.306 0.173
X1 -0.626 0.184 -0.836 1.595 0.330 -0.820 0.487
X2 0.409 1.689 1.587 -0.331 -2.285 2.498 0.667

Représentation graphique : par variables

En construisant le scatterplot de cette base de données transposées, les points représentent les variables et les axes les individus.

Comme il n’est pas possible de représenter plus de 3 variables dans un scatterplot, il n’est possible de représenter que 3 individus.

unnamed_chunk_4snapshot
You must enable Javascript to view this page properly.

La totalité de la base de données serait représentée par \(p+1\) points (\(p-1\) régresseurs + \(1\) intercept + \(1\) VD ) dans un espace à \(n\) dimension.

L’intercept serait représenter par le point \((1,\dots, 1)\). Cependant, dans les exemples suivant, ce point sera homi et on considera un regression sans estimation de l’intercept.

Dans cet type de graphique, on préfère représenter les variables par des vecteurs.

unnamed_chunk_5snapshot
You must enable Javascript to view this page properly.

Représentation graphique de propriétés

Addition

unnamed_chunk_6snapshot
You must enable Javascript to view this page properly.

Le sous-espace engendrée par les vecteurs \(X=X_1,\dots,X_p\) est l’ensemble des combinaisons linéaires de \(X\tilde{\beta}\).

Longueur

unnamed_chunk_7snapshot
You must enable Javascript to view this page properly.

La sommes des carrées d’un vecteur représente le carré de sa longueur.

Retour sur la régression

L’estimation des moindres carrés (OLS) minimise la somme des carrées des résidus. Géométriquement, il s’agit donc de trouver \(\hat{\beta}\) tel que le vecteur \(Y-\hat{Y}=Y-X\hat\beta\) a une longueur minimum. \(\hat{Y}=X\hat{\beta}\) se situe dans le sous-espace engendré par \(X\) (ici un plan). Et la somme des carrés des résidus est la distance entre \(Y\) et la solution \(Y\hat{\beta}\), un point du plan.

La solution se trouve donc à l’endroit ou cette distance est la plus faible. Et il s’agit de la projection orthogonale de \(Y\) sur le sous-espace engendré par \(X\).

Cela se formalise par une matrice \(H\) qui permet d’obtenir une projection orthogonale de tout vecteur \(Y\) sur \(X\). Cette matrice est nommé matrice “hat” et s’écrit \(H=X(X^\top X)^{-1}X^\top\). La prédiction est donc \(\hat{Y} = HY=X(X^\top X)^{-1}X^{\top}Y=X\hat{\beta}_{OLS}\) ou \(\hat{\beta}_{OLS}=(X^\top X)^{-1}X^{\top}Y\).

Les résidus peuvent aussi se calculer grâce à un matrice \(R\), tel que \(Y-X\hat{\beta}=Y-HY=(I-H)Y=RY\).

Projection orthogonale de Y sur X

unnamed_chunk_8snapshot
You must enable Javascript to view this page properly.

Interprétation géométrique de la statistique F

Dans un modèle de régression ou l’on veut estimer \(Y\) en fonction de \(X_1\) et de \(X_2\), un test F compare 2 modèles.

Pour tester \(H_0 : \beta_1=0\), ou \(\beta_1\) est le paramètre accocié à \(X_1\), on compare un “grand” modèle avec \(X_1\) et \(X_2\) comme régresseurs et un “petit” modèle avec seulement \(X_2\) comme régresseur. La statistique de test est :

\[F=\frac{RSS_{\textrm{petit}}-RSS_{\textrm{grand}}}{RSS_{\textrm{grand}}}\frac{n-p}{p-q}\]

unnamed_chunk_9snapshot
You must enable Javascript to view this page properly.

La statistique F correspond donc au rapport des carrées des longueurs des ségments \(\textrm{Numer.}\) et \(\textrm{RY}\). Soit le carré de la tangente de l’angle entre les vecteurs \(\textrm{RY}\) et \(\textrm{R2Y}\).