Chapitre 3 : Annalyse descriptive bivariée

Camille Aït-Youcef

2025-11-11

Introduction

Dans le cadre de ce chapitre, nous nous intéressons à des indicateurs de liaison entre deux variables.

En étudiant simultanément deux variables, nous cherchons à savoir si les caractéristiques prises par les individus sur une variable ont ou non des conséquences sur les valeurs obtenues sur l’autre variable.

Par exemple, le fait pour un ménage d’appartenir à une catégorie socio-professionnelle est-il en rapport avec son lieu d’habitation ?

On utilise alors des indicateurs tels que la covariance et le coefficient de corrélation pour expliquer ces relations.

I - La covariance et le coefficient de corrélation de Pearson

Pearson, un des fondateurs de la statistique moderne, a développé entre autres le coefficient de corrélation, le test du \(\chi^2\) et l’analyse en composantes principales (ACP).

Construction de la covariance :

On peut choisir de centrer les observations dans le but de déplacer G au niveau de l’origine du plan en 2 dimensions.

Cette opération n’a pas d’impact sur le niveau de variabilité ou de dispersion à l’intérieur de chaque variable.

Le point \((z_{ij};z_{il})\) définit les coordonnées d’un individu i sur les variables j et l. Les coordonnées centrées sont : \((z_{ij}-\bar{z}_{j};z_{il}-\bar{z}_{j})\).

3 répartitions de nuage de points possibles dans le plan \((z_j;z_l)\)

Si on multiplie les coordonnées centrées de l’individu i, on obtient : \(a=(z_{ij}-\bar{z}_j)\times(z_{i,l}-\bar{z}_l)\)

Si \(a>0\) :
- Soit les 2 coordonnées sont au dessus de la moyenne de leur variables respectives = les coordonnées sont dans la partie droite haute du plan.
- Soit les 2 coordonnées sont en dessous de leur moyenne respectives, donc les deux coordonnées centrées sont négatives, i se trouve dans la partie gauche basse du plan.
Si \(a<0\) : le produit est négatif, les coordonnées sont de signes opposés et i se situe à gauche dans la partie haute du plan, ou à droite en bas du plan.

La covariance empirique

Elle correspond à la moyenne arithmétique de ces produits appliquées à l’ensemble des individus, autrement dit, à la somme des produits des coordonnées centrées de tous les individus qui composent le nuage de points, \(\div\) par le nombre d’individus.

\[ cov(z_j, z_l) = \frac{1}{N} \sum_{i=1}^N(z_{ij}- \bar{z}_j)\times(z_{il}- \bar{z}_l) \]

Remarque : La formule de la variance correspond à la covariance entre 1 variable et elle-même !

\[ var(x_j) = cov(x_j, x_j) = \frac{1}{N} \sum_{i=1}^N(x_{ij}, \bar{x}_j)\times(x_{ij}, \bar{x}_j) = \frac{1}{N} \sum_{i=1}^N(x_{ij}, \bar{x}_j)^2. \] exemple

On observe deux variables aléatoires \(X\) et \(Y\) sur 3 observations :

\[ X = (2, 5, 7), \quad Y = (1, 3, 9) \]

Calculez les moyennes \(\bar X\) et \(\bar Y\).
Calculez la covariance échantillonnale (dénominateur \(n-1\)) :

\[ \operatorname{Cov}_{n-1}(X,Y)=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar X)(y_i-\bar Y) \]
Calculez la covariance population (dénominateur \(n\)) :

\[ \operatorname{Cov}_{n}(X,Y)=\frac{1}{n}\sum_{i=1}^n (x_i-\bar X)(y_i-\bar Y) \]
Interprétez le signe et l’ordre de grandeur de la covariance.

Remarque : la fonction cov() de R renvoie par défaut la covariance échantillonnale (dénominateur \(n-1\)).
Pour obtenir la version population, multipliez le résultat par \((n-1)/n\).

Correction

Étape 1 : Moyennes

Pour \(X=(2,5,7)\) et \(Y=(1,3,9)\) avec \(n=3\) :

\[ \bar X = \frac{2+5+7}{3} = \frac{14}{3} \approx 4.67, \qquad \bar Y = \frac{1+3+9}{3} = \frac{13}{3} \approx 4.33 \]

Étape 2 : Produits centrés

i	(\(x_i\) - \(\bar X\))	(\(y_i\) - \(\bar Y\))	Produit
1	-2.67	-3.33	8.89
2	0.33	-1.33	-0.44
3	2.33	4.67	10.89

Somme des produits centrés :

\[ \sum (x_i-\bar X)(y_i-\bar Y) = 8.89 - 0.44 + 10.89 = 19.33 \]

Étape 3 : Covariances

Échantillonnale (\(n-1=2\)) :

\[ \operatorname{Cov}_{n-1}(X,Y)=\frac{19.33}{2}\approx 9.67 \]
Population (\(n=3\)) :

\[ \operatorname{Cov}_{n}(X,Y)=\frac{19.33}{3}\approx 6.44 \]

Étape 4 : Interprétation

La covariance est positive, indiquant une co-variation dans le même sens :
quand \(X\) augmente, \(Y\) a tendance à augmenter aussi.

# Données
x <- c(2, 5, 7)
y <- c(1, 3, 9)
n <- length(x)
cov(x,y)

[1] 9.666667

((n-1)/n)*cov(x,y)

[1] 6.444444

Relation forme du nuage de points et coefficient de covariance

Si la plupart des points sont en haut à droite et en bas à gauche, comme pour le cas A de l’illustration \(\Rightarrow\) Cov>0
Si la plupart des points sont en bas à droite et en haut à gauche, comme pour le cas B de l’illustration \(\Rightarrow\) Cov<0
Si les points se répartissent sur l’ensemble des quatre quadrants du plan, dans des proportions à peu près égales \(\Rightarrow\) Cov proche de 0. Autrement dit, les points négatifs compensent les points positifs.

La covariance caractérise le sens dominant de l’eventuelle liaison entre 2 variables quantitatives.

Des variables évoluant dans le même sens \(\Rightarrow\) cov>0.
Des variables évoluant en sens opposé \(\Rightarrow\) cov<0.
Lorsqu’il n’existe aucune direction dominante de la liaison entre les deux variables \(\Rightarrow\) \(cov \approx 0\).

le signe de la covariance

Le niveau de la covariance dépend uniquement du niveau d’échelle puisqu’il s’agit de la \(\sum\) des produits et pas de la force de la relation.

Un chiffre élevé en valeur absolu de la covariance est difficilement interprétable si les 2 variables sont en milliers, voire en millions d’unités.

C’est alors que l’utilisation du coefficient de corrélation est bien utile.

Le coefficient de Pearson

Le coefficient de Pearson permet d’interpréter la valeur du coefficient comme un signal de la force de la relation.

Pour l’obtenir, il suffit de diviser la covariance par le produit des écarts-types des 2 variables.

\[ \begin{aligned} r(j,l) &= \frac{Cov(z_j),z_l}{\sigma_j\times\sigma_l} \\ r(j,l) &= \frac{\frac{1}{N}\sum_{i=1}^N(z_{ij}-\bar{z}_j)(z_{il}-\bar{z}_l)}{\sqrt{\frac{1}{N}}\sqrt{\sum_{i=1}^N(z_{ij}-\bar{z}_j)^2}\times\sqrt{\frac{1}{N}}\sqrt{\sum_{i=1}^N(z_{il}-\bar{z}_l)^2}} \\ r(j,l) &= \frac{\sum_{i=1}^N(z_{ij}-\bar{z}_j)(z_{il}-\bar{z}_l)}{\sqrt{\sum_{i=1}^N(z_{ij}-\bar{z}_j)^2}\times\sqrt{\sum_{i=1}^N(z_{il}-\bar{z}_l)^2}} \end{aligned} \]

Au numérateur, le produit d’écarts positifs et négatifs et au dénominateur que le produit de valeurs positives.

Donc la \(\sum\) du dénominateur est plus grande que celle du numérateur en valeur absolue.

\(-1 \leq r_{jl} \leq 1\)

Ainsi r n’est pas lié à l’échelle des variables j et l et peut être comparé avec un autre coefficient de corrélation calculé sur n’importe quelles autres variables.

Calcul de r à partir de l’exemple précédent

Écarts-types :
sX = 2.52
sY = 4.16

Corrélation non biaisée:
\(r(X,Y) = 9.67 / (2.52 × 4.16) ≈ 0.92\)

Interprétation de r

Si r=1 \(\Rightarrow\) il existe une corrélation linéaire croissante parfaite entre les 2 variables. Plus la valeur de r est proche de 1 et plus la corrélation est fortement positive.
Si r=-1 \(\Rightarrow\) il existe une corrélation décroissante linéaire parfaite entre les 2 variables. Plus la valeur de r est proche de -1 et plus la corrélation est fortement négative.
si r=0 \(\Rightarrow\) les variables ne sont pas corrélées linéairement.
\(-1\leq r \leq 1\), la corrélation est imparfaite.

Hypothèse pour interpréter r :

Les deux variables suivent une loi normale
Il existe eventuellement une relation linéaire entre chacune des 2 variables. C’est à dire que le nuage de point révèle une tendance croissante ou décroissante.
Homoscedasticité : les données sont également réparties autour de la droite de regression. La droite est la plus adaptée pour représenter le nuage de points.

Effet d’une valeur extrême sur r

On commence par un jeu sans valeur extrême, puis on ajoute un outlier et on compare les corrélations.

Le cas sans valeur extrême

En introduisant une valeur extrême parmi les 15 points

Corrélation nulle avec relation en U

Ici, \(y = x^2\) pour \(x = -7, \dots, 7\).

La relation est non linéaire (d’abord décroissante, puis croissante).

II - Le coefficient de corrélation pour une relation non linéaire

1 - Coefficient de corrélation de Spearman

Le coefficient de Spearman mesure la relation monotone entre 2 variables.

C’est le coefficient de Pearson appliqué au rang de 2 des observations de 2 variables et non pas à leurs valeurs.

Le rang est la position de la valeur dans la variable ordonnée d’une façon croissante ou décroissante.

Pour les nombres de même valeur, on prend la \(\sum\) de leur ordre et on la divise par le nombre d’ex-aequo.

Exemple

Une série X prend les valeurs suivantes : (-1, 0, 0, 0.5, 3, 3, 3, 5, 6, 8).

Par ordre croissant	-1	0	0	0.5	3	3	3	5	6	8
n° d’ordre	1	2	3	4	5	6	7	8	9	10
Rang	1	2,5	2,5	4	6	6	6	8	9	10

Le rang 2,5 s’obtient donc de la façon suivante : \(\frac{2+3}{2}\) et le rang 6 : \(\frac{5+6+7}{3} = 6\).

Le rang

Il va nous donner une nouvelle série ordonnée comme la série X mais avec des valeurs remplacées par leur rang.

\[ rang(X) = (1 ; 2,5 ; 2,5 ; 4 ; 6; 6 ; 6 ; 8 ; 9 ; 10) \]

La formul du \(\rho\) de Spearman est :

\[ \rho_{z_j,z_l}=\frac{Cov(rang(z_j),rang(z_l))}{\sigma_{rang(z_j)}\times\sigma_{rang(z_l)}} \]

Remplacer des valeurs par leur rang Cela permet de linéariser une liaison, mais qui doit être monotone, entre 2 variables.

Utilisation de \(\rho\) :

Il est aussi compris entre -1 et car il a la même formule que r.
Il vaut 1 pour une fonction parfaitement monotone croissante et -1 pour une fonction parfaitement décroissante monotone.
Pour des fonction en cloche \(\rho \approx 0\)
Avantage de \(\rho\) : on peut l’appliquer à des données qui ne suivent pas une loi normale car il s’agit d’un test non paramétrique.
Si pour 2 mêmes variables on obtient \(\lvert \rho_{zj,zl} > r_{zj,zl} \lvert\) \(\Rightarrow\) Présence d’une corrélation non linéaire monotone entre les deux variables.
Inconvénient : il ne permet pas d’évaluer l’intensité des relations strictement monotone car \(\rho =-1\) ou \(\rho =1\) dans ces cas.

2 - Coéfficient de Corrélation de rang de Kendall \(\tau\)

\(\tau\) mesure la relation entre 2 variables.

C’est un test non paramétrique.

Les distributions des deux variables n’ont pas besoin de suivre une loi normale.

Pour calculer le coéfficient de rang, il faut ordonner les observations comme pour le coefficient de Spearman.

\(\tau\) est préféré à \(\rho\) si les variables ont peu d’observations et beaucoup d’ex-aequo.

\[ \tau = \frac{C-D}{C+D} \]

Avec C le nombre de paires concordantes et D le nombre de discordances.

Exemple

2 médecins classent 6. patients en fonction de leur niveau de santé.

          Médecin 1 Médecin 2
Patient 1         1         3
Patient 2         2         1
Patient 3         3         4
Patient 4         4         2
Patient 5         5         6
Patient 6         6         5

Pour n = 6 observations, il y a :

\(N = \frac{n(n-1)}{2} = 15 \text{ paires possibles.}\)

On compte :

C : le nombre de paires concordantes
D : le nombre de paires discordantes
et on calcule : \(\tau = \frac{C - D}{N}\)

Une paire (i,j) est :

Concordante si \((z_{1,i} - z_{1,j})(z_{2,i} - z_{2,j}) > 0\)

Discordante si \((z_{1,i} - z_{1,j})(z_{2,i} - z_{2,j}) < 0\)

Comparaison de toutes les paires

   i j delta_z1 delta_z2 produit        Type
1  1 2       -1        2      -2 Discordante
2  1 3       -2       -1       2 Concordante
3  1 4       -3        1      -3 Discordante
4  1 5       -4       -3      12 Concordante
5  1 6       -5       -2      10 Concordante
6  2 3       -1       -3       3 Concordante
7  2 4       -2       -1       2 Concordante
8  2 5       -3       -5      15 Concordante
9  2 6       -4       -4      16 Concordante
10 3 4       -1        2      -2 Discordante
11 3 5       -2       -2       4 Concordante
12 3 6       -3       -1       3 Concordante
13 4 5       -1       -4       4 Concordante
14 4 6       -2       -3       6 Concordante
15 5 6       -1        1      -1 Discordante

  Concordantes Discordantes Total_paires Tau_Kendall
1           11            4           15       0.467

[1] 0.4666667

L’interprétation du coéfficient de Kendall

Elle est la même que celle de Pearson :

Dans quelle direction est la liaison entre 2 variables ? Le coefficient est-il positif ou négatif ?
Quelle est la force de la liaison ?

L’intensité de la relation se mesure par la différence d’ordonnancement des valeurs entre les 2 séries sur l’ensemble des observations.

\(\tau\) mesure l’intensité de la relation entre les deux variables en fonction du nombre d’accord et de désaccord.

Une concordance entre les 2 variables \(z_{j}\) et \(z_l\) apparaît si les valeurs des variables j et l pour l’individu i sont simultanément plus faible que celles prises par l’individu i’ sur ces mêmes variables ou simultanément plus élevées.

\[ (z_{ij} -z_{i',l})\times (z_{il} -z_{i',l}) >0 \]

Une discordance correspond à un ordonnancement dans des sens opposés entre les valeurs obtenues par les individus i et i’ sur les 2 variables.

Lorsque l’ordonnancement des individus est identique pour les 2 variables, il n’y a que des concordances, la corrélation est parfaite et \(\tau=1\).

Quand \(D\approx C\) \(\Rightarrow\) \(\tau=0\).

Exercice

\[ Z = \begin{pmatrix} 3.1101 & 0.8970 \\ 7.0677 & 4.0135 \\ 4.7876 & 3.0307 \\ 4.9309 & 6.0261 \\ 6.0858 & 5.0515 \\ 4.1008 & 2.0949 \end{pmatrix} \]

   i j          delta_z1 delta_z2              prod        Type
1  1 2           -3.9576  -3.1165        12.3338604 Concordante
2  1 3           -1.6775  -2.1337        3.57928175 Concordante
3  1 4           -1.8208  -5.1291        9.33906528 Concordante
4  1 5           -2.9757  -4.1545       12.36254565 Concordante
5  1 6           -0.9907  -1.1979        1.18675953 Concordante
6  2 3            2.2801   0.9828        2.24088228 Concordante
7  2 4            2.1368  -2.0126       -4.30052368 Discordante
8  2 5            0.9819   -1.038        -1.0192122 Discordante
9  2 6            2.9669   1.9186        5.69229434 Concordante
10 3 4           -0.1433  -2.9954        0.42924082 Concordante
11 3 5           -1.2982  -2.0208        2.62340256 Concordante
12 3 6 0.686800000000001   0.9358 0.642707440000001 Concordante
13 4 5           -1.1549   0.9746       -1.12556554 Discordante
14 4 6 0.830100000000001   3.9312        3.26328912 Concordante
15 5 6             1.985   2.9566          5.868851 Concordante

  Concordantes Discordantes Total_paires Tau_Kendall Tau_Kendall_arrondi
1           12            3           15         0.6                 0.6

L’inconvénient du coefficient du Kendall

Le calcul de ce coefficient est sa lourdeur de calcul.

Pour généraliser la procédure, on ordonne les individus de la premières variables de la valeur la plus petite à la valeur la plus grande, ce qui permet de ne calculer que l’ordonnancement pour la deuxième variables car pour la première variable il n’y a que des signes positifs.

Le problème des ex-aequo

Comment obtenir C et D quand certaines valeurs sont identiques ?

Dans ce cas, on modifie la formule du \(\tau\).

Exemple : Deux médecins classent 6 patients selon leur état de santé.

On considère toutes les paires (i,j) avec (i<j) et on détermine si elles sont concordantes, discordantes, ou liées (ex-æquo).

\(\tau_a = \frac{C-D}{N}\)

\(\quad\text{et}\quad\)

\(\tau_b = \frac{C-D}{\sqrt{(C+D+T_x)(C+D+T_y)}}\)

\(T_x\) et \(T_y\) corrigent le dénominateur pour exclure les ex-æquo.
Ainsi, \(τ_b\) reste borné entre [-1, 1] même avec des valeurs identiques.

          z1 z2
Patient 1  1  3
Patient 2  2  1
Patient 3  2  2
Patient 4  3  2
Patient 5  4  4
Patient 6  4  4

   i j delta_z1 delta_z2 produit        Type
1  1 2       -1        2      -2 Discordante
2  1 3       -1        1      -1 Discordante
3  1 4       -2        1      -2 Discordante
4  1 5       -3       -1       3 Concordante
5  1 6       -3       -1       3 Concordante
6  2 3        0       -1       0    Ex-aequo
7  2 4       -1       -1       1 Concordante
8  2 5       -2       -3       6 Concordante
9  2 6       -2       -3       6 Concordante
10 3 4       -1        0       0    Ex-aequo
11 3 5       -2       -2       4 Concordante
12 3 6       -2       -2       4 Concordante
13 4 5       -1       -2       2 Concordante
14 4 6       -1       -2       2 Concordante
15 5 6        0        0       0    Ex-aequo

  Concordantes Discordantes Ties_z1 Ties_z2 Tau_a Tau_b
1            9            3       2       2   0.4 0.429

[1] 0.4615385

III - Les matrices de variance-covariance et de corrélation

1 - La matrice de Variance-Covariance

La matrice de variance-covariance (Cov(Z)), contient toutes les variances et les covariances 2 à 2.

Soit

\[ Z = \begin{bmatrix} Z_{11} & Z_{12} & \dots & Z_{1K} \\ Z_{21} & Z_{22} & \dots & Z_{2K} \\ \vdots & \vdots & \ddots & \vdots \\ Z_{N1} & Z_{N2} & \dots & Z_{NK} \end{bmatrix} \]

On obtient COV(Z), la matrice des variances-covariances grâce au produit matriciel suivant :

\[ COV(Z) = \frac{1}{N-1}(Z-\bar{Z})'(Z-\bar{Z}) \]

Sachant que Z’ = \(Z^t\)

Et avec

\[ \bar{Z} = \begin{bmatrix} \bar{Z_{1}} & \bar{Z_{2}} & \dots & \bar{Z_{K}} \\ \bar{Z_{1}} & \bar{Z_{2}} & \dots & \bar{Z_{K}} \\ \vdots & \vdots & \ddots & \vdots \\ \bar{Z_{1}} & \bar{Z_{2}} & \dots & \bar{Z_{K}} \end{bmatrix} \]

Soir \(\bar{z}\) le vecteur contenant les moyennes des variables et U le vecteur unitaire :

\(U' = (1,1,1,1, ...,1)\), à N dimension.

\[\bar{z} =\frac{1}{N}U'Z = \frac{1}{N}(\sum_{i=1}^NZ_{i,1}, \sum_{i=1}^NZ_{i,2}, ..., \sum_{i=1}^NZ_{i,K}) \]

La matrice COV(Z) résulte du produit de deux matrices de dimention (K,N) et (N,K).

COV(Z) est donc une matrice de dimension (K,K). C’est donc une matrice carrée.

Par la propriété de la commutativité de la multiplication - la valeur du produit est la même quand on multiplie les 2 éléments d’un produit quelque soit l’ordre des éléments - on a :

\[ Cov({z_l};z_j) = \frac{1}{N-1}\sum_{i=1}^N (z_{il}-\bar{z}_{l})(z_{ij}-\bar{z}_{j}) = Cov({z_j};z_l) \]

Expression de Cov(Z)

La matrice de la variance-covariance carré de dim K est donc symétrique par rapport à sa diagonale principale. \[ \Sigma \;=\; \operatorname{Cov}(Z)\;=\; \begin{bmatrix} \operatorname{Var}(Z_1) & \operatorname{Cov}(Z_1,Z_2) & \cdots & \operatorname{Cov}(Z_1,Z_K) \\ \operatorname{Cov}(Z_2,Z_1) & \operatorname{Var}(Z_2) & \cdots & \operatorname{Cov}(Z_2,Z_K) \\ \vdots & \vdots & \ddots & \vdots \\ \operatorname{Cov}(Z_K,Z_1) & \operatorname{Cov}(Z_K,Z_2) & \cdots & \operatorname{Var}(Z_K) \end{bmatrix}, \]

Propriétés de COV(Z):

Si les variables sont indépendamment prises 2 à 2, alors COV(Z) est la matrice diagonale avec des nombres non nuls sur la diagonale principale et 0 ailleurs.

\(tr(COV) = \sum_{j=1}^KVarz_j = I_G \sum{\text{des éléments sur la diagonale}}\) \(\Rightarrow\) C’est l’inertie, c’est à dire, la dispersion de tous les individus par rapport au centre G. Il s’agit dela généralisation du concept de variance à plusieurs dimensions.

2 - La matrice de corrélation

Pour K variables, on peut regrouper les corrélations dans une même matrice. C’est la matrice des corrélations.

C’est une matrice de dimension (k,k), qu’on note R.

Sachant que la corrélation entre les variables l et j par exemple est donné par :

\[ r(j,l)=\frac{cov(j,l)}{\sqrt{\sigma_j)}\sqrt{\sigma_l)}} \]

Et l’estimateur matriciel non biaisé :

\[ R = D_{1/S}\frac{1}{N-1}(Z-\bar{Z})(Z-\bar{Z})^{'}D_{1/S}= D_{1/S}Cov(Z)D_{1/S} \]

Avec \(D_{1/S}\) la matrice diagonale contenant l’inverse des écarts-types et \(\frac{1}{N-1}(Z-\bar{Z})(Z-\bar{Z})^{'}\) la matrice variances-covariances.

Expression matricielle

\[ R = \underbrace{\begin{pmatrix}\dfrac{1}{\sigma_1} & 0 & 0 & \cdots & 0 \\0 & \dfrac{1}{\sigma_2} & 0 & \cdots & 0 \\0 & 0 & \dfrac{1}{\sigma_3} & \cdots & 0 \\\vdots & \vdots & \vdots & \ddots & \vdots \\0 & 0 & 0 & \cdots & \dfrac{1}{\sigma_K}\end{pmatrix}}_{D^{-1}}\;\underbrace{\begin{pmatrix}\sigma_{11} & \sigma_{12} & \sigma_{13} & \cdots & \sigma_{1K} \\\sigma_{21} & \sigma_{22} & \sigma_{23} & \cdots & \sigma_{2K} \\\sigma_{31} & \sigma_{32} & \sigma_{33} & \cdots & \sigma_{3K} \\\vdots & \vdots & \vdots & \ddots & \vdots \\\sigma_{K1} & \sigma_{K2} & \sigma_{K3} & \cdots & \sigma_{KK}\end{pmatrix}}_{\Sigma}\;\underbrace{\begin{pmatrix}\dfrac{1}{\sigma_1} & 0 & 0 & \cdots & 0 \\0 & \dfrac{1}{\sigma_2} & 0 & \cdots & 0 \\0 & 0 & \dfrac{1}{\sigma_3} & \cdots & 0 \\\vdots & \vdots & \vdots & \ddots & \vdots \\0 & 0 & 0 & \cdots & \dfrac{1}{\sigma_K}\end{pmatrix}}_{D^{-1}}\]

\[R =\begin{pmatrix}1 &\dfrac{\mathrm{Cov}(Z_1,Z_2)}{\sigma_1 \sigma_2} &\cdots &\dfrac{\mathrm{Cov}(Z_1,Z_K)}{\sigma_1 \sigma_K}\\[1em]\dfrac{\mathrm{Cov}(Z_2,Z_1)}{\sigma_2 \sigma_1} &1 &\cdots &\dfrac{\mathrm{Cov}(Z_2,Z_K)}{\sigma_2 \sigma_K}\\[1em]\vdots & \vdots & \ddots & \vdots\\[1em]\dfrac{\mathrm{Cov}(Z_K,Z_1)}{\sigma_K \sigma_1} &\dfrac{\mathrm{Cov}(Z_K,Z_2)}{\sigma_K \sigma_2} &\cdots &1\end{pmatrix} \]

\[ R =\begin{pmatrix}r_{11} & r_{12} & \cdots & r_{1K} \\r_{21} & r_{22} & \cdots & r_{2K} \\\vdots & \vdots & \ddots & \vdots \\r_{K1} & r_{K2} & \cdots & r_{KK}\end{pmatrix}\]

Interprétation :

La matrice des corrélations R résume toutes les corrélations croisées entre les K variables.
Chaque corrélation \(r_{ij}\) est calculée à partir des écarts individuels \(z_{t i} - \text{moyenne de }Z_i\) et \(z_{t j} - \text{moyenne de }Z_j\).
La diagonale vaut 1, les valeurs sont entre -1 et 1, et la matrice est symétrique.

Remarque : Il est possible de remplacer les coéfficients de Pearson par une autre méthode de calcul de corrélation pour obtenir une autre matrice de corrélation.

La trace

La trace est l’inertie dans la matrice de corrélation.
Elle est identique à la trace de la matrice de variance-covariance. Elle est égale au nombre de variables K.

\[ tr(R) = \sum_{i=1}^{K}r_{ii}= \sum_{i=1}^{K}1 = K \]

Corrélations & ACP

Si plusieurs ensembles de corrélation sont significativement > à 0 en valeur absolue \(\Rightarrow\) analyse factorielle pour condenser et interpréter les données est appropriée.
Par contre elle est inutile si :
- les variables sont parfaitement corrélées = tous les éléments de la matrice valent 1 ou -1 = la matrice des données ne contient qu’une seule variable, c’est à dire, un seul axe factoriel et k=1 \(\Rightarrow\) combinaisons linéaires de cette variables
- les variables sont 2 à 2 indépendantes entre elles = la matrice de corrélation est la matrice identité d’ordre K (des 1 sur la diagonale et des 0 ailleurs).

2- a) Propriétés matricielles des matrices de covariances et de corrélations

Matrice carré réelle et symétrique. Elle est donc toujours diagonalisable.
Les valeurs propres d’une matrice symétrique sont orthogonales entre elles = (angle droit (90°) entre deux vecteurs en géométrie)
On peut choisir des vecteurs propres comme étant orthonormaux (avec une norme pour chaque vecteur propre qui vaut 1).
La matrice des vecteurs propres P qui contient des vecteurs orthonormaux est une matrice orthogonale, ce qui veut dire que :\[ P^{-1}=P'\]

Par conséquent :

\[ A = PD_{\lambda}P^{-1}=PD_{\lambda}P' \]

Avec \(D_\lambda\) la matrice diagonale avec les valeurs propres sur sa diagonale principale.

Les matrices de corrélation et de covariances sont carrés symétrique \(\Rightarrow\) elles sont donc semi-définies positives \(\Rightarrow\) leurs valeurs propres sont positives.

Rappels sur les vecteurs 1

Rappels des notions fondamentales liées aux vecteurs dans le plan ou dans l’espace.

1. Définition d’un vecteur

Un vecteur est défini par trois caractéristiques :

Sa direction : la droite sur laquelle il est porté
Son sens : de l’origine vers l’extrémité
Sa norme : la longueur du segment représentant le vecteur
Ses coordonnées

\[ \vec{AB} = (x_B − x_A ; y_B − y_A) \]

Rappels sur les vecteurs 2

2. Coordonnées d’un vecteur

Dans le plan (\(\mathbb{R}^2\)), un vecteur peut s’écrire par ses coordonnées :

\[ \vec{u} = \begin{pmatrix} u_x \\ u_y \end{pmatrix} \]

Sa norme (longueur) est :

\[ \| \vec{u} \| = \sqrt{u_x^2 + u_y^2} \]

Soit le couple de points A (3,4) et B (4,5) formant le vecteur \(\vec{AB}\).

Ses coordonnées sont :

\[ \vec{u} = \begin{pmatrix} 5-4 = 1 \\ 6-5 = 1 \end{pmatrix} \]

Sa norme est :

\[ \| \vec{u} \| = \sqrt{1^2 + 1^2} =\sqrt{2+2} = 2 \]

Rappels sur les vecteurs 3

3. Sens et direction

Deux vecteurs ont la même direction s’ils sont portés par des droites parallèles.
Ils ont le même sens si leurs flèches pointent dans la même direction.
Ils sont opposés si leurs directions sont identiques mais leurs sens contraires.

Rappels sur les vecteurs 4

4. Colinéarité

Deux vecteurs \(\vec{u}\) et \(\vec{v}\) sont colinéaires s’il existe un réel k tel que :

\[ \vec{v} = k \, \vec{u} \]

Si k > 0 → même sens
Si k < 0 → sens opposé
Si k = 0 → vecteur nul

Géométriquement, \(\vec{u}\) et \(\vec{v}\) sont sur la même droite ou sur des droites parallèles.

Rappels sur les vecteurs 5

5. Représentations graphiques

a - Vecteurs non colinéaires

b - Vecteurs colinéaires de sens opposés

c - Vecteurs colinéaires de même sens

d) Vecteurs orthogonaux

Rappels sur les vecteurs 6

Un espace vectoriel est un ensemble formé de vecteurs qu’il est possible d’additionner ou de soustraire entre eux ou de multiplier par 1 scalaire.
Une application est une relation entre 2 ensembles qui va associer à chaque élément de l’ensemble de départ 1 unique élément dans l’ensemble d’arrivée.

Une application linéaire notée f de l’ensemble E vers l’ensemble F est une application qui pour tout vecteur u,v \(\in\) E et tout scalaire \(\lambda\) donne:

\[ f(u+\lambda v) = f(u) + \lambda f(v) \]
- Si E = F \(\Rightarrow\) L’application linéaire f est appelé endomorphisme
- Toute matrice représente une application linéaire car la multiplication d’une matrice par un vecteur produit un autre vecteur. Par ex : \[ Ax = y \Longleftrightarrow f(x) = y \] avec y un vecteur de la même taille que x.
- Pour l’endomorphisme f, le scalaire \(\lambda\) est appelé valeur propre et le vecteur \(x\) est un vecteur propre si on peut écrire
  
  \[ f(x) = \lambda x \]

Exemple : Une matrice comme application linéaire

\[ A = \begin{pmatrix} 2 & 1 \\ 1 & 3 \end{pmatrix}, \qquad x = \begin{pmatrix} 1 \\ 2 \end{pmatrix} \]

Alors :

\[ Ax =\begin{pmatrix} 2 & 1 \\ 1 & 3 \end{pmatrix} \begin{pmatrix} 1 \\ 2 \end{pmatrix} = \begin{pmatrix} 4 \\ 7 \end{pmatrix} \]

Appelons \(\lambda\) une valeur propre de A. Elle satisfait :

\[ \det(A - \lambda I) = 0. \]

Ce qui donne ici :

\[ \det \begin{pmatrix} 2-\lambda & 1 \\ 1 & 3-\lambda \end{pmatrix} = (2-\lambda)(3-\lambda) - 1 = 0. \]

En développant :

\[ \lambda^2 - 5\lambda + 5 = 0. \]

On obtient alors 2 VP :

A <- matrix(c(2,1,1,3), nrow=2, byrow=TRUE)
A

     [,1] [,2]
[1,]    2    1
[2,]    1    3

eigen(A)

eigen() decomposition
$values
[1] 3.618034 1.381966

$vectors
          [,1]       [,2]
[1,] 0.5257311 -0.8506508
[2,] 0.8506508  0.5257311

Interpretation

La valeur propre indique de combien un vecteur est étiré ou compressé par la transformation.
Le vecteur propre (x) reste dans la même direction après transformation : seule la longueur change.

Rappels sur les vecteurs 7

Un vecteur propre est un vecteur dont la dimension n’est pas modifiée quand il va être traité par l’application linéaire f. Sa longueur et son sens peuvent être affectés par l’application linéaire.
Un endomorphisme peut contenir plusieurs valeurs propres associées. Ces derniers forment 1 sous-espace vectoriel propre associé à la valeur \(\lambda\).
Si A est la matrice représentative de l’endomorphisme f, alors l’égalité \(f(x) = \lambda x\) peut-être écrite par une opération matricielle.

\(AX = \lambda x\)
Une matrice carré A est dite diagonalisable s’il existe une matrice inversible appelée P et une matrice diagonalisable \(D_\lambda\) tel que :

\[ A = PD_\lambda P^{-1} \]

En post-multipliant les 2 côtés de l’équation par P :

\[ PA = PD_\lambda \]

Pour chaque colonne \(P_j\) de P on a :

\[ AP_j = \lambda_j P_j \]

Ce qui indique que le vecteur colonne \(P_j\) est le vecteur propre associé à la valeur propre \(\lambda_j\) de la matrice A, de sorte que post-multiplier la matrice A par 1 vecteur propre revient à multiplier ce vecteur par un scalaire réel qui est la valeur propre associée.

Rappels sur les vecteurs 8

D’un point de vue géométrique, les vecteurs propres d’une application linéaire, matérialisée par une matrice A = axes privilégiés du nuage de points.

Ils fournissent des renseignements sur la forme du nuage de point.

La matrice se comporte comme une dilatation du vecteur propre : le produit de la matrice et du vecteur propre = multiplier le vecteur par une quantité > ou < à 1 en valeur absolue :

si la constante est > 1 en valeur absolue, alors le vecteur propre va être augmenté.
si la constante est < 1 en valeur absolue, alors le vecteur propre va être réduit.
si la constante est négative, alors le vecteur change de sens mais pas de direction.
L’application linéaire ne fait que modifier la taille et le sens du vecteur propre sans en changer la direction
La valeur propre mesure le rapport de dilatation, soit le nombre par lequel il faut multiplier le vecteur pour obtenir son image. La valeur propre mesure l’intensité d’une des directions du nuage de point.

Par exemple, plus un nuage de point à 1 forme directionnelle = il s’étire sur un nombre de direction réduit, plus il sera facile de le résumer avec une droite ou un petit nombre d’axe.

Un nuage de point parfaitement sphérique n’a aucune direction particulière et ne pourra pas être résumé.

2 - b) Tester la matrice de corrélation

Une corrélation nulle 2 à 2 pour toutes les variables correspond à une matrice identité. Il n’est alors pas possible d’extraire de l’information.
Si 2 variables sont parfaitement corrélées = redondance \(\Rightarrow\) Au moins 1 variable peut s’expliquer comme une combinaison linéaire d’autres variables \(\Rightarrow\) écarter la ou les variable(s) redondante(s) de l’analyse.

Le déterminant et le niveau de corrélation entre les variables

Le déterminant de la matrice de corrélation donne de l’information :

Il indique le niveau de corrélation
La présence de trop forte colinéarité.

Pour faire une ACP, il faut vérifier la compatibilité des données.

Si le déterminant est égal à 0 \(\Rightarrow\) Présence d’1 ou plusieurs corrélations parfaites.

Conséquence : supprimer 1 ou plusieurs variable(s)
ex : une variable qui est la moyenne des autres variables \(\Rightarrow\) il existe une colinéarité entre les variables
Det(R) = 1 si R=I \(\Rightarrow\) Absence totale de corrélation entre les variables

Exemple :

On considère la matrice de corrélation R (3 x 3) suivante :

\[ R = \begin{pmatrix} 1 & 0.132 & 0.062 \\ 0.132 & 1 & 0.895 \\ 0.062 & 0.895 & 1 \end{pmatrix} \]

Nous voulons calculer son déterminant.

Rappel :

Pour une matrice \[ A = \begin{pmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{pmatrix} \]

on a :

\[ \det(A) = a_{11} \begin{vmatrix} a_{22} & a_{23} \\ a_{32} & a_{33} \end{vmatrix} - a_{12} \begin{vmatrix} a_{21} & a_{23} \\ a_{31} & a_{33} \end{vmatrix} + a_{13} \begin{vmatrix} a_{21} & a_{22} \\ a_{31} & a_{32} \end{vmatrix} \]

Le déterminant de la matrice R vaut donc environ :

\[ \det(R) \approx 0.19235636 \]

Interprétation : Il existe 1 ou plusieurs corrélations entre les variables et aucune variable n’a de corrélation parfaite avec une ou plusieurs autres variables.

La normalité des données

Pour tester la matrice de corrélation il faut utiliser des tests d’hypothèses construits sur la base de loi de probabilités qui impliquent que les données suivent une certaine loi de probabilité.

En général, la loi normal (courbe de Gauss).

La loi normale théorique, une des lois de probabilité les plus adaptées pour modéliser des phénomènes naturelles issus de plussieurs évènements aléatoires, a pour expréssion :

\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]

Avec \(\mu\) l’espérance de la variable aléatoire et \(\sigma\) l’écart-type.

\[ \mu = \sum_{i=1}^n p_ix_i \]

Avec \(p_i\) la probabilité d’apparition de l’évènement i et \(x_i\) la valeur de cet évènement.

Caractéristiques de la loi Normale :

La loi normale a des queues de chaque côté qui décroissent très rapidement.
La symétrie de la loi implique qu’il y a autant de chance pour un phénomène aléatoire d’avoir une valeur en-dessous ou au-dessus de la valeur moyenne.
Comme \(\sigma\) et \(\mu\) sont inconnus, on utilise des estimateurs non biaisés de ces paramètres pour écrire la loi empirique.
Des données centrées réduites doivent suivre la loi normale centrée réduite si \(\sigma=1\) et \(\mu=0\).

\[ f(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} \]

Pour vérifier que des données sont distribuées en suivant une loi normale il faut appliquer des tests statistiques.

1 - Le test de Shapiro-Wilk

Avantage : Efficace sur petits échantillons (\(n\leq50\))

Procédure :

On trie les valeurs de la variable par ordre croissant
On calcule la moyenne de l’échantillon
On calcule la statistique W

La statistique est :

\[ W = \frac{(\sum_{i=1}^{n/2}\alpha_i(x_{n-i+1}-x_i))^2}{\sum_{i=1}^{n}(x_{i}-\bar{x})^2} \]

Avec \(0\leq W\leq1\)

Au dénominateur, on calcule la somme des carrés des écarts à la moyenne.
Au numérateur, on calcule les différences (entre le premier et le dernier terme, entre le deuxième et l’avant-dernier, et ainsi de suite, l’observation médiane est ignorée si n est impair).

On applique à chaque différence un coefficient \(\alpha_i\) - des coefficients tabulés qui dépendent de n, (ils sont construits à partir des espérances/variances des ordres statistiques d’une loi normale théorique lu dans une autre table).

On additionne les produits des coefficients et des différences et on les élève au carré.

\(H_0\), l’hypothèse de normalité est vérifiée quand la valeur de \(W_{obsérvé} > W_{critique}\) .

Exemple :

On prend un petit échantillon de n = 5 observations :

\(x = (4.8,; 5.1,; 5.0,; 4.9,; 5.2)\)

1 - Ordonner ces données par ordre croissant :

\(x_{(1)} = 4.8,\quad x_{(2)} = 4.9,\quad x_{(3)} = 5.0,\quad x_{(4)} = 5.1,\quad x_{(5)} = 5.2\)

2 - Moyenne de l’échantillon

\(\bar{x} = \frac{4.8 + 4.9 + 5.0 + 5.1 + 5.2}{5} = \frac{25.0}{5} = 5.0\)

3 - Calcul de W observé

Dénominateur : somme des carrés centrés

On calcule \((x_i - \bar{x})^2\) pour chaque donnée :

\[ \begin{aligned} (4.8 - 5.0)^2 = (-0.2)^2 &= 0.04 \\ (4.9 - 5.0)^2 = (-0.1)^2 &= 0.01\\ (5.0 - 5.0)^2 = 0^2 &= 0\\ (5.1 - 5.0)^2 = 0.1^2 &= 0.01\\ (5.2 - 5.0)^2 = 0.2^2 &= 0.04\\ S = 0.04 + 0.01 + 0 + 0.01 + 0.04 &= 0.10\\ \end{aligned} \]

Donc le dénominateur de la stat W est (S = 0.10).

Calcul du Numérateur

\[ a_1(x_{(5)} - x_{(1)}) + a_2(x_{(4)} - x_{(2)}) = 0.6645\times 0.4 + 0.2413\times 0.2 = 0.31410 \]

Le numérateur de W est le carré de cette somme :

\(N = (0.31410)^2 = 0.09865\)

Statistique W

\(W = \frac{N}{S} = \frac{0.09865}{0.10} = 0.9865\)

Interprétation à partir des tables

Pour n = 5 et un risque de 5 %, la valeur critique tabulée est environ :

\(W_{critique} = 0.762\)

Comparons :

\(W_{obs} = 0.9865 > 0.762\)

On ne rejette pas H₀ au seuil de 5 % : la distribution de la variable suit une loi normale.

Vérification avec R

x <- c(4.8, 4.9, 5.0, 5.1, 5.2) 
shapiro.test(x)


    Shapiro-Wilk normality test

data:  x
W = 0.98676, p-value = 0.9672

2 - Le test de Lilliefors

Le test de Kolmogorov-Smirnov permet de tester la distribution des données par rapport à n’importe quelle loi (dont la loi normale en mesurant l’écart maximal (\(D_{max}\)) entre la fonction de répartition (ou les fréquences cumulées) des données et la fonction de répartition de la loi normale dans notre cas.

Le test de Lilliefors, les paramètres de la moyenne \(\bar{x}\) et de l’écart-type s de la loi normale théorique sont estimés (c’est la différence avec le test Kolmogorov_Smirnov) grâce aux données. Puis on calcule la valeur de \(D_{max}\) :

\[ D_{max} = max_{i=1,2,...,n}(F_i- \frac{i-1}{N},\frac{i}{N}-F_i) \]

Avec \(F_i\) la fréquence théorique de la loi normale centrée réduite associée à la valeur standardisée (centrée-réduite) des données triées \(y_{(i)}\) : \(y_{(i)}=\frac{x_{(i)}-\bar{x}}{s}\) .

Principe du test:

On mesure l’écart maximum qui existe entre la fonction de répartition observée (ou des fréquences cumulées) et la fonction de répartition théorique.

Sous l’hypothèse \(H_0\), cet écart est faible et la répartition des observations s’intègre bien dans une distribution donnée.

La confrontation entre la valeur \(D_{max}\) et la table du test permet de sélectionner l’hypothèse vérifiée parmi :

\(H_0\) : la population suit une loi normale
\(H_1\) : la population ne suit pas une loi normale

Validation du test :

Si la \(p_{value}<\alpha\), on rejette \(H_0\) \(\Rightarrow\) \(D_{max}^{calculé} > D_{max}^{critique}\)
Si la \(p_{value}>\alpha\) on ne rejette pas \(H_0\). \(\Rightarrow\) \(D_{max}^{calculé} < D_{max}^{critique}\)

Etapes du test :

Trier les données
Déterminer les fréquences cumulées croissantes \(F_i\)
Construire la fonction de répartition de l’échantillon (centrée-réduite)
Calculer la statistique \(D_{max}\)
Comparer la valeur calculer à la valeur critique

Exemple :

Réponse	1	2	3	4	5	6	7	8	9	10
Effectif	30	79	64	65	65	117	167	157	125	125

Ecart max : 0,1530

[1] 994

[1] 6.506036

[1] 2.574267

   Xi  ni     fi F_less  F_leq      Zi   Theo Ecart_moins Ecart_plus
1   1  30 0.0302 0.0000 0.0302 -2.1389 0.0162      0.0162     0.0140
2   2  79 0.0795 0.0302 0.1097 -1.7504 0.0400      0.0098     0.0696
3   3  64 0.0644 0.1097 0.1740 -1.3620 0.0866     -0.0231     0.0874
4   4  65 0.0654 0.1740 0.2394 -0.9735 0.1652     -0.0089     0.0743
5   5  65 0.0654 0.2394 0.3048 -0.5850 0.2793      0.0398     0.0256
6   6 117 0.1177 0.3048 0.4225 -0.1966 0.4221      0.1173     0.0005
7   7 167 0.1680 0.4225 0.5905  0.1919 0.5761      0.1535     0.0145
8   8 157 0.1579 0.5905 0.7485  0.5803 0.7192      0.1286     0.0293
9   9 125 0.1258 0.7485 0.8742  0.9688 0.8337      0.0852     0.0406
10 10 125 0.1258 0.8742 1.0000  1.3573 0.9127      0.0384     0.0873

[1] 0.1535487


    Lilliefors (Kolmogorov-Smirnov) normality test

data:  data_raw
D = 0.15355, p-value < 2.2e-16

Interprétation :

La valeur critique pour n = 10 est 0,258 > D calculé (0,15355) \(\Rightarrow\) On rejette l’hypothèse nulle de normalité
p-value < 0,05 \(\Rightarrow\) on rejette l’hypothèse nulle de normalité

3 - Test de sphéricité de Bartlett

Ce test vérifie les propriétés de la matrice de corrélation à travers la valeur de son déterminant.

Il sert à vérifier si les variables d’un jeu de données sont suffisamment corrélées entre elles pour justifier une analyse factorielle.

Il test du jeu d’hypothèse suivant :

\(H_0\) : les variables sont globalement indépendantes \(\Rightarrow\) déterminant très proche de 1 \(\Rightarrow\) Absence total de corrélation entre les variables
\(H_1\) : det(R) \(\neq\) 1

Si \(H_O\) est vérifié, alors il n’y a aucun intérêt à mettre en place des méthodes factorielles.

La statistique de Bartlett s’obtient à partir du logarithme du déterminant de la matrice R. Il dépend aussi du nombre d’observation et du nombre de variables :

\[ Bartlett = -(N-1-\frac{2k+5}{6}ln(det(R)) \]

Sous \(H_0\), cette statistiques suit une loi du \(\chi^2\) à \([k\times(k-1)/2]\) degrés de liberté noté ddl (où k est le nombre de variables et N le nombre d’observations).

Remarque : le test de Bartlett ne peut s’effectuer que sur des données qui suivent une loi normale.

Exemple

Soit la matrice de corrélations entre 3 variables :

\[ R= \begin{pmatrix} 1.00 & 0.65 & 0.60 \\ 0.65 & 1.00 & 0.55 \\ 0.60 & 0.55 & 1.00 \end{pmatrix} \]avec :

• \(k = 3\),

• \(n = 50\) (observations).

On souhaite tester :

\(H_0 : R = I_3 \quad \text{(pas de corrélations entre les variables)} ; H_1 : R \neq I_3]\)

Calcul du déterminant à la main

La formule du déterminant pour une matrice \(3 \times 3\) est :

\[ \begin{align} |R| &= 1\times (1\times 1 - (0,55\times0,55)) -0,65\times(0,65\times1 - (0,55\times0,60)) + 0,6\times(0,65\times0,55-(1\times0,60)) \\ |R| &= 0,6975-0,32-0,2425 \\ |R| &=0,344 \end{align} \]

La statistique du test de Bartlett est :

\[ \chi^2 = -\left(n - 1 - \frac{2p + 5}{6}\right)\ln|R| \]avec :

• \(n = 50\)

• \(p = 3\)

• \(|R| = 0.344\)

\[ \begin{aligned} \frac{2p + 5}{6} &= \frac{11}{6} = 1.833 \\ \chi^2 &= -\left(50 - 1 - 1.833\right)\ln(0.344) \\ \chi^2 &= -(47.167)(-1.068) = 50.36 \end{aligned} \]Degrés de liberté et décision

\(ddl = \frac{p(p - 1)}{2} = \frac{3 \times 2}{2} = 3\)

Au seuil de 5 %, la valeur critique \(\chi^2_{(3,,0.05)} \approx 7.81\).

Comme :

50.36 > 7.81 \(\Rightarrow\) on rejette \(H_0\), les corrélations sont significatives

Vérification avec R :

[1] 0.344

$chisq
[1] 50.33219

$p.value
[1] 6.788147e-11

$df
[1] 3

L’indice KMO

L’indice KMO repose sur le conce de corrélation partielle.

La corrélation partielle : mesure la relation “nette” entre 2 variables \(\Rightarrow\) en retranchant l’influence d’une autre variable sur cette relation de corrélation.

L’influence des autres variables s’obtient par différence entre la corrélation brute et la corrélation partielle.

Si, en valeur absolue, la corrélation brute est significativement supérieure à la corrélation partielle alors la liaison est essentiellement déterminée par d’autres variables.

Une corrélation simple \(r_{ij}\) mesure le lien entre deux variables \(X_i\) et \(X_j\), sans tenir compte des autres.
Une corrélation partielle \(r_{ij\cdot\text{autres}}\) mesure la même relation, en contrôlant l’influence des autres variables du modèle.

Exemple : la taille et le prix d’un logement sont corrélés, mais cette corrélation peut être en partie due au revenu de l’acheteur. La corrélation partielle entre taille et prix “retire” l’effet du revenu.

Calcul des corrélation partielles

Soit une matrice de corrélation \(R\) entre \(p\) variables.

Son inverse \(R^{-1} = [a_{ij}]\) est appelée matrice de précision ou matrice de concentration.

Les corrélations partielles s’en déduisent par la relation :

\[ r_{ij\cdot\text{autres}} = -\frac{a_{ij}}{\sqrt{a_{ii}a_{jj}}} \]

où :

\(a_{ij}\) est l’élément \((i,j)\) de \(R^{-1}\)
\(a_{ii}\) et \(a_{jj}\) sont les éléments diagonaux de \(R^{-1}\)

Ainsi, l’inverse de \(R\) contient toutes les corrélations partielles entre les variables.

Exemple

On considère la matrice de corrélation suivante :

\[ R = \begin{pmatrix} 1 & 0.132 & 0.062 \\ 0.132 & 1 & 0.895 \\ 0.062 & 0.895 & 1 \\ \end{pmatrix} \]

On calcule l’inverse de \(R\), notée \(R^{-1}\) :

      X1    X2    X3
X1 1.000 0.132 0.062
X2 0.132 1.000 0.895
X3 0.062 0.895 1.000

        X1      X2      X3
X1  1.0344 -0.3978  0.2919
X2 -0.3978  5.1787 -4.6103
X3  0.2919 -4.6103  5.1081

Puis, on calcule la matrice complète des corrélations partielles :

        X1     X2      X3
X1  1.0000 0.1719 -0.1270
X2  0.1719 1.0000  0.8964
X3 -0.1270 0.8964  1.0000

Dans notre cas, la variable 1 n’a pas d’influence sur la corrélation entre les variables 2 et 3 car le coefficient de la matrice partiel est quasi identique à celui de la matrice des corrélations (0,896).

4 - L’indice KMO

L’indice KMO compare les coefficients de corrélations bruts et les coefficients de corrélations partielles.

\[ KMO = \frac{\sum_{i}^k\sum_{j\ne i}^k r_{ij}^2}{\sum_{i}^k\sum_{j\ne i}^k r_{ij}^2 + \sum_{i}^k\sum_{j\ne i}^k \alpha_{ij}^2} \]

L’indice KM0 \(0≤KMO≤1\).
Une valeur de KMO proche de 0 \(\Rightarrow\) corrélations partielles quasi-identiques aux corrélations brutes (il n’y a pas d’influence des autres variables). Cela signifie que chaque paire de variables corrélées est pratiquement orthogonale aux autres paires de variables corrélées. Il n’y a aucune corrélation entre les variables prises deux à deux. \(\Rightarrow\) L’analyse factorielle n’est pas pertinente.
Une valeur de KMO proche de 1 \(\Rightarrow\) analyse factorielle pertinente

Exemple

Si on reprend l’exemple précédent :

\[ \begin{aligned} KMO &= \frac{r_{12j}^2+ r_{23}^2+ r_{13}^2}{r_{12j}^2 + r_{23j}^2 + r_{13}^2+ \alpha_{12j}^2 +\alpha_{23j}^2 + \alpha_{13}^2 }\\ KMO &= \frac{0,132^2+0,895^2+0,062^2}{0,132^2+0,895^2+0,062^2 + 0,1719^2+0,8964^2+0,1270^2}\\ KMO&= 0,492 \end{aligned} \]

[1] 0.4919478

Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = R)
Overall MSA =  0.49
MSA for each item = 
  X1   X2   X3 
0.32 0.50 0.50

On utilise ensuite le tableau d’interpétation de l’indice KMO de Kaiser :

Valeur de l’indice KMO	Interprétation
KMO > 0.90	Excellente adéquation
0.80 ≤ KMO < 0.90	Très bonne adéquation
0.70 ≤ KMO < 0.80	Bonne adéquation
0.60 ≤ KMO < 0.70	Adéquation moyenne
0.50 ≤ KMO < 0.60	Adéquation médiocre
KMO < 0.50	Mauvaise adéquation — ACP non recommandée

Compte tenu de la valeur de l’indice KMO, il n’est pas recommandé de mettre en place une analyse factorielle.

Indice KMO individuel

Il est aussi possible d’avoir une analyse plus désagrégée en calculant l’indice KMO individuel, qui permet de savoir si une analyse factorielle devient pertinente en supprimant une ou plusieurs variables de notre jeu de données.

Il s’agit du calcul de l’indice KMO individuel.

\[ KMO_i = \frac{\sum_{j \ne i} r_{ij}^2}{\sum_{j \ne i} r_{ij}^2 + \sum_{j \ne i} \alpha_{ij}^2} \]

Dans notre exemple, les 3 indices KMO individuels ont pour valeurs :

\[ KMO_1 = \frac{0,132^2+0,062^2}{0,132^2+0,062^2 + 0,1719^2+0,1270^2}\\ KMO_2 = \frac{0,132^2+0,895^2}{0,132^2+0,895^2 + 0,1719^2+0,8964^2}\\ KMO_3 = \frac{0,062^2+0,895^2}{0,062^2+0,895^2 + 0,1270^2+0,8964^2} \]

[1] 0.317686

[1] 0.4955697

[1] 0.495447

Les 3 variables ont un indice individuel < 0.5, ce qui confirme le choix de ne pas mener une analyse factorielle pour ces données.