1 Contexte

L’ analyse factorielle des correspondances simples est une extension de l’analyse en composantes principales permettant d’analyser l’association entre deux variables qualitatives (ou catégorielles) .
L’AFC permet de résumer et de visualiser l’information contenue dans le tableau de contingence formé par les deux variables catégorielles. Le tableau de contingence contient les fréquences formées par les deux variables.

2 Problématique

Existe-t-il un lien entre la couleur des cheveux et la couleur des yeux ?

3 Importation des données

Brun Châtain Roux Blond Total Chinoises Suédoises
Marron 68 119 26 7 220 75 5
Noisette 15 54 14 10 93 20 10
Vert 5 29 14 16 64 5 20
Bleu 20 84 17 94 215 0 65
Total 108 286 71 127 592 100 100

Ci-dessous nos données brut, en colonne nous avons les couleurs de cheveux et en lignes les couleurs des yeux. Ce tableau de contingence contient donc les fréquences couleurs des “cheveux” et couleurs des “yeux”.

4 Analyse du tableau

Brun Chatain Roux Blond Chinoises Suédoises profil_moyen
Marrron 63% 42% 37% 6% 75% 5% 37%
Noisettes 14% 19% 20% 8% 20% 10% 15%
Vert 5% 10% 20% 13% 5% 20% 12%
Bleu 19% 29% 24% 74% 0% 65% 36%
Total 100% 100% 100% 100% 100% 100% 100%
On peut lire le tableau de la manière suivante :

A première vue on remarque une opposition radical entre les couleurs “marron” et “bleu”. La couleur de cheveux “chatain” est proche du profil moyen.

5 Selection des individus et des variables actives

Les couleurs de cheveux, en colonnes, sont déclarées actives et déterminent les ressemblances et les dissemblances entre les couleurs des yeux. Ce sont elles qui vont intéragir dans le modèle et nous permettre de répondre à la problèmatique.

Les populations des chinoises et suédoises sont déclarés comme des fréquences illustratives.

6 Significativité statistique

Pour interpréter l’AFC, la première étape consiste à évaluer s’il existe une dépendance significative entre les lignes et les colonnes.

Une méthode rigoureuse consiste à utiliser la statistique de khi2 pour examiner l’association entre les modalités des lignes et celles des colonnes

## [1] 5.623837e-27

Une statistique de khi2 élevée signifie un lien fort entre les lignes et les colonnes, comme nous pouvons le voir ici.

7 Visualisation & Interprétation

7.1 Détermination des axes : Analyse des valeurs propres

L’examination des valeurs propres permet de déterminer le nombre d’axes principaux à considérer. Les valeurs propres correspondent à la quantité d’informations (l’inertie) retenue par chacun axe. Contrairement à l’ACP, vue précédemment, aucune valeur propre n’est supérieure à 1 . Cela est dû à un nombre de modalités actives plus élevé.

Les valeurs propres peuvent être utilisées pour déterminer le nombre d’axes à retenir. Il n’y a pas de «règle générale» pour choisir le nombre de dimensions à conserver pour l’interprétation des données. Par exemple en médecine nous retenons des variance autour de 90% alors qu’en marketing une variance 70% peut être acceptable.

eigenvalue variance.percent cumulative.variance.percent
Dim.1 0.0976814 86.3962254 86.39623
Dim.2 0.0144254 12.7588205 99.15505
Dim.3 0.0009528 0.8427415 99.99779
Dim.4 0.0000025 0.0022126 100.00000

Les deux premiers axes restituent près de 99% de l’inertie total. Soit près de 99% de la quantité d’informations contenue dans le tableau de contigence.

Une autre méthode pour déterminer le nombre de dimensions est de regarder le graphique des valeurs propres (critère de coude), ordonnée de la plus grande à la plus petite valeur. Le nombre d’axes est déterminé par le point, au-delà duquel les valeurs propres restantes sont toutes relativement petites et de tailles comparables.

Dans notre cas nous choisirons donc les deux premiers axes

7.2 Visualiation

Dans le graphique ci-dessus, les lignes sont représentées par des points bleus, les colonnes actives par des triangles rouges et les colonnes illustratives par des triangles bordeaux.

La distance entre les points lignes ou entre les points colonnes donne une mesure de leur similitude. Les points lignes avec un profil similaire sont proches sur le graphique. Il en va de même pour les points colonnes.

La couleur “Châtain” est la couleur la plus proche du profil moyen, celle dont la répartition des couleurs de yeux est la plus proche de l’ensemble.

La couleur des yeux qui correspond le plus aux Suédoises est davantage le Bleu et le Vert que les autres couleurs.

Pour les Chinoises, elles sont davantage repoussées par la couleur Bleu qu’attirées par le Marron.

8 Qualité de représentation

Le résultat de l’analyse montre que le tableau de contingence est bien représenté dans un espace à faibles dimensions en utilisant l’AFC. Les deux dimensions 1 et 2 sont suffisantes pour conserver 99% de l’inertie totale (variation) contenue dans les données.

Les cosinus carrés les plus élevés correspondent aux lignes bien représentées sur chacun des axes .

Les valeurs de cos2 sont comprises entre 0 et 1. La somme des cos2 pour les lignes sur toutes les dimensions de l’AFC est égale à 1.

Si un point ligne est bien représenté par deux dimensions, la somme des cos2 est proche de 1 .

Pour certains éléments lignes, plus de 2 dimensions sont nécessaires pour représenter parfaitement les données.

On remarque que les yeux marrons et bleu sont bien répresentés par l’axe 1, la couleur verte est quant à elle bien representée par l’axe 2. Cette axe permet principalement la visualisation des préférences de couleur des yeux pour la couleur Roux. La couleur noisette est representée par les deux premiers axes.

8.1 Conclusion

Il existe bien un lien entre la couleur des cheveux et la couleur des yeux sauf pour la couleur Châtain qui est vraiment proche du profil moyen. En effet les Anglaises blondes ont plus de chances d’avoir les yeux bleu, les brunes ont plus de chances d’avoir des yeux marron et les rousses ont plus de chances d’avoir des yeux vert. En outre les Chinoises ont une probabilité élévée d’avoir des yeux marron alors que les suédoises ont plus de chances d’avoir des yeux bleus ou vert.