1 Contexte de l’étude
Nous disposons d’un jeu de données mettant en évidence l’équipement des ménages en multimédia par catégorie socioprofessionnelle. Le but de notre étude est de répondre à la problèmatique suivante : Est-ce que l’équipement des ménages en multimedia diffère selon la catégorie socioprofessionnelle ?
2 Importation des données
La première étape consiste à importer les données telles qu’elles sont avec la présence des pondérations pour chaque individu. Le but des pondérations est de pouvoir effectuer une analyse plus cohérente de la réalité.
Proportion | Téléviseur.couleur | Magnétoscope.ou.lecteur.DVD | Téléphone.fixe | Téléphone.portable | Micro.ordinateur | Connexion.à.Internet | |
---|---|---|---|---|---|---|---|
Agriculteurs exploitants | 1.0 | 95.4 | 77.2 | 90.6 | 92.8 | 83.4 | 79.8 |
Artisans, commerçants, chefs d’entreprise | 3.4 | 97.6 | 85.7 | 90.2 | 97.4 | 92.5 | 90.4 |
Cadres et professions intellectuelles supérieures | 9.4 | 93.5 | 87.3 | 95.8 | 97.9 | 98.6 | 97.3 |
Professions intermédiaires | 13.2 | 96.4 | 87.0 | 92.0 | 97.8 | 96.5 | 93.9 |
Employés | 15.9 | 97.0 | 83.2 | 86.2 | 96.9 | 89.2 | 86.7 |
Ouvriers (y c. ouvriers agricoles) | 12.3 | 98.1 | 86.7 | 85.2 | 97.0 | 84.3 | 81.4 |
Retraités | 26.5 | 98.9 | 70.8 | 95.5 | 72.4 | 48.3 | 46.2 |
Autres inactifs | 18.3 | 96.0 | 66.4 | 83.6 | 73.0 | 52.5 | 50.8 |
Ensemble | 100.0 | 97.1 | 79.5 | 90.9 | 87.6 | 75.2 | 73.0 |
Sans appliquer aucun algorithme sur ces données, nous pouvons effectuer des premières observations:
- La proportion de Retraités représentent un peu plus d’ 1/4 (26,5%) de la population française en 2012
- La proportion de Retraités et Autres inactifs représentent à eux deux réunis quasiment la moitié de la population (44,8%)
- Les Cadres (93,5%) et les Agriculteurs (95,4%) sont les individus qui détiennent le moins de téléviseur couleur par rapport à la moyenne (97,1%)
- L’écart entre La proportion de Retraités (70,8%) et Autres inactifs qui détiennent un magnétoscope ou un lecteur DVD par rapport à la moyenne (79,5%) est assez élevé
- La proportion de détemption d’un téléphone fixe pour les Autres inactifs (83,6%) , les Ouvriers (85,2%) et les Employés (85,2%) est légérement inférieure à celle de la population globale (90,9%)
- L’écart se creuse sur la possession d’un téléphone portable . Les Retraités (72,4%) et les Autres inactifs (73,0%) sont les individus qui font chuter la moyenne de la population globale (87,6%) . La proportion des autres individus est nettement au dessus de cette moyenne
- Uniqueent la moitié des Retraités (48,3%) et des Autres inactifs (52,5%) possèdent un micro ordinateur
- La proportion pour chaque individu de détenir une connexion Internet semble liée à celle de posséder un micro ordinateur
A partir de ces observations, nous constatons que pour la plupart des équipements, les proportions pour les Retraités et les Autres inactifs (représentant la moité de la population) sont plus éloignées que pour le reste des individus.
L’analyse par composantes principales (ACP) va nous permettre d’effectuer une analyse exploratoire des données plus poussées que nos observations effectuées au premier coup d’oeil et de ressortir davantage l’information pertinente mise en valeur du jeu de données.
Les étapes de l’algorithme présentées par la suite sont détaillées et suivent le mode opératoire fourni.
3 Classes des variables
Proportion | numeric |
Téléviseur.couleur | numeric |
Magnétoscope.ou.lecteur.DVD | numeric |
Téléphone.fixe | numeric |
Téléphone.portable | numeric |
Micro.ordinateur | numeric |
Connexion.à.Internet | numeric |
Pour rappel, l’algorithme s’effectue uniquement sur des variables quantitatives .
L’ensemble des variables étant des variables quantitatives, nous pouvons donc passer à la prochaine étape sans effectuer aucunes transformations sur aucunes des variables
La première étape de l’algorithme consiste à déterminer le nombre d’axes à retenir
4 Choix des individus et variables actives
4.1 Choix des individus
Nous avons choisi de mettre l’individu Ensemble en individu illustratif car c’est un individu qui apparait dans la totalité des autres individus. Il y aurait redondance d’informations si cet individu serait considéré comme actif.
4.2 Choix des variables
La variable Proportion qui correspond à la pondération pour chaque individu n’a pas à intervenir dans l’algorithme comme variable active . Elle intervient uniquement comme pondération, poid pour chaque individu.
5 Choix des axes
Cette étape consiste à déterminer le nombre d’axes à retenir permettant de garder le maximum d’information.
Pour cela, nous allons utilisé deux des critères présentés dans le mode opératoire.
Analyse des valeurs propres:
eigenvalue | percentage of variance | cumulative percentage of variance | |
---|---|---|---|
comp 1 | 3.9241361 | 78.4827228 | 78.48272 |
comp 2 | 1.0168545 | 20.3370906 | 98.81981 |
comp 3 | 0.0554385 | 1.1087693 | 99.92858 |
comp 4 | 0.0034781 | 0.0695629 | 99.99815 |
comp 5 | 0.0000927 | 0.0018544 | 100.00000 |
L’ inertie totale est contenue dans 5 valeurs propres.
1er critère:
D’après le critère de Kaiser , les deux premiers axes permettent de synthétiser et visualiser l’information.
Ils restituent près de 99% de l’inertie totale, soit près de 99% de la quantité d’information contenue.
2ème critère
Cette représentation met en évidence graphiquement le pourcentage de variable pour chaque axe.
D’après le critère de coude , même s’il y a un écart important en termes d’inertie entre le premier et le deuxième axe, nous décidons de garder le deuxième axe pour garantir la récupération du maximum d’informations. Nous nous arrêtons donc à la première “cassure”.
6 Bilan des liaisons entre variables actives
Sans pondérations:
Avec pondérations:
Au niveau des axes, on retrouve en première information principale :
- Media Moderne
- Media Traditionnel
On retrouve en deuxuème information principale:
- Catégories sur-équipées
- Catégories sous-équipées
En comparant les deux bilans des liaisons entre variables actives ci-dessus, on peut voir que la présence de la pondération fait passer la variable Téléphone fixe d’un média traditionnel à un média.
Cela est dû à la pondération élévée des Retraités qui détiennent une proportion plus grande par rapport à la moyenne de posséder un Téléphone fixe .
La pondération joue aussi un rôle important pour la variable Téléviseur couleur sur le deuxième axe.
Les variables les plus proches du bord du cercle comme Téléphone fixe sont celles qui sont bien représentées par le plan factoriel.
Matrice des corrélations
Téléviseur.couleur | Magnétoscope.ou.lecteur.DVD | Téléphone.fixe | Téléphone.portable | Micro.ordinateur | Connexion.à.Internet | |
---|---|---|---|---|---|---|
Téléviseur.couleur | 1.0000000 | -0.1760011 | -0.1948621 | -0.3009041 | -0.4340067 | -0.4453342 |
Magnétoscope.ou.lecteur.DVD | -0.1760011 | 1.0000000 | 0.1810395 | 0.9473025 | 0.9309745 | 0.9318071 |
Téléphone.fixe | -0.1948621 | 0.1810395 | 1.0000000 | 0.0403789 | 0.1387677 | 0.1482342 |
Téléphone.portable | -0.3009041 | 0.9473025 | 0.0403789 | 1.0000000 | 0.9798076 | 0.9745660 |
Micro.ordinateur | -0.4340067 | 0.9309745 | 0.1387677 | 0.9798076 | 1.0000000 | 0.9993335 |
Connexion.à.Internet | -0.4453342 | 0.9318071 | 0.1482342 | 0.9745660 | 0.9993335 | 1.0000000 |
Matrice des corrélations visuellement
La matrice des corrélations met en évidence les corrélations entre les variables actives . Ici, cette matrice résulte de l’application de l’algorithme avec présence de pondération .
On peut voir que la variable Téléphone fixe n’est corrélée avec aucunes des autres variables.
La variable Téléviseur couleur est davantage proche de la corrélation négative avec les autres variables (points orange sur le graphique).
Les autres variables sont fortement corrélées entre elles.
Perspective:
Nous pouvons regrouper les variables Micro ordinateur et Connexion à Internet car elles sont fortement corrélées (angle très proche de 0° entre les deux).
7 Bilan des distances entre les «individus»
Sans pondérations:
Avec pondérations:
On retrouve ci-dessus le bilan des distances entre les individus, le premier est sans présence de pondération, le deuxième les contient.
Le but de cette partie est d’ interpréter la position des individus sur chacun des axes en se basant sur le sens de chacun afin de répondre à la problématique énoncée en début de document.
On peut voir en comparant les deux, que la présence de pondération place l’individu illustrative Ensemble quasiment au centre des deux axes (logique). Cependant, sans pondérations, l’ensemble est attiré par l’individu Retraités car sans le poids, l’impact de cet individu est plus important, en effet l’écart en termes d’équipements avec les autres individus est plus élevé.
Nous allons par la suite interpréter uniquement le bilan des distances entre individus avec pondération en projetant visuellement les individus sur le plan.
Nous le faisons visuellement car théoriquement pour l’Analyse par Composantes Principales il n’est pas possible de superposer les individus sur le plan des variables actives car ce ne sont pas les mêmes dimensions même si sur R nous pouvons le faire (exemple à l’appui).
Projection des individus sur le plan
Nous remarquns que les Retraités sont sur-équipés en équipements traditionnels et sous-équipés en équipements modernes par rapport à la moyenne (en revenant sur les données : 2 fois moins de détention d’un micro ordinateur que les invidus Professions intermédiaires ).
L’individu Autres inactifs sont sous-équipés pour tous les types de média mais davantage repoussé par les médias modernes que les médias traditionnels où l’écart est plus éloigné par rapport à la moyenne.
Les Employés et Ouvriers sont en sous-équipement de Téléphone portable par rapport à la moyenne et le reste des individus. L’écart est plus élevé qu’avec les autres variables, c’est pour cela que la variable Téléphone portable repousse ces deux individus.
Les autres individus sont sur-équipés en équipement moderne.
8 Conclusion : Réponse à la problématique
Pour répondre à la problématique, les analyses effectuées nous ont permis de visualiser qu’effectivement l’équipement des ménages en multimedia diffère selon la catégorie socioprofessionnelle.