1 Contexte de l’étude

Nous disposons d’un jeu de données mettant en évidence l’équipement des ménages en multimédia par catégorie socioprofessionnelle. Le but de notre étude est de répondre à la problèmatique suivante : Est-ce que l’équipement des ménages en multimedia diffère selon la catégorie socioprofessionnelle ?

2 Importation des données

La première étape consiste à importer les données telles qu’elles sont avec la présence des pondérations pour chaque individu. Le but des pondérations est de pouvoir effectuer une analyse plus cohérente de la réalité.

Proportion Téléviseur.couleur Magnétoscope.ou.lecteur.DVD Téléphone.fixe Téléphone.portable Micro.ordinateur Connexion.à.Internet
Agriculteurs exploitants 1.0 95.4 77.2 90.6 92.8 83.4 79.8
Artisans, commerçants, chefs d’entreprise 3.4 97.6 85.7 90.2 97.4 92.5 90.4
Cadres et professions intellectuelles supérieures 9.4 93.5 87.3 95.8 97.9 98.6 97.3
Professions intermédiaires 13.2 96.4 87.0 92.0 97.8 96.5 93.9
Employés 15.9 97.0 83.2 86.2 96.9 89.2 86.7
Ouvriers (y c. ouvriers agricoles) 12.3 98.1 86.7 85.2 97.0 84.3 81.4
Retraités 26.5 98.9 70.8 95.5 72.4 48.3 46.2
Autres inactifs 18.3 96.0 66.4 83.6 73.0 52.5 50.8
Ensemble 100.0 97.1 79.5 90.9 87.6 75.2 73.0

Sans appliquer aucun algorithme sur ces données, nous pouvons effectuer des premières observations:

A partir de ces observations, nous constatons que pour la plupart des équipements, les proportions pour les Retraités et les Autres inactifs (représentant la moité de la population) sont plus éloignées que pour le reste des individus.

L’analyse par composantes principales (ACP) va nous permettre d’effectuer une analyse exploratoire des données plus poussées que nos observations effectuées au premier coup d’oeil et de ressortir davantage l’information pertinente mise en valeur du jeu de données.

Les étapes de l’algorithme présentées par la suite sont détaillées et suivent le mode opératoire fourni.

3 Classes des variables

Proportion numeric
Téléviseur.couleur numeric
Magnétoscope.ou.lecteur.DVD numeric
Téléphone.fixe numeric
Téléphone.portable numeric
Micro.ordinateur numeric
Connexion.à.Internet numeric

Pour rappel, l’algorithme s’effectue uniquement sur des variables quantitatives .

L’ensemble des variables étant des variables quantitatives, nous pouvons donc passer à la prochaine étape sans effectuer aucunes transformations sur aucunes des variables

La première étape de l’algorithme consiste à déterminer le nombre d’axes à retenir

4 Choix des individus et variables actives

4.1 Choix des individus

Nous avons choisi de mettre l’individu Ensemble en individu illustratif car c’est un individu qui apparait dans la totalité des autres individus. Il y aurait redondance d’informations si cet individu serait considéré comme actif.

4.2 Choix des variables

La variable Proportion qui correspond à la pondération pour chaque individu n’a pas à intervenir dans l’algorithme comme variable active . Elle intervient uniquement comme pondération, poid pour chaque individu.

5 Choix des axes

Cette étape consiste à déterminer le nombre d’axes à retenir permettant de garder le maximum d’information.

Pour cela, nous allons utilisé deux des critères présentés dans le mode opératoire.

Analyse des valeurs propres:

eigenvalue percentage of variance cumulative percentage of variance
comp 1 3.9241361 78.4827228 78.48272
comp 2 1.0168545 20.3370906 98.81981
comp 3 0.0554385 1.1087693 99.92858
comp 4 0.0034781 0.0695629 99.99815
comp 5 0.0000927 0.0018544 100.00000

L’ inertie totale est contenue dans 5 valeurs propres.

1er critère:

D’après le critère de Kaiser , les deux premiers axes permettent de synthétiser et visualiser l’information.

Ils restituent près de 99% de l’inertie totale, soit près de 99% de la quantité d’information contenue.

2ème critère

Cette représentation met en évidence graphiquement le pourcentage de variable pour chaque axe.

D’après le critère de coude , même s’il y a un écart important en termes d’inertie entre le premier et le deuxième axe, nous décidons de garder le deuxième axe pour garantir la récupération du maximum d’informations. Nous nous arrêtons donc à la première “cassure”.

6 Bilan des liaisons entre variables actives

Sans pondérations:

Avec pondérations:

Au niveau des axes, on retrouve en première information principale :

On retrouve en deuxuème information principale:

En comparant les deux bilans des liaisons entre variables actives ci-dessus, on peut voir que la présence de la pondération fait passer la variable Téléphone fixe d’un média traditionnel à un média.

Cela est dû à la pondération élévée des Retraités qui détiennent une proportion plus grande par rapport à la moyenne de posséder un Téléphone fixe .

La pondération joue aussi un rôle important pour la variable Téléviseur couleur sur le deuxième axe.

Les variables les plus proches du bord du cercle comme Téléphone fixe sont celles qui sont bien représentées par le plan factoriel.

Matrice des corrélations

Téléviseur.couleur Magnétoscope.ou.lecteur.DVD Téléphone.fixe Téléphone.portable Micro.ordinateur Connexion.à.Internet
Téléviseur.couleur 1.0000000 -0.1760011 -0.1948621 -0.3009041 -0.4340067 -0.4453342
Magnétoscope.ou.lecteur.DVD -0.1760011 1.0000000 0.1810395 0.9473025 0.9309745 0.9318071
Téléphone.fixe -0.1948621 0.1810395 1.0000000 0.0403789 0.1387677 0.1482342
Téléphone.portable -0.3009041 0.9473025 0.0403789 1.0000000 0.9798076 0.9745660
Micro.ordinateur -0.4340067 0.9309745 0.1387677 0.9798076 1.0000000 0.9993335
Connexion.à.Internet -0.4453342 0.9318071 0.1482342 0.9745660 0.9993335 1.0000000

Matrice des corrélations visuellement

La matrice des corrélations met en évidence les corrélations entre les variables actives . Ici, cette matrice résulte de l’application de l’algorithme avec présence de pondération .

On peut voir que la variable Téléphone fixe n’est corrélée avec aucunes des autres variables.

La variable Téléviseur couleur est davantage proche de la corrélation négative avec les autres variables (points orange sur le graphique).

Les autres variables sont fortement corrélées entre elles.

Perspective:

Nous pouvons regrouper les variables Micro ordinateur et Connexion à Internet car elles sont fortement corrélées (angle très proche de 0° entre les deux).

7 Bilan des distances entre les «individus»

Sans pondérations:

Avec pondérations:

On retrouve ci-dessus le bilan des distances entre les individus, le premier est sans présence de pondération, le deuxième les contient.

Le but de cette partie est d’ interpréter la position des individus sur chacun des axes en se basant sur le sens de chacun afin de répondre à la problématique énoncée en début de document.

On peut voir en comparant les deux, que la présence de pondération place l’individu illustrative Ensemble quasiment au centre des deux axes (logique). Cependant, sans pondérations, l’ensemble est attiré par l’individu Retraités car sans le poids, l’impact de cet individu est plus important, en effet l’écart en termes d’équipements avec les autres individus est plus élevé.

Nous allons par la suite interpréter uniquement le bilan des distances entre individus avec pondération en projetant visuellement les individus sur le plan.

Nous le faisons visuellement car théoriquement pour l’Analyse par Composantes Principales il n’est pas possible de superposer les individus sur le plan des variables actives car ce ne sont pas les mêmes dimensions même si sur R nous pouvons le faire (exemple à l’appui).

Projection des individus sur le plan

Nous remarquns que les Retraités sont sur-équipés en équipements traditionnels et sous-équipés en équipements modernes par rapport à la moyenne (en revenant sur les données : 2 fois moins de détention d’un micro ordinateur que les invidus Professions intermédiaires ).

L’individu Autres inactifs sont sous-équipés pour tous les types de média mais davantage repoussé par les médias modernes que les médias traditionnels où l’écart est plus éloigné par rapport à la moyenne.

Les Employés et Ouvriers sont en sous-équipement de Téléphone portable par rapport à la moyenne et le reste des individus. L’écart est plus élevé qu’avec les autres variables, c’est pour cela que la variable Téléphone portable repousse ces deux individus.

Les autres individus sont sur-équipés en équipement moderne.

8 Conclusion : Réponse à la problématique

Pour répondre à la problématique, les analyses effectuées nous ont permis de visualiser qu’effectivement l’équipement des ménages en multimedia diffère selon la catégorie socioprofessionnelle.