Introduction

Dans le monde de Youtube, il y a plusieurs de chaînes de musique du jazz tels que « Sunday Morning Jazz », « Night Newyork Jazz Music » et « Warm Jazz Music to Studying ». Le week-end, le matin, j’accède à Youtube et recherche « jazz » pour écouter la musique avec mon petit-déjeuner. Comme la chaîne est en direct, les utilisateurs peuvent commentaire sur la chaîne et communiquer avec d’autres amateurs de la musique. Les commentaires sont généralement « Bonjour », « Hello from Roumania », « Buenas noches. Hora de dormir. Hasta manana » et cetera. Mais, il y a deux semaines, lors que j’ai pris un croissant avec la musique, j’ai vu un commentaire qui disait « THE EARTH IS FLAT ».

Selon David Aaronovitch, un journaliste et auteur anglais, la croyance de conspirationnistes est « l’assomption inutile d’un complot lorsque d’autres explications sont plus probables » (Voodoo Histories: the role of Conspiracy Theory in Modern History (2009)). Des théories de complot comme Mark Jukerberg est un reptillien ou le terror tragique du 11 septembre s’est organisé par le gouvernement américain attirent toujours l’attention surtout par les gens n’ayant pas la confiance du régime présent. La majorité des citoyens ne savent pas la vie d’ultrariche ou de la maison blanche qui est cachée, et en raison de désir des humains de trouver une causalité sur un effet, les théories de complot qui explique un effet mystère (ex. le succès énorme de Jukerberg ou l’accident incompréhensible du 11 septembre) par une cause incertaine, mais plausible sont bien vendus.

Étant donné qu’un conspirationniste extrême peut donner une grande confusion dans le monde, l’équipe de recherche du département de psychologie à l’Université Goldsmiths a créé un baromètre qui s’appelle GCBS (Generic Conspiracist Beliefs Scale) pour mieux comprendre les conspirationnistes . Dans cette analyse, nous allons examiner les questions les uns les autres pour constater leurs corrélations, et si ce baromètre est efficace pour identifier un conspirationniste.

I. Analyse sommaire

Data summary
Name data_complot
Number of rows 2495
Number of columns 72
_______________________
Column type frequency:
character 1
numeric 71
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
major 1140 0.54 1 45 0 549 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Q1 0 1 3.47 1.46 0 2.0 4 5.0 5 ▅▃▃▇▇
Q2 0 1 2.96 1.49 0 2.0 3 4.0 5 ▇▆▅▇▇
Q3 0 1 2.05 1.39 0 1.0 1 3.0 5 ▇▂▂▂▂
Q4 0 1 2.64 1.45 0 1.0 2 4.0 5 ▇▅▃▅▃
Q5 0 1 3.25 1.47 0 2.0 4 5.0 5 ▆▅▃▇▇
Q6 0 1 3.11 1.51 0 2.0 3 4.0 5 ▇▅▅▇▇
Q7 0 1 2.67 1.51 0 1.0 2 4.0 5 ▇▅▃▅▅
Q8 0 1 2.45 1.57 0 1.0 2 4.0 5 ▇▂▂▂▃
Q9 0 1 2.23 1.42 0 1.0 2 3.0 5 ▇▃▂▂▂
Q10 0 1 3.50 1.39 1 2.0 4 5.0 5 ▃▃▃▇▇
Q11 0 1 3.27 1.40 0 2.0 4 4.0 5 ▅▅▆▇▇
Q12 0 1 2.64 1.50 0 1.0 2 4.0 5 ▇▅▃▅▃
Q13 0 1 2.10 1.38 0 1.0 1 3.0 5 ▇▂▂▂▂
Q14 0 1 2.96 1.49 0 1.0 3 4.0 5 ▇▆▅▇▆
Q15 0 1 4.23 1.10 0 4.0 5 5.0 5 ▁▁▁▃▇
E1 0 1 44419.90 1354595.17 0 5912.5 8124 12396.0 67558859 ▇▁▁▁▁
E2 0 1 51506.46 1614006.11 0 5779.5 8161 11685.5 77868015 ▇▁▁▁▁
E3 0 1 6663.95 10890.20 0 3524.0 4858 7020.5 281827 ▇▁▁▁▁
E4 0 1 22867.94 656245.87 0 4087.5 5666 8164.5 32021352 ▇▁▁▁▁
E5 0 1 7548.48 9892.17 0 4167.5 5783 8225.5 227606 ▇▁▁▁▁
E6 0 1 8060.43 9338.07 0 4497.5 6286 8974.0 211752 ▇▁▁▁▁
E7 0 1 8209.94 36656.93 0 4233.0 5856 8108.5 1342932 ▇▁▁▁▁
E8 0 1 4762.67 7820.86 0 2580.5 3529 5137.5 257289 ▇▁▁▁▁
E9 0 1 6599.96 11945.75 0 3473.5 5005 7219.0 454068 ▇▁▁▁▁
E10 0 1 9222.48 18519.04 415 4794.0 6637 9493.0 653298 ▇▁▁▁▁
E11 0 1 8850.74 15473.03 0 4695.5 6370 8951.0 412550 ▇▁▁▁▁
E12 0 1 11173.00 100152.02 0 4835.5 6710 9621.5 4946876 ▇▁▁▁▁
E13 0 1 6547.33 6090.03 0 3789.0 5468 7532.0 119049 ▇▁▁▁▁
E14 0 1 7660.73 7594.38 0 4439.5 6096 8600.0 188979 ▇▁▁▁▁
E15 0 1 7665.19 23886.00 0 3782.5 5155 7373.0 836054 ▇▁▁▁▁
introelapse 0 1 850.00 8176.97 1 3.0 8 40.0 198370 ▇▁▁▁▁
testelapse 0 1 288.24 3452.49 3 81.0 107 141.5 108420 ▇▁▁▁▁
surveyelapse 0 1 298.52 2964.64 6 105.0 137 188.0 102231 ▇▁▁▁▁
TIPI1 0 1 3.48 1.99 0 2.0 3 5.0 7 ▇▇▇▅▇
TIPI2 0 1 4.37 1.86 0 3.0 5 6.0 7 ▂▃▅▇▇
TIPI3 0 1 4.78 1.76 0 3.0 5 6.0 7 ▁▂▅▅▇
TIPI4 0 1 4.33 2.04 0 2.0 5 6.0 7 ▃▃▅▅▇
TIPI5 0 1 5.63 1.41 0 5.0 6 7.0 7 ▁▁▂▂▇
TIPI6 0 1 5.02 1.83 0 4.0 5 7.0 7 ▁▁▃▃▇
TIPI7 0 1 4.97 1.76 0 4.0 5 6.0 7 ▁▁▃▃▇
TIPI8 0 1 4.03 1.92 0 2.0 5 5.0 7 ▅▅▆▇▇
TIPI9 0 1 4.36 1.93 0 3.0 5 6.0 7 ▂▂▆▃▇
TIPI10 0 1 2.54 1.65 0 1.0 2 3.0 7 ▇▆▆▂▂
VCL1 0 1 0.97 0.16 0 1.0 1 1.0 1 ▁▁▁▁▇
VCL2 0 1 0.94 0.23 0 1.0 1 1.0 1 ▁▁▁▁▇
VCL3 0 1 0.55 0.50 0 0.0 1 1.0 1 ▆▁▁▁▇
VCL4 0 1 0.98 0.15 0 1.0 1 1.0 1 ▁▁▁▁▇
VCL5 0 1 0.95 0.21 0 1.0 1 1.0 1 ▁▁▁▁▇
VCL6 0 1 0.10 0.31 0 0.0 0 0.0 1 ▇▁▁▁▁
VCL7 0 1 0.27 0.45 0 0.0 0 1.0 1 ▇▁▁▁▃
VCL8 0 1 0.45 0.50 0 0.0 0 1.0 1 ▇▁▁▁▆
VCL9 0 1 0.06 0.24 0 0.0 0 0.0 1 ▇▁▁▁▁
VCL10 0 1 0.97 0.18 0 1.0 1 1.0 1 ▁▁▁▁▇
VCL11 0 1 0.31 0.46 0 0.0 0 1.0 1 ▇▁▁▁▃
VCL12 0 1 0.17 0.37 0 0.0 0 0.0 1 ▇▁▁▁▂
VCL13 0 1 0.79 0.41 0 1.0 1 1.0 1 ▂▁▁▁▇
VCL14 0 1 0.93 0.26 0 1.0 1 1.0 1 ▁▁▁▁▇
VCL15 0 1 0.97 0.17 0 1.0 1 1.0 1 ▁▁▁▁▇
VCL16 0 1 0.98 0.13 0 1.0 1 1.0 1 ▁▁▁▁▇
education 0 1 2.32 0.95 0 2.0 2 3.0 4 ▁▃▇▅▂
urban 0 1 2.12 0.76 0 2.0 2 3.0 3 ▁▃▁▇▆
gender 0 1 1.56 0.60 0 1.0 2 2.0 3 ▁▇▁▇▁
engnat 0 1 1.24 0.44 0 1.0 1 1.0 2 ▁▁▇▁▂
age 0 1 43.37 684.59 13 18.0 22 35.0 33769 ▇▁▁▁▁
hand 0 1 1.18 0.50 0 1.0 1 1.0 3 ▁▇▁▁▁
religion 0 1 4.18 3.70 0 1.0 2 6.0 12 ▇▂▂▁▂
orientation 0 1 1.66 1.17 0 1.0 1 2.0 5 ▇▂▁▁▁
race 0 1 3.84 0.92 0 4.0 4 4.0 5 ▁▁▁▇▁
voted 0 1 1.66 0.49 0 1.0 2 2.0 2 ▁▁▃▁▇
married 0 1 1.26 0.56 0 1.0 1 1.0 3 ▁▇▁▂▁
familysize 0 1 2.56 2.36 0 2.0 2 3.0 98 ▇▁▁▁▁

Il y a 2 495 réponses et 72 colonnes dans ce jeu de données. 71 colonnes sont quantitatives et une seule colonne est qualitative (‘major’). Dans le test, les participants ont répondu à 15 questions et le temps employés sur chaque question est mesuré. Le temps employé sur la lecture de l’introduction, sur le test entier et sur les questions personnelles est également enregistré. Pour catégoriser les caractéristiques des participants, il y a 10 questions pour s’évaluer de ‘Disagree strongly’ à ‘Agree strongly’. Seize colonnes de VCL concernent leur connaissances des mots anglais. Les participants cochent les cases, s’ils comprennent chaque mot. Si oui, un point; sinon, zéro point. Sur les autres colonnes, l’investigateur demande du niveau de l’éducation, l’urbanisation, le genre, la langue maternelle (anglais ou non), l’âge, l’usage de main (la droite ou la gauche), la religion, l’orientation sexuelle, la race, la participation de vote, le mariage, la taille de famille et la spécialité des études. Sauf les 15 premières questions, il n’est pas obligatoire de répondre à toutes les autres.

Nettoyage de données (âge)
Sur la colonne de l’âge, la valeur maximale est 33 769 qui dit qu’il y a sûrement des faux données. Donc on supprime les lignes celles qui one de plus de 200 ans. Avec le filtre, nous allons continuer notre analyse avec des données des participants qui ont de 13 ans à 75 ans.


II. Analyse des réponses avec les questions supplémentaires

Objectif

Le but de cette partie est pour analyser les réponses des 15 questions qui sont inventées pour identifier un conspirationniste. De quoi parlent-elles, et comment souvent un même type (sujet) de questions sont-elles demandées ? Quelle question est plus cruciale que les autres afin d’identifier un conspirationniste. A quelle question les conspirationnistes ont-ils réagit le plus ? Pour répondre ces questions, on met les colonnes de questions (Q1-Q15) aux variables actives, et pour mieux comprendre les réponses de chaque participant, nous verrons les questions personnelles en tant que les variables supplémentaires.

Méthode

Pour répondre à nos questions, nous utilisons la méthode AFC (l’analyse factoriel des correspondances) qui montre la corrélation entre les variables. Vu que les variables actives sont toutes quantitatives (le score de 1 à 5), on a choisi la PCA (Principal Component Analysis en anglas), un type de AFC. Pour les variables supplémentaires, nous choisissons ‘education’, ‘urban’, ‘gender’, ‘engnat (si sa langue maternelle est l’anglais)’, ‘age’, ‘hand (la droite, la gauche ou les deux)’, ‘religion’, ‘orientation (sexuelle)’, ‘race’, ‘voted (Avez-vous voté dans le temps passé ?)’, ‘married’ et ‘family size (Avez-vous combien de frère ou sœur?)’. Sauf les colonnes ‘age’ et ‘family size’, toutes les variables sont catégoricales, parce que les réponses comme ‘Male’, ‘Female’, ‘Yes’, ‘Christian (Catholic)’ sont toutes vectorisées au nombre (ex. Male:1, Female:2, Other:3).

Étape

En premier lieu, nous sélectionnons les colonnes de réponses (Q1-Q15) et les questions supplémentaires (12 dernières questionss quantitatives).

En deuxième, on applique la PCA aux réponses, les variables actives, et aux questions personnelles, les variables supplémentaires en utilisant ‘quanti.sup’. Tout d’abord, les 15 questions sont ci-dessous.


1. The government is involved in the murder of innocent citizens and/or well-known public figures, and keeps this a secret.
2. The power held by heads of state is second to that of small unknown groups who really control world politics.
3. Secret organizations communicate with extraterrestrials, but keep this fact from the public.
4. The spread of certain viruses and/or diseases is the result of the deliberate, concealed efforts of some organization.
5. Groups of scientists manipulate, fabricate, or suppress evidence in order to deceive the public.
6. The government permits or perpetrates acts of terrorism on its own soil, disguising its involvement.
7. A small, secret group of people is responsible for making all major decisions, such as going to war.
8. Evidence of alien contact is being concealed from the public.
9. Technology with mind-control capacities is used on people without their knowledge.
10. New and advanced technology which would harm current industry is being suppressed.
11. The government uses people as patsies to hide its involvement in criminal activity.
12. Certain significant events have been the result of the activity of a small group who secretly manipulate world events.
13. Some UFO sightings and rumours are planned or staged in order to distract the public from real alien contact.
14. Experiments involving new drugs or technologies are routinely carried out on the public without their knowledge or consent.
15. A lot of important information is deliberately concealed from the public out of self-interest.


Résultat

En analysant le deuxième graphe (‘Variables - PCA’), nous pouvons voir que les questions 3, 8 et 13 sont très associées les unes aux autres, toutes portant sur l’existence des extraterrestres. Par ailleurs, toutes les flèches sont assez éloignées du centre, ce qui indique que toutes les questions sont importantes pour identifier un conspirationniste.

En raison de l’angle orthogonal, on peut voir que la question 15, qui concerne l’information intentionnellement cachée, n’a pas trop de relation avec les trois questions sur les extraterrestres. La question 9 (technologie utilisée de manière immorale) se situe au milieu, ce qui montre qu’elle est plus ou moins liée aux 3 questions et aussi aux autres questions. Les questions situées entre Q3 et Q15 sont plus liées à la question 15 qu’aux questions sur les extraterrestres, parce qu’elles sont plus proches à la Q15. Pour les variables supplémentaires, on peut constater que le genre (‘gender’) a une corrélation avec Q3, Q8, Q13, et qu’une corrélation négative entre l’éducation et les trois questions. L’impact de ces deux questions personnelles semble être faible, mais nous essayons d’examiner en détail la corrélation de ces questions.


II-1 Analyse supplémentaire des questions Q3/Q8/Q13 par genre

sum(complot_q_others$gender == 0)
## [1] 6

En premier lieu, nous avons choisi les colonnes de Q3/Q8/Q13 et de genre. Pour répondre à leur genre, ils ont trois choix : homme, femme et autre. Comme il y a 6 lignes de zéro, ce qui indique qu’ils n’ont pas choisi de genre, nous les supprimons.

## # A tibble: 3 × 5
##   gender mean_Q3 mean_Q8 mean_Q13  mean
##    <dbl>   <dbl>   <dbl>    <dbl> <dbl>
## 1      1    1.83    2.21     1.95  2.00
## 2      2    2.26    2.67     2.23  2.39
## 3      3    2.27    2.79     2.45  2.50

Pour calculer le score moyen de chaque genre, nous avons regroupé les lignes par genre et calculé la moyenne pour chaque question. Pour la dernière colonne, nous avons ajouté une colonne de la valeur moyenne du total des trois questions. En observant la colonne ‘mean’ dans le tableau, on peut constater que le genre 2 (femme) et le genre 3 (autre) sont plus en accord avec l’existence des extraterrestres que le genre 1 (homme). Cependant, étant donné que le score de ‘3’ correspond à la réponse ‘Neutral’ entre ‘Disagree’ et ‘Agree’, les scores moyens pour les femmes et les autres genres sont plutôt proches de ‘disagree’, niant ainsi l’existence des extraterrestres. Par conséquent, bien qu’il y ait des différences de réponse pour ces trois questions entre les genres, leur impact n’est pas assez fort pour identifier un croyant en l’existence des extraterrestres. C’est pourquoi la flèche du ‘gender’ sur le graphique de PCA n’est pas assez éloignée du centre.

##               Q3        Q8       Q13    gender
## Q3     1.0000000 0.7836580 0.7115403 0.1445374
## Q8     0.7836580 1.0000000 0.7568983 0.1465646
## Q13    0.7115403 0.7568983 1.0000000 0.1145328
## gender 0.1445374 0.1465646 0.1145328 1.0000000


Selon ce nuage de points, on peut voir plus clairement que les trois questions sont fortement associées, car les lignes dans le graphique sont toutes positives, et les valeurs de corrélation sont supérieures à 0.7. Cependant, en ce qui concerne le genre, les lignes sont faiblement positives ou même plates, ce qui indique une corrélation faible entre le genre et les trois questions.

(Exemple du score de questions)


II-2 Analyse supplémentaire des questions Q3/Q8/Q13 par éducation

Dans le graphique de PCA, nous avons indiqué que les variables de la colonne d’éducation ont une corrélation négative avec les questions sur les extraterrestres. Tout comme pour le genre, la flèche représentant l’éducation sur le graphe de PCA n’est pas assez éloignée du centre. Nous pouvons prévoir que l’impact de l’éducation sur le score de Q3/Q8/Q13 ne sera pas très significatif, mais nous le vérifierons ci-dessous.

sum(complot_q_others$education == 0)
## [1] 38

Il y a 38 personnes qui n’ont pas répondu à la question d’éducation. On les supprime avant de continuer l’analyse.

## # A tibble: 4 × 5
##   education mean_Q3 mean_Q8 mean_Q13  mean
##       <dbl>   <dbl>   <dbl>    <dbl> <dbl>
## 1         1    2.26    2.68     2.31  2.42
## 2         2    2.19    2.64     2.25  2.36
## 3         3    1.79    2.19     1.86  1.95
## 4         4    1.78    2.04     1.85  1.89

Pour indiquer le niveau d’éducation, il y a quatre choix : 1 (Moins de lycée), 2 (Lycée), 3 (Licence) et 4 (Master). Ainsi, si le chiffre dans la colonne d’éducation est élevé, cela signifie qu’il a un niveau d’éducation élevé.

Sur le tableau, le score moyen des trois questions est calculé pour chaque niveau d’éducation. On peut observer que plus le niveau d’éducation est élevé, moins le score des trois questions est élevé, ce qui indique que davantage de personnes moins éduquées croient en l’existence des extraterrestres. Comme le niveau d’éducation est inversement proportionnel au score moyen, on peut constater la corrélation négative entre les deux variables. Cependant, à l’instar du genre, étant donné que tous les scores sont inférieurs à 3 (Neutral), on ne peut affirmer qu’il existe une forte corrélation négative.

##                   Q3         Q8        Q13  education
## Q3         1.0000000  0.7836722  0.7106293 -0.1363612
## Q8         0.7836722  1.0000000  0.7564919 -0.1512293
## Q13        0.7106293  0.7564919  1.0000000 -0.1323304
## education -0.1363612 -0.1512293 -0.1323304  1.0000000


Avec un scatterplot, on peut voir cette corrélation plus clairement. Les lignes qui représentent la relation entre Q3, Q8 et Q13 sont toutes positives et fortes. Cependant, les lignes liées à ‘education’ sont toutes négatives et faibles. Dans le tableau de corrélation entre les quatre, la valeur de corrélation entre les trois questions soit supérieure à 0.7, mais la valeur avec l’éducation est inférieure à zéro (-0.1).


III. Analyse des caractères (TIPI)

Objectif

Le caractère est l’un des éléments importants pour définir une personne. Selon son caractère, il ou elle pense de manière différente et agit différemment. Dans cette analyse, nous examinons comment le GCBS a catégorisé les caractères humains et quels caractères les participants présentent.

Méthode

Étant donné que les variables de caractères sont également vectorisées sur une échelle de 7 (de ‘Disagree strongly’ à ‘Agree strongly’), nous utilisons la PCA pour les analyser. Avec la PCA, nous avons clairement identifié 4 catégories de caractères. Par conséquent, nous tentons de les regrouper en utilisant les analyses DIANA et HCPC.

Étape

En examinant les résultats de la fonction skim, on constate la présence de valeurs nulles indiquant des réponses non cochées. Nous les supprimons afin d’analyser les TIPI de manière plus précise.

Data summary
Name complot_tipi
Number of rows 2493
Number of columns 10
_______________________
Column type frequency:
numeric 10
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
TIPI1 0 1 3.48 1.99 0 2 3 5 7 ▇▇▇▅▇
TIPI2 0 1 4.37 1.86 0 3 5 6 7 ▂▃▅▇▇
TIPI3 0 1 4.78 1.76 0 3 5 6 7 ▁▂▅▅▇
TIPI4 0 1 4.33 2.04 0 2 5 6 7 ▃▃▅▅▇
TIPI5 0 1 5.63 1.42 0 5 6 7 7 ▁▁▂▃▇
TIPI6 0 1 5.03 1.83 0 4 5 7 7 ▁▁▃▃▇
TIPI7 0 1 4.97 1.76 0 4 5 6 7 ▁▁▃▃▇
TIPI8 0 1 4.03 1.92 0 2 5 5 7 ▅▅▆▇▇
TIPI9 0 1 4.37 1.93 0 3 5 6 7 ▂▂▆▃▇
TIPI10 0 1 2.54 1.64 0 1 2 3 7 ▇▆▆▂▂

Avant d’appliquer le PCA, voyons comment le test GCBS a divisé le caractère en 10.

• TIPI1 : Extraverted, enthusiastic
• TIPI2 : Critical, quarrelsome
• TIPI3 : Dependable, self-disciplined
• TIPI4 : Anxious, easily upset
• TIPI5 : Open to new experiences, complex
• TIPI6 : Reserved, quiet
• TIPI7 : Sympathetic, warm
• TIPI8 : Disorganized, careless
• TIPI9 : Calm, emotionally stable
• TIPI10 : Conventional, uncreative

Résultat


PCA

Sur le graphe de PCA, on peut clairement catégoriser les 10 caractères en 4 :
1) TIPI1, TIPI5, TIPI7 (Extraverted, Open to new experiences, Sympathetic)
2) TIPI9, TIPI3 (Calm, Dependable)
3) TIPI6, TIPI10 (Reserved, Conventional)
4) TIPI2, TIPI4, TIPI8 (Critical, Anxious, Disorganized)


Corrélation entre les TIPIs

cor(complot_tipi$TIPI3, complot_tipi$TIPI1)
## [1] 0.1026556
cor(complot_tipi$TIPI10, complot_tipi$TIPI1)
## [1] -0.1183365
cor(complot_tipi$TIPI1, complot_tipi$TIPI7)
## [1] 0.2634109

Ce graphique montre la corrélation entre les 10 types de caractères. Par exemple, une personne qui pense qu’elle est ‘Extraverted’ croit également qu’elle est ‘Open to new experience’ et ‘Sympathetic’.

L’angle des flèches de chaque groupe est presque orthogonal, soit 180 degrés. Ainsi, il n’y a pas de relation, voire une relation négative, entre les 4 groupes. Par exemple, il y a presque aucune corrélation (0.14) entre TIPI3 et TIPI1 (angle presque orthogonal), et une relation négative est observée (-0.11) entre TIPI10 et TIPI1 avec un angle de 180 degrés. Même si ce n’est pas très grand, on peut observer une corrélation positive (0.26) entre TIPI1 et TIPI7 (même direction).

La couleur des flèches indique la mesure de contribution de chaque TIPI. Les variables qui sont proches du bleu ciel, telles que TIPI1, 9, 6, 4, ont davantage contribué à la création de ce graphique en raison de leur indice pondéré.


Dimension

##             Dim.1       Dim.2        Dim.3       Dim.4        Dim.5
## TIPI1   0.5356160  0.62073801 -0.187087775  0.32324332  0.009535522
## TIPI2  -0.3766141  0.08643934 -0.674132932 -0.03599672  0.360411307
## TIPI3   0.5551297 -0.41305710 -0.003586579  0.16751518  0.481323877
## TIPI4  -0.7041017  0.21866757  0.292340134  0.22543680  0.381902355
## TIPI5   0.4145500  0.37259787 -0.009774506 -0.51993983  0.172877125
## TIPI6  -0.3450302 -0.67201377  0.297206454 -0.37970516  0.050218283
## TIPI7   0.3272001  0.31862364  0.699906352  0.18452832  0.035024036
## TIPI8  -0.4484923  0.48496603 -0.006351325 -0.31493606 -0.452915869
## TIPI9   0.7120573 -0.36638555 -0.136300926 -0.15973177 -0.313016107
## TIPI10 -0.2083963 -0.34143307 -0.124477971  0.59649786 -0.414049775

Comme on peut le voir sur le graphe de PCA, le premier composant (axe X, ‘Dim 1’) explique 23.8% des variables, et le deuxième explique 17.9%. Ce graphique en barres illustre la différence de proportion d’explication des variables entre les deux premiers composants et les autres. Selon le tableau, TIPI9 est le plus pondéré pour la première dimension, et TIPI1 est le plus pondéré pour la deuxième dimension. C’est pourquoi leurs flèches sont plus longues et leurs couleurs sont plus claires.


Clustérisation (DIANA)

Passons maintenant à la clustérisation. Étant donné qu’il n’y a pas de valeurs manquantes (NA), nous pouvons passer directement à l’analyse de Diana. Nous avons utilisé ‘4’ pour le codage de visualisation de la clustérisation, car nous avons déjà clairement observé que les TIPIs sont regroupés en 4 dans le graphe de PCA.

Diana (DIvisive ANAlysis) est un type de clustering hiérarchique. Avec Diana, l’analyse commence de la racine aux feuilles, c’est-à-dire qu’on commence par un seul grand cluster et on le divise de manière répétitive jusqu’à ce que les clusters soient suffisamment distincts. Lorsque l’on a défini la valeur ‘k’ à 4 pour visualiser ce Diana, il semble que les variables soient correctement regroupées en 4 clusters.


Clustérisation (HCPC)

HCPC est une abréviation de ‘Hierarchical Clustering on Principal Components). Elle est aussi une clustering hiérarchicale par laquelle on peut mettre l’analyse multidimensionnelle comme PCA. Avec HCPC, deux graphiques ont été générés : un dendrogramme et un graphique de clustering. Nous avons choisi d’avoir 4 clusters, mais il est également possible de laisser la machine le déterminer en spécifiant’-1’. Cependant, dans ce cas, le nombre de clusters reste également 4, si la sélection est automatique. Dans le dendrogramme, les variables sont regroupées de manière appropriée en 4 clusters, comme observé déjà dans le graphique de Diana. Dans le deuxième graphique, les variables sont représentées par quatre couleurs différentes. La distribution de chaque couleur est similaire à celle observée dans le graphique de PCA.

## 
## Link between the cluster variable and the quantitative variables
## ================================================================
##              Eta2       P-value
## TIPI1  0.53990307  0.000000e+00
## TIPI9  0.53078884  0.000000e+00
## TIPI4  0.43770719 4.191866e-307
## TIPI6  0.42891314 8.213127e-299
## TIPI3  0.23998645 3.796939e-146
## TIPI8  0.19577937 5.770370e-116
## TIPI7  0.18104392 2.826266e-106
## TIPI2  0.16828611  5.006613e-98
## TIPI5  0.14220900  1.471801e-81
## TIPI10 0.04475882  2.792652e-24
## 
## Description of each cluster by quantitative variables
## =====================================================
## $`1`
##            v.test Mean in category Overall mean sd in category Overall sd
## TIPI4   26.652752         5.947837     4.364152       1.141882   2.017863
## TIPI6   16.396899         5.926209     5.056772       1.102692   1.800700
## TIPI8   13.937016         4.837150     4.057989       1.657413   1.898553
## TIPI10   5.864779         2.837150     2.554339       1.775990   1.637608
## TIPI2    5.002845         4.673028     4.402676       1.672624   1.835173
## TIPI7   -2.964988         4.847328     4.997567       1.676692   1.720774
## TIPI5  -15.219630         5.048346     5.657340       1.517566   1.358857
## TIPI3  -17.533143         3.909669     4.803731       1.734468   1.731700
## TIPI1  -22.959266         2.167939     3.501622       1.178601   1.972694
## TIPI9  -27.471537         2.846056     4.388889       1.387133   1.907221
##              p.value
## TIPI4  1.662962e-156
## TIPI6   2.012521e-60
## TIPI8   3.773924e-44
## TIPI10  4.497307e-09
## TIPI2   5.649046e-07
## TIPI7   3.026952e-03
## TIPI5   2.620095e-52
## TIPI3   8.002101e-69
## TIPI1  1.190676e-116
## TIPI9  3.842763e-166
## 
## $`2`
##            v.test Mean in category Overall mean sd in category Overall sd
## TIPI1   23.380173         5.388773     3.501622       1.297927   1.972694
## TIPI8   11.296813         4.935551     4.057989       1.650932   1.898553
## TIPI2   10.197537         5.168399     4.402676       1.445733   1.835173
## TIPI5    9.490889         6.185031     5.657340       1.005734   1.358857
## TIPI4    8.481858         5.064449     4.364152       1.560293   2.017863
## TIPI7    3.223564         5.224532     4.997567       1.623470   1.720774
## TIPI10  -6.380389         2.126819     2.554339       1.518605   1.637608
## TIPI3   -9.905543         4.101871     4.803731       1.690138   1.731700
## TIPI9  -12.789281         3.390852     4.388889       1.612400   1.907221
## TIPI6  -25.827440         3.153846     5.056772       1.594309   1.800700
##              p.value
## TIPI1  6.800868e-121
## TIPI8   1.360675e-29
## TIPI2   2.033637e-24
## TIPI5   2.290730e-21
## TIPI4   2.216258e-17
## TIPI7   1.266060e-03
## TIPI10  1.766387e-10
## TIPI3   3.938245e-23
## TIPI9   1.882065e-37
## TIPI6  4.362086e-147
## 
## $`3`
##            v.test Mean in category Overall mean sd in category Overall sd
## TIPI9   20.026703         5.677469     4.388889      1.1409812   1.907221
## TIPI6   17.380939         6.112654     5.056772      0.9644741   1.800700
## TIPI3   13.661397         5.601852     4.803731      1.2953369   1.731700
## TIPI10   5.552710         2.861111     2.554339      1.6089545   1.637608
## TIPI2    4.164226         4.660494     4.402676      1.6856826   1.835173
## TIPI5   -3.701433         5.487654     5.657340      1.3698141   1.358857
## TIPI8  -13.506295         3.192901     4.057989      1.7261994   1.898553
## TIPI4  -15.436924         3.313272     4.364152      1.7273248   2.017863
## TIPI7  -16.279903         4.052469     4.997567      1.7569158   1.720774
## TIPI1  -16.371950         2.412037     3.501622      1.3692986   1.972694
##             p.value
## TIPI9  3.223005e-89
## TIPI6  1.150540e-67
## TIPI3  1.726401e-42
## TIPI10 2.812747e-08
## TIPI2  3.124105e-05
## TIPI5  2.143852e-04
## TIPI8  1.435661e-41
## TIPI4  9.240371e-54
## TIPI7  1.370853e-59
## TIPI1  3.033391e-60
## 
## $`4`
##           v.test Mean in category Overall mean sd in category Overall sd
## TIPI9   21.73671         5.945554     4.388889      1.0455737   1.907221
## TIPI1   20.74292         5.038113     3.501622      1.5349525   1.972694
## TIPI7   17.45236         6.125227     4.997567      0.9548418   1.720774
## TIPI3   14.60149         5.753176     4.803731      1.2007499   1.731700
## TIPI5   11.90878         6.264973     5.657340      0.8448778   1.358857
## TIPI10  -6.35867         2.163339     2.554339      1.3812981   1.637608
## TIPI8  -12.06590         3.197822     4.057989      1.7808405   1.898553
## TIPI6  -12.13992         4.235935     5.056772      1.8000446   1.800700
## TIPI2  -19.69700         3.045372     4.402676      1.8382238   1.835173
## TIPI4  -21.57305         2.729583     4.364152      1.6591099   2.017863
##              p.value
## TIPI9  9.227170e-105
## TIPI1   1.420224e-95
## TIPI7   3.303174e-68
## TIPI3   2.747834e-48
## TIPI5   1.065221e-32
## TIPI10  2.035076e-10
## TIPI8   1.599099e-33
## TIPI6   6.489086e-34
## TIPI2   2.287761e-86
## TIPI4  3.217418e-103

Par la valeur d’“Eta2”, on peut identifier les variables qui permettent de mieux différencier les clusters. Entre les 10 TIPI, les valeurs de TIPI1 et TIPI9 sont les plus élevées (0.53), avec la couleur la plus claire dans le graphe de PCA. En ce qui concerne la valeur P, on peut également identifier si les variables sont importantes pour différencier les clusters. Si la valeur est inférieure à 0.001, l’importance est très significative. Ici, toutes les dix valeurs des TIPI ont des valeurs très petites.

En utilisant la valeur de v-test, on peut déterminer quel TIPI est le plus associé à chaque cluster. Nous avons sélectionné les TIPI qui ont les valeurs les plus élevées pour chaque cluster. Les résultats sont les suivants :
• Cluster 1 : TIPI4, 8, 10 (Anxious,easily upset/ Disorganized, careless/ Conventional, uncreative)
• Cluster 2 : TIPI1, 2 (Extraverted,enthusiastic/ Critical, quarrelsome)
• Cluster 3 : TIPI6 (Reserved, quiet)
• Cluster 4 : TIPI3, 5, 7, 9 (Open to new experiences,complex/ Sympathetic,warm/ Calm,emotionally stable)


Création une nouvelle colonne par quatre clusters

## $para
## Cluster: 1
##      2074       146        30       182      1878 
## 0.3726365 0.5366255 0.5502928 0.5543770 0.5546810 
## ------------------------------------------------------------ 
## Cluster: 2
##       564      1059       693      1438      1455 
## 0.4494969 0.6312015 0.7242700 0.7649118 0.7682490 
## ------------------------------------------------------------ 
## Cluster: 3
##       674      1633        70      1449      1775 
## 0.4156517 0.4526612 0.4966968 0.5404534 0.6255222 
## ------------------------------------------------------------ 
## Cluster: 4
##      1516       649       445       298      2376 
## 0.5232698 0.6468933 0.6534683 0.7106204 0.7433469 
## 
## $dist
## Cluster: 1
##     1062      374     2133     2050     2194 
## 5.717419 5.596894 5.312997 5.291330 5.269094 
## ------------------------------------------------------------ 
## Cluster: 2
##     1405      415     1027     1481     1526 
## 5.255355 4.944719 4.915170 4.657124 4.602240 
## ------------------------------------------------------------ 
## Cluster: 3
##     1508      752     1608     1001      591 
## 5.334072 5.037628 4.953957 4.947142 4.938928 
## ------------------------------------------------------------ 
## Cluster: 4
##     1669      639      993     1506     1951 
## 4.994917 4.733139 4.733139 4.733139 4.681158

Selon cette analyse de ‘para’, les individus qui sont les plus proches du centre de chaque cluster sont : 2074, 564, 674 et 1516. Cependant, les individus qui sont les plus distants du centre de chaque cluster sont : 1062, 1405, 1508 et 1669.



Suite dans la partie 2…