Première partie

Introduction

Introduction Dans le monde de Youtube, il y a plusieurs de chaînes de musique du jazz tels que « Sunday Morning Jazz », « Night Newyork Jazz Music ». Le week-end matin, j’accède à Youtube et recherche « jazz » pour écouter la musique avec mon petit-déjeuner. Vu que la chaîne est en direct, les utilisateurs peuvent commentaire sur la chaîne et communiquer avec d’autres amateurs de la musique. Les commentaires sont normalement « Bonjour », « Hello from Roumania », « Buenas noches. Hora de dormir. Hasta manana » et cetera. Mais, il y a deux semaines, lors que j’ai pris un croissant avec la musique, j’ai vu un commentaire qui disait « THE EARTH IS FLAT ».

D’après David Aaronovitch, un journaliste et auteur anglais, la croyance de complotiste est « l’assomption inutile d’un complot lorsque d’autres explications sont plus probables » dans son livre Voodoo Histories: the role of Conspiracy Theory in Modern History (2009). Des théories de complot comme Mark Jukerberg est un reptillien ou le terror tragique du 11 septembre s’est organisé par le gouvernement américain attirent toujours l’attention surtout par les gens qui n’ont pas la confiance du régime présent. La majorité des citoyens ne savent pas la vie d’ultrariche ou de la maison blanche qui est cachée, et en raison de désir des humains de trouver une causalité sur un effet, les théories de complot qui explique un effet mystère (ex. le succès énorme de Jukerberg ou l’accident incompréhensible du 11 septembre) par une cause incertaine, mais plausible sont bien vendus.

Etant donné qu’un complotiste extrême peut donner une grande confusion dans le monde, l’équipe de recherche du département de psychologie à l’Université Goldsmiths a créé un baromètre qui s’appelle GCBS (Generic Conspiracist Beliefs Scale) pour identifier un complotiste . Dans cet analyse, on va analyser les questions les uns les autres pour voir leurs corrélations et si cette méthode est efficace pour identifier un complotiste. ****

I. Analyse sommaire

Data summary
Name data_complot
Number of rows 2495
Number of columns 72
_______________________
Column type frequency:
character 1
numeric 71
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
major 1140 0.54 1 45 0 549 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Q1 0 1 3.47 1.46 0 2.0 4 5.0 5 ▅▃▃▇▇
Q2 0 1 2.96 1.49 0 2.0 3 4.0 5 ▇▆▅▇▇
Q3 0 1 2.05 1.39 0 1.0 1 3.0 5 ▇▂▂▂▂
Q4 0 1 2.64 1.45 0 1.0 2 4.0 5 ▇▅▃▅▃
Q5 0 1 3.25 1.47 0 2.0 4 5.0 5 ▆▅▃▇▇
Q6 0 1 3.11 1.51 0 2.0 3 4.0 5 ▇▅▅▇▇
Q7 0 1 2.67 1.51 0 1.0 2 4.0 5 ▇▅▃▅▅
Q8 0 1 2.45 1.57 0 1.0 2 4.0 5 ▇▂▂▂▃
Q9 0 1 2.23 1.42 0 1.0 2 3.0 5 ▇▃▂▂▂
Q10 0 1 3.50 1.39 1 2.0 4 5.0 5 ▃▃▃▇▇
Q11 0 1 3.27 1.40 0 2.0 4 4.0 5 ▅▅▆▇▇
Q12 0 1 2.64 1.50 0 1.0 2 4.0 5 ▇▅▃▅▃
Q13 0 1 2.10 1.38 0 1.0 1 3.0 5 ▇▂▂▂▂
Q14 0 1 2.96 1.49 0 1.0 3 4.0 5 ▇▆▅▇▆
Q15 0 1 4.23 1.10 0 4.0 5 5.0 5 ▁▁▁▃▇
E1 0 1 44419.90 1354595.17 0 5912.5 8124 12396.0 67558859 ▇▁▁▁▁
E2 0 1 51506.46 1614006.11 0 5779.5 8161 11685.5 77868015 ▇▁▁▁▁
E3 0 1 6663.95 10890.20 0 3524.0 4858 7020.5 281827 ▇▁▁▁▁
E4 0 1 22867.94 656245.87 0 4087.5 5666 8164.5 32021352 ▇▁▁▁▁
E5 0 1 7548.48 9892.17 0 4167.5 5783 8225.5 227606 ▇▁▁▁▁
E6 0 1 8060.43 9338.07 0 4497.5 6286 8974.0 211752 ▇▁▁▁▁
E7 0 1 8209.94 36656.93 0 4233.0 5856 8108.5 1342932 ▇▁▁▁▁
E8 0 1 4762.67 7820.86 0 2580.5 3529 5137.5 257289 ▇▁▁▁▁
E9 0 1 6599.96 11945.75 0 3473.5 5005 7219.0 454068 ▇▁▁▁▁
E10 0 1 9222.48 18519.04 415 4794.0 6637 9493.0 653298 ▇▁▁▁▁
E11 0 1 8850.74 15473.03 0 4695.5 6370 8951.0 412550 ▇▁▁▁▁
E12 0 1 11173.00 100152.02 0 4835.5 6710 9621.5 4946876 ▇▁▁▁▁
E13 0 1 6547.33 6090.03 0 3789.0 5468 7532.0 119049 ▇▁▁▁▁
E14 0 1 7660.73 7594.38 0 4439.5 6096 8600.0 188979 ▇▁▁▁▁
E15 0 1 7665.19 23886.00 0 3782.5 5155 7373.0 836054 ▇▁▁▁▁
introelapse 0 1 850.00 8176.97 1 3.0 8 40.0 198370 ▇▁▁▁▁
testelapse 0 1 288.24 3452.49 3 81.0 107 141.5 108420 ▇▁▁▁▁
surveyelapse 0 1 298.52 2964.64 6 105.0 137 188.0 102231 ▇▁▁▁▁
TIPI1 0 1 3.48 1.99 0 2.0 3 5.0 7 ▇▇▇▅▇
TIPI2 0 1 4.37 1.86 0 3.0 5 6.0 7 ▂▃▅▇▇
TIPI3 0 1 4.78 1.76 0 3.0 5 6.0 7 ▁▂▅▅▇
TIPI4 0 1 4.33 2.04 0 2.0 5 6.0 7 ▃▃▅▅▇
TIPI5 0 1 5.63 1.41 0 5.0 6 7.0 7 ▁▁▂▂▇
TIPI6 0 1 5.02 1.83 0 4.0 5 7.0 7 ▁▁▃▃▇
TIPI7 0 1 4.97 1.76 0 4.0 5 6.0 7 ▁▁▃▃▇
TIPI8 0 1 4.03 1.92 0 2.0 5 5.0 7 ▅▅▆▇▇
TIPI9 0 1 4.36 1.93 0 3.0 5 6.0 7 ▂▂▆▃▇
TIPI10 0 1 2.54 1.65 0 1.0 2 3.0 7 ▇▆▆▂▂
VCL1 0 1 0.97 0.16 0 1.0 1 1.0 1 ▁▁▁▁▇
VCL2 0 1 0.94 0.23 0 1.0 1 1.0 1 ▁▁▁▁▇
VCL3 0 1 0.55 0.50 0 0.0 1 1.0 1 ▆▁▁▁▇
VCL4 0 1 0.98 0.15 0 1.0 1 1.0 1 ▁▁▁▁▇
VCL5 0 1 0.95 0.21 0 1.0 1 1.0 1 ▁▁▁▁▇
VCL6 0 1 0.10 0.31 0 0.0 0 0.0 1 ▇▁▁▁▁
VCL7 0 1 0.27 0.45 0 0.0 0 1.0 1 ▇▁▁▁▃
VCL8 0 1 0.45 0.50 0 0.0 0 1.0 1 ▇▁▁▁▆
VCL9 0 1 0.06 0.24 0 0.0 0 0.0 1 ▇▁▁▁▁
VCL10 0 1 0.97 0.18 0 1.0 1 1.0 1 ▁▁▁▁▇
VCL11 0 1 0.31 0.46 0 0.0 0 1.0 1 ▇▁▁▁▃
VCL12 0 1 0.17 0.37 0 0.0 0 0.0 1 ▇▁▁▁▂
VCL13 0 1 0.79 0.41 0 1.0 1 1.0 1 ▂▁▁▁▇
VCL14 0 1 0.93 0.26 0 1.0 1 1.0 1 ▁▁▁▁▇
VCL15 0 1 0.97 0.17 0 1.0 1 1.0 1 ▁▁▁▁▇
VCL16 0 1 0.98 0.13 0 1.0 1 1.0 1 ▁▁▁▁▇
education 0 1 2.32 0.95 0 2.0 2 3.0 4 ▁▃▇▅▂
urban 0 1 2.12 0.76 0 2.0 2 3.0 3 ▁▃▁▇▆
gender 0 1 1.56 0.60 0 1.0 2 2.0 3 ▁▇▁▇▁
engnat 0 1 1.24 0.44 0 1.0 1 1.0 2 ▁▁▇▁▂
age 0 1 43.37 684.59 13 18.0 22 35.0 33769 ▇▁▁▁▁
hand 0 1 1.18 0.50 0 1.0 1 1.0 3 ▁▇▁▁▁
religion 0 1 4.18 3.70 0 1.0 2 6.0 12 ▇▂▂▁▂
orientation 0 1 1.66 1.17 0 1.0 1 2.0 5 ▇▂▁▁▁
race 0 1 3.84 0.92 0 4.0 4 4.0 5 ▁▁▁▇▁
voted 0 1 1.66 0.49 0 1.0 2 2.0 2 ▁▁▃▁▇
married 0 1 1.26 0.56 0 1.0 1 1.0 3 ▁▇▁▂▁
familysize 0 1 2.56 2.36 0 2.0 2 3.0 98 ▇▁▁▁▁

Il y a 2 495 réponses et 72 colonnes dans ce jeu de données. 71 colonnes sont quantitatives et une seule colonne est qualitative (‘major’). Dans ce test, les participants ont répondu sur 15 questions et le temps employés sur chaque question est mesuré. Le temps employé sur la lecture de l’introduction, sur le test entier et sur les questions personnelles est également enregistré. Pour catégoriser les caratères des participants, il y 10 questions pour évaluer soi-même de ‘Disagree strongly’ à ‘Agree strongly’. Par 16 colonnes de VCL sont à propos de la leur connaissance des mots anglais. Les participants cochent les cases, s’ils comprennent chaque mot. Si oui, un point, si non, zéro point. Sur les autres colonnes, l’investigateur demande du niveau de l’éducation, l’urbanisation, le genre, la langue maternelle (anglais ou non), l’âge, l’usage de main (la droite ou la gauche), la religion, l’orientation sexuelle, la race, la participation de vote, le mariage, la taille de famille et la spécialité des études. Sauf les première 15 questions, toutes les autres ne sont pas obligatoires de répondre.

Sur la colonne de ‘age’ la valeur maximale est 33 769 qui dit qu’il y a sûrement des faux données. Donc on supprime les lignes celles qui one de plus de 200 ans. Avec le filtre, nous allons continuer notre analyse avec des données des répondeurs qui ont de 13 ans à 75 ans.

Nettoyage de données (âge)

data_complot <- data_complot %>% filter(data_complot$age < 200)
summary(data_complot$age)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   13.00   18.00   22.00   27.63   35.00   75.00

II. Analyse des réponses avec les questions personnelles (Q1-Q15)

Objectif

Le but de cette partie est pour analyser les réponses des 15 questions qui sont inventées pour identifier un complotiste. Que parle ou quel sujet parlent-t-elles, et comment souvent un même type (sujet) de questions sont-elles demandées ? Quelle question est plus cruciale que les autres afin d’identifier un complotiste. A quelle question les complotistes ont-ils réagit le plus ? Pour répondre ces questions, on met les colonnes de questions (Q1-Q15) aux variables actives, et pour mieux comprendre les réponses de chaque participant, nous verrons les questions personnelles en tant que les variables supplémentaires.

Méthode

Pour répondre aux nos questions, on utilise la méthode AFC (l’analyse factoriel des correspondances) qui montre la corrélation entre les variables. Vu que les variables actives sont toutes quantitatives (le score de 1 à 5), on a choisi la PCA (Principal Component Analysis en anglas), un type de AFC. Pour les variables supplémentaires, nous choisissons ‘education’, ‘urban’, ‘gender’, ‘engnat (si sa langue maternelle est l’anglais)’, ‘age’, ‘hand (la droite, la gauche ou les deux)’, ‘religion’, ‘orientation (sexuelle)’, ‘race’, ‘voted (Avez-vous voté dans le temps passé ?)’, ‘married’ et ‘family size (Avez-vous combien de frère ou soeur?)’. Sauf les colonnes ‘age’ et ‘family size’, toutes les variables sont catégoricales, parce que les réponses comme ‘Male’, ‘Female’, ‘Yes’, ‘Christian (Catholic)’ sont toutes vectorisées au nombre (ex. Male:1, Female:2, Other:3).

Étape

En premier, on va sélectionner les colonnes de réponses (Q1-Q15) et de questions (12 questions).

complot_q_others <- data_complot %>% dplyr::select(1:15,60:71)

En deuxième, on applique le PCA aux réponses, les variables actifs, et aux questions personnelles, les variables supplémentaires en utilisant ‘quanti.sup’. Tout d’abord, les 15 questions sont ci-dessous.

  1. The government is involved in the murder of innocent citizens and/or well-known public figures, and keeps this a secret.
  2. The power held by heads of state is second to that of small unknown groups who really control world politics.
  3. Secret organizations communicate with extraterrestrials, but keep this fact from the public. 4. The spread of certain viruses and/or diseases is the result of the deliberate, concealed efforts of some organization.
  4. Groups of scientists manipulate, fabricate, or suppress evidence in order to deceive the public.
  5. The government permits or perpetrates acts of terrorism on its own soil, disguising its involvement. 7. A small, secret group of people is responsible for making all major decisions, such as going to war. 8. Evidence of alien contact is being concealed from the public.
  6. Technology with mind-control capacities is used on people without their knowledge.
  7. New and advanced technology which would harm current industry is being suppressed.
  8. The government uses people as patsies to hide its involvement in criminal activity.
  9. Certain significant events have been the result of the activity of a small group who secretly manipulate world events.
  10. Some UFO sightings and rumours are planned or staged in order to distract the public from real alien contact.
  11. Experiments involving new drugs or technologies are routinely carried out on the public without their knowledge or consent.
  12. A lot of important information is deliberately concealed from the public out of self-interest.

Résultat

## Warning: ggrepel: 10 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
## Warning: ggrepel: 1 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

fviz_pca_biplot(pca_q_others, repel = TRUE)
## Warning: ggrepel: 5 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

fviz_pca_var(pca_q_others, repel = TRUE, max.overlaps = 50, col.var = "contrib", figsize = c(12,8))
## Warning: ggrepel: 10 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

En analysant le deuxième graphe (‘Varialbes - PCA’), nous pouvons voir que les questions 3, 8 et 13 sont très associées les uns les autres, qui sont toutes à propos de l’existence de l’extraterrestre. Par ailleurs, toutes les flèches sont assez éloignées du centre, ce qui dit que toutes les questions sont importantes pour identifier un complotiste.

En raison de l’angle orthogonal, on peut voir que la question 15, qui est de l’information intentionnellement cachée, n’a pas trop de relation avec les trois questions de l’extraterrestre. La question 9 (technologie utilisée en manière immorale) se situe au milieu, ce qui montre qu’elle est plus ou moins liée aux 3 questions et aussi aux autres questions. Les questions se situant entre Q3 et Q15, sont plus liées à la question 15 que les questions de l’extraterrestre. Pour les variables supplémentaires, on peut voir le genre (‘gender’) a la corrélation avec Q3,Q8,Q13 et la religion en a avec la Q9. L’impacte de ces deux questions personnelles semblent petite, mais on essaie de voir en détail la corrélation de ces questions.


Analyse supplémentaire des questions Q3/Q8/Q13 par genre

Sélection et nettoyage de données

complot_q_others_genre <- complot_q_others %>% dplyr::select(3,8,13,18)
sum(complot_q_others$gender == 0)
## [1] 6

En premier, on a choisi que les colonnes de Q3/Q8/Q13 et de genre. Pour répondre son genre, il y a trois choix : l’homme, la femme et l’autre. Vu qu’il y a 6 lignes de ‘0’, ce qui dit qu’ils n’ont pas choisi le genre, on les supprime.

complot_q_others_genre <- complot_q_others_genre %>% filter(gender >0)

result1 <- complot_q_others_genre %>% 
            group_by(gender) %>%
            summarize(mean_Q3 = mean(Q3),
            mean_Q8 = mean(Q8),
            mean_Q13 = mean(Q13))
result1 <- result1 %>%
            mutate(mean = (mean_Q3 + mean_Q8 + mean_Q13)/3 )
result1
## # A tibble: 3 × 5
##   gender mean_Q3 mean_Q8 mean_Q13  mean
##    <dbl>   <dbl>   <dbl>    <dbl> <dbl>
## 1      1    1.83    2.21     1.95  2.00
## 2      2    2.26    2.67     2.23  2.39
## 3      3    2.27    2.79     2.45  2.50

Pour calculer le score en moyenne de chaque genre, on a groupé les lignes par genre et a calculé la moyenne pour chaque question. Pour la dernière colonne, on a ajouté la valeur moyenne du total de trois questions. En voyant la colonne ‘mean’ sur le tableau, on peut voir le genre 2 (femme) et le genre 3 (autre) sont plus d’accord à l’existence de l’extraterrestre que les hommes. Cependant, vu que le score de 3 est la réponse de ‘Neutral’ entre ‘Disagree’ et ‘Agree’, les scores moyens de la femme et de l’autre sexe sont plutôt prés de ‘disagree’ qui nie son existence. Par conséquent, bien qu’il y ait la différence de réponse de ces trois questions entre le genre, son impacte n’est pas assez fort pour identifier un croyant de l’existence de l’extraterrestre. C’est pourquoi la flèche du ‘gender’ sur le graphique de PCA n’est pas assez éloigné du centre.

cor(complot_q_others_genre)
##               Q3        Q8       Q13    gender
## Q3     1.0000000 0.7836580 0.7115403 0.1445374
## Q8     0.7836580 1.0000000 0.7568983 0.1465646
## Q13    0.7115403 0.7568983 1.0000000 0.1145328
## gender 0.1445374 0.1465646 0.1145328 1.0000000
pairs(complot_q_others_genre, panel= panel.smooth, main= "Questions d'extraterrestre et le genre")

Selon ce scatter plot, on peut voir plus clairement que les trois questions sont beaucoup associés, parce que les lignes dans le plot sont tout positives et les valeurs de corrélation sont plus de 0.7. Cependant, avec ‘gender’, les lignes sont positives en manière faible ou même plats, ce qui dit que la corrélation entre le genre et les trois questions est faible.

Exemple du score de questions * * * #### Analyse supplémentaire des questions Q3/Q8/Q13 par éducation Dans le graphique de PCA, on a indiqué que les variables de la colonne ‘education’ est une corrélation négative avec les questions de l’exterrestre.

Ce serait très intéressant si on peut voir la corrélation entre la religion et la question 9, parce qu’on voyerons lequel réligion est le plus défiant à la nouvelle technologie. Comme le genre, la flèche du ‘religion’ sur le graphe de PCA n’est pas assez éloigné du centre. Nous pouvons prévoir que l’impacte de religion sur le score de Q9 ne sera pas grand, mais on le vérifiera ci-dessous.

sum(complot_q_others$education == 0)
## [1] 38

Il y a 38 personnes qui n’ont pas répondu à la question d’éducation. On les supprime avant de continuer l’analyse.

complot_q_others_education <- complot_q_others %>% dplyr::select(3,8,13,16)
complot_q_others_education <- complot_q_others_education %>% filter(education >0)

result2 <- complot_q_others_education %>% 
            group_by(education) %>%
            summarize(mean_Q3 = mean(Q3), mean_Q8 = mean(Q8), mean_Q13=mean(Q13)) %>%
            mutate(mean = (mean_Q3+mean_Q8+mean_Q13)/3)
result2
## # A tibble: 4 × 5
##   education mean_Q3 mean_Q8 mean_Q13  mean
##       <dbl>   <dbl>   <dbl>    <dbl> <dbl>
## 1         1    2.26    2.68     2.31  2.42
## 2         2    2.19    2.64     2.25  2.36
## 3         3    1.79    2.19     1.86  1.95
## 4         4    1.78    2.04     1.85  1.89

Pour répondre son niveau d’éducation, il y a quatre choix : 1(Moins de lycée), 2(Lycée), 3(Licence) et 4(Master). Donc si le nombre de la colonne ‘education’ est haut, il signifie qu’il a un haut niveau d’éducation. Sur le tableau, le score moyen de toutes les trois questions de chaque est calculé. On peut savoir que si le niveau d’éducation est bas, le score moyen est haut, ce qui dit que plus de personnes moins éduquées croient l’existence des extraterrestres. Vu que le niveau d’éducation est inverse;ent proportionnel au score moyen, on peut vérifier la corrélation négative entre les deux. Cependant, comme le cas du genre, étant donnée que tous les scores sont moins de 3 (Neutral), on ne peut dire qu’il y a une forte corrélation négative.

cor(complot_q_others_education)
##                   Q3         Q8        Q13  education
## Q3         1.0000000  0.7836722  0.7106293 -0.1363612
## Q8         0.7836722  1.0000000  0.7564919 -0.1512293
## Q13        0.7106293  0.7564919  1.0000000 -0.1323304
## education -0.1363612 -0.1512293 -0.1323304  1.0000000
pairs(complot_q_others_education, panel= panel.smooth, main= "Questions d'extraterrestre et l'éducation")

Avec un scatterplot, on peut voir cette corrélation plus clairement. Les lignes qui montrent la relation Q3, Q8 et Q13 sont tous positives et fortes. Cependant, les lignes avec ‘education’ sont tous négatives et faibles. Dans le tableau de corrélation entre les quatre, bien que la valeur de corrélation entre les trois question est plus de 0.7, la valeur avec ‘education’ est moins de zéro (-0.1).

Religion 3(Buddhist), 11(Sikh), 12(Other) sont plus pour le complot de technologie, et l’athéiste (2) et le jew (9) sont plus contre que les autres. Bien qu’on peut voir la différence de réponse selon le religion, leurs scores ne sont pas très différents et celui le plus haut est 3.0 qui est la réponse neutre. Donc comme on a prévu, la religion n’a pas un grand impact sur la question de complot de technologie.


III. Analyse des caractères (TIPI)

Objectif

Le caractère est un des éléments importants pour définir une personne. Selon son caractère, il ou elle pense en manière différente et agit différemment. Dans cet analyse, on voit comment GCBS a catégorisé les caractères humains, et quel caractère ont-ils les répondeurs. A la fin, on vérifie si le caractère est considérable pour identifier un complotiste.

Méthode

Vu que les variables de caractères sont également vectorisées en 7 (de ‘Disagree strongly’ à ‘Agree strongly’), on a utilisé PCA pour l’analyser. Avec PCA, on a clairement trouvé 4 catégories de caractère, donc on essaie de les clusteriser en utilisant scatterplot DIANA, HCPC, cluster…

Étape

Skim En jettant un coup d’oeil au résultat de skim, on peut voir qu’il y a des valeur ‘0’ qui montre les réponses non-cochées. On les supprime pour analyser les TIPIs plus clairement.

complot_tipi <- data_complot %>% dplyr::select(34:43)
skim(complot_tipi)
Data summary
Name complot_tipi
Number of rows 2493
Number of columns 10
_______________________
Column type frequency:
numeric 10
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
TIPI1 0 1 3.48 1.99 0 2 3 5 7 ▇▇▇▅▇
TIPI2 0 1 4.37 1.86 0 3 5 6 7 ▂▃▅▇▇
TIPI3 0 1 4.78 1.76 0 3 5 6 7 ▁▂▅▅▇
TIPI4 0 1 4.33 2.04 0 2 5 6 7 ▃▃▅▅▇
TIPI5 0 1 5.63 1.42 0 5 6 7 7 ▁▁▂▃▇
TIPI6 0 1 5.03 1.83 0 4 5 7 7 ▁▁▃▃▇
TIPI7 0 1 4.97 1.76 0 4 5 6 7 ▁▁▃▃▇
TIPI8 0 1 4.03 1.92 0 2 5 5 7 ▅▅▆▇▇
TIPI9 0 1 4.37 1.93 0 3 5 6 7 ▂▂▆▃▇
TIPI10 0 1 2.54 1.64 0 1 2 3 7 ▇▆▆▂▂
complot_tipi <- complot_tipi %>%
                filter(TIPI1 > 0, TIPI2 > 0, TIPI3 > 0, TIPI4 > 0, TIPI5 > 0, TIPI6 > 0, TIPI7 > 0, TIPI8 > 0, TIPI9 > 0, TIPI10 > 0)

Avant d’appliquer le PCA, voyons comment le test GCS a divisé le caractère en 10.

• TIPI1 : Extraverted, enthusiastic
• TIPI2 : Critical, quarrelsome
• TIPI3 : Dependable, self-disciplined
• TIPI4 : Anxious, easily upset
• TIPI5 : Open to new experiences, complex
• TIPI6 : Reserved, quiet
• TIPI7 : Sympathetic, warm
• TIPI8 : Disorganized, careless
• TIPI9 : Calm, emotionally stable
• TIPI10 : Conventional, uncreative

PCA

fviz_pca_biplot(pca_tipi, repel = TRUE)

fviz_pca_var(pca_tipi, repel = TRUE, col.var = "contrib", figsize = c(12,8))

Sur le graphe de PCA, on peut clairement catégoriser les 10 caractères en 4 :
1) TIPI1, TIPI5, TIPI7 (Extraverted, Open to new experiences, Sympathetic)
2) TIPI9, TIPI3 (Calm, Dependable)
3) TIPI6, TIPI10 (Reserved, Conventional)
4) TIPI2, TIPI4, TIPI8 (Critical, Anxious, Disorganized)

Corrélation entre les TIPIs

cor(complot_tipi$TIPI3, complot_tipi$TIPI1)
## [1] 0.1026556
cor(complot_tipi$TIPI10, complot_tipi$TIPI1)
## [1] -0.1183365
cor(complot_tipi$TIPI1, complot_tipi$TIPI7)
## [1] 0.2634109

Ce graphique montre la corrélation entre les 10 types de caractères. Par exemple, une personne qui pense qu’elle est ‘Extraverted’, croit également qu’elle est ‘Open to new experience’ et ‘Sympathetic’.
L’angle des flèches de chaque groupe est presque orthogonal ou 180, donc il n’y a pas de relation ou il y a une relation négative entre les 4 groupes. Par exemple, il n’y a presque pas de corrélation (0.14) entre TIPI3 et TIPI1 (l’angle presque orthogonal), et on voir une relation négative (-0.11) entre TIPI10 et TIPI1 ayant l’angle de 180. Même si ce n’est grand, on voir la corrélation positive (0.26) entre TIPI1 et TIPI7 (même direction).

Par la couleur de flèches, on peut savoir le mesure de contribution de chaque TIPI. Les variables qui sont près du bleu ciel, comme TIPI1,9,6,4, ont plus contribué pour la création de ce graphique par leur indice pondéré.

Dimension

fviz_screeplot(pca_tipi)

pca_tipi$var$coord
##             Dim.1       Dim.2        Dim.3       Dim.4        Dim.5
## TIPI1   0.5356160  0.62073801 -0.187087775  0.32324332  0.009535522
## TIPI2  -0.3766141  0.08643934 -0.674132932 -0.03599672  0.360411307
## TIPI3   0.5551297 -0.41305710 -0.003586579  0.16751518  0.481323877
## TIPI4  -0.7041017  0.21866757  0.292340134  0.22543680  0.381902355
## TIPI5   0.4145500  0.37259787 -0.009774506 -0.51993983  0.172877125
## TIPI6  -0.3450302 -0.67201377  0.297206454 -0.37970516  0.050218283
## TIPI7   0.3272001  0.31862364  0.699906352  0.18452832  0.035024036
## TIPI8  -0.4484923  0.48496603 -0.006351325 -0.31493606 -0.452915869
## TIPI9   0.7120573 -0.36638555 -0.136300926 -0.15973177 -0.313016107
## TIPI10 -0.2083963 -0.34143307 -0.124477971  0.59649786 -0.414049775

Comme on peut voir sur le graphe de PCA, le premier composant (axe X, ‘Dim 1’) explique 23.8% des variables et le deuxième explique 17.9%. Ce graphique de barre montre la différence de proportion d’explication de variables, entre les deux premiers composatns et les autres. Selon le tableau, TIPI9 est le plus pondéré pour la première dimension, et TIPI1 est le plus pondéré pour la deuxième dimension. C’est pourquoi leurs flèches sont plus longues et leures couleurs sont plus claires.

Clustérisation (DIANA)

Maintenant, plongeons dans la clustérisation. Vu qu’il n’y a pas de valeur vide (NA), on avance directement à l’analyse de Diana. On a mis ‘4’ dans le codage de visualisation de clustérisation, parce qu’on a déjà clairement vu le fait que les TIPIs sont groupés par 4 par PCA.

complot_tipi %>% diana() -> tipi_diana
fviz_dend(tipi_diana, k = 4)

Diana (DIvisive ANAlysis) est un type de clustering hiérarchique. Par Diana, un analyse est commencé de la racine aux feuilles, c’est-à-dire qu’on commence par un seul grand cluster et on le divise de manière répétitive jusqu’à que les clusters sont assez distincts. Lorsque qu’on a mis 4 à la valeur ‘k’ pour visualiser ce Diana, il semble que les variables soient bien justement clustérisées en 4.

Clustérisation (HCPC)

complot_tipi_hcpc <- HCPC(pca_tipi, nb.clust = 4)

HCPC est une abbréviation de ‘Hierarchical Clustering on Principal Components). Elle est aussi une clustering hiérarchicale par laquelle on peut mettre l’analyse multidimensionnelle comme PCA. Par HCPC, on a mis deux graphiques : un dendograme et un cluster. On a mis 4 pour le nombre de cluster, mais on peut aussi laisser la machine le choisir en mettant’-1’. Mais dans ce cas, il est également 4 si on le fait automatiquement. Dans le dendorgrame, les variables sont bien justement clustérisées en 4, comme le graphique de Diana. Dans le deuxième graphique, les variables sont divisées en quatre couleurs. La limite de chaque couleur est similar à celle qu’on a vu par le graphique de PCA.

complot_tipi_hcpc$desc.var  
## 
## Link between the cluster variable and the quantitative variables
## ================================================================
##              Eta2       P-value
## TIPI1  0.53990307  0.000000e+00
## TIPI9  0.53078884  0.000000e+00
## TIPI4  0.43770719 4.191866e-307
## TIPI6  0.42891314 8.213127e-299
## TIPI3  0.23998645 3.796939e-146
## TIPI8  0.19577937 5.770370e-116
## TIPI7  0.18104392 2.826266e-106
## TIPI2  0.16828611  5.006613e-98
## TIPI5  0.14220900  1.471801e-81
## TIPI10 0.04475882  2.792652e-24
## 
## Description of each cluster by quantitative variables
## =====================================================
## $`1`
##            v.test Mean in category Overall mean sd in category Overall sd
## TIPI4   26.652752         5.947837     4.364152       1.141882   2.017863
## TIPI6   16.396899         5.926209     5.056772       1.102692   1.800700
## TIPI8   13.937016         4.837150     4.057989       1.657413   1.898553
## TIPI10   5.864779         2.837150     2.554339       1.775990   1.637608
## TIPI2    5.002845         4.673028     4.402676       1.672624   1.835173
## TIPI7   -2.964988         4.847328     4.997567       1.676692   1.720774
## TIPI5  -15.219630         5.048346     5.657340       1.517566   1.358857
## TIPI3  -17.533143         3.909669     4.803731       1.734468   1.731700
## TIPI1  -22.959266         2.167939     3.501622       1.178601   1.972694
## TIPI9  -27.471537         2.846056     4.388889       1.387133   1.907221
##              p.value
## TIPI4  1.662962e-156
## TIPI6   2.012521e-60
## TIPI8   3.773924e-44
## TIPI10  4.497307e-09
## TIPI2   5.649046e-07
## TIPI7   3.026952e-03
## TIPI5   2.620095e-52
## TIPI3   8.002101e-69
## TIPI1  1.190676e-116
## TIPI9  3.842763e-166
## 
## $`2`
##            v.test Mean in category Overall mean sd in category Overall sd
## TIPI1   23.380173         5.388773     3.501622       1.297927   1.972694
## TIPI8   11.296813         4.935551     4.057989       1.650932   1.898553
## TIPI2   10.197537         5.168399     4.402676       1.445733   1.835173
## TIPI5    9.490889         6.185031     5.657340       1.005734   1.358857
## TIPI4    8.481858         5.064449     4.364152       1.560293   2.017863
## TIPI7    3.223564         5.224532     4.997567       1.623470   1.720774
## TIPI10  -6.380389         2.126819     2.554339       1.518605   1.637608
## TIPI3   -9.905543         4.101871     4.803731       1.690138   1.731700
## TIPI9  -12.789281         3.390852     4.388889       1.612400   1.907221
## TIPI6  -25.827440         3.153846     5.056772       1.594309   1.800700
##              p.value
## TIPI1  6.800868e-121
## TIPI8   1.360675e-29
## TIPI2   2.033637e-24
## TIPI5   2.290730e-21
## TIPI4   2.216258e-17
## TIPI7   1.266060e-03
## TIPI10  1.766387e-10
## TIPI3   3.938245e-23
## TIPI9   1.882065e-37
## TIPI6  4.362086e-147
## 
## $`3`
##            v.test Mean in category Overall mean sd in category Overall sd
## TIPI9   20.026703         5.677469     4.388889      1.1409812   1.907221
## TIPI6   17.380939         6.112654     5.056772      0.9644741   1.800700
## TIPI3   13.661397         5.601852     4.803731      1.2953369   1.731700
## TIPI10   5.552710         2.861111     2.554339      1.6089545   1.637608
## TIPI2    4.164226         4.660494     4.402676      1.6856826   1.835173
## TIPI5   -3.701433         5.487654     5.657340      1.3698141   1.358857
## TIPI8  -13.506295         3.192901     4.057989      1.7261994   1.898553
## TIPI4  -15.436924         3.313272     4.364152      1.7273248   2.017863
## TIPI7  -16.279903         4.052469     4.997567      1.7569158   1.720774
## TIPI1  -16.371950         2.412037     3.501622      1.3692986   1.972694
##             p.value
## TIPI9  3.223005e-89
## TIPI6  1.150540e-67
## TIPI3  1.726401e-42
## TIPI10 2.812747e-08
## TIPI2  3.124105e-05
## TIPI5  2.143852e-04
## TIPI8  1.435661e-41
## TIPI4  9.240371e-54
## TIPI7  1.370853e-59
## TIPI1  3.033391e-60
## 
## $`4`
##           v.test Mean in category Overall mean sd in category Overall sd
## TIPI9   21.73671         5.945554     4.388889      1.0455737   1.907221
## TIPI1   20.74292         5.038113     3.501622      1.5349525   1.972694
## TIPI7   17.45236         6.125227     4.997567      0.9548418   1.720774
## TIPI3   14.60149         5.753176     4.803731      1.2007499   1.731700
## TIPI5   11.90878         6.264973     5.657340      0.8448778   1.358857
## TIPI10  -6.35867         2.163339     2.554339      1.3812981   1.637608
## TIPI8  -12.06590         3.197822     4.057989      1.7808405   1.898553
## TIPI6  -12.13992         4.235935     5.056772      1.8000446   1.800700
## TIPI2  -19.69700         3.045372     4.402676      1.8382238   1.835173
## TIPI4  -21.57305         2.729583     4.364152      1.6591099   2.017863
##              p.value
## TIPI9  9.227170e-105
## TIPI1   1.420224e-95
## TIPI7   3.303174e-68
## TIPI3   2.747834e-48
## TIPI5   1.065221e-32
## TIPI10  2.035076e-10
## TIPI8   1.599099e-33
## TIPI6   6.489086e-34
## TIPI2   2.287761e-86
## TIPI4  3.217418e-103

Par la valeur d’Eta2, on peut identifier les variables qui mieux permettent de différencier les clusters. Entre 10 TIPIs, les valeurs de TIPI1 et TIPI9 sont les plus (0.53) en ayant la couleur la plus claire dans le graphe de PCA. Par la valeur de P-value, on peut également identifier si les variables sont importantes pour différencier le cluster. Si la valeur est moins de 0.001, elle est très grand son importance. Ici, tous les dix TIPIs ont les valeurs très petites.

Par la valeur de v.test, on peut trouver quel TIPI est le plus associé à chque cluster. On a sélectionné la valeur le plus grande de chaque TIPI pour les mettre à chaque clster. Le résultat est comme ci-dessous.
• Cluster 1 : TIPI4, 8, 10 (Anxious,easily upset/ Disorganized, careless/ Conventional, uncreative) • Cluster 2 : TIPI1, 2 (Extraverted,enthusiastic/ Critical, quarrelsome) • Cluster 3 : TIPI6 (Reserved, quiet) • Cluster 4 : TIPI3, 5, 7, 9 (Open to new experiences,complex/ Sympathetic,warm/ Calm,emotionally stable)

Création une nouvelle colonne par quatre clusters

complot_tipi_2 <- complot_tipi_hcpc$data.clust
complot_tipi_merged <- cbind(complot_tipi,complot_tipi_2)
complot_tipi_merged <- complot_tipi_merged[,-c(11:20)]
view(complot_tipi_merged)
complot_tipi_hcpc$desc.ind
## $para
## Cluster: 1
##      2074       146        30       182      1878 
## 0.3726365 0.5366255 0.5502928 0.5543770 0.5546810 
## ------------------------------------------------------------ 
## Cluster: 2
##       564      1059       693      1438      1455 
## 0.4494969 0.6312015 0.7242700 0.7649118 0.7682490 
## ------------------------------------------------------------ 
## Cluster: 3
##       674      1633        70      1449      1775 
## 0.4156517 0.4526612 0.4966968 0.5404534 0.6255222 
## ------------------------------------------------------------ 
## Cluster: 4
##      1516       649       445       298      2376 
## 0.5232698 0.6468933 0.6534683 0.7106204 0.7433469 
## 
## $dist
## Cluster: 1
##     1062      374     2133     2050     2194 
## 5.717419 5.596894 5.312997 5.291330 5.269094 
## ------------------------------------------------------------ 
## Cluster: 2
##     1405      415     1027     1481     1526 
## 5.255355 4.944719 4.915170 4.657124 4.602240 
## ------------------------------------------------------------ 
## Cluster: 3
##     1508      752     1608     1001      591 
## 5.334072 5.037628 4.953957 4.947142 4.938928 
## ------------------------------------------------------------ 
## Cluster: 4
##     1669      639      993     1506     1951 
## 4.994917 4.733139 4.733139 4.733139 4.681158

Selon cet analyse de ‘para’, les individus qui sont les plus proches du centre de chaque cluster sont : 2074, 564, 674, 1516. Cependant, les individus qui sont les plus distants du centre de chaque cluster sont ; 1062, 1405, 1508, 1669.


IV. Analyse de VCL

VCL est un catégorie pour voir si un répondeur comprend un mot proposé. Les répondeurs cochent la boîte des mots ci-dessous, s’ils comprend. Pour être sûr qu’on a quel ordre, on a comparé le score moyen des mots ‘robot (0.97)’ et ‘abysmal (0.78)’, parce que un des deux est VCL4. Si ‘robot’ est VCL4, le mot ‘abysmal’ sera VCL13 ou l’inverse. Vu que la moyenne de VCL4 est plus haut, on présume l’ordre vertical de ce tableau.

mean(data_complot\(VCL4) mean(data_complot\)VCL13)

Objectif

Dans cet analyse, on va comparer 16 mots avec deux colonnes de ‘education’ et ‘urban’, parce qu’on peut présumer qu’une personne qui a un diplôme plus haut comprend plus de mots. D’ailleurs, en analysant ‘urban’ ensemble, on peut voir si le région a impacte sur le niveau d’éducation et la compréhension des mots.

Étape

On utilise toujour PCA, puisque toutes les variables sont vectorisées. Les colonnes de 16 VCL, d’éducation et de région sera selectionnées. Il y a quatre niveaux d’éducation : Moins de lycée, Lycée, Licence, Master Il y a trois type de régions : Campagne, Suburbain, Urbain La liste des mots pour le test est un mixte des mots faciles, moyens et difficiles.

• VCL1 : boat
• VCL2 : incoherent
• VCL3 : pallid
• VCL4 : robot
• VCL5 : audible
• VCL6 : cuivocal
• VCL7 : paucity
• VCL8 : epistemology
• VCL9 : florted
• VCL10 : decide
• VCL11 : pastiche
• VCL12 : verdid
• VCL13 : abysmal
• VCL14 : lucid
• VCL15 : betray
• VCL16 : funny

complot_vcl_edu <- data_complot %>% select(60:61,44:59)
skim(complot_vcl_edu)
Data summary
Name complot_vcl_edu
Number of rows 2493
Number of columns 18
_______________________
Column type frequency:
numeric 18
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
education 0 1 2.32 0.95 0 2 2 3 4 ▁▃▇▅▂
urban 0 1 2.12 0.76 0 2 2 3 3 ▁▃▁▇▆
VCL1 0 1 0.97 0.16 0 1 1 1 1 ▁▁▁▁▇
VCL2 0 1 0.94 0.23 0 1 1 1 1 ▁▁▁▁▇
VCL3 0 1 0.55 0.50 0 0 1 1 1 ▆▁▁▁▇
VCL4 0 1 0.98 0.15 0 1 1 1 1 ▁▁▁▁▇
VCL5 0 1 0.95 0.21 0 1 1 1 1 ▁▁▁▁▇
VCL6 0 1 0.10 0.31 0 0 0 0 1 ▇▁▁▁▁
VCL7 0 1 0.27 0.45 0 0 0 1 1 ▇▁▁▁▃
VCL8 0 1 0.45 0.50 0 0 0 1 1 ▇▁▁▁▆
VCL9 0 1 0.06 0.24 0 0 0 0 1 ▇▁▁▁▁
VCL10 0 1 0.97 0.18 0 1 1 1 1 ▁▁▁▁▇
VCL11 0 1 0.31 0.46 0 0 0 1 1 ▇▁▁▁▃
VCL12 0 1 0.17 0.37 0 0 0 0 1 ▇▁▁▁▂
VCL13 0 1 0.79 0.41 0 1 1 1 1 ▂▁▁▁▇
VCL14 0 1 0.93 0.26 0 1 1 1 1 ▁▁▁▁▇
VCL15 0 1 0.97 0.17 0 1 1 1 1 ▁▁▁▁▇
VCL16 0 1 0.98 0.13 0 1 1 1 1 ▁▁▁▁▇

La moyenne de la colonne d’éducation est 2.3 qui est entre ‘Lycée’ et ‘Licence’. Celle de région est 2.1 qui est plutôt ‘Suburban’. Les mots que de plus de 90% de répondeurs ont compris sont : ‘boat’, ‘incoherent’, ‘robot’, ‘audible’, ‘decide’, ‘lucid’, ‘betray’, ‘funny’ (VCL1,2,4,5,10,14,15,16) Les mots que de moins de 20% de répondeurs ont compris sont : ‘cuivocal’, ‘florted’, ‘verdid’ (VCL6,9,12)

PCA

pca_vcl_edu <- PCA(complot_vcl_edu, quanti.sup = 1:2)

En voyant le graphe de PCA, les mots sont globalement divisés en deux : les mot faciles et les mots difficiles. D’ailleurs, VCL13(‘abysmal’) se situe au milieu de deux grands groupes, c’est-à-dire que ce mot est plus ou moins associé à tous les deux groupes. Avec les variables supplémentaires, on peut voir une corrélation entre la colonne ‘education’ et un groupe constitué des mots difficiles. Cependant, la corrélation ne semble pas grande, parce que la longeur de flèche de l’éducation n’est pas assez éloignée du centre.

complot_vcl_edu %>% diana() -> vcl_diana
fviz_dend(vcl_diana, k = 3)

table(vcl_diana$dc)
## 
## 0.950418605382541 
##                 1
vcl_hcpc <- HCPC(pca_vcl_edu, nb.clust = -1)

vcl_hcpc$desc.var
## 
## Link between the cluster variable and the quantitative variables
## ================================================================
##                 Eta2       P-value
## VCL1      0.50803753  0.000000e+00
## VCL4      0.54644455  0.000000e+00
## VCL7      0.49726183  0.000000e+00
## VCL11     0.52003538  0.000000e+00
## VCL15     0.52881327  0.000000e+00
## VCL10     0.38390297 1.297625e-262
## VCL16     0.36828422 4.462160e-249
## VCL8      0.28141989 2.049327e-179
## VCL3      0.27900703 1.330855e-177
## VCL2      0.27575187 3.629051e-175
## VCL5      0.24407927 5.045881e-152
## VCL13     0.16458155  5.895974e-98
## VCL14     0.13851306  2.424542e-81
## education 0.07797593  1.270897e-44
## VCL12     0.06694337  3.431346e-38
## VCL9      0.03169349  3.854772e-18
## VCL6      0.02825196  3.193914e-16
## 
## Description of each cluster by quantitative variables
## =====================================================
## $`1`
##           v.test Mean in category Overall mean sd in category Overall sd
## VCL6    3.103605       0.24444444   0.10429202      0.4297573  0.3056390
## VCL9    2.754999       0.15555556   0.05936623      0.3624335  0.2363089
## VCL7   -2.456554       0.11111111   0.27276374      0.3142697  0.4453804
## VCL8   -4.354958       0.13333333   0.45367028      0.3399346  0.4978489
## VCL3   -5.958162       0.11111111   0.54913759      0.3142697  0.4975796
## VCL13 -11.599081       0.08888889   0.78860810      0.2845833  0.4082957
## VCL14 -16.497682       0.28888889   0.92619334      0.4532462  0.2614560
## VCL5  -23.989831       0.20000000   0.95266747      0.4000000  0.2123492
## VCL2  -25.307920       0.06666667   0.94183714      0.2494438  0.2340511
## VCL16 -30.294454       0.40000000   0.98275170      0.4898979  0.1301952
## VCL10 -30.796960       0.15555556   0.96710790      0.3624335  0.1783542
## VCL1  -35.531681       0.11111111   0.97232250      0.3142697  0.1640471
## VCL15 -36.292830       0.06666667   0.97071801      0.2494438  0.1685958
## VCL4  -36.894738       0.13333333   0.97553149      0.3399346  0.1544986
##             p.value
## VCL6   1.911784e-03
## VCL9   5.869229e-03
## VCL7   1.402768e-02
## VCL8   1.330921e-05
## VCL3   2.550901e-09
## VCL13  4.165268e-31
## VCL14  3.812505e-61
## VCL5  3.550780e-127
## VCL2  2.613310e-141
## VCL16 1.356337e-201
## VCL10 2.877888e-208
## VCL1  1.594060e-276
## VCL15 2.099280e-288
## VCL4  5.612065e-298
## 
## $`2`
##               v.test Mean in category Overall mean sd in category Overall sd
## VCL4        5.341295       0.98919649   0.97553149     0.10337696  0.1544986
## VCL15       5.167677       0.98514517   0.97071801     0.12097174  0.1685958
## VCL16       4.868490       0.99324781   0.98275170     0.08189385  0.1301952
## VCL1        3.974626       0.98311951   0.97232250     0.12882366  0.1640471
## VCL10       2.220676       0.97366644   0.96710790     0.16012527  0.1783542
## VCL2       -2.589035       0.93180284   0.94183714     0.25208394  0.2340511
## VCL14      -5.722463       0.90141796   0.92619334     0.29810002  0.2614560
## VCL6       -8.199080       0.06279541   0.10429202     0.24259461  0.3056390
## VCL9       -8.786712       0.02498312   0.05936623     0.15607358  0.2363089
## VCL12     -12.534376       0.08980419   0.16726835     0.28590102  0.3732153
## education -13.464290       2.11141121   2.32250301     0.88981678  0.9467803
## VCL13     -14.473899       0.69074949   0.78860810     0.46218463  0.4082957
## VCL3      -24.361204       0.34841323   0.54913759     0.47646768  0.4975796
## VCL8      -25.053465       0.24713032   0.45367028     0.43134316  0.4978489
## VCL7      -34.237646       0.02025658   0.27276374     0.14087673  0.4453804
## VCL11     -35.201816       0.04321404   0.31367830     0.20333861  0.4639873
##                 p.value
## VCL4       9.228518e-08
## VCL15      2.370215e-07
## VCL16      1.124542e-06
## VCL1       7.048998e-05
## VCL10      2.637292e-02
## VCL2       9.624526e-03
## VCL14      1.049904e-08
## VCL6       2.422329e-16
## VCL9       1.540008e-18
## VCL12      4.841582e-36
## education  2.537471e-41
## VCL13      1.771389e-47
## VCL3      4.410772e-131
## VCL8      1.600466e-138
## VCL7      6.660460e-257
## VCL11     1.875643e-271
## 
## $`3`
##              v.test Mean in category Overall mean sd in category Overall sd
## VCL11     35.929701        0.7331954   0.31367830     0.44228936  0.4639873
## VCL7      35.176126        0.6670114   0.27276374     0.47128251  0.4453804
## VCL8      26.438939        0.7849018   0.45367028     0.41089048  0.4978489
## VCL3      26.179310        0.8769390   0.54913759     0.32850723  0.4975796
## VCL13     17.756060        0.9710445   0.78860810     0.16768157  0.4082957
## education 13.938889        2.6546019   2.32250301     0.93680187  0.9467803
## VCL12     12.910484        0.2885212   0.16726835     0.45307474  0.3732153
## VCL14     10.274727        0.9937952   0.92619334     0.07852552  0.2614560
## VCL2       9.524020        0.9979317   0.94183714     0.04543099  0.2340511
## VCL5       8.277094        0.9968976   0.95266747     0.05561253  0.2123492
## VCL9       8.102572        0.1075491   0.05936623     0.30981012  0.2363089
## VCL6       7.415104        0.1613237   0.10429202     0.36782924  0.3056390
## VCL10      6.176507        0.9948294   0.96710790     0.07172096  0.1783542
## VCL1       5.702512        0.9958635   0.97232250     0.06418251  0.1640471
## VCL15      4.708112        0.9906929   0.97071801     0.09602350  0.1685958
## VCL4       4.697596        0.9937952   0.97553149     0.07852552  0.1544986
## VCL16      3.370724        0.9937952   0.98275170     0.07852552  0.1301952
##                 p.value
## VCL11     1.050378e-282
## VCL7      4.635178e-271
## VCL8      4.890572e-154
## VCL3      4.572232e-151
## VCL13      1.547207e-70
## education  3.676192e-44
## VCL12      3.928256e-38
## VCL14      9.160316e-25
## VCL2       1.666062e-21
## VCL5       1.262174e-16
## VCL9       5.380942e-16
## VCL6       1.215290e-13
## VCL10      6.553526e-10
## VCL1       1.180548e-08
## VCL15      2.500219e-06
## VCL4       2.632419e-06
## VCL16      7.497084e-04