La colonne de ‘VCL’ représente des mots anglais conçus pour évaluer la littéracie des participants du test. Avec ces données, nous allons les analyser afin de distinguer un locuteur natif anglais. En général, un locuteur natif a une meilleure connaissance des mots anglais, mais il existe également des mots faciles que beaucoup de non-locuteurs connaissent déjà. En examinant les résultats de cette analyse, nous pourrions déterminer quels mots contribuent le plus à distinguer un locuteur natif anglais.
© National Trust Images / James Dobson
Pour dire simplement, l’arbre de décision (‘Decision tree’) divise les variables selon une condition spécifique. La variable la plus importante se situe en haut et on l’appelle ‘Nœud racine’ (‘Root node’). Si les nœuds se situent au-dessus des autres nœuds, ils s’appellent ‘Nœud parent’ (‘Parent node’) et ceux qui sont en dessous de chaque nœud parental s’appellent ‘Nœud enfant’ (‘Child node’). Les nœuds qui se situent le plus bas sont appelés ‘Nœud feuille’ (‘Leaf node’). ‘Nœud interne’ (‘Internal node’) signifie les nœuds qui ne sont pas un ‘Nœud feuille’. L’importance de chaque nœud, c’est-à-dire la position de chaque nœud, est décidée par le gain d’information (‘Information gain’). Le gain d’information est calculé par la valeur d’entropie. Si la valeur d’entropie est élevée, cela signifie que les variables sont bien mélangées de manière arbitraire, mais si la valeur est zéro, c’est-à-dire que les variables sont toutes les mêmes.
En premier lieu, on supprime les lignes affichant zéro dans la colonne ‘engnat’. Il n’y a que deux choix pour cette question : ‘Yes (1)’ ou ‘No (2)’. Étant donné que la valeur ‘0’ indique que la réponse n’est pas cochée, nous ne souhaitons pas les inclure dans le graphique d’arbre que nous allons générer.
Ensuite, on convertit les variables de la colonne ‘engnat (natif anglais)’ en variables catégorielles. Pour cette analyse, ce que l’on souhaite observer, c’est si les gens sont locuteurs natifs anglais ou non. Ainsi, les données doivent être ‘Yes (1)’ ou ‘Non (2)’. Si les données sont analysées comme des variables continues, on aurait des valeurs telles que ‘1.7’, qui ne seraient pas pertinentes pour notre objectif.
Pour effectuer l’analyse d’arbre, on divise les données en deux parties : les données d’entraînement et les données de validation. Avec les données d’entraînement (training), on peut entraîner la machine un nombre illimité de fois pour créer plusieurs modèles, contrairement aux données de validation avec lesquelles on ne peut effectuer qu’un seul test pour valider notre modèle. Normalement, on utilise 80% des données pour l’entraînement et le reste pour la validation.
Vu qu’un nœud qui se situe le plus haut est le plus important, VCL 13 (‘abysmal’) est le mot le plus crucial pour identifier un locuteur natif. Le chiffre ‘1’ représente ‘Yes’ pour la question qui demande si la personne est un locuteur natif. En dessous de ce chiffre dans le même nœud, le nombre à gauche indique le nombre de personnes ayant choisi ‘Yes (1)’, tandis que celui à droite indique le nombre de personnes ayant choisi ‘No (2)’. On peut ainsi constater qu’il y avait environ trois fois plus de personnes ayant répondu qu’elles sont des locuteurs natifs. Le deuxième mot le plus important est VCL8 (‘epistemology’). Les autres VCLs changent à chaque étape de l’entraînement.
En examinant les derniers nœuds (‘Child nodes’), dans un nœud où le numéro 1 est marqué, il y a plus de personnes qui ont choisi ‘1’, et l’inverse pour le nœud avec le numéro 2. C’est-à-dire que les branches sont bien divisées pour classifier les variables.
Avec ce codage, on peut également voir l’arbre avec le pourcentage. Le chiffre sous le nombre ‘1’ représente le pourcentage de la classe, et le chiffre avec le symbole ‘%’ est le pourcentage de la population totale. Par exemple, 25% (0.25) indique que le nœud a choisi ‘1’ pour la question VCL13, et le pourcentage du nœud parent est bien sûr de 100%.
##
## classe_prevue 1 2
## 1 1474 441
## 2 24 50
Sur cette matrice de confusion (‘confusion matrix’), nous avons
obtenu vers 1 450 vrais positifs (Prédiction : ‘Yes’, Réponse réelle :
‘Yes’) et vers 400 faux positifs (Prédiction : ‘Yes’, Réponse réelle :
‘No’). Pour celles que la machine a prédites comme ayant une réponse
‘No’, nous avons eu vers 20 faux négatifs (Prédiction : ‘No’, Réponse
réelle : ‘Yes’) et vers 50 vrais négatifs (Prédiction : ‘No’, Réponse
réelle : ‘No’).
Le chiffre pourrait changer à chaque fois
d’entraînement
##
## classe_prevue_test 1 2
## 1 373 107
## 2 4 14
Comme le résultat de validation sur les données d’entraînement, les prédictions de la machine sont globalement correctes. Cependant, il y a également un certain nombre de variables mal prédites. Par conséquent, on peut avoir plus ou moins confiance dans ce classement.
La forêt aléatoire est une méthode où plusieurs arbres de décision sont créés avec des conditions sélectionnées de manière aléatoire, et la valeur prédite la plus fréquente est choisie comme valeur prédite finale.
La condition qui se situe le plus à droite est la plus importante pour cette analyse. Nous pouvons constater que VCL13 est le plus important pour identifier un locuteur natif anglais, comme nous l’avons vu dans l’analyse d’arbre.
Le jeu de données nous fournit le temps consacré à chaque question de complot, à la lecture de l’introduction, au test entier et aux questions personnelles (survey). Avec une autre colonne quantitative, l’âge, nous allons déterminer s’il existe une différence entre les participants en fonction de leur âge pour répondre au ‘survey’. Si quelqu’un n’a même pas lu les questions personnelles, le temps consacré serait zéro. Ainsi, nous pouvons observer la proportion de participation aux questions non-obligatoires et, en même temps, la vitesse de réponse. De plus, en appliquant les quatre types de caractères que nous avons déjà clustérisés, le graphique pourrait également montrer les différences entre les caractères.
La régression linéaire est une méthode permettant de trouver une ligne qui représente la meilleure corrélation entre les valeurs sur l’axe X et celles sur l’axe Y. S’il y a une ligne de ‘y=wx+b’ dans un graphe de fonction du second degré, la manière de trouver les meilleures valeurs de ‘w’ et ‘b’ consiste à rechercher une ligne qui soit le moins éloignée possible de toutes les variables dans le graphe. La distance entre la valeur de la fonction et la valeur réelle des variables est appelée le résidu. Par conséquent, si nous cherchons la ligne ayant le résidu le plus faible, c’est-à-dire que le but de la régression linéaire est atteint.
En premier lieu, il faut importer le jeu de données avec la colonne ‘clust’, où nous avons regroupé les 10 TIPI en 4 clusters. Étant donné que le nombre de lignes est de 2466, nous devons ajuster le nombre de lignes de la colonne ‘surveyelapse’ à 2466. Comme dans la première partie, nous allons supprimer les lignes atypiques de l’âge et des TIPI.
En deuxième lieu, nous joignons les deux jeux de données : celui avec la colonne ‘surveyelapse’ et celui avec la colonne ‘clust’. Nous sommes prêts à effectuer l’analyse en utilisant la régression linéaire.
Nous établions une hypothèse pour l’analyse.
H0 : L’âge et le caractère n’ont pas la relation avec le temps employé
sur le ‘survey’.
Ensuite, nous allons examiner la régression linéaire multiple avec
interactions.
##
## Call:
## lm(formula = age ~ surveyelapse * clust, data = complot_survey_2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -34.626 -8.929 -3.930 6.494 48.541
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.393e+01 4.629e-01 51.700 < 2e-16 ***
## surveyelapse -1.847e-05 3.350e-04 -0.055 0.9561
## clust2 1.281e+00 9.089e-01 1.410 0.1587
## clust3 3.880e+00 6.844e-01 5.669 1.61e-08 ***
## clust4 8.619e+00 9.153e-01 9.417 < 2e-16 ***
## surveyelapse:clust2 5.022e-03 3.000e-03 1.674 0.0942 .
## surveyelapse:clust3 -8.394e-06 3.476e-04 -0.024 0.9807
## surveyelapse:clust4 6.179e-03 3.225e-03 1.916 0.0555 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 12.78 on 2458 degrees of freedom
## Multiple R-squared: 0.07591, Adjusted R-squared: 0.07328
## F-statistic: 28.84 on 7 and 2458 DF, p-value: < 2.2e-16
Si le ‘Multiple R-squared’ est proche de 1, cela signifie que les variables se situent près de la ligne de régression. Cependant, la valeur de notre modèle n’est pas proche de 1 (0.07591). Néanmoins, la valeur P est inférieure à 0.05, ce qui est très petite. Cela signifie que nous pouvons rejeter l’hypothèse nulle et examiner la corrélation entre les trois variables.
## `geom_smooth()` using formula = 'y ~ x'
Vu que le graphique n’est pas lisible en raison des valeurs atypiques, nous avons extrait les données de la colonne ‘surveylapse’ qui ont duré moins de 1000 secondes.
## `geom_smooth()` using formula = 'y ~ x'
En premier lieu, les personnes qui se trouvent dans le Clust4 (TIPI3, 5, 7, 9 : Ouvertes aux nouvelles expériences, complexes / Sympathiques, chaleureuses / Calmes, émotionnellement stables) sont plus âgées que les autres. De plus, la ligne de régression du Clust4 a une légère pente positive vers le haut, tout comme la ligne du Clust2 (TIPI1, 2 : Extraverti, enthousiaste / Critique, querelleur). Par conséquent, nous pouvons observer que les lignes du Clust4 et du Clust2 indiquent une corrélation entre l’âge et le temps employé. Les autres lignes sont plates, signifiant qu’il n’y a pas de relation positive pour les personnes dans ces clusters. Comme nous l’avons vu avec le ‘Multiple R-squared’, les variables sont éloignées des lignes.
En raison de la grande quantité de données disponibles, nous avons pu
tenter diverses analyses entre les colonnes. Il était intéressant de
constater que les questions liées aux extraterrestres étaient plus
fortement corrélées les unes aux autres par rapport aux autres
questions, et nous avons également noté une corrélation faible mais
présente avec le genre. Bien que faible, une corrélation négative entre
le niveau d’éducation et la croyance en l’existence des extraterrestres
a également été observée. Les résultats du PCA présentant un angle de
180 degrés et les lignes de tendance directement visibles dans le
pairplot étaient également intrigants.
En examinant la manière dont le GCBS a classifié la personnalité en 10
catégories, nous avons réfléchi à la relation entre les caractères. Il
était surprenant de voir une classification en quatre clusters, et
notamment de constater que des traits tels que ‘Extraverted’ et
‘Querrelsome’ étaient regroupés dans le même cluster. Comme la
classification de la personnalité était difficile à prévoir, je
n’attandais à ce que la distinction des conspirationnistes soit
également complexe. Bien que nous ayons tenté d’analyser la corrélation
entre les scores de conspiration (Q1-Q15) et les caractères, aucune
corrélation nette n’a été observée (l’angle orthogonale’). J’ai pensais
naturellement que les locuteurs natifs connaîtraient davantage de mots
anglais, mais le processus d’analyse directe a apporté des idées
nouvelles et plus claires. En outre, les mots permettant de distinguer
un locuteur natif n’étaient ni trop simples ni trop difficiles, mais
plutôt d’un niveau de difficulté modéré. Après l’analyse, des mots comme
‘abysmal’ et ‘épistémologie’, ni trop faciles ni trop difficiles,
semblaient vraiment utiles pour distinguer les locuteurs natifs. Cela
pourrait s’avérer utile lors de l’analyse des caractéristiques des
locuteurs natifs et non natifs.
Enfin, le graphique obtenu en distinguant simultanément l’âge, le temps
de réponse au sondage et les caractères était fascinant. Nous avons
confirmé la distinction de l’âge en fonction de la personnalité, et nous
avons également pu vérifier si la personnalité influençait le temps de
réponse en fonction de l’âge.
Initialement, nous espérions des résultats clairs, tels que ‘une
personnalité spécifique est fortement associée à la propension à croire
aux théories du complot’ ou ‘les personnes appartenant à une certaine
religion ont plus tendance à être conspirationnistes’, mais les
relations entre les données se sont révélées plus complexes que prévu.
Contrairement aux attentes, des corrélations claires n’étaient pas
facilement identifiables, et nous avons dû analyser différentes
combinaisons de colonnes pour obtenir les résultats les plus
intéressants.
Cette analyse pourrait contribuer à étayer la validité de l’étude GCBS.
En examinant la distribution des questions, la classification de la
personnalité, les mots anglais, etc., nous avons pu évaluer la
sophistication de l’étude. Cependant, pour répondre à la question
initiale de ‘cette personne est-elle conspirationniste ?’, une analyse
plus approfondie basée sur Q1-Q15 semble nécessaire.