##Introduction

Nous travaillons sur un jeu de données qui explore la théorie de complot est notre jeu de données se constitue de la manière suivante : Q1…Q15 : Réponses aux questions ,E1…E15 : Temps employé pour chaque question introelapse…surveyelapse :Temps employé au total,TIPI1…TIPI10 :Traits de la personnalité ,VLC1…VLC16 : Mots anglais existants ou inexistants ,education…major :Questions sociodémographiques. Pour notre premier devoir, j’ai jugé bon d’explorer et visualiser : Les réponses aux questions et les traits de personnalité des individus ayant répondu à ce questionnaire dans un premier temps Et dans la deuxième rubrique, j’ai jugé bon de croisé de colonnes en restant toujours sur les réponses aux questions et les traits de la personnalité. Par exemple : 1. J’ai visualisé et explorer comment est-ce que les personnes ayant les traits de caractère (TIPI2) Critique, querelleur et (TIPI6) Réservé, calme se comporte face aux questions liées aux Gouvernement et de l’existence de groupe secrète. 2. J’ai visualisé et explorer comment est-ce que les personnes ayant les traits de caractère : (TIPI5) Ouvert aux nouvelles expériences, complexe et TIPI10 Conventionnel, peu créatif. Se comporte face aux questions liées aux extraterrestres.

###PCA1###Exploration et visualisation de Q1:Q15

complot_q1 <- data_complotnewS %>% select(1:15)
res.PCA<-PCA(complot_q1,graph=FALSE)
plot.PCA(res.PCA,choix='var',title="Graphe des variables de l'ACP")

## Nous remarquons que les questions Q3,Q8,Q13 sont corrélées ,il y a une similarité (ressemblance)  entre ces questions. C'est de questions qui parlent des extraterrestres.
## Nous remarquons que les questions Q1, Q2,Q6,Q5,Q7,Q9,Q4,Q10,Q11,Q12,Q14,Q15 Sont fortement corrélées
## En détail nous voyons une forte corrélation pour les questions Q1,Q2,Q6,Q11 car sont de questions qui traitent sur le sujet de gouvernement et nous voyons un sous-groupe encore fortement corrélé les questions ; Q7 et Q12 qui parle de groupe secret qui dirige le monde 
## La question Q10 est proche du centre par rapport à d'autre questions cela veut dire que ça décris moins les questions sur la théorie de complot 
### Dans l'ensemble toutes les questions sont corrélées positivement par rapport au premier axe 

plot.PCA(res.PCA,title="Graphe des individus de l'ACP")

## Nous remarquons que les individus sont trop proches les uns des autres, il y a de fortes similarités (ils forment pratiquement 4 groupes.)
## il y a des individus étant différent des autres telque : 2154,2458,205,2095,51,756,640,1529...ils ont éloignées des autres individus.
# Biplot
fviz_pca_biplot(res.PCA, repel = TRUE)

# Ayant plusieurs individus lecture un peu flou, nous pouvons dire qu'il une forte corrélation entre variable et nous remarquons que leur sens de flèches est le même

fviz_pca_biplot(res.PCA, select.ind =list(contrib =10), select.var = list(contrib =10))

###Ce biplot se concentre sur les 10 individus et les 10 variables qui contribuent le plus à la variation dans les données.
#Les flèches des variables indiquent les directions et les intensités des corrélations les plus significatives. Les individus les plus contributifs sont mis en évidence.
#Les variables les plus importantes, selon ce biplot, sont Q3, Q8, Q13, Q4, Q14, Q12, Q2, Q6, Q1, et Q11. Cela signifie que ces questions ont une influence importante sur la distribution des individus dans l'espace de l'ACP.
## classification Q
res.PCA<-PCA(complot_q1,graph=FALSE)
res.HCPC<-HCPC(res.PCA,nb.clust=4,consol=FALSE,graph=FALSE)
plot.HCPC(res.HCPC,choice='tree',title='Arbre hiérarchique')

plot.HCPC(res.HCPC,choice='map',draw.tree=FALSE,title='Plan factoriel')

plot.HCPC(res.HCPC,choice='3D.map',ind.names=FALSE,centers.plot=FALSE,angle=60,title='Arbre hiérarchique sur le plan factoriel')

## La classification réalisée sur les individus fait apparaître 4 classes, nous remarquons que ce quatre classes sont trop proches les unes des autres.
#La classe 1 est composé d’individus partageant de faibles valeurs pour des variables telles que Q4, Q14, Q8, Q5, Q6, Q12, Q13, Q9, Q3 et Q11 (de la plus extrême à la moins extrême).

#La classe 2 est composé d’individus partageant de fortes valeurs pour des variables telles que Q8, Q3, Q13, Q5, Q15, Q14, Q10, Q4, Q11 et Q1 (de la plus extrême à la moins extrême).
#de faibles valeurs pour les variables Q7, Q12 et Q2 (de la plus extrême à la moins extrême).

#La classe 3 est composé d’individus partageant :de fortes valeurs pour des variables telles que Q12, Q7, Q2, Q6, Q14, Q4, Q11, Q1, Q5 et Q9 (de la plus extrême à la moins extrême).de faibles valeurs pour les variables Q3, Q8 et Q13 (de la plus extrême à la moins extrême).

#La classe 4 est composé d’individus partageant :de fortes valeurs pour des variables telles que Q13, Q3, Q8, Q9, Q12, Q4, Q7, Q14, Q2 et Q6 (de la plus extrême à la moins extrême).

# les variables Q2,Q3,Q4,Q7,Q8,Q9,Q12,Q13,Q14 permettent de mieux définir le lien avec les clusters 
# Pour la classe 1 tout le v.test sont négatif est la variable la mieux representée est le Q10 avec un v.tes de -21.43233 est une p-value de : 6.675372e-102
# Pour la classe 2 la variable la mieux représentée est le Q8 avec un v.test de 15.914423 est une p-value de : 5.032870e-57
# Pour la classe 3 la variable la mieux représentée est le Q12 avec un v.test de Q12 25.190415 est une p-value de : 5.101799e-140

# Pour la classe 4 la variable la mieux représentée est le Q13 avec un v.test de Q13 31.499323 est une p-value de : 8.873957e-218
###PCA2 Exploration et visualisation de TIPI

complot_tipi1 <- data_complotnewS %>% select(31:40)
res.PCA2<-PCA(complot_tipi1,graph=FALSE)
plot.PCA(res.PCA2,choix='var',title="Graphe des variables de l'ACP")

# Nous remarquons une forte corrélation (une forte similarité) entre les caractères suivants TIPI 1 (Extraverti, enthousiaste), TIPI5 (Ouvert aux nouvelles expériences, complexe.), TIPI7 (Sympathique, chaleureux.)
# Nous remarquons une forte corrélation (une forte similarité) entre les caractères suivants TIPI 6 (Réservé, calme).TIPI10 (Conventionnel, peu créatif.)
# Alors TIPI1, TIP5, TIPI7 sont contraire aux TIPI10, TIPI 6
## Nous remarquons une forte corrélation (une forte similarité) entre les caractères suivants TIPI8 (Désorganisé, négligent), TIPI14 (Anxieux, facilement contrarié.),TIPI12 (Critique, querelleur.)
## Nous remarquons une forte corrélation (une forte similarité) entre les caractères suivants TIPI9 (Calme, émotionnellement stable.), TIPI3 (Fiable, autodiscipliné.)
## Alors TIPI8, TIPI4, TIPI2, sont de contraire au TIPI9, TIPI3
## TIPI1 Et TIPI6 sont de caractère qui représente mieux les types de personnes. TIPI2 et TIPI 10 sont de caractère qui représente moins les personnes, car ils sont près du centre, ils sont moins informatifs. 
### TIPI 8 n'a rien avoir avec TIPI5 car ils forment une perpendiculaire pas d'information commune
### TIPI1, TIPI5, TIPI7 sont corrélés positivement au TIPI9, TIPI3
#TIPI8, TIPI4, TIPI2 sont corrélés négativement au TIPI10, TIPI6

plot.PCA(res.PCA2,title="Graphe des individus de l'ACP")

## Nous remarquons que les individus sont trop proches les uns des autres, il y a de fortes similarités (ils forment pratiquement 4 groupes.)
## il y a des individus étant différent des autres  tel que : 419,1584,1524,625

# Biplot
fviz_pca_biplot(res.PCA2, repel = TRUE)

# Ayant plusieurs individus lecture un peu flou, nous pouvons dire qu'il une forte corrélation entre variable et nous remarquons que leur sens de flèches est le même

fviz_pca_biplot(res.PCA2, select.ind =list(contrib =5), select.var = list(contrib =5))

## Nous visualisons ici les 5 individus et 5 variables qui contribuent le plus, 
#Bien que tous les individus ne soient pas visibles en raison de leur nombre important, les #individus 419 et 2070 se démarquent comme étant parmi les plus importants dans la distribution des #données.
### Nous avons repérés les 5 variables qui contribuent le plus, nous avons les caractères suivants : #TIPI1,TIPI4TIPI1,TIPI6,TIPI9,

#Classification

res.PCA2<-PCA(complot_tipi1,graph=FALSE)
res.HCPC<-HCPC(res.PCA2,nb.clust=3,consol=FALSE,graph=FALSE)
plot.HCPC(res.HCPC,choice='tree',title='Arbre hiérarchique')

plot.HCPC(res.HCPC,choice='map',draw.tree=FALSE,title='Plan factoriel')

plot.HCPC(res.HCPC,choice='3D.map',ind.names=FALSE,centers.plot=FALSE,angle=60,title='Arbre hiérarchique sur le plan factoriel')

#Nous avons 3 classes qui sont trop proches les unes des autres

#La classe 1 est composé d’individus partageant :de fortes valeurs pour les variables TIPI10, TIPI4, TIPI6 et TIPI2 (de la plus extrême à la moins extrême).de faibles valeurs pour les variables TIPI5, TIPI1, TIPI9, TIPI7, TIPI3 et TIPI8 (de la plus extrême à la moins extrême).

#La classe 2 est composé d’individus partageant :de fortes valeurs pour les variables TIPI8, TIPI4, TIPI2, TIPI1, TIPI5 et TIPI7 (de la plus extrême à la moins extrême).
#de faibles valeurs pour les variables TIPI3, TIPI9, TIPI6 et TIPI10 (de la plus extrême à la moins extrême).

#La classe 3 est composé d’individus partageant :de fortes valeurs pour les variables TIPI9, TIPI3, TIPI5, TIPI1, TIPI7 et TIPI6 (de la plus extrême à la moins extrême).
#de faibles valeurs pour les variables TIPI4, TIPI8, TIPI2 et TIPI10 (de la plus extrême à la moins extrême).

## les variables TIPI9,TIPI4,TIPI5,TIPI3,TIPI8,TIPI1,TIPI10,TIPI6,TIPI2,TIPI7, permettent de mieux définir le lien avec les cluster
## Pour la classe 1 la variable la mieux représentée est le TIPI10 avec un v.test de 18.122933 est une p-value de : 2.100894e-73
## Pour la classe 2 la variable la mieux représentée est le TIP8 avec un v.test de 21.292246 est une p-value de : 1.339520e-100
## Pour la classe 3 la variable la mieux représentée est le TIP9 avec un v.test de 29.976428 est une p-value de :1.991400e-197
### RUBRIQUE 2 : 
###### Gouvernement-tipi
### Nous avons jugés bon de voir les relations entre les caractères de personnes ((TIPI2) Critique, querelleur et (TIPI6) Réservé, calme) face aux questions liées au Gouvernements et les Question liées a l'existence de Groupe secrète qui dirige le monde (l'autorité)

complot_qe1_Tipi2 <- data_complotnewS %>% select(1,2,6,7,11,12,32,36)
view(complot_qe1_Tipi2)
res.PCA4<-PCA(complot_qe1_Tipi2,quanti.sup=c(7,8),graph=FALSE)
plot.PCA(res.PCA4,choix='var',title="Graphe des variables de l'ACP")

### Nous remarquons que les questions portant sur le Q1,Q6,Q11 sont corrélés avec les personnes ayant le caractère TIPI2(Critique, querelleur.), les personnes avec ce caractère s'intéressent beaucoup aux questions liées aux Gouvernements
## Il y a une perpendicularité de questions portant sur le gouvernement et le TIPI6(Réservé, calme.) cela veut dire que les personnes avec ce caractère ne s'intéressent pas aux questions liées au gouvernement 
## il y a une corrélation positive entre TIPI2 (Critique, querelleur.) et les questions liées aux extraterrestres (Q2,Q12,Q7)
### les personnes intéressées aux questions des extraterrestres ont un caractère totalement contraire au TIPI6(Réservé, calme.) par exemple, ils ont ouvert aux nouvelles expériences, complexe.(TIPI5),TIPI7 (Sympathique, chaleureux.), TIPI1

plot.PCA(res.PCA4,title="Graphe des individus de l'ACP")

## Nous remarquons que les individus sont trop proches les uns des autres, il y a de fortes similarités (ils forment pratiquement 4 groupes.)
## il y a des individus étant différent des autres tels que : 1102,1415,434,1898,2489, ...

# Biplot

fviz_pca_biplot(res.PCA4, repel = TRUE)

# Ayant plusieurs individus lecture un peu flou, nous pouvons dire qu'il une forte corrélation entre variable et nous remarquons que leur sens de flèches est le même

###Classification

res.PCA4<-PCA(complot_qe1_Tipi2,quanti.sup=c(7,8),graph=FALSE)
res.HCPC<-HCPC(res.PCA4,nb.clust=4,consol=FALSE,graph=FALSE)
plot.HCPC(res.HCPC,choice='tree',title='Arbre hiérarchique')

plot.HCPC(res.HCPC,choice='map',draw.tree=FALSE,title='Plan factoriel')

plot.HCPC(res.HCPC,choice='3D.map',ind.names=FALSE,centers.plot=FALSE,angle=60,title='Arbre hiérarchique sur le plan factoriel')

# Nous avons avons 4 classes qui sont trop proches 
#La classe 1 est composé d’individus partageant :de faibles valeurs pour les variables Q1, Q11, Q6, Q2, Q12, Q7 et TIPI2 (de la plus extrême à la moins extrême).

#La classe 2 est composé d’individus partageant :de fortes valeurs pour la variable Q1.de faibles valeurs pour les variables Q7, Q12, Q2 et Q6 (de la plus extrême à la moins extrême).

#La classe 3 est composé d’individus partageant :de fortes valeurs pour les variables Q2, Q12, Q7, Q1, Q6 et Q11 (de la plus extrême à la moins extrême).

#La classe 4 est composé d’individus partageant :de fortes valeurs pour les variables Q12, Q7, Q2, Q6, Q11, Q1 et TIPI2 (de la plus extrême à la moins extrême).

## les variables Q1,Q2,Q6,Q7,Q12,TIP2, permettent de mieux définir le lien avec les clusters
## Pour la classe 1 la variable la mieux représentée est le TIPI2 avec un v.test de -4.730602 est une p-value de : 2.238553e-06
## Pour la classe 2 la variable la mieux représentée est le Q1 avec un v.test de 3.209724 est une p-value de : 1.328624e-03
## Pour la classe 3 la variable la mieux représentée est le Q2 avec un v.test de 14.559402 est une p-value de : 5.090140e-48
## Pour la classe 3 la variable la mieux représentée est le Q12 avec un v.test de 32.32943 est une p-value de : 2.700095e-229
# Comment les personnes ayant  les traits de caractère : (TIPI5) Ouvert aux nouvelles expériences, complexe et TIPI10 Conventionnel, peu créatif Se comporte face aux questions liées aux extraterrestres.

complot_qe1_tip7<- data_complotnewS %>% select(3,8,13,35,40)
view(complot_qe1_tip7)
res.PCA6<-PCA(complot_qe1_tip7,quanti.sup=c(4,5),graph=FALSE)
plot.PCA(res.PCA6,choix='var',title="Graphe des variables de l'ACP")

# Nous remarquons les personnes qui s'intéressent aux questions des extraterrestres ont les caratecres (TIPI5) Ouvert aux nouvelles expériences, complexe, car il y a une corrélation ou similarité de ces questions  avec TIPI5
## les personnes intéressées a cette question n'ont pas le caractère (TIPI10 Conventionnel), peu créatif.

plot.PCA(res.PCA6,title="Graphe des individus de l'ACP")

#####classification
res.PCA6<-PCA(complot_qe1_tip7,quanti.sup=c(4,5),graph=FALSE)
res.HCPC<-HCPC(res.PCA6,nb.clust=4,consol=FALSE,graph=FALSE)
plot.HCPC(res.HCPC,choice='tree',title='Arbre hiérarchique')

plot.HCPC(res.HCPC,choice='map',draw.tree=FALSE,title='Plan factoriel')

plot.HCPC(res.HCPC,choice='3D.map',ind.names=FALSE,centers.plot=FALSE,angle=60,title='Arbre hiérarchique sur le plan factoriel')

# Nous avons 4 classe est nous remarquons que a l'interieur de chaque il y a bien des espaces entre individus, les classes sont proches les une des autres .

#La classe 1 est composé d’individus partageant :de fortes valeurs pour la variable TIPI10.de faibles valeurs pour les variables Q8, Q13 et Q3 (de la plus extrême à la moins extrême).

#La classe 2 est composé d’individus partageant :de fortes valeurs pour les variables Q8 et Q3 (de la plus extrême à la moins extrême).de faibles valeurs pour les variables Q13 et TIPI10 (de la plus extrême à la moins extrême).
#La classe 3 est composé d’individus partageant :de fortes valeurs pour les variables Q13, Q8 et Q3 (de la plus extrême à la moins extrême).
#La classe 4 est composé d’individus partageant :de fortes valeurs pour les variables Q13, Q3 et Q8 (de la plus extrême à la moins extrême).de faibles valeurs pour la variable TIPI10.
## les variables Q3,Q8,Q13,TIPI10, permettent de mieux définir le lien avec les clusters
## Pour la classe 1 la variable la mieux représentée est le TIPI10 avec un v.test de -4.730602 est une p-value de : 1.324542e-04
## Pour la classe 2 la variable la mieux représentée est le Q8 avec un v.test de 18.510925 est une p-value de : 1.685813e-76
## Pour la classe 3 la variable la mieux représentée par le Q13 avec un v.test de 22.027400 est une p-value de : 1.573494e-107
## Pour la classe 4 la variable la mieux représentée est le Q13 avec un v.test de 35.06079 est une p-value de : 2.670511e-269

Conclusion Notre analyse approfondie des données sur la théorie du complot a permis de dégager des tendances significatives concernant les réponses aux questions et les traits de personnalité des individus interrogés. Voici les principales observations :

Exploration des Réponses aux Questions (Q1:Q15)

L’analyse en composantes principales (PCA) a révélé des corrélations intrigantes entre les questions posées, soulignant des regroupements thématiques. Notamment, les questions liées au gouvernement et à l’existence de groupes secrets ont montré des similitudes marquées. La classification des individus a permis d’identifier quatre classes distinctes, chacune caractérisée par des schémas de réponses spécifiques.

Exploration des Traits de Personnalité (TIPI1:TIPI10)

La PCA des traits de personnalité a mis en lumière des corrélations entre des traits opposés, classant les individus en trois groupes distincts en fonction de leurs caractéristiques personnelles.

Relations entre Questions et Traits de Personnalité

En examinant comment les individus avec des traits spécifiques réagissent aux questions, nous avons constaté des variations intéressantes. Par exemple, les personnes ayant les traits (TIPI2) Critique, querelleur et (TIPI6) Réservé, calme, se sont montrées particulièrement engagées dans les questions gouvernementales. À l’inverse, les individus ouverts aux nouvelles expériences (TIPI5) ont démontré un désintérêt relatif pour les questions gouvernementales.

Conclusion Générale

En résumé, notre analyse approfondie a permis de distinguer des schémas complexes de pensée et de comportement parmi les répondants. Les résultats soulignent l’importance de considérer à la fois les réponses aux questions spécifiques et les traits de personnalité pour une compréhension complète des attitudes envers la théorie du complot. Ces observations ou analyses pourraient être précieux pour orienter des interventions ciblées visant à démystifier les croyances conspirationnistes et à promouvoir une compréhension plus nuancée.

###DEVOIR N°2
### prédire le genre à partir des questions liées à l'existence des extraterrestres.


library(rpart) # pour les arbres de décision
library(rpart.plot) # visualisation
## Warning: le package 'rpart.plot' a été compilé avec la version R 4.2.3
library(randomForest) # pour les forêts aléatoires
## Warning: le package 'randomForest' a été compilé avec la version R 4.2.3
## randomForest 4.7-1.1
## Type rfNews() to see new features/changes/bug fixes.
## 
## Attachement du package : 'randomForest'
## L'objet suivant est masqué depuis 'package:dplyr':
## 
##     combine
## L'objet suivant est masqué depuis 'package:ggplot2':
## 
##     margin
# Selection de variables création d'un nouveau jeu de données 

data_complotnew9 <- data_complotnewS %>% select("Q3","Q8","Q13","urban","education","gender","religion")

data_complotnew9_train <- data_complotnew9 %>% sample_frac(0.8) 
data_complotnew9_test <- data_complotnew9 %>% anti_join(data_complotnew9_train)
## Joining with `by = join_by(Q3, Q8, Q13, urban, education, gender, religion)`
#Division des données en ensembles d'entraînement et de test (80% pour l'entraînement et 20% pour le test) 

answer_to_gender <- data_complotnew9 %>% 
  select("Q3", "Q8", "Q13","gender") %>% 
  drop_na()
foret_gender <- randomForest(as.factor(gender) ~ ., 
                            answer_to_gender)
#Création d'un ensemble de données appelé "answer_to_gender" en sélectionnant les colonnes "Q3", "Q8", "Q13", et "gender" et en supprimant les lignes contenant des valeurs manquantes (NA).
foret_gender
## 
## Call:
##  randomForest(formula = as.factor(gender) ~ ., data = answer_to_gender) 
##                Type of random forest: classification
##                      Number of trees: 500
## No. of variables tried at each split: 1
## 
##         OOB estimate of  error rate: 47.74%
## Confusion matrix:
##        male female other NA class.error
## male    780    442     0  0   0.3617021
## female  613    524     0  0   0.5391381
## other    74     56     0  0   1.0000000
## NA        5      1     0  0   1.0000000
# Construction d'un modèle de forêt aléatoire pour prédire la variable "gender" en fonction des autres variables dans "answer_to_gender".

# On suppose que 786 personnes sont males exactement ils sont males , on suppose que 436 sont males alors qu'elles sont females il y a un taux d'erreur de 0.3567921
# On suppose que  609 personnes sont females alors qu'ils sont males , on suppose que  528 sont females alors qu'elles sont females il y a un taux d'erreur de 0.5356201
# On suppose que  72 sont other (autre genre)  de personnes alors qu'ils sont males , on suppose que  58 sont other (autre genre) alors qu'elles sont females il y a un taux d'erreur de 1.0000000
# On suppose que  5 sont de valeurs manquantes (NA)   alors qu'ils sont males , on suppose qu'il y a une valeur manquante  alors qu'elles sont females il y a un taux d'erreur de 1.0000000
# Le Taux de perfomance étant de 100-47.33 = 52,67 %

#Nombre d'arbres : 500 -Il ya 500 arbres dans la forêt aléatoire. Plus le nombre d'arbres est élevé, plus le modèle a de chances de généraliser correctement sur de nouvelles données. 
#Visualisation
varImpPlot(foret_gender)

# La question Q3 est trés importante pour prédire le genre alors que Q13 est moins importante, mais elle permet d'avoir de informations car elle n'est pas à zero


# Construction de l'arbre de décision
arbre_decision_gender <- rpart(gender ~ Q3 + Q8 + Q13, 
                              data = answer_to_gender,
                              method = "class")

# Visualisation de l'arbre de décision
rpart.plot(arbre_decision_gender) #,box.palette = "Blues")

#### FORET 2

### prédire l'éducation à partir des questions liées aux Gouverenements et l'existence de groupe secret .

data_complotnew10 <- data_complotnewS %>% select("Q1","Q2","Q6","Q7","Q11","Q12","urban","education","gender","religion")

data_complotnew10_train <- data_complotnew10 %>% sample_frac(0.8) 
data_complotnew10_test <- data_complotnew10 %>% anti_join(data_complotnew10_train)
## Joining with `by = join_by(Q1, Q2, Q6, Q7, Q11, Q12, urban, education, gender,
## religion)`
#Division des données en ensembles d'entraînement et de test (80% pour l'entraînement et 20% pour le test) 

answer_to_education <- data_complotnew10 %>% 
  select("Q1","Q2","Q6","Q7","Q11","Q12","education") %>% 
  drop_na()
foret_education <- randomForest(as.factor(education) ~ ., 
                             answer_to_education)

foret_education
## 
## Call:
##  randomForest(formula = as.factor(education) ~ ., data = answer_to_education) 
##                Type of random forest: classification
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##         OOB estimate of  error rate: 61.92%
## Confusion matrix:
##                   Less_highschool High_school University_degree Graduate_degree
## Less_highschool                14         324                63              11
## High_school                    43         833               173              20
## University_degree              22         510                96              24
## Graduate_degree                 7         240                65               7
## NA                              1          29                 6               2
##                   NA class.error
## Less_highschool    0   0.9660194
## High_school        2   0.2222222
## University_degree  2   0.8532110
## Graduate_degree    1   0.9781250
## NA                 0   1.0000000
# Construction d'un modèle de forêt aléatoire pour prédire la variable "education" en fonction des autres variables dans "answer_to_education".

varImpPlot(foret_education)

# La question  Q12 est la plus important pour prédire le niveau d'éductaion suivi du Q6  et la Q1 est la moins importante , mais toutes ces questions nous fourlies des informations car elles ne sont pas à zero
# on a un taux de performance de 100-61.96 = 38,51 %

Conclusion devoir 2 :

Cette partie se concentre sur la prédiction du genre et du niveau d’éducation en utilisant des questions liées à l’existence d’extraterrestres et aux gouvernements avec l’existence de groupes secrets. Deux modèles ont été développés : un modèle de forêt aléatoire pour prédire le genre, et un autre pour prédire l’éducation. Ces modèles ont été construits en utilisant des données d’entraînement et évalués sur des données de test.

Le modèle de prédiction du genre a montré un taux de performance de 52,67%. L’importance des variables a été évaluée, mettant en évidence que la question Q3 était cruciale pour prédire le genre.

Quant au modèle de prédiction de l’éducation, il a atteint un taux de performance de 38,51%. L’analyse de l’importance des variables a révélé que la question Q12 était la plus significative pour prédire le niveau d’éducation.

Conclusion :

En conclusion, les modèles développés démontrent une capacité à prédire le genre et le niveau d’éducation en se basant sur des questions spécifiques. Cependant, des améliorations pourraient être envisagées pour augmenter la précision des prédictions. Les analyses d’importance des variables mettent en lumière les questions essentielles pour chaque prédiction, fournissant ainsi des objectifs pertinents pour une compréhension approfondie des facteurs influençant ces caractéristiques. Ces résultats soulignent l’utilité de l’analyse de données pour tirer des conclusions significatives à partir de questions apparemment non liées.

### Un modele 
library(dagitty)
## Warning: le package 'dagitty' a été compilé avec la version R 4.2.3
# Création d'un objet dagitty
dag <- dagitty('dag {
  Q3 [pos="1,1"]
  Q8 [pos="2,1"]
  Q13 [pos="3,1"]
  gender [pos="4,1"]
  
  Q3 -> gender
  Q8 -> gender
  Q13 -> gender
}')

# Affichage du graphe causal
plot(dag)

#Les nœuds du graphe représentent les variables : "Q3", "Q8", "Q13", et "gender".
#Les flèches entre les nœuds indiquent des relations causales potentielles. 
#Par exemple, "Q3 -> gender" signifie que la variable "Q3" pourrait avoir une influence causale sur la variable "gender".
#Le graphe causal suggère des relations de causalité entre les variables "Q3", "Q8", "Q13", et "gender". 
#En particulier, les flèches indiquent que les réponses aux questions "Q3", "Q8", et "Q13" pourraient influencer la variable "gender". 
#Cela peut être interprété comme une tentative de modéliser comment les réponses à ces questions pourraient avoir un impact causal sur le genre.