Introduction à l’analyse textuelle avec R et le tidytext
Rappel : il existe plusieurs façons de faire de l’analyse textuelle, nous ne verrons ici qu’une approche rudimentaire mais plutôt efficace, le bag of words (sac de mots).
On charge les différents paquets nécessaires pour cette séance.
library(tidyverse)
library(dplyr)
library(tidytext) # Pour manipuler les données textuelles
library(stopwords) # Mots "inutiles"
library(SnowballC) # Lemmatisation / stemmatisation
Chargeons la base de données entretiens.
entretiens <- read_csv(here::here('data', 'entretiens','entretiens.csv'))
glimpse(entretiens)
Observations: 18
Variables: 5
$ binome [3m[38;5;246m<chr>[39m[23m "A_GIBOIRE_PFISTER.txt", "B_BRILLAUD_CHANNAC_OLIVIER_Maison_…
$ commerce_nom [3m[38;5;246m<chr>[39m[23m "Les Récupérables", "Maison Château Rouge", "Sap & Co", "Tem…
$ commerce_type [3m[38;5;246m<chr>[39m[23m "vente de vêtements fabriqués à partir de tissus recyclés", …
$ sexe [3m[38;5;246m<chr>[39m[23m "Femme", "Homme", "Homme", "Homme", "Homme", "Homme", "Homme…
$ texte [3m[38;5;246m<chr>[39m[23m "Euh alors les filles ça va pas être possible parce que c es…
Que remarque-t-on ? Comment cette base est-elle construite ?
Étape 1 : recodage (“tokenization”)
Dans l’approche “sac de mots” (bag of words), on divise notre texte en unités de texte plus petites. Par exemple, on peut faire des “sacs” de 1 mot, 2 mots, …, \(n\) mots. C’est ce qu’on appelle des \(n\)-grams. Pour l’instant, on se contente de faire des sacs d’un seul mot (\(1\)-gram).
On veut donc passer d’une base large (une colonne très longue, avec tout le texte) vers une base longue (beaucoup de lignes). En fait, on veut changer d’individu statistique : du texte vers le sac de mots, ou dans notre cas, vers le mot.
C’est donc une opération de recodage. Nous pourrions le faire avec les outils du tidyverse, mais comme c’est une opération commune dans l’analyse textuelle, nous allons utiliser directement une fonction issue du paquet tidytext, unnest_tokens().
mots <- entretiens %>%
unnest_tokens(mot, texte)
Regardons quels sont les 10 mots les plus utilisés :
mots %>%
count(mot, sort = TRUE) %>%
head(10)
A priori, ce ne sont pas trop les mots qui nous intéressent… Comment faire ?
Étape 2 : enlever les “mots vides” (stop words)
Pour enlever les mots qui nous intéressent, nous pourrions nous-mêmes construire une liste de mots que nous voulons exclure de notre base. Mais ce serait un peu fastidieux, nous allons donc plutôt utiliser une liste déjà toute faite, contenue dans le paquet stopwords.
Les stop words, appelés “mots vides” en français, sont les mots qu’on juge “vides de sens”, du moins dans une approche sac de mots. Il faut ici user de prudence et ne pas utiliser ces listes sans vérifier quels termes elles contiennent. En effet, on pourrait très bien s’intéresser à ces “mots vides” selon notre question de recherche, même si ce n’est pas notre cas ici.
Voyons les stopwords en question :
glimpse(stopwords('fr', source="stopwords-iso"))
chr [1:689] "a" "abord" "absolument" "afin" "ah" "ai" "aie" "aient" "aies" ...
Nous pouvons filtrer notre liste de termes de plusieurs façons. Nous allons ici utiliser une procédure propre à la manipulation des bases de données, les jointures. Les jointures permettent de combiner plusieurs bases entre elles. Ici, nous aller créer une base de stop words, avec une variable mot, qui va correspondre exactement à la variable mot dans notre base de mots. Ainsi, nous allons pouvoir réaliser une anti-jointure, c’est-à-dire exclure de la base mots toutes les lignes où la variable mot correspond à la variable mot dans notre base de stop words.
# Crétaion d'une base de mots vides
mots_vides <- tibble(mot = stopwords('fr', source="stopwords-iso"))
# Création d'une base de mots
mots <- entretiens %>%
unnest_tokens(mot, texte) %>%
anti_join(mots_vides)
Remarquez au passage le message qu’affiche dplyr pour nous signaler comment s’effectue la jointure.
Maintenant, regardons à nouveau quels sont les 25 mots les plus utilisés :
mots %>%
count(mot, sort = TRUE) %>%
head(25) %>%
print(n = 25)
C’est déjà bien mieux ! Mais nous avons toujours quelques soucis : choses et chose pourraient ainsi être regroupés. Comment y parvenir ?
Étape 3 : lemmatisation ou stemmatisation
Encore une fois, nous pourrions ici “manuellement” nous servir du tidyverse pour regrouper tous les mots d’une même famille ensemble, mais ce serait à nouveau une opération fastidieuse. Évidemment, les paquets d’analyse textuelle proposent des outils pour y parvenir. Nous pouvons distinguer en gros deux méthodes :
- stemmatisation : on coupe les mots pour en obtenir la racine (stem veut dire “tige”, “souche” en anglais). Les mots “choses” et “chose” deviennent ainsi “chose”.
- lemmatisation : cette opération est plus complexe, mais prend en compte certains cas que la stemmatisation laissera de côté, par exemple le verbe “essayer” se transformera en “essaie”, qu’on pourra plus facilement agréger.
En français, la stemmatisation donne des résultats limités, nous allons donc plutôt lemmatiser notre base à l’aide du paquet SnowballC et de sa fonction wordStem(). Regardons comment elle fonctionne :
wordStem('essayer', language = "fr")
[1] "essai"
Nous allons créer une nouvelle variable lemme pour chaque mot, afin de ne pas perdre les mots originaux.
Combinons toutes nos commandes pour produire la base de mots souhaitée :
mots <- entretiens %>%
unnest_tokens(mot, texte) %>%
anti_join(mots_vides) %>%
mutate(lemme = wordStem(mot, language = "fr"))
Joining, by = "mot"
Et maintenant, regardons quels sont les 25 mots les plus employés :
top25 <- mots %>%
count(lemme, sort = TRUE) %>%
head(25) %>%
print(n = 25)
Le résultat est bien meilleur.
Présenter et exporter ses résultats
Nous avons maintenant un premier résultat, un tri à plat des 25 mots les plus employés dans notre corpus. Admettons qu’on veuille le présenter dans un document. Nous avons deux possibilités :
- Présenter nos données sous forme numérique
- Présenter nos données sous forme graphique
Exporter un tableau vers un traitement de texte
Pour exporter un tableau vers un traitement de texte traditionnel (LibreOffice, par exemple, je n’en vois pas d’autres, non, vraiment), on peut suivre la méthode suivante :
- On écrit le tableau dans un format spécial depuis la console (ou bien on peut l’exporter directement dans un nouveau fichier)
- On copie et on colle le texte obtenu dans le traitement de texte
- On sélectionne le texte collé, et on se rend dans le menu Table > Convert et on sélectionne les réglages appropriés.
Par exemple :
top25 %>%
write.table(row.names = FALSE, quote = FALSE, sep = ",")
lemme,n
oui,432
ouais,405
quarti,374
fair,281
vrai,243
chos,218
sais,206
an,196
commerc,176
viennent,175
heu,170
fin,151
travaill,147
produit,141
part,129
ru,129
client,126
temp,123
paris,122
coup,115
arriv,113
déjà,112
faut,110
mond,109
truc,103
Faire un graphique avec ggplot2
Nous allons voir ici comment réaliser des graphiques avec ggplot2, ce sera une introduction très brève à un vaste sujet.
La visualisation de données pourrait faire l’objet d’un cours à part. Voici quelques conseils généraux :
- Une représentation graphique n’est pas une représentation objective de nos données, au sens où elle donnerait un accès direct aux observations. Au contraire, un graphique convie une information et un point de vue sur ces informations. Quand vous réalisez un graphique, ne cherchez pas à faire un graphique plaisant mais plutôt un graphique qui a du sens et qui convie au mieux le message que vous voulez faire passer.
- Le principe de Tufte : le meilleur graphique est celui qui optimise le ratio encre / information. L’idée est d’utiliser le moins d’éléments graphiques possibles pour convier l’information souhaitée.
- Les éléments graphiques ou esthétiques doivent être mis au service de la sémantique des données.
Le paquet ggplot2 est directement intégré au paquet tidyverse, le gg signifie “Grammar of Graphics”, littéralement la grammaire des graphiques. L’idée de ggplot est relativement simple : c’est de nous fournir un langage qui permette de produire des graphiques en distinguant les principes sémantiques du graphique de sa mise en forme en suivant des étapes claires.
Voyons comment cela marche en pratique.
Étape 1 : data, sélectionner des données
Tout d’abord, un graphique a besoin de données préalablement préparées. C’est notre cas, on veut utiliser top25 pour en faire un graphique.
On peut fournir les données à ggplot2 de deux façons :
ggplot(top25) # Approche de base dans R

# Approche Tidyverse
top25 %>%
ggplot()

J’utiliserai la deuxième approche par la suite.
Que peut-on remarquer dans RStudio ?
Étape 2 : aes (aesthetics), faire correspondre données et esthétiques
C’est peut-être le concept le plus important de ggplot2. L’idée est qu’un graphique dispose d’un certain nombre de caractéristiques esthétiques, auxquelles nous pourrons faire correspondre des variables. Voici quelques aesthetics :
x, y : axes des abscisses et des ordonnées
fill : remplissage (des colonnes d’un histogramme, d’un diagramme en barre)
colour : couleur (d’un point, d’une courbe, etc.)
shape : forme (d’un point, etc.)
Le concept des esthétiques est particulièrement puissant et élégant, comme nous le verrons par la suite.
Pour l’instant, nous allons simplement faire correspondre l’axe des x à la variable qualitative mot et l’axe des y au nombre d’occurrences de ces mots, n.
top25 %>%
ggplot(aes(x = lemme, y = n))

Que peut-on remarquer dans RStudio ?
Étape 3 : geom (geometry), le choix d’une représentation graphique
Une fois que nous avons choisi des esthétiques, nous devons ajouter à notre graphique une représentation visuelle de ces esthétiques. Or, nous pouvons utiliser plusieurs représentations graphiques pour des mêmes esthétiques.
Dans ggplot2, les représentations graphiques s’appellent des geometries, des “géométries”. Ici, nous pouvons utiliser au moins deux représentations graphiques des mêmes données :
geom_point : selon les données, on obtient soit un nuage de points (scattre plot) ou un graphe de Cleveland (Cleveland dot plot).
geom_bar : un diagramme en barres (barplot) à distinguer d’un histogramme, qui a d’autres caractéristiques. Visuellement, on reconnaît le diagramme en barres par les espaces entre les barres. De plus, l’histogramme se prête mieux à la représentation de données quantitatives continues
Pour ce faire, on ajoute littéralement à notre graphique notre géométrie avec l’opérateur +.
Voici un graphe de Cleveland :
top25 %>%
ggplot(aes(x = lemme, y = n)) +
geom_point()

Et voici les mêmes données en diagramme en barres :
top25 %>%
ggplot(aes(x = lemme, y = n)) +
geom_bar(stat = "identity")

Par la suite, je me limite au diagramme en barres.
Étape 4 : coord, scales, réglages des coordonnées et des échelles
Après avoir fait un choix de représentation graphique, nous pouvons régler différents paramètres, plus précisément en agissant sur les coordonnées ou les échelles.
Par exemple, ici, on voudrait inverser les coordonnées pour mieux lire les mots.
top25 %>%
ggplot(aes(x = lemme, y = n)) +
geom_bar(stat = "identity") +
coord_flip()

Étape 5 : personnalisation des éléments graphiques
Notez que jusqu’à présent, nous n’avons fait que des choix sémantiques et non pas des choix esthétiques. Nous n’avons pas choisi de couleurs par exemple. Ces choix arrivent en dernière partie.
top25 %>%
ggplot(aes(x = lemme, y = n)) +
geom_bar(stat = "identity") +
coord_flip() +
labs(x = "",
y = "Occurences du lemme",
title = "Les 25 mots les plus présents dans les entretiens",
caption = "Données : entretiens jardins CPES, lemmatisée et nettoyée des mots vides.") +
theme_minimal() # Changer l'apparence du graphique en choisissant des thèmes

Il est aussi possible de choisir un thème une bonne fois pour toute :
theme_set(theme_minimal())
Nous utiliserons le thème minimal par la suite.
Étape 6 : exporter le graphique
Nous pouvons ici utiliser l’interface de RStudio directement pour enregistrer notre graphique.
Une astuce : trier les modalités
Pour rendre notre graphique encore plus lisible, nous pouvons trier les modalités par ordre décroissant. Ceci n’est en fait pas une modification purement visuelle, mais bien sémantique, parce que nous voulons souligner le fait que la variable qualitative “lemme” est ordonnée.
Par conséquent, nous devons agir soit sur les données, soit sur les esthétiques.
top25 %>%
ggplot(aes(x = reorder(lemme, n), y = n)) +
geom_bar(stat = "identity") +
coord_flip() +
labs(x = "",
y = "Occurences du lemme",
title = "Les 25 mots les plus présents dans les entretiens",
caption = "Données : entretiens jardins CPES, lemmatisée et nettoyée des mots vides.")

Croiser des variables
Nous avons déjà effectué et représenté un traitement statistique simple, le tri à plat − c’est-à-dire un simple comptage, attaché à une seule variable qualitative.
Évidemment, nous voulons aller un peu plus loin et étudier les interactions entre plusieurs variables. Dans notre exemple, nous allons croiser deux variables qualitatives : les mots utilisés et le sexe. Ce sont deux variables qualitatives, comme souvent en sciences humaines et sociales. Pour ce faire, on peut utiliser un tableau croisé ou ses représentations graphiques.
Regardons comment procéder dans R.
Préparer des données
Première solution : count()
Nous avons déjà rencontré la fonction count() dans le cours. Elle prend en argument le nom des variables qui vont nous servir à grouper les observations. Par exemple, nous avons déjà fait un tri à plat en comptant seulement les lemmes :
mots %>%
count(lemme, sort = TRUE)
L’argument sort permet de trier par observations décroissantes.
Pour croiser deux variables, l’idée est de grouper à la fois par lemme ET par sexe :
mots %>%
count(sexe, lemme, sort = TRUE)
Deuxième solution : group_by() et summarise()
Le paquet dplyr() nous donne une deuxième solution, un peu plus puissante car elle est plus flexible. Elle se fait en deux étapes : nous groupons notre base par sexe et par lemme (comme avec count()), puis nous produisons une information synthétique à partir de ces groupes, autrement dit, nous produisons un résumé (fonction summarise()).
mots %>%
group_by(sexe, lemme) %>%
summarise(n_sexe = n())
Cela donne le même résultat que count(). Nous verrons plus tard que summarise() s’applique à davantage de cas.
Représenter graphiquement une interaction entre deux variables qualitatives
Nous avons plusieurs façons de représenter graphiquement l’interaction entre deux variables qualitatives (les représentations diffèrent selon les types de variable en jeu).
Nous allons voir deux représentations qui représentent au mieux l’information que nous voulons convier : la répartition genrée de l’emploi des 25 mots les plus courants dans notre corpus.
Préparer les données
Commençons par créer les données nécessaires à notre graphique. La première étape est de trouver les 25 mots les plus fréquents dans l’ensemble (hommes et femmes confondus), ce qu’on sait déjà faire : c’est un tri à plat très simple. Nous allons juste renommer la colonne n en total :
total <- mots %>%
count(lemme) %>%
rename(total = n)
Nous allons à nouveau utiliser les jointures, cette fois pour coller les données d’ensemble produites dans la variable top25 aux données qui croisent les lemmes avec le genre.
mots %>%
count(sexe, lemme) %>%
left_join(total)
Joining, by = "lemme"
Nous pouvons maintenant sélectionner les 25 mots les plus employés dans l’ensemble et les stocker dans une base qui nous servira à faire notre graphique :
g1_data <- mots %>%
count(sexe, lemme) %>%
left_join(total) %>%
arrange(desc(total)) %>% # Tri par ordre décroissant sur la colonne total
head(50)
Joining, by = "lemme"
g1_data
Remarquez qu’on prend les 50 premières lignes, donc les 25 mots les plus fréquents, puisque chaque mot est sur deux lignes, une pour les hommes, une pour les femmes.
Le diagramme en barres : barres colorées
Utilisons les esthétiques de ggplot2, cette fois en ajoutant une deuxième dimension (le sexe) en remplissage, donc fill.
g1_data %>%
ggplot(aes(x = lemme, y = n)) +
geom_bar(aes(fill = sexe), stat = "identity")

On peut ensuite utiliser ce qu’on connait déjà pour produire un graphique plus clair encore :
g1_data %>%
ggplot(aes(x = reorder(lemme, total), y = n)) +
geom_bar(aes(fill = sexe), stat = "identity") +
coord_flip() +
labs(x = "",
y = "Occurrence des lemmes",
fill = "Sexe",
title = "Les 25 lemmes les plus utilisés selon le sexe",
caption = "Données : entretiens jardins.")

Ce graphique est plutôt satisfaisant. Toutefois, les barres colorées ne sont pas une solution optimale : la répartition par mot est claire, mais par forcément l’utilisation des mots par sexe (difficile de comparer si les femmes disent plus “fair” ou “chos”).
Le diagramme en barres : barres juxtaposées
Nous pouvons essayer autre chose : juxtaposer les barres au lieu de colorer à l’intérieur de chaque barre, en ajoutant position = "dodge".
g1_data %>%
ggplot(aes(x = reorder(lemme, total), y = n)) +
geom_bar(aes(fill = sexe), stat = "identity", position = "dodge") +
coord_flip() +
labs(x = "",
y = "Occurrence des lemmes",
fill = "Sexe",
title = "Les 25 lemmes les plus utilisés selon le sexe",
caption = "Données : entretiens jardins.")

Techniquement, ce graphe est plus lisible car chaque barre commence au même niveau. Malheureusement, il est parfois difficile de distinguer quelles barres correspondent à quel lemme. De manière générale, les barres colorées ou juxtaposées ne sont pas optimales, en particulier si nous avons plus de deux modalités. De plus, nous avons perdu l’ensemble (le total quelque soit le sexe).
Nous pouvons aller encore plus loin : produire deux graphiques, l’un pour les hommes, l’autre pour les femmes, et les coller.
Le diagramme en barres : les facettes
Pour ce faire, nous allons utiliser un nouveau concept de ggplot, les facettes :
g1_data %>%
ggplot(aes(x = reorder(lemme, total), y = n)) +
geom_bar(stat = "identity") +
facet_wrap(~ sexe) +
coord_flip() +
labs(x = "",
y = "Occurrence des lemmes",
title = "Les 25 lemmes les plus utilisés selon le sexe",
caption = "Données : entretiens jardins.")

C’est déjà beaucoup mieux. Ici, les couleurs n’apportent pas d’information, mais elles peuvent rendre l’ensemble plus lisible.
g1_data %>%
ggplot(aes(x = reorder(lemme, total), y = n)) +
geom_bar(aes(fill = sexe), stat = "identity") +
facet_wrap(~ sexe) +
coord_flip() +
labs(x = "",
y = "Occurrence des lemmes",
fill = "Sexe",
title = "Les 25 lemmes les plus utilisés selon le sexe",
caption = "Données : entretiens jardins.")

Ce graphe est presque parfait. Il lui manque juste une information : par rapport au premier graphique, nous avons perdu les données d’ensemble. Heureusement, grâce à ggplot, nous pouvons facilement le rajouter en utilisant un geom supplémentaire, avec une esthétique y = total :
g1_data %>%
ggplot(aes(x = reorder(lemme, total), y = n)) +
geom_bar(aes(y = total), stat = "identity", fill = "gray70") +
geom_bar(aes(fill = sexe), stat = "identity") +
facet_wrap(~ sexe) +
coord_flip() +
labs(x = "",
y = "Occurrence des lemmes",
fill = "Sexe",
title = "Les 25 lemmes les plus utilisés selon le sexe",
caption = "Données : entretiens jardins. L'ensemble est en gris.")

Nous ne pouvons guère plus améliorer ce diagramme en barres. Il s’adaptera aussi très bien aux croisements avec une variable qui compte plus de deux modalités (classe d’âge, professions).
Les diagrammes en barres ont toutefois des inconvénients presque intrinsèques : l’aire des barres peut nous induire en erreur alors que concrètement, seule la position de la barre compte. Une représentation moins courante, mais plus efficace que le diagramme en barres est le graphe de Cleveland.
Le graphe de Cleveland.
Le graphe de Cleveland respecte le principe de Tufte (optimiser le ratio encre / information), tout en permettant de comparer très exactement les populations hommes et femmes.
g1_data %>%
ggplot(aes(x = reorder(lemme, total), y = n)) +
geom_point(aes(colour = sexe), stat = "identity") +
coord_flip() +
labs(x = "",
y = "Occurrence des lemmes",
colour = "Sexe",
title = "Les 25 lemmes les plus utilisés selon le sexe",
caption = "Données : entretiens jardins.")

Faire un tableau croisé
Nous pouvons maintenant passer à une autre forme de représentation graphique : le tableau croisé.
Première solution : utiliser table()
On peut utiliser la fonction de base table(), que nous connaissons déjà :
table(mots$sexe, mots$mot)
Cette fonction marche parfaitement bien pour des tableaux qui demandent peu de nettoyage et de recodage. Ce n’est pas le cas ici, nous avons beaucoup trop de mots. Nous pourrions nettoyer nos données au préalable et ensuite faire le tableau.
Le problème de la fonction table() est qu’elle retourne un tableau et non pas un tibble, c’est-à-dire une base de données manipulable. C’est pourquoi nous verrons maintenant une autre façon de produire ce tableau, cette fois avec dplyr.
Deuxième solution : utiliser spread()
Une autre façon de procéder est de prendre nos données g1_data et de considérer que faire un tableau croisé, c’est procéder à un recodage : nous passons d’une base où l’observation est le “mot-sexe” à une autre base où chaque observation serait un mot, et le décompte pour hommes et femmes serait en colonnes.
Pour ce faire, nous pouvons utiliser la fonction spread() :
g1_data %>%
spread(sexe, n)
Le premier argument donne la variable chacune des modalités deviendra une colonne à part, et le deuxième indique le contenu de ces colonnes.
Nous pouvons produire un tableau plus ordonné :
g1_data %>%
spread(sexe, n) %>%
select(lemme, Femme, Homme, total) %>%
arrange(desc(total))
Les mots et leurs fréquences
Jusqu’ici, nous n’avons considéré les mots que dans leurs occurrences, c’est-à-dire leurs effectifs. Quel problème cela peut-il poser à l’interprétation ?
D’une part, nous avons plus de femmes que d’hommes dans notre échantillon :
entretiens %>%
count(sexe)
Et donc, les femmes ont utilisés plus de mots dans l’ensemble :
mots %>%
group_by(sexe) %>%
summarise(n = n())
Mais aussi plus de mots différents, quoique moins en proportion :
mots %>%
group_by(sexe) %>%
summarise(nb_mots = n(),
nb_mots_diff = n_distinct(mot))
NB: remarquez ici l’utilité de la fonction summarise(), qui nous a permis de résumer non seulement le nombre de mots utilisés mais aussi les mots différents mobilisés en une seule commande.
Essayons de voir, pour chaque entretien, combien de mots sont utilisés et combien de mots différents sont mobilisés, puis de croiser ces variables avec le sexe. Pour ce faire, nous devons refaire la base de mots en rajoutant un identifiant à chaque entretien.
mots <- entretiens %>%
mutate(id = 1:nrow(entretiens)) %>%
unnest_tokens(mot, texte) %>%
anti_join(mots_vides) %>%
mutate(lemme = wordStem(mot, language = "fr"))
Joining, by = "mot"
mots %>%
group_by(sexe, id) %>%
summarise(mots = n(),
mots_diff = n_distinct(lemme)) %>%
group_by(sexe) %>%
summarise(mots_mean = mean(mots),
mots_diff_mean = mean(mots_diff),
effectifs = n_distinct(id))
Remarquez à nouveau l’utilité de la fonciton summarise(), qui nous permet de produire en une commande des moyennes.
Ce tableau présente poru haque sexe, le nombre moyen de mots utilisés par entretiens, le nombre moyen de mots différents mobilisés, et enfin le nombre de personnes dans chaque groupe. Que peut-on en déduire ?
Cette brève mise en bouche nous apprend plusieurs cohes :
- D’une part, les effectifs ne suffisent pas : il faut les accompagner de fréquences, des pourcentages, qui mettent en contexte ces effectifs pour hcaque groupe.
- D’autre part, dans l’analyse textuelle, plusieurs types de fréquences sont à prendre en considération : rapporter au nombre de mots total utilisés, ou bien au nombre de mots différents employés.
Présentation des indicateurs de fréquence textuelle
Nous avons trois indicateurs, du plus simple au plus subtil :
- La fréquence des termes (term frequency, TF) : il s’agit de l’approche la plus évidente, c’est à dire diviser le nombre d’occurrences d’un terme par le total des mots utilisés dans un document (ici, un entretien). Cette métrique va toutefois privilégier le mots les plus courants, et comme nous l’avons vu, les mots les plus courants sont souvent inintéressants car comme toute le monde les utilise beaucoup, ils perdent de leur caractère distinctif.
- La fréquence inverse de documents (inverse document frequency, IDF) : pour pallier ce problème, nous pouvons créer une autre métrique qui caractérise la spécificité d’un terme dans l’ensemble du corpus, en donnant plus de poids aux mots rarement employés dans l’ensemble du corpus qui seraient plus distinctifs. C’est la fréquence inverse puisque plus cette métrique est important, moins le terme est courant à l’échelle du corpus.
- TF-IDF : c’est la combinaison des deux, on multiplie les deux indicateurs précédents pour tenir compte à la fois de la fréquence des termes et de leur rareté relative.
Dans le paquet tidytext, nous avons heureusement une fonction prête à l’emploi :
mots_freq <- mots %>%
count(id, sexe, lemme) %>%
bind_tf_idf(lemme, id, n)
mots_freq
Explorons un peu cette base. Quels sont les termes avec la plus grande TF ?
mots_freq %>%
arrange(desc(tf))
Quels termes ont une IDF nulle ?
mots_freq %>%
filter(idf == 0)
Quels termes ont la TF-IDF la plus élevée ?
mots_freq %>%
arrange(desc(tf_idf))
Exemples d’analyse : mots fréquents typiquement féminins
Créons une base de données des mots que les femmes ont utilisés et trions-les par TF-IDF décroissant.
Faisons la même chose pour les hommes.
Fusionnons ces deux bases, en ne gardant que les mots communs entre elles inner_join() et en créant une nouvelle variable qui calcule la différence de TF-IDF entre hommes et femmes :
On passe maintenant au graphique :
mots_fh %>%
arrange(desc(diff)) %>%
head(25) %>%
gather("sexe", "tf_idf", starts_with('tf_idf')) %>%
mutate(sexe = str_extract(sexe, '(homme|femme)')) %>%
ggplot(aes(x = reorder(lemme, diff), y = tf_idf)) +
geom_point(aes(colour = sexe)) +
coord_flip() +
labs(x = "",
y = "TF-IDF moyenne",
colour = "Sexe",
title = "Les 25 mots les plus spécifiques aux femmes, par rapport aux hommes",
caption = "Données : entretiens jardin. Les lemmes sont organisés par
écart décroissant entre hommes et femmes.")

---
title: "Introduction tidytext"
author: "Gabriel Alcaras"
date: "mars 2020"
output:
  html_notebook:
    toc: yes
  html_document:
    df_print: paged
    toc: yes
  pdf_document:
    toc: yes
    toc_depth: 3
subtitle: CPES 2 - Techniques quantitatives
---

# Introduction à l'analyse textuelle avec R et le tidytext

Rappel : il existe plusieurs façons de faire de l'analyse textuelle, nous ne
verrons ici qu'une approche rudimentaire mais plutôt efficace, le *bag of
words* (sac de mots).

On charge les différents paquets nécessaires pour cette séance.

```{r load packages, warning = FALSE}
library(tidyverse)
library(dplyr)

library(tidytext) # Pour manipuler les données textuelles
library(stopwords) # Mots "inutiles"
library(SnowballC) # Lemmatisation / stemmatisation
```

Chargeons la base de données `entretiens`.

```{r data, warning = FALSE, message = FALSE}
entretiens <- read_csv(here::here('data', 'entretiens','entretiens.csv'))
glimpse(entretiens)
```

Que remarque-t-on ? Comment cette base est-elle construite ?

## Étape 1 : recodage ("tokenization")

Dans l'approche "sac de mots" (*bag of words*), on divise notre texte en unités
de texte plus petites. Par exemple, on peut faire des "sacs" de 1 mot, 2 mots,
..., $n$ mots. C'est ce qu'on appelle des $n$-grams. Pour l'instant, on se
contente de faire des sacs d'un seul mot ($1$-gram).

On veut donc passer d'une base large (une colonne très longue, avec tout le
texte) vers une base longue (beaucoup de lignes). En fait, on veut changer
d'individu statistique : du texte vers le sac de mots, ou dans notre cas, vers
le mot.

C'est donc une opération de recodage. Nous pourrions le faire avec les outils
du `tidyverse`, mais comme c'est une opération commune dans l'analyse
textuelle, nous allons utiliser directement une fonction issue du paquet
`tidytext`, `unnest_tokens()`.

```{r unnest}
mots <- entretiens %>%
  unnest_tokens(mot, texte)
```

Regardons quels sont les 10 mots les plus utilisés :

```{r top 10 simple}
mots %>%
  count(mot, sort = TRUE) %>%
  head(10)
```

*A priori*, ce ne sont pas trop les mots qui nous intéressent... Comment faire ?

## Étape 2 : enlever les "mots vides" (*stop words*)

Pour enlever les mots qui nous intéressent, nous pourrions nous-mêmes
construire une liste de mots que nous voulons exclure de notre base. Mais ce
serait un peu fastidieux, nous allons donc plutôt utiliser une liste déjà toute
faite, contenue dans le paquet `stopwords`.

Les *stop words*, appelés "mots vides" en français, sont les mots qu'on juge
"vides de sens", du moins dans une approche sac de mots. Il faut ici user de
prudence et ne pas utiliser ces listes sans vérifier quels termes elles
contiennent. En effet, on pourrait très bien s'intéresser à ces "mots vides"
selon notre question de recherche, même si ce n'est pas notre cas ici.

Voyons les stopwords en question :

```{r stopwords}
glimpse(stopwords('fr', source="stopwords-iso"))
```

Nous pouvons filtrer notre liste de termes de plusieurs façons. Nous allons ici
utiliser une procédure propre à la manipulation des bases de données, les
jointures. Les jointures permettent de combiner plusieurs bases entre elles.
Ici, nous aller créer une base de stop words, avec une variable `mot`, qui va
correspondre *exactement* à la variable `mot` dans notre base de mots. Ainsi,
nous allons pouvoir réaliser une anti-jointure, c'est-à-dire exclure de la base
`mots` toutes les lignes où la variable `mot` correspond à la variable `mot`
dans notre base de stop words.

```{r rm stopwords, message = FALSE}
# Crétaion d'une base de mots vides
mots_vides <- tibble(mot = stopwords('fr', source="stopwords-iso"))

# Création d'une base de mots
mots <- entretiens %>%
  unnest_tokens(mot, texte) %>%
  anti_join(mots_vides)
```

Remarquez au passage le message qu'affiche `dplyr` pour nous signaler comment s'effectue la jointure.

Maintenant, regardons à nouveau quels sont les 25 mots les plus utilisés :

```{r top 25 rm stopwords}
mots %>%
  count(mot, sort = TRUE) %>%
  head(25) %>%
  print(n = 25)
```

C'est déjà bien mieux ! Mais nous avons toujours quelques soucis : `choses` et
`chose` pourraient ainsi être regroupés. Comment y parvenir ?

## Étape 3 : lemmatisation ou stemmatisation

Encore une fois, nous pourrions ici "manuellement" nous servir du `tidyverse`
pour regrouper tous les mots d'une même famille ensemble, mais ce serait
à nouveau une opération fastidieuse. Évidemment, les paquets d'analyse
textuelle proposent des outils pour y parvenir. Nous pouvons distinguer en
gros deux méthodes :

+ *stemmatisation* : on coupe les mots pour en obtenir la racine (*stem* veut
  dire "tige", "souche" en anglais). Les mots "choses" et "chose"
  deviennent ainsi "chose".
+ *lemmatisation* : cette opération est plus complexe, mais prend en compte
  certains cas que la stemmatisation laissera de côté, par exemple le verbe
  "essayer" se transformera en "essaie", qu'on pourra plus facilement agréger.

En français, la stemmatisation donne des résultats limités, nous allons donc
plutôt lemmatiser notre base à l'aide du paquet `SnowballC` et de sa fonction
`wordStem()`. Regardons comment elle fonctionne :

```{r lemme test}
wordStem('essayer', language = "fr")
```

Nous allons créer une *nouvelle variable* `lemme` pour chaque `mot`, afin de ne
pas perdre les mots originaux.

Combinons toutes nos commandes pour produire la base de mots souhaitée :

```{r mots final}
mots <- entretiens %>%
  unnest_tokens(mot, texte) %>%
  anti_join(mots_vides) %>%
  mutate(lemme = wordStem(mot, language = "fr"))
```

Et maintenant, regardons quels sont les 25 mots les plus employés :

```{r top 25 final}
top25 <- mots %>%
  count(lemme, sort = TRUE) %>%
  head(25) %>%
  print(n = 25)
```

Le résultat est bien meilleur.

# Présenter et exporter ses résultats

Nous avons maintenant un premier résultat, un tri à plat des 25 mots les plus
employés dans notre corpus. Admettons qu'on veuille le présenter dans un
document. Nous avons deux possibilités :

+ Présenter nos données sous forme numérique
+ Présenter nos données sous forme graphique

## Exporter un tableau vers un traitement de texte

Pour exporter un tableau vers un traitement de texte traditionnel (LibreOffice,
par exemple, je n'en vois pas d'autres, non, vraiment), on peut suivre la
méthode suivante :

1. On écrit le tableau dans un format spécial depuis la console (ou bien on
   peut l'exporter directement dans un nouveau fichier)
2. On copie et on colle le texte obtenu dans le traitement de texte
3. On sélectionne le texte collé, et on se rend dans le menu Table > Convert et
   on sélectionne les réglages appropriés.

Par exemple :

```{r export top25}
top25 %>%
  write.table(row.names = FALSE, quote = FALSE, sep = ",")
```

## Faire un graphique avec `ggplot2`

Nous allons voir ici comment réaliser des graphiques avec `ggplot2`, ce sera une
introduction très brève à un vaste sujet.

La visualisation de données pourrait faire l'objet d'un cours à part. Voici
quelques conseils généraux :

+ Une représentation graphique n'est pas une représentation objective de nos
  données, au sens où elle donnerait un accès direct aux observations. Au
  contraire, un graphique convie une information et un point de vue sur ces
  informations. Quand vous réalisez un graphique, ne cherchez pas à faire un
  graphique plaisant mais plutôt un graphique qui a du sens et qui convie au
  mieux le message que vous voulez faire passer.
+ Le principe de Tufte : le meilleur graphique est celui qui optimise le ratio
  encre / information. L'idée est d'utiliser le moins d'éléments graphiques
  possibles pour convier l'information souhaitée.
+ Les éléments graphiques ou esthétiques doivent être mis au service de la
  sémantique des données.

Le paquet `ggplot2` est directement intégré au paquet tidyverse, le `gg`
signifie "Grammar of Graphics", littéralement la grammaire des graphiques.
L'idée de ggplot est relativement simple : c'est de nous fournir un langage qui
permette de produire des graphiques en distinguant les *principes sémantiques*
du graphique de sa *mise en forme* en suivant des *étapes* claires.

Voyons comment cela marche en pratique.

### Étape 1 : `data`, sélectionner des données

Tout d'abord, un graphique a besoin de données préalablement préparées. C'est
notre cas, on veut utiliser `top25` pour en faire un graphique.

On peut fournir les données à `ggplot2` de deux façons :

```{r gg data, fig.show = "hide" }
ggplot(top25) # Approche de base dans R

# Approche Tidyverse
top25 %>%
  ggplot()
```

J'utiliserai la deuxième approche par la suite.

Que peut-on remarquer dans RStudio ?

### Étape 2 : `aes` (*aesthetics*), faire correspondre données et esthétiques

C'est peut-être le concept le plus important de `ggplot2`. L'idée est qu'un
graphique dispose d'un certain nombre de caractéristiques esthétiques,
auxquelles nous pourrons faire correspondre des variables. Voici quelques `aesthetics` :

+ `x`, `y` : axes des abscisses et des ordonnées
+ `fill` : remplissage (des colonnes d'un histogramme, d'un diagramme en barre)
+ `colour` : couleur (d'un point, d'une courbe, etc.)
+ `shape` : forme (d'un point, etc.)

Le concept des esthétiques est particulièrement puissant et élégant, comme nous
le verrons par la suite.

Pour l'instant, nous allons simplement faire correspondre l'axe des x à la
variable qualitative `mot` et l'axe des y au nombre d'occurrences de ces mots,
`n`.

```{r aes, fig.show = "hide" }
top25 %>%
  ggplot(aes(x = lemme, y = n))
```

Que peut-on remarquer dans RStudio ?

### Étape 3 : `geom` (*geometry*), le choix d'une représentation graphique

Une fois que nous avons choisi des esthétiques, nous devons ajouter à notre
graphique une représentation visuelle de ces esthétiques. Or, nous pouvons
utiliser plusieurs représentations graphiques pour des mêmes esthétiques.

Dans `ggplot2`, les représentations graphiques s'appellent des `geometries`,
des "géométries". Ici, nous pouvons utiliser au moins deux représentations
graphiques des mêmes données :

+ `geom_point` : selon les données, on obtient soit un nuage de points
  (*scattre plot*) ou un graphe de Cleveland (*Cleveland dot plot*).
+ `geom_bar` : un diagramme en barres (*barplot*) à distinguer d'un
  histogramme, qui a d'autres caractéristiques. Visuellement, on reconnaît le
  diagramme en barres par les espaces entre les barres. De plus, l'histogramme
  se prête mieux à la représentation de données quantitatives continues

Pour ce faire, on *ajoute littéralement* à notre graphique notre géométrie avec
l'opérateur `+`.

Voici un graphe de Cleveland :

```{r geom_point 1}
top25 %>%
  ggplot(aes(x = lemme, y = n)) +
  geom_point()
```

Et voici les mêmes données en diagramme en barres :

```{r barplot 1}
top25 %>%
  ggplot(aes(x = lemme, y = n)) +
  geom_bar(stat = "identity")
```

Par la suite, je me limite au diagramme en barres.

### Étape 4 : `coord`, `scales`, réglages des coordonnées et des échelles

Après avoir fait un choix de représentation graphique, nous pouvons régler
différents paramètres, plus précisément en agissant sur les coordonnées ou les
échelles.

Par exemple, ici, on voudrait inverser les coordonnées pour mieux lire les mots.

```{r barplot coord_flip}
top25 %>%
  ggplot(aes(x = lemme, y = n)) +
  geom_bar(stat = "identity") +
  coord_flip()
```

### Étape 5 : personnalisation des éléments graphiques

Notez que jusqu'à présent, nous n'avons fait que des choix sémantiques et non
pas des choix esthétiques. Nous n'avons pas choisi de couleurs par exemple. Ces
choix arrivent en dernière partie.

```{r barplot theming}
top25 %>%
  ggplot(aes(x = lemme, y = n)) +
  geom_bar(stat = "identity") +
  coord_flip() +
  labs(x = "",
       y = "Occurences du lemme",
       title = "Les 25 mots les plus présents dans les entretiens",
       caption = "Données : entretiens jardins CPES, lemmatisée et nettoyée des mots vides.") +
  theme_minimal() # Changer l'apparence du graphique en choisissant des thèmes
```

Il est aussi possible de choisir un thème une bonne fois pour toute :

```{r set_theme}
theme_set(theme_minimal())
```

Nous utiliserons le thème `minimal` par la suite.

### Étape 6 : exporter le graphique

Nous pouvons ici utiliser l'interface de RStudio directement pour enregistrer
notre graphique.

### Une astuce : trier les modalités

Pour rendre notre graphique encore plus lisible, nous pouvons trier les
modalités par ordre décroissant. Ceci n'est en fait pas une modification
purement visuelle, mais bien sémantique, parce que nous voulons souligner le
fait que la variable qualitative "lemme" est ordonnée.

Par conséquent, nous devons agir soit sur les données, soit sur les esthétiques.

```{r barplot reorder}
top25 %>%
  ggplot(aes(x = reorder(lemme, n), y = n)) +
  geom_bar(stat = "identity") +
  coord_flip() +
  labs(x = "",
       y = "Occurences du lemme",
       title = "Les 25 mots les plus présents dans les entretiens",
       caption = "Données : entretiens jardins CPES, lemmatisée et nettoyée des mots vides.")
```

# Croiser des variables

Nous avons déjà effectué et représenté un traitement statistique simple,  le
tri à plat − c'est-à-dire un simple comptage, attaché à une seule variable
qualitative.

Évidemment, nous voulons aller un peu plus loin et étudier les interactions
entre plusieurs variables. Dans notre exemple, nous allons croiser deux
variables qualitatives : les mots utilisés et le sexe. Ce sont deux variables
qualitatives, comme souvent en sciences humaines et sociales. Pour ce faire, on
peut utiliser un tableau croisé ou ses représentations graphiques.

Regardons comment procéder dans R.

## Préparer des données

### Première solution : `count()`

Nous avons déjà rencontré la fonction `count()` dans le cours. Elle prend en
argument le nom des variables qui vont nous servir à grouper les observations.
Par exemple, nous avons déjà fait un tri à plat en comptant seulement les
lemmes :

```{r tri à plat}
mots %>%
  count(lemme, sort = TRUE)
```

L'argument `sort` permet de trier par observations décroissantes.

Pour croiser deux variables, l'idée est de grouper à la fois par lemme ET par sexe :

```{r count tri à plat}
mots %>%
  count(sexe, lemme, sort = TRUE)
```

### Deuxième solution : `group_by()` et `summarise()`

Le paquet `dplyr()` nous donne une deuxième solution, un peu plus puissante car
elle est plus flexible. Elle se fait en deux étapes : nous groupons notre base
par sexe et par lemme (comme avec `count()`), puis nous produisons une
information synthétique à partir de ces groupes, autrement dit, nous produisons
un résumé (fonction `summarise()`).

```{r group_by summarise}
mots %>%
  group_by(sexe, lemme) %>%
  summarise(n_sexe = n())
```

Cela donne le même résultat que `count()`. Nous verrons plus tard que
`summarise()` s'applique à davantage de cas.

## Représenter graphiquement une interaction entre deux variables qualitatives

Nous avons plusieurs façons de représenter graphiquement l'interaction entre
deux variables *qualitatives* (les représentations diffèrent selon les types de
variable en jeu).

Nous allons voir deux représentations qui représentent au mieux l'information
que nous voulons convier : la répartition genrée de l'emploi des 25 mots les
plus courants dans notre corpus.

### Préparer les données

Commençons par créer les données nécessaires à notre graphique. La première
étape est de trouver les 25 mots les plus fréquents dans l'ensemble (hommes et
femmes confondus), ce qu'on sait déjà faire : c'est un tri à plat très simple.
Nous allons juste renommer la colonne `n` en `total` :

```{r top25 total}
total <- mots %>%
  count(lemme) %>%
  rename(total = n)
```

Nous allons à nouveau utiliser les jointures, cette fois pour coller les
données d'ensemble produites dans la variable `top25` aux données qui croisent
les lemmes avec le genre.

```{r count left_join}
mots %>%
  count(sexe, lemme) %>%
  left_join(total)
```

Nous pouvons maintenant sélectionner les 25 mots les plus employés dans
l'ensemble et les stocker dans une base qui nous servira à faire notre
graphique :

```{r g1_data}
g1_data <- mots %>%
  count(sexe, lemme) %>%
  left_join(total) %>%
  arrange(desc(total)) %>% # Tri par ordre décroissant sur la colonne total
  head(50)
g1_data
```

Remarquez qu'on prend les 50 premières lignes, donc les 25 mots les plus
fréquents, puisque chaque mot est sur deux lignes, une pour les hommes, une
pour les femmes.

### Le diagramme en barres : barres colorées

Utilisons les esthétiques de `ggplot2`, cette fois en ajoutant une deuxième
dimension (le sexe) en remplissage, donc `fill`.

```{r barplot fill}
g1_data %>%
  ggplot(aes(x = lemme, y = n)) +
  geom_bar(aes(fill = sexe), stat = "identity")
```

On peut ensuite utiliser ce qu'on connait déjà pour produire un graphique plus
clair encore :

```{r barplot fill final}
g1_data %>%
  ggplot(aes(x = reorder(lemme, total), y = n)) +
  geom_bar(aes(fill = sexe), stat = "identity") +
  coord_flip() +
  labs(x = "",
       y = "Occurrence des lemmes",
       fill = "Sexe",
       title = "Les 25 lemmes les plus utilisés selon le sexe",
       caption = "Données : entretiens jardins.")
```

Ce graphique est plutôt satisfaisant. Toutefois, les barres colorées ne sont
pas une solution optimale : la répartition par mot est claire, mais par
forcément l'utilisation des mots par sexe (difficile de comparer si les femmes
disent plus "fair" ou "chos").

### Le diagramme en barres : barres juxtaposées

Nous pouvons essayer autre chose : juxtaposer les barres au lieu de colorer
à l'intérieur de chaque barre, en ajoutant `position = "dodge"`.

```{r barplot dodge}
g1_data %>%
  ggplot(aes(x = reorder(lemme, total), y = n)) +
  geom_bar(aes(fill = sexe), stat = "identity", position = "dodge") +
  coord_flip() +
  labs(x = "",
       y = "Occurrence des lemmes",
       fill = "Sexe",
       title = "Les 25 lemmes les plus utilisés selon le sexe",
       caption = "Données : entretiens jardins.")
```

Techniquement, ce graphe est plus lisible car chaque barre commence au même
niveau. Malheureusement, il est parfois difficile de distinguer quelles barres
correspondent à quel lemme. De manière générale, les barres colorées ou
juxtaposées ne sont pas optimales, en particulier si nous avons plus de deux
modalités. De plus, nous avons perdu l'ensemble (le total quelque soit le
sexe).

Nous pouvons aller encore plus loin : produire deux graphiques, l'un pour les
hommes, l'autre pour les femmes, et les coller.

### Le diagramme en barres : les facettes

Pour ce faire, nous allons utiliser un nouveau concept de `ggplot`, les
facettes :

```{r barplot facet}
g1_data %>%
  ggplot(aes(x = reorder(lemme, total), y = n)) +
  geom_bar(stat = "identity") +
  facet_wrap(~ sexe) +
  coord_flip() +
  labs(x = "",
       y = "Occurrence des lemmes",
       title = "Les 25 lemmes les plus utilisés selon le sexe",
       caption = "Données : entretiens jardins.")
```

C'est déjà beaucoup mieux. Ici, les couleurs n'apportent pas d'information,
mais elles peuvent rendre l'ensemble plus lisible.

```{r barplot facet fill}
g1_data %>%
  ggplot(aes(x = reorder(lemme, total), y = n)) +
  geom_bar(aes(fill = sexe), stat = "identity") +
  facet_wrap(~ sexe) +
  coord_flip() +
  labs(x = "",
       y = "Occurrence des lemmes",
       fill = "Sexe",
       title = "Les 25 lemmes les plus utilisés selon le sexe",
       caption = "Données : entretiens jardins.")
```

Ce graphe est presque parfait. Il lui manque juste une information : par
rapport au premier graphique, nous avons perdu les données d'ensemble.
Heureusement, grâce à `ggplot`, nous pouvons facilement le rajouter en
utilisant un `geom` supplémentaire, avec une esthétique `y = total` :

```{r barplot facet fill total}
g1_data %>%
  ggplot(aes(x = reorder(lemme, total), y = n)) +
  geom_bar(aes(y = total), stat = "identity", fill = "gray70") +
  geom_bar(aes(fill = sexe), stat = "identity") +
  facet_wrap(~ sexe) +
  coord_flip() +
  labs(x = "",
       y = "Occurrence des lemmes",
       fill = "Sexe",
       title = "Les 25 lemmes les plus utilisés selon le sexe",
       caption = "Données : entretiens jardins. L'ensemble est en gris.")
```

Nous ne pouvons guère plus améliorer ce diagramme en barres. Il s'adaptera
aussi très bien aux croisements avec une variable qui compte plus de deux
modalités (classe d'âge, professions).

Les diagrammes en barres ont toutefois des inconvénients presque intrinsèques :
l'aire des barres peut nous induire en erreur alors que concrètement, seule la
position de la barre compte. Une représentation moins courante, mais plus
efficace que le diagramme en barres est le graphe de Cleveland.

### Le graphe de Cleveland.

Le graphe de Cleveland respecte le principe de Tufte (optimiser le ratio encre
/ information), tout en permettant de comparer très exactement les populations
hommes et femmes.

```{r cleveland dot plot}
g1_data %>%
  ggplot(aes(x = reorder(lemme, total), y = n)) +
  geom_point(aes(colour = sexe), stat = "identity") +
  coord_flip() +
  labs(x = "",
       y = "Occurrence des lemmes",
       colour = "Sexe",
       title = "Les 25 lemmes les plus utilisés selon le sexe",
       caption = "Données : entretiens jardins.")
```

## Faire un tableau croisé

Nous pouvons maintenant passer à une autre forme de représentation graphique :
le tableau croisé.

### Première solution : utiliser `table()`

On peut utiliser la fonction de base `table()`, que nous connaissons déjà :

```{r table, eval = FALSE}
table(mots$sexe, mots$mot)
```

Cette fonction marche parfaitement bien pour des tableaux qui demandent peu de
nettoyage et de recodage. Ce n'est pas le cas ici, nous avons beaucoup trop de
mots. Nous pourrions nettoyer nos données au préalable et ensuite faire le tableau.

Le problème de la fonction `table()` est qu'elle retourne un tableau et non pas
un `tibble`, c'est-à-dire une base de données manipulable. C'est pourquoi nous
verrons maintenant une autre façon de produire ce tableau, cette fois avec
`dplyr`.

### Deuxième solution : utiliser `spread()`

Une autre façon de procéder est de prendre nos données `g1_data` et de
considérer que faire un tableau croisé, c'est procéder à un recodage : nous
passons d'une base où l'observation est le "mot-sexe" à une autre base où
chaque observation serait un mot, et le décompte pour hommes et femmes serait
en colonnes.

Pour ce faire, nous pouvons utiliser la fonction `spread()` :

```{r spread}
g1_data %>%
  spread(sexe, n)
```

Le premier argument donne la variable chacune des modalités deviendra une
colonne à part, et le deuxième indique le contenu de ces colonnes.

Nous pouvons produire un tableau plus ordonné :

```{r spread final}
g1_data %>%
  spread(sexe, n) %>%
  select(lemme, Femme, Homme, total) %>%
  arrange(desc(total))
```

# Les mots et leurs fréquences

Jusqu'ici, nous n'avons considéré les mots que dans leurs occurrences,
c'est-à-dire leurs *effectifs*. Quel problème cela peut-il poser
à l'interprétation ?

D'une part, nous avons plus de femmes que d'hommes dans notre échantillon :

```{r effectifs sexe}
entretiens %>%
  count(sexe)
```

Et donc, les femmes ont utilisés plus de mots dans l'ensemble :

```{r effectifs mots}
mots %>%
  group_by(sexe) %>%
  summarise(n = n())
```

Mais aussi plus de mots différents, quoique moins en proportion :

```{r effectifs mots diff}
mots %>%
  group_by(sexe) %>%
  summarise(nb_mots = n(),
            nb_mots_diff = n_distinct(mot))
```

*NB: remarquez ici l'utilité de la fonction `summarise()`, qui nous a permis de
résumer non seulement le nombre de mots utilisés mais aussi les mots différents
mobilisés en une seule commande*.

Essayons de voir, pour chaque entretien, combien de mots sont utilisés et
combien de mots différents sont mobilisés, puis de croiser ces variables
avec le sexe. Pour ce faire, nous devons refaire la base de mots en rajoutant
un identifiant à chaque entretien.

```{r entretiens sexe}
mots <- entretiens %>%
  mutate(id = 1:nrow(entretiens)) %>%
  unnest_tokens(mot, texte) %>%
  anti_join(mots_vides) %>%
  mutate(lemme = wordStem(mot, language = "fr"))

mots %>%
  group_by(sexe, id) %>%
  summarise(mots = n(),
            mots_diff = n_distinct(lemme)) %>%
  group_by(sexe) %>%
  summarise(mots_mean = mean(mots),
            mots_diff_mean = mean(mots_diff),
            effectifs = n_distinct(id))
```

Remarquez à nouveau l'utilité de la fonciton `summarise()`, qui nous permet de
produire en une commande des moyennes.

Ce tableau présente poru haque sexe, le nombre moyen de mots utilisés par
entretiens, le nombre moyen de mots différents mobilisés, et enfin le nombre de
personnes dans chaque groupe. Que peut-on en déduire ?

Cette brève mise en bouche nous apprend plusieurs cohes :

+ D'une part, les effectifs ne suffisent pas : il faut les accompagner de
  *fréquences*, des pourcentages, qui mettent en contexte ces effectifs pour
  hcaque groupe.
+ D'autre part, dans l'analyse textuelle, plusieurs types de fréquences sont
  à prendre en considération : rapporter au nombre de mots total utilisés, ou
  bien au nombre de mots différents employés.

## Présentation des indicateurs de fréquence textuelle

Nous avons trois indicateurs, du plus simple au plus subtil :

+ **La fréquence des termes** (*term frequency*, TF) : il s'agit de l'approche
  la plus évidente, c'est à dire diviser le nombre d'occurrences d'un terme par
  le total des mots utilisés dans un document (ici, un entretien). Cette
  métrique va toutefois privilégier le mots les plus courants, et comme nous
  l'avons vu, les mots les plus courants sont souvent inintéressants car comme
  toute le monde les utilise beaucoup, ils perdent de leur caractère
  distinctif.
+ **La fréquence inverse de documents** (*inverse document frequency*, IDF) :
  pour pallier ce problème, nous pouvons créer une autre métrique qui
  caractérise la spécificité d'un terme dans l'ensemble du corpus, en donnant
  plus de poids aux mots rarement employés dans l'ensemble du corpus qui
  seraient plus distinctifs. C'est la fréquence inverse puisque plus cette
  métrique est important, moins le terme est courant à l'échelle du corpus.
+ **TF-IDF** : c'est la combinaison des deux, on multiplie les deux indicateurs
  précédents pour tenir compte à la fois de la fréquence des termes et de leur
  rareté relative.

Dans le paquet `tidytext`, nous avons heureusement une fonction prête
à l'emploi :

```{r td_idf}
mots_freq <- mots %>%
  count(id, sexe, lemme) %>%
  bind_tf_idf(lemme, id, n)
mots_freq
```

Explorons un peu cette base. Quels sont les termes avec la plus grande TF ?

```{r tf}
mots_freq %>%
  arrange(desc(tf))
```

Quels termes ont une IDF nulle ?

```{r idf}
mots_freq %>%
  filter(idf == 0)
```

Quels termes ont la TF-IDF la plus élevée ?

```{r top tfidf}
mots_freq %>%
  arrange(desc(tf_idf))
```

## Exemples d'analyse : mots fréquents typiquement féminins

Créons une base de données des mots que les femmes ont utilisés et trions-les
par TF-IDF décroissant.

```{r top femmes}
mots_f <- mots_freq %>%
  filter(sexe == "Femme") %>%
  group_by(lemme) %>%
  summarise(n = sum(n),
            tf_idf_m = mean(tf_idf)) %>%
  arrange(desc(tf_idf_m))
mots_f
```

Faisons la même chose pour les hommes.

```{r top hommes}
mots_h <- mots_freq %>%
  filter(sexe == "Homme") %>%
  group_by(lemme) %>%
  summarise(n = sum(n),
            tf_idf_m = mean(tf_idf)) %>%
  arrange(desc(tf_idf_m))
mots_h
```

Fusionnons ces deux bases, en ne gardant que les mots communs entre elles
`inner_join()` et en créant une nouvelle variable qui calcule la différence de
TF-IDF entre hommes et femmes :

```{r inner_join}
mots_fh <- mots_f %>%
  inner_join(mots_h, by = c("lemme"), suffix = c("_femmes", "_hommes")) %>%
  mutate(diff = tf_idf_m_femmes-tf_idf_m_hommes)
mots_fh
```

On passe maintenant au graphique :

```{r graph femmes}
mots_fh %>%
  arrange(desc(diff)) %>%
  head(25) %>%
  gather("sexe", "tf_idf", starts_with('tf_idf')) %>%
  mutate(sexe = str_extract(sexe, '(homme|femme)')) %>%
  ggplot(aes(x = reorder(lemme, diff), y = tf_idf)) +
  geom_point(aes(colour = sexe)) +
  coord_flip() +
  labs(x = "",
       y = "TF-IDF moyenne",
       colour = "Sexe",
       title = "Les 25 mots les plus spécifiques aux femmes, par rapport aux hommes",
       caption = "Données : entretiens jardin. Les lemmes sont organisés par
       écart décroissant entre hommes et femmes.")
```
