Ce document est à utiliser comme une table de référence, qui peut être consultée ponctuellement ou servir de support à des révisions.

Le langage R en général

Quelques rappels sur le langage R.

Symboles et opérateurs

Opérateur Rôle Exemple
+ Addition 1+1
- Soustraction 1-1
/ Division 1/1
* Multiplication 1*1
^ Puissance 10^2
Symbole Rôle Exemple
<- Assignation à une variable animaux <- c("chien", "chat")
() Exécution d’une fonction. Contient souvent des arguments c(1, 2, 3)
[] Sélection d’un sous-ensemble dans une variable, une base de données, etc. animaux[1]
$ Sélection d’une variable dans un data.frame bdd$genre
# Commentaire : ignorer ce qui suit # Test
= Assignation d’un argument dans une fonction mean(x, na.rm = TRUE)
~ (tilde) Signe qui peut avoir plusieurs significations selon le contexte boxplot(heures.tv ~ sexe, data = hdv2003)
, Séparer des arguments d’une fonction table(hdv2003$sexe, hdv2003$cuisine)

Exemples d’utilisation des commentaires :

# Cette ligne n'est pas interprétée par R
c("chien", "chat") # Fonction


Exemples d’utilisation des parenthèses et des crochets :

[1] \chien\
chien
# En revanche :
animaux(1)

Raccourcis clavier essentiels dans RStudio

Touches Fonction
Ctrl+Entrée Exéuter la ligne où se trouve le curseur
Ctrl+Entrée Exéuter les lignes sélectionnées
Ctrl+L Effacer la console
Tab Obtenir les suggesions de complétion
Ctrl+S Sauvegarder le fichier

R est sensible…

… à la casse (minuscules/majuscules)

Exemple parmi d’autres, avec ici le nom des fonctions :

# Cette fonction est connue de R
factor(c(\chien\, \chat\))
[1] chien chat 
Levels: chat chien
# Mais si on fait une erreur de casse :
Factor(c(\chien\, \chat\))


De même pour les variables

chien

chat
# Mais si on fait une erreur de casse :
Animaux

… à la syntaxe

Dans les noms de variables et de fonctions, les seuls caractères employés sont :

  • lettres majuscules et minuscules (pas de caractères accentués)
  • tirets du bas (underscore) _ et points .

Attention à ne JAMAIS employer d’espaces.

Sur les données

Reconnaître les types / structures de données

Pour identifier un type de données, on peut utiliser la fonction typeof().

Notation Rôle Exemple
1234 Un nombre (“double”) 1
"" ou '' Chaîne de caractères "animaux"
NA Absence de données NA

Résultats de la fonction typeof() :

typeof(1)
[1] "double"
Warning message:
In scan(file = file, what = what, sep = sep, quote = quote, dec = dec,  :
  Fin de fichier (EOF) dans une chaîne de caractères entre guillements
typeof("1")
[1] "character"
typeof(NA)
[1] "logical"


Le type de données doit être bien compris sous peine d’erreurs !

# Ce calcul fonctionne :
1+1
[1] 2
# Mais...
1+\1\


Pour identifier une structure de données, on peut utiliser la fonction str().

Nom Fonction Concept équivalent en statistiques
vector c() Variable
factor factor() Variable qualitative
data.frame data.frame() Base de données

Vecteur

Le concept de vecteur (suite de données de même type) dans R est proche de celui de variable en statistiques (série de données homogènes sur des individus), même si tous les vecteurs ne sont pas forcément des variables au sens statistique.

c(1,2,3,4) # Équivalent à une variable quantitative
[1] 1 2 3 4
str(c(1,2,3,4))
 num [1:4] 1 2 3 4
c(\homme\, \femme\, \homme\) # Série de données textuelles
[1] \homme\ \femme\ \homme\
homme

femme

homme
str(c(\homme\, \femme\, \homme\))
 chr [1:3] \homme\ \femme\ \homme\


Manipulation des vecteurs :

[1] \homme\
homme
genre[1:2]
[1] \homme\ \femme\
homme

femme
genre[c(1, 3)]
[1] \homme\ \homme\
homme

homme

Facteur

Les facteurs sont un type particulier de vecteurs dans R, de la même façon que les variables qualitatives sont un type de variable particulier.

Dans R En statistiques
factor Variable qualitative
levels Modalités de la variable


Pour voir les modalités (levels) :

levels(genre.f)
[1] \femme\ \homme\
femme

homme

Data.frame

C’est l’équivalent d’une base de données en statistiques : une série de variables sur les mêmes individus.

Pour sélectionner une variable en particulier :

bdd$variable1

Les fonctions

Les fonctions sont un concept central des langages de programmation… et donc de R !



Anatomie d’une fonction

Toujours sous la forme :

nomDeLaFonction(arguments)


Décomposition :

  • nomDeLaFonction : nom de la fonction à appeler
  • () : les parenthèses signifient qu’on demande à R d’éxéuter la fonction.
  • arguments : une liste d’arguments séparés par des virgules et une espace. Le nombre d’arguments dépend des fonctions.



Les arguments

Fonction qui n’a besoin d’aucun argument :

getwd()


La fonction c() accepte un nombre illimité d’arguments :

c(1, 2, 3, 4)


Certaines fonctions ont des arguments obligatoires :

mean()


Mais si on donne l’argument obligatoire, tout se passe bien :

notes <- c(10, 20)
mean(notes)


Certaines fonctions prennent des arguments falcutatifs, qui peuvent être nommés. Dans ce cas, le nom de l’argument est suivi d’un signe = puis de sa valeur.

notes <- c(10, 20, NA)
# Sans l'argument facultatif na.rm :
mean(notes)
# Avec l'argument facultatif na.rm :
mean(notes, na.rm = TRUE)



Fonctions imbriquées

Il est bien sûr possible d’imbriquer nos fonctions :

mean(c(c(10, 20), NA), na.rm = TRUE)


Ce qui est identique à :

notes <- c(10, 20)
notes2 <- c(notes, NA)
mean(notes2, na.rm = TRUE)


Pour comprendre les fonctions imbriquées, il faut donc procéder par étapes, en partant de l’intérieur des parenthèses pour aller vers l’extérieur.


Les variables

Dans un langage de programmation, les variables permettent d’atteindre un niveau d’abstraction supplémentaire, en attribuant un nom à un objet pour le réutiliser par la suite. Elles améliorent également la lisibilité du programme.

variable <- "coucou"
variable


Attention aux erreurs de notation !

variable
# Mais...
"variable"


Variable informatique / variable statistique

Attention : le concept de variable informatique est très différent de variable statistique. En effet, une variable informatique peut stocker n’importe quel type de données, alors qu’une variable statistique correspond à une série de données homogènes collectées sur des individus.

Les deux concepts se recoupent parfois :

notes <- c(10, 20, 16)


Ici, la variable notes peut correspondre à une variable statistique.

En revanche :

test <- mean(notes)


Dans ce cas, la variable informatique test contient la moyenne des notes, ce qui n’est pas équivalent à une variable au sens statistique.

Pense-bête des fonctions les plus courantes

Ci-après, une liste des fonctions les plus courantes dans R. Les exemples donnés sont très succincts : reportez-vous aux supports de cours pour des “vrais” exemples plus développés.

Librairies / paquets

Nom de la fonction Utilité Exemple
install.packages Installer un paquet R install.packages("questionr")
library Charger un paquet R en mémoire library(questionr)
Nom du paquet Utilité
dplyr Paquet R permettant des recodages très avancés
questionr Paquet R français adapté aux enquêtes de sciences sociales, avec des fonctions utiles pour produire simplement des tableaux croisés, des tris à plat, etc.
tidyverse Ensemble de paquets utiles pour la manipulation de données
titanic Paquet contenant plusieurs jeux de données sur les passagers du titanic

Charger des données

Nom de la fonction Utilité Exemple
data Charger des données déjà présentes dans R ou dans des paquets data(hdv2003)
read.csv Charger des données depuis un fichier. Attention, le chemin vers votre fichier dépend de votre ordinateur et de votre système d’exploitation. read.csv('/chemin/vers/le/fichier.csv')

Explorer des données

Nom de la fonction Utilité Exemple
glimpse Avoir un aperçu rapide d’une variable ou d’une base de données (nombre de lignes, de colonnes, nom, type et aperçu des valeurs des variables) glimpse(hdv2003)
levels Liste des modalités (levels) des variables qualitatives (factor) levels(hdv2003$sexe)
names Liste des noms de variables dans une base de données names(hdv2003)
ncol Nombre de colonnes dans une base de données ncol(hdv2003)
nrow Nombre de lignes dans une base de données nrow(hdv2003)
summary Avoir un aperçu rapide d’une variable, avec statistiques descriptives sommaires selon le type de la variable summary(hdv2003$sexe)

Statistiques descriptives

Méthodes numériques

Nom de la fonction Utilité Exemple
addmargins Calcul des marges d’un tableau addmargins(table(hdv2003$sexe, hdv2003$cuisine))
cor Calcul du R de Pearson cor(hdv2003$age, hdv2003$freres.soeurs)
cprop Fréquences en colonne d’un tableau croisé cprop(table(hdv2003$sexe, hdv2003$cuisine))
freq Tri à plat avec fréquences, avec ou sans NAs freq(hdv2003$sexe)
lprop ou rprop Fréquences en ligne d’un tableau croisé lprop(table(hdv2003$sexe, hdv2003$cuisine))
mean Calcul de la moyenne mean(hdv2003$age)
median Calcul de la médiane median(hdv2003$age)
prop Fréquences totales d’un tableau croisé prop(table(hdv2003$sexe, hdv2003$cuisine))
quantile Calcul des quartiles quantile(hdv2003$age)
sd Calcul de l’écart-type sd(hdv2003$age)
summary Fonction “à tout faire” pour les statistiques descriptives univariées summary(hdv2003$sexe)
table Tri à plat ou tri croisé d’une variable ou de deux variables table(hdv2003$sexe, hdv2003$cuisine)
var Calcul de la variance var(hdv2003$age)

Méthodes graphiques

Nom de la fonction Utilité Exemple
barplot Diagramme en barres d’une variable barplot(hdv2003$sexe)
boxplot Boîte à moustaches simple ou multiples boxplot(hdv2003$sexe) ou boxplot(heures.tv ~ sexe, data = hdv2003)
hist Histogramme d’une variable quantitative hist(hdv2003$age)
mosaicplot Diagramme en mosaïques mosaicplot(sexe ~ cuisine, data = hdv2003))
plot Fonction “à tout faire” pour les graphiques : produit des graphiques différents selon le(s) variables données en argument. Utile pour faire des nuages de points par exemple. plot(hdv2003$age)

Recodage

Nom de la fonction Utilité Exemple
case_when Utilisable pour tout type de recodage Voir plus bas
fct_collapse Recodage des modalités d’une variable Voir plus bas
as.factor Convertir une variable en facteur as.factor(hdv2003$freres.soeurs)
as.numeric Convertir une variable en variable numérique as.numeric(hdv2003$freres.soeurs)
as.character Convertir une variable en variable textuelle as.character(hdv2003$freres.soeurs)

Exemple avec la syntaxe case_when

Cette syntaxe est un peu compliquée, mais permet d’effectuer quasiment tous les recodages envisageables. La syntaxe est la suivante :

base_de_donnees <- mutate(base_de_donnees,
                          nouveau_nom_variable = case_when(
  condition 1 ~ nouvelle valeur 1,
  condition 2 ~ nouvelle valeur 2,
  TRUE ~ valeur par défaut
  ))

Avec cette syntaxe, on peut notamment faire des recodages :

  • variable qualitative vers quantitative et inversement
  • découpage d’une variable quantitative en classes
  • regrouper ou changer les modalités d’une variable

Exemple avec la syntaxe fct_collapse

On peut également envisager d’utiliser fct_collapse pour regrouper des modalités d’une variable qualitative :

mines$prenom1_f <- fct_collapse(mines$prenom1_f,
  "Jean-Philippe" = c("Jean- Phillipe"), # Recoder "Jean- Phillipe" en "Jean-Philippe"
  "Philippe" = c("Phillipe", "Phillippe") # Recoder "Phillipe" et "Phillippe" en "Philippe"
)

Test d’hypothèse

Seule fonction à connaître ici : chisq.test qui prend en argument un tableau croisé en effectifs.

library(questionr)
data(hdv2003)

table1 <- table(hdv2003$sexe, hdv2003$cuisine)
chisq.test(table1)
---
title: "Pense-bête R pour débutant·e·s"
subtitle: "CPES - Méthodes quantitatives"
date: "Janvier 2018"
author: "Gabriel Alcaras"
output: 
  html_notebook: 
    toc: yes
---

Ce document est à utiliser comme une table de référence, qui peut être consultée ponctuellement ou servir de support à des révisions.

# Le langage R en général

Quelques rappels sur le langage R.

## Symboles et opérateurs

| Opérateur | Rôle           | Exemple |
| ---       | ---            | ---
| `+`       | Addition       | `1+1`   |
| `-`       | Soustraction   | `1-1`   |
| `/`       | Division       | `1/1`   |
| `*`       | Multiplication | `1*1`   |
| `^`       | Puissance      | `10^2`  |

| Symbole     | Rôle                                                                      | Exemple     |
| ---         | ---                                                                       | ---
| `<-`        | Assignation à une variable                                                | `animaux <- c("chien", "chat")` |
| `()`        | Exécution d'une fonction. Contient souvent des arguments                  | `c(1, 2, 3)`                                                 |
| `[]`        | Sélection d'un sous-ensemble dans une variable, une base de données, etc. | `animaux[1]`                                                           |
| `$`         | Sélection d'une variable dans un data.frame                               | `bdd$genre`                                         |
| `#`         | Commentaire : ignorer ce qui suit                                         | `# Test`                                   |
| `=`         | Assignation d'un argument dans une fonction                               | `mean(x, na.rm = TRUE)`                          |
| `~` (tilde) | Signe qui peut avoir plusieurs significations selon le contexte           | `boxplot(heures.tv ~ sexe, data = hdv2003)`                          |
| `,`         | Séparer des arguments d'une fonction                                      | `table(hdv2003$sexe, hdv2003$cuisine)`    |

Exemples d'utilisation des commentaires :

```{r, error = TRUE, eval = FALSE}
# Cette ligne n'est pas interprétée par R
c("chien", "chat") # Fonction
```

<br />Exemples d'utilisation des parenthèses et des crochets :

```{r, error = TRUE}
animaux <- c("chien", "chat") # Assignation dans la variable animaux
animaux[1] # Sélection du premier élément

# En revanche :
animaux(1)
```

## Raccourcis clavier essentiels dans RStudio

| Touches                | Fonction                                 |
| ----                   | ----                                     |
| <kbd>Ctrl+Entrée</kbd> | Exéuter la ligne où se trouve le curseur |
| <kbd>Ctrl+Entrée</kbd> | Exéuter les lignes sélectionnées         |
| <kbd>Ctrl+L</kbd>      | Effacer la console                       |
| <kbd>Tab</kbd>         | Obtenir les suggesions de complétion     |
| <kbd>Ctrl+S</kbd>      | Sauvegarder le fichier                   |

## R est sensible...

### ... à la casse (minuscules/majuscules)

Exemple parmi d'autres, avec ici le nom des fonctions :

```{r, error = TRUE}
# Cette fonction est connue de R
factor(c("chien", "chat"))

# Mais si on fait une erreur de casse :
Factor(c("chien", "chat"))
```

<br />De même pour les variables

```{r, error = TRUE}
animaux <- c("chien", "chat")
# Cette variable est connue de R
animaux

# Mais si on fait une erreur de casse :
Animaux
```

### ... à la syntaxe

Dans les noms de variables et de fonctions, les seuls caractères employés sont :

- lettres majuscules et minuscules (pas de caractères accentués)
- tirets du bas (underscore) `_` et points `.`

Attention à ne JAMAIS employer d'espaces.

## Sur les données

### Reconnaître les types / structures de données

Pour identifier un type de données, on peut utiliser la fonction `typeof()`.

| Notation | Rôle | Exemple |
| --- | --- | --- 
| `1234` | Un nombre ("double") | `1` |
| `""` ou `''` | Chaîne de caractères | `"animaux"` |
| `NA` | Absence de données | `NA` |

Résultats de la fonction `typeof()` :

```{r}
typeof(1)
typeof("1")
typeof(NA)
```

<br />**Le type de données doit être bien compris sous peine d'erreurs !**

```{r, error = TRUE}
# Ce calcul fonctionne :
1+1
# Mais...
1+"1"
```

<br />Pour identifier une structure de données, on peut utiliser la fonction `str()`.

| Nom | Fonction | Concept équivalent en statistiques |
| --- | --- | --- 
| vector | `c()` | Variable |
| factor | `factor()` | Variable qualitative |
| data.frame | `data.frame()` | Base de données |

### Vecteur

Le concept de vecteur (suite de données de même type) dans R est proche de celui de variable en statistiques (série de données homogènes sur des individus), même si tous les vecteurs ne sont pas forcément des variables au sens statistique.

```{r}
c(1,2,3,4) # Équivalent à une variable quantitative
str(c(1,2,3,4))
c("homme", "femme", "homme") # Série de données textuelles
str(c("homme", "femme", "homme"))
```

<br />**Manipulation des vecteurs :**

```{r}
genre <- c("homme", "femme", "homme")
genre[1]
genre[1:2]
genre[c(1, 3)]
```

### Facteur

Les facteurs sont un type particulier de vecteurs dans R, de la même façon que les variables qualitatives sont un type de variable particulier.

| Dans R | En statistiques          |
| ---    | ---                      |
| factor | Variable qualitative     |
| levels | Modalités de la variable |

```{r}
genre <- c("homme", "femme", "homme")

# Transformation en facteur
genre.f <- as.factor(genre)
summary(genre.f)
```

<br />Pour voir les modalités (`levels`) :

```{r}
levels(genre.f)
```

### Data.frame

C'est l'équivalent d'une base de données en statistiques : une série de variables sur les mêmes individus.

Pour sélectionner une variable en particulier :

```{r, eval=FALSE}
bdd$variable1
```

### Les fonctions

Les fonctions sont un concept central des langages de programmation... et donc de R !

<br /><br />

#### Anatomie d'une fonction

Toujours sous la forme :

```
nomDeLaFonction(arguments)
```

<br />Décomposition :

+ `nomDeLaFonction` : **nom de la fonction à appeler**
+ `()` : les parenthèses signifient qu'**on demande à R d'éxéuter la fonction**.
+ `arguments` : une liste d'arguments séparés par des virgules et une espace. Le nombre d'arguments dépend des fonctions.

<br /><br />

#### Les arguments

Fonction qui n'a besoin d'aucun argument :

```{r}
getwd()
```

<br />La fonction `c()` accepte un nombre illimité d'arguments :

```{r}
c(1, 2, 3, 4)
```

<br />Certaines fonctions ont des arguments obligatoires :

```{r, error = TRUE}
mean()
```

<br />Mais si on donne l'argument obligatoire, tout se passe bien :

```{r}
notes <- c(10, 20)
mean(notes)
```

<br />Certaines fonctions prennent des arguments falcutatifs, qui peuvent être nommés. Dans ce cas, le nom de l'argument est suivi d'un signe `=` puis de sa valeur.

```{r}
notes <- c(10, 20, NA)
# Sans l'argument facultatif na.rm :
mean(notes)
# Avec l'argument facultatif na.rm :
mean(notes, na.rm = TRUE)
```
<br /><br />

#### Fonctions imbriquées

Il est bien sûr possible d'imbriquer nos fonctions :

```{r}
mean(c(c(10, 20), NA), na.rm = TRUE)
```

<br />Ce qui est identique à : 

```{r}
notes <- c(10, 20)
notes2 <- c(notes, NA)
mean(notes2, na.rm = TRUE)
```

<br />Pour comprendre les fonctions imbriquées, il faut donc procéder par étapes, en partant de l'intérieur des parenthèses pour aller vers l'extérieur.

<br />

### Les variables

Dans un langage de programmation, les variables permettent d'atteindre un niveau d'abstraction supplémentaire, en attribuant un nom à un objet pour le réutiliser par la suite. Elles améliorent également la lisibilité du programme.

```{r}
variable <- "coucou"
variable
```

<br />Attention aux erreurs de notation !

```{r}
variable
# Mais...
"variable"
```

<br />

#### Variable informatique / variable statistique

**Attention :** le concept de variable *informatique* est très différent de variable *statistique*. En effet, une variable informatique peut stocker n'importe quel type de données, alors qu'une variable statistique correspond à une série de données homogènes collectées sur des individus.

Les deux concepts se recoupent parfois :

```{r}
notes <- c(10, 20, 16)
```

<br />Ici, la variable `notes` peut correspondre à une variable statistique.

En revanche :

```{r}
test <- mean(notes)
```

<br />Dans ce cas, la variable informatique `test` contient la moyenne des notes, ce qui n'est pas équivalent à une variable au sens statistique.

# Pense-bête des fonctions les plus courantes

Ci-après, une liste des fonctions les plus courantes dans R. Les exemples donnés sont très succincts : reportez-vous aux supports de cours pour des "vrais" exemples plus développés.

## Librairies / paquets

| Nom de la fonction | Utilité                        | Exemple                         |
| ---                | ---                            | ---                             |
| `install.packages` | Installer un paquet R          | `install.packages("questionr")` |
| `library`          | Charger un paquet R en mémoire | `library(questionr)`            |

| Nom du paquet | Utilité                                                                                                                                                          |
| ---           | ---                                                                                                                                                              |
| `dplyr`       | Paquet R permettant des recodages très avancés                                                                                                                   |
| `questionr`   | Paquet R français adapté aux enquêtes de sciences sociales, avec des fonctions utiles pour produire simplement des tableaux croisés, des tris à plat, etc. |
| `tidyverse`   | Ensemble de paquets utiles pour la manipulation de données                                                                                                       |
| `titanic`     | Paquet contenant plusieurs jeux de données sur les passagers du titanic                                                                                          |

## Charger des données

| Nom de la fonction | Utilité                                                                                                                                       | Exemple |
| ---                | ---                                                                                                                                           | ---   |
| `data`             | Charger des données déjà présentes dans R ou dans des paquets                                                                                 | `data(hdv2003)`                                               |
| `read.csv`         | Charger des données depuis un fichier. Attention, le chemin vers votre fichier dépend de votre ordinateur et de votre système d'exploitation. | `read.csv('/chemin/vers/le/fichier.csv')`                                                                                             |

## Explorer des données

| Nom de la fonction | Utilité                                                                                                                                        | Exemple |
| ---                | ---                                                                                                                                            | ---   |
| `glimpse`          | Avoir un aperçu rapide d'une variable ou d'une base de données (nombre de lignes, de colonnes, nom, type et aperçu des  valeurs des variables) | `glimpse(hdv2003)`                                                                                                                          |
| `levels`           | Liste des modalités (`levels`) des variables qualitatives (`factor`)                                                                           | `levels(hdv2003$sexe)`                                            |
| `names`            | Liste des noms de variables dans une base de données                                                                                           | `names(hdv2003)`                                     |
| `ncol`             | Nombre de colonnes dans une base de données                                                                                                    | `ncol(hdv2003)`                             |
| `nrow`             | Nombre de lignes dans une base de données                                                                                                      | `nrow(hdv2003)`                           |
| `summary`          | Avoir un aperçu rapide d'une variable, avec statistiques descriptives sommaires selon le type de la variable                                   | `summary(hdv2003$sexe)`                                                                                     |

## Statistiques descriptives

### Méthodes numériques

| Nom de la fonction | Utilité                                                               | Exemple                                            |
| ---                | ---                                                                   | ---                                                |
| `addmargins`       | Calcul des marges d'un tableau                                        | `addmargins(table(hdv2003$sexe, hdv2003$cuisine))` |
| `cor`              | Calcul du R de Pearson                                                | `cor(hdv2003$age, hdv2003$freres.soeurs)`          |
| `cprop`            | Fréquences en colonne d'un tableau croisé                             | `cprop(table(hdv2003$sexe, hdv2003$cuisine))`      |
| `freq`             | Tri à plat avec fréquences, avec ou sans NAs                          | `freq(hdv2003$sexe)`                               |
| `lprop` ou `rprop` | Fréquences en ligne d'un tableau croisé                               | `lprop(table(hdv2003$sexe, hdv2003$cuisine))`      |
| `mean`             | Calcul de la moyenne                                                  | `mean(hdv2003$age)`                                |
| `median`           | Calcul de la médiane                                                  | `median(hdv2003$age)`                              |
| `prop`             | Fréquences totales d'un tableau croisé                                | `prop(table(hdv2003$sexe, hdv2003$cuisine))`       |
| `quantile`         | Calcul des quartiles                                                  | `quantile(hdv2003$age)`                            |
| `sd`               | Calcul de l'écart-type                                                | `sd(hdv2003$age)`                                  |
| `summary`          | Fonction "à tout faire" pour les statistiques descriptives univariées | `summary(hdv2003$sexe)`                            |
| `table`            | Tri à plat ou tri croisé d'une variable ou de deux variables          | `table(hdv2003$sexe, hdv2003$cuisine)`             |
| `var`              | Calcul de la variance                                                 | `var(hdv2003$age)`                                 |

### Méthodes graphiques

| Nom de la fonction | Utilité                                                                                                                                                                          | Exemple                                 |
| ---                | ---                                                                                                                                                                              | ---                                   |
| `barplot`          | Diagramme en barres d'une variable                                                                                                                                               | `barplot(hdv2003$sexe)`                                             |
| `boxplot`          | Boîte à moustaches simple ou multiples                                                                                                                                           | `boxplot(hdv2003$sexe)` ou `boxplot(heures.tv ~ sexe, data = hdv2003)` |
| `hist`             | Histogramme d'une variable quantitative                                                                                                                                          | `hist(hdv2003$age)`                                                  |
| `mosaicplot`       | Diagramme en mosaïques                                                                                                                                                           | `mosaicplot(sexe ~ cuisine, data = hdv2003))`        |
| `plot`             | Fonction "à tout faire" pour les graphiques : produit des graphiques différents selon le(s) variables données en argument. Utile pour faire des nuages de points par exemple. | `plot(hdv2003$age)`                                                                                                                                                           |

## Recodage

| Nom de la fonction | Utilité                                      | Exemple                               |
| ---                | ---                                          | ---                                   |
| `case_when`        | Utilisable pour tout type de recodage        | Voir plus bas                         |
| `fct_collapse`     | Recodage des modalités d'une variable        | Voir plus bas                         |
| `as.factor`        | Convertir une variable en facteur            | `as.factor(hdv2003$freres.soeurs)`    |
| `as.numeric`       | Convertir une variable en variable numérique | `as.numeric(hdv2003$freres.soeurs)`   |
| `as.character`     | Convertir une variable en variable textuelle | `as.character(hdv2003$freres.soeurs)` |

### Exemple avec la syntaxe `case_when`

Cette syntaxe est un peu compliquée, mais permet d'effectuer quasiment tous les recodages envisageables. La syntaxe est la suivante :

```{r, eval = FALSE}
base_de_donnees <- mutate(base_de_donnees,
                          nouveau_nom_variable = case_when(
  condition 1 ~ nouvelle valeur 1,
  condition 2 ~ nouvelle valeur 2,
  TRUE ~ valeur par défaut
  ))
```

Avec cette syntaxe, on peut notamment faire des recodages :

- variable qualitative vers quantitative et inversement
- découpage d'une variable quantitative en classes
- regrouper ou changer les modalités d'une variable

### Exemple avec la syntaxe `fct_collapse`

On peut également envisager d'utiliser `fct_collapse` pour regrouper des modalités d'une variable qualitative :

```{r, eval = FALSE}
mines$prenom1_f <- fct_collapse(mines$prenom1_f,
  "Jean-Philippe" = c("Jean- Phillipe"), # Recoder "Jean- Phillipe" en "Jean-Philippe"
  "Philippe" = c("Phillipe", "Phillippe") # Recoder "Phillipe" et "Phillippe" en "Philippe"
)
```

## Test d'hypothèse

Seule fonction à connaître ici : `chisq.test` qui prend en argument un tableau croisé en effectifs.

```{r chi squared test}
library(questionr)
data(hdv2003)

table1 <- table(hdv2003$sexe, hdv2003$cuisine)
chisq.test(table1)
```
