Ce document est à utiliser comme une table de référence, qui peut être consultée ponctuellement ou servir de support à des révisions.

Généralités

Opérateurs

Opérateur Rôle Exemple
+ Addition 1+1
- Soustraction 1-1
/ Division 1/1
* Multiplication 1*1
^ Puissance 10^2

Symboles

Symbole Rôle Exemple
<- Assignation à une variable animaux <- c("chien", "chat")
() Éxécution d’une fonction. Contient souvent des arguments c(1, 2, 3)
[] Sélection d’un sous-ensemble dans une variable animaux[1]
$ Sélection d’une variable dans un data.frame bdd$genre
# Commentaire : ignorer ce qui suit # Test
= Assignation d’un argument dans une fonction mean(x, na.rm = TRUE)

Exemples :

# Cette ligne n'est pas interprétée par R
c("chien", "chat") # Fonction
[1] "chien" "chat" 
animaux <- c("chien", "chat") # Assignation dans la variable animaux
animaux[1] # Sélection du premier élément
[1] "chien"
# En revanche :
animaux(1)
Erreur : impossible de trouver la fonction "animaux"

Raccourcis clavier essentiels

Touches Fonction
Ctrl+Entrée Exécuter la ligne où se trouve le curseur
Ctrl+Entrée Exécuter les lignes sélectionnées
Ctrl+L Effacer la console
Shift Obtenir les suggesions de complétion
Ctrl+S Sauvegarder le fichier

R est sensible à la casse

Attention aux appels de fonction :

factor(c("chien", "chat"))
[1] chien chat 
Levels: chat chien
# Mais...
Factor(c("chien", "chat"))
Erreur : impossible de trouver la fonction "Factor"

Et aux appels de variable :

animaux <- c("chien", "chat")
animaux
[1] "chien" "chat" 
# Mais...
Animaux
Erreur : objet 'Animaux' introuvable

Structures de données

Types de données

Pour identifier un type de données, on peut utiliser la fonction typeof().

Notation Rôle Exemple
1234 Un nombre (“double”) 1
"" ou '' Chaîne de caractères "animaux"
NA Absence de données NA

Résultats de la fonction typeof() :

typeof(1)
[1] "double"
typeof("1")
[1] "character"
typeof(NA)
[1] "logical"

Le type de données doit être bien compris sous peine d’erreurs !

1+1
[1] 2
# Mais...
1+"1"
Error in 1 + "1" : argument non numérique pour un opérateur binaire

Structures de données

Pour identifier une structure de données, on peut utiliser la fonction str().

Nom Fonction Concept équivalent en statistiques
vector c() Variable
factor factor() Variable qualitative
data.frame data.frame() Base de données

Vecteur

Dans R En statistiques
vector Variable
Suite de données de même type Série de données homogènes
c(1,2,3,4) # Équivalent à une variable quantitative
[1] 1 2 3 4
str(c(1,2,3,4))
 num [1:4] 1 2 3 4
c("homme", "femme", "homme") # Série de données textuelles
[1] "homme" "femme" "homme"
str(c("homme", "femme", "homme"))
 chr [1:3] "homme" "femme" "homme"

Manipulation des vecteurs :

genre <- c("homme", "femme", "homme")
genre[1]
[1] "homme"
genre[1:2]
[1] "homme" "femme"
genre[c(1, 3)]
[1] "homme" "homme"

Facteur

Les facteurs sont un type particulier de vecteurs dans R, de la même façon que les variables qualitatives sont un type de variable particulier dans R.

Dans R En statistiques
vector Variable qualitative
levels Modalités de la variable
genre <- c("homme", "femme", "homme")
# Transformation en facteur
genre.f <- factor(genre)
str(genre.f)
 Factor w/ 2 levels "femme","homme": 2 1 2
genre.f
[1] homme femme homme
Levels: femme homme

Pour voir les modalités (levels) :

levels(genre.f)

Data.frame

C’est l’équivalent d’une base de données en statistiques : une série de variables sur les mêmes individus.

Pour sélectionner une variable en particulier :

bdd$variable1

Les fonctions

Les fonctions sont un concept central des langages de programmation… et donc de R !

Anatomie d’une fonction

Toujours sous la forme :

nomDeLaFonction(arguments)
  • nomDeLaFonction : nom de la fonction à appeler
  • () : les parenthèses signifient qu’on demande à R d’éxécuter la fonction.
  • arguments : une liste d’arguments séparés par des virgules et une espace. Le nombre d’arguments dépend des fonctions.

Les arguments

Fonction qui n’a besoin d’aucun argument :

getwd()

La fonction c() accepte un nombre illimité d’arguments :

c(1, 2, 3, 4)

Certaines fonctions ont des arguments obligatoires :

mean()

Mais :

notes <- c(10, 20)
mean(notes)

Certaines fonctions prennent des arguments falcutatifs, qui peuvent être nommés. Dans ce cas, le nom de l’argument est suivi d’un signe = puis de sa valeur.

notes <- c(10, 20, NA)
mean(notes, na.rm = TRUE)

Fonctions imbriquées

Il est bien sûr possible d’imbriquer nos fonctions :

mean(c(c(10, 20), NA), na.rm = TRUE)

Ce qui est identique à :

notes <- c(10, 20)
notes2 <- c(notes, NA)
mean(notes2, na.rm = TRUE)

Pour comprendre les fonctions imbriquées, il faut donc procéder par étapes, en partant de l’intérieur des parenthèses pour aller vers l’extérieur.

Les variables

Dans un langage de programmation, les variables permettent d’atteindre un niveau d’abstraction supplémentaire, en attribuant un nom à un objet pour le réutiliser par la suite. Elles améliorent également la lisibilité du programme.

variable <- "coucou"
variable
[1] "coucou"

Attention aux erreurs de notation !

variable
[1] "coucou"
# Mais...
"variable"
[1] "variable"

Variable informatique / variable statistique

Attention : le concept de variable informatique est très différent de variable statistique. En effet, une variable informatique peut stocker n’importe quel type de données, alors qu’une variable statistique correspond à une série de données homogènes collectées sur des individus.

Les deux concepts se recoupent parfois :

notes <- c(10, 20, 16)

Ici, la variable notes peut correspondre à une variable statistique.

En revanche :

test <- mean(notes)

Dans ce cas, la variable informatique test contient la moyenne des notes, ce qui n’est pas équivalent à une variable au sens statistique.

---
title: "R Cheatsheet pour débutants"
date: "Décembre 2016"
author: "Gabriel Alcaras"
output: 
  html_notebook: 
    toc: yes
---

Ce document est à utiliser comme une table de référence, qui peut être consultée ponctuellement ou servir de support à des révisions.

# Généralités

## Opérateurs

| Opérateur | Rôle | Exemple |
| --- | --- | --- 
| `+` | Addition | `1+1` |
| `-` | Soustraction | `1-1` |
| `/` | Division | `1/1` |
| `*` | Multiplication | `1*1` |
| `^` | Puissance | `10^2` |

## Symboles

| Symbole | Rôle | Exemple |
| --- | --- | --- 
| `<-` | Assignation à une variable | `animaux <- c("chien", "chat")` |
| `()` | Éxécution d'une fonction. Contient souvent des arguments | `c(1, 2, 3)` |
| `[]` | Sélection d'un sous-ensemble dans une variable | `animaux[1]` |
| `$` | Sélection d'une variable dans un data.frame | `bdd$genre` |
| `#` | Commentaire : ignorer ce qui suit | `# Test` |
| `=` | Assignation d'un argument dans une fonction | `mean(x, na.rm = TRUE)` |


**Exemples :**

```{r}
# Cette ligne n'est pas interprétée par R
c("chien", "chat") # Fonction
animaux <- c("chien", "chat") # Assignation dans la variable animaux
animaux[1] # Sélection du premier élément

# En revanche :
animaux(1)
```

## Raccourcis clavier essentiels

| Touches | Fonction |
| ---- | ---- |
| `Ctrl+Entrée` | Exécuter la ligne où se trouve le curseur |
| `Ctrl+Entrée` | Exécuter les lignes sélectionnées |
| `Ctrl+L` | Effacer la console |
| `Shift` | Obtenir les suggesions de complétion |
| `Ctrl+S` | Sauvegarder le fichier |

## R est sensible à la casse

Attention aux appels de fonction :

```{r}
factor(c("chien", "chat"))

# Mais...
Factor(c("chien", "chat"))
```

Et aux appels de variable :

```{r}
animaux <- c("chien", "chat")
animaux

# Mais...
Animaux
```

# Structures de données

## Types de données

Pour identifier un type de données, on peut utiliser la fonction `typeof()`.

| Notation | Rôle | Exemple |
| --- | --- | --- 
| `1234` | Un nombre ("double") | `1` |
| `""` ou `''` | Chaîne de caractères | `"animaux"` |
| `NA` | Absence de données | `NA` |

Résultats de la fonction `typeof()` :

```{r}
typeof(1)
typeof("1")
typeof(NA)
```

**Le type de données doit être bien compris sous peine d'erreurs !**

```{r}
1+1
# Mais...
1+"1"
```

## Structures de données

Pour identifier une structure de données, on peut utiliser la fonction `str()`.

| Nom | Fonction | Concept équivalent en statistiques |
| --- | --- | --- 
| vector | `c()` | Variable |
| factor | `factor()` | Variable qualitative |
| data.frame | `data.frame()` | Base de données |

### Vecteur

| Dans R | En statistiques |
| --- | --- |
| vector | Variable |
| Suite de données de même type | Série de données homogènes |

```{r}
c(1,2,3,4) # Équivalent à une variable quantitative
str(c(1,2,3,4))
c("homme", "femme", "homme") # Série de données textuelles
str(c("homme", "femme", "homme"))
```

**Manipulation des vecteurs :**

```{r}
genre <- c("homme", "femme", "homme")
genre[1]
genre[1:2]
genre[c(1, 3)]
```

### Facteur

Les facteurs sont un type particulier de vecteurs dans R, de la même façon que les variables qualitatives sont un type de variable particulier dans R.

| Dans R | En statistiques |
| --- | --- |
| vector | Variable qualitative |
| levels | Modalités de la variable |

```{r}
genre <- c("homme", "femme", "homme")

# Transformation en facteur
genre.f <- factor(genre)
str(genre.f)
genre.f
```

Pour voir les modalités (`levels`) :

```{r}
levels(genre.f)
```

### Data.frame

C'est l'équivalent d'une base de données en statistiques : une série de variables sur les mêmes individus.

Pour sélectionner une variable en particulier :

```{r, eval=FALSE}
bdd$variable1
```

# Les fonctions

Les fonctions sont un concept central des langages de programmation... et donc de R !

## Anatomie d'une fonction

Toujours sous la forme :

```
nomDeLaFonction(arguments)
```

+ `nomDeLaFonction` : **nom de la fonction à appeler**
+ `()` : les parenthèses signifient qu'**on demande à R d'éxécuter la fonction**.
+ `arguments` : une liste d'arguments séparés par des virgules et une espace. Le nombre d'arguments dépend des fonctions.

### Les arguments

Fonction qui n'a besoin d'aucun argument :

```{r}
getwd()
```

La fonction `c()` accepte un nombre illimité d'arguments :

```{r}
c(1, 2, 3, 4)
```

Certaines fonctions ont des arguments obligatoires :

```{r}
mean()
```

Mais :

```{r}
notes <- c(10, 20)
mean(notes)
```

Certaines fonctions prennent des arguments falcutatifs, qui peuvent être nommés. Dans ce cas, le nom de l'argument est suivi d'un signe `=` puis de sa valeur.

```{r}
notes <- c(10, 20, NA)
mean(notes, na.rm = TRUE)
```

## Fonctions imbriquées

Il est bien sûr possible d'imbriquer nos fonctions :

```{r}
mean(c(c(10, 20), NA), na.rm = TRUE)
```

Ce qui est identique à : 

```{r}
notes <- c(10, 20)
notes2 <- c(notes, NA)
mean(notes2, na.rm = TRUE)
```

Pour comprendre les fonctions imbriquées, il faut donc procéder par étapes, en partant de l'intérieur des parenthèses pour aller vers l'extérieur.

# Les variables

Dans un langage de programmation, les variables permettent d'atteindre un niveau d'abstraction supplémentaire, en attribuant un nom à un objet pour le réutiliser par la suite. Elles améliorent également la lisibilité du programme.

```{r}
variable <- "coucou"
variable
```

Attention aux erreurs de notation !

```{r}
variable
# Mais...
"variable"
```

## Variable informatique / variable statistique

**Attention :** le concept de variable *informatique* est très différent de variable *statistique*. En effet, une variable informatique peut stocker n'importe quel type de données, alors qu'une variable statistique correspond à une série de données homogènes collectées sur des individus.

Les deux concepts se recoupent parfois :

```{r}
notes <- c(10, 20, 16)
```

Ici, la variable `notes` peut correspondre à une variable statistique.

En revanche :

```{r}
test <- mean(notes)
```

Dans ce cas, la variable informatique `test` contient la moyenne des notes, ce qui n'est pas équivalent à une variable au sens statistique.