Découvrir R et RStudio

1 Qu’est-ce que R ?

R est un langage de programmation développé par Ross Ihaka et Robert Gentleman en 1993.
Utile pour manipuler, modéliser, “stocker, gérer” et analyser différents types d’informations.
Un outil très puissant pour les méthodes statistiques et graphiques.
Il comprend des bibliothèques pour l’économétrie (régression linéaire, séries temporelles, inférence statistique), les algorithmes de machine learning, le web scraping, les systèmes d’information géographique (SIG), entre autres.
Un outil performant pour communiquer votre travail : Markdown (présentations, PDF, HTML), Plotly (graphiques interactifs), création d’applications (Shiny), etc.

1.1 Un logiciel libre

Disponible en libre téléchargement sur le site officiel du CRAN = Comprehensive R Archive Network (c’est le site de référence pour R.)
Il contient non seulement les installeurs du logiciel mais également de nombreuses ressources : documentations, FAQ, tutoriels…
Installable sur la plupart des systèmes d’exploitation
Utilisé en recherche, en enseignement et en entreprise
Une communauté très active :
- Forum des utilisateurs de R en français
- Communauté française des utilisateurs de R (avec des packages spécifiques, qui permettent de gérer les changements de géographie communale par exemple) : Frrrenchies Slack de ces utilisateurs (pour les questions/réponses, actualités…)
- Slack R-bloggers : https://www.r-bloggers.com/
- Stackoverflow : https://stackoverflow.com/questions/tagged/r
- C’est un logiciel libre : les utilisateurs ont la liberté d’exécuter, copier, distribuer, étudier, modifier et améliorer ce logiciel. R fait partie de la “galaxie” GNU (GNU’s Not Unix). R est donc libre, gratuit et multi-plateformes.

1.2 Interface RStudio

Environnement de développement conçu spécialement pour R
Interface utilisateur simple, conviviale, configurable et intégrant plusieurs outils

L’interface RStudio est composée de différents panneaux, dont l’arrangement peut être reconfiguré.

L’interface inclut une console, un navigateur de fichiers et graphiques et l’historique des commandes. L’espace de travail (Rscript) est disponible en cliquant sur File/New File/R Script.

2 Session et répertoire de travail

Un répertoire de travail R est un dossier à partir duquel le logiciel va chercher les fichiers de scripts, de données, graphiques, etc.

Une session de travail R commence à l’ouverture de RStudio et se termine en le quittant.
- Tout ce qui a été fait au cours d’une session peut être enregistré dans le répertoire de travail

Quelques conseils pour bien organizer votre travail :

Créer un nouveau répertoire pour chaque projet.
Créer des sous-répertoires dans ce répertoire (Data, Figures, Output, etc.) pour bien sauvegarder les informations relatives à votre projet.

🧐 Exercice. Créer un répertoire de travail

Créez un dossier nommé “DecouvrirR_exercice” sur votre poste de travail.

De retour dans RStudio : Allez dans File / New Project / Existing Directory. Parcourez vos fichiers pour sélectionner le dossier que vous venez de créer.
Sélectionnez Create Project.
Le nom du projet doit apparaître dans la section supérieure droite de l’écran :

2.1 Interface utilisateur

L’interface de RStudio est simple : vous tapez une ligne de commande dans le panneau de la Console et vous appuyez sur Entrée pour l’exécuter. * Tout code saisi est appelé une commande (vous ordonnez à votre ordinateur de faire quelque chose).

Nous pouvons commander à R de fonctionner comme une calculatrice en tapant simplement 1 + 1 puis Entrée. Le résultat s’affiche immédiatement après la ligne de commande.

Tapez getwd() dans la console puis Entrée. Qu’est-ce que vous observez ?
- Il est tous jour possible de definir autre répertoire de travail directement en utilisant setwd(’’).

R supporte évidemment des opérations beaucoup plus complexes. N’hésitez pas à explorer ses capacités.

2.2 Les Scripts dans RStudio

Exécuter du code depuis la console est efficace, mais présente des limites :

Pour réexécuter des commandes, il faut les ressaisir.
Les commandes complexes sont sujettes aux fautes de frappe.
Répéter des opérations nécessite de retaper tout le flux de code.

Les scripts R sont la solution : ce sont de simples fichiers texte contenant un ensemble de commandes. Vous pouvez les sauvegarder, les réexécuter, inclure des commentaires et les partager.

🧐 Exercice. Créer un script R

Dans votre répertoire, créez un dossier nommé scripts.
Dans Rstudio, cliquez sur File / New File / R Script. Alternatives : Utilisez l’icône “New File” ou le raccourci Ctrl+Shift+N.
Sauvegardez votre script dans le répertoire scripts sous le nom 01_MyFirstScript.

🧐 Exercice. Prise en main du Script

💡 Astuce : les commentaires dans le script sont indiqués par le symbole dièse #.

Écrivez votre nom, la date et les instructions de la tâche au début du script en utilisant des commentaires.

Écrivez le code dir( ). Pour exécuter une ligne des commands dans un script, placez le curseur sur la ligne et appuyez sur Ctrl+Enter. Qu’est-ce que vous observez ?
Exécuter le code getwb( ). Qu’est-ce que vous observez ?
Calculer le resultat de cette opperation : 11 divisé par 7. Vérifiez le résultat dans la console.

3 Terminologie de base et syntaxe

Une valeur constitue l’unité de base des données pour R. Comme pour la plupart des logiciels, elles peuvent être de trois types :
- Numérique : entier, double
- Caractère : texte ou code
- Logique : booléens

En programmation ou en analyse de données, il est crucial de distinguer les types de données car les fonctions applicables varient. Par exemple, on peut additionner deux nombres, mais on “concatène” deux chaînes de caractères (du texte).

En langage R, une variable est un conteneur qui sert à stocker une information (une valeur, un vecteur, un matrix, une base de données, etc.) afin de pouvoir la réutiliser plus tard dans votre code. Considérez une variable comme une boîte étiquetée : l’étiquette est le nom de la variable, et le contenu de la boîte est la donnée.
Pour créer une variable, on utilise généralement l’opérateur d’assignation <-. Bien que le signe = fonctionne aussi, <- est la norme privilégiée par la communauté. Voici quelques exemples :

# Syntaxe : nom_variable <- valeur
age <- 25
prenom <- "Marc"
est_etudiant <- TRUE

Caractéristiques importantes :

Sensibilité à la casse : R fait la différence entre les majuscules et les minuscules. Ma_Variable et ma_variable sont deux objets totalement différents.
Typage dynamique : Vous n’avez pas besoin de préciser si la variable est un nombre ou du texte ; R le comprend automatiquement lors de l’assignation.
Réécriture : Si vous assignez une nouvelle valeur à une variable existante, l’ancienne est effacée.

x <- 10
x <- 20  # Maintenant, x vaut 20

Les règles de nommage

Pour que R accepte le nom de votre variable, vous devez respecter quelques règles :

Commencer par une lettre.
Pas d’espaces : Utilisez des underscores (_) ou des points (.) à la place (ex: ma_variable ou ma.variable).
Pas de caractères spéciaux : Évitez les accents, les signes $, %, #, etc.
Chiffres : Les chiffres sont autorisés, mais jamais au début du nom (ex: v2 est correct, 2v provoquera une erreur).

🧐 Exercice. Déclarer une variable numérique, une entière, une logique et une chaîne de caractères

Notez cette exercice dans votre script.
Déclarer une variable x de type numérique avec une valeur égale à 10.
Utilisez la commande class() pour vérifier le type de valeur. Que remarquez-vous dans le panneau de l’historique ?

x <- 10
class(x)

## [1] "numeric"

Déclarer une variable y de type texte avec une valeur égale à Hello World

y <- "Hello world"
class(y)

## [1] "character"

Déclarer une variable z de type logique avec une valeur égale à TRUE

z <- TRUE
class(z)

## [1] "logical"

3.1 Opérations de base

Variables du type numérique

Une fois vos données stockées dans des variables numériques, vous pouvez les manipuler pour effectuer des calculs. Le langage R utilise des symboles intuitifs, appelés opérateurs arithmétiques, qui fonctionnent de la même manière qu’une calculatrice standard. Ces opérations permettent de transformer vos données brutes en informations utiles, qu’il s’agisse de simples totaux ou de calculs mathématiques plus complexes comme les puissances ou les racines carrées.

Tableau des Opérateurs Arithmétiques
Opérateur	Description	Exemple	Résultat
`+`	Addition	5 + 2	7
`-`	Soustraction	5 - 2	3
`*`	Multiplication	5 * 2	10
`/`	Division	10 / 2	5
`^` ou `**`	Exposant (Puissance)	10 ^ 2	100
`sqrt(x)`	Racine carrée	sqrt(25)	5

💡 Astuce : Le résultat des opérations peut aussi être stocké dans une variable. Par exemple :

x  <- 10
xx <- 20
resultat <- x + xx

# Cette ligne permet d'afficher l'information stockée dans z dans la console :
resultat

## [1] 30

3.2 📒 C’est à vous

🧐 Exercice. Calculer l’hypoténuse (c) d’un triangle rectangle de côtés a = 5 et b = 7.

Le théorème de Pythagore stipule que : $c = \sqrt{a^2 + b^2}$.

## [1] "Le résultat est 8.60232526704263"