Dernière mise à jour: 2024-10-09 12:43.

Spécifiez votre dossier de travail. Si vous ne savez pas ce que ça veut dire, veuillez consulter l’initiation.

Pour ouvrir ce fichier dans RStudio, copiez-collez ces lignes dans l’invite de commande:

download.file("https://matteo.gagliolo.web.ulb.be/INFOD203/ggplot_ex.r",
              "ggplot_ex.r")
file.edit("ggplot_ex.r") 

Sauvegardez ces fichier avec un nouveau nom, pour ne pas risquer de l’écraser en réinterprétant la commande download.file ci dessus, et encodez vos commandes en réponse à chaque exercice, sans les #' devant.

Commencez, comme d’habitude, par nettoyer votre environnement, et charger les packages nécessaires pour cette leçon.

rm(list = objects())
library("ggplot2")
library("ggrepel")

Téléchargeons (première commande ci-dessous) et ouvrons (deuxième commande ci-dessous) les données climat.

download.file("https://matteo.gagliolo.web.ulb.be/INFOD203/data/climat/climat.csv",
              "climat.csv")
climat <- read.table("climat.csv", header = TRUE, sep = ";", quote = '"',
                     stringsAsFactors = FALSE)

Pour plus d’informations concernant ces donnnées, veuillez consulter le dictionnaire.

Remarque: n’oubliez pas que toute décision graphique part du type de variable. La fiche visualisation est structurée selon le type de variable (qualitative ou quantitative). Pensez à toujours apporter une interprétation pertinente à vos graphiques. Enfin, songez à optimiser la lisibilité de vos grapiques en ajoutant des caractéristiques supplémentaires (scale, theme, labs, etc).

1 Mapping vs. setting

  1. Sans évaluer les deux commandes ci-dessous. Dans les deux cas, nous avons utilisé un argument color. Dans quelle commande est-il un mapping, et dans quelle commande est-il un setting?
ggplot(climat) + geom_point(aes(x = unikm, y = min), color = "#f706f3")
ggplot(climat) + geom_point(aes(x = unikm, y = min, color = tmarche))
  1. Maintenant, évaluez les deux commandes, et comprenez en quoi l’argument color est un mapping dans un cas, et un setting dans l’autre.
# Dans le premier cas c'est un setting car ça change la couleur et c'est fixe.En plus il s'insère à la suite de l'argument aes.Et dans le deuxième c'est un mapping car il change des variables, dans ce cas si il ajoute un code couleur aux variable. En plus il s'insère dans l'argument mapping aes.  

2 Diagrammes en barres

  1. Revenons aux données hdv2003. Choisissez deux variables qualitatives, de classe "factor", qui vous intéressent. Puis réalisez dans l’ordre:
  • un diagramme en barre des effectifs pour les niveaux de la première variable, avec un setting unique pour la couleur des barres
  • un diagramme en barre de la deuxième, avec une autre couleur
  • un diagramme en barre de la première, avec des bandes colorées indiquant les effectifs de la deuxième
  • le même diagramme, cette fois indiquant les proportions des effectifs de la deuxième variable pour chaque niveau de la première
ggplot(data = hdv2003) + geom_bar(mapping = aes(qualif),fill = "pink")
Error: objet 'hdv2003' introuvable
ggplot(data = hdv2003) + geom_bar(mapping = aes(relig), fill= "darkgreen")                                 
Error: objet 'hdv2003' introuvable
ggplot(data = hdv2003) + geom_bar(aes(qualif,fill=relig)) +theme(axis.text.x=element_text(angle=90))
Error: objet 'hdv2003' introuvable
#je n'ai pas compris comment le faire 

3 Nuages de points

  1. De retour aux données rp2012: choisissez deux variables quantitatives représentant des pourcentages, et réalisez les graphiques suivants:
  • un nuage de points des deux variables, avec une forte transparence, et une taille suivant le nombre de résidences principales
  • le même nuage, en coloriant les points selon leur région
  • le même nuage, cette fois en coloriant les points selon un troisième pourcentage; quelle est la différence dans les couleurs?
ggplot(data = rp2012) + geom_point(aes(x = etud, y = indep, size = log_rp),
                                       alpha = 0.4, color = "pink")
Error: objet 'rp2012' introuvable
ggplot(data = rp2012) + geom_point (aes(x = etud, y = indep, color = region))
Error: objet 'rp2012' introuvable

4 Prise de décision

  1. Pour les variables ci-dessous, quel type de géométrie allez-vous choisir?
  • natio
  • data
  • csqchcl
  • Pour croiser cpas & bio
  • Pour croiser avion & eaum
  • Pour croiser elef & eaum
#Natio = geom_bar()
#data = geom_bar()
#Csqchcl = geom_bar()
#Pour croiser : toujours geom_point ()

5 Étude graphique univariée

  1. Réalisez une étude graphique appropriée pour la variable unikm.

  2. Réalisez une étude graphique appropriée pour la variable voit.

6 Étude graphique multivariée

  1. Réalisez une étude graphique bivariée de unikm et min. Imposez une limite pour ne pas tenir compte des étudiants habitant au delà de 5km de l’université.

  2. Reprenez le graphique précédent, et intégrez au graphique de la façon la plus optimale possible, les variables tstib, avion, et ID.

  3. Réalisez une étude graphique des variables voit et crmen_fac que je crée ci-dessous.

library("dplyr")

Attachement du package : 'dplyr'
Les objets suivants sont masqués depuis 'package:stats':

    filter, lag
Les objets suivants sont masqués depuis 'package:base':

    intersect, setdiff, setequal, union
climat$crmen_fac <- factor(case_when(climat$crmen >= 6 ~ "Oui",
                                     climat$crmen <= 5 ~ "Non"))
  1. Réalisez une étude graphique bivariée des variables eaum et crmen_fac de deux façon différentes..

Voir la leçonIndex du cours