library(pacman)
library(nlme)
library(ggplot2)
library(RColorBrewer)
library(knitr)

knitr::opts_chunk$set(echo = FALSE)
knitr::opts_knit$set(root.dir= normalizePath('..'))
knitr::opts_chunk$set(error = FALSE)

p_load(ggplot2,tidyverse,RColorBrewer)
data(mpg)
data(diamonds)
data(mtcars)
data(economics)
data(midwest)
data(oxboys)

1 Notions basiques de ggplot2

1.1 Création d’un objet ggplot

Construire le plan nécessaire pour représenter les variables displ et hwy de la base mpg, en plaçant displ en abscisses et hwy en ordonnées

1.2 Création d’un objet ggplot & choix d’une couche graphique

Appliquer une couche graphique qui représente les données sous forme de nuage de points

1.3 Titre et annotations

Ajouter un titre et un sous-titre avec la fonction labs()

1.4 Modifier les axes

Créez un graphique de type geom_point qui représente, pour la base mpg, les variables cty et hwy.
En nommant les axes pour qu’on puisse mieux identifier les variables représentées

2 Ajouter une dimension, travailler avec trois dimensions

2.1 Couleur, taille et forme

Créer un graphique qui représente, pour la base mpg : * la variable displ en abscisses * la variable hwy en ordonnées * et une troisième variable class qui apparaitra, selon votre choix, à l’aide des arguments color, shape ou size

2.2 Variable discrète

représentez sous forme de graphiques les variables color et cut de la base diamonds
en utilisant geom_bar pour obtenir le nombre d’observations de diamonds pour chaque valeur de color (comptage count des diamants pour chaque valeur de la variable color)
en représentant les informatons de cut sous la forme d’une coloration des barres de geom_bar

2.3 Variable continue

représentez graphiquement les variables class et hwy de la base mpg
class sera représenté sous forme d’histogramme avec geom_bar

Représenter graphiquement les variables displ et hwy de la base mpg dans un même nuage de points
en utilisant les options color et size de geom_point pour choisir une couleur et une taille (conseil : utilisez un nom de couleur si vous n’êtes pas familier avec l’héxadécimal ou que vous ne connaissez pas la liste des couleurs R)

2.4 Scinder et multiplier les graphiques

Représenter les variables displ et hwy dans des geom_point
en affichant un graphique pour chaque valeur de la variable class

2.5 Données pondérées

Donnez une représentation des variables percwhite et percbelowpoverty de midwestr, pondérées en fonction de la variable poptotal, sous forme de nuage de points.

3 La famille des histogrammes : histogrammes, bar charts, frequency polygons

3.1 Histogramme classique

Créez un histogramme pour une variable discrète de votre choix de la base mpg:

3.2 Histogramme “freqpoly”

Affichez la fréquence pour une variable discrète de votre choix de la base mpg:

3.3 Les intervalles avec “bin”

Créer un histogramme pour une variable discrète de votre choix de la base mpg & utiliser la syntaxe réglant le nombre ou la largeur des intervalles de manière à obtenir la représentation la plus lisible et informative possible.

3.4 Les intervalles avec “breaks”

Créer un histogramme pour une variable discrète de votre choix de la base mpg & utiliser la syntaxe breaks pour délimiter les limites des axes abscisses/ordonnées et la finesse de l’histogramme

3.5 Sous-groupes

3.5.1 Avec couleur

Pour la base mpg, créez le graphique représentant la fréquence de la variable displ en distinguant plusieurs sous-groupes distinguant les différentes valeurs de drv

3.5.2 Avec le facetting

Pour la base mpg, créez le graphique représentant l’effectif de la variable displ en distinguant par la couleur plusieurs sous-groupes pour les différentes valeurs de drv et en séparant la représentation en plusieurs graphiques pour chaque valeur de drv

3.6 Représentation de densité

3.6.1 Avec lissage

Représenter sous forme de densité la variable hwy de la base mpg & ajouter autant d’options que nécessaires pour l’esthétique et la lisibilité du graphique

3.6.2 Avec sous-groupes : comptage

Créer un histogramme en ligne représentant le comptage des valeurs de la variable price de la base diamonds en introduisant des sous-groupes grâce l’option colour qui servira à repérer les différents sous-groupes de la variable cut

3.6.3 Avec sous-groupes : densité

Créer un histogramme en ligne représentant la densité de la variable price de la base diamonds en introduisant des sous-groupes grâce l’option colour qui servira à repérer les différents sous-groupes de la variable cut

3.7 Bar charts

3.7.1 Données non agrégées

Représenter le diagramme en barres de la variable manufacturer de la base mpg

3.7.2 Données agrégées

Représenter le diagramme en barres des variables drug et effect de la base drugs avec l’option stat = “identity”

4 Les autres figures majeures

4.1 Estimation et lissage

Afficher le nuage des points des variables displ et hwy pour la base de données mpg
Ajouter une courbe de régression non-paramétrique qui suit de manière assez précise les variations du nuage (donc prendre un span plutôt bas)

4.2 Boxplots

Afficher la densité des variables drv et hwy en plaçant hwy en absicsses et drv en ordonnées.

4.3 Series temporelles

Tracer la courbe représentant l’évolution du taux de chômage au cours du temps en prenant pour taux de chômage le rapport entre unemploy et pop et en plaçant le temps en abscisse, l’indicateur en ordonnées

Créez le chemin (fonction geom_path) qui montre les valeurs prises par la variable uempmed (ordonnées) en fonction du taux de chômage (unemploy / pop) en choisissant la couleur de votre choix pour l’option colour de geom_path en prenant comme “ordre” pour le chemin l’année des observations (utilisez la syntaxe year(date), c’est-à-dire votre fonction “year” appliquée à la variable date))

4.4 Représenter l’incertitude

Choissisez l’une des représentations adaptées aux variables discrètes pour faire apparaitre la distribution des données y de df en fonction de celles de x sachant qu’on veut non seulement afficher l’intervalle de valeurs lui-même mais aussi sa valeur centrale

Exercices Data visualisation - Package ggplot2

Clémentine Espitalié