Je suis M. Conrad Clotaire MESSINA AYISSI, ingénieur Statisticien-Economiste diplômé de l’ISSEA depuis 2010. J’ai appliqué les techniques de visualisation des données dans divers domaines tels que: L’Economie, La Santé, Les Télécommunications et la Banque. Je serai votre guide dans l’apprentissage de cet art qu’est la DATAVIZ. https://rpubs.com/MACC/CV
Une donnée est généralement considérée comme l’élément primaire ou de base de toute réponse à une question de recherche. Elle peut prendre des formes diverses (numérique, textuelle, alphanumérique, tabulaire, graphique etc.) Les données en elles-mêmes ne vehiculent a priori aucun message.
La mission du Scientiste des données est de comprendre leur language et de traduire l’information qu’elles contienent en connaissances aisement comsommable de tous (érudits ou non) afin de rendre possible la prise de décision au premier coup d’oeil. Aujourd’hui, cette mission est devenue plus hardue du fait de l’avènement du Big-Data qui se traduit par une plus grande volumétrie des données disponibles au sein des organisations et dans leurs environements. (le volume de données générées dans le monde devrait dépasser 180 zettaoctets à l’horizon 2025 contre 64 zettaoctets en 2020).
L’objectif global de ce cours est d’équiper l’apprenant en outils lui permettant de remplir la mission sus-évoquée quelque soit le domaine d’application.
Spécifiquement, il s’agit de former des analystes capables de:
La Visualisation des données consiste à présenter les données de façon visuelle, afin de faciliter leur interprétation. En effet, selon le MIT, il suffit de 13 millisecondes pour traiter une image. Et d’après les chercheurs de l’Université du Minnesota, les visuels sont traités 60 000 fois plus vite que les textes. Mais au fait, pourquoi l’humain déchiffre plus facilement les graphiques et les diagrammes que les tableaux (Excel par exemple) ? Pour comprendre pourquoi le cerveau décrypte mieux les Visualisations, il est nécessaire de se pencher sur son fonctionnement et de revenir à nos origines préhistoriques.
Pour survivre dans les jungles primitives, l’être humain a développé une faculté de traitement visuel rapide. C’est ce qui lui permettait jadis de détecter un mouvement furtif des prédateurs, de repérer les empreintes d’un animal, ou d’identifier toute menace immédiate dans son environnement afin d’y réagir promptement.
De nos jours, dans la quiétude de nos sociétés modernes, nous n’avons plus aussi souvent besoin d’être en état d’alerte pour nos vies mais ce besoin demeure lorsqu’il faut prendre une décision rapide sur l’orientation d’un business sur la base d’une multitude de données.
C’est cette faculté de traitement visuel rapide du cerveau qu’exploite la Visualization des Données. Ainsi, il est beaucoup plus facile pour nous de reconnaître et d’interpréter des caractéristiques ou des tendances dans les données lorsqu’elles sont présentées sous forme de graphiques plutôt que dans un tableau.
La perception visuelle permet de traiter les informations plus rapidement que la cognition, et en fournissant moins d’effort. Ce phénomène est démontré par le physicien danois Tor Norretranders, qui a comparé la capacité des différents sens humains avec les performances d’un ordinateur standard.
Cette expérience révèle que la vision humaine a la même bande passante, le même taux de transfert de données qu’un réseau informatique. Sa capacité de canal est 10 fois plus élevée que celle du toucher, et 100 fois plus que celle de l’audition ou de l’odorat.
De plus, le volume de données que nous traitons visuellement et la vitesse à laquelle nous effectuons ce traitement sont largement supérieurs à ce dont nous sommes conscients. Le “traitement pré-attentif” est un phénomène subconscient extrêmement rapide.
Il faut environ 200 à 500 millisecondes pour que l’œil humain transmette au cerveau les propriétés pré-attentives d’un stimulus visuel, et pour que le cerveau les traite. Ainsi, le cerveau accumule des informations sur l’environnement de façon subconsciente et filtre ensuite les éléments importants. C’est donc sans surprise que très tôt, l’humain a commencé à raconter des histoires (dessins dans les cavernes) ou à répondre à des questions par des illustrations.
Faire une revue historique de la visualisation des données n’est pas superflu pour une multitude de raisons la plus simple étant qu’elle nous permettra de mesurer l’inventivité de nos précursseurs et susciter en nous cet esprit créatif qui pourrait donner lieu à de nouveau visuels courants.
Les racines de la représentation d’images remontent à l’Antiquité : les Grecs avaient élaboré un système complexe de représentations mentales comme outils de mémoire et les Egyptiens cartographiaient les étoiles. Au Moyen-Âge, l’image comme ”substitut du langage” se retrouve dans les vitraux et dans les manuscrits.
Parmi les problèmes les plus importants du XVIIe siècle figuraient ceux qui concernaient la mesure physique du temps, de la distance et de l’espace pour l’astronomie, la cartographie, la navigation et l’expansion territoriale. Ce siècle a vu une grande croissance de la théorie et l’aube de la pratique (la montée de la géométrie analytique, les théories des erreurs de mesure et d’estimation, la naissance de la théorie des probabilités et les débuts des statistiques démographiques et de “l’arithmétique politique”).
À la fin de ce siècle, les éléments nécessaires étaient déjà élaborés (des données réelles, une théorie pour leur donner un sens et quelques idées pour leur représentation visuelle).
Bienque la visualisation existe depuis des temps plus lointains, c’est à partir des travaux de Joseph Priestley né en 1733 en Angleterre, (Théologien, pasteur dissident, philosophe) que nous pouvons véritablement prétendre avoir des visualisations utilisées dans les outils contemporains. En 1765, il écrivit sa « charte biographique » où l’on retrouve la première Time-line.
La Temporalité, Joseph Priestley
La portée contemporaine de cette visualisation est qu’elle a donné naissance à la lecture du temps de la gauche vers la droite en occident (Norme devenue mondiale aujourd’hui)
Né à Dundee en Écosse, William Playfair est à la fois économiste, historien et statisticien.
Il publia, en 1786, 44 représentations statistiques dans « L’Atlas commercial et politique ». Il illustra par des graphiques les sommes consacrées au commerce et aux créances britanniques de 1700 à 1782 pour expliquer l’activité économique au fil du temps.
Il est l’inventeur de trois types de représentations graphiques:
Les Courbes, William Playfair
Diagramme en barres, William Playfair
Les travaux de PlayFair ont donné lieu au début du 19è siècle à une modernisation à travers le passage des coordonnées cartésiennes aux coordonnées polaires.
Le premier diagramme circulaire est tiré du Statistical Breviary de Playfair (1801), montrant les proportions de l’Empire ottoman en Asie, Europe et Afrique avant 1789 Une de citations le plus connues de William Playfair : « De tous sens, c’est la vue qui donne l’idée la plus exacte et la plus prompte de tout ce qui est susceptible de lui être présenté; et quand il s’agit de reconnaitre les proportions qui existent entre diverses quantités, ou diverses grandeurs, l’oeil a une supériorité étonnante pour la saisir, par l’habitude constante et presqu’involontaire de comparer divers objets, il acquiert une facilité étonnante à les juger ».
Diagramme circulaire.
Née à Dijon, Charles Joseph Minard est un ingénieur célèbre pour ses inventions dans le domaine de la traduction graphique et cartographique appliqué au génie civil et aux statistiques.
Il est notamment connu pour sa carte figurative des pertes successives en hommes de l’armée Française dans la campagne de Russie (1812 – 1813) entreprise par Napoléon en 1812 ci-dessous :
Carte de la campagne Napoleoninne de Russie.
Ce graphique présente plusieurs variables dans une simple image en deux dimensions :
Née à Florence en Italie, Florence Nightingale est devenue très célèbre pour le travail qu’elle a réalisé pendant la guerre de Crimée.
Entre 1853 et 1856, la guerre de Crimée oppose l’Empire russe à une coalition dont fait partie le Royaume-Uni. Elle y participe en tant qu’infirmière et constate que, parmi les soldats britanniques, les maladies telles que le typhus ou le choléra font plus de victimes que les blessures de combat
Dans le but d’améliorer la condition des soldats, elle fait des statistiques sur les causes de leur mortalité. Pour présenter ses résultats aux autorités responsables, elle fait un diagramme radar, aujourd’hui célèbre, pour montrer que les soldats mourraient de maladies facilement évitables (problèmes d’hygiène) plutôt que de blessures reçues à la guerre.
Diagramme Radar de Florence Nightingale
Émile Levasseur fut une figure majeure de la science sociale du 19e siècle, et un savant de réputation internationale. Son oeuvre présente l’originalité de connecter des champs scientifiques rarement associés avant lui : l’histoire, l’économie politique et sociale, la géographie et la statistique.
Il y fait largement appel aux représentations graphiques, par carte, courbes ou diagrammes. Il participe à la diffusion et à la vulgarisation des méthodes de la statistique graphique.
la particularité du cartogramme ci-dessous est qu’il conserve la localisation, simplifie les formes et la surface représente une autre variable que l’espace.
Emile Levasseur Cartogramme des Budget par pays en 1868
La pyramide des âges a été inventée en 1870 par le directeur du recensement américain Francis Walker. Cette représentation graphique montre la répartition par tranche d’âge et par sexe d’une population
Première pyramide des âges, Francis Walker
Luigi Perrozzo est un mathématicien et statisticien italien (1856-1916). En visualisation de données, il est l’auteur du stéréogramme, une représentation tridimensionnelle de la pyramide des âges.
La 3D, Luigi Perrozzo
Émile Cheysson est un ingénieur français (1836-1910). Il a fait une carrière dans l’industrie et dans l’administration française. Il a joué un rôle important dans l’institutionnalisation de la statistique en France et a notamment édité pour le ministère des Travaux publics des Albums de statistique graphique qui sont considérés comme des exemples de visualisation de données.
Rappellons que ces album sont des condensés de ce qui se fait de mieux à cette époque en termes de représentations graphiques.
Première pyramide des âges, Francis Walker
En sourdine, une confrontation se mène entre une vision artistique des graphiques et une vision plus rigoureuse qui exige une véritable grammaire graphique (les signes forment un language et un language a besion de règles).
A partir du XIXè siècle, on assiste à moins d’innovation mais une large diffusion des méthodes graphiques existantes surtout dans les domaines des médias et des affaires.
Cette période trouble caractérisée par les 2 guerres mondiales s’est illustrée par un passage à vide dans la création de nouveau graphiques. Cependant, Willard C Briton fait un très bon résumé des graphiques existant à cette époque dans son ouvrage intitulé: Graphic Presentation édité en 1914 dont l’édition de 1939 compte 500 pages, tous les types de graphique et les techniques pour les élaborer.
Graphic Presentation, Willard C Briton
La renaissance se résume aux travaux de Jacques Bertin sur La sémiologie graphique. La sémiologie est, de façon générale, l’ensemble des règles qui régissent la construction d’un système de signes ou langage. La sémiologie graphique de Jacques Bertin (1967), désigne surtout un ensemble standardisé des règles et de pratiques inhérentes à la représentation graphique de l’information.
sémiologie graphique, Jacques Bertin
A partir de 1980 la visualisation des données va connaitre un nouvel essor dû notamment aux évolutions technologiques interactivité et animation offrent de nouvelles possibilités. Si ces caractéristiques sont attrayantes en termes de beauté, sont-elles éfficaces pour transmettre l’information ?
Cleveland et McGill en 1984 publient : Graphical perception: Theory, experimentation and application to the developement of graphical methods. Dans cet ouvrage, ils testent rigoureusement auprès des utilisateurs l’efficience des différents types de graphiques.
lorsque les proportions sont proches, les barres représentent mieux les différences que les cercles.
Comparaison entre Barres et Cercles, Cleveland et McGill
Parmi les études sur le choix de graphiques statistiques, nous nous sommes attardés sur un livre intitulé Automating the design of graphical presentations of relational information Mackinlay (1986) qui a l’avantage de fournir un algorithme qui définit un ensemble de méthodes graphiques pour l’expression de chaque type de variable.
Algorithme de Mackinlay
Simkin et Hastie (1987) ont travaillé sur l’identification des processus cognitifs mis en oeuvre lors de la lecture d’un graphique dans leur ouvrage An information processing Analysis of graph perception En effet, ils ont commencé leurs enquêtes en testant l’idée que les gens ont des jugements spécifiques sur les types d’informations que peuvent fournir les divers types de graphiques.
Ces tests de graphe suggéraient comment le type de graphe et le type de jugement interagiraient pour déterminer la vitesse et la précision de l’extraction d’informations quantitatives.
Cette hypothèse a été confirmée dans le cas d’un jugement de comparaison qui était:
le plus précis lorsque le jugement nécessitait d’évaluer la position sur une échelle commune (histogramme simple), avait une précision intermédiaire sur les jugements de longueur (histogramme divisé) et était le moins précis lors de l’évaluation des angles ( diagramme circulaire).
En revanche, lorsque le jugement était une estimation de la proportion de l’ensemble, les évaluations d’angle (diagramme circulaire) étaient aussi précises que la position (diagramme à barres simple) et plus précises que la longueur (diagramme à barres divisées).
Des propositions de processus d’information élémentaires impliquant des opérateurs d’ancrage, de balayage, de projection, de superposition et de détection ont été faites pour expliquer cette interaction.
Simkin et Hastie: Processus cognitif
Il existe plusieurs essais de définition de la visualisation des données. La plus simple considère que c’est un processus de représentation visuelle de l’information
De par ses utilisations quotidiennes, elle peut servir plusieurs usages:
Quand peut-on estimer qu’une visualisation est bonne ou mauvaise ?
Beaucoup de gens supposent que la visualisation de données est principalement axée sur la conception graphique. Ces gens supposent qu’ils peuvent envoyer un grand nombre de données dans des tableaux à un graphiste afin de créer une visualisation avec succès. Le graphiste a un rôle, comme illustré ci-dessus dans la composante de la forme de la bulle rose, d’apporter de la beauté et de la structure. Mais la forme à elle seule ne fait pas une visualisation efficace. Les autres composantes exigent aussi une attention égale.
Les experts en matière de visualisation des données, les analystes et le personnel de terrain assurent l’intégrité. Ils vérifient que l’interprétation donnée soit, en fait conforme à la réalité, et que la visualisation, si belle soit elle, ne trahisse pas l’exactitude des données.
Les experts en communication peuvent aider à identifier l’intérêt et la pertinence par le tri des faits moins pertinents à la recherche d’une interprétation fascinante
La fonction est un facteur clé qui doit être considérée par tous. Si votre visualisation ne peut être utilisée par votre public cible, alors il ne vaut pas la peine de la faire.
Alors que vous pouvez ne pas être en mesure de jouer tous les rôles cités ci-dessus (Graphiste, Expert, communicateur …), avoir une compréhension des principes fondamentaux de la bonne visualisation de données est essentielle pour s’assurer que votre produit final est réussi
Au demeurant, existe t-il un caneva à suivre pour se rassurer de la qualité de la visualisation produite ?
Dans cette section, nous examinons les quatre étapes clés nécessaires pour construire une visualisation efficace des données.
Les deux questions importantes que l’on se pose ici sont:
Il existe une multitudes d’outils de visualisation des données Excel, Stata, Eviews, Spad, Spss, PowerBI, R, Tableau, Python etc. l’idéal serait de tous les connaitre mais maitrise R-Shiny ou Python-Dash est suffisant pour un data scientist.
Dans le cadre de ce cours, toutes les visualisations seront présentées sur R. l’apprenant pouvant lui-même explorer les autres outils pour sont développement.
The Grammar of Graphics de Leland Wilkinson (1945), a eu une influence importante sur la facon de penser les graphes.Le mot grammaire ici fait reférence à un ensemble de règles mathématiques et esthétiques qui s’appliquent à tous les graphes. ce formalisme qui inspirera beaucoup d’autres experts s’articule autour des éléments suivants:
installons le package ggplot2 de Wickham qui a mis en oeuvre la théorie de Wilkinson.
les fonctions d’une visualisation sous ggplot2
Une des particularités de ggplot2 est qu’elle part du principe que les données relatives à un graphique sont stockées dans un tableau de données (data frame, tibble ou autre). pas une base de données mais un tableau ligne colonne contennant la donnée finale à représenter.
Tous les graphiques avec ggplot2 suivent une même logique. En premier lieu, on appelera la fonction ggplot2::ggplot() en lui passant en paramètre le fichier de données.
head(economics) %>%
kbl(caption = "Données économiques des USA") %>%
kable_classic(full_width = F, html_font = "Cambria")| date | pce | pop | psavert | uempmed | unemploy |
|---|---|---|---|---|---|
| 1967-07-01 | 506.7 | 198712 | 12.6 | 4.5 | 2944 |
| 1967-08-01 | 509.8 | 198911 | 12.6 | 4.7 | 2945 |
| 1967-09-01 | 515.6 | 199113 | 11.9 | 4.6 | 2958 |
| 1967-10-01 | 512.2 | 199311 | 12.9 | 4.9 | 3143 |
| 1967-11-01 | 517.4 | 199498 | 12.8 | 4.7 | 3066 |
| 1967-12-01 | 525.1 | 199657 | 11.8 | 4.8 | 3018 |
ggplot2 nomme esthétiques les différentes propriétés visuelles d’un graphique, à savoir l’axe des x (x), celui des y (y), la couleur des lignes (colour), celle de remplissage des polygones (fill), le type de lignes (linetype), la forme des points (shape), etc.
Une représentation graphique consiste donc à représenter chacune de nos variables d’intérêt selon une esthétique donnée. En second lieu, on appelera donc la fonction ggplot2::aes() pour indiquer la correspondance entre les variables de notre fichier de données et les esthétiques du graphique.
g <- ggplot(economics, aes(x = date, y = uempmed))
g
### I-5-3 Les Géométries
A minima, il est nécessaire d’indiquer en troisième lieu une géométrie, autrement dit la manière dont les éléments seront représentés visuellement. À chaque géométrie corresponds une fonction commençant par geom_, par exemple ggplot2::geom_point() pour dessiner des points, ggplot2::geom_line() pour des lignes, ggplot2::geom_bar() pour des barres ou encore ggplot2::geom_area() pour des aires. Il existe de nombreuses géométries différentes1, chacune prenant en compte certaines esthétiques, certaines étant requises pour cette géométrie et d’autres optionnelles. La liste des esthétiques prises en compte par chaque géométrie est indiquée dans l’aide en ligne de cette dernière.
g <- ggplot(economics, aes(x = date, y = uempmed))+
geom_point(color = "blue", shape = "diamond", size = 2)
gp <- ggplot(presidential, aes(x = start, y = end, color = party))+
geom_point(shape = "diamond", size = 1)+
geom_label(aes(label = name), hjust = .5, vjust = -.5)
p le principe de la visualisation par petits multiples, c’est-à-dire que l’on reproduit le même graphique pour chacune des modalités d’une variable d’intérêt, et visualise l’ensemble de ces graphiques dans une même fenêtre. les facettes (facets) se créent avec les fonctions commençant par facet_
Plusieurs packages proposent des fonctions pour combiner ensemble des graphiques ggplot2, comme patchwork, ggpubr, ou cowplot. Nous conseillons le package patchwork car, bien qu’il ne fasse pas partie du tidyverse, est développé et maintenu par les mêmes auteurs que ggplot2.
g <- ggplot(presidential, aes(x = start, y = end))+
geom_point(color = "blue", shape = "diamond", size = 2)+
facet_wrap(~ party)
g En général nous utiliserons un système de coordonnées cartésiennes qui permet de déterminer la position d’un point dans un espace affine muni d’un repère cartésien. pour ce faire, les fonctions commençant par coord_ seront utilisées.
les échelles (scales) des différentes esthétiques sont spécifiée avec les fonctions commençant par scale_
Le thème est l’aspect global de votre graphique. il existe des thèmes prédéfinis que vous pouvez utiliser à travers le packages ggthemes ou hrbrthemes. mais vous pouvez également designer votre propre thème avec la fonction theme_set comme suit theme_set(theme_bw()) en partant du thème par défaut theme_gray.