Automne 2016

L'analyse de données

Éléments récurrents de l'analyse de données

Éléments atomiques :

  • Manipuler des donnĂ©es
  • Produire des prĂ©sentations graphiques ad hoc (tableau, graphiques)
  • Effectuer des traitements statistiques
  • Construire un raisonnement quantitatif ou scientifique
  • Écrire un rapport ou un document explicatif

Les deux usages de l'analyse de données

Pour deux usages :

  • Explorer (usage personnel, « vrai » travail scientifique)
  • Expliquer (Ă  destination d'un public)

Le mythe du tableur

Philosophie du tableur

Le tableur est centrĂ© sur le concept… de table ou de feuille de calcul.

La logique de la base de données

Avantages du tableur

Il est donc logique que le tableur soit adapté pour gérer des données ordonnées en lignes et en colonnes.

Le tableur est donc un outil adapté pour :

  • Saisir des donnĂ©es
  • « Visualiser » une base de donnĂ©es
  • Recoder des donnĂ©es

Inconvénients du tableur

Tous les autres éléments :

  • Produire des prĂ©sentations graphiques ad hoc
  • Effectuer des traitements statistiques
  • Construire un raisonnement quantitatif ou scientifique
  • Écrire un rapport ou un document explicatif

Et mĂªme pour manipuler des donnĂ©es : coĂ»t d'affichage des donnĂ©es quand \(n\) croĂ®t.

Morale

Le tableur oblige la présence d'un tableau et à l'organisation en lignes et en colonnes.

Or, dans une analyse quantitative, la base de donnĂ©es et sa manipulation sont importantes, certes… mais elles ne sont qu'un Ă©lĂ©ment parmi bien d'autres. Autrement dit, le tableur favorise la logique interne d'une partie Ă  la logique de l'ensemble.

La fin d'un mythe : il n'est pas nécessaire de « voir » ses données pour les traiter.

Le mythe du tableur : « voir » les données ?

Voir ses données

« Voir » ses données

Exemple : comment voir la rĂ©partition des Ă¢ges dans une base de donnĂ©es de plus de 2000 individus (tirĂ© de l'enquĂªte Histoire De Vie 2003) ?

« Voir » ses données

« Voir » ses données

N'a jamais fait d'etudes A arrete ses etudes, avant la derniere annee d'etudes primaires Derniere annee d'etudes primaires 1er cycle 2eme cycle Enseignement technique ou professionnel court Enseignement technique ou professionnel long Enseignement superieur y compris technique superieur
Homme 16 37 131 82 67 247 67 198
Femme 23 49 210 122 116 216 64 243

Conclusion

  • Le tableur est un outil adaptĂ© pour l'une des Ă©tapes de l'analyse de donnĂ©es
  • Il n'est pas nĂ©cessaire (voire souhaitable) de visualiser la base de donnĂ©es sous forme de tableau pour l'analyser
  • C'est le rĂ´le de la statistique descriptive de nous permettre de percevoir des donnĂ©es sous diverses formes : indicateurs synthĂ©tiques (paramètres comme la moyenne), visualisation selon diffĂ©rentes raisons graphiques (tableau, histogrammes, etc.).

Pourquoi un langage de programmation ?

Qu'est-ce qu'un programme ?

Un programme est un ensemble d'instructions qu'un ordinateur peut éxécuter.

Le mot programme peut désigner deux concepts distincts :

  • Un programme source est un fichier texte (ou un ensemble de fichiers textes) rĂ©digĂ© dans un langage de programmation. On parle en gĂ©nĂ©ral de code source.

  • Un programme binaire est un fichier en langage machine qui dĂ©crit les instructions Ă  effectuer Ă  l'Ă©chelle du processeur. Il est en gĂ©nĂ©ral obtenu Ă  partir d'un langage de programmation dit « haut niveau ». On le dĂ©signe sous divers noms : Ă©xĂ©cutable, application, etc.

Pourquoi un langage ?

Un langage de programmation permet de mobiliser les ressources d'un ordinateur tout en restant intelligible pour un Ăªtre humain (et anglophone).

Exemple pour produire le tableau croisé précédent :

data("hdv2003")
hdv <- hdv2003
table(hdv$sexe, hdv$nivetud)

Fondamentalement, un programme est un texte, un document rédigé, ce qui correspond davantage aux processus de l'analyse de données.

Pourquoi R ?

Il existe de nombreux autres logiciels ou langages adaptés à l'analyse de données.

R a les avantages suivants :

  • Libre et gratuit
  • Disponible sur un très grand nombre de plateformes
  • Standard scientifique et indusriel
  • DestinĂ© Ă  un usage statistique avant tout (et non pas logiciel)
  • Écosystème dĂ©veloppĂ©

Les éléments de base

À repérer dans RStudio :

  • Les bases de donnĂ©es, qui sont des fichiers (.csv), [disque dur]
  • L'interprĂ©teur R, aussi appelĂ© "console" [processeur]
  • La session R : elle stocke les variables [mĂ©moire vive]
  • Les fichiers .R qui peuvent stocker des sĂ©ries d'instructions [disque dur]
  • RStudio qui fournit une surcouche graphique pour R

Opérations de base

# Opérations élémentaires
1+2
1-2
1*2
1/2

# Opérations plus complexes
10^2 # 10 puissance 2
sqrt(2) # Racine carrée (SQuare RooT = sqrt) de 2

Les types de données

Quelques types de données élémentaires :

1 # Un chiffre
"sexe" # Une chaîne de caractères
sexe # Différencier sexe (variable) de "sexe" (chaîne de caractères)


c(1, 2, 3, 4) # Un vecteur : série de données au format homogène
c("Homme", "Homme", "Femme") # Un vecteur de texte
# Les vecteurs correspondent donc à des variables (voir séance 6)

factor(c("Homme", "Homme", "Femme")) # Les facteurs :
# Un type de données adapté aux variables qualitatives 

Les variables

# Stocker une valeur dans la variable sexe
sexe <- c("Homme", "Homme", "Femme")
"sexe" # La chaîne de caractères
sexe # La variable contenant le vecteur ci-dessus

Les fonctions

# Créer une variable et y stocker un vecteur
questionnaires <- c(1,0,3,2,2,3,2,4,3,2,2,1,6,3,3,3,4,1,1,3,2,1,3)

length(questionnaires) # Nombre de valeurs (longueur = length du vecteur)
mean(questionnaires) # Moyenne
sum(questionnaires) # Somme
summary(questionnaires) # Informations diverses (summary = résumé)

Les packages

# Installer un package
install.packages("questionr")

# Charger un package
library("questionr")