Automne 2016
Éléments atomiques :
Pour deux usages :
Le tableur est centrĂ© sur le concept… de table ou de feuille de calcul.
La logique de la base de données
Il est donc logique que le tableur soit adapté pour gérer des données ordonnées en lignes et en colonnes.
Le tableur est donc un outil adapté pour :
Tous les autres éléments :
…
Et mĂªme pour manipuler des donnĂ©es : coĂ»t d'affichage des donnĂ©es quand \(n\) croĂ®t.
Le tableur oblige la présence d'un tableau et à l'organisation en lignes et en colonnes.
Or, dans une analyse quantitative, la base de donnĂ©es et sa manipulation sont importantes, certes… mais elles ne sont qu'un Ă©lĂ©ment parmi bien d'autres. Autrement dit, le tableur favorise la logique interne d'une partie Ă la logique de l'ensemble.
La fin d'un mythe : il n'est pas nécessaire de « voir » ses données pour les traiter.
Voir ses données
Exemple : comment voir la rĂ©partition des Ă¢ges dans une base de donnĂ©es de plus de 2000 individus (tirĂ© de l'enquĂªte Histoire De Vie 2003) ?
| N'a jamais fait d'etudes | A arrete ses etudes, avant la derniere annee d'etudes primaires | Derniere annee d'etudes primaires | 1er cycle | 2eme cycle | Enseignement technique ou professionnel court | Enseignement technique ou professionnel long | Enseignement superieur y compris technique superieur | |
|---|---|---|---|---|---|---|---|---|
| Homme | 16 | 37 | 131 | 82 | 67 | 247 | 67 | 198 |
| Femme | 23 | 49 | 210 | 122 | 116 | 216 | 64 | 243 |
Un programme est un ensemble d'instructions qu'un ordinateur peut éxécuter.
Le mot programme peut désigner deux concepts distincts :
Un programme source est un fichier texte (ou un ensemble de fichiers textes) rédigé dans un langage de programmation. On parle en général de code source.
Un programme binaire est un fichier en langage machine qui décrit les instructions à effectuer à l'échelle du processeur. Il est en général obtenu à partir d'un langage de programmation dit « haut niveau ». On le désigne sous divers noms : éxécutable, application, etc.
Un langage de programmation permet de mobiliser les ressources d'un ordinateur tout en restant intelligible pour un Ăªtre humain (et anglophone).
Exemple pour produire le tableau croisé précédent :
data("hdv2003")
hdv <- hdv2003
table(hdv$sexe, hdv$nivetud)
Fondamentalement, un programme est un texte, un document rédigé, ce qui correspond davantage aux processus de l'analyse de données.
Il existe de nombreux autres logiciels ou langages adaptés à l'analyse de données.
R a les avantages suivants :
À repérer dans RStudio :
# Opérations élémentaires 1+2 1-2 1*2 1/2 # Opérations plus complexes 10^2 # 10 puissance 2 sqrt(2) # Racine carrée (SQuare RooT = sqrt) de 2
Quelques types de données élémentaires :
1 # Un chiffre
"sexe" # Une chaîne de caractères
sexe # Différencier sexe (variable) de "sexe" (chaîne de caractères)
c(1, 2, 3, 4) # Un vecteur : série de données au format homogène
c("Homme", "Homme", "Femme") # Un vecteur de texte
# Les vecteurs correspondent donc à des variables (voir séance 6)
factor(c("Homme", "Homme", "Femme")) # Les facteurs :
# Un type de données adapté aux variables qualitatives
# Stocker une valeur dans la variable sexe
sexe <- c("Homme", "Homme", "Femme")
"sexe" # La chaîne de caractères
sexe # La variable contenant le vecteur ci-dessus
# Créer une variable et y stocker un vecteur questionnaires <- c(1,0,3,2,2,3,2,4,3,2,2,1,6,3,3,3,4,1,1,3,2,1,3) length(questionnaires) # Nombre de valeurs (longueur = length du vecteur) mean(questionnaires) # Moyenne sum(questionnaires) # Somme summary(questionnaires) # Informations diverses (summary = résumé)
# Installer un package
install.packages("questionr")
# Charger un package
library("questionr")