Notions fondamentales des données

Donnée : information sur un individu.

Individu : unité statistique fondamentale. Entité à propos de laquelle on collecte des informations (également observation).

Variable : série de données homogènes, collectée sur un ensemble d’individu, renseignant la même information.

Base de données

Définition

Série de variables à propos des mêmes individus.

Une base de donnée est un tableau contenant :

en ligne, les individus (un individu par ligne)
en colonne, les variables (une variable par colonne)
dans chaque cellule, la valeur que prend une variable pour un individu

Dans R

# Chargement du tidyverse
library(tidyverse)

## ── Attaching packages ────────────────────────────────────── tidyverse 1.2.1 ──

## ✔ ggplot2 3.1.0     ✔ purrr   0.3.0
## ✔ tibble  2.0.1     ✔ dplyr   0.7.8
## ✔ tidyr   0.8.2     ✔ stringr 1.3.1
## ✔ readr   1.3.1     ✔ forcats 0.3.0

## ── Conflicts ───────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()

# Lire une base de données depuis un fichier
jardin1 <- read_csv('data/jardin1.csv')

## Parsed with column specification:
## cols(
##   .default = col_character()
## )

## See spec(...) for full column specifications.

# Avoir un aperçu d'une base de données
glimpse(jardin1)

## Observations: 43
## Variables: 31
## $ creation_date        <chr> "2010", "Nov 2008 (en conseil de Quartier)"…
## $ createurs_nb         <chr> "30", "10", "5", "7 ou 8", "10", "Environ 1…
## $ createurs_vous       <chr> "Oui", "Oui", "Oui", "Oui", "Oui", "Non", "…
## $ createurs_nb_ajd     <chr> "9", "10", "4", "5", "Aucun", "x", "5", "4"…
## $ emplacement          <chr> "Parc de Choisy", "107 faubourg Saint-Denis…
## $ proximite_logements  <chr> "Oui", "Presque tous", "Oui", "Oui", "Oui",…
## $ proprietaire         <chr> "Ville de Paris", "Ville de Paris", "Ville …
## $ bail                 <chr> "Convention 3 ans renouvelable", "Conventio…
## $ adhesion_nb          <chr> "35", "x", "20", "40", "49", "41 (2013) 57 …
## $ adhesion_hf          <chr> "2 H / 35", "x", "Moitié-moitié", "60% F / …
## $ adhesion_criteres    <chr> "Non", "Non", "Non", "Non", "Non", "Indiv :…
## $ adhesion_montant     <chr> "25 €/an", "20 €/an", "20 €/an", "5 € /pers…
## $ jardiniers_1an       <chr> "environ 40%", "x", "Trop récent", "Les 3/4…
## $ parcelles_adhesion   <chr> "Non", "x", "Oui", "Non jardinage coll", "N…
## $ surface              <chr> "70m2", "250 m2", "100 m2", "500m2", "500m2…
## $ parcelles_collectif  <chr> "Collectif", "Les 2", "Collectif", "Collect…
## $ parcelles_nb         <chr> "x", "x", "x", "x", "20", "x", "x", "12", "…
## $ equipements          <chr> "Meubles de jardins / Abri collectif / Eau …
## $ produits             <chr> "Fleurs, Fruits, Légumes, Herbes aromatique…
## $ produits_destination <chr> "Partage adhérents", "x", "Partage adhérent…
## $ public               <chr> "Accès libre", "Accès libre", "Oui 2 perm/s…
## $ jardin_accueil       <chr> "Oui 2 perm/semaine", "Oui", "Oui si possib…
## $ evenements           <chr> "Fêtes de quartier, Spectacles", "x", "Fête…
## $ structures           <chr> "Groupe scolaire, Accueil de jour pour adul…
## $ jardin_type          <chr> "Partagé", "Partagé", "Partagé, Familial", …
## $ objectifs            <chr> "Création de lien social / Pédagogie / Plai…
## $ commune              <chr> "Paris 13ème", "Paris 10ème", "Paris 11ème"…
## $ sexe                 <chr> "Femme", "Homme", "Homme", "Femme", "Homme"…
## $ age                  <chr> "60 et 69 ans", "50 et 59 ans", "50 et 59 a…
## $ nationalite          <chr> "Française - Ile de France", "Française - P…
## $ metier               <chr> "Infirmière", "Architecte", "Artiste", "Ach…

# Voir sous forme d'un tableur dans RStudio
View(jardin1)

# Nombre d'invidus
nrow(jardin1)

## [1] 43

# Nombre de variables
ncol(jardin1)

## [1] 31

# Noms des variables
names(jardin1)

##  [1] "creation_date"        "createurs_nb"         "createurs_vous"      
##  [4] "createurs_nb_ajd"     "emplacement"          "proximite_logements" 
##  [7] "proprietaire"         "bail"                 "adhesion_nb"         
## [10] "adhesion_hf"          "adhesion_criteres"    "adhesion_montant"    
## [13] "jardiniers_1an"       "parcelles_adhesion"   "surface"             
## [16] "parcelles_collectif"  "parcelles_nb"         "equipements"         
## [19] "produits"             "produits_destination" "public"              
## [22] "jardin_accueil"       "evenements"           "structures"          
## [25] "jardin_type"          "objectifs"            "commune"             
## [28] "sexe"                 "age"                  "nationalite"         
## [31] "metier"

L’individu statistique

Définition

Individu au sens statistique est une entité, mais pas nécessairement une personne.

Autres possibilités fréquentes

un pays, une région
une institution (établissement, entreprise)
un ménage

Mais aussi plus généralement une unité d’observation

un texte (si la population est un corpus)
un objet (si la population est un ensemble d’objets)

Dans R

# Voir l'individu 4
jardin1[1, ]

# Sélectionner les individus 1, 4 et 34
jardin1[c(1, 4, 34),]

Les variables

Dans R

# Créer sa propre variable avec un vecteur
c(1999, 1998, 2000)

## [1] 1999 1998 2000

# Ou bien :
c('Paris', 'Marseille', 'Lille')

## [1] "Paris"     "Marseille" "Lille"

# Dans une base de données
jardin1$commune

##  [1] "Paris 13ème"            "Paris 10ème"           
##  [3] "Paris 11ème"            "Paris 20ème"           
##  [5] "Paris 19ème"            "Paris 13ème"           
##  [7] "Paris 13ème"            "Paris 14ème"           
##  [9] "Paris 11ème"            "Paris 20ème"           
## [11] "Paris 19ème"            "Paris 20ème"           
## [13] "Aubervilliers"          "Colombes"              
## [15] "Bagnolet"               "Sceaux"                
## [17] "Aubervilliers"          "Nanterre"              
## [19] "Bagnolet"               "Saâcy sur Marne"       
## [21] "Cachan"                 "Paris 17ème"           
## [23] "Saulx et Chilly"        "Paris 3ème"            
## [25] "Paris 18ème"            "Gentilly"              
## [27] "Dugny"                  "Paris 20ème"           
## [29] "Arcueil"                "Paris 19ème"           
## [31] "Paris 10ème"            "Chennevières sur Marne"
## [33] "Le Pré-St-Gervais"      "Bagnolet"              
## [35] "Paris 15ème"            "Nanterre"              
## [37] "Paris 12"               "Paris 18"              
## [39] "Paris 18"               "Paris 18e"             
## [41] "Aubervilliers"          "Montreuil (93)"        
## [43] "Paris 18e"

Variable qualitative / quantitative

Quelle est la nature de l’information récoltée ?

Une mesure => variable quantitative
Une catégorie => variable qualitative

Variables quantitatives

Définition

Mesure numérique. Composée d’une mesure (un nombre) et d’une unité.

Dans R

# Créer sa propre variable quantitative avec un vecteur
c(1999, 1998, 2000)

## [1] 1999 1998 2000

# Ou bien, dans une base de données :
library(questionr)
data(hdv2003)
glimpse(hdv2003$age)

##  int [1:2000] 28 23 59 34 71 35 60 47 20 28 ...

Variables qualitatives

Définition

Également variable nominale ou variable catégorielle. Les valeurs sont des catégories.

Modalités = ensemble des valeurs possibles pour une variable qualitative.

Cas particulier : variables qualitatives ordonnées (parfois opposées aux variables catégorielles) = les modalités peuvent être classées dans un ordre logique.

Dans R

# Peut-on créer sa propre variable qualitative avec un vecteur ?
diplome1 <- c('Licence', 'Licence', 'Bac', 'Master', 'Bac', 'Licence', 'Licence', 'Doctorat')

# Ça fonctionne, mais pas complètement (ordre des modalités)
table(diplome1)

## diplome1
##      Bac Doctorat  Licence   Master 
##        2        1        4        1

# R a un type de vecteur spécialisé, les factors :
diplome2 <- factor(diplome1, levels = c('Bac', 'Licence', 'Master', 'Doctorat'))

# Maintenant, on obtient le résultat attendu :
table(diplome2)

## diplome2
##      Bac  Licence   Master Doctorat 
##        2        4        1        1

# Dans R, les modalités s'appellent des levels :
levels(diplome2)

## [1] "Bac"      "Licence"  "Master"   "Doctorat"

# On peut aussi prendre une variable qualitative d'une base de données
levels(hdv2003$nivetud)

## [1] "N'a jamais fait d'etudes"                                       
## [2] "A arrete ses etudes, avant la derniere annee d'etudes primaires"
## [3] "Derniere annee d'etudes primaires"                              
## [4] "1er cycle"                                                      
## [5] "2eme cycle"                                                     
## [6] "Enseignement technique ou professionnel court"                  
## [7] "Enseignement technique ou professionnel long"                   
## [8] "Enseignement superieur y compris technique superieur"

table(hdv2003$nivetud)

## 
##                                        N'a jamais fait d'etudes 
##                                                              39 
## A arrete ses etudes, avant la derniere annee d'etudes primaires 
##                                                              86 
##                               Derniere annee d'etudes primaires 
##                                                             341 
##                                                       1er cycle 
##                                                             204 
##                                                      2eme cycle 
##                                                             183 
##                   Enseignement technique ou professionnel court 
##                                                             463 
##                    Enseignement technique ou professionnel long 
##                                                             131 
##            Enseignement superieur y compris technique superieur 
##                                                             441

Bases de données et variables : présentation

CPES 2 - Techniques quantitatives

Gabriel Alcaras

février 2019

Notions fondamentales des données

Base de données

Définition

Dans R

L’individu statistique

Définition

Dans R

Les variables

Dans R

Variable qualitative / quantitative

Variables quantitatives

Définition

Dans R

Variables qualitatives

Définition

Dans R