Automne 2016

Notions fondamentales des données

Données

Donnée : information sur un individu.

Individu : unité statistique fondamentale. Entité à propos de laquelle on collecte des informations (également observation).

Variable : série de données collectée sur un ensemble d'individu, renseignant la même information.

Exemples de données

On interroge trois personnes :

  • Dominique est un homme de 50 ans.
  • Camille est une femme de 20 ans.
  • Marie est une femme de 40 ans.

Exercice : Dans cet exemple, identifiez :

  • Les individus
  • Les données
  • Les variables

Base de données

Série de variables à propos des mêmes individus.

Une base de donnée est un tableau contenant :

  • en ligne, les individus (un individu par ligne)
  • en colonne, les variables (une variable par colonne)
  • dans chaque cellule, la valeur que prend une variable pour un individu

Population et échantillon

Population (ou population-mère) : ensemble des individus que l'on souhaite connaître.

Échantillon : ensemble des individus appartenant à la population à propos desquels on produit des données.

Échantillonnage

Situation idéale pour le statisticien : accès à la population entière.

  • recensement
  • études exhaustives de petites populations

Impossible la plupart du temps :

  • population trop importante
  • délimitation et accès impossible
  • coût de production des données grandit avec la taille de la population et le nombre d'informations collectées => arbitrage entre richesse des données et taille de l'échantillon (entre longueur et largeur de la base de données)

Échantillonnage

On recourt donc donc le plus souvent à un échantillonage : étude d'un ensemble restreint d'individus de la population.

Types d'échantillonnage :

  • aléatoire : tirer au hasard
  • stratifié : sélectionner des sous-populations, puis tirage aléatoire
  • quota : imiter la distribution de variables-clés dans la population

Représentativité

Dans les sciences sociales, les statistiques portent souvent sur des échantillons dont la taille est sensiblement plus faible à celle de la population.

Représentativité : degré de proximité de l'échantillon et de la population au regard des variables mesurées.

La question est alors : peut-on considérer l'échantillon comme une version miniature de la population ?

Une part importante des techniques statistiques visent à estimer la qualité de la généralisation des résultats constatés sur l'échantillon à la population dans son ensemble.

L'individu statistique

Individu au sens statistique est une entité, mais pas nécessairement une personne.

Autres possibilités fréquentes

  • un pays, une région
  • une institution (établissement, entreprise)
  • un ménage

Mais aussi plus généralement une unité d'observation

  • un texte (si la population est un corpus)
  • un objet (si la population est un ensemble d'objets)

Données brutes et données agrégées

Données brutes : séries de valeurs associées à des individus. Informations telles qu'elles sont recueillies.

Données agrégées : chiffres produits par une analyse de donnée.

Dans le langage courant, on utilise souvent le terme "donnée" dans le second sens.

Exemple : un sondage mesure les intentions de vote d'un échantillon d'électeurs lors de la prochaine élection. On qualifiera de donnée l'affirmation "15 % des électeurs interrogés affirment vouloir voter pour le candidat X." Il s'agit d'une donnée agrégée

Les types de variables

Variable qualitative / quantitative

Quelle est la nature de l'information récoltée ?

  • Une mesure => variable quantitative
  • Une catégorie => variable qualitative

Variables qualitatives

Également variable nominale ou variable catégorielle. Les valeurs sont des catégories.

Modalités = ensemble des valeurs possibles pour une variable qualitative.

Cas particulier :

variables qualitatives ordonnées (parfois opposées aux variables catégorielles) = les modalités peuvent être classées dans un ordre logique.

Variables quantitatives

Mesure numérique. Composée d'une mesure (un nombre) et d'une unité.

Variable quantitative discrète : nombre restreint de valeurs possibles.

Variable quantitative continue : nombre de valeurs possibles important.

Du questionnaire à la base de données

Vue d'ensemble

En sciences humaines et sociales, de nombreuses bases de données sont produites par questionnaire (statistique publique, etc.).

En règle générale :

  • un questionnaire = un individu
  • une question = une variable

Mais ce n'est pas toujours le cas :

  • questionnaires collectifs / multi-niveaux
  • questions à choix multiples
  • questions ouvertes
  • filtres

Questionnaires collectifs ou multi-niveaux

Recensement :

Une personne du ménage remplit le questionnaire. Deux bases de données sont produites :

  • une base des ménages (un questionnaire = un individu ; individu = ménage)
  • une base des personnes (un questionnaire = autant d'individu que de membre du ménage ; individu = une personne)

Questions à choix multiples

Les questions à choix multiples apparaissent dans les bases de données comme autant de variables qu'il existe de choix possibles.

Nous allons maintenant parler de vos sorties. Je vais vous montrer une liste, dîtes-moi celles qu'il vous arrive de faire le SOIR, que ce soit le soir en semaine ou le soir en week-end. (Source: Enquête pratiques culturelles des Français, 2008)

  • Aller au cinéma
  • Aller au spectacle
  • Aller chez des parents
  • Aller chez des amis
  • Aller à une réunion autre que familiale ou amicale
  • Aller au restaurant
  • Aller vous promener, retrouver des amis dans la rue, au café…

Les "questions ouvertes"

Peuvent apparaître dans les bases de données dans une colonne, mais ne constituent pas une variable. Il est nécessaire de les nettoyer.

Les valeurs manquantes

Plusieurs raisons :

  • la variable ne s'applique pas à l'individu (profession du conjoint pour une personne célibataire)
  • l'information est indisponible pour un individu (refus de répondre, échec des recherches)

Souvent "codées" comme des réponses, et différenciées (nsp, refus de répondre, manquant). Dans l'analyse, choix nécessaire : les inclure, les ignorer, les transformer.