Méthodes quantitatives

Gabriel Alcaras
02 octobre 2017

Séance 4 - Les sources de données

  1. Tour d'horizon des différentes sources de données
  2. Le choix des individus : population et échantillonnage
  3. Pratique : manipulation de bases sur R

Tour d'horizon des différentes sources de données

Les données ne sont pas... données

Construire une bonne base de données est très chronophage.

  • Récupération des données
    • Bases publiques (INSEE, INED, CEREQ) ou privées
    • Questionnaires ad hoc (en ligne ou papier)
    • Quantification d'archives
    • Webcrawling (Le Bon Coin), API (Twitter), etc.
    • Observation quantifiée
  • Recodage (uniformiser les modalités)
  • Sanity checks (traitement des incohérences dans les réponses)

Les données de seconde main

Il est parfois possible de récupérer des bases déjà constituées. Exemples : statistique publique INSEE, réseau Quételet, chercheurs qui partagent leurs bases, fichier des employés d'une entreprise.

Avantages Inconvénients
Gain de temps considérable
Reproductibilté et cumulativité des résultats
Questions trop générales pour des problématiques spécifiques
Questions difficiles à interpréter si on n'a pas participé à la construction du questionnaire
Problèmes d'accès dans le cas de bases publiques sensibles ou privées

Exemple : l'enquête Histoire de Vie de l'INSEE

Alt text

Questionnaires ad hoc

Beaucoup de recherches originales se fondent sur des questionnaires créés spécifiquement pour une problématique.

Avantages Inconvénients
Contrôle total de toutes les étapes de création et de distribution qui peuvent informer l'interprétation du résultat Très chronophage
Problèmes d'autorisation (CNIL)
Difficultés de diffusion
Forts taux de non-réponse dans toutes les enquêtes
Recodage pénible, surtout pour les questionnaires papier.

Les "nouvelles" données numériques

La récupération de données numériques est en plein essort, grâce à des algorithmes (webcrawling) ou des stratégies spécifiques (jeux Facebook). Exemples : étude Algopol sur Facebook, etc.

Avantages Inconvénients
Sources encore peu employées
Le volume de données est souvent massif (big data)
Possiblité d'accéder à des populations exhaustives
Coûts d'entrée techniques variables
Beaucoup de données inutilisables
Parfois trop de données (plus de colonnes que de lignes, “n > m”)
Données à visée industrielle et pas de recherche
Flou juridique sur l'utilisation de ces données.

Exemple : les données Vélib'

Les données observationnelles

Les données issues d'observations sont surtout présentes dans les sciences naturelles, mais existent également dans les sciences sociales. Elles sont souvent adossées à des méthodes ethnographiques, et emploient principalement le comptage et le chronométrage

Avantages Inconvénients
Données comportementales plutôt que déclaratives
Contrôle important du chercheur sur la production des données
Données fortements localisées
Recueil coûteux en temps

Exemple : les visiteurs du musée Granet

Afc Granet

Source : Jean-Claude Passeron, Emmanuel Pedler, “Le temps donné aux tableaux”, Protée, 1999

Quantification d'archives

Une méthode moins courante que celle des questionnaires, mais qui est tout aussi intéressante. Exemples : travail sur le courrier du journal Le Monde (Boltanski, 1984), Claire Zalc en histoire, etc.

Avantages Inconvénients
Accès à des sources originales
Contrôle du processus de quantification
Problématique de l'accès physique aux archives
Problèmes d'autorisation, délais légaux
Travail long de recodage et d'uniformisation

Exemple : les réseaux des Médicis

Les réseaux des Médicis

Dans un article de 1993, Padget et Ansell analysent l'ascension de la famille des Médicis au XVème siècle, en reconstituant leurs réseaux (liens financiers, d'amitié, etc.) grâce aux archives de l'époque.

Exemple : la base de données Titanic

Survie des passagers du Titanic

Choisir des individus : population et échantillonnage

Population et échantillon

population (ou population-mère) : ensemble des individus que l'on souhaite connaître.

échantillon : ensemble des individus appartenant à la population à propos desquels on produit des données.

Exercice : Identifiez la population et l'échantillon

On souhaite connaître les intentions de vote des électeurs français lors des élections régionales. On réalise un sondage téléphonique. 1000 électeurs sont interrogés.

Échantillonnage (1/2)

Situation idéale pour le statisticien : accès à la population entière.

  • recensement
  • études exhaustives de petites populations

Impossible la plupart du temps :

  • population trop importante
  • délimitation et accès impossible
  • coût de production des données grandit avec la taille de la population et le nombre d'informations collectées => arbitrage entre richesse des données et taille de l'échantillon (entre longueur et largeur de la base de données)

Échantillonnage (2/2)

On recourt donc donc le plus souvent à un échantillonage : étude d'un ensemble restreint d'individus de la population.

Plusieurs types d'échantillonage :

  • aléatoire : tirer au hasard
  • stratifié : sélectionner des sous-populations, puis tirage aléatoire
  • quota : imiter la distribution de variables-clés dans la population

Représentativité

Dans les sciences sociales, les statistiques portent souvent sur des échantillons dont la taille est sensiblement plus faible à celle de la population.

Représentativité : degré de proximité de l'échantillon et de la population au regard des variables mesurées.

La question est alors : peut-on considérer l'échantillon comme une version miniature de la population ?

Une part importante des techniques statistiques visent à estimer la qualité de la généralisation des résultats constatés sur l'échantillon à la population dans son ensemble.