Méthodes quantitatives

Gabriel Alcaras
02 octobre 2017

Séance 4 - Les sources de données

Tour d'horizon des différentes sources de données
Le choix des individus : population et échantillonnage
Pratique : manipulation de bases sur R

Tour d'horizon des différentes sources de données

Les données ne sont pas... données

Construire une bonne base de données est très chronophage.

Récupération des données
- Bases publiques (INSEE, INED, CEREQ) ou privées
- Questionnaires ad hoc (en ligne ou papier)
- Quantification d'archives
- Webcrawling (Le Bon Coin), API (Twitter), etc.
- Observation quantifiée
Recodage (uniformiser les modalités)
Sanity checks (traitement des incohérences dans les réponses)

Les données de seconde main

Il est parfois possible de récupérer des bases déjà constituées. Exemples : statistique publique INSEE, réseau Quételet, chercheurs qui partagent leurs bases, fichier des employés d'une entreprise.

Avantages	Inconvénients
Gain de temps considérable Reproductibilté et cumulativité des résultats	Questions trop générales pour des problématiques spécifiques Questions difficiles à interpréter si on n'a pas participé à la construction du questionnaire Problèmes d'accès dans le cas de bases publiques sensibles ou privées

Exemple : l'enquête Histoire de Vie de l'INSEE

Questionnaires ad hoc

Beaucoup de recherches originales se fondent sur des questionnaires créés spécifiquement pour une problématique.

Avantages	Inconvénients
Contrôle total de toutes les étapes de création et de distribution qui peuvent informer l'interprétation du résultat	Très chronophage Problèmes d'autorisation (CNIL) Difficultés de diffusion Forts taux de non-réponse dans toutes les enquêtes Recodage pénible, surtout pour les questionnaires papier.

Les "nouvelles" données numériques

La récupération de données numériques est en plein essort, grâce à des algorithmes (webcrawling) ou des stratégies spécifiques (jeux Facebook). Exemples : étude Algopol sur Facebook, etc.

Avantages	Inconvénients
Sources encore peu employées Le volume de données est souvent massif (big data) Possiblité d'accéder à des populations exhaustives	Coûts d'entrée techniques variables Beaucoup de données inutilisables Parfois trop de données (plus de colonnes que de lignes, “n > m”) Données à visée industrielle et pas de recherche Flou juridique sur l'utilisation de ces données.

Exemple : les données Vélib'

Source : http://opendata.paris.fr/

Les données observationnelles

Les données issues d'observations sont surtout présentes dans les sciences naturelles, mais existent également dans les sciences sociales. Elles sont souvent adossées à des méthodes ethnographiques, et emploient principalement le comptage et le chronométrage

Avantages	Inconvénients
Données comportementales plutôt que déclaratives Contrôle important du chercheur sur la production des données	Données fortements localisées Recueil coûteux en temps

Exemple : les visiteurs du musée Granet

Source : Jean-Claude Passeron, Emmanuel Pedler, “Le temps donné aux tableaux”, Protée, 1999

Quantification d'archives

Une méthode moins courante que celle des questionnaires, mais qui est tout aussi intéressante. Exemples : travail sur le courrier du journal Le Monde (Boltanski, 1984), Claire Zalc en histoire, etc.

Avantages	Inconvénients
Accès à des sources originales Contrôle du processus de quantification	Problématique de l'accès physique aux archives Problèmes d'autorisation, délais légaux Travail long de recodage et d'uniformisation

Exemple : les réseaux des Médicis

Les réseaux des Médicis

Dans un article de 1993, Padget et Ansell analysent l'ascension de la famille des Médicis au XVème siècle, en reconstituant leurs réseaux (liens financiers, d'amitié, etc.) grâce aux archives de l'époque.

Exemple : la base de données Titanic

$Survie des passagers du Titanic$

Choisir des individus : population et échantillonnage

Population et échantillon

population (ou population-mère) : ensemble des individus que l'on souhaite connaître.

échantillon : ensemble des individus appartenant à la population à propos desquels on produit des données.

Exercice : Identifiez la population et l'échantillon

On souhaite connaître les intentions de vote des électeurs français lors des élections régionales. On réalise un sondage téléphonique. 1000 électeurs sont interrogés.

Échantillonnage (1/2)

Situation idéale pour le statisticien : accès à la population entière.

recensement
études exhaustives de petites populations

Impossible la plupart du temps :

population trop importante
délimitation et accès impossible
coût de production des données grandit avec la taille de la population et le nombre d'informations collectées => arbitrage entre richesse des données et taille de l'échantillon (entre longueur et largeur de la base de données)

Échantillonnage (2/2)

On recourt donc donc le plus souvent à un échantillonage : étude d'un ensemble restreint d'individus de la population.

Plusieurs types d'échantillonage :

aléatoire : tirer au hasard
stratifié : sélectionner des sous-populations, puis tirage aléatoire
quota : imiter la distribution de variables-clés dans la population

Représentativité

Dans les sciences sociales, les statistiques portent souvent sur des échantillons dont la taille est sensiblement plus faible à celle de la population.

Représentativité : degré de proximité de l'échantillon et de la population au regard des variables mesurées.

La question est alors : peut-on considérer l'échantillon comme une version miniature de la population ?

Une part importante des techniques statistiques visent à estimer la qualité de la généralisation des résultats constatés sur l'échantillon à la population dans son ensemble.