Gabriel Alcaras
02 octobre 2017
Construire une bonne base de données est très chronophage.
Il est parfois possible de récupérer des bases déjà constituées. Exemples : statistique publique INSEE, réseau Quételet, chercheurs qui partagent leurs bases, fichier des employés d'une entreprise.
| Avantages | Inconvénients |
|---|---|
| Gain de temps considérable Reproductibilté et cumulativité des résultats |
Questions trop générales pour des problématiques spécifiques Questions difficiles à interpréter si on n'a pas participé à la construction du questionnaire Problèmes d'accès dans le cas de bases publiques sensibles ou privées |
Beaucoup de recherches originales se fondent sur des questionnaires créés spécifiquement pour une problématique.
| Avantages | Inconvénients |
|---|---|
| Contrôle total de toutes les étapes de création et de distribution qui peuvent informer l'interprétation du résultat | Très chronophage Problèmes d'autorisation (CNIL) Difficultés de diffusion Forts taux de non-réponse dans toutes les enquêtes Recodage pénible, surtout pour les questionnaires papier. |
La récupération de données numériques est en plein essort, grâce à des algorithmes (webcrawling) ou des stratégies spécifiques (jeux Facebook). Exemples : étude Algopol sur Facebook, etc.
| Avantages | Inconvénients |
|---|---|
| Sources encore peu employées Le volume de données est souvent massif (big data) Possiblité d'accéder à des populations exhaustives |
Coûts d'entrée techniques variables Beaucoup de données inutilisables Parfois trop de données (plus de colonnes que de lignes, “n > m”) Données à visée industrielle et pas de recherche Flou juridique sur l'utilisation de ces données. |
Source : http://opendata.paris.fr/
Les données issues d'observations sont surtout présentes dans les sciences naturelles, mais existent également dans les sciences sociales. Elles sont souvent adossées à des méthodes ethnographiques, et emploient principalement le comptage et le chronométrage
| Avantages | Inconvénients |
|---|---|
| Données comportementales plutôt que déclaratives Contrôle important du chercheur sur la production des données |
Données fortements localisées Recueil coûteux en temps |
Source : Jean-Claude Passeron, Emmanuel Pedler, “Le temps donné aux tableaux”, Protée, 1999
Une méthode moins courante que celle des questionnaires, mais qui est tout aussi intéressante. Exemples : travail sur le courrier du journal Le Monde (Boltanski, 1984), Claire Zalc en histoire, etc.
| Avantages | Inconvénients |
|---|---|
| Accès à des sources originales Contrôle du processus de quantification |
Problématique de l'accès physique aux archives Problèmes d'autorisation, délais légaux Travail long de recodage et d'uniformisation |
Dans un article de 1993, Padget et Ansell analysent l'ascension de la famille des Médicis au XVème siècle, en reconstituant leurs réseaux (liens financiers, d'amitié, etc.) grâce aux archives de l'époque.
population (ou population-mère) : ensemble des individus que l'on souhaite connaître.
échantillon : ensemble des individus appartenant à la population à propos desquels on produit des données.
Exercice : Identifiez la population et l'échantillon
On souhaite connaître les intentions de vote des électeurs français lors des élections régionales. On réalise un sondage téléphonique. 1000 électeurs sont interrogés.
Situation idéale pour le statisticien : accès à la population entière.
Impossible la plupart du temps :
On recourt donc donc le plus souvent à un échantillonage : étude d'un ensemble restreint d'individus de la population.
Plusieurs types d'échantillonage :
Dans les sciences sociales, les statistiques portent souvent sur des échantillons dont la taille est sensiblement plus faible à celle de la population.
Représentativité : degré de proximité de l'échantillon et de la population au regard des variables mesurées.
La question est alors : peut-on considérer l'échantillon comme une version miniature de la population ?
Une part importante des techniques statistiques visent à estimer la qualité de la généralisation des résultats constatés sur l'échantillon à la population dans son ensemble.