Techniques quantitatives en sciences sociales - Séance 1 Introduction générale

Charles-Éric Adam, Gabriel Alcaras, Samuel Coavoux
28 septembre - 2 octobre 2015

Responsable de la séance : gabriel.alcaras@ens.fr

Objectifs du cours

À la fin de ce cours, il faudra être capable de :

  • Expliquer les concepts de base de la statistique et savoir les mettre en application
  • Donner des exemples d'application des techniques statistiques étudiées
  • Lire et critiquer un article de revue scientifique, un article de presse, etc.

Facultatif :

  • Savoir manipuler des données avec le langage R

Évaluation

La validation comprend deux exercices, comptant chacun pour 50% de la note finale :

Exercice Synthèse critique Examen sur table
Conditions En binôme
15000 signes espaces comprises
Individuel
2h
Contenu Problématiser l'usage des données statistiques par rapport aux enjeux des articles Questions de cours, et lecture critique de documents
Dates Pour la semaine prochaine : avoir formé les groupes et décidé des sujets
Envoi avant le vendredi 20 novembre à 18h
Semaine du 7 décembre

La quantification en sciences sociales

Quelques rappels d'ensemble

Alt text

Pourquoi ne dit-on pas "mesurer" ?

  • “Mesurer” se rapporte à des faits dits “objectifs”. Exemple : mesurer une distance entre deux villes, un courant électrique, etc.
  • “Quantifier” veut dire construire un modèle, avec des hypothèses sous-jacentes, pour saisir certains aspects de la réalité. Exemple : quantifier le chômage, les inégalités sociales, etc.
  • Mais même une simple mesure implique de faire des choix (définition des termes, du dispositif expérimental, des unités de mesure).
  • C'est d'autant plus vrai pour étudier des faits sociaux comme la “réussite scolaire”, le “bonheur”, etc.

À quoi sert la quantification en sciences sociales ?

  • Rendre visible des phénomènes qui ne sont pas forcément perceptibles à l'échelle individuelle. Exemple : Le Suicide, inégalités salariales, etc.
  • Décrire des faits sociaux complexes de manière synthétique (séance 3), et parfois visuelle (séance 8)
  • Faire émerger des corrélations entre deux variables (séances 4, 5, 6)
  • Démêler les influences de plusieurs variables sur une autre dans une approche causale (séance 7)
  • Les dossiers vous donneront un aperçu de la diversité des approches possibles.

Quels sont les outils de la quantification ?

  • Statistique “descriptive” : comptage, moyenne, etc.
  • Statistique “inférentielle” : expliquer des phénomènes.

Alt text

Quelques éléments historiques (1/2)

  • 1789 : les premiers recensements des “citoyens actifs”
  • 1835 : Quetelet, Sur l'homme et le développement de ses facultés, essai d'une physique sociale (théorie de “l'homme moyen”)
  • 1894 : Durkheim, les Règles de la méthode sociologique

[…] c'est la méthode des variations concomitantes qui est l'instrument par excellence de la recherche en sociologie

  • 1930 : Cowles commission, fondation acadamédique de l'économétrie
  • 1960-70 : en histoire, l'école des Annales

Quelques éléments historiques (2/2)

Au tableau croisé de Durkheim dans Le Suicide en 1897 (toujours d'actualité) s'ajoutent…

Alt text

… les méthodes de la statistique du XXème siècle : test d'hypothèses, coefficients de corrélation, régression, etc.

Les sources de données

Alt text

Les données ne sont pas... données

Construire une bonne base de données est très chronophage.

  • Récupération des données
    • Bases publiques (INSEE, INED, CEREQ) ou privées
    • Questionnaires ad hoc (en ligne ou papier)
    • Quantification d'archives
    • Webcrawling (Le Bon Coin), API (Twitter), etc.
  • Recodage (uniformiser les modalités)
  • Sanity checks (traitement des incohérences dans les réponses)

Les données de seconde main

Il est parfois possible de récupérer des bases déjà constituées. Exemples : statistique publique INSEE, réseau Quételet, chercheurs qui partagent leurs bases, fichier des employés d'une entreprise.

Avantages Inconvénients
Gain de temps considérable
Reproductibilté et cumulativité des résultats
Questions trop générales pour des problématiques spécifiques
Questions difficiles à interpréter si on n'a pas participé à la construction du questionnaire
Problèmes d'accès dans le cas de bases publiques sensibles ou privées

Exemple : l'enquête Emploi de l'INSEE

Alt text

Questionnaires ad hoc

Beaucoup de recherches originales se fondent sur des questionnaires créés spécifiquement pour une problématique.

Avantages Inconvénients
Contrôle total de toutes les étapes de création et de distribution qui peuvent informer l'interprétation du résultat Très chronophage
Problèmes d'autorisation (CNIL)
Difficultés de diffusion
Forts taux de non-réponse dans toutes les enquêtes
Recodage pénible, surtout pour les questionnaires papier.

Quantification d'archives

Une méthode moins courante que celle des questionnaires, mais qui est tout aussi intéressante. Exemples : travail sur le courrier du journal Le Monde (Boltanski, 1984), Claire Zalc en histoire, etc.

Avantages Inconvénients
Accès à des sources originales
Contrôle du processus de quantification
Problématique de l'accès physique aux archives
Problèmes d'autorisation, délais légaux
Travail long de recodage et d'uniformisation

Exemple : les réseaux des Médicis

Les réseaux des Médicis

Dans un article de 1993, Padget et Ansell analysent l'ascension de la famille des Médicis au XVème siècle, en reconstituant leurs réseaux (liens financiers, d'amitié, etc.) grâce aux archives de l'époque.

Les "nouvelles" données numériques

La récupération de données numériques est en plein essort, grâce à des algorithmes (webcrawling) ou des stratégies spécifiques (jeux Facebook). Exemples : étude Algopol sur Facebook, etc.

Avantages Inconvénients
Sources encore peu employées
Le volume de données est souvent massif (big data)
Possiblité d'accéder à des populations exhaustives
Coûts d'entrée techniques variables
Beaucoup de données inutilisables
Parfois trop de données (plus de colonnes que de lignes, “n > m”)
Données à visée industrielle et pas de recherche
Flou juridique sur l'utilisation de ces données.

Exemple : les données Vélib'

Présentation rapide de R

Alt text

R en quelques mots

  • Un langage de programmation spécialisé pour la statistique :
    • très puissant
    • relativement simple (pas à destination des informaticiens)
    • manipulations statistiques reproductibles
  • Gratuit et ouvert
    • des extensions à foison (ggplot2, etc.)
    • une communauté active (en anglais et en français)
    • disponible sur tous les OS
  • Utilisé à la fois par les chercheurs et l'industrie

Le fonctionnement de R

  • Des “commandes” R, à éxécution immédiate
1 + 1
[1] 2
  • Une succession de commandes peut être enregistrée dans un fichier.R pour enregistrer le travail statistique
  • Les données sont stockées dans un fichier à part (ex: donnees.csv) puis mises en mémoire dans R
  • Un environnement de développement (avec interface graphique) recommandé : RStudio

Dans ce cours

Les compétences en R ne seront pas évaluées, mais nos présentations sont réalisées dans le format Rpres.

Elles contiennent à la fois le contenu du cours ET les commandes R utilisées.

Alt text

À vous d'essayer de reproduire les résultats du cours !

Quelques exemples du potentiel de R

Pensé pour l'analyse de données

Des fonctions très pratiques, comme summary.

summary(cars)
     speed           dist       
 Min.   : 4.0   Min.   :  2.00  
 1st Qu.:12.0   1st Qu.: 26.00  
 Median :15.0   Median : 36.00  
 Mean   :15.4   Mean   : 42.98  
 3rd Qu.:19.0   3rd Qu.: 56.00  
 Max.   :25.0   Max.   :120.00  

Un langage simple mais puissant (1/2)

Comment visualiser ses données avec un nuage de points, et tracer leur ligne de régression linéaire (séance 7) ?

plot of chunk unnamed-chunk-3

Un langage simple mais puissant (2/2)

Réponse : en seulement trois lignes de code.

regression <- lm(dist ~ speed, data = cars)
plot(cars)
abline(regression)

La facilité de l'automatisation

Exemple : on veut normaliser nos variables (réduire la variance et centrer sur la moyenne).

# On décrit le processus une fois
normaliser <- function(variable) {
  varNorm = (variable - mean(variable)) / sd(variable);
  return(varNorm);
}

# On l'applique à nos variables d'un seul coup
cars$distNorm = normaliser(cars$dist)
cars$speedNorm = normaliser(cars$speed)

Merci !

Pour la semaine prochaine :

  • Avoir constitué les groupes ET avoir choisi son thème pour la synthèse critique
  • Séance #2 : initiation au vocabulaire des statistiques