Enseignant : Gabriel Alcaras · gabriel.alcaras@ehess.fr
Amphitéâtre Curien - PSL, 62 bis rue Gay Lussac, 75005 Paris
Vendredi, 13h15-15h15
Attention ! Ce syllabus est temporaire, et sera modifié tout au long du semestre. Je vous invite à y revenir fréquemment.
Objectifs du cours
Bénéficier d’une culture statistique n’a peut-être jamais été aussi nécessaire qu’aujourd’hui. De la reconnaissance d’image automatique sur Facebook aux chiffres du chômage, des sondages d’opinion à la détection des ondes gravitationnelles, les données et leurs interprétations font désormais partie de nos sociétés modernes :
- En tant que citoyen·ne·s, nous percevons notamment les élections à travers des sondages « représentatifs » et les problèmes de notre société par l’intermédiaire des chiffres du chômage ou de la proportion de pratiquants d’une religion.
- En tant qu’internautes, nous nous exposons aux données apparentes des réseaux sociaux (nombre de likes sur un statut) tandis que des algorithmes, qui combinent des méthodes statistiques avec l’informatique, influencent le contenu même des pages que nous visitons.
- Quand les chiffres font irruption dans un débat politique, ils sont souvent complètement inventés ou extirpés de leur contexte.
- Quant aux médias, qui dédient de plus en plus de ressources au data journalism, ils relaient bien souvent des résultats contradictoires, stipulant un jour que le chocolat noir provoque le cancer, le lendemain qu’il en préserve.
- En tant que scientifiques, l’usage de données et de techniques statistiques est au cœur du processus de production du savoir, il est indistinct du principe d’expérience naturelle ou d’observation.
L’objectif de ce cours est de fournir les bases d’une compréhension critique des données et de leur interprétation. Pour ce faire, nous tirerons parti de deux approches :
Nous consacrerons une bonne partie du cours à l’étude de notions statistiques de base : corrélation, causalité, inférence, test d’hypothèse, etc. Ces notions seront abordées non pas à travers le prisme du formalisme mathématique, mais de la compréhension intuitive des techniques employées. Nous joindrons la théorie à la pratique, en travaillant sur une petite enquête qui sera produite de A à Z par les étudiant·e·s au cours du semestre.
Nous apporterons également les éclairages produits par les sciences sociales sur ce qu’il convient d’appeler la quantification : peut-on percevoir la « réalité » à travers des catégories statistiques ? Quels sont les liens entre pouvoir, politique et quantification ?
Organisation du cours
Séance 1 : introduction générale
Support de cours : http://rpubs.com/gabrielalcaras/cpes_s1
Nous commencerons ce cours par une brève présentation de la discipline statistique. Qu’appelle-t-on « quantification » ou « statistique » ? Quels sont les enjeux scientifiques de la quantification ?
Séance 2 : la statistique comme outil d’objectivation
Support de cours : http://rpubs.com/gabrielalcaras/cpes_s2
À faire pour la séance :
Programme de la séance :
- Des sciences expérimentales aux sciences sociales, quel rôle pour la statistique ?
- Les statistiques, une rupture épistémologique avec les prénotions
- Décrire le réel ou les lois qui le régissent ? Statistique descriptive et statistique inférentielle (corrélation, causalité)
- Enquête suivie : discussion collective sur la problématique.
Séance 3 : du questionnement scientifique à l’enquête
À faire pour la séance :
- Prendre connaissance des questionnaires Histoire de vies. Quelles sont les différents types de questions que vous identifiez ? Y a-t-il des choses qui vous étonnent ?
- Rédiger deux questions selon la répartition établie en cours.
Programme de la séance :
- Prendre connaissance des questionnaires distribués, identifier les types de questions posées et les variables sous-jacentes
- Enquête suivie : création collective du questionnaire.
Lectures recommandées :
- François de Singly, Le questionnaire. L’enquête et ses méthodes (3e édition), Armand Colin, coll. « 128 », 2012. Chapitres 2 à 4.
- Fanny Bugeja-Bloch, Marie-Paule Couto, Les méthodes quantitatives, Paris, PUF, series: « Que sais-je ? », 2015. Chapitres 2 et 3.
Séance 4 : élaboration du questionnaire
Programme de la séance : élaboration du questionnaire.
Séance 5 : enquêter sur une population
À faire pour la séance : Lire Bessière Céline, Houseaux Frédérique. « Suivre des enquêteurs » In: Genèses, 29, 1997, pp. 100-114. URL : http://www.persee.fr/doc/genes_1155-3219_1997_num_29_1_1482
Programme de la séance :
- Rappel sur les différents types de données en sciences humaines et sociales
- Familiarisation et finition du questionnaire définitif
- Discussion sur les conditions de passation d’un questionnaire
Séance 6 : vocabulaire statistique
Support de cours : http://rpubs.com/gabrielalcaras/cpes_s6
À faire pour la séance : ramener au moins 1 questionnaire rempli.
Programme de la séance :
- Vocabulaire élémentaire (variables, modalités, individus, etc.)
- Passer du questionnaire à la base de données en élaborant un masque de saisie
Séance 7 : introduction à l’analyse de données avec R
Support de cours : http://rpubs.com/gabrielalcaras/cpes_s7
À faire pour la séance : ramener au moins 3 questionnaires remplis.
Programme de la séance :
- Enquête suivie : familiarisation avec le masque de saisie
- Installation de R et RStudio, initiation à l’interface et aux rudiments du langage
Saisie des données
Consignes générales :
- Toutes les cases doivent contenir une valeur (NA si la question est sans réponse ou n’a pas été posée)
- Ne mentionnez pas les unités quand les valeurs sont numériques (60mn => 60, 300€ => 300)
- Dans les questions ouvertes, utilisez un “/” pour séparer les différents plats ou aliments cités
- Dans la mesure du possible, respectez les menus déroulants lorsqu’ils sont présents
- Les variables issues des questions à choix multiples doivent se coder 0 (non coché), 1 (coché). Si la personne n’a pas répondu à la question : NA à toutes les variables.
- Pour les champs “autre” (par exemple plat.autre), il faut remplir NA si la personne n’a pas donné d’autres options, ou mettre directement ce que la personne a suggéré comme autres options.
- Lorsque les données ne sont pas correctement formatées, un triangle rouge s’affiche dans la case concernée. Des consignes sont disponibles lorsque vous survolez le triangle avec votre souris. Essayez autant que possible de vous conformer aux consignes affichées.
Consignes précises :
- La variable “cuisine.temps” doit être exprimée en minutes
- La variable “ne.ville” doit donner le pays si la personne n’est pas née en France. Si la personne est née à Paris, donner l’arrondissement avec des chiffres arabes (“Paris 15”)
- Pour les valeurs numériques, comme “course.prix”, les décimales sont indiquées avec un point (“34.5” au lieu de “34,5”)
Séance 8 : explorer une base de données
Support de cours : http://rpubs.com/gabrielalcaras/cpes_quanti_s8
À faire pour la séance : avoir saisi ses questionnaires dans la base de données.
Programme de la séance : data.frame, importation de données, statistique descriptive univariée.
Séance 11 : inférence statistique (suite et fin)
À faire pour la séance :
- Rendre le compte-rendu d’enquête
Programme de la séance :
- Implémentation concrète du test de khi-deux
- Interprétation et limite des tests d’hypothèse
Séance 12 : séance libre
Programme de la séance :
- Bilan du semestre
- Révisions collectives
Validation du semestre
Validation
| Assiduité |
Prérequis |
|
| Enquête collective |
50 % |
Réalisation d’une petite enquête quantitative avec le groupe |
| Examen en classe |
50 % |
Examen sur le logiciel R |
Évaluation sur la participation à l’enquête collective :
- Participer à l’élaboration du questionnaire
- Avoir diffusé et rempli au moins 3 questionnaires pour la séance 5
- Saisir les réponses dans la base de données pour la séance 6
- Rendre un compte-rendu d’enquête pour la séance 11
Compte-rendu d’enquête
Objectif du compte-rendu. Vous devez proposer un bilan sur les différentes étapes de l’enquête (de l’élaboration de la problématique et du questionnaire au traitement des données) ainsi qu’une réflexion personnelle et critique sur ce processus de quantification.
Le texte est à envoyer le 2 janvier 2017 au plus tard, via le lien suivant : https://www.dropbox.com/request/clUiq8USKlursGQcmbs6. Indiquez clairement vos nom, prénom et adresses emails dans les champs proposés.
Consignes de forme. À respecter sous peine de pénalités :
- Format du texte :
.doc, .docx ou .odt. Les documents rendus dans un autre format s’exposent à une pénalité d’un point.
- Longueur : 8000 signes, espaces comprises, avec une tolérance de +/- 10% (intervalle de \([7200 ; 8800]\)). Pénalité de 1 point tous les 10% supplémentaires. Exemple : un devoir rendu avec 10 000 signes s’expose à une pénalité de \((10000-8800)/800 = 1200/800 = 1,5\) points.
- Retard : chaque jour de retard équivaut à 1 point de pénalité.
Attentes. Votre travail doit se concentrer avant tout sur trois étapes de l’enquête :
- L’élaboration du questionnaire
- La diffusion du questionnaire et sa saisie sous forme de bases de données
- L’exploration de la base de données. J’attends en particulier que vous formuliez des hypothèses en utilisant au moins une fois :
- un élément de statistique univariée
- un élément de statistique bivariée
Conseils :
- Essayez de couvrir un large éventail des problématiques étudiées en cours : construction d’une problématique ; traduction d’interrogations en questions de recherche puis sa concrétisation dans un questionnaire papier ; expériences réflexives sur la passation du questionnaire ; exploration préliminaire de la base de données ; formulation d’hypothèses sur le lien entre variables ; objectivation de phénomènes ; construction de variables… Les pistes ne manquent pas !
- Votre propos doit être structuré, argumenté et illustré par votre expérience d’enquête. Ne parlez pas d’alimentation ou de quantification en général ; rapportez vos idées et vos thèses à des exemples précis. Je vous encourage à adopter une démarche personnelle (Aviez-vous des attentes par rapport à cette enquête ou à ses résultats ? Ont-elles été remises en question ou confirmées ? etc.) pour appuyer des propos plus généraux.
- La limite de caractères est là pour vous contraindre à aller à l’essentiel. Essayez d’être concis et évitez les digressions (par exemple sur l’alimentation “en général” ou sur les statistiques “dans notre société”). N’essayez pas de parler de tout, choisissez ce qui vous semble le plus riche pour une réflexion personnelle.
- Dans votre développement, vous devez autant que possible accompagner une pratique de la quantification (par exemple, faire un tableau croisé et l’interpréter) d’une réflexion sur cette dernière (par exemple, les catégories des variables du tableau sont-elles vraiment homogènes ?). De manière générale, évitez les oppositions grossières subjectif / objectif ; vrai / faux ; politique / scientifique. J’attends une réflexion plus nuancée !
Examen final
Cet examen, d’une durée de deux heures, demandera de reproduire une analyse de données complète, en autonomie, avec l’aide du logiciel R. Les conditions de l’examen seront précisées au fur et à mesure du semestre.