Charles-Éric Adam, Gabriel Alcaras, Samuel Coavoux
28 septembre - 2 octobre 2015
Responsable de la séance : gabriel.alcaras@ens.fr
À la fin de ce cours, il faudra être capable de :
Facultatif :
La validation comprend deux exercices, comptant chacun pour 50% de la note finale :
| Exercice | Synthèse critique | Examen sur table |
|---|---|---|
| Conditions | En binôme 15000 signes espaces comprises |
Individuel 2h |
| Contenu | Problématiser l'usage des données statistiques par rapport aux enjeux des articles | Questions de cours, et lecture critique de documents |
| Dates | Pour la semaine prochaine : avoir formé les groupes et décidé des sujets Envoi avant le vendredi 20 novembre à 18h |
Semaine du 7 décembre |
[…] c'est la méthode des variations concomitantes qui est l'instrument par excellence de la recherche en sociologie
Au tableau croisé de Durkheim dans Le Suicide en 1897 (toujours d'actualité) s'ajoutent…
… les méthodes de la statistique du XXème siècle : test d'hypothèses, coefficients de corrélation, régression, etc.
Construire une bonne base de données est très chronophage.
Il est parfois possible de récupérer des bases déjà constituées. Exemples : statistique publique INSEE, réseau Quételet, chercheurs qui partagent leurs bases, fichier des employés d'une entreprise.
| Avantages | Inconvénients |
|---|---|
| Gain de temps considérable Reproductibilté et cumulativité des résultats |
Questions trop générales pour des problématiques spécifiques Questions difficiles à interpréter si on n'a pas participé à la construction du questionnaire Problèmes d'accès dans le cas de bases publiques sensibles ou privées |
Beaucoup de recherches originales se fondent sur des questionnaires créés spécifiquement pour une problématique.
| Avantages | Inconvénients |
|---|---|
| Contrôle total de toutes les étapes de création et de distribution qui peuvent informer l'interprétation du résultat | Très chronophage Problèmes d'autorisation (CNIL) Difficultés de diffusion Forts taux de non-réponse dans toutes les enquêtes Recodage pénible, surtout pour les questionnaires papier. |
Une méthode moins courante que celle des questionnaires, mais qui est tout aussi intéressante. Exemples : travail sur le courrier du journal Le Monde (Boltanski, 1984), Claire Zalc en histoire, etc.
| Avantages | Inconvénients |
|---|---|
| Accès à des sources originales Contrôle du processus de quantification |
Problématique de l'accès physique aux archives Problèmes d'autorisation, délais légaux Travail long de recodage et d'uniformisation |
Dans un article de 1993, Padget et Ansell analysent l'ascension de la famille des Médicis au XVème siècle, en reconstituant leurs réseaux (liens financiers, d'amitié, etc.) grâce aux archives de l'époque.
La récupération de données numériques est en plein essort, grâce à des algorithmes (webcrawling) ou des stratégies spécifiques (jeux Facebook). Exemples : étude Algopol sur Facebook, etc.
| Avantages | Inconvénients |
|---|---|
| Sources encore peu employées Le volume de données est souvent massif (big data) Possiblité d'accéder à des populations exhaustives |
Coûts d'entrée techniques variables Beaucoup de données inutilisables Parfois trop de données (plus de colonnes que de lignes, “n > m”) Données à visée industrielle et pas de recherche Flou juridique sur l'utilisation de ces données. |
Source : http://opendata.paris.fr/
1 + 1
[1] 2
Les compétences en R ne seront pas évaluées, mais nos présentations sont réalisées dans le format Rpres.
Elles contiennent à la fois le contenu du cours ET les commandes R utilisées.
À vous d'essayer de reproduire les résultats du cours !
Des fonctions très pratiques, comme summary.
summary(cars)
speed dist
Min. : 4.0 Min. : 2.00
1st Qu.:12.0 1st Qu.: 26.00
Median :15.0 Median : 36.00
Mean :15.4 Mean : 42.98
3rd Qu.:19.0 3rd Qu.: 56.00
Max. :25.0 Max. :120.00
Comment visualiser ses données avec un nuage de points, et tracer leur ligne de régression linéaire (séance 7) ?
Réponse : en seulement trois lignes de code.
regression <- lm(dist ~ speed, data = cars)
plot(cars)
abline(regression)
Exemple : on veut normaliser nos variables (réduire la variance et centrer sur la moyenne).
# On décrit le processus une fois
normaliser <- function(variable) {
varNorm = (variable - mean(variable)) / sd(variable);
return(varNorm);
}
# On l'applique à nos variables d'un seul coup
cars$distNorm = normaliser(cars$dist)
cars$speedNorm = normaliser(cars$speed)