Automne 2016
Donnée : information sur un individu.
Individu : unité statistique fondamentale. Entité à propos de laquelle on collecte des informations (également observation).
Variable : série de données collectée sur un ensemble d'individu, renseignant la même information.
On interroge trois personnes :
Exercice : Dans cet exemple, identifiez :
Série de variables à propos des mêmes individus.
Une base de donnée est un tableau contenant :
Population (ou population-mère) : ensemble des individus que l'on souhaite connaître.
Échantillon : ensemble des individus appartenant à la population à propos desquels on produit des données.
Situation idéale pour le statisticien : accès à la population entière.
Impossible la plupart du temps :
On recourt donc donc le plus souvent à un échantillonage : étude d'un ensemble restreint d'individus de la population.
Types d'échantillonnage :
Dans les sciences sociales, les statistiques portent souvent sur des échantillons dont la taille est sensiblement plus faible à celle de la population.
Représentativité : degré de proximité de l'échantillon et de la population au regard des variables mesurées.
La question est alors : peut-on considérer l'échantillon comme une version miniature de la population ?
Une part importante des techniques statistiques visent à estimer la qualité de la généralisation des résultats constatés sur l'échantillon à la population dans son ensemble.
Individu au sens statistique est une entité, mais pas nécessairement une personne.
Autres possibilités fréquentes
Mais aussi plus généralement une unité d'observation
Données brutes : séries de valeurs associées à des individus. Informations telles qu'elles sont recueillies.
Données agrégées : chiffres produits par une analyse de donnée.
Dans le langage courant, on utilise souvent le terme "donnée" dans le second sens.
Exemple : un sondage mesure les intentions de vote d'un échantillon d'électeurs lors de la prochaine élection. On qualifiera de donnée l'affirmation "15 % des électeurs interrogés affirment vouloir voter pour le candidat X." Il s'agit d'une donnée agrégée
Quelle est la nature de l'information récoltée ?
Également variable nominale ou variable catégorielle. Les valeurs sont des catégories.
Modalités = ensemble des valeurs possibles pour une variable qualitative.
Cas particulier :
variables qualitatives ordonnées (parfois opposées aux variables catégorielles) = les modalités peuvent être classées dans un ordre logique.
Mesure numérique. Composée d'une mesure (un nombre) et d'une unité.
Variable quantitative discrète : nombre restreint de valeurs possibles.
Variable quantitative continue : nombre de valeurs possibles important.
En sciences humaines et sociales, de nombreuses bases de données sont produites par questionnaire (statistique publique, etc.).
En règle générale :
Mais ce n'est pas toujours le cas :
Recensement :
Une personne du ménage remplit le questionnaire. Deux bases de données sont produites :
Les questions à choix multiples apparaissent dans les bases de données comme autant de variables qu'il existe de choix possibles.
Nous allons maintenant parler de vos sorties. Je vais vous montrer une liste, dîtes-moi celles qu'il vous arrive de faire le SOIR, que ce soit le soir en semaine ou le soir en week-end. (Source: Enquête pratiques culturelles des Français, 2008)
Peuvent apparaître dans les bases de données dans une colonne, mais ne constituent pas une variable. Il est nécessaire de les nettoyer.
Plusieurs raisons :
Souvent "codées" comme des réponses, et différenciées (nsp, refus de répondre, manquant). Dans l'analyse, choix nécessaire : les inclure, les ignorer, les transformer.