Présentation

La statistique descriptive est une branche de la statistique qui consiste à décrire et à résumer les caractéristiques importantes d’un ensemble de données. Elle permet de synthétiser des données complexes en utilisant des outils tels que des tableaux, des graphiques et des mesures de tendance centrale, de dispersion et de forme.

L’objectif principal de la statistique descriptive est de fournir une compréhension claire des données et de permettre des comparaisons entre différentes variables ou différents groupes de données. Cela peut aider à identifier des tendances, des modèles, des écarts dans les données, et à prendre des décisions éclairées en conséquence.

L’histoire de la statistique descriptive remonte à l’Antiquité, lorsque les Égyptiens utilisaient des méthodes statistiques pour estimer les rendements des cultures et les populations animales. Les Romains ont également utilisé des méthodes statistiques pour estimer les populations et les recettes fiscales.

Au Moyen Âge, les marchands européens utilisaient des méthodes statistiques pour suivre les tendances du marché.

Au XVIIe siècle, John Graunt a publié le premier livre sur la mortalité statistique en Angleterre, dans lequel il a utilisé des méthodes statistiques pour estimer la probabilité de décès à différents âges.

Au XVIIIe siècle, la statistique a connu un développement important grâce aux travaux de Carl Friedrich Gauss, qui a développé la méthode des moindres carrés pour ajuster des données expérimentales.

Au XIXe siècle, Adolphe Quetelet a publié des travaux sur la statistique sociale, qui ont établi les bases de la démographie.

Au XXe siècle, la statistique a connu une évolution rapide grâce à l’utilisation de l’informatique et à l’essor de la théorie des probabilités et des distributions statistiques. Des statisticiens tels que Ronald Fisher, Jerzy Neyman et Abraham Wald ont développé des méthodes pour l’inférence statistique, c’est-à-dire la capacité à tirer des conclusions sur une population à partir d’un échantillon.

Aujourd’hui, la statistique descriptive est largement utilisée dans de nombreux domaines, tels que la finance, l’économie, la médecine, la biologie, la psychologie et les sciences sociales, pour analyser et comprendre les données numériques.

Les moyens de la statistique descriptive incluent:

Les graphiques, tels que les histogrammes, les boîtes à moustaches et les diagrammes en barres, qui permettent de visualiser les données de manière claire et concise.

Les tableaux, tels que les tableaux de fréquence et les tableaux croisés, qui permettent de résumer les données de manière structurée.

Les mesures de tendance centrale, telles que la moyenne, la médiane et le mode, qui représentent le centre des données.

Les mesures de dispersion, telles que l’écart-type et la plage interquartile, qui représentent la variabilité des données.

Les mesures de forme, telles que la symétrie et l’aplatissement, qui décrivent la distribution des données.

Les variables sont des caractéristiques mesurables ou observables qui peuvent varier d’un individu à l’autre, telles que l’âge, le sexe, le niveau d’éducation, etc. Les données statistiques sont des valeurs numériques ou des descriptions qui sont collectées pour chaque individu sur une ou plusieurs variables. Les tableaux sont des représentations visuelles de ces données, qui peuvent être organisées en lignes et en colonnes pour faciliter leur analyse. Les effectifs sont le nombre d’individus qui ont une certaine valeur pour une variable donnée.

Les principaux chapitres de statistique descriptive :

Introduction aux statistiques : Ce chapitre explique les concepts fondamentaux des statistiques, tels que les données, les variables, les typ es de données, les mesures de position centrale et de dispersion, ainsi que les techniques de collecte et d’analyse de données.

Analyse univariée : Ce chapitre traite de l’analyse des données d’une seule variable, en utilisant des techniques telles que la fréquence, la moyenne, la médiane, le mode, l’écart-type, la variance, etc.

Analyse bivariée : Ce chapitre traite de l’analyse de deux variables et de leur relation, en utilisant des techniques telles que le coefficient de corrélation, la régression linéaire, les diagrammes de dispersion, etc.

Série chronologique: Ce chapitre traite une série chronique de données qui est collectée sur une période de temps régulière et qui est utilisée pour étudier l’évolution des phénomènes au fil du temps. Pour analyser une série chronique à l’aide de la statistique descriptive, on peut commencer par représenter graphiquement les données à l’aide d’un graphique chronologique. Les mesures statistiques telles que la moyenne, la médiane, l’écart-type, la variance, etc., peuvent également être utilisées pour résumer les caractéristiques importantes de la série chronique.

Ces chapitres de statistique descriptive couvrent une grande partie des connaissances fondamentales nécessaires pour analyser et comprendre les données.

Elle peut être appliquée à de nombreux domaines, y compris :

En somme, la statistique descriptive peut être appliquée à une grande variété de domaines et peut aider à mieux comprendre les données et les tendances qui y sont associées.

Chapitre 1. Vocabulaire de la statistique descriptive

Ce chapitre introductif est consacré à la définition des différents termes qui en constituent le vocabulaire de base.

## Column

Cours

Définition de la statistique descriptive

Il existe de nombreuses définitions de la statistique descriptive, celle que nous donnons ici est celle de Bernard PY,dans son livre Statistique descriptive, nouvelle méthode pour bien comprendre et réussir (éditions Economica) : « La statistique descriptive est un ensemble de méthodes permettant de décrire et d’analyser, de façon quantifiée, des phénomènes repérés par des éléments nombreux, de même nature, susceptibles d’être dénombrés et classés. »

La statistique descriptive contient des outils d’investigation et de mesure des données chiffrées pour décrire (faire des tableaux, des graphiques, calculer des moyennes) et analyser (faire ressortir la signification) de façon quantifiée, des phénomènes repérés par des éléments nombreux.

La statistique descriptive appartient à un ensemble plus vaste, la statistique générale, qui se divise en deux branches : statistique descriptive et la statistique mathématique (ou statistique “inférentielle”), dont l’objet est de formuler des lois de comportement à partir d’observation souvent incomplètes. Cette dernière s’appuie non seulement sur la statistique descriptive, mais aussi sur le calcul des probabilités.

DESCRIPTION D’UNE POPULATION/ECHANTILLON

  1. unités statistiques: font référence aux éléments individuels d’une population étudiée. Ces unités peuvent être des personnes, des entreprises, des animaux, des plantes ou tout autre objet ou phénomène qui fait l’objet d’une étude statistique.

  2. Population: est l’ensemble des unités statistiques que l’on souhaite étudier. Cette population peut être finie ou infinie. Dans une étude statistique, il est important de définir clairement la population étudiée, car les résultats obtenus ne peuvent être généralisés qu’à cette population.

  3. Échantillon: est un sous-ensemble de la population étudiée. Les données collectées à partir de l’échantillon sont utilisées pour estimer les caractéristiques de la population. Un échantillon doit être choisi de manière aléatoire pour être représentatif de la population et éviter un biais de sélection. La taille de l’échantillon dépend de la précision souhaitée pour les estimations et de la variabilité de la population.

Caractère et variable

En statistique, un caractère est une propriété ou une mesure d’un individu ou d’un objet que l’on souhaite étudier. Par exemple, dans une étude sur la population, le caractère peut être l’âge, le sexe, la taille, le poids, le niveau d’éducation, etc.

Une variable statistique est une caractéristique qui peut prendre différentes valeurs pour chaque individu ou objet dans l’étude. Les valeurs que peut prendre une variable sont appelées modalités.

Il existe deux types de variables statistiques : les variables qualitatives et les variables quantitatives.

  1. Les variables qualitatives sont des variables qui prennent des valeurs catégorielles ou nominales. Ces dernières ne peuvent pas être ordonnées (sexe, couleur des yeux, type de voiture, état civil, etc.).

  2. Les variables quantitatives sont des variables qui prennent des valeurs numériques et qui peuvent être mesurées. Elles peuvent être continues (salaire, taille, âge, …) ou discrètes (nombre d’enfants par famille, nombre de personnes dans un ménage, …).

Effectifs et fréquences

L’effectif absolu correspond au nombre total d’observations dans un ensemble de données, tandis que la fréquence absolue correspond au nombre d’observations pour une valeur particulière divisé par l’effectif total.

La relation entre l’effectif absolu et la fréquence absolue est donc que la fréquence absolue est obtenue en divisant l’effectif absolu d’une valeur par l’effectif total.

Par exemple, si nous avons un ensemble de données contenant 100 observations et que 30 d’entre elles ont une valeur de 5, l’effectif absolu pour la valeur 5 est de 30 et la fréquence absolue est de 30/100 = 0,3 ou 30%. Cela signifie que la valeur 5 représente 30% de toutes les observations dans l’ensemble de données.

L’effectif relatif et la fréquence relative sont deux mesures statistiques couramment utilisées pour décrire la distribution d’une variable quantitative dans un ensemble de données.

L’effectif relatif d’une classe est défini comme le nombre d’observations dans cette classe divisé par le nombre total d’observations dans l’ensemble de données. En d’autres termes, il s’agit de la proportion de l’effectif total représentée par cette classe. La formule de calcul de l’effectif relatif est la suivante :

Effectif relatif = Effectif de la classe / Effectif total

La fréquence relative d’une classe est définie comme l’effectif relatif multiplié par 100. En d’autres termes, il s’agit de la proportion de l’effectif total représentée par cette classe, exprimée en pourcentage. La formule de calcul de la fréquence relative est la suivante :

Fréquence relative = Effectif relatif x 100

Il est important de noter que la somme des fréquences relatives pour toutes les classes doit être égale à 100%, puisque la totalité des observations de l’ensemble de données est représentée.

Modalités

Les modalités sont des catégories ou des valeurs distinctes qui peuvent être utilisées pour décrire une variable.

  1. Modalités nominales: sont des catégories qui n’ont pas d’ordre ou de hiérarchie particulière. Elles sont utilisées pour décrire des variables qualitatives, telles que le sexe (masculin ou féminin), la couleur des yeux (bleu, vert, marron, etc.) ou la nationalité (française, allemande, espagnole, etc.). Les modalités nominales peuvent être codées numériquement, mais l’ordre des chiffres n’a aucune signification. Par exemple, si vous utilisez 1 pour représenter “homme” et 2 pour représenter “femme”, cela ne signifie pas que les femmes sont “plus grandes” que les hommes.

  2. Modalités ordinales: ont une hiérarchie ou un ordre naturel. Elles sont utilisées pour décrire des variables qualitatives, mais les modalités ont un sens ordinal ou relatif. Par exemple, le niveau d’éducation peut être décrit par les modalités “primaire”, “secondaire”, “tertiaire” et “supérieur”. Dans ce cas, les modalités ont un ordre logique et chaque niveau est considéré comme étant “supérieur” à celui qui le précède. Les modalités ordinales peuvent également être codées numériquement, mais l’ordre des chiffres a une signification. Par exemple, si vous utilisez 1 pour représenter “primaire”, 2 pour représenter “secondaire”, 3 pour représenter “tertiaire” et 4 pour représenter “supérieur”, cela signifie que les niveaux d’éducation augmentent avec l’augmentation du chiffre.

Schéma récapitulatif

Le Schéma ci-dessous récapitule les différentes sortes de données que l’on rencontre en statistique, en partant de la distinction fondamentale entre données qualitatives et données quantitatives.

Taux de croissance

  1. Définition

Le taux de croissance est très utilisé en statistique et, plus généralement, en économie. Il se définit ainsi :

\[ \tau=\frac{\text { Valeur d'arrivée }}{\text { Valeur de départ }}-1 \] Si on désigne par \(\mathrm{V}_0=\) valeur de départ d’une grandeur économique et \(\mathrm{V}_{\mathrm{t}}=\) sa valeur d’arrivée. On a : \[ \tau_{t/0}=\frac{V_t}{V_0}-1=\frac{V_t-V_0}{V_0} \] Le rapport \(\mathrm{V}_{\mathrm{t}} / \mathrm{V}_0\) est appelé multiplicateur. Dès lors, on peut écrire : \[ \tau=\text { multiplicateur }-1 \] Ou encore : \[ \text { multiplicateur }=1+\tau \] 2. Évolutions successives

Soient \(\tau_1, \tau_2, \ldots, \tau_{\mathrm{t}}\) des taux de croissance successifs. Le taux de croissance global sur la période \(1, \ldots\), t est : \[ \tau=\left(1+\tau_1\right)\left(1+\tau_2\right) \ldots\left(1+\tau_n\right)-1 \] Exemple : soit une hausse de \(5 \%\) suivie d’une hausse de \(2 \%\), puis d’une baisse de \(3 \%\). Quel est le taux de croissance global (sur les 3 périodes) ? \[ \tau=(1+0,05)(1+0,02)(1-0,03)-1=0,03887 \] 3. Taux de croissance moyen

Soient \(\tau_1, \tau_2, \ldots, \tau_{\mathrm{t}}\) des taux de croissance successifs. Le taux de croissance moyen sur la période \(1, \ldots, t\) est : \[ \bar{\tau}=\sqrt[t]{(1+\tau)}-1 \] C’est-à-dire : \[ \bar{\tau}=(1+\tau)^{\frac{1}{t}}-1 \] Exemple : soit une grandeur qui a augmenté successivement de \(\tau_1=10 \%,~ \tau_2=20 \%\) et \(\tau_3=40 \%\) sur 3 ans. Son taux d’accroissement global est : \[ \tau=(1+0,1)(1+0,2)(1+0,4)-1=0,848 \] Et son taux de croissance moyen sur les trois périodes : \[ \bar{\tau}=(1+\tau)^{\frac{1}{3}}-1=1,848^{\frac{1}{3}}-1 \] 4. Taux de croissance d’un produit Soient deux grandeurs à la date \(\mathrm{t}\) : \[ V_t=\left(1+\tau_v\right) V_0 \quad \text { et } \quad U_t=\left(1+\tau_u\right) U_0 \] La grandeur qui représente leur produit est : \[ W_t=V_t \times U_t=\left(1+\tau_v\right)\left(1+\tau_u\right) W_0 \] Et son taux de croissance est : \[ \tau_w=\frac{W_t}{W_0}-1=\left(1+\tau_v\right)\left(1+\tau_u\right)-1 \] Exemple : Soit un commerçant qui augmente le prix d’un produit de \(4 \%\). À la suite de cette augmentation, la quantité vendue baisse de \(3 \%\). Le taux de croissance de la recette totale est alors donnée par : \[ (1+0,04)(1-0,03)-1=(1,04 \times 0,97)-1=+0,0088 \] Soit une hausse de \(0,88 \%\) de la recette totale.

  1. Taux de croissance d’un rapport

Soient deux grandeurs à la date \(\mathrm{t}\) : \[ V_t=\left(1+\tau_v\right) V_0 \quad \text { et } \quad U_t=\left(1+\tau_u\right) U_0 \] La grandeur qui représente leur rapport est : \[ Z_t=\frac{V_t}{U_t}=\frac{\left(1+\tau_v\right)}{\left(1+\tau_u\right)} Z_0 \]

Et son taux de croissance est : \[ \tau_z=\frac{\left(1+\tau_v\right)}{\left(1+\tau_u\right)}-1 \] Exemple : soit un commerçant qui augmente le prix d’un produit de \(4 \%\). À la suite de cette augmentation, il constate que sa recette totale augmente de 0,88%. Étonné, il calcule le taux de croissance de la quantité vendue: \[ (1+0,0088) /(1+0,04)-1=0,97-1=-0,03 \] II constate ainsi que la quantité vendue a baissé de \(3 \%\). II comprend alors que si la recette totale a augmenté en dépit de la baisse de la quantité vendue, c’est parce que la baisse de la quantité vendue \((3 \%)\) a été moins importante que l’augmentation du prix \((4 \%)\) et s’endort content.

OPÉRATEURS SOMME ET PRODUIT

L’opérateur somme

Pour exprimer une somme d’éléments de façon compacte, on utilise l’opérateur somme, symbolisé par la lettre grecque majuscule “Sigma”.

Sigma \(\longrightarrow \sum\) opérateur somme Exemple 1 : soit quatre valeurs d’une variable \(\mathrm{x}\), indicées par \(\mathrm{i}: \mathrm{x}_1, \mathrm{x}_2, \mathrm{x}_3, \mathrm{x}_4\). Le produit de ces 4 valeurs est donné par l’expression : \[ \sum_{i=1}^4 x_i=x_1+x_2+x_3+x_4 \] L’expression de gauche se lit ainsi “somme des \(x_i\) pour \(i\) allant de 1 à 4”. Plus généralement, pour une somme de \(\mathrm{n}\) éléments, on écrit : \[ \sum_{i=1}^n x_i=x_1+x_2+\ldots+x_4 \] Exemple : soit le tableau de valeurs suivant. \[ \begin{array}{|c|c|} \hline \mathrm{x}_{\mathrm{i}} & \mathrm{y}_{\mathrm{i}} \\ \hline 1 & 2 \\ \hline-3 & 3 \\ \hline-4 & 4 \\ \hline 2 & 5 \\ \hline \end{array} \] Calculons les expressions : \[ \sum_{i=1}^4 x_i,~~\sum_{i=1}^4 y_i,~~\sum_{i=1}^4 x_i^2,~~ \sum_{i=1}^4\left(x_i+y_i\right)~~\texttt{et}~~\sum_{i=1}^4 x_i^2 y_i. \] \[\begin{array}{|c|c|c|c|c|} \hline x_i & y_i & x_i^2 & x_i+y_i & x_i^2 y_i \\ \hline 1 & 2 & 1 & 3 & 2 \\ \hline-3 & 3 & 9 & 0 & 27 \\ \hline-4 & 4 & 16 & 0 & 64 \\ \hline 2 & 5 & 4 & 7 & 20 \\ \hline \sum_{i=1}^4 x_i=-4 & \sum_{i=1}^4 y_i=14 & \sum_{i=1}^4 x_i^2=30 & \sum_{i=1}^4\left(x_i+y_i\right)=10 & \sum_{i=1}^4 x_i^2 y_i=113 \\ \hline \end{array}\]
L’opérateur produit

Pour exprimer un produit d’élément de façon compacte, on utilise l’opérateur produit, symbolisé par : \[ \prod \] Exemple 1 : soit quatre valeurs d’une variable \(\mathrm{x}\), indicées par \(\mathrm{i}: \mathrm{x}_1, \mathrm{x}_2, \mathrm{x}_3, \mathrm{x}_4\). Le produit de ces 4 valeurs est donnée par l’expression : \[ \prod_{i=1}^4 x_i=x_1 \times x_2 \times x_3 \times x_4 \] L’expression de gauche se lit ainsi “produit des \(x_i\) pour \(i\) allant de 1 à 4”. Plus généralement, pour un produit de \(n\) éléments, on écrit : \[ \prod_{i=1}^n x_i=x_1 \times x_2 \times \ldots \times x_4 \] Exemple 2 : soit le tableau de valeurs suivant. \[ \begin{array}{|c|c|} \hline x_i & y_i \\ \hline 1 & 2 \\ \hline-3 & 3 \\ \hline-4 & 4 \\ \hline 2 & 5 \\ \hline \end{array} \] Calculons les expressions : \[ \prod_{i=1}^4 x_i,~ \prod_{i=1}^4 y_i,~ \prod_{i=1}^4 x_i^2 ,~ \prod_{i=1}^4\left(x_i+y_i\right) ,~ \prod_{i=1}^4 x_i^2 y_i \] On a donc :

\[\begin{array}{|c|c|c|c|c|} \hline x_i & y_i & x_i^2 & x_i+y_i & x_i^2 y_i \\ \hline 1 & 2 & 1 & 3 & 2 \\ \hline-3 & 3 & 9 & 0 & 27 \\ \hline-4 & 4 & 16 & 0 & 64 \\ \hline 2 & 5 & 4 & 7 & 20 \\ \hline \prod_{i=1}^4 x_i=24 & \prod_{i=1}^4 y_i=120 & \prod_{i=1}^4 y_i^2=576 & \prod_{i=1}^4\left(x_i+y_i\right)=0 & \prod_{i=1}^4 x_i^2 y_i=69120 \\ \hline \end{array}\]

## Column

Exercices

Chapitre 2. Série statistique univarie

## Column

Cours

Une série statistique univarie est une collection de données où une seule variable est mesurée pour chaque observation. Cette variable peut être quantitative (mesurée numériquement) ou qualitative (mesurée par catégories).

Variable qualitative nominale

Une variable qualitative nominale est une variable qui ne peut être classée en ordre ou en hiérarchie. Elle peut prendre différentes valeurs, mais ces valeurs n’ont pas de signification numérique ou ordonnée. Par exemple, la couleur des yeux (bleu, vert, marron) est une variable nominale car il n’y a pas de classement numérique ou hiérarchique des couleurs des yeux.

Les variables nominales sont souvent utilisées en sciences sociales et en marketing pour représenter des catégories ou des groupes. Elles peuvent être utilisées pour classifier les données en fonction de certaines caractéristiques, telles que le sexe, la race, la religion, la nationalité, etc. Les variables nominales sont souvent codées sous forme de nombres pour faciliter l’analyse statistique, mais ces nombres ne représentent pas une quantité ou une mesure numérique.

Exemple. La variable ‘état-civil’, notée \(X\), observée sur 20 personnes. La codification est \[\begin{array}{ll} \hline \hline \mathrm{C}: & célibataire, \\ \mathrm{M}:& marié(e), \\ \mathrm{V}: & veuf(ve), \\ \mathrm{D}: & divorcée. \\ \hline \hline \end{array}\]

Le domaine de la variable X est {C, M, V, D}. Considérons la série statistique suivante : M M D C C M C C C M C M V M V D C C C M

  Eff Freq
C   9 0.45
D   2 0.10
M   7 0.35
V   2 0.10

Diagramme en secteurs et diagramme en barres

Les effectifs sont représentés par un diagramme en barres et les fréquences par un diagramme en secteurs (ou camembert)

Variable qualitative ordinale

On interroge 50 personnes sur leur dernier diplôme obtenu (variable \(Y\)). La codification a été faite selon le tableau suivant \[ \begin{array}{l|c} \hline \hline \text { Dernier diplôme obtenu } & x_j \\ \hline \text { Sans diplôme } & \mathrm{Sd} \\ \text { Primaire } & \mathrm{P} \\ \text { Secondaire } & \mathrm{Se} \\ \text { Supérieur non-universitaire } & \mathrm{Su} \\ \text { Universitaire } & \mathrm{U} \\ \hline \hline \end{array} \]

Série statistique de la variable \(Y\)

Sd Sd Sd Sd P P P P P P P P P P P Se Se Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su Su Su Su Su Su Su U U U U U U U U U U U U

Tableau statistique : \[ \begin{array}{|l|c|c|c|c|} \hline x_j & n_j & N_j & f_j & F_j \\ \hline \mathrm{Sd} & 4 & 4 & 0.08 & 0.08 \\ \mathrm{P} & 11 & 15 & 0.22 & 0.30 \\ \mathrm{Se} & 14 & 29 & 0.28 & 0.58 \\ \mathrm{Su} & 9 & 38 & 0.18 & 0.76 \\ \mathrm{U} & 12 & 50 & 0.24 & 1.00 \\ \hline & 50 & & 1.00 & \\ \hline \hline \end{array} \]
   Eff EffCum Freq FreqCum
Sd   4      4 0.08    0.08
P   11     15 0.22    0.30
Se  14     29 0.28    0.58
Su   9     38 0.18    0.76
U   12     50 0.24    1.00
Diagramme en secteurs

Les fréquences d’une variable qualitative ordinale sont représentées au moyen d’un diagramme en secteurs

Diagramme en barres des effectifs
Les effectifs d’une variable qualitative ordinale sont représentés au moyen d’un diagramme en barres

Diagramme en barres des effectifs cumulés
Les effectifs cumulés d’une variable qualitative ordinale sont représentés au moyen d’un diagramme en barres

## Column

Exercices

Chapitre 3. Série statistique bivarie

## Column

Cours

## Column

Exercices

Chapitre 4. Séries chronologiques

## Column

Cours

## Column

Exercices