Présentation

La statistique descriptive est une branche de la statistique qui consiste à décrire et à résumer les caractéristiques importantes d’un ensemble de données. Elle permet de synthétiser des données complexes en utilisant des outils tels que des tableaux, des graphiques et des mesures de tendance centrale, de dispersion et de forme.

L’objectif principal de la statistique descriptive est de fournir une compréhension claire des données et de permettre des comparaisons entre différentes variables ou différents groupes de données. Cela peut aider à identifier des tendances, des modèles, des écarts dans les données, et à prendre des décisions éclairées en conséquence.

L’histoire de la statistique descriptive remonte à l’Antiquité, lorsque les Égyptiens utilisaient des méthodes statistiques pour estimer les rendements des cultures et les populations animales. Les Romains ont également utilisé des méthodes statistiques pour estimer les populations et les recettes fiscales.

Au Moyen Âge, les marchands européens utilisaient des méthodes statistiques pour suivre les tendances du marché.

Au XVIIe siècle, John Graunt a publié le premier livre sur la mortalité statistique en Angleterre, dans lequel il a utilisé des méthodes statistiques pour estimer la probabilité de décès à différents âges.

Au XVIIIe siècle, la statistique a connu un développement important grâce aux travaux de Carl Friedrich Gauss, qui a développé la méthode des moindres carrés pour ajuster des données expérimentales.

Au XIXe siècle, Adolphe Quetelet a publié des travaux sur la statistique sociale, qui ont établi les bases de la démographie.

Au XXe siècle, la statistique a connu une évolution rapide grâce à l’utilisation de l’informatique et à l’essor de la théorie des probabilités et des distributions statistiques. Des statisticiens tels que Ronald Fisher, Jerzy Neyman et Abraham Wald ont développé des méthodes pour l’inférence statistique, c’est-à-dire la capacité à tirer des conclusions sur une population à partir d’un échantillon.

Aujourd’hui, la statistique descriptive est largement utilisée dans de nombreux domaines, tels que la finance, l’économie, la médecine, la biologie, la psychologie et les sciences sociales, pour analyser et comprendre les données numériques.

Les moyens de la statistique descriptive incluent:

Les graphiques, tels que les histogrammes, les boîtes à moustaches et les diagrammes en barres, qui permettent de visualiser les données de manière claire et concise.

Les tableaux, tels que les tableaux de fréquence et les tableaux croisés, qui permettent de résumer les données de manière structurée.

Les mesures de tendance centrale, telles que la moyenne, la médiane et le mode, qui représentent le centre des données.

Les mesures de dispersion, telles que l’écart-type et la plage interquartile, qui représentent la variabilité des données.

Les mesures de forme, telles que la symétrie et l’aplatissement, qui décrivent la distribution des données.

Les variables sont des caractéristiques mesurables ou observables qui peuvent varier d’un individu à l’autre, telles que l’âge, le sexe, le niveau d’éducation, etc. Les données statistiques sont des valeurs numériques ou des descriptions qui sont collectées pour chaque individu sur une ou plusieurs variables. Les tableaux sont des représentations visuelles de ces données, qui peuvent être organisées en lignes et en colonnes pour faciliter leur analyse. Les effectifs sont le nombre d’individus qui ont une certaine valeur pour une variable donnée.

Les principaux chapitres de statistique descriptive :

Introduction aux statistiques : Ce chapitre explique les concepts fondamentaux des statistiques, tels que les données, les variables, les typ es de données, les mesures de position centrale et de dispersion, ainsi que les techniques de collecte et d’analyse de données.

Analyse univariée : Ce chapitre traite de l’analyse des données d’une seule variable, en utilisant des techniques telles que la fréquence, la moyenne, la médiane, le mode, l’écart-type, la variance, etc.

Analyse bivariée : Ce chapitre traite de l’analyse de deux variables et de leur relation, en utilisant des techniques telles que le coefficient de corrélation, la régression linéaire, les diagrammes de dispersion, etc.

Série chronologique: Ce chapitre traite une série chronique de données qui est collectée sur une période de temps régulière et qui est utilisée pour étudier l’évolution des phénomènes au fil du temps. Pour analyser une série chronique à l’aide de la statistique descriptive, on peut commencer par représenter graphiquement les données à l’aide d’un graphique chronologique. Les mesures statistiques telles que la moyenne, la médiane, l’écart-type, la variance, etc., peuvent également être utilisées pour résumer les caractéristiques importantes de la série chronique.

Ces chapitres de statistique descriptive couvrent une grande partie des connaissances fondamentales nécessaires pour analyser et comprendre les données.

Elle peut être appliquée à de nombreux domaines, y compris :

En somme, la statistique descriptive peut être appliquée à une grande variété de domaines et peut aider à mieux comprendre les données et les tendances qui y sont associées.

Chapitre 1. Vocabulaire

Ce chapitre introductif est consacré à la définition des différents termes qui en constituent le vocabulaire de base.

Column

Cours

Définition de la statistique descriptive

Il existe de nombreuses définitions de la statistique descriptive, celle que nous donnons ici est celle de Bernard PY,dans son livre Statistique descriptive, nouvelle méthode pour bien comprendre et réussir (éditions Economica) : « La statistique descriptive est un ensemble de méthodes permettant de décrire et d’analyser, de façon quantifiée, des phénomènes repérés par des éléments nombreux, de même nature, susceptibles d’être dénombrés et classés. »

La statistique descriptive contient des outils d’investigation et de mesure des données chiffrées pour décrire (faire des tableaux, des graphiques, calculer des moyennes) et analyser (faire ressortir la signification) de façon quantifiée, des phénomènes repérés par des éléments nombreux.

La statistique descriptive appartient à un ensemble plus vaste, la statistique générale, qui se divise en deux branches : statistique descriptive et la statistique mathématique (ou statistique “inférentielle”), dont l’objet est de formuler des lois de comportement à partir d’observation souvent incomplètes. Cette dernière s’appuie non seulement sur la statistique descriptive, mais aussi sur le calcul des probabilités.

DESCRIPTION D’UNE POPULATION/ECHANTILLON

  1. unités statistiques: font référence aux éléments individuels d’une population étudiée. Ces unités peuvent être des personnes, des entreprises, des animaux, des plantes ou tout autre objet ou phénomène qui fait l’objet d’une étude statistique.

  2. Population: est l’ensemble des unités statistiques que l’on souhaite étudier. Cette population peut être finie ou infinie. Dans une étude statistique, il est important de définir clairement la population étudiée, car les résultats obtenus ne peuvent être généralisés qu’à cette population.

  3. Échantillon: est un sous-ensemble de la population étudiée. Les données collectées à partir de l’échantillon sont utilisées pour estimer les caractéristiques de la population. Un échantillon doit être choisi de manière aléatoire pour être représentatif de la population et éviter un biais de sélection. La taille de l’échantillon dépend de la précision souhaitée pour les estimations et de la variabilité de la population.

Caractère et variable

En statistique, un caractère est une propriété ou une mesure d’un individu ou d’un objet que l’on souhaite étudier. Par exemple, dans une étude sur la population, le caractère peut être l’âge, le sexe, la taille, le poids, le niveau d’éducation, etc.

Une variable statistique est une caractéristique qui peut prendre différentes valeurs pour chaque individu ou objet dans l’étude. Les valeurs que peut prendre une variable sont appelées modalités.

Il existe deux types de variables statistiques : les variables qualitatives et les variables quantitatives.

  1. Les variables qualitatives sont des variables qui prennent des valeurs catégorielles ou nominales. Ces dernières ne peuvent pas être ordonnées (sexe, couleur des yeux, type de voiture, état civil, etc.).

  2. Les variables quantitatives sont des variables qui prennent des valeurs numériques et qui peuvent être mesurées. Elles peuvent être continues (salaire, taille, âge, …) ou discrètes (nombre d’enfants par famille, nombre de personnes dans un ménage, …).

Effectifs et fréquences

L’effectif absolu correspond au nombre total d’observations dans un ensemble de données, tandis que la fréquence absolue correspond au nombre d’observations pour une valeur particulière divisé par l’effectif total.

La relation entre l’effectif absolu et la fréquence absolue est donc que la fréquence absolue est obtenue en divisant l’effectif absolu d’une valeur par l’effectif total.

Par exemple, si nous avons un ensemble de données contenant 100 observations et que 30 d’entre elles ont une valeur de 5, l’effectif absolu pour la valeur 5 est de 30 et la fréquence absolue est de 30/100 = 0,3 ou 30%. Cela signifie que la valeur 5 représente 30% de toutes les observations dans l’ensemble de données.

L’effectif relatif et la fréquence relative sont deux mesures statistiques couramment utilisées pour décrire la distribution d’une variable quantitative dans un ensemble de données.

L’effectif relatif d’une classe est défini comme le nombre d’observations dans cette classe divisé par le nombre total d’observations dans l’ensemble de données. En d’autres termes, il s’agit de la proportion de l’effectif total représentée par cette classe. La formule de calcul de l’effectif relatif est la suivante :

Effectif relatif = Effectif de la classe / Effectif total

La fréquence relative d’une classe est définie comme l’effectif relatif multiplié par 100. En d’autres termes, il s’agit de la proportion de l’effectif total représentée par cette classe, exprimée en pourcentage. La formule de calcul de la fréquence relative est la suivante :

Fréquence relative = Effectif relatif x 100

Il est important de noter que la somme des fréquences relatives pour toutes les classes doit être égale à 100%, puisque la totalité des observations de l’ensemble de données est représentée.

Modalités

Les modalités sont des catégories ou des valeurs distinctes qui peuvent être utilisées pour décrire une variable.

  1. Modalités nominales: sont des catégories qui n’ont pas d’ordre ou de hiérarchie particulière. Elles sont utilisées pour décrire des variables qualitatives, telles que le sexe (masculin ou féminin), la couleur des yeux (bleu, vert, marron, etc.) ou la nationalité (française, allemande, espagnole, etc.). Les modalités nominales peuvent être codées numériquement, mais l’ordre des chiffres n’a aucune signification. Par exemple, si vous utilisez 1 pour représenter “homme” et 2 pour représenter “femme”, cela ne signifie pas que les femmes sont “plus grandes” que les hommes.

  2. Modalités ordinales: ont une hiérarchie ou un ordre naturel. Elles sont utilisées pour décrire des variables qualitatives, mais les modalités ont un sens ordinal ou relatif. Par exemple, le niveau d’éducation peut être décrit par les modalités “primaire”, “secondaire”, “tertiaire” et “supérieur”. Dans ce cas, les modalités ont un ordre logique et chaque niveau est considéré comme étant “supérieur” à celui qui le précède. Les modalités ordinales peuvent également être codées numériquement, mais l’ordre des chiffres a une signification. Par exemple, si vous utilisez 1 pour représenter “primaire”, 2 pour représenter “secondaire”, 3 pour représenter “tertiaire” et 4 pour représenter “supérieur”, cela signifie que les niveaux d’éducation augmentent avec l’augmentation du chiffre.

Schéma récapitulatif

Le Schéma ci-dessous récapitule les différentes sortes de données que l’on rencontre en statistique, en partant de la distinction fondamentale entre données qualitatives et données quantitatives.

Taux de croissance

  1. Définition. Le taux de croissance est très utilisé en statistique et, plus généralement, en économie. Il se définit ainsi : \[ \tau=\frac{\text { Valeur d'arrivée }}{\text { Valeur de départ }}-1 \] Si on désigne par \(\mathrm{V}_0=\) valeur de départ d’une grandeur économique et \(\mathrm{V}_{\mathrm{t}}=\) sa valeur d’arrivée. On a : \[ \tau_{t/0}=\frac{V_t}{V_0}-1=\frac{V_t-V_0}{V_0} \] Le rapport \(\mathrm{V}_{\mathrm{t}} / \mathrm{V}_0\) est appelé multiplicateur. Dès lors, on peut écrire : \[ \tau=\text { multiplicateur }-1 \] Ou encore : \[ \text { multiplicateur }=1+\tau \]
  2. Évolutions successives

Soient \(\tau_1, \tau_2, \ldots, \tau_{\mathrm{t}}\) des taux de croissance successifs. Le taux de croissance global sur la période \(1, \ldots\), t est : \[ \tau=\left(1+\tau_1\right)\left(1+\tau_2\right) \ldots\left(1+\tau_n\right)-1 \] Exemple : soit une hausse de \(5 \%\) suivie d’une hausse de \(2 \%\), puis d’une baisse de \(3 \%\). Quel est le taux de croissance global (sur les 3 périodes) ? \[ \tau=(1+0,05)(1+0,02)(1-0,03)-1=0,03887 \] 3. Taux de croissance moyen

Soient \(\tau_1, \tau_2, \ldots, \tau_{\mathrm{t}}\) des taux de croissance successifs. Le taux de croissance moyen sur la période \(1, \ldots, t\) est : \[ \bar{\tau}=\sqrt[t]{(1+\tau)}-1 \] C’est-à-dire : \[ \bar{\tau}=(1+\tau)^{\frac{1}{t}}-1 \] Exemple : soit une grandeur qui a augmenté successivement de \(\tau_1=10 \%,~ \tau_2=20 \%\) et \(\tau_3=40 \%\) sur 3 ans. Son taux d’accroissement global est : \[ \tau=(1+0,1)(1+0,2)(1+0,4)-1=0,848 \] Et son taux de croissance moyen sur les trois périodes : \[ \bar{\tau}=(1+\tau)^{\frac{1}{3}}-1=1,848^{\frac{1}{3}}-1 \] 4. Taux de croissance d’un produit Soient deux grandeurs à la date \(\mathrm{t}\) : \[ V_t=\left(1+\tau_v\right) V_0 \quad \text { et } \quad U_t=\left(1+\tau_u\right) U_0 \] La grandeur qui représente leur produit est : \[ W_t=V_t \times U_t=\left(1+\tau_v\right)\left(1+\tau_u\right) W_0 \] Et son taux de croissance est : \[ \tau_w=\frac{W_t}{W_0}-1=\left(1+\tau_v\right)\left(1+\tau_u\right)-1 \] Exemple : Soit un commerçant qui augmente le prix d’un produit de \(4 \%\). À la suite de cette augmentation, la quantité vendue baisse de \(3 \%\). Le taux de croissance de la recette totale est alors donnée par : \[ (1+0,04)(1-0,03)-1=(1,04 \times 0,97)-1=+0,0088 \] Soit une hausse de \(0,88 \%\) de la recette totale.

  1. Taux de croissance d’un rapport

Soient deux grandeurs à la date \(\mathrm{t}\) : \[ V_t=\left(1+\tau_v\right) V_0 \quad \text { et } \quad U_t=\left(1+\tau_u\right) U_0 \] La grandeur qui représente leur rapport est : \[ Z_t=\frac{V_t}{U_t}=\frac{\left(1+\tau_v\right)}{\left(1+\tau_u\right)} Z_0 \]

Et son taux de croissance est : \[ \tau_z=\frac{\left(1+\tau_v\right)}{\left(1+\tau_u\right)}-1 \] Exemple : soit un commerçant qui augmente le prix d’un produit de \(4 \%\). À la suite de cette augmentation, il constate que sa recette totale augmente de 0,88%. Étonné, il calcule le taux de croissance de la quantité vendue: \[ (1+0,0088) /(1+0,04)-1=0,97-1=-0,03 \] II constate ainsi que la quantité vendue a baissé de \(3 \%\). II comprend alors que si la recette totale a augmenté en dépit de la baisse de la quantité vendue, c’est parce que la baisse de la quantité vendue \((3 \%)\) a été moins importante que l’augmentation du prix \((4 \%)\) et s’endort content.

Opérateurs somme et produit

L’opérateur somme

Pour exprimer une somme d’éléments de façon compacte, on utilise l’opérateur somme, symbolisé par la lettre grecque majuscule “Sigma”.

Sigma \(\longrightarrow \sum\) opérateur somme . Exemple. Soit quatre valeurs d’une variable \(\mathrm{x}\), indicées par \(\mathrm{i}: \mathrm{x}_1, \mathrm{x}_2, \mathrm{x}_3, \mathrm{x}_4\). Le produit de ces 4 valeurs est donné par l’expression : \[ \sum_{i=1}^4 x_i=x_1+x_2+x_3+x_4 \] L’expression de gauche se lit ainsi “somme des \(x_i\) pour \(i\) allant de 1 à 4”. Plus généralement, pour une somme de \(\mathrm{n}\) éléments, on écrit : \[ \sum_{i=1}^n x_i=x_1+x_2+\ldots+x_4 \] Exemple. soit le tableau de valeurs suivant. \[ \begin{array}{|c|c|} \hline \mathrm{x}_{\mathrm{i}} & \mathrm{y}_{\mathrm{i}} \\ \hline 1 & 2 \\ \hline-3 & 3 \\ \hline-4 & 4 \\ \hline 2 & 5 \\ \hline \end{array} \] Calculons les expressions : \[ \sum_{i=1}^4 x_i,~~\sum_{i=1}^4 y_i,~~\sum_{i=1}^4 x_i^2,~~ \sum_{i=1}^4\left(x_i+y_i\right)~~\texttt{et}~~\sum_{i=1}^4 x_i^2 y_i. \]

\[ \begin{array}{|c|c|c|c|c|} \hline x_i & y_i & x_i^2 & x_i+y_i & x_i^2 y_i \\ \hline 1 & 2 & 1 & 3 & 2 \\ \hline-3 & 3 & 9 & 0 & 27 \\ \hline-4 & 4 & 16 & 0 & 64 \\ \hline 2 & 5 & 4 & 7 & 20 \\ \hline \sum_{i=1}^4 x_i=-4 & \sum_{i=1}^4 y_i=14 & \sum_{i=1}^4 x_i^2=30 & \sum_{i=1}^4\left(x_i+y_i\right)=10 & \sum_{i=1}^4 x_i^2 y_i=113 \\ \hline \end{array} \]

L’opérateur produit

Pour exprimer un produit d’élément de façon compacte, on utilise l’opérateur produit, symbolisé par : \[ \prod \] Exemple. Soit quatre valeurs d’une variable \(\mathrm{x}\), indicées par \(\mathrm{i}: \mathrm{x}_1, \mathrm{x}_2, \mathrm{x}_3, \mathrm{x}_4\). Le produit de ces 4 valeurs est donnée par l’expression : \[ \prod_{i=1}^4 x_i=x_1 \times x_2 \times x_3 \times x_4 \] L’expression de gauche se lit ainsi “produit des \(x_i\) pour \(i\) allant de 1 à 4”. Plus généralement, pour un produit de \(n\) éléments, on écrit : \[ \prod_{i=1}^n x_i=x_1 \times x_2 \times \ldots \times x_4 \] Exemple. soit le tableau de valeurs suivant. \[ \begin{array}{|c|c|} \hline x_i & y_i \\ \hline 1 & 2 \\ \hline-3 & 3 \\ \hline-4 & 4 \\ \hline 2 & 5 \\ \hline \end{array} \] Calculons les expressions : On a donc : \[ \begin{array}{|c|c|c|c|c|} \hline x_i & y_i & x_i^2 & x_i+y_i & x_i^2 y_i \\ \hline1 & 2 & 1 & 3 & 2 \\ -3 & 3 & 9 & 0 & 27 \\ -4 & 4 & 16 & 0 & 64 \\ 2 & 5 & 4 & 7 & 20 \\ \hline \prod_{i=1}^4 x_i=24 & \prod_{i=1}^4 y_i=120 & \prod_{i=1}^4 y_i^2=576 & \prod_{i=1}^4\left(x_i+y_i\right)=0 & \prod_{i=1}^4 x_i^2 y_i=69120 \\ \hline \end{array} \]

Exercice 1.1

Une enquête menée auprès de 100 salariés d’une entreprise pour collecter les informations suivantes

Situation familiale, Sexe, Nombre de personnes à charge, condition du travail, Salaire mensuel, Nombre de jour d’absence, Age, Poids.

  1. Identifier la nature des caractères étudiés.

  2. Donner deux modalités possibles pour chacun de ces caractères.

  3. Quelle est la taille de l’échantillon.

Exercice 1.2

Une enquête menée auprès de 80 clients d’un point de vente \[ \begin{array}{|c|c|} \hline Niveau~~ d'étude & Effectif~ (n_i) \\ \hline Niveau~~ Baccalauréat& 6\\ Baccalauréat &12\\ DEUG &15 \\ Licence &23 \\ Master &19 \\ Doctorat &5 \\ \hline Total &80\\ \hline \end{array} \]

Déterminer les éléments suivants :

  1. La population

  2. La taille de l’échantillon

  3. Le caractère et sa nature

  4. Les modalités

Exercice 1.3

Une enquête menée auprès de 20 ménages portant sur le revenu mensuel a donné les résultats suivants :

3700 - 8000 - 2500 - 3000 - 8000 - 8000 - 3000 - 3700 - 2500 - 3700 - 3000 - 2500 - 3700 - 3000 - 3700 - 2500 - 3700 - 3700 - 3000 - 3000.

  1. Établir la distribution des effectifs.

  2. Quelle est la représentation graphique appropriée pour cette distribution ?

  3. Déterminer les éléments suivants :

    3.1. La population

    3.2. Le caractère et sa nature

    3.3. Les modalités

Chapitre 2. Série statistique univarie

Column

Cours

Une série statistique univarie est une collection de données où une seule variable est mesurée pour chaque observation. Cette variable peut être quantitative (mesurée numériquement) ou qualitative (mesurée par catégories).

Variable qualitative nominale

Une variable qualitative nominale est une variable qui ne peut être classée en ordre ou en hiérarchie. Elle peut prendre différentes valeurs, mais ces valeurs n’ont pas de signification numérique ou ordonnée. Par exemple, la couleur des yeux (bleu, vert, marron) est une variable nominale car il n’y a pas de classement numérique ou hiérarchique des couleurs des yeux.

Les variables nominales sont souvent utilisées en sciences sociales et en marketing pour représenter des catégories ou des groupes. Elles peuvent être utilisées pour classifier les données en fonction de certaines caractéristiques, telles que le sexe, la race, la religion, la nationalité, etc. Les variables nominales sont souvent codées sous forme de nombres pour faciliter l’analyse statistique, mais ces nombres ne représentent pas une quantité ou une mesure numérique.

Exemple. La variable ‘état-civil’, notée \(X\), observée sur 20 personnes. La codification est

\[ \begin{array}{ll} \hline \hline \mathrm{C}: & célibataire, \\ \mathrm{M}:& marié(e), \\ \mathrm{V}: & veuf(ve), \\ \mathrm{D}: & divorcée. \\ \hline \hline \end{array} \] Le domaine de la variable X est {C, M, V, D}. Considérons la série statistique suivante : M M D C C M C C C M C M V M V D C C C M

  Eff Freq
C   9 0.45
D   2 0.10
M   7 0.35
V   2 0.10

Diagramme en secteurs et diagramme en barres

Les effectifs sont représentés par un diagramme en barres et les fréquences par un diagramme en secteurs (ou camembert)

Variable qualitative ordinale

On interroge 50 personnes sur leur dernier diplôme obtenu (variable \(Y\)). La codification a été faite selon le tableau suivant \[ \begin{array}{l|c} \hline \hline \text { Dernier diplôme obtenu } & x_j \\ \hline \text { Sans diplôme } & \mathrm{Sd} \\ \text { Primaire } & \mathrm{P} \\ \text { Secondaire } & \mathrm{Se} \\ \text { Supérieur non-universitaire } & \mathrm{Su} \\ \text { Universitaire } & \mathrm{U} \\ \hline \hline \end{array} \]

Série statistique de la variable \(Y\)

Sd Sd Sd Sd P P P P P P P P P P P Se Se Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su Su Su Su Su Su Su U U U U U U U U U U U U

Tableau statistique : \[ \begin{array}{|l|c|c|c|c|} \hline x_j & n_j & N_j & f_j & F_j \\ \hline \mathrm{Sd} & 4 & 4 & 0.08 & 0.08 \\ \mathrm{P} & 11 & 15 & 0.22 & 0.30 \\ \mathrm{Se} & 14 & 29 & 0.28 & 0.58 \\ \mathrm{Su} & 9 & 38 & 0.18 & 0.76 \\ \mathrm{U} & 12 & 50 & 0.24 & 1.00 \\ \hline & 50 & & 1.00 & \\ \hline \hline \end{array} \]

   Eff EffCum Freq FreqCum
Sd   4      4 0.08    0.08
P   11     15 0.22    0.30
Se  14     29 0.28    0.58
Su   9     38 0.18    0.76
U   12     50 0.24    1.00
Diagramme en secteurs

Les fréquences d’une variable qualitative ordinale sont représentées au moyen d’un diagramme en secteurs

Diagramme en barres des effectifs

Les effectifs d’une variable qualitative ordinale sont représentés au moyen d’un diagramme en barres

Diagramme en barres des effectifs cumulés

Les effectifs cumulés d’une variable qualitative ordinale sont représentés au moyen d’un diagramme en barres

Variable quantitative discrète

Example. Un quartier est composé de 50 ménages, et la variable Z représente le nombre de personnes par ménage. Les valeurs de la variable sont \[ \begin{array}{llllllllll} 1 & 1 & 1 & 1 & 1 & 2 & 2 & 2 & 2 & 2 \\ 2 & 2 & 2 & 2 & 3 & 3 & 3 & 3 & 3 & 3 \\ 3 & 3 & 3 & 3 & 3 & 3 & 3 & 3 & 3 & 4 \\ 4 & 4 & 4 & 4 & 4 & 4 & 4 & 4 & 4 & 5 \\ 5 & 5 & 5 & 5 & 5 & 6 & 6 & 6 & 8 & 8 \end{array} \] Les effectifs, les effectifs cumulés, les fréquences, les fréquences cumulées sont donnés dans le tableau statistique : \[ \begin{array}{|c|c|c|c|c|} \hline \hline x_j & n_j & N_j & f_j & F_j \\ \hline 1 & 5 & 5 & 0.10 & 0.10 \\ 2 & 9 & 14 & 0.18 & 0.28 \\ 3 & 15 & 29 & 0.30 & 0.58 \\ 4 & 10 & 39 & 0.20 & 0.78 \\ 5 & 6 & 45 & 0.12 & 0.90 \\ 6 & 3 & 48 & 0.06 & 0.96 \\ 8 & 2 & 50 & 0.04 & 1 \\ \hline & 50 & & 1 & \\ \hline \hline \end{array} \]

  Eff EffCum Freq FreqCum
1   5      5 0.10    0.10
2   9     14 0.18    0.28
3  15     29 0.30    0.58
4  10     39 0.20    0.78
5   6     45 0.12    0.90
6   3     48 0.06    0.96
8   2     50 0.04    1.00
Diagramme en bâtonnets des effectifs

Quand la variable est discrète, les effectifs sont représentés par des bâtonnets

Fonction de répartition

Les fréquences cumulées sont représentées au moyen de la fonction de répartition. Cette fonction est définie par : \[ F(x)= \begin{cases}0 &si& x<x_1 \\ F_j & si&x_j \leq x<x_{j+1} \\ 1 &si& x_{max} \leq x\end{cases} \]

Variable quantitative continue

Le tableau statistique

Une variable quantitative continue peut prendre une infinité de valeurs possibles. pour faire des représentations graphiques et construire le tableau statistique, il faut procéder à des regroupements en classes.

Le tableau regroupé en classe est souvent appelé distribution groupée. Si \([c^−_j; c^+_j[\) désigne la classe \(j\), on note, de manière générale :

  • \(c_j^{-}\) la borne inférieure de la classe \(j\)

  • \(c_j^{+}\) la borne supérieure de la classe \(j\),

  • \(c_j=\left(c_j^{+}+c_j^{-}\right) / 2\) le centre de la classe \(j\),

  • \(a_j=c_j^{+}-c_j^{-}\) l’amplitude de la classe \(j\),

  • \(n_j\) l’effectif de la classe \(j\),

  • \(N_j\) l’effectif cumulé de la classe \(j\),

  • \(f_j\) la fréquence de la classe \(j\),

  • \(F_j\) la fréquence cumulée de la classe \(j\).

La répartition en classes des données nécessite de définir a priori le nombre de classes \(J\) et donc l’amplitude de chaque classe. En règle générale, on choisit au moins cinq classes de même amplitude. Cependant, il existent des formules qui nous permettent d’établir le nombre de classes et l’intervalle de classe (l’amplitude) pour une série statistique de \(n\) observations.

  • La règle de Sturge \(: J=1+\left(3.3 \log _{10}(n)\right)\).

  • La règle de Yule : \(J=2.5 \sqrt[4]{n}\).

L’intervalle de classe est obtenue ensuite de la mani`ere suivante : longueur de l’intervalle = \((x_{max} − x_{min})/J\), oû \(x_{max}\) (resp. \(_{min}\)) désigne la plus grande (resp. la plus petite) valeur observée.

Il faut arrondir le nombre de classe J à l’entier le plus proche.

Par commodité, on peut aussi arrondir la valeur obtenue de l’intervalle de classe.

A partir de la plus petite valeur observée, on obtient les bornes de classes,en additionnant successivement l’intervalle de classe (l’amplitude).

Exemple. On mesure la taille en centimètres de 50 élèves d’une classe : \[ \begin{array}{llllllllll} 152 & 152 & 152 & 153 & 153& 154 & 154 & 154 & 155 & 155 \\ 156 & 156 & 156 & 156 & 156 &157 & 157 & 157 & 158 & 158 \\ 159 & 159 & 160 & 160 & 160 &161 & 160 & 160 & 161 & 162 \\ 162 & 162 & 163 & 164 & 164 &164 & 164 & 165 & 166 & 167 \\ 168 & 168 & 168 & 169 & 169 &170 & 171 & 171 & 171 & 171 \end{array} \] \[ \begin{array}{|c|c|c|c|c|} \hline \hline\left[c_j^{-}, c_j^{+}\right[ & n_j & N_j & f_j & F_j \\ \hline[151,5 ; 155,5[ & 10 & 10 & 0.20 & 0.20 \\ {[155,5 ; 159,5[} & 12 & 22 & 0.24 & 0.44 \\ {[159,5 ; 163,5[} & 11 & 33 & 0.22 & 0.66 \\ {[163,5 ; 167,5[} & 7 & 40 & 0.14 & 0.80 \\ {[167,5 ; 171,5[} & 10 & 50 & 0.20 & 1 \\ \hline & 50 & & 1 & \\ \hline \end{array} \]

          Eff EffCum Freq FreqCum
(151,155]  10     10 0.20    0.20
(155,159]  12     22 0.24    0.44
(159,163]  11     33 0.22    0.66
(163,167]   7     40 0.14    0.80
(167,171]  10     50 0.20    1.00
Histogramme

L’histogramme consiste à représenter les effectifs (resp. les fréquences) des classes par des rectangles contigus dont la surface (et non la hauteur) représente l’effectif (resp. la fréquence). Pour un histogramme des effectifs, la hauteur du rectangle correspondant à la classe \(j\) est donc donnée par : \[ h_j=\frac{n_j}{a_j} \] - On appelle \(h_j\) la densité d’effectif.

  • L’aire de l’histogramme est égale à l’effectif total \(n\), puisque l’aire de chaque rectangle est égale à l’effectif de la classe \(j: a_j \times h_j=n_j\). Pour un histogramme des fréquences on a \[ d_j=\frac{f_j}{a_j} \]

  • On appelle \(d_j\) la densité de fréquence.

  • L’aire de l’histogramme est égale à 1, puisque l’aire de chaque rectangle est égale à la fréquence de la classe \(j: a_j \times d_j=f_j\).

Fonction de répartition

La fonction de répartition \(F(x)\) est une fonction de \(\mathbb{R}\) dans \([0,1]\), qui est définie par \[ F(x)= \begin{cases}0 &si& x<c_1^{-} \\ F_{j-1}+\frac{f_j}{c_j^{+}-c_j^{-}}\left(x-c_j^{-}\right) &si& c_j^{-} \leq x<c_j^{+} \\ 1 &si& c_J^{+} \leq x\end{cases} \]

Paramètres de position

Le mode

Le mode est la valeur distincte correspondant à l’effectif le plus élevé ; il est noté \(x_M\).

Si on reprend la variable ‘Etat civil’ , dont le tableau statistique est le suivant : \[ \begin{array}{|c|c|c|} \hline \hline x_j & n_j & f_j \\ \hline C & 9 & 0.45 \\ M & 7 & 0.35 \\ V & 2 & 0.10 \\ D & 2 & 0.10 \\ \hline & n=20 & 1 \\ \hline \hline \end{array} \] le mode est \(C\) : célibataire.

  • Le mode peut être calculé pour tous les types de variable, quantitative et qualitative.

  • Le mode n’est pas nécessairement unique.

  • Quand une variable continue est découpée en classes, on peut définir une classe modale (classe correspondant à l’effectif le plus élevé).

La moyenne

La moyenne ne peut être définie que sur une variable quantitative.

La moyenne est la somme des valeurs observées divisée par leur nombre, elle est notée \(\bar{x}_n\) : \[ \bar{x}_n=\frac{x_1+x_2+\cdots+x_i+\cdots+x_n}{n}=\frac{1}{n} \sum_{i=1}^n x_i . \] La moyenne peut être calculée à partir des valeurs distinctes et des effectifs \[ \bar{x}_n=\frac{1}{n} \sum_{j=1}^J n_j x_j . \]

Les nombres d’enfants de 8 familles sont les suivants \(0,0,1,1,1,2,3,4\). La moyenne est \[ \bar{x}_8=\frac{0+0+1+1+1+2+3+4}{8}=\frac{12}{8}=1.5 \] On peut aussi faire les calculs avec les valeurs distinctes et les effectifs. On considère le tableau : \[ \begin{array}{|c|c|} \hline \hline x_j & n_j \\ \hline 0 & 2 \\ 1 & 3 \\ 2 & 1 \\ 3 & 1 \\ 4 & 1 \\ \hline & 8 \\ \hline \hline \end{array} \] \[ \begin{equation} \begin{aligned} \bar{x}_8 & =\frac{2 \times 0+3 \times 1+1 \times 2+1 \times 3+1 \times 4}{8} \\ & =\frac{3+2+3+4}{8} \\ & =1.5 . \end{aligned} \end{equation} \]

Moyenne géométrique

Si \(x_i \geq 0\), on appelle moyenne géométrique la quantité \[ G=\left(\prod_{i=1}^n x_i\right)^{\dfrac 1n}=\left(x_1 \times x_2 \times \cdots \times x_n\right)^{\dfrac 1n} \] On peut écrire la moyenne géométrique comme l’exponentielle de la moyenne arithmétique des logarithmes des valeurs observées \[ G=\exp \log G=\exp \log \left(\prod_{i=1}^n x_i\right)^{\dfrac 1n}=\exp \frac{1}{n} \log \prod_{i=1}^n x_i=\exp (\frac{1}{n} \sum_{i=1}^n \log x_i). \] La moyenne géométrique s’utilise, par exemple, quand on veut calculer la moyenne de taux d’intérêt.

Exemple. Supposons que les taux d’intérêt pour 4 années consécutives soient respectivement de \(5,10,15\), et \(10 \%\). Que va-t-on obtenir après 4 ans si je place 100 DH ?

  • Après 1 an on a, \(100 \times 1.05=105\) DH

  • Après 2 ans on a, $100 =115.5 $DH.

  • Après 3 ans on a, \(100 \times 1.05 \times 1.1 \times 1.15=132.825\) DH

  • Après 4 ans on a, $100 =146.1075 $DH. Si on calcule la moyenne arithmétique des taux on obtient \[ \bar{x}=\frac{1.05+1.10+1.15+1.10}{4}=1.10 . \] Si on calcule la moyenne géométrique des taux, on obtient \[ G={(1.05 \times 1.10 \times 1.15 \times 1.10)}^{\dfrac14}=1.099431377 \] Le bon taux moyen est bien \(G\) et non \(\bar{x}\), car si on applique 4 fois le taux moyen

\(G\) aux 100 DH, on obtient \[ 100 \times G^4=100 \times 1.099431377^4=146.1075. \]

Moyenne harmonique

Si \(x_i \geq 0\), on appelle moyenne harmonique la quantité \[ H=\dfrac{n}{\sum_{i=1}^n \dfrac1{x_i}} \] Il est judicieux d’appliquer la moyenne harmonique sur des vitesses. Exemple. Un cycliste parcourt 4 étapes de \(100 \mathrm{~km}\). Les vitesses respectives pour ces étapes sont de \(10 \mathrm{~km} / \mathrm{h}, 30 \mathrm{~km} / \mathrm{h}, 40 \mathrm{~km} / \mathrm{h}, 20 \mathrm{~km} / \mathrm{h}\). Quelle a été sa vitesse moyenne?

  • Un raisonnement simple nous dit qu’il a parcouru la première étape en \(10 \mathrm{~h}\), la deuxième en \(3 \mathrm{~h} 20\) la troisième en \(2 \mathrm{~h} 30\) et la quatrième en \(5 \mathrm{~h}\). Il a donc parcouru le total des \(400 \mathrm{~km}\) en \[ 10h+3 h 20+2 h 30+5 h=20 h 50=20.8333 h \] sa vitesse moyenne est donc \[ \text { Vmoy }=\frac{400}{20.8333}=19.2 \mathrm{~km} / \mathrm{h} \]
  • Si on calcule la moyenne arithmétique des vitesses, on obtient \[ \bar{x}=\frac{10+30+40+20}{4}=25 \mathrm{~km} / \mathrm{h} \]
  • Si on calcule la moyenne harmonique des vitesses, on obtient \[ H=\frac{4}{\frac{1}{10}+\frac{1}{30}+\frac{1}{40}+\frac{1}{20}}=19.2 \mathrm{~km} / \mathrm{h} =Vmoy. \]

Il est possible de montrer que la moyenne harmonique est toujours inférieure ou égale à la moyenne géométrique qui est toujours inférieure ou égale à la moyenne arithmétique \[ H \leq G \leq \bar{x} \]

Moyenne harmonique Moyenne pondérée

Dans certains cas, on n’accorde pas le même poids à toutes les observations. Par exemple, si on calcule la moyenne des notes pour un programme d’étude, on peut pondérer les notes de l’étudiant par le nombre de crédits ou par le nombre d’heures de chaque cours. Si \(w_i>0, i=1, \ldots, n\) sont les poids associés à chaque observation, alors la moyenne pondérée par \(w_i\) est définie par : \[ \bar{x}_w=\frac{\sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} . \] Exemple. Supposons que les notes soient pondérées par le nombre de crédits, et que les notes de l’étudiant soient les suivantes :

La moyenne pondérée des notes par les crédits est alors \[ \bar{x}_w=\frac{6 \times 5+3 \times 4+4 \times 3+3 \times 6+4 \times 5}{6+3+4+3+4}=\frac{30+12+12+18+20}{20}=\frac{92}{20}=4.6 \text {. } \]

La médiane

La médiane, notée \(x_{1 / 2}\), est une valeur centrale de la série statistique obtenue de la manière suivante : - On trie la série statistique par ordre croissant des valeurs observées. Avec la série observée : \[ \begin{array}{lllllll} 3 & 2 & 1 & 0 & 0 & 1 & 2 \end{array} \] on obtient : \[ \begin{array}{lllllll}0 & 0 & 1 & 1 & 2 & 2 & 3 .\end{array} \] - La médiane \(x_{1 / 2}\) est la valeur qui se trouve au milieu de la série ordonnée: \[ \begin{array}{lllllll} 0 & 0 & 1 & 1 & 2 & 2 & 3 \end{array} \] On note alors \(x_{\dfrac12}=1\). Nous allons examiner une manière simple de calculer la médiane. Deux cas doivent être distingués.

  • Si \(n\) est impair, il n’y a pas de problème (ici avec \(n=7\) ), alors \(x_{\dfrac12}=1\) : \[ \begin{array}{lllllll} 0 & 0 & 1 & 1 & 2 & 2 & 3 . \end{array} \] La Figure montre la fonction de répartition de la série. La médiane peut être définie comme l’inverse de la fonction de répartition pour la valeur \({\dfrac12}\) : \[\begin{equation} x_{\dfrac12}=F^{-1}(0.5) \end{equation}\]
[1] 1

  • Si \(n\) est pair, deux valeurs se trouvent au milieu de la série (ici avec \(n=8\) ) \[ \begin{array}{llllllll} 0 & 0 & 1 & 1 & 2 & 2 & 3 & 4 \end{array} \] La médiane est alors la moyenne de ces deux valeurs : \[ x_{\dfrac12}=\frac{1+2}{2}=1.5 \text {. } \] La Figure montre la fonction de répartition de la série de taille paire. La médiane peut toujours être définie comme l’inverse de la fonction de répartition pour la valeur \(\dfrac12\) : \[ x_{\dfrac12}=F^{-1}(0.5) . \] Cependant, la fonction de répartition est discontinue par ‘palier’. L’inverse de la répartition correspond exactement à un ‘palier’.
[1] 1.5

En général on note \[ x_{(1)}, \ldots, x_{(i)}, \ldots, x_{(n)} \] la série ordonnée par ordre croissant. On appelle cette série ordonnée la statistique d’ordre. Cette notation, très usuelle en statistique, permet de définir la médiane de manière très synthétique. - Si \(n\) est impair \[ x_{\dfrac12}=x_{\left(\frac{n+1}{2}\right)} \] - Si \(n\) est pair \[ x_{\dfrac12}=\frac{1}{2}\left\{x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}\right\} \] La médiane peut être calculée sur des variables quantitatives et sur des variables qualitatives ordinales.

Quantiles

La notion de quantile d’ordre \(p\) (où \(0<p<1\) ) généralise la médiane. Formellement un quantile est donné par l’inverse de la fonction de répartition : \[ x_p=F^{-1}(p) . \] Si la fonction de répartition était continue et strictement croissante, la définition du quantile serait sans équivoque. La fonction de répartition est cependant discontinue et “par palier”. Quand la fonction de répartition est par palier, il existe au moins 9 manières différentes de définir les quantiles selon que l’on fasse ou non une interpolation de la fonction de répartition. Nous présentons une de ces méthodes, mais il ne faut pas s’étonner de voir les valeurs des quantiles différer légèrement d’un logiciel statistique à l’autre.

  • Si \(n p\) est un nombre entier, alors \[ x_p=\frac{1}{2}\left\{x_{(n p)}+x_{(n p+1)}\right\} \]

  • Si \(n p\) n’est pas un nombre entier. alors

  • La médiane est le quantile d’ordre \(p=\dfrac12\).

  • On utilise souvent

\(x_{\dfrac14}\) le premier quartile,

\(x_{\dfrac34}\) le troisième quartile,

\(x_{\dfrac{1}{10}\) le premier décile,

\(x_{\dfrac15}\) le premier quintile,

\(x_{\dfrac45}\) le quatrième quantile,

\(x_{\dfrac{9}{10}\) le neuvième décile,

\(x_{0.05}\) le cinquième percentile ,

\(x_{0.95}\) le nonante-cinquième percentile.

  • Si \(F(x)\) est la fonction de répartition, alors \(F\left(x_p\right) \geq p\). Exemple. Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28, 34 contenant 12 observations \((n=12)\).
  • Le premier quartile : Comme \(n p=0.25 \times 12=3\) est un nombre entier, on a \[ x_{\frac14}=\frac{x_{(3)}+x_{(4)}}{2}=\frac{15+16}{2}=15.5 \text {. } \]
  • La médiane: Comme \(n p=0.5 \times 12=6\) est un nombre entier, on a \[ x_{\frac{1}{2}}=\frac{1}{2}\left\{x_{(6)}+x_{(7)}\right\}=(19+22) / 2=20.5 . \]
  • Le troisième quartile : Comme \(n p=0.75 \times 12=9\) est un nombre entier, on a \[ x_{\dfrac34}=\frac{x_{(9)}+x_{(10)}}{2}=\frac{25+27}{2}=26 . \] Exemple. Soit la série statistique \(12,13,15,16,18,19,22,24,25,27\) contenant 10 observations.
  • Le premier quartile: Comme \(n p=0.25 \times 10=2.5\) n’est pas un nombre entier, on a \[ x_{\dfrac14}=x_{([2.5])}=x_{(3)}=15. \]
  • La médiane : Comme \(n p=0.5 \times 10=5\) est un nombre entier, on a \[ x_{\frac12}=\frac{1}{2}\left\{x_{(5)}+x_{(6)}\right\}=(18+19) / 2=18.5 . \]
  • Le troisième quartile : Comme \(n p=0.75 \times 10=7.5\) n’est pas un nombre entier, on a \[ x_{\frac34}=x_{([7.57)}=x_{(8)}=24 \]

Paramètres de dispersion

L’étendue

L’étendue est simplement la différence entre la plus grande et la plus petite valeur observée. \[ \mathrm{E}=x_{(n)}-x_{(1)} \]

La distance interquartile

La distance interquartile est la différence entre le troisième et le premier quartile : \[ I Q=x_{\frac34}-x_{\frac14} \]

La variance

La variance est la somme des carrés des écarts à la moyenne divisée par le nombre d’observations : \[ s_x^2=\frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2=\frac{1}{n} \sum_{i=1}^n x_i^2-\bar{x}^2 \]

L’écart-type

L’écart-type est la racine carrée de la variance: \[ s_x=\sqrt{s_x^2} \] Quand on veut estimer l’écart-type d’une variable \(X\) partir d’un échantillon de taille \(n\), utilise la variance “corrigée” pour définir l’écart type \[ S_x=\sqrt{S_x^2}=s_x \sqrt{\frac{n}{n-1}} . \] La plupart des logiciels statistiques calculent \(S_x\) et non \(s_x\).

L’écart moyen absolu

L’écart moyen absolu est la somme des valeurs absolues des écarts à la moyenne divisée par le nombre d’observations : \[ e_{\text {moy }}=\frac{1}{n} \sum_{i=1}^n\left|x_i-\bar{x}\right| . \]

L’écart médian absolu

L’écart médian absolu est la somme des valeurs absolues des écarts à la médiane divisée par le nombre d’observations : \[ e_{m e d}=\frac{1}{n} \sum_{i=1}^n\left|x_i-x_{1 / 2}\right| . \]

Moments

On appelle moment à l’origine d’ordre \(r \in \mathbb{N}\) le paramètre \[ m_r^{\prime}=\frac{1}{n} \sum_{i=1}^n x_i^r \] On appelle moment centré d’ordre \(r \in \mathbb{N}\) le paramètre \[ m_{\mathrm{r}}=\frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{x}\right)^r . \] Les moments généralisent la plupart des paramètres. On a en particulier \[ \begin{aligned} m_1^{\prime} & =\bar{x}, \\ m_1 & =0, \\ m_2^{\prime} & =\frac{1}{n} \sum_i x_i^2=s_x^2+\bar{x}^2, \\ m_2 & =s_x^2 . \end{aligned} \]

Paramètres de forme

Coefficient d’asymétrie de Fisher (skewness)

Le moment centré d’ordre trois est défini par \[ m_3=\frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{x}\right)^3 . \] Il peut prendre des valeurs positives, négatives ou nulles. L’asymétrie se mesure au moyen du coefficient d’asymétrie de Fisher \[ g_1=\frac{m_3}{s_x^3} \]\(s_x^3\) est le cube de l’écart-type.

Coefficient d’asymétrie de Yule

Le coefficient d’asymétrie de Yule est basé sur les positions des 3 quartiles (1er quartile, médiane et troisième quartile), et est normalisé par la distance interquartile : \[ A_Y=\frac{x_{\frac34}+x_{\frac14}-2 x_{\frac12}}{x_{\frac34}-x_{\frac14}} . \]

Coefficient d’asymétrie de Pearson

Le coefficient d’asymétrie de Pearson est basé sur une comparaison de la moyenne et du mode, et est standardisé par l’écart-type : \[ A_P=\frac{\bar{x}-x_M}{s_x} \] Tous les coefficients d’asymétrie ont les mêmes propriétés, ils sont nuls si la distribution est symétrique, négatifs si la distribution est allongée à gauche, et positifs si la distribution est allongée à droite.

Paramètre d’aplatissement (kurtosis)

L’aplatissement est mesuré par le coefficient d’aplatissement de Pearson \[ \beta_2=\frac{m_4}{s_x^4} \] ou le coefficient d’aplatissement de Fisher \[ g_2=\beta_2-3=\frac{m_4}{s_x^4}-3, \]\(m_4\) est le moment centré d’ordre 4 , et \(s_x^4\) est le carré de la variance.

  • Une courbe mésokurtique si \(g_2 \approx 0\).

  • Une courbe leptokurtique si \(g_2>0\). Elle est plus pointue et possède des queues plus longues.

  • Une courbe platykurtique si \(g_2<0\). Elle est plus arrondie et possède des queues plus courtes.

Changement d’origine et d’unité

Le changement d’origine consiste à ajouter (ou soustraire) la même quantité \(a \in \mathbb{R}\) à toutes les observations \[ y_i=a+x_i, ~~~ i=1, \ldots, n. \] Le changement d’unité consiste à multiplier par la même quantité b \(\in \mathbb{R}\) toutes les observations \[ y_i=b x_i, ~~~i=1, \ldots, n . \] Le changement d’origine et d’unité consiste à multiplier toutes les observations par la même quantité \(b \in \mathbb{R}\) puis à ajouter la même quantité \(a \in \mathbb{R}\) à toutes les observations : \[ y_i=a+b x_i,~~~ i=1, \ldots, n . \] On a donc \[ \bar{y}_n=\frac{1}{n} \sum_{i=1}^n\left(a+b x_i\right)=a+b \frac{1}{n} \sum_{i=1}^n x_i=a+b \bar{x}_n, \] et \[ s_y^2=\frac{1}{n} \sum_{i=1}^n\left(y_i-\bar{y}\right)^2=\frac{1}{n} \sum_{i=1}^n\left(a+b x_i-a-b \bar{x}\right)^2=b^2 \frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2=b^2 s_x^2 \]

Moyennes et variances dans des groupes

La moyenne globale, également appelée moyenne générale ou moyenne totale ${x}_G $, est utilisée pour calculer la moyenne des valeurs d’un ensemble de groupes ou sous-groupes \(\bar x_{G_i},~~ i=1,\dots,l\).

\[ {\bar x}_G = \dfrac{\sum\limits_{i=1}^{l}n_{G_i}\bar x_{G_i} }{\sum\limits_{i=1}^{l}n_{G_i}} \]

La boîte à moustaches

La boîte à moustaches, également connue sous le nom de diagramme de boîte, est un outil graphique couramment utilisé pour visualiser la distribution d’un ensemble de données. Elle représente graphiquement les mesures de position et de dispersion des données.

Voici comment interpréter une boîte à moustaches :

Médiane (Q2) : La ligne à l’intérieur de la boîte représente la médiane, qui divise l’ensemble des données en deux parties égales. Elle indique la valeur centrale de la distribution.

Quartiles (Q1 et Q3) : La boîte est délimitée par deux lignes appelées le premier quartile (Q1) et le troisième quartile (Q3). La distance entre Q1 et Q3 est appelée l’intervalle interquartile (IIQ) et représente la dispersion des valeurs centrales des données.

Minimum et maximum : Les segments de ligne qui s’étendent à partir de la boîte, appelés les moustaches, représentent les valeurs minimale et maximale des données. Les valeurs situées au-delà des moustaches peuvent être considérées comme des valeurs aberrantes ou des observations extrêmes.

Valeurs aberrantes : Les points individuels situés en dehors des moustaches sont généralement considérés comme des valeurs aberrantes. Elles peuvent indiquer des observations inhabituelles ou des erreurs de mesure.

Symétrie et forme de la distribution : La boîte à moustaches peut donner une indication visuelle de la symétrie de la distribution. Une boîte symétrique avec des moustaches de longueur similaire indique une distribution relativement symétrique. Des asymétries peuvent être observées lorsque les moustaches ne sont pas de longueurs égales.

La boîte à moustaches permet de visualiser rapidement les principales caractéristiques d’un ensemble de données, telles que la médiane, les quartiles, l’intervalle interquartile et les valeurs aberrantes. Elle fournit une représentation visuelle utile pour comparer et analyser différentes distributions de données.

Exercice 2.1

On pèse les 50 élèves d’une classe et nous obtenons les résultats résumés dans le tableau suivant : \[ \begin{array}{llllllllll} 43 & 43 & 43 & 47 & 48 &48 & 48 & 48 & 49 & 49 \\ 49 & 50 & 50 & 51 & 51 &52 & 53 & 53 & 53 & 54 \\ 54 & 56 & 56 & 56 & 57 &59 & 59 & 59 & 62 & 62 \\ 63 & 63 & 65 & 65 & 67 &67 & 68 & 70 & 70 & 70 \\ 72 & 72 & 73 & 77 & 77 &81 & 83 & 86 & 92 & 93 \end{array} \]

  1. Indiquer le type et la nature de la variable poids ?

  2. Construire le tableau statistique en adoptant les classes suivantes: \[ [40 , 45];~] 45 , 50];~[50 , 55] ;~ ]55 ,60];~] 60 , 65] ;~ ]65,70];~ ] 70 , 80] ;~] 80 , 100] \]

  3. Tracer l’histogramme des effectifs ainsi que la fonction de répartition.

  4. Calculer les paramètres de position.

  5. Calculer les paramètres de dispersion.

  6. Calculer les paramètres de forme.

Exercice 2.2

La répartition des salaires horaires de 200 ouvriers d’une entreprise se présente comme suit : \[ \begin{array}{|c|c|} \hline Salaires~ horaires~ en~ dh&Effectif~ (n_i)\\ \hline ]7,5 ; 10]& 20\\ ]10 ; 15] &60\\ ]15 ; 20] &80\\ ]20 ; 30] &40\\ \hline Total &200\\ \hline \end{array} \]

  1. Représenter graphiquement la série statistique.
  2. Tracer le polygone des effectifs.
  3. Présenter le tableau de fréquences relatives cumulées croissants et décroissants.
  4. Quel est la part des ouvriers qui ont au maximum un salaire horaire entre 20 et 30 dh ?
  5. Quel est la part des ouvriers qui ont au minimum un salaire horaire entre 20 et 30 dh ?

Exercice 2.3

Les montants des factures établies par l’entreprise SOCOTEX durant le mois de janvier et comme suit : \[ \begin{array}{|c|c|} \hline \texttt{Montant des factures en millier de dirhams}& \text{Nombre des factures } (n_i)\\ \hline ]5 – 10]& 15\\ ]10 ; 15] &90\\ ]15 ; 20] 10&5\\ ]20 ; 30] &67\\ ]30 ; 40] &23\\ ]40 ; 50] &5\\ \hline Total& 305\\ \hline \end{array} \]

  1. Représenter graphiquement la série statistique

  2. Déterminer et interpréter les indicateurs suivants: Le mode, La médiane, La moyenne arithmétique.

Exercice 2.4

La réparation des clients de la société ALPHA en fonction de leur salaire a donné les résultats suivants : \[ \begin{array}{|c|c|} \hline \texttt{Salaires en dirhams }(x_i)& \text{Effectif } (n_i)\\ \hline ]0- 1000] &30\\ ]1000- 1500] &25\\ ]1500 - 2000] &14\\ ]2000 - 2500] &9\\ ]2500 -3000] &12\\ ]3000 - 3500] &6\\ ]3500 - 4000] &4\\ \hline Total& 100\\ \hline \end{array} \]

Déterminer et interpréter les indicateurs de dispersion suivants : l’étendu, l’écart absolu moyen,l’écart type, le coefficient de variation.

Exercice 2.5

Soit la répartition annuelle de la production des Tapis en fonction de la surface en mètre carrés : \[ \begin{array}{|c|c|} \hline \texttt{Production Tapis }(x_i)& \text{Nombre des factures } (n_i)\\ \hline ]1 , 2]& 120\\ ]2 , 3]& 140\\ ]3 , 4]& 250\\ ]4 , 5]& 140\\ ]5 , 6]& 120\\ ]6 , 12]& 900\\ ]12 , 18]& 70\\ ]18 , 30]& 20\\ \hline \end{array} \]

  1. Tracer la courbe de concentration.
  2. Calculer l’indice de concertation sur la base du graphique.
  3. Calculer la médiale sur la base du tableau.

Exercice 2.6

Une enquête menée auprès de 20 salariés de l’entreprise Alpha, qui porte sur le montant des dépenses mensuelles de transport (en \(\mathrm{dh}\) ), a donné les informations suivantes : \[ \begin{array}{|l|l|l|l|l|l|l|l|l|l|} \hline 198 & 260 & 213 & 276 & 154&189 & 191 & 232 & 166 & 334 \\ \hline 209 & 216 & 118 & 348 & 185& 176 & 299 & 155 & 145 & 168 \\ \hline \end{array} \]

  1. Déterminer la population et le caractère étudié.
  2. Quelle est la forme de graphique adéquate pour cette distribution ? justifier.
  3. Présenter les données dans un tableau statistique à l’aide des classes d’amplitude 50 , a partir de \([100-150]\).
  4. Déterminer le Mode, La médiane et la moyenne arithmétique.
  5. Calculer l’écart type et le coefficient de variation.

Chapitre 3. Série statistique bivariée

Column

Cours

Deux variables quantitatives

Une série statistique bivariée est un ensemble de données qui comporte deux variables mesurées simultanément pour chaque observation. Ces deux variables sont souvent étudiées ensemble afin de comprendre leur relation et leur interaction. Dans une série statistique bivariée, chaque observation est représentée par une paire de valeurs \((x, y)\), où \(x\) correspond à la valeur de la première variable et \(y\) correspond à la valeur de la deuxième variable. Les données sont généralement organisées sous la forme d’un tableau ou d’une liste, où chaque ligne représente une observation avec les valeurs des deux variables.

L’objectif de l’analyse d’une série statistique bivariée est d’explorer la relation entre les deux variables. On peut rechercher des tendances, des corrélations ou des modèles qui peuvent aider à comprendre comment les variations d’une variable sont liées aux variations de l’autre variable. Cela peut être réalisé en utilisant des outils statistiques tels que la covariance, le coefficient de corrélation, la régression linéaire, etc.

La représentation graphique d’une série statistique bivariée se fait généralement à l’aide d’un nuage de points, où chaque point représente une observation \((x, y)\) sur un système de coordonnées. Cette représentation visuelle permet de visualiser la dispersion des données et d’observer d’éventuelles tendances ou modèles.

En étudiant une série statistique bivariée, on peut obtenir des informations précieuses sur la relation entre les variables étudiées, ce qui peut contribuer à la prise de décisions éclairées et à la compréhension d’un phénomène ou d’un système.

Covariance

La covariance est une mesure statistique qui quantifie la relation linéaire entre deux variables aléatoires. Elle indique comment les variations des deux variables sont liées les unes aux autres. Plus précisément, la covariance mesure la direction et l’intensité de la relation linéaire entre les variables.

La formule de la covariance entre deux variables \(X\) et \(Y\), basée sur un échantillon, est la suivante : \[ \operatorname{Cov}(X, Y)=\frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)=\frac{1}{n} \sum_{i=1}^nx_iy_i-\bar{x}\bar{y} \] où :

  • \(n\) est le nombre d’observations dans l’échantillon.
  • \(x_i\) et \(y_i\) sont les valeurs observées des variables \(X\) et \(Y\) respectivement.
  • \(\bar{x}\) et \(\bar{y}\) sont les moyennes des variables \(X\) et \(Y\) respectivement.

La covariance peut prendre différentes valeurs :

  • une covariance positive indique une relation linéaire directe, ce qui signifie que lorsque les valeurs de X augmentent, les valeurs de Y ont tendance à augmenter également, et vice versa.
  • une covariance négative indique une relation linéaire inverse, ce qui signifie que lorsque les valeurs de X augmentent, les valeurs de Y ont tendance à diminuer, et vice versa.
  • une covariance proche de zéro indique une absence de relation linéaire.
Corrélation

La corrélation est une mesure statistique qui quantifie la relation linéaire entre deux variables aléatoires. Contrairement à la covariance, qui est sensible à l’échelle des variables, le coefficient de corrélation normalise la mesure pour obtenir une valeur standardisée entre -1 et 1, ce qui permet une comparaison plus facile entre différentes séries de données.

Le coefficient de corrélation le plus couramment utilisé est le coefficient de corrélation de Pearson, noté par \(r\). La formule pour le coefficient de corrélation de Pearson entre deux variables \(X\) et \(Y\), basée sur un échantillon, est la suivante : \[ r=\frac{\operatorname{Cov}(X, Y)}{s_X \cdot s_Y} \] où : - \(\operatorname{Cov}(X, Y)\) est la covariance entre \(X\) et \(Y\). - \(s_X\) et \(s_Y\) sont les écarts-types des variables \(X\) et \(Y\) respectivement.

Le coefficient de corrélation de Pearson peut prendre des valeurs entre -1 et 1 :

Un coefficient de corrélation proche de 1 indique une relation linéaire positive forte, ce qui signifie que les valeurs de \(Y\) ont tendance à augmenter lorsque les valeurs de \(X\) augmentent.

Un coefficient de corrélation proche de -1 indique une relation linéaire négative forte, ce qui signifie que les valeurs de \(Y\) ont tendance à diminuer lorsque les valeurs de \(X\) augmentent.

Un coefficient de corrélation proche de zéro indique une faible relation linéaire, voire une absence de relation linéaire, entre les variables \(X\) et \(Y\). Elle mesure la relation linéaire entre les variables et ne tient pas compte d’autres types de relations.

Droite de régression

La droite de régression est une droite qui représente la relation linéaire entre deux variables. Elle est utilisée pour prédire ou estimer les valeurs d’une variable (variable dépendante) en fonction des valeurs de l’autre variable (variable indépendante).

La droite de régression est souvent obtenue à partir d’une analyse de régression linéaire, qui cherche à déterminer l’équation de la droite qui minimise les écarts entre les valeurs observées et les valeurs prédites par la droite.

L’équation de la droite de régression linéaire est généralement exprimée sous la forme : \[ y=a+bx \] où : - \(a\) est l’ordonnée à l’origine, qui représente la valeur de \(Y\) lorsque \(X\) est égal à zéro. - \(b\) est la pente de la droite, qui représente le changement moyen de \(Y\) pour chaque unité de changement de \(X\). La droite de régression est déterminée en utilisant des méthodes d’estimation statistique pour trouver les valeurs optimales de \(a\) et \(b\) qui minimisent les écarts entre les valeurs observées et les valeurs prédites par la droite.

Une fois que l’équation de la droite de régression est obtenue, elle peut être utilisée pour prédire ou estimer les valeurs de la variable dépendante Y pour de nouvelles valeurs de la variable indépendante \(X\). Cela permet d’effectuer des prévisions ou des estimations basées sur la relation linéaire observée entre les variables.

Il est important de noter que la droite de régression suppose une relation linéaire entre les variables, ce qui signifie que les variations de la variable dépendante sont proportionnelles aux variations de la variable indépendante. Si la relation entre les variables est non linéaire, d’autres types de modèles de régression peuvent être utilisés.

On a \[ \left\{\begin{array}{l} b=\dfrac{\operatorname{Cov}(X, Y)}{s_X^2} \\ a=\bar{y}-b \bar{x} \end{array}\right. \] Remarque. La droite de régression de \(y\) en \(x\) n’est pas la même que la droite de régression de \(x\) en \(y\).

Valeurs ajustées et Résidus

Les valeurs ajustées et les résidus sont des concepts importants utilisés dans l’analyse de régression pour évaluer la qualité de l’ajustement du modèle de régression aux données observées.

Les valeurs ajustées (ou valeurs prédites) sont les valeurs de la variable dépendante estimées par le modèle de régression pour chaque observation, en utilisant les valeurs de la variable indépendante et les coefficients du modèle. Les valeurs ajustées représentent la position théorique des observations sur la droite de régression.

Les résidus, quant à eux, sont les différences entre les valeurs observées de la variable dépendante et les valeurs ajustées par le modèle. Ils représentent les erreurs ou les écarts entre les données réelles et les prédictions du modèle. Les résidus \(e_i\) sont calculés en soustrayant les valeurs ajustées \(y_i^*\) des valeurs observées \(y_i\): \[ e_i=y_i-y_i^* \] Pour chaque observation, un résidu est calculé, et l’ensemble des résidus permet d’évaluer la qualité de l’ajustement du modèle. Si le modèle de régression est bien ajusté, les résidus devraient être aléatoires, centrés autour de zéro et ne présenter aucun schéma ou tendance.

Deux variables qualitatives

Si les deux variables \(X\) et \(Y\) sont qualitatives, alors les données observées sont une suite de couples de variables \[ \left(x_1, y_1\right), \ldots,\left(x_i, y_j\right), \ldots,\left(x_n, y_n\right), \] chacune des deux variables prend comme valeurs des modalités qualitatives. Les valeurs distinctes de \(x\) et \(y\) sont notées respectivement \[ x_1, \ldots, x_j, \ldots, x_J \] et \[ y_1, \ldots, y_k, \ldots, y_K \]

Tableau de contingence

Les données observées peuvent être regroupées sous la forme d’un tableau de contingence \[ \begin{array}{c|ccccc|c} & y_1 & \cdots & y_k & \cdots & y_K & Total \\ \hline x_1 & n_{11} & \cdots & n_{1 k} & \cdots & n_{1 K} & n_{1 .} \\ \vdots & \vdots & & \vdots & & \vdots & \\ x_j & n_{j 1} & \cdots & n_{j k} & \cdots & n_{j K} & n_{j .} \\ \vdots & \vdots & & \vdots & & \vdots & \\ x_J & n_{J 1} & \cdots & n_{J k} & \cdots & n_{J K} & n_{J .} \\ \hline Total & n_{.1} & \cdots & n_{. k} & & n_{. K} & n \end{array} \] avec - \(n_{j.}\) et \(n_{. k}\) sont appelés les effectifs marginaux, - \(n_j\). représente le nombre de fois que la modalité \(x_j\) apparaît, - \(n_{. k}\) représente le nombre de fois que la modalité \(y_k\) apparaît, - \(n_{j k}\) représente le nombre de fois que les modalités \(x_j\) et \(y_k\) apparaissent ensemble.

On a les relations \[ \begin{gathered} \sum_{j=1}^J n_{j k}=n_{. k}, \text { pour } k=1, \ldots, K, \\ \sum_{k=1}^K n_{j k}=n_{j .}, \text { pour } j=1, \ldots, J, \end{gathered} \] et \[ \sum_{j=1}^J n_{j .}=\sum_{k=1}^K n_{. k}=\sum_{j=1}^J \sum_{k=1}^K n_{j k}=n \]

Tableau des fréquences

Le tableau de fréquences s’obtient en divisant tous les effectifs par la taille de l’échantillon : \[ \begin{array}{cl} f_{j k}=\dfrac{n_{j k}}{n}, &j=1, \ldots, J, k=1, \ldots, K \\ f_{j .}=\dfrac{n_{j .}}{n}, &j=1, \ldots, J, \\ f_{. k}=\dfrac{n_{. k}}{n}, &k=1, \ldots, K . \end{array} \] Le tableau des fréquences est \[ \begin{array}{c|ccccc|c} & y_1 & \cdots & y_k & \cdots & y_K & Total \\ \hline x_1 & f_{11} & \cdots & f_{1 k} & \cdots & f_{1 K} & f_{1 .} \\ \vdots & \vdots & & \vdots & & \vdots & \\ x_j & f_{j 1} & \cdots & f_{j k} & \cdots & f_{j K} & f_{j .} \\ \vdots & \vdots & & \vdots & & \vdots & \\ x_J & f_{J 1} & \cdots & f_{J k} & \cdots & f_{J K} & f_{J .} \\ \hline Total & f_{.1} & \cdots & f_{. k} & & f_{. K} & 1 \end{array} \]

Profils lignes et profils colonnes

Les profils lignes sont définis par \[ f_k^{(j)}=\frac{n_{j k}}{n_j}=\frac{f_{j k}}{f_{j .}}, k=1, \ldots, K, j=1, \ldots, J \] et les profils colonnes par \[ f_j^{(k)}=\frac{n_{j k}}{n_{. k}}=\frac{f_{j k}}{f_{. k}}, j=1, \ldots, J, k=1, \ldots, K . \] ##### Effectifs théoriques et khi-carré Pour mettre en évidence le lien entre des lignes et des colonnes, on construit un tableau d’effectifs théoriques qui représente la situation où les variables ne sont pas liées (indépendance). Ces effectifs théoriques sont calculés en utilisant la formule suivante : \[ n_{j k}^*=\frac{n_{j \cdot} n_{. k}}{n} . \] Les effectifs observés \(n_{j k}\) ont les mêmes marges que les effectifs théoriques \(n_{j k}^*\). Enfin, les écarts à l’indépendance sont définis par \[ e_{j k}=n_{j k}-n_{j k}^* . \] - La dépendance du tableau se mesure au moyen du khi-carré défini par \[ \chi_{o b s}^2=\sum_{k=1}^K \sum_{j=1}^J \frac{\left(n_{j k}-n_{j k}^*\right)^2}{n_{j k}^*}=\sum_{k=1}^K \sum_{j=1}^J \frac{e_{j k}^2}{n_{j k}^*} . \] - Le khi-carré peut être normalisé pour ne plus dépendre du nombre d’observations. On définit le phi-deux par : \[ \phi^2=\frac{\chi_{o b s}^2}{n} . \] Le \(\phi^2\) ne dépend plus du nombre d’observations. Il est possible de montrer que \[ \phi^2 \leq \min (J-1, K-1) . \] - Le \(V\) de Cramer est définit par \[ V=\sqrt{\frac{\phi^2}{\min (J-1, K-1)}}=\sqrt{\frac{\chi_{o b s}^2}{n \min (J-1, K-1)}} . \] - Le \(V\) de Cramer est compris entre 0 et 1. Il ne dépend ni de la taille de l’échantillon ni de la taille du tableau. Si \(V ≈ 0\), les deux variables sont indépendantes. Si \(V = 1\), il existe une relation fonctionnelle entre les variables, ce qui signifie que chaque ligne et chaque colonne du tableau de contingence ne contiennent qu’un seul effectif différent de 0 (il faut que le tableau ait le même nombre de lignes que de colonnes).

Exercice 3.1

Considérons un échantillon de 10 fonctionnaires (ayant entre 40 et 50 ans) d’un ministère. Soit \(\mathrm{X}\) le nombre d’années de service et \(Y\) le nombre de jours d’absence pour raison de maladie (au cours de l’année précédente) déterminé pour chaque personne appartenant à cet échantillon. \[ \begin{array}{|r|r|r|r|r|r|r|r|r|r|r|} \hline \hline x_i & 2 & 14 & 16 & 8 & 13 & 20 & 24 & 7 & 5 & 11 \\ \hline y_i & 3 & 13 & 17 & 12 & 10 & 8 & 20 & 7 & 2 & 8 \\ \hline \hline \end{array} \]

  1. Représenter le nuage de points.
  2. Calculer le coefficient de corrélation entre \(X\) et \(Y\).
  3. Déterminer l’équation de la droite de régression de \(Y\) en fonction de \(X\).
  4. Déterminer la qualité de cet ajustement.
  5. Établir, sur base de ce modèle, le nombre de jours d’absence pour un fonctionnaire ayant 22 ans de service.

Exercice 3.2

Le tableau suivant présente le chiffre d’affaire mensuel de la société ALPHA et le nombre des projets réalisés par mois. \[ \begin{array}{|c|c|c|c|c|c|c|} \hline \text{Chiffre d'affaire }(Y) & 10 & 14 & 24 & 30 & 38 & 44 \\ \hline \text{Nombre de projets }(X) & 2 & 3 & 6 & 8 & 10 & 12 \\ \hline \end{array} \] 1) Calculer et interpréter la covariance. 2) Calculer et interpréter le coefficient de corrélation. 3) Déterminer l’équation de la droite de régression.

Exercice 3.3

Le tableau suivant présente le recensement des accidents de la circulation et les permis de conduire délivrés au Maroc entre l’année 2002 et 2006.

  1. Calculer et interpréter le coefficient de corrélation.
  2. Donner l’équation de la droite de régression.

Exercice 3.4

Le tableau suivant représente le poids de 120 enfants en fonction de leur Âge \[ \begin{array}{|c|c|c|c|c|} \hline Poids & { [12-16] } & { [16-20] } & { [20-24] } & Total \\ Age&&&&\\ \hline [3-4] & 14 & 6 & 2 & 22 \\ \hline [4-5] & 28 & 24 & 10 & 62 \\ \hline [5-6] & 4 & 12 & 20 & 36 \\ \hline Total & 46 & 42 & 32 & \mathbf{1 2 0} \\ \hline \end{array} \] 1) Calculer les moyennes marginales et la variance marginale et l’écart type. 2) Calculer la moyenne conditionnelle et la variance conditionnelle des âges des enfants ayant un poids entre \([20-24] \mathrm{kg}\).

Exercice 3.5

Le tableau suivant présente la répartition de la situation matrimoniale \((\mathrm{X})\) en fonction de l’âge \((Y)\). \[ \begin{array}{|c|c|c|c|c|c|} \hline \text { Age }&[18 – 25] & {[25-30]}& {[30-45]} & {[45-60]} & \text { Total } \\ \text {Situation matrimoniale (X) }& & & & \\ \hline \text { Célibataire } &87 & 57 & ? & ? & ? \\ \hline \text { Marié(e) } & 39&45 & 14& 19& 117 \\ \hline \text { Divorcé(e) } & 15 & 45 & 14 & 19 & 117 \\ \hline \text { Veuf (e) } & 8 & 14 & ? & 25 & 123 \\ \hline \text { Total } & ? & ? & 96 & 56 & ?\\ \hline \end{array} \]

  1. Compléter le tableau de contingence.
  2. Présenter les distributions marginales de \(X\) et \(Y\).
  3. Présenter les distributions conditionnelles de (\(X\) par rapport à \(\mathrm{Y}\) ) et ( \(\mathrm{Y}\) par rapport à \(\mathrm{X}\) ).

Le tableau présente la répartition de la vitesse de 400 véhicules en fonction de leurs poids \[ \begin{array}{|c|c|c|c|c|} \hline \text { Poids }(kg)& \mathbf{2 0}-\mathbf{2 5}] & { [\mathbf{2 5}-\mathbf{3 0}] } & { [\mathbf{3 0}-\mathbf{4 5}] } & Total \\ \text { } \\ \text { Vitesse } \\ (\mathbf{k m} / \mathbf{h})\end{array} \\ \hline [\mathbf{7 0}-\mathbf{8 0}] & 12 & 57 & 48 & 117 \\ \hline [\mathbf{8 0}-\mathbf{9 0}] & ? & 45 & 14 & 73 \\ \hline [\mathbf{9 0}-\mathbf{1 0 0 ]} & 15 & ? & 87 & ? \\ \hline [\mathbf{1 0 0}-\mathbf{1 1 0}] & 8 & 16 & 48 & 72 \\ \hline Total & 49 & ? & 197 & ? \\ \hline \end{array} \]

  1. Compléter le tableau de contingence.
  2. Calculer la vitesse moyenne des véhicules qui ont un poids compris entre 30 et \(45 \mathrm{~kg}\).

Chapitre 4. Taux et Indices

Column

Cours

Indices élémentaires

Un indice est un rapport (quotient) entre deux valeurs d’une même grandeur mesurées à deux dates différentes \(t_1\) et \(t_2\) ou à deux endroits différents \(E_1\) et \(E_2\). Un indice est donc un nombre sans dimension.

En pratique, on exprime généralement les rapports en pourcentage, c’est-à-dire, nous multiplions par 100 le résultat du calcul numérique.

Il existe plusieurs types d’indices, l’indice élémentaire est le plus simple de tous les indices.

Désignons par \(V_1\) et \(V_2\) les valeurs prises par la grandeur \(G\) à la date \(t_1\) et à la date \(t_2\). On appelle l’indice élémentaire de \(G\) entre la date \(t_1\) et la date \(t_2\) le rapport \[ i_{2/1}=\frac{V_2}{V_1} \] L’indice \(_1\) correspond à l’année (ou au lieu) de base ou de référence.

L’indice \(_2\) correspond à l’année (ou au lieu) courant.

Exemple. Le prix d’un produit est passé de 5 DH en 2022 à 5.5 DH en 2023.

L’indice élémentaire est \[ i_{2023/2022}=\frac{5.5}{5}=1.1 \] Cet indice en base 100, est de 110 \[ I_{2023/2022}=\frac{5.5}{5}\times 100=110. \]

L’indice élémentaire vérifie les propriétés suivantes.

  1. L’indice élémentaire est réversible; en effet \[i_{2/1}=\frac{V_2}{V_1}=\dfrac{1}{\dfrac{V_1}{V_2}}=\frac{1}{i_{1/2}}\]
  2. L’indice élémentaire est transférable (ou circulaire) \[i_{3/1}=\frac{V_3}{V_1}=\frac{V_3}{V_2}\frac{V_2}{V_1}=i_{3/2}i_{2/1}\] Cette propriété de circularité est généralisable, on dit alors que les indices élémentaires sont enchaînables \[i_{k/1}=i_{k/k-1}i_{k-1/k-2}\ldots i_{2/1}\] Cette formule permet les changements de base.

Taux de variation

Soit une grandeur \(G\) prenant la valeur \(V_0\) à la date \(t_0\) et la valeur \(V_1\) à la date \(t_1\). On appelle taux de variation le nombre, noté \(\tau\), tel que \[V_1=V_0(1+\tau_{1/0})\] Remarque. Le facteur multiplicatif \((1+\tau)=I_{1/0}\), n’est autre que l’indice élémentaire de la grandeur G et \[\tau_{1/0}=i_{1/0}-1\] Comme pour les indices, on exprime les taux en pourcentage.

Si \(\tau\) est positif, \(V_1\) est supérieur à \(V_0\); on dit qu’il y a hausse ou croissance.

Si \(\tau\) est négatif, \(V_1\) est inférieur à \(V_0\); on dit qu’il y a baisse ou décroissance.

Exemple. Si on prend l’exemple précédent, le taux de variation est \[ \tau_{1/0}=\dfrac{P_1}{P_0}-1=1.1-1=0.1 \] soit \(10\%\), on dit que le prix a augmenté de \(10\%\).

Remarque. L’indice d’une grandeur et son taux de variation sont donc deux façons différentes d’exprimer la même réalité.

Taux de variation globale

Soit une grandeur \(G\) prenant des valeurs \(V_0,~ V_1\ldots V_n\) aux dates \(t_0,~ t_1\ldots t_n\). On appelle taux de variation globale le nombre \(\tau_g\) tel que \[ V_n=V_0(1+\tau_g) \] On a \[V_1=V_0(1+\tau_1),~V_2=V_1(1+\tau_2),\dots ,~V_n=V_{n-1}(1+\tau_n),\] donc \[V_n=V_0(1+\tau_1)(1+\tau_2)\ldots(1+\tau_n),\quad et \quad 1+\tau=\prod_{i=1}^n(1+\tau_i)\] Exemple. Soit une production dont le prix a augmenté de \(6\%\) la première année, \(8\%\) la seconde année et \(5\%\) la troisième année. De combien le prix a-t-il augmenté en 3 ans.

On a: \(P_1=P_0(1+0,06)\), \(P_2=P_1(1+0,08)\) et \(P_3=P_2(1+0,05)\) d’où \[P_3=P_0(1,06\times 1,08\times 1,05)=P_0\times 1,202=P_0(1+0,202)\] Le taux de variation sur trois ans est de 0.202. Le prix du produit a donc augmenté de \(20.2\%\) en trois ans.

Remarques. 1) Les taux de variations ne s’additionnent pas: \[ 6+8+5=19\ne 20.2. \] 2) Dans le cas particulier où les taux annuels sont identiques et égaux à \(\tau_1\), on a la formule \[ 1+\tau=\prod_{i=1}^n(1+\tau_i)=(1+\tau_1)^n \] Exemple. Sachant que la population d’un pays augmente de \(3\%¨\) par an, de combien la population aura-t-elle augmenté en 20 ans?

D’après la formule précédente on a: \[ 1+\tau=(1,03)^{20}=1,806 \] La population aura donc augmenté en 20 ans de \(80,6\%\)

Taux de variation moyen annuel

On appelle taux de variation moyen annuel le nombre \(\bar \tau\) tel que \[ (1+\bar \tau)=\left(\prod_{i=1}^n(1+\tau_i)\right)^{\frac{1}{n}} \] Exemple. Dans l’exemple précédent, le prix du produit a augmenté de \(20,2\%\) en trois ans.

L’augmentation moyenne annuelle est donc donnée par \[ (1+\bar\tau)=(1+0,202)^{\frac{1}{3}}=\sqrt[3]{1,202}=1,0632 \] D’où \(\bar\tau=0,0632\), soit \(6,32\%\).

Taux de variation composé

Le taux de variation composé permet de calculer le taux de variation d’une grandeur produit, comme par exemple une valeur globale, produit d’un prix par une quantité.

Si on appelle \(\tau_i\) le taux de variation de la valeur globale, \(\tau_{pi}\) celui des prix, \(\tau_{qi}\), celui des quantités, correspondant à l’année i, on a: \[ 1+\tau_{i}=(1+\tau_{pi})(1+\tau_{qi}) \] \(\bullet\) Le taux de variation global composé est donné par \[ (1+\tau)=\prod_{i=1}^n\left[(1+\tau_{pi})(1+\tau_{qi})\right]= \prod_{i=1}^n(1+\tau_{pi})\prod_{i=1}^n(1+\tau_{qi})=(1+\tau_{p})(1+\tau_{q}). \] \(\bullet\) Le taux de variation moyen annuel composé est donné par \[ (1+\bar \tau)=\left(\prod_{i=1}^n(1+\tau_{pi})(1+\tau_{qi})\right)^{\frac{1}{n}} =\left(\prod_{i=1}^n(1+\tau_{pi})\right)^{\frac{1}{n}} \left(\prod_{i=1}^n(1+\tau_{qi})\right)^{\frac{1}{n}}=(1+\bar{\tau_p})(1+\bar{\tau_q}) \]

Taux de proportionnalité

Soit une grandeur \(G\) composée de plusieurs éléments. Le taux de proportionnalité indique simplement le rapport entre la valeur d’un des éléments et la valeur de la grandeur \(G\). Comme le taux de variation, on l’exprime généralement en pourcentage, c’est-à-dire que l’on multiplie par 100 le résultat du calcul numérique.

Exemple. Le taux de chômage est le rapport entre le nombre des chômeurs et le nombre de personnes formant la population active.

Si la population est de 30 millions de personnes et si le taux de chômage est de 10%, alors le nombre de chômeurs est: 30.0,10=3 millions.

Indices synthétiques

Quand on veut calculer un indice à partir de plusieurs prix, le problème devient sensiblement plus compliqué. Un indice synthétique est une grandeur d’un ensemble de biens par rapport à une année de référence. On ne peut pas construire un indice synthétique en additionnant simplement des indices simples. Il faut, en effet, tenir compte des quantités achetées.

Pour calculer un indice de prix de \(n\) biens de consommation étiquetés de \(1,2, \ldots, n\), on utilise la notation suivante : - \(p_{t i}\) représente le prix du bien de consommation \(i\) au temps \(t\), - qui représente la quantité de biens \(i\) consommée au temps \(t\). Considérons par exemple le Tableau 4.3 qui contient 3 biens de consommation et pour lesquels ont connaît les prix et les quantités achetées.

Il existe deux méthodes fondamentales pour calculer les indices de prix, l’indice de Paasche et l’indice de Laspeyres.

Indice de Laspeyres

L’indice de Laspeyres, est défini par \[ L(t / 0)=100 \times \frac{\sum_{i=1}^n q_{0 i} p_{t i}}{\sum_{i=1}^n q_{0 i} p_{0 i}} . \] On utilise pour le calculer, les quantités \(q_{0 i}\) du temps de référence.

Exemple : prix et quantités de trois bien pendant 3 ans \[ \begin{array}{|l|cc|cc|cc|} \hline Temps & 0 & & 1 & & 2& \\ & Prix \left(p_{0 i}\right) & Quantités \left(q_{0 i}\right) & Prix \left(p_{1 i}\right) & Quantités \left(q_{1 i}\right) & Prix \left(p_{2 i}\right) & Quantités \left(q_{2 i}\right) \\ \hline Bien 1 & 100 & 14 & 150 & 10 & 200 & 8 \\ Bien 2 & 60 & 10 & 50 & 12 & 40 & 14 \\ Bien 3 & 160 & 4 & 140 & 5 & 140 & 5 \\ \hline \end{array} \] L’indice de Laspeyres peut aussi être présenté comme une moyenne pondérée des indices simples. Soient l’indice simple du bien \(i\) : \[ I_i(t / 0)=100 \times \frac{p_{t i}}{p_{0 i}} \] et le poids \(w_{0 i}\) correspondant à la recette totale du bien \(i\) au temps 0 \[ w_{0 i}=p_{0 i} q_{0 i}. \] L’indice de Laspeyres peut alors être défini comme une moyenne des indices simples pondérés par les recettes au temps 0 : \[ L(t / 0)=\frac{\sum_{i=1}^n w_{0 i} I_i(t / 0)}{\sum_{i=1}^n w_{0 i}}=\frac{\sum_{i=1}^n p_{0 i} q_{0 i} 100 \times \frac{p_{t i}}{p_{0 i}}}{\sum_{i=1}^n p_{0 i} q_{0 i}}=100 \times \frac{\sum_{i=1}^n q_{0 i} p_{t i}}{\sum_{i=1}^n p_{0 i} q_{0 i}} . \] L’indice de Laspeyres ne possède ni la propriété de circularité ni de réversibilité. L’indice de Laspeyres est facile à calculer, car seules les quantités \(q_{0 i}\) du temps

Exemple. Avec le tableau précédent, les indices de Laspeyres sont les suivants \[ \begin{aligned} & L(1 / 0)=100 \times \frac{\sum_{i=1}^n q_{0 i} p_{1 i}}{\sum_{i=1}^n q_{0 i} p_{0 i}}=100 \times \frac{14 \times 150+10 \times 50+4 \times 140}{14 \times 100+10 \times 60+4 \times 160}=119.6970, \\ & L(2 / 0)=100 \times \frac{\sum_{i=1}^n q_{0 i} p_{2 i}}{\sum_{i=1}^n q_{0 i} p_{0 i}}=100 \times \frac{14 \times 200+10 \times 40+4 \times 140}{14 \times 100+10 \times 60+4 \times 160}=142.4242, \\ & L(2 / 1)=100 \times \frac{\sum_{i=1}^n q_{1 i} p_{2 i}}{\sum_{i=1}^n q_{1 i} p_{1 i}}=100 \times \frac{10 \times 200+12 \times 40+5 \times 140}{10 \times 150+12 \times 50+5 \times 140}=113.5714 \end{aligned} \]

Indice de Paasche

L’indice de Paasche, est défini par \[ P(t / 0)=100 \times \frac{\sum_{i=1}^n q_{t i} p_{t i}}{\sum_{i=1}^n q_{t i} p_{0 i}} \] On utilise, pour le calculer, les quantités \(q_{t i}\) du temps par rapport auquel on veut calculer l’indice.

L’indice de Paasche peut aussi être présenté comme une moyenne harmonique pondérée des indices simples. Soient l’indice simple du bien \(i\) : \[ I_i(t / 0)=100 \times \frac{p_{t i}}{p_{0 i}} \] et le poids \(w_{t i}\) correspondant à la recette totale du bien \(i\) au temps \(t\) \[ w_{t i}=p_{t i} q_{t i} \] L’indice de Paasche peut alors être défini comme une moyenne harmonique des indices simples pondérés par les recettes au temps \(t\) : \[ P(t / 0)=\frac{\sum_{i=1}^n w_{t i}}{\sum_{i=1}^n w_{t i} / I_i(t / 0)}=\frac{\sum_{i=1}^n p_{t i} q_{t i}}{\sum_{i=1}^n p_{t i} q_{t i} \frac{p_{0 i}}{100 \times p_{t i}}}=100 \times \frac{\sum_{i=1}^n q_{t i} p_{t i}}{\sum_{i=1}^n q_{t i} p_{0 i}} . \] L’indice de Paasche ne possède ni la propriété de circularité ni de réversibilité. L’indice de Paasche est plus difficile à calculer que l’indice de Laspeyres, car on doit connaître les quantités pour chaque valeur de \(t\).

Exemple. Avec le tableau précédent, les indices de Laspeyres sont les suivants

\[ \begin{aligned} &P(1 / 0)=100 \times \frac{\sum_{i=1}^n q_{1 i} p_{1 i}}{\sum_{i=1}^n q_{1 i} p_{0 i}}=100 \times \frac{10 \times 150+12 \times 50+5 \times 140}{10 \times 100+12 \times 60+5 \times 160}=111.1111, \\ &P(2 / 0)=100 \times \frac{\sum_{i=1}^n q_{2 i} p_{2 i}}{\sum_{i=1}^n q_{2 i} p_{0 i}}=100 \times \frac{8 \times 200+14 \times 40+5 \times 140}{8 \times 100+14 \times 60+5 \times 160}=117.2131, \\ &P(2 / 1)=100 \times \frac{\sum_{i=1}^n q_{2 i} p_{2 i}}{\sum_{i=1}^n q_{2 i} p_{1 i}}=100 \times \frac{8 \times 200+14 \times 40+5 \times 140}{8 \times 150+14 \times 50+5 \times 140}=110 . \end{aligned} \] ##### L’indice de Fisher

L’indice de Laspeyres est en général plus grand que l’indice de Paasche, ce qui peut s’expliquer par le fait que l’indice de Laspeyres est une moyenne arithmétique d’indices élémentaires tandis que l’indice de Paasche est une moyenne harmonique. Nous avons vu qu’une moyenne harmonique est toujours inférieure ou égale à une moyenne arithmétique. Cependant ici, ce résultat est approximatif, car on n’utilise pas les mêmes poids pour calculer l’indice de Paasche \(\left(w_{t i}\right)\) et de Laspeyres \(\left(w_{0 i}\right)\).

Fisher a proposé d’utiliser un compromis entre l’indice de Paasche et de Laspeyres en calculant simplement la moyenne géométrique de ces deux indices \[ F(t / 0)=\sqrt{L(t / 0) \times P(t / 0)} \] L’avantage de l’indice de Fisher est qu’il jouit de la propriété de réversibilité. Avec les donnyes de notre exemple \[ \begin{aligned} & F(1 / 0)=\sqrt{L(1 / 0) \times P(1 / 0)}=115.3242, \\ & F(2 / 0)=\sqrt{L(2 / 0) \times P(2 / 0)}=129.2052, \\ & F(2 / 1)=\sqrt{L(2 / 1) \times P(2 / 1)}=111.7715 \end{aligned} \]

Exercice 4.1

Le prix moyen de la tonne d’un produit P a augmenté de 125% entre 2017 et 2019, de 20% entre 2019 et 2021 et de 80% entre 2021 et 2023.

  1. Quel est le pourcentage d’augmentation de la tonne de produit P entre 2017 et 2023.
  2. De quel pourcentage le prix de 2023 devrait-il diminuer pour retrouver le niveau de 2017 ?

Exercice 4.2

En 2019, un fabricant a vendu 1200 articles à 15 DH pièce. Sachant que, au cours des trois années suivantes, les quantités vendues ont augmenté respectivement de 5%, 6%, 4% par an, pendant que les prix avaient des variations de 2%, 1%, \(-2\%\) par an. Calculer

  1. les quantités vendues en 2023.

  2. le prix de vente unitaire en 2023.

  3. le chiffre d’affaires en 2020 et en 2023.

  4. le taux de variation global et le taux de variation moyen annuel du chiffre d’affaires.

Exercice 4.3

On appelle taux de marque d’un commerçant le rapport du bénéfice et de prix de vente hors taxe exprimé en pourcentage.

  1. Un fabricant vend 830DH, hors taxe un produit P dont le prix de revient est de 630DH. Calculer le taux de marque de ce fabricant.

  2. Le prix de revient d’un produit Q est 4200DH, la main d’œuvre comptant pour 30% dans ce prix de revient. Le bénéfice représente 33% du prix de revient. Quel est le taux de marque du fabricant ?

  3. Les dépenses de main d’œuvres augmentent de 50%. Le fabricant souhaite garder le même bénéfice. Quel sera le nouveau taux de marque de cet article ?

Exercice 4.4

On donne le tableau suivant: \[ \begin{array}{|c|cc|cc|} \hline Produit &Année ~N & &Année ~N+1& \\ \hline & Quantité & Prix~unitaire ~(€) & Quantité & Prix~ unitaire ~(€) \\ \hline \mathrm{A} & 6 & 4,57 & 4 & 8,38 \\ \hline B & 2 & 3,05 & 3 & 3,81 \\ \hline \mathrm{C} & 10 & 1,22 & 15 & 0,91 \\ \hline \end{array} \] Calculer l’indice composé des prix de

  1. la Laspeyres
  2. la Paasche
  3. la Fisher

Exercice 4.5

Le tableau suivant fournit les prix \(\left(\mathrm{P}_{\mathrm{i}}\right)\) et les quantités \(\left(\mathrm{Q}_{\mathrm{i}}\right)\) de trois types d’huile essentielle \(\mathrm{H}_{\mathrm{i}}\) (avec \(\mathrm{i}=1,2,3\) ) en 2000 ; les indices élémentaires de prix \(\left(\mathrm{I}_{\mathrm{p}}\right)\) et les indices élémentaires des quantités \(\left(\mathrm{I}_{\mathrm{q}}\right)\) de ces 3 biens en 2007 (base 100 en 2000). \[ \begin{array}{|l|l|l|l|l|} \hline Biens & \mathrm{P}_{\mathrm{i}}~ en ~2000 & \mathrm{Q}_{\mathrm{i}}~ en~ 2000 & \mathrm{I}_{\mathrm{p}} 2007 / 2000 & \mathrm{I}_{\mathrm{q}} 2007/2000 \\ \hline \mathrm{H}_1 & 4 & 5 & 200 & 25 \\ \hline \mathrm{H}_2 & 10 & 4 & 120 & 125 \\ \hline \mathrm{H}_3 & 8 & 5 & 75 & 100 \\ \hline \end{array} \]

  1. Calculer les coefficients budgétaires \(\alpha_i\) relatifs à la période de base.
  2. Calculer les coefficients budgétaires \(\beta_i\) relatifs à la période courante
  3. Démontrer que l’indice de Laspeyre des prix est la moyenne arithmétique des indices de prix élémentaires pondérée par les \(\alpha_{\mathrm{i}}\). A partir des résultats précédents calculez l’indice de Laspeyre des prix.
  4. Démontrer que l’indice de Paasche des prix est la moyenne harmonique des indices de prix élémentaires pondérée par les \(\beta_{\mathrm{i}}\). A partir des résultats précédents calculez l’indice de Paasche des prix.
  5. En déduire l’indice de Fisher des prix.

Chapitre 4. Séries chronologiques

Column

Cours

Une série temporelle est une suite d’observations d’une quantité répétée dans le temps.

On énonce en général l’hypothèse que les intervalles de temps sont équidistants. La série temporelle est notée \[ y_1, \ldots, y_t, \ldots, y_T \] On note également \(\mathcal{T}=\{1,~2, \ldots, t,~ \ldots,~ T\}\) l’ensemble des instants auxquels les observations sont réalisées. Une série temporelle peut se composer de :

  • une tendance \(T_t\),

  • une composante cyclique \(C_t\) (nous n’étudierons pas cette question),

  • une composante saisonnière \(S_t\),

  • un résidu \(E_t\) (partie inexpliquée).

On étudie deux types de modèles : - Le modèle additif :

\[ y_t=T_t+C_t+S_t+E_t \] - Le modèle multiplicatif :

\[ y_t=T_t \times C_t \times S_t \times E_t . \] Il peut être intéressant de décomposer la série, ce qui consiste à séparer les composantes \(T_t,~ C_t,~ S_t,~ E_t\).

Traitement des séries temporelles

Le traitement des séries temporelles peut avoir plusieurs objectifs.

  • isoler et estimer une tendance,

  • isoler et estimer une composante saisonnière, et désaisonnaliser la série,

  • réaliser une prévision pour des valeurs inconnues manquantes, futures ou passées,

  • construire un modèle explicatif en terme de causalité,

  • déterminer la durée d’un cycle.

Exemple. a série des indices trimestriels de vente de marchandises d’une entreprise est fournie pour trois années dans le tableau suivant : \[ \begin{array}{|c|c|c|c|} \hline Trimestres& 1997 & 1998 & 1999 \\ \hline \text { 1 } & 118.2 & 148.6 & 163.3 \\ \hline \text { 2 } & 129 & 154.5 & 175.3 \\ \hline \text { 3 } & 138.9 & 163 & 189.1 \\ \hline \text { 4 } & 157.1 & 184 & 217.9 \\ \hline \end{array} \] Le procédé qui permet de montrer que la série subit des variations saisonnières est de type graphique. On peut, par exemple, tracer des courbes superposées ou une courbe polygonale.

  1. Courbes superposées

  1. Courbe polygonale

  • Détermination de la tendance :

\[ y = at+b= \frac{cov(Y,T)}{V(T)}t+(\bar y -a\bar t)=7.13t+115.25 \] - Désaisonnalisation de la série avec la méthode des moyennes mobiles.

Schéma additif :

\[ \mathrm{y}=\mathrm{T}+\mathrm{S}+\mathrm{A} \] On suppose que les variations accidentelles ou résiduelles (A) sont nulles. \[ \mathrm{Y}=\mathrm{T}+\mathrm{S}, \] et \[ \mathrm{S}=\mathrm{Y}-\mathrm{T} \Rightarrow S_{i j}=Y_{i j}-M_{i j}. \] On doit estimer la tendance ou le trend \(\mathrm{T}\) en utilisant les moyennes mobiles \(M_{m i j}\).

Etape 1 : calcul des moyennes mobiles d’ordre 4 (on a 4 trimestres) \[ \mathrm{Mm}_{1 3}=\frac{1}{4}\left(\frac{y_{1 1}}{2}+\mathrm{y}_{1 2}+\mathrm{y}_{1 3}+\mathrm{y}_{1 4}+\frac{y_{2 1}}{2}p\right)=\frac{1}{4}\left(\frac{118.2}{2}+129+138.9+157.1+\frac{148.6}{2}\right)=139.6 \] \[ \mathrm{Mm}_{1 4}=\frac{1}{4}\left(\frac{129}{2}+138.9+157.1+148.6+\frac{154.5}{2}\right)=146.59 \approx 146.6 \] On obtient le tableau(2) suivant : \[ \begin{array}{|c|cc|cc|cc|} \hline & 1 & & 2 & & 3 & \\ \hline 1 & 118.2 & y_{1 1} & 148.6 & y_{2 1} & 163.3 & y_{3 1} \\ \hline 2 & 129 & y_{1 2} & 154.5 & y_{2 2} & 175.3 & y_{3 2} \\ \hline 3 & 138.9 & y_{1 3} & 163 & y_{2 3} & 189.1 & y_{3 3} \\ \hline 4 & 157.1 & y_{1 4} & 184 & y_{2 4} & 217.9 & y_{3 4} \\ \hline \end{array} \] Tableau \(2\) : moyennes mobiles \(M_{m i j}\). \[ \begin{array}{|c|c|c|c|} \hline & 1 & 2 & 3 \\ \hline 1 & & 152.8 & 174.7~~~~~~ \\ \hline 2 & & 159.2 & 182.2 ~~(c) \\ \hline 3 & 139.6~~ (a)& 164.4 & \\ \hline 4 & 146.6~~ (b)& 168.8 & \\ \hline \end{array} \] Etape 2 : on calcule les coefficients saisonniers bruts \(S_{i j}\).

On a \[ Y_{i j}=M_{m i j}+\mathrm{S}_{\mathrm{ij}} \leadsto Y_{i j}-M_{m i j}. \] On fait donc la différence entre les données brutes et les moyennes mobiles pour obtenir les coefficients saisonniers bruts \(S_{i j}\), on procède comme suit : \[ \begin{aligned} & \mathrm{S}_{1 3}=138.9-139.6=-0.7 \text { (a) } \\ & \mathrm{S}_{1 4}=157.1-146.6=1.05 \text { (b) }\\ & \mathrm{S}_{3 2}=175.3-182.2=-6.9,~~ etc \end{aligned} \] Les résultats sont donnés par le tableau (3).

Tableau 3 : les coefficients saisonniers bruts \(S_{i j}\). \[ \begin{array}{|l|cc|c|cc|} \hline & 1 & & 2 & 3& \\ \hline 1 & & & -4.2 & -11.4& \\ \hline 2 & & & -4.7 & -7 \quad & (c) \\ \hline 3 &-0.7&(a)& -1.4 & \\ \hline 4 &10.5&(b)& 15.2 & \\ \hline \end{array} \]

Etape 3 : on calcule les \(S_j\) (coefficients saisonniers définitifs) qui sont les moyennes trimestrielles des coefficients bruts \(S_{i j}\). \[ \mathrm{S}_{1}=\frac{(-4.2)+(-11.4)}{2}=-7.8. \]

\[ \mathrm{S}_{2}=\frac{(-4.7)+(-7)}{2}=-5.85 \approx-5.9 \] \[ \mathrm{S}_2=\frac{(-0.7)+(-1.4)}{2}=-1.05 \approx-1.1 \] \[ \mathrm{S}_{4}=\frac{(10.5)+(15.2)}{2}=12.85 \approx 12.9 \] En théorie, la moyenne de ces 4 coefficients doit être égale à zéro dans le modèle additif. Dans le cas contraire, on doit corriger ces coefficients et calculer les \(\grave{S}_j\) appelés coefficients saisonniers corrigés. Ici \[ \sum \mathrm{S}_{\mathrm{j}}=-1.9 \text{ et la moyenne } \frac{-1.9}{4}=-0.475 \]
On va alors soustraire \((-0.475)\) à tous les coefficients trimestriels \(\mathrm{S}_{\mathrm{j}}\).

Tableau 4 des coefficients définitifs \(\mathrm{S}_{\mathrm{j}}\) et coefficients définitifs corrigés \(S_j\) : \[ \begin{array}{|c|c|c|c|c|} \hline TRIM & 1 & 2 & 3 & 4 \\ \hline S_j & -7.8 & -5.9 & -1.1 & +12.9 \\ \hline \dot{S}_j & -7.3 & -5.4 & -0.6 & +13.3 \\ \hline \end{array} \] On peut alors déterminer la série corrigée des variations saisonnières ( SCVS) qui est la série désaisonnalisée demandée notée \(Y_{i j}^*\).

Etape 4 : détermination de la \(\operatorname{SCVS}\left(Y_{i j}^*\right)\) comme suit \(: Y_{i j}^*=\mathbf{Y}_{\mathrm{ij}}-\grave{S}_j\) \[ \mathrm{Y}^*{ }_{11}=118.2-(-7.3)=125.5 \] \[ \mathrm{Y}_{3 \mathrm{~N}}=217.9-(13.3)=204.6 \] Etc… on obtient le dernier tableau (5) suivant : \[ \begin{array}{|c|c|c|c|} \hline & 1 & 2 & 3 \\ \hline 1 & 125.5 & 155.9 & 170.6 \\ \hline 2 & 134.4 & 159.9 & 180.7 \\ \hline 3 & 139.5 & 163.6 & 189.7 \\ \hline 4 & 143.8 & 170.7 & 204.6 \\ \hline \end{array} \] Les chiffres de ce tableau sont obtenus en retranchant à chaque valeur \(Y_{i j}\) le coefficient correspondant : pour la \(1^{\text {ère }}\) ligne, on retranche le coefficient du \(1^{\text {èr }}\) trimestre à savoir -7.3. Pour la \(2^{\text {ème }}\) ligne, on retranche -5.4 ; la \(3^{\text {ème }}\) ligne -0.6 et pour la dernière ligne, on retranche 13.3

Schéma multiplicatif :

une entreprise a constaté l’évolution suivante de son chiffre d’affaire (C.A en \(10^6\) ) sur 4 années. \[ \begin{array}{|c|c|c|c|c|} \hline & Année 1 & Année 2 & Année 3 & Année 4 \\ \hline Trim 1 & 112.8 & 122.1 & 134.1 & 138.2 \\ \hline Trim 2 & 123.6 & 132.4 & 144.4 & 150.3 \\ \hline Trim 3 & 130.3 & 138.3 & 150.2 & 157.1 \\ \hline Trim 4 & 115.2 & 123.4 & 132.4 & 140.5 \\ \hline \end{array} \]

Le schéma étant multiplicatif, \(\mathrm{Y}=\mathrm{S}.T\). Et on suppose toujours que les variations aléatoires sont nulles \((A(t))=0)\).

Calcul des moyennes mobiles \(M_{m i j}\) : Période \(\mathrm{P}=4\) trimestres. \(Mm_{1 3}\) est centrée sur le troisième trimestre. \[ \mathrm{Mm}_{1 3}=\frac{1}{4}\left(\frac{112.8}{2}+123.6+130.3+115.2+\frac{122.1}{2}\right)=121.63 \] \[ \operatorname{Mm}_{1 4}=\frac{1}{4}\left(\frac{123.6}{2}+130.3+115.2+122.1+\frac{132.4}{2}\right)=123.9 \] \[ \mathrm{Mm}_{2 1}=\frac{1}{4}\left(\frac{130.3}{2}+115.2+122.1+132.4+\frac{138.3}{2}\right)=126 \] \[ \operatorname{Mm}_{2 2}=\frac{1}{4}\left(\frac{115.2}{2}+122.1+132.4+138.3+\frac{123.4}{2}\right)=128.02, \] etc. Les résultats sont consignés dans le tableau suivant (les moyennes mobiles \(M_{m i j}\)) : \[ \begin{array}{|c|c|c|c|c|} \hline & 1 & 2 & 3 & 4 \\ \hline 1 & & 126 & 136.53 & 143.63 \\ \hline 2 & & 128.02 & 139.15 & 145.51 \\ \hline 3 & 121.63 & 130.55 & 140.78 & \\ \hline 4 & 123.9 & 133.55 & 142.03 & \\ \hline \end{array} \] L’étape suivante consistera à calculer les coefficients saisonniers bruts \(\mathrm{S}_{\mathrm{ij}}\). Nous avons \[ \mathrm{Y}=\mathrm{T}.S \Longrightarrow Y_{i j}=M_{m i j} \cdot S_{i j} \] d’où \[ S_{i j}=\frac{Y_{i j}}{M m_{i j}} \] Par exemple nous avons \[ \mathrm{S}_{1 3}=\frac{130.3}{121.63}=1.07. \] Tous les autres calculs sont consignés dans suivant (les coefficients bruts saisonniers \(S_{i j}\)): \[ \begin{array}{|c|c|c|c|c|} \hline & 1 & 2 & 3 & 4 \\ \hline 1 & & 0.97 & 0.98 & 0.96 \\ \hline 2 & & 1.03 & 1.04 & 1.03 \\ \hline 3 & 1.07 & 1.06 & 1.07 & \\ \hline 4 & 0.93 & 0.92 & 0.93 & \\ \hline \end{array} \] A partir de ce tableau, on détermine la moyenne trimestrielle de ces coefficients bruts et on obtient les 4 coefficients définitifs \(\mathrm{S}_{\mathrm{j}}\). \[ \mathrm{S}_{1}=\frac{0.97+0.98+0.96}{3}=0.97. \] Même chose pour les 3 autres, ce qui nous donne \[ \begin{array}{|c|c|c|c|c|} \hline Trim & 1 & 2 & 3 & 4 \\ \hline \mathrm{S}_{\mathrm{j}} & 0.97 & 1.03 & 1.07 & 0.93 \\ \hline \end{array} \] On teste à quoi est égale la moyenne de ces coefficients: si elle est égale à un (schéma multiplicatif), on les garde, sinon on les corrige et on calcule les \[ S_j=\frac{S j}{\Sigma \mathrm{Sj} / 4}. \]

Dans le cas présent nous avons bien \(\sum \mathrm{S}_{\mathrm{j}}=4\), nous pouvons alors déterminer la série corrigée des variations saisonnières (SCVS) \[ Y_{i j}^*=\mathbf{Y}_{\mathrm{ij}} / \mathbf{S}_{\mathrm{j}}. \]

Par exemple \[ \mathrm{Y}^*{ }_{1 \mathrm{I}}=\mathrm{Y}_{1 \mathrm{I}} / \mathrm{S}_{\mathrm{I}}=112.8 / 0.97=116.28$ soit 116.3, \] La série CVS : \(\mathrm{Y}^* \mathrm{ij}\) \[ \begin{array}{|c|c|c|c|c|} \hline & 1 & 2 & 3 & 4 \\ \hline 1 & 116.3 & 125.9 & 138.24 & 142.5 \\ \hline 2 & 120 & 128.5 & 140.2 & 145.9 \\ \hline 3 & 121.8 & 129.25 & 140.4 & 146.8 \\ \hline 4 & 123.9 & 132.7 & 142.4 & 151.1 \\ \hline \end{array} \]

Pour une croissance de \(5 \%\) du chiffre d’affaire (C.A) sur la quatrième année, on peut estimer que ce \(\mathrm{CA}\) au premier trimestre de la cinquième année sera égal à : - En termes réels : \[ \mathrm{CA}=\mathrm{Y}_{4 \mathrm{I}} \times 1.05=138.2 \times 1.05=145.11 \times 10^6. \] - En termes de coefficients saisonniers : \[ \mathrm{CA}=142.5 \times 0.97=138.225 \times 10^6. \]

Exercice 4.1

Dans une grande entreprise, on a mesuré l’absence (nombre d’employés absents) journalière pendant 4 semaines : chaque semaine comporte 5 jours de travail. Les résultats sont donnés dans le tableau suivent : \[ \begin{array}{|l|c|c|c|c|} \hline Semaine & 1 & 2 & 3 & 4 \\ \hline Lundi & 1 & 2 & 4 & 5 \\ Mardi & 0 & 3 & 4 & 6 \\ Mercredi & 5 & 7 & 10 & 11 \\ Jeudi & 2 & 4 & 2 & 3 \\ Vendredi & 0 & 1 & 2 & 4 \\ \hline \end{array} \]

  1. Représenter graphiquement cette série chronologique.

  2. Calculer les coefficients saisonniers (pour le modèle additif).

  3. Déterminer la série C.V.S et ajouter sa courbe sur le graphique précédent.

  4. Calculer l’équation de la droite de tendance et tracer cette droite sur le graphique précédent.

  5. Prévoir le nombre d’absents pour les 3 premiers jours de la cinquième semaine.

Exercice 4.2

Le nombre des ventes trimestrielles réalisées par l’entreprise ATLAS pendant la période 2003-05 est récapitulée dans le tableau suivant : \[ \begin{array}{|l|c|c|c|c|} \hline & Trimestre 1 & Trimestre 2 & Trimestre 3 & Trimestre 4 \\ \hline 2003 & 860 & 794 & 1338 & 1148 \\ \hline 2004 & 1096 & 1021 & 1705 & 1505 \\ \hline 2005 & 1436 & 1363 & 2319 & 2047 \\ \hline \end{array} \]

  1. Représenter graphiquement cette série chronologique. Que peut-on déduire.
  2. Désaisonnaliser la série en utilisant une \(M M(3), M M(4)\) et \(M M(5)\).
  3. Représenter graphiquement les trois sur le même graphe que la série. Votre conclusion.
  4. Désaisonnaliser la série en utilisant un modèle linéaire. Que pensez-vous?

Exercice 4.3

Un commerçant de télés a enregistré les ventes trimestrielles des LCD comme suit: \[ \begin{array}{|l|c|c|c|c|} \hline & Trimestre 1 & Trimestre 2 & Trimestre 3 & Trimestre 4 \\ \hline 2006 & 123 & 141 & 170 & 164 \\ \hline 2007 & 115 & 160 & 193 & 123 \\ \hline 2008 & 152 & 171 & 152 & 168 \\ \hline 2009 & 148 & 138 & 198 & 171 \\ \hline \end{array} \]

  1. Représenter graphiquement cette série chronologique.

  2. Que peut-on déduire.

  3. Désaisonnaliser la série en utilisant la méthode exponentielle d’ordre \(\alpha =0.1\) et \(\alpha=0.7\).

  4. Représenter graphiquement les trois séries sur le même graphe. Conclure.