…
L’air est un mélange gazeux constitué de 78 % de diazote, 21 %
de dioxygène et en faibles proportions d’autres gaz. Cependant, il n’est
jamais pur à 100%. En effet, il est dégradé par des éléments dits «
polluants » émis principalement par l’homme (activités domestiques,
industrielles, agricoles, transport…) ainsi que par des phénomènes
naturels et météorologiques (érosion de sols, éruptions volcaniques,
pluie, vent, soleil…).
On utilise donc le terme de « pollution
de l’air » pour désigner l’ensemble de gaz et de particules en
suspension présents dans l’air, qui sont nuisibles pour la santé et
l’environnement. Les polluants atmosphériques se distinguent en deux
grandes familles : les polluants primaires et les polluants secondaires.
Les polluants primaires sont directement rejetés dans l’air par une
source, la plupart du temps liée aux activités humaines primaires. Les
polluants secondaires, quant à eux, ne sont pas directement rejetés dans
l’air. Ils se forment à partir de réactions chimiques entre différents
polluants primaires.
La qualité de l’air dépend aussi des
conditions météorologiques. En effet, la climatologie (vitesse et
direction du vent, température, rayonnement…) influence le transport, la
transformation et la dispersion des polluants.
D’après une
étude réalisée par l’OMS (Organisation Mondiale de la Santé), 2 millions
de personnes décèdent chaque année à cause de maladies dues à la
pollution atmosphérique. Il est donc important de mesurer la qualité de
l’air. Une surveillance continue de ces pollutions permet de réduire le
développement ou l’aggravation de maladies cardio-respiratoires ou
cérébrales et des cancers, ainsi que des effets de courte durée.
En vue d’une étude sur les variations de la pollution de Pékin,
nous allons analyser des données collectées par le centre de sciences
statistiques du programme doctoral Guanghua School of Management, à
l’Université de Pékin. Les données sont des mesures de pollutions
réalisées à chaque heure, chaque jour et chaque mois entre 2010 et 2015.
Il y a 52 584 observations et 18 variables, telles que la concentration
de PM2.5, le point de rosée, la température et le vent.
Afin
de modéliser les données, nous avons sélectionné un échantillon de
taille n = 3000 observations. La variable à expliquer Y est PM_Dongsi,
qui correspond aux particules fines PM2.5, un polluant atmosphérique
caractérisé par des particules en suspension dans l’air.
Abstract
As part of our training, we conducted a
study with the objective of explaining and predicting a quantitative
variable from several factors. Therefore, we analyzed a dataset of
pollution measurements performed every hour, every day and every month
between 2010 and 2015. There are a total of 52,584 observations and 18
types of measurements such as PM2.5 concentration, dew point,
temperature and wind. We selected a sample size of n = 3000
observations. We performed a regression on the variable PM_Dongsi, which
is the PM2.5 fine particles in Dongsi district of Beijing. PM2.5 is an
air pollutant characterized by airborne particles.
We
therefore started by performing a regression on all variables. The
regression after removing outliers was quite good, with an R2
coefficient of 0.9801. However, this model grouped all the factors
without distinction. We then made a selection of factors, in order to
obtain a more suitable model.
In a second part, we performed
the Anova, in order to detect the potential influence of the wind
direction on the pollution. We performed the Scheffé and Tukey tests
which allowed us to deduce that the amounts of PM2.5 particles in the
absence of wind and with the south-east wind were the same.
Finally, we performed a factor selection to determine the best
regression model. Backward and Mallow’s cp methods had similar results,
so there was no preferable method. Therefore, the variables influencing
pollution were PM2.5 particles in Dongsihuan and US.Post districts, wind
speed, temperature, humidity, pressure and precipitation.
Il y a au total n = 52 584 observations dans le fichier d’origine sur Pékin. Il y a 18 variables, dont une variable qualitative, le vent. Pour l’analyse, nous allons utiliser 12 variables relatives à la pollution, car les 6 autres ne seront pas pertinentes (“No”, “season”, “year”, “month”, “day”, “hour”).
Téléchargement des données et du code :
https://guacamole.univ-avignon.fr/nextcloud/index.php/s/MHteZcALXP7pB8g
Nous commençons par supprimer les lignes comprenant des données
manquantes. Puis, sachant il y a beaucoup d’observations, nous
sélectionnons 3000 données continues. Pour nous assurer que la sélection
est pertinente, nous réalisons des boxplots permettant de comparer les
données sélectionnées et celles initiales.
Sur le boxplot filtré de la variable pression, il y
a une différence par rapport au boxplot initial, et plus
particulièrement pour la borne supérieure des données filtrées.
Pour la variable température, nous relevons aussi une différence sur les
données filtrées, il y a des valeurs aberrantes en dessous de la borne
inférieure.
Ainsi, il y a des différences entre certains boxplots,
mais les résultats restent similaire en globalité, l’échantillon est
donc bien représentatif des données.
Dans cette partie, nous allons régresser les données en fonction de
la variable PM_Dongsi.
Nous commençons par réaliser une matrice de nuages, qui permet de déterminer les potentielles liaisons linéaires entre les paires de variables.
…
Les 4 variables de PM2.5 (PM_Dongsi, PM_Dongsihuan,
PM_Nongzhanguan et PM_US.Post) semblent avoir des relations linéaires
entre elles. En effet, les formes des graphiques révèlent une évolution
des valeurs de façon croissante, sous une forme linéaire. On suppose
donc que ce sont des variables explicatives qui seront présentes dans le
modèle ajusté réalisé par la suite.
Nous effectuons une régression
sur la variable PM_Dongsi, qui correspond aux particules PM2.5 présentes
dans le sous-district de Dongsi. Pour cela, nous n’utilisons pas la
variable qualitative. Voici le modèle de régression multiple obtenu
:
PM_Dongsi = 185.4 + 0.264PM_Dongsihuan +
0.474Nongzhanguan + 0.313M_US.Post -0.334DEWP +
0.266HUMI + 0.155PRES + 0.855TEMP + 0.023Iws
-0.013precipitation -0.019Iprec
Nous obtenons, avec
l’affichage de la fonction summary, le résumé statistique de la
régression suivant:
La
colonne Estimate correspond aux estimateurs des moindres carrés : β0,
β1,…, β10. La colonne Std. Error correspond à l’écart-type des erreurs.
La quatrième colonne représente les p-valeurs du test de Student (H0: βj
= 0 contre H1 : βj ≠ 0, j={1,…,10}).
L’écart-type de β0 (60.12) est
bien plus élevé que les autres valeurs. Les écart-types des β1 à β10
révèle une bonne estimation, ce qui signifie que la droite de régression
est proche des points.
Le R2 est un indicateur permettant de juger
de la qualité de la régression. Ici, il vaut 0.9541, ce qui est élevé,
le modèle est donc bien ajusté. La statistique F correspond à la
statistique de test de significativité du modèle.
Ensuite, il y a
le degré de liberté et la p-valeur du test. Cette dernière est très
faible et inférieure à 0.01, ce qui signifie que les βj sont différents
de 0 et sont donc des variables explicatives.
Ensuite, nous réalisons l’analyse des résidus afin de supprimer
les valeurs aberrantes et/ou influences. En effet, ces valeurs ne seront
pas bien modélisées par le modèle ajusté et ont tendance à attirer le
modèle vers elles, au détriment des autres.
Voici l’analyse des
résidus avant la suppression des valeurs aberrantes et influentes :
Sur la première figure, nous
pouvons observer la répartition des résidus. Celle-ci fait pas
apparaitre de structure particulière, les résidus sont répartis de
manière “aléatoire” dans la fenêtre graphique. Ainsi, nous pouvons
émettre l’hypothèse que les εi sont i.i.d.
Le deuxième graphique
représente les résidus standardisés sous la forme de la droite de Henry.
Ce graphique permet de contrôler à la fois la présence de valeurs
atypiques et l’hypothèse de normalité du modèle. Ainsi, nous pouvons
voir qu’il y a plusieurs valeurs aberrantes (supérieurs à 4 et
inférieures à -4) et que les données ne suivent pas une loi normale, il
y a des queues plus lourdes que la loi normale.
Sur les 3ème et 4ème
graphiques, nous regardons l’influence des données. La distance de Cook
est un graphique représentant l’influence d’une observation. Une
observation avec un fort résidu a ainsi un effet “levier” sur la droite
de régression, elle est alors qualifiée d’observation influente. Dans
notre cas, nous supprimons les données ayant un levier supérieur à 1
(Cook’s Distance). Enfin, sur le graphique 4, l’objectif est d’éviter
les données à l’extérieurs des pointillés.
Pour ce premier
boxplot sur la variable point de rosée, nous pouvons remarquer que de
manière générale l’initiale et le filtré sur 3 000 données sont
rigoureusement similaire.
La seule différence que nous pouvons
remarquer est que la médiane est légèrement supérieure à 0 (initiale)
alors que l’autre (filtré) est à environ 13.
Nous enlevons donc les
points influents étant au-dessus de 2 sur le graphique Cook’s distance
et les valeurs situées en dehors de la zone en pointillés sur le
graphique Residual vs Leverage. Enfin, on supprime les valeurs
supérieures à 4 ou inférieures à -4 sur le graphique Normal Q-Q
Voici l’analyse des résidus après la suppression des valeurs
aberrantes et influentes :
Nous pouvons observer qu’il n’y a maintenant plus de valeurs
aberrantes et influentes. Le graphique Normal Q-Q ci-dessus nous montre
que les données ne suivent pas une loi normale, en effet elles ont des
queues plus lourdes qu’une loi normale. Ici, une transformation de
BoxCox n’est pas nécessaire car les résidus ne présentent pas
d’hétéroscédasticité (Residuals vs Leverage), pouvant fausser les
résultats.
Voici le nouveau résumé statistique de la régression :
Apres la suppression des
valeurs aberrantes, nous pouvons remarquer que les écart-types des
estimateurs des moindres carrés ont diminué. Le R2, qui est un
indicateur permettant de juger de la qualité de la régression, vaut
0.9802. Il est plus élevé que la valeur avant suppression des valeurs
aberrantes (0.9541). La suppression de ces valeurs a donc été efficace.
Par ailleurs, les variables significatives au niveau 5% sont :
PM_Dongsihuan, PM_Nongzhanguan, PM_US.Post, HUMI, PRES, TEMP et Iws. Ce
sont les variables ayant le plus d’influence dans la régression.
Nous réalisons maintenant les intervalles de confiance des EMC.
L’objectif est de connaître approximativement les EMC grâce aux
intervalles de confiance avec un niveau de risque de 5%.
Nous remarquons que tous les EMC sont bien dans
l’intervalle qui leur est associée.
Nous effectuons finalement des
prévisions sur 10 nouvelles données :
Voici les intervalles de confiance pour E(Yn+1) et les intervalles de
prévision pour Yn+1 :
Il y a donc une probabilité de 95% que E(Yn+1) et Yn+1
soient compris entre les bornes de ces intervalles. Nous observons
cependant que les valeurs théoriques ne sont pas toutes présentes dans
les intervalles de prévision, mais le résultat reste satisfaisant en
globalité.
Afin de connaître la qualité de nos prévisions,
nous calculons le critère MSE (Mean Squared Error) :
Le MSE obtenu est de 1194.152. Nous
le comparerons par la suite avec un nouveau modèle réalisé à partir de
sélection de facteurs.
Nous allons , dans cette deuxième partie, étudier les
variations de la pollution en fonction de la direction du vent, afin de
déterminer l’influence potentielle de cette variable.
Voici
les boxplots représentant la pollution en fonction de la direction du
vent. Cv signifie qu’il n’y a pas de vent, NE est le vent du Nord-Est,
NW le vent du Nord-Ouest et SE le vent du Sud-Est.
…
Nous observons qu’il y a un taux de particules PM2.5 plus élevé
pour le vent du Sud-Est et le taux le plus faible pour le vent du
Nord-Ouest. Par ailleurs, les boxplots ont tous des valeurs valeurs
aberrantes. Nous supprimerons les valeurs influentes par la suite.
Nous allons définir les quantités importantes :
La variable du vent
contient K = 4 modalités (les 4 directions du vent), un effectif total N
= 3000 données et une moyenne empirique µ = 78.156. Les effectifs
partiels nk avec k=1, … ,4 sont : 652 pour cv, 366 pour NE, 734 pour NW
et 1248 pour SE et des moyennes partielles empiriques µk de 99.58 pour
cv, 68.29 pour NE, 43.11 pour NW et 90.47 pour SE.
Nous réalisons
ensuite le tableau d’analyse de la variance :
La première colonne contient la somme des
carrés SC_fac et SC_res. La deuxième colonne correspond aux degrés de
liberté, respectivement K-1 et n-K. La troisième colonne contient les
carrés moyens CM_fac qui mesure l’hétérogénéité des mesures de pollution
intergroupes et CM_res qui mesure l’hétérogénéité des mesures
intra-groupes. La quatrième colonne contient la statistique de test F,
pour le test de l’égalité des moyennes : H0 : µ1 = · · · = µK contre H1
: il existe un couple (i, j) avec i ≠ j pour lequel µi ≠ µj. Enfin, la
dernière colonne contient la p-valeur de ce test d’égalité des moyennes.
Ici, elle est inférieure à 2x10-16, donc très proche de 0. On rejette
alors H0, ce qui suppose que les moyennes ne sont pas égales et que le
vent a donc un impact sur la quantité de particules PM2.5 présentes dans
l’air du quartier Dongsi. Le test de l’Anova réalisé par la suite
permettra de confirmer cette hypothèse. .
Ensuite, comme dans
partie précédente sur la régression multiple, nous allons faire
l’analyse des résidus, et supprimer les valeurs aberrantes. Ici, nous
analyserons uniquement deux graphiques (Residuals vs fitted et Normal
Q-Q), car dans le cas de l’Anova, nous réalisons des analyses basées sur
les moyennes. Il faut donc supprimer les valeurs aberrantes et non les
données influentes, détectables grâce aux graphique Cook’s distance et
Residuals vs leverage.
Ainsi, nous observons que dans le deuxième graphique
(Normal Q-Q), de nombreux résidus standardisés sont supérieurs à 4 et
sont donc considérés comme des valeurs aberrantes.
Voici
l’analyse des résidus après la suppression des valeurs aberrantes :
Les résultats sont plus convenables, en effet, il n’y a plus de
résidu standardisé supérieur à 4. Cependant, une légère
hétéroscédasticité persiste, mais nous n’en tiendrons pas rigueur. Par
ailleurs, les résidus ne suivent pas entièrement la droite de Henry, les
queues sont plus lourdes que la loi normale, nous supposons donc que les
données ne suivent pas une loi normale.
Nous avons précédemment
rejeté l’hypothèse d’égalité des moyennes (H0 : µ1 = · · · = µK). Il
s’agit alors de préciser ces résultats en localisant précisément les
égalités ainsi que les différences entre les moyennes. Nous allons
réaliser une méthode de comparaisons multiples. L’objectif est de tester
l’égalité des moyennes partielles. Nous supposons par ailleurs les εik
i.i.d. et de loi N(0, σ2).
Avant de réaliser les tests, il faut
tester l’égalité des variances avec le test de Levene. Après l’avoir
réalisé, nous obtenons une p-valeur inférieure à 2.2e-16, nous rejettons
donc l’hypothèse d’égalité des variances.
La première méthode
utilisée est la méthode de Scheffé. Cette méthode est cependant peu
puissante. C’est un test statistique permettant d’effectuer une
comparaison multiple en une seule étape. Le test compare toutes les
paires de moyenne possibles.
On obtient les résultats suivants :
La première colonne représente la différence entre moyennes
partielles selon les modalités du facteur vent. La deuxième colonne
comprend les intervalles de confiance de ces différences. Enfin, la
dernière colonne corresponde aux p-valeurs ajustées. Les étoiles à côtés
des p-valeurs indique la « probabilité » de rejeter HO . Plus il y a
d’étoiles, plus on a de probabilités de rejetter H0. Ici, on fixe un
seuil à 0.05 et on rejette HO si la p-valeur est inférieure à ce seuil.
Voici les résultats obtenus :
NE ≠ cv ; NW ≠ cv ; NW ≠ NE ; SE
≠ NE ; SE ≠ NW ; SE = cv
La deuxième méthode utilisée est la
méthode de Tukey. Cette méthode est plus puissante que le test de
Scheffé.
On obtient le tableau suivant :
Voici les résultats obtenus :
NE ≠ cv ; NW ≠ cv ; NW ≠ NE ;
SE ≠ NE ; SE ≠ NW ; SE = cv
Ce sont donc les mêmes résultats que le
test de Scheffé. La quantité de particules PM2.5 semble donc être
similaire pour le vent du Sud-Est et l’absence de vent.
Dans cette dernière partie, nous allons sélectionner des facteurs
afin d’améliorer le modèle de régression.
Nous commençons par rechercher une potentielle colinéarité entre les
facteurs. En effet, une colinéarité entraîne une augmentation de la
variance des estimateurs des paramètres du modèle. Cela pourrait avoir
un impact important sur la validité du modèle, il est donc possible que
nous supprimions les facteurs concernés par la colinéarité par la suite.
Nous allons donc utiliser le critère VIF afin de détecter la colinéarité
entre les facteurs.
Le vif de la régression nous donne les valeurs ci-après :
Il y a une potentielle colinéarité
entre les facteurs si le critère VIF est supérieur à 4 et une forte
colinéarité s’il est supérieur à 10, ce qui signifie qu’une variable est
une combinaison linéaire des autres variables. Dans notre modèle, les
variables PM_Dongsihuan, PM_Nongzhanguan, PM_US.Post, DEWP, HUMI et TEMP
ont un critère supérieure à 4. Elles sont donc colinéaires aux autres
facteurs.
Ensuite, nous effectuons une première sélection de
facteurs en utilisant les méthodes backward et forward. Ces méthodes
s’effectuent pas à pas, en regardant à chaque étape quel est le
“meilleur modèle” selon un critère choisi à l’avance (ici 0.05). En
effet, l’ajout (méthode forward) ou la suppression (méthode backward)
d’un facteur modifie l’ensemble des valeurs des estimateurs et de leur
variance.
La méthode par élimination (backward) consiste à
commencer par le modèle complet puis éliminer une variable à chaque
étape suivant le critère fixé à l’avance. Pour éliminer les variables,
on va se baser sur les p-valeurs du test de Student avec un niveau 0.05
et à chaque étape nous supprimons la variable là moins significative,
c’est-à-dire celle avec la plus grande p-valeur, puis nous recommençons
la régression. Nous continuons ainsi de suite jusqu’à ce que toutes les
variables restantes soient significatives (donc une p valeur inférieure
à 0.05).
Ainsi, nous obtenons « le meilleur modèle » au seuil fixé à
0.05 avec la méthode backward :
PM_Dongsi = 250+
0.0808PM_Dongsihuan + 0.6776Nongzhanguan + 0.3554M_US.Post
+ 0.1582HUMI + 0.183PRES + 0.5721TEMP + 0.2625*Iws
Ainsi, nous obtenons « le meilleur modèle » au seuil fixé à 0.05
avec la méthode forward :
La méthode de la régression par ajout
(forward) fonctionne de façon opposée : nous partons du modèle avec la
constante seule, puis nous effectuons à chaque étape une régression et
nous retenons ainsi le modèle présentant la variable la plus
significative selon le critère choisi (ici 0.05). Ainsi, à chaque
nouvelle régression nous ajoutons la variable avec la p-valeur la plus
faible.
PM_Dongsi = -208.22 + 0.028PM_Dongsihuan +
0.680Nongzhanguan + 0.352M_US.Post-0.132DEWP +0.027Iws
+ 0.183PRES + 0.696TEMP + 0.199HUMI
Nous allons
maintenant employer la méthode exhaustive. Elle consiste à examiner
l’ensemble de tous les sous-modèles possibles et à sélectionner le
meilleur d’entre eux selon un critère défini à l’avance (ici 0.05).
Cependant on préférera toujours les méthodes pas à pas (backward et
forward) aux méthodes exhaustives pour des modèles complexes ou de très
grandes dimensions (ce qui n’est pas notre cas).
Voici le résultat
obtenu :
Ce tableau se lit par
ligne, il représente le meilleur modèle par rapport aux nombres de
variables explicatives choisies. Par exemple, si on veut un modèle avec
1 variable explicative, on sélectionne dans la 1e ligne du tableau la
variable indiquée par ““. Ainsi, nous remarquons que le meilleur
modèle avec une variable explicative est PM_dongsi = β0 +
β1PM_Nougzhanguan, ainsi de suite.
Ensuite, nous sélectionnons
des modèles grâce aux 3 critères de sélection : Bic, Cp de Mallows et R2
ajusté.
• R² : Le R² ou R-carré est appelé coefficient de
détermination. C’est un indicateur permettant de juger la qualité d’une
régression linéaire. C’est le meilleur critère pour réaliser une
modélisation.
• R² ajusté : Le critère du R2 ajusté pénalise
plus que le R2 les modèles où le nombre de facteurs est grand.
Cependant, malgré la pénalisation effectuée, ce critère favorise les
modèles avec plus de facteurs que pour les autres critères, les autres
seront donc préférés. Le meilleur R² ajusté est de 0.9806564, donc un
modèle à 8 variables est censé être le plus optimal. Cependant, tous les
facteurs sont sélectionnés.
• Critère de BIC : Le modèle
sélectionné avec le critère BIC correspond au modèle à k facteurs pour
lequel BIC est le plus petit. Dans notre cas, la plus petite valeur vaut
-11337.19, nous choisissons donc un modèle à 6 facteurs. Pour réaliser
des prévisions, nous choisissons ce modèle car il est le plus adapté.
Nous obtenons un R2 à hauteur de 0.9801, qui est très bon.
•
Critère de Mallows : Pour obtenir un modèle selon le critère de Mallows,
il faut choisir la valeur la plus proche de k+1. Ici, la 8e valeur est
la plus proche de k+1. Nous choisissons donc un modèle à 8 facteurs, qui
comprend donc toutes les variables.
Voici les modèles obtenus avec
les critères de sélection :
Ce graphique représente une sélection de facteurs avec le critère du R2,
R2 ajusté, BIC et CP. On regarde la première ligne en haut de chaque
graphique pour connaitre le modèle retenu par le critère. Ici, 3 des
critères ont un modèle avec les 8 facteurs (PM_Dongsihuan,
PM_Nongzhanguan, PM_US.Post, HUMI, PRES, TEMP, Iws, iprec) sauf le
modèle avec le critère du BIC où ici nous choisissons 6
(PM_Nongzhanguan, PM_US.Post, HUMI, PRES, TEMP, Iws).
Ensuite, nous
utilisons le critère VIF pour détecter la colinéarité entre les
facteurs. Pour le critère BIC, les variables X\(PM_Nongzhanguan et X\)PM_US.Post ont un vif
supérieur à 10. On en déduit donc que ces deux facteurs sont fortement
colinéaires.
Pour le critère CP de Mallows et Backward, les
variables X\(PM_Nongzhanguan ,
X\)PM_US.Post, X$PM_Dongsihuan ont un vif supérieur à 10. On en
déduit donc que ces trois facteurs sont fortement colinéaires.
On
remarque que les summary des régressions des 3 méthodes choisie
(backward, bic et cp) sont fortement similaire. En effet, les estimate,
std.error, t value, p-valeur et R²ajusté sont rigoureusement égaux. Par
ailleurs, on voit qu’ils sont très bon puisqu’il est proche de 1
Finalement, nous réalisons des prévisions sur les 10 mêmes valeurs que
dans la partie II, avec notre nouveau modèle basé sur le critère BIC:
Voici les intervalles de
confiance pour E(Yn+1) et les intervalles de prévision pour Yn+1 :
Il y a donc une probabilité de
95% que E(Yn+1) et Yn+1 soient compris entre les bornes de ces
intervalles.
Afin de connaître la qualité de nos prévisions, nous
calculons le critère MSE (Mean Squared Error) :
Le MSE obtenu est de 996.3481. Elle est
plus faible que celle calculée dans la partie II (1194.152). Nous en
concluons donc que notre modèle est mieux ajusté que le précédent.
Notre objectif initial était d’analyser les variations de
la pollution (particules PM2.5) du quartier Dongsi de Pékin en fonction
de mesures réalisées chaque jour pendant 5 ans (point de rosée,
humidité, pression, etc.).
Nous avons donc commencé par régresser
les données en fonction de PM_Dongsi. La régression après suppression
des valeurs aberrantes était assez bonne, avec un coefficient R2 à
hauteur de 0.9801, soit proche de 1. Nous avons aussi calculé le critère
MSE (Mean Squared Error), qui était à hauteur de 1194.152. Cependant, ce
modèle regroupait tous les facteurs sans distinction. Nous avons donc
par la suite réalisé une selection de facteurs, afin d’obtenir un modèle
plus adapté.
Dans une deuxième partie, nous avons réalisé l’Anova,
afin déceler l’influence potentielle de la direction du vent sur la
pollution. La variable du vent possède 4 modalités: Nord-Est,
Nord-Ouest, Sud-Est et sans vent. Nous avons rejeté l’hypothèse
d’égalité des moyennes, ce qui supposait que la direction du vent avait
une influence sur la pollution. Nous avons ensuite réalisé les tests de
Scheffé et de Tukey afin de comparer toutes les paires de moyenne et de
déceler des différences ou des égalités. Les résultats obtenus nous ont
permis de déduire que la quantité de particules PM2.5 en l’absence de
vent et avec le vent du Sud-Est était la même. Enfin, nous avons réalisé
une sélection de facteurs afin de déterminer le meilleur modèle de
régression. Les méthodes de Backward et Cp de Mallows avaient des
résultats similaires, donc il n’y avait pas de méthode préférable. Voici
le modèle retenu pour la modélisation :
PM_Dongsi = -202.2 +
6.928e-01PM_Dongsihuan + 3.687e-01PM_US.Post + 2.540e-02Iws
+ 0.183PRES + 5.647e-01TEMP + 1.598e-01HUMI +
1.804e-01PRES + -1.490e-01 Iprec
Nous en déduisons donc
que les variables influençant la pollution sont donc les particules
PM2.5 des districts Dongsihuan et US.Post, la vitesse du vent, la
température, l’humidité, la pression et la précipitation. Pour réaliser
des prévisions, nous avons préféré le modèle avec le critère BIC :
PM_Dongsi = -202 + 6.935e-01PM_Nongzhanguan +
3.684e-01PM_US.Post + 1.574e-01HUMI + 1.803e-01PRES +
5.659e-01* TEMP + 2.543e-02*Iws
Nous en déduisons donc que le
meilleur modèle pour réaliser des prévisions est composées des variables
suivantes : les particules PM2.5 des districts Nongzhanguan et US.Post,
la vitesse du vent, l’humidité, la pression et la température.