SOMMAIRE


1.Introduction


2. Première approche


3. Régression multiple


4. Anova - Régression multiple – Sélection de facteurs


5. Conclusion


6. ANNEXE


Introduction


L’air est un mélange gazeux constitué de 78 % de diazote, 21 % de dioxygène et en faibles proportions d’autres gaz. Cependant, il n’est jamais pur à 100%. En effet, il est dégradé par des éléments dits « polluants » émis principalement par l’homme (activités domestiques, industrielles, agricoles, transport…) ainsi que par des phénomènes naturels et météorologiques (érosion de sols, éruptions volcaniques, pluie, vent, soleil…).

On utilise donc le terme de « pollution de l’air » pour désigner l’ensemble de gaz et de particules en suspension présents dans l’air, qui sont nuisibles pour la santé et l’environnement. Les polluants atmosphériques se distinguent en deux grandes familles : les polluants primaires et les polluants secondaires. Les polluants primaires sont directement rejetés dans l’air par une source, la plupart du temps liée aux activités humaines primaires. Les polluants secondaires, quant à eux, ne sont pas directement rejetés dans l’air. Ils se forment à partir de réactions chimiques entre différents polluants primaires.

La qualité de l’air dépend aussi des conditions météorologiques. En effet, la climatologie (vitesse et direction du vent, température, rayonnement…) influence le transport, la transformation et la dispersion des polluants.

D’après une étude réalisée par l’OMS (Organisation Mondiale de la Santé), 2 millions de personnes décèdent chaque année à cause de maladies dues à la pollution atmosphérique. Il est donc important de mesurer la qualité de l’air. Une surveillance continue de ces pollutions permet de réduire le développement ou l’aggravation de maladies cardio-respiratoires ou cérébrales et des cancers, ainsi que des effets de courte durée.

En vue d’une étude sur les variations de la pollution de Pékin, nous allons analyser des données collectées par le centre de sciences statistiques du programme doctoral Guanghua School of Management, à l’Université de Pékin. Les données sont des mesures de pollutions réalisées à chaque heure, chaque jour et chaque mois entre 2010 et 2015. Il y a 52 584 observations et 18 variables, telles que la concentration de PM2.5, le point de rosée, la température et le vent.

Afin de modéliser les données, nous avons sélectionné un échantillon de taille n = 3000 observations. La variable à expliquer Y est PM_Dongsi, qui correspond aux particules fines PM2.5, un polluant atmosphérique caractérisé par des particules en suspension dans l’air.


Abstract
As part of our training, we conducted a study with the objective of explaining and predicting a quantitative variable from several factors. Therefore, we analyzed a dataset of pollution measurements performed every hour, every day and every month between 2010 and 2015. There are a total of 52,584 observations and 18 types of measurements such as PM2.5 concentration, dew point, temperature and wind. We selected a sample size of n = 3000 observations. We performed a regression on the variable PM_Dongsi, which is the PM2.5 fine particles in Dongsi district of Beijing. PM2.5 is an air pollutant characterized by airborne particles.

We therefore started by performing a regression on all variables. The regression after removing outliers was quite good, with an R2 coefficient of 0.9801. However, this model grouped all the factors without distinction. We then made a selection of factors, in order to obtain a more suitable model.

In a second part, we performed the Anova, in order to detect the potential influence of the wind direction on the pollution. We performed the Scheffé and Tukey tests which allowed us to deduce that the amounts of PM2.5 particles in the absence of wind and with the south-east wind were the same.

Finally, we performed a factor selection to determine the best regression model. Backward and Mallow’s cp methods had similar results, so there was no preferable method. Therefore, the variables influencing pollution were PM2.5 particles in Dongsihuan and US.Post districts, wind speed, temperature, humidity, pressure and precipitation.

2. PREMIERE APPROCHE AVEC LES DONNÉE


Il y a au total n = 52 584 observations dans le fichier d’origine sur Pékin. Il y a 18 variables, dont une variable qualitative, le vent. Pour l’analyse, nous allons utiliser 12 variables relatives à la pollution, car les 6 autres ne seront pas pertinentes (“No”, “season”, “year”, “month”, “day”, “hour”).

Téléchargement des données et du code :


https://guacamole.univ-avignon.fr/nextcloud/index.php/s/MHteZcALXP7pB8g



Nous commençons par supprimer les lignes comprenant des données manquantes. Puis, sachant il y a beaucoup d’observations, nous sélectionnons 3000 données continues. Pour nous assurer que la sélection est pertinente, nous réalisons des boxplots permettant de comparer les données sélectionnées et celles initiales.

…

Sur le boxplot filtré de la variable pression, il y a une différence par rapport au boxplot initial, et plus particulièrement pour la borne supérieure des données filtrées.
Pour la variable température, nous relevons aussi une différence sur les données filtrées, il y a des valeurs aberrantes en dessous de la borne inférieure.
Ainsi, il y a des différences entre certains boxplots, mais les résultats restent similaire en globalité, l’échantillon est donc bien représentatif des données.

3.Régression multiple



Dans cette partie, nous allons régresser les données en fonction de la variable PM_Dongsi.

Nous commençons par réaliser une matrice de nuages, qui permet de déterminer les potentielles liaisons linéaires entre les paires de variables.




Les 4 variables de PM2.5 (PM_Dongsi, PM_Dongsihuan, PM_Nongzhanguan et PM_US.Post) semblent avoir des relations linéaires entre elles. En effet, les formes des graphiques révèlent une évolution des valeurs de façon croissante, sous une forme linéaire. On suppose donc que ce sont des variables explicatives qui seront présentes dans le modèle ajusté réalisé par la suite.
Nous effectuons une régression sur la variable PM_Dongsi, qui correspond aux particules PM2.5 présentes dans le sous-district de Dongsi. Pour cela, nous n’utilisons pas la variable qualitative. Voici le modèle de régression multiple obtenu :
PM_Dongsi = 185.4 + 0.264PM_Dongsihuan + 0.474Nongzhanguan + 0.313M_US.Post -0.334DEWP + 0.266HUMI + 0.155PRES + 0.855TEMP + 0.023Iws -0.013precipitation -0.019Iprec
Nous obtenons, avec l’affichage de la fonction summary, le résumé statistique de la régression suivant:

…

La colonne Estimate correspond aux estimateurs des moindres carrés : β0, β1,…, β10. La colonne Std. Error correspond à l’écart-type des erreurs. La quatrième colonne représente les p-valeurs du test de Student (H0: βj = 0 contre H1 : βj ≠ 0, j={1,…,10}).
L’écart-type de β0 (60.12) est bien plus élevé que les autres valeurs. Les écart-types des β1 à β10 révèle une bonne estimation, ce qui signifie que la droite de régression est proche des points.
Le R2 est un indicateur permettant de juger de la qualité de la régression. Ici, il vaut 0.9541, ce qui est élevé, le modèle est donc bien ajusté. La statistique F correspond à la statistique de test de significativité du modèle.
Ensuite, il y a le degré de liberté et la p-valeur du test. Cette dernière est très faible et inférieure à 0.01, ce qui signifie que les βj sont différents de 0 et sont donc des variables explicatives.


Ensuite, nous réalisons l’analyse des résidus afin de supprimer les valeurs aberrantes et/ou influences. En effet, ces valeurs ne seront pas bien modélisées par le modèle ajusté et ont tendance à attirer le modèle vers elles, au détriment des autres.
Voici l’analyse des résidus avant la suppression des valeurs aberrantes et influentes :

…

Sur la première figure, nous pouvons observer la répartition des résidus. Celle-ci fait pas apparaitre de structure particulière, les résidus sont répartis de manière “aléatoire” dans la fenêtre graphique. Ainsi, nous pouvons émettre l’hypothèse que les εi sont i.i.d.
Le deuxième graphique représente les résidus standardisés sous la forme de la droite de Henry. Ce graphique permet de contrôler à la fois la présence de valeurs atypiques et l’hypothèse de normalité du modèle. Ainsi, nous pouvons voir qu’il y a plusieurs valeurs aberrantes (supérieurs à 4 et inférieures à -4) et que les données ne suivent pas une loi normale, il y a des queues plus lourdes que la loi normale.
Sur les 3ème et 4ème graphiques, nous regardons l’influence des données. La distance de Cook est un graphique représentant l’influence d’une observation. Une observation avec un fort résidu a ainsi un effet “levier” sur la droite de régression, elle est alors qualifiée d’observation influente. Dans notre cas, nous supprimons les données ayant un levier supérieur à 1 (Cook’s Distance). Enfin, sur le graphique 4, l’objectif est d’éviter les données à l’extérieurs des pointillés.

Pour ce premier boxplot sur la variable point de rosée, nous pouvons remarquer que de manière générale l’initiale et le filtré sur 3 000 données sont rigoureusement similaire.
La seule différence que nous pouvons remarquer est que la médiane est légèrement supérieure à 0 (initiale) alors que l’autre (filtré) est à environ 13.
Nous enlevons donc les points influents étant au-dessus de 2 sur le graphique Cook’s distance et les valeurs situées en dehors de la zone en pointillés sur le graphique Residual vs Leverage. Enfin, on supprime les valeurs supérieures à 4 ou inférieures à -4 sur le graphique Normal Q-Q

Voici l’analyse des résidus après la suppression des valeurs aberrantes et influentes :

…


Nous pouvons observer qu’il n’y a maintenant plus de valeurs aberrantes et influentes. Le graphique Normal Q-Q ci-dessus nous montre que les données ne suivent pas une loi normale, en effet elles ont des queues plus lourdes qu’une loi normale. Ici, une transformation de BoxCox n’est pas nécessaire car les résidus ne présentent pas d’hétéroscédasticité (Residuals vs Leverage), pouvant fausser les résultats.
Voici le nouveau résumé statistique de la régression :

…
Apres la suppression des valeurs aberrantes, nous pouvons remarquer que les écart-types des estimateurs des moindres carrés ont diminué. Le R2, qui est un indicateur permettant de juger de la qualité de la régression, vaut 0.9802. Il est plus élevé que la valeur avant suppression des valeurs aberrantes (0.9541). La suppression de ces valeurs a donc été efficace.
Par ailleurs, les variables significatives au niveau 5% sont : PM_Dongsihuan, PM_Nongzhanguan, PM_US.Post, HUMI, PRES, TEMP et Iws. Ce sont les variables ayant le plus d’influence dans la régression.

Nous réalisons maintenant les intervalles de confiance des EMC. L’objectif est de connaître approximativement les EMC grâce aux intervalles de confiance avec un niveau de risque de 5%.


…



Nous remarquons que tous les EMC sont bien dans l’intervalle qui leur est associée.
Nous effectuons finalement des prévisions sur 10 nouvelles données :

…

Voici les intervalles de confiance pour E(Yn+1) et les intervalles de prévision pour Yn+1 :

…



Il y a donc une probabilité de 95% que E(Yn+1) et Yn+1 soient compris entre les bornes de ces intervalles. Nous observons cependant que les valeurs théoriques ne sont pas toutes présentes dans les intervalles de prévision, mais le résultat reste satisfaisant en globalité.

Afin de connaître la qualité de nos prévisions, nous calculons le critère MSE (Mean Squared Error) :

…

Le MSE obtenu est de 1194.152. Nous le comparerons par la suite avec un nouveau modèle réalisé à partir de sélection de facteurs.

4. ANOVA



Nous allons , dans cette deuxième partie, étudier les variations de la pollution en fonction de la direction du vent, afin de déterminer l’influence potentielle de cette variable.

Voici les boxplots représentant la pollution en fonction de la direction du vent. Cv signifie qu’il n’y a pas de vent, NE est le vent du Nord-Est, NW le vent du Nord-Ouest et SE le vent du Sud-Est.


Nous observons qu’il y a un taux de particules PM2.5 plus élevé pour le vent du Sud-Est et le taux le plus faible pour le vent du Nord-Ouest. Par ailleurs, les boxplots ont tous des valeurs valeurs aberrantes. Nous supprimerons les valeurs influentes par la suite.
Nous allons définir les quantités importantes :
La variable du vent contient K = 4 modalités (les 4 directions du vent), un effectif total N = 3000 données et une moyenne empirique µ = 78.156. Les effectifs partiels nk avec k=1, … ,4 sont : 652 pour cv, 366 pour NE, 734 pour NW et 1248 pour SE et des moyennes partielles empiriques µk de 99.58 pour cv, 68.29 pour NE, 43.11 pour NW et 90.47 pour SE.
Nous réalisons ensuite le tableau d’analyse de la variance :

…
La première colonne contient la somme des carrés SC_fac et SC_res. La deuxième colonne correspond aux degrés de liberté, respectivement K-1 et n-K. La troisième colonne contient les carrés moyens CM_fac qui mesure l’hétérogénéité des mesures de pollution intergroupes et CM_res qui mesure l’hétérogénéité des mesures intra-groupes. La quatrième colonne contient la statistique de test F, pour le test de l’égalité des moyennes : H0 : µ1 = · · · = µK contre H1 : il existe un couple (i, j) avec i ≠ j pour lequel µi ≠ µj. Enfin, la dernière colonne contient la p-valeur de ce test d’égalité des moyennes. Ici, elle est inférieure à 2x10-16, donc très proche de 0. On rejette alors H0, ce qui suppose que les moyennes ne sont pas égales et que le vent a donc un impact sur la quantité de particules PM2.5 présentes dans l’air du quartier Dongsi. Le test de l’Anova réalisé par la suite permettra de confirmer cette hypothèse. .

Ensuite, comme dans partie précédente sur la régression multiple, nous allons faire l’analyse des résidus, et supprimer les valeurs aberrantes. Ici, nous analyserons uniquement deux graphiques (Residuals vs fitted et Normal Q-Q), car dans le cas de l’Anova, nous réalisons des analyses basées sur les moyennes. Il faut donc supprimer les valeurs aberrantes et non les données influentes, détectables grâce aux graphique Cook’s distance et Residuals vs leverage.

…



Ainsi, nous observons que dans le deuxième graphique (Normal Q-Q), de nombreux résidus standardisés sont supérieurs à 4 et sont donc considérés comme des valeurs aberrantes.

Voici l’analyse des résidus après la suppression des valeurs aberrantes :

…


Les résultats sont plus convenables, en effet, il n’y a plus de résidu standardisé supérieur à 4. Cependant, une légère hétéroscédasticité persiste, mais nous n’en tiendrons pas rigueur. Par ailleurs, les résidus ne suivent pas entièrement la droite de Henry, les queues sont plus lourdes que la loi normale, nous supposons donc que les données ne suivent pas une loi normale.
Nous avons précédemment rejeté l’hypothèse d’égalité des moyennes (H0 : µ1 = · · · = µK). Il s’agit alors de préciser ces résultats en localisant précisément les égalités ainsi que les différences entre les moyennes. Nous allons réaliser une méthode de comparaisons multiples. L’objectif est de tester l’égalité des moyennes partielles. Nous supposons par ailleurs les εik i.i.d. et de loi N(0, σ2).
Avant de réaliser les tests, il faut tester l’égalité des variances avec le test de Levene. Après l’avoir réalisé, nous obtenons une p-valeur inférieure à 2.2e-16, nous rejettons donc l’hypothèse d’égalité des variances.
La première méthode utilisée est la méthode de Scheffé. Cette méthode est cependant peu puissante. C’est un test statistique permettant d’effectuer une comparaison multiple en une seule étape. Le test compare toutes les paires de moyenne possibles.

…
On obtient les résultats suivants :

…


La première colonne représente la différence entre moyennes partielles selon les modalités du facteur vent. La deuxième colonne comprend les intervalles de confiance de ces différences. Enfin, la dernière colonne corresponde aux p-valeurs ajustées. Les étoiles à côtés des p-valeurs indique la « probabilité » de rejeter HO . Plus il y a d’étoiles, plus on a de probabilités de rejetter H0. Ici, on fixe un seuil à 0.05 et on rejette HO si la p-valeur est inférieure à ce seuil.
Voici les résultats obtenus :
NE ≠ cv ; NW ≠ cv ; NW ≠ NE ; SE ≠ NE ; SE ≠ NW ; SE = cv
La deuxième méthode utilisée est la méthode de Tukey. Cette méthode est plus puissante que le test de Scheffé.

…


On obtient le tableau suivant :

…



Voici les résultats obtenus :

NE ≠ cv ; NW ≠ cv ; NW ≠ NE ; SE ≠ NE ; SE ≠ NW ; SE = cv
Ce sont donc les mêmes résultats que le test de Scheffé. La quantité de particules PM2.5 semble donc être similaire pour le vent du Sud-Est et l’absence de vent.

5. Régression multiple – Sélection de facteurs




Dans cette dernière partie, nous allons sélectionner des facteurs afin d’améliorer le modèle de régression.


Nous commençons par rechercher une potentielle colinéarité entre les facteurs. En effet, une colinéarité entraîne une augmentation de la variance des estimateurs des paramètres du modèle. Cela pourrait avoir un impact important sur la validité du modèle, il est donc possible que nous supprimions les facteurs concernés par la colinéarité par la suite. Nous allons donc utiliser le critère VIF afin de détecter la colinéarité entre les facteurs.

Le vif de la régression nous donne les valeurs ci-après :

…
Il y a une potentielle colinéarité entre les facteurs si le critère VIF est supérieur à 4 et une forte colinéarité s’il est supérieur à 10, ce qui signifie qu’une variable est une combinaison linéaire des autres variables. Dans notre modèle, les variables PM_Dongsihuan, PM_Nongzhanguan, PM_US.Post, DEWP, HUMI et TEMP ont un critère supérieure à 4. Elles sont donc colinéaires aux autres facteurs.
Ensuite, nous effectuons une première sélection de facteurs en utilisant les méthodes backward et forward. Ces méthodes s’effectuent pas à pas, en regardant à chaque étape quel est le “meilleur modèle” selon un critère choisi à l’avance (ici 0.05). En effet, l’ajout (méthode forward) ou la suppression (méthode backward) d’un facteur modifie l’ensemble des valeurs des estimateurs et de leur variance.
La méthode par élimination (backward) consiste à commencer par le modèle complet puis éliminer une variable à chaque étape suivant le critère fixé à l’avance. Pour éliminer les variables, on va se baser sur les p-valeurs du test de Student avec un niveau 0.05 et à chaque étape nous supprimons la variable là moins significative, c’est-à-dire celle avec la plus grande p-valeur, puis nous recommençons la régression. Nous continuons ainsi de suite jusqu’à ce que toutes les variables restantes soient significatives (donc une p valeur inférieure à 0.05).
Ainsi, nous obtenons « le meilleur modèle » au seuil fixé à 0.05 avec la méthode backward :

PM_Dongsi = 250+ 0.0808PM_Dongsihuan + 0.6776Nongzhanguan + 0.3554M_US.Post + 0.1582HUMI + 0.183PRES + 0.5721TEMP + 0.2625*Iws


Ainsi, nous obtenons « le meilleur modèle » au seuil fixé à 0.05 avec la méthode forward :
La méthode de la régression par ajout (forward) fonctionne de façon opposée : nous partons du modèle avec la constante seule, puis nous effectuons à chaque étape une régression et nous retenons ainsi le modèle présentant la variable la plus significative selon le critère choisi (ici 0.05). Ainsi, à chaque nouvelle régression nous ajoutons la variable avec la p-valeur la plus faible.

PM_Dongsi = -208.22 + 0.028PM_Dongsihuan + 0.680Nongzhanguan + 0.352M_US.Post-0.132DEWP +0.027Iws + 0.183PRES + 0.696TEMP + 0.199HUMI
Nous allons maintenant employer la méthode exhaustive. Elle consiste à examiner l’ensemble de tous les sous-modèles possibles et à sélectionner le meilleur d’entre eux selon un critère défini à l’avance (ici 0.05). Cependant on préférera toujours les méthodes pas à pas (backward et forward) aux méthodes exhaustives pour des modèles complexes ou de très grandes dimensions (ce qui n’est pas notre cas).
Voici le résultat obtenu :
…
Ce tableau se lit par ligne, il représente le meilleur modèle par rapport aux nombres de variables explicatives choisies. Par exemple, si on veut un modèle avec 1 variable explicative, on sélectionne dans la 1e ligne du tableau la variable indiquée par ““. Ainsi, nous remarquons que le meilleur modèle avec une variable explicative est PM_dongsi = β0 + β1PM_Nougzhanguan, ainsi de suite.
Ensuite, nous sélectionnons des modèles grâce aux 3 critères de sélection : Bic, Cp de Mallows et R2 ajusté.

• R² : Le R² ou R-carré est appelé coefficient de détermination. C’est un indicateur permettant de juger la qualité d’une régression linéaire. C’est le meilleur critère pour réaliser une modélisation.

• R² ajusté : Le critère du R2 ajusté pénalise plus que le R2 les modèles où le nombre de facteurs est grand. Cependant, malgré la pénalisation effectuée, ce critère favorise les modèles avec plus de facteurs que pour les autres critères, les autres seront donc préférés. Le meilleur R² ajusté est de 0.9806564, donc un modèle à 8 variables est censé être le plus optimal. Cependant, tous les facteurs sont sélectionnés.

• Critère de BIC : Le modèle sélectionné avec le critère BIC correspond au modèle à k facteurs pour lequel BIC est le plus petit. Dans notre cas, la plus petite valeur vaut -11337.19, nous choisissons donc un modèle à 6 facteurs. Pour réaliser des prévisions, nous choisissons ce modèle car il est le plus adapté. Nous obtenons un R2 à hauteur de 0.9801, qui est très bon.

• Critère de Mallows : Pour obtenir un modèle selon le critère de Mallows, il faut choisir la valeur la plus proche de k+1. Ici, la 8e valeur est la plus proche de k+1. Nous choisissons donc un modèle à 8 facteurs, qui comprend donc toutes les variables.
Voici les modèles obtenus avec les critères de sélection :

…
Ce graphique représente une sélection de facteurs avec le critère du R2, R2 ajusté, BIC et CP. On regarde la première ligne en haut de chaque graphique pour connaitre le modèle retenu par le critère. Ici, 3 des critères ont un modèle avec les 8 facteurs (PM_Dongsihuan, PM_Nongzhanguan, PM_US.Post, HUMI, PRES, TEMP, Iws, iprec) sauf le modèle avec le critère du BIC où ici nous choisissons 6 (PM_Nongzhanguan, PM_US.Post, HUMI, PRES, TEMP, Iws).
Ensuite, nous utilisons le critère VIF pour détecter la colinéarité entre les facteurs. Pour le critère BIC, les variables X\(PM_Nongzhanguan et X\)PM_US.Post ont un vif supérieur à 10. On en déduit donc que ces deux facteurs sont fortement colinéaires.
Pour le critère CP de Mallows et Backward, les variables X\(PM_Nongzhanguan , X\)PM_US.Post, X$PM_Dongsihuan ont un vif supérieur à 10. On en déduit donc que ces trois facteurs sont fortement colinéaires.
On remarque que les summary des régressions des 3 méthodes choisie (backward, bic et cp) sont fortement similaire. En effet, les estimate, std.error, t value, p-valeur et R²ajusté sont rigoureusement égaux. Par ailleurs, on voit qu’ils sont très bon puisqu’il est proche de 1
Finalement, nous réalisons des prévisions sur les 10 mêmes valeurs que dans la partie II, avec notre nouveau modèle basé sur le critère BIC:

…
Voici les intervalles de confiance pour E(Yn+1) et les intervalles de prévision pour Yn+1 :

…
Il y a donc une probabilité de 95% que E(Yn+1) et Yn+1 soient compris entre les bornes de ces intervalles.
Afin de connaître la qualité de nos prévisions, nous calculons le critère MSE (Mean Squared Error) :

…
Le MSE obtenu est de 996.3481. Elle est plus faible que celle calculée dans la partie II (1194.152). Nous en concluons donc que notre modèle est mieux ajusté que le précédent.

6. Conclusion



Notre objectif initial était d’analyser les variations de la pollution (particules PM2.5) du quartier Dongsi de Pékin en fonction de mesures réalisées chaque jour pendant 5 ans (point de rosée, humidité, pression, etc.).
Nous avons donc commencé par régresser les données en fonction de PM_Dongsi. La régression après suppression des valeurs aberrantes était assez bonne, avec un coefficient R2 à hauteur de 0.9801, soit proche de 1. Nous avons aussi calculé le critère MSE (Mean Squared Error), qui était à hauteur de 1194.152. Cependant, ce modèle regroupait tous les facteurs sans distinction. Nous avons donc par la suite réalisé une selection de facteurs, afin d’obtenir un modèle plus adapté.
Dans une deuxième partie, nous avons réalisé l’Anova, afin déceler l’influence potentielle de la direction du vent sur la pollution. La variable du vent possède 4 modalités: Nord-Est, Nord-Ouest, Sud-Est et sans vent. Nous avons rejeté l’hypothèse d’égalité des moyennes, ce qui supposait que la direction du vent avait une influence sur la pollution. Nous avons ensuite réalisé les tests de Scheffé et de Tukey afin de comparer toutes les paires de moyenne et de déceler des différences ou des égalités. Les résultats obtenus nous ont permis de déduire que la quantité de particules PM2.5 en l’absence de vent et avec le vent du Sud-Est était la même. Enfin, nous avons réalisé une sélection de facteurs afin de déterminer le meilleur modèle de régression. Les méthodes de Backward et Cp de Mallows avaient des résultats similaires, donc il n’y avait pas de méthode préférable. Voici le modèle retenu pour la modélisation :

PM_Dongsi = -202.2 + 6.928e-01PM_Dongsihuan + 3.687e-01PM_US.Post + 2.540e-02Iws + 0.183PRES + 5.647e-01TEMP + 1.598e-01HUMI + 1.804e-01PRES + -1.490e-01 Iprec
Nous en déduisons donc que les variables influençant la pollution sont donc les particules PM2.5 des districts Dongsihuan et US.Post, la vitesse du vent, la température, l’humidité, la pression et la précipitation. Pour réaliser des prévisions, nous avons préféré le modèle avec le critère BIC :
PM_Dongsi = -202 + 6.935e-01PM_Nongzhanguan + 3.684e-01PM_US.Post + 1.574e-01HUMI + 1.803e-01PRES + 5.659e-01* TEMP + 2.543e-02*Iws

Nous en déduisons donc que le meilleur modèle pour réaliser des prévisions est composées des variables suivantes : les particules PM2.5 des districts Nongzhanguan et US.Post, la vitesse du vent, l’humidité, la pression et la température.