In 2022, air pollution cost Shanghai about 13,000 deaths and $6,300,000,000 USD. That’s why we decided to look at the pollution factors in Shanghai, so that we could then try to remedy them. It is based on data from the site “https://archive.ics.uci.edu/ml/datasets/PM2.5+Data+of+Five+Chinese+Cities” collected between between Jan 1st, 2010 to Dec 31st, 2015. This dataset includes time data such as year, month, day, time and season of data collection. It also groups pollutants concentration variables on three different Chinese pollution stations. Finally, it groups together various factors that could influence these concentrations of pollutants such as temperature, humidity, pressure, wind direction and speed, and precipitation (See Appendix 1 for a description of the variables). The main purpose of this project is to analyse the variations of pollution in the city of Shanghai in relation to other variables, through the application of linear models. To do this, we will perform a multiple regression on the data, then an annova, and finally we will end with a selection of factors.
En premier lieu, on sélectionne 3000 données et on effectue une première analyse graphique, en commençant par se concentrer sur 3 variables afin de savoir si la distribution de celles-ci adopte le même comportement sur les 3000 données que sur l’ensemble de la population. (Cliquez sur les graphiques pour les agrandir)
On remarque que la distribtuion des variables sur l’ensemble de la
population sont semblables à celles sur notre sélection de 3000 données
outre les valeurs aberrantes. On poursuit donc nos observations avec
cette sélection.
Résumé des variables
| Minimum | Médiane | Moyenne | Maximum | |
|---|---|---|---|---|
| PM_Jingan | 1.00 | 46.00 | 57.36 | 336.00 |
| PM_US.Post | 10.00 | 48.00 | 56.15 | 356.00 |
| PM_Xuhui | 1.00 | 50.00 | 60.87 | 317.00 |
| DEWP | -17.00 | 8.00 | 7.15 | 23.00 |
| HUMI | 13.09 | 69.40 | 65.42 | 93.98 |
| PRES | 999 | 1017 | 1017 | 1033 |
| TEMP | -3.00 | 15.00 | 14.39 | 34.00 |
| Iws | 0.00 | 21.00 | 49.61 | 393.00 |
| precipitation | 0.000 | 0.000 | 0.133 | 27.800 |
| Iprec | 0.000 | 0.000 | 0.948 | 65.300 |
On regarde maintenant si l’on remarque des liaisons linéaires entre les variables.
On constate aisément a l’aide de ce graphique que beaucoup de variables de notre jeu de données sont liées. Trois d’entre elles relèvent en réalité seulement de phénomène naturel, en effet la pression athmosphérique influence la température négativement ainsi que la variable DEWP relative au point de rosé.
Pour ce qui est de la varibale que l’on souhaite expliquer, cette dernière est corrélée avec les autres cantons qui eux aussi récupère les données relative a la pollution. Une pollution élevée sur un canton est intimement liée a la pollution relevée dans un autre canton de ce même pays. On constate donc que notre variable est influencée par les données des deux autres posts.
Nous choisissons la variables US.Post comme variable à expliquer pour la suite de nos analyses.
Coefficients de la régression
| Estimation | Variance_erreurs | T_value | P_value | Significativité | |
|---|---|---|---|---|---|
| (Intercept) | 16.79 | 47.77 | 0.35 | 0.73 | |
| PM_Jingan | 0.6 | 0.01 | 41.01 | 0 | *** |
| PM_Xuhui | 0.18 | 0.01 | 12.37 | 0 | *** |
| DEWP | 0.14 | 0.14 | 1.01 | 0.31 | |
| HUMI | -0.02 | 0.04 | -0.62 | 0.53 | |
| PRES | 0 | 0.05 | -0.01 | 0.99 | |
| TEMP | -0.35 | 0.14 | -2.51 | 0.01 | *** |
| Iws | 0 | 0 | -0.96 | 0.33 | |
| precipitation | -0.01 | 0.2 | -0.07 | 0.95 | |
| Iprec | -0.06 | 0.04 | -1.6 | 0.11 |
Le R2 est représente la part de variance de notre variable à expliquer, expliquée par le modèle de régression. Sur cette régression, le R2 vaut 0.95, ce qui signifie que 95 % de la variance des concentrations de pollution sur la station US.Post est expliqué par nos facteurs. Cette proportion étant supérieure à 70%, on peut en conclure que notre modèle est bon. De plus, la variance estimée des erreurs est de 8.023, ce qui est relativement faible et donc cela nous confirme que le modèle est bon. Cependant, ce ne sont pas les seuls indicateurs à prendre en compte pour valider notre modèle, donc on poursuit par l’analyse des résidus.
Le graphique des distances de Cook et celui des résidus à effet de levier nous informent qu’il n’y a pas de valeurs influentes. De plus, bien que les résidus standardisés s’éloignent pas la droite de Henri aux extrémités, on peut considérer nos données gaussiennes par l’application du théorème central limite, car nous possédons plus que 50 observations. Cependant, il nous fait remarquer quand même la présence de valeurs aberrantes que l’on va supprimer.
On supprime 30 valeurs aberrantes, soit 1% de nos données et on effectue de nouveau une régression sur ces données nettoyées.
| Estimation | Variance_erreurs | T_value | P_value | Significativité | |
|---|---|---|---|---|---|
| (Intercept) | 64.67 | 41.56 | 1.56 | 0.12 | |
| PM_Jingan | 0.57 | 0.01 | 43.48 | 0 | *** |
| PM_Xuhui | 0.22 | 0.01 | 16.28 | 0 | *** |
| DEWP | 0.11 | 0.12 | 0.9 | 0.37 | |
| HUMI | -0.03 | 0.03 | -0.78 | 0.43 | |
| PRES | -0.05 | 0.04 | -1.2 | 0.23 | |
| TEMP | -0.34 | 0.12 | -2.83 | 0 | *** |
| Iws | 0 | 0 | -0.59 | 0.56 | |
| precipitation | -0.04 | 0.17 | -0.21 | 0.84 | |
| Iprec | -0.05 | 0.03 | -1.55 | 0.12 |
Sur cette nouvelle régression, le R2 vaut 0.959, ce qui est supérieur à celui trouvé précédemment, donc notre modèle linéaire sur ce jeu de données néttoyé semble être meilleur que le précédent. De plus, la variance estimée des erreurs est de 6.929, ce qui est inférieur à celle trouvée sur l’ensemble des données. On procède maintenant à l’analyse des résidus sur cette nouvelle régression.
On ne remarque aucune structure particulière sur le graphique des résidus par rapport aux valeurs ajustées, donc on en conclut qu’il n’y a pas d’hétéroscédasticité. De plus les distances de Cook sont toujours inférieures à 1 et les résidus s’éloignen tun peu moins de la droite de Henri, donc on poursuit en gardant ce modèle. On passe maintenant à l’intervalle de confiance des estimateurs des moindres carrés :
2.5 % 97.5 %
(Intercept) -16.823146807 146.173026485
PM_Jingan 0.547423783 0.599127734
PM_Xuhui 0.190400882 0.242552124
DEWP -0.128174004 0.345534849
HUMI -0.093584776 0.040249146
PRES -0.125462381 0.030119192
TEMP -0.581910784 -0.105627288
Iws -0.005377435 0.002891797
precipitation -0.371567654 0.301083841
Iprec -0.113615886 0.013272456
Ces intervalles nous permettent de savoir que les valeurs des coefficients se situent à 95% dans ces intervalles. Certains de ces intervalles se trouvent être plus petits que d’autres. Cela s’explique par la variance des variables concernées. Une variable ayant de nombreuses données se concentrant autour de celles que nous étudions aura un intervalle plus petit qu’une variable ayant des données relativement homogènes. Prenons par exemple la température, les relevés étant réalisés chaque heure ces dernières ne varient pas réellement. L’intervalle sera donc plus grand.
Avec le summary et l’intervalle de confiance on peut admettre que les variables significatives au niveau 5% sont les deux autres postes a savoir PM_Jingan et PM_xuhui ainsi que la variable Temp.
On souhaite maintenant effectuer des prévisions sur les 10 prochaines données et quantifier leur qualité à l’aide de l’erreur quadratique moyenne.
Intervalles de confiance pour l’espérance de ces nouvelles valeurs
| fit | lwr | upr | |
|---|---|---|---|
| 38847 | 80.46422 | 79.72359 | 81.20485 |
| 38848 | 72.23077 | 71.45384 | 73.00769 |
| 38849 | 69.00918 | 68.22154 | 69.79682 |
| 38850 | 62.85159 | 62.04394 | 63.65923 |
| 38851 | 56.04520 | 55.35664 | 56.73375 |
| 38852 | 55.19782 | 54.49684 | 55.89881 |
| 38853 | 51.37628 | 50.72616 | 52.02640 |
| 38854 | 47.80701 | 47.18350 | 48.43052 |
| 38855 | 46.87791 | 46.28071 | 47.47512 |
| 38856 | 44.08272 | 43.48688 | 44.67856 |
Intervalles de prévision pour l’espérance de ces nouvelles valeurs
| fit | lwr | upr | |
|---|---|---|---|
| 38847 | 80.46422 | 66.85725 | 94.07119 |
| 38848 | 72.23077 | 58.62177 | 85.83976 |
| 38849 | 69.00918 | 55.39957 | 82.61879 |
| 38850 | 62.85159 | 49.24080 | 76.46237 |
| 38851 | 56.04520 | 42.44096 | 69.64943 |
| 38852 | 55.19782 | 41.59295 | 68.80269 |
| 38853 | 51.37628 | 37.77393 | 64.97862 |
| 38854 | 47.80701 | 34.20591 | 61.40811 |
| 38855 | 46.87791 | 33.27800 | 60.47783 |
| 38856 | 44.08272 | 30.48286 | 57.68258 |
Nous calculons pour finir la MSE ou Mean Squarred Error. L’erreur quadratique moyenne donne la moyenne de la différence quadratique entre la prévision du modèle et la valeur cible. Elle sera ici utilisée pour mesurer de la qualité de notre estimateur. Le MSE ici vaut 100.8106271. Nous interpréterons cette valeur lorsque nous aurons calculée le MSE lié a nos modèles par sélection de variable afin de pouvoir voir si les modèles obtenus sont meilleurs ou non.
Nous venons de regarder la significativité des variables explicatives quantitatives et maintenant nous voulons regarder ce qu’il en est pour notre variable explicative qualitative, qui est la direction du vent.
Graphiquement, on peut penser que les distributions semblent différentes, donc on émet l’hypothèse que la direction du vent pourrait avoir une influence sur la pollution. (Voir la nomenclature des directions du vent en annexe 2)
Statistiques élémentaires des directions du vent
cv NE NW SE SW
83 1042 489 1080 307
| Effectifs | Moyennes_empiriques | Variances_empiriques | |
|---|---|---|---|
| cv | 83 | 76.77 | 2331.54 |
| NE | 1042 | 49.25 | 975.16 |
| NW | 489 | 70.94 | 1891.02 |
| SE | 1080 | 50.47 | 997.82 |
| SW | 307 | 70.48 | 1229.26 |
On lance alors le test de l’annova pour savoir si les directions du vent jouent un rôle significatif sur la concentration de la pollution.
Tableau d’analyse de la variance
Df Sum Sq Mean Sq F value Pr(>F)
Y$cbwd 4 289865 72466 60.61 <2e-16 ***
Residuals 2996 3581943 1196
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Soit H0 notre hypothèse nulle selon laquelle les moyennes des concentrations de pollution à particules fines sont égales selon la direction du vent contre H1 l’hypothèse alternative selon laquelle il existe une des moyennes différentes des autres. La p-value étant très petite, on rejette H0 à tous les niveaux. Autrement dit, on rejette le fait que les moyennes soient égales. On en conclut qu’au moins une des moyennes est différente des autres et donc que la direction du vent à un impact sur la concentration de la pollution.
On procède maintenant à l’analyse des résidus de l’annova
Sur ces deux graphiques, nous pouvons tirer plusieurs informations. Sur le premier graphique nous pouvons obeserver la distributions des résidus avec les valeurs ajustées. Chaque direction du vent ayant une même moyenne , la distribution se fait logiquement de manière verticale. De plus on observe que certaines directions enregistrent une dispersion plus grandes, que d’autres, un comportement d’hétéroscédasticité avec également une proportion de valeurs positives et négatives différentes . En ce qui concerne le graphique de la normalité qui illustre la distribution avec la droite de Henry, la distribtuion de nos données ne semble pas ici suivre une loi normale, cependant on applique le théorème central limite car nous avons plus de 50 observations. On remarque enfin sur ces graphiques des données aberrantes que l’on va supprimer et on réalise un nouveau test de l’annova sur ces données nettoyées.
L’allure du premier graphique a changé, on peut exclure une éventuelle
hétéroscédasticité. La distribution ne suis toujours pas une loi normale
mais au vu du nombre de valeurs dans notre jeu de données, nous pouvons
nous référer au théorème central limite et dire que nos conclusions ne
sont toutefois pas éronées.
On utilise maintenant les méthodes de comparaisons multiples afin d’affiner notre analyse, et de localiser les différences. On commence par utliser la méthode de Tukey en fixant une précision égale à 5%.
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = anovamieux$PM_US.Post ~ anovamieux$cbwd, data = anovamieux)
$`anovamieux$cbwd`
diff lwr upr p adj
NE-cv -21.429575 -30.421845 -12.437306 0.0000000
NW-cv -2.814346 -12.172490 6.543798 0.9242823
SE-cv -20.102368 -29.081046 -11.123690 0.0000000
SW-cv -0.719963 -10.454715 9.014789 0.9996306
NW-NE 18.615229 14.336510 22.893949 0.0000000
SE-NE 1.327207 -2.041656 4.696071 0.8193031
SW-NE 20.709612 15.660061 25.759164 0.0000000
SE-NW -17.288022 -21.538104 -13.037940 0.0000000
SW-NW 2.094383 -3.581172 7.769938 0.8521585
SW-SE 19.382405 14.357097 24.407714 0.0000000
On rejette notre hypothèse pour les p-valeur inférieures à 5% et on accepte notre hypothèse pour les autres.
P-valeur < 0,05 : NW-NE, SW-NE, cv-NE, NW-SE, SW-SE, cv-SE
P-valeur > 0,05 : NW-cv, SW-cv, SE-NE, SW-NW
Ce qui nous donne: SW = NW = cv, SE = NE et NW =! NE, SW =! NE, cv =! NE, NW =! SE, SW =! SE, cv =! SE
Il n’y a donc pas de contradiction entre nos résultats et on peut affirmer qu’au moins une des moyennes est différente, et donc que la direction du vent joue un rôle significatif sur la concentration de la pollution.
Afin de confirmer ou d’invalider notre hypothèse précédente, on procède à la méthode de Sheffé.
Posthoc multiple comparisons of means: Scheffe Test
95% family-wise confidence level
$`anovamieux$cbwd`
diff lwr.ci upr.ci pval
NE-cv -21.429575 -31.583848 -11.275303 1.7e-08 ***
NW-cv -2.814346 -13.381773 7.753081 0.9545
SE-cv -20.102368 -30.241294 -9.963443 1.7e-07 ***
SW-cv -0.719963 -11.712664 10.272738 0.9998
NW-NE 18.615229 13.783604 23.446855 < 2e-16 ***
SE-NE 1.327207 -2.476989 5.131404 0.8852
SW-NE 20.709612 15.007545 26.411680 < 2e-16 ***
SE-NW -17.288022 -22.087310 -12.488734 < 2e-16 ***
SW-NW 2.094383 -4.314581 8.503347 0.9076
SW-SE 19.382405 13.707714 25.057096 < 2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Il n’y a pas de contradiction non plus. Il semble y avoir une différence notoire lorsque le vent venant du Nord-Est.
On veut maintenant effectuer une sélection de facteurs afin d’améliorer le modèle trouvé lors de notre régression multiple, que ce soit au niveau de la modélisation ou des prévisions. Pour cela, on recherche dans un premier temps, une éventuelle colinéarité entre les facteurs.
PM_Jingan PM_Xuhui DEWP HUMI PRES
20.002457 19.997296 48.787023 27.422341 5.444092
TEMP Iws precipitation Iprec
46.579090 1.178220 1.346696 1.446523
On peut supposer une colinéarité entre les facteurs lorsque les quantifications de colinéarité (tableau ci-dessus) sont supérieures à 4 et on peut affirmer une colinéarité lorsque ces dernières sont supérieures à 10. ans le cas de notre modèle, 5 variables présentent une colinéarité forte et 4 en sont suspectées. On effectue donc notre sélection de facteurs afin de diminuer voire supprimer ces colinéarités qui perturbent notre modèle.
On utlise tout d’abord la méthode Forward qui consiste à effectuer une régression par ajout sur les données. Cela consiste à effectuer une régression de notre variable à expliquer avec qu’un seul facteur au début, puis à rajouter d’autres facteurs au fur et à mesure, jusqu’à ce qu’il ne reste plus de facteurs significatifs. Pour cela on se fixe un seuil de significativité de 5%.
On retient 3 facteurs avec cette méthode : La concentration dans la station de Jingan, la concentration dans la station de Xuhui et la température.
On compare avec la méthode Backward pour savoir si l’on trouve les mêmes facteurs. Cette méthode fonctionne sur le même principe que la précédente, sauf que l’on part de la régression sur tous les facteurs et on enlève les facteurs non-significatifs (dont la p-valeur est supérieure à 0,05) un par un.
Avec cette méthode, on se retrouve également avec les 3 facteurs trouvés précédemment. On réalise alors une recherche exhaustive qui nous montre quel facteurs prendre selon le critère choisi. Pour un modèle de modélisation, on choisira le critère du R² ajusté et pour un modèle de prévision on choisira le critère du bic.
Recherche exhaustive selon le nombre de facteurs voulus :
Subset selection object
9 Variables (and intercept)
Forced in Forced out
PM_Jingan FALSE FALSE
PM_Xuhui FALSE FALSE
DEWP FALSE FALSE
HUMI FALSE FALSE
PRES FALSE FALSE
TEMP FALSE FALSE
Iws FALSE FALSE
precipitation FALSE FALSE
Iprec FALSE FALSE
1 subsets of each size up to 8
Selection Algorithm: exhaustive
PM_Jingan PM_Xuhui DEWP HUMI PRES TEMP Iws precipitation Iprec
1 ( 1 ) TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
2 ( 1 ) TRUE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
3 ( 1 ) TRUE TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE
4 ( 1 ) TRUE TRUE FALSE FALSE FALSE TRUE FALSE FALSE TRUE
5 ( 1 ) TRUE TRUE FALSE FALSE TRUE TRUE FALSE FALSE TRUE
6 ( 1 ) TRUE TRUE TRUE FALSE TRUE TRUE FALSE FALSE TRUE
7 ( 1 ) TRUE TRUE TRUE TRUE TRUE TRUE FALSE FALSE TRUE
8 ( 1 ) TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE
Recherche exhaustive selon le critère du R² ajusté :
Le tableau ci-dessous donne le R² ajusté pour chaque modèle à k facteurs, de 1 facteur (à gauche) a p facteurs (à droite)
[1] 0.9533523 0.9575060 0.9592043 0.9592392 0.9592674 0.9592574 0.9592507
[8] 0.9592419
Ici, on retiendra 5 facteurs car c’est le plus grand R² ajusté (0.9593). On se retrouve donc avec le modèle de modélisation suivant :
(Intercept) PM_Jingan PM_Xuhui PRES TEMP Iprec
66.17366962 0.57283716 0.21773471 -0.05155529 -0.24811742 -0.05761947
On procède de la même manière pour le critère du bic.
[1] -9091.514 -9361.595 -9475.778 -9471.323 -9466.382 -9458.662 -9451.178
[8] -9443.542
On retient ici 3 facteurs car c’est le plus petit bic (-9475.778). On se retrouve donc avec le modèle de prévision suivant :
(Intercept) PM_Jingan PM_Xuhui TEMP
12.9611699 0.5725122 0.2190910 -0.2036978
Afin d’affiner encore plus notre analyse, on peut également regarder le critère du cp de Mallows.
[1] 429.924040 128.406831 5.773848 4.237228 3.189220 4.913418 6.402197
[8] 8.042213
Notre critère de choix se base sur le modèle à k facteurs ayant le coefficient le plus proche de k+1, pour k le plus petit possible, donc ici, on retiendra 4 facteurs, ce qui nous donne le modèle suivant :
(Intercept) PM_Jingan PM_Xuhui TEMP Iprec
13.0766354 0.5732269 0.2174103 -0.2041433 -0.0514081
On réalise alors les prévisions et l’intervalle de confiance de notre modèle de modélisation.
Intervalle de confiance
2.5 % 97.5 %
(Intercept) 6.5654050 125.781934201
PM_Jingan 0.5471916 0.598482749
PM_Xuhui 0.1919233 0.243546142
PRES -0.1094294 0.006318859
TEMP -0.3090742 -0.187160599
Iprec -0.1116456 -0.003593295
On regarde alors le summary de la régression pour savoir si les 5 facteurs sont significatifs.
| Estimation | Variance_erreurs | T_value | P_value | Significativité | |
|---|---|---|---|---|---|
| (Intercept) | 66.17 | 30.4 | 2.18 | 0.03 |
|
| PM_Jingan | 0.57 | 0.01 | 43.8 | 0 | *** |
| PM_Xuhui | 0.22 | 0.01 | 16.54 | 0 | *** |
| PRES | -0.05 | 0.03 | -1.75 | 0.08 | . |
| TEMP | -0.25 | 0.03 | -7.98 | 0 | *** |
| Iprec | -0.06 | 0.03 | -2.09 | 0.04 |
|
Toutes les variables ne sont pas significatives, mais nous effectuons quand même des prévisions sur ce modèle :
| fit | lwr | upr | |
|---|---|---|---|
| 38847 | 80.37175 | 66.77600 | 93.96750 |
| 38848 | 72.16091 | 58.56186 | 85.75997 |
| 38849 | 68.89164 | 55.29234 | 82.49094 |
| 38850 | 62.70820 | 49.10858 | 76.30781 |
| 38851 | 55.87323 | 42.27994 | 69.46653 |
| 38852 | 55.03268 | 41.43948 | 68.62587 |
| 38853 | 51.21938 | 37.62718 | 64.81158 |
| 38854 | 47.65745 | 34.06550 | 61.24940 |
| 38855 | 46.75989 | 33.16830 | 60.35148 |
| 38856 | 43.97607 | 30.38434 | 57.56781 |
Le MSE sur ce modèle vaut 99.0675598, ce qui est inférieur à celui trouvé avec notre modèle de régression sur tous les facteurs.
On réalise alors les prévisions et l’intervalle de confiance de notre modèle de prévision.
Intervalle de confiance
2.5 % 97.5 %
(Intercept) 12.3347860 13.5875538
PM_Jingan 0.5468613 0.5981630
PM_Xuhui 0.1933217 0.2448603
TEMP -0.2394847 -0.1679108
On regarde alors le summary de la régression pour savoir si les 3 facteurs sont significatifs.
| Estimation | Variance_erreurs | T_value | P_value | Significativité | |
|---|---|---|---|---|---|
| (Intercept) | 12.96 | 0.32 | 40.57 | 0 | *** |
| PM_Jingan | 0.57 | 0.01 | 43.76 | 0 | *** |
| PM_Xuhui | 0.22 | 0.01 | 16.67 | 0 | *** |
| TEMP | -0.2 | 0.02 | -11.16 | 0 | *** |
Les variables sont toutes significatives, donc on regarde s’il y a toujours de la colinéarité entre les facteurs :
PM_Jingan PM_Xuhui PRES TEMP Iprec
19.703060 19.612746 3.016135 3.054759 1.049936
Deux des trois variables présentent de la colinéarité. On effectuera donc par la suite une dernière sélection de facteurs. On réalise tout de même les prévisions pour ce modèle-ci.
| fit | lwr | upr | |
|---|---|---|---|
| 38847 | 80.20067 | 79.58093 | 80.82041 |
| 38848 | 72.03137 | 71.33197 | 72.73078 |
| 38849 | 68.71524 | 68.02319 | 69.40728 |
| 38850 | 62.43638 | 61.77394 | 63.09883 |
| 38851 | 55.63019 | 55.08453 | 56.17584 |
| 38852 | 54.73843 | 54.21871 | 55.25815 |
| 38853 | 50.93454 | 50.43817 | 51.43091 |
| 38854 | 47.36412 | 46.87038 | 47.85787 |
| 38855 | 46.42280 | 45.96946 | 46.87614 |
| 38856 | 43.64500 | 43.18865 | 44.10134 |
Le MSE sur ce modèle vaut 53.4634935, ce qui est nettement inférieur à celui trouvé avec le premier modèle et celui trouvé avec le modèle utilisé pour faire de la modélisation, ce qui paraît logique puisque ce modèle est retenu pour faire des prévisions et donc présente une erreur quadratique moyenne inférieure.
Enfin, on essaye une dernière régression afin de limité la colinéarité entre les facteurs:
Subset selection object
9 Variables (and intercept)
Forced in Forced out
PM_Jingan FALSE FALSE
PM_Xuhui FALSE FALSE
DEWP FALSE FALSE
HUMI FALSE FALSE
PRES FALSE FALSE
TEMP FALSE FALSE
Iws FALSE FALSE
precipitation FALSE FALSE
Iprec FALSE FALSE
1 subsets of each size up to 8
Selection Algorithm: exhaustive
PM_Jingan PM_Xuhui DEWP HUMI PRES TEMP Iws precipitation Iprec
1 ( 1 ) TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
2 ( 1 ) TRUE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
3 ( 1 ) TRUE TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE
4 ( 1 ) TRUE TRUE FALSE FALSE FALSE TRUE FALSE FALSE TRUE
5 ( 1 ) TRUE TRUE FALSE FALSE TRUE TRUE FALSE FALSE TRUE
6 ( 1 ) TRUE TRUE TRUE FALSE TRUE TRUE FALSE FALSE TRUE
7 ( 1 ) TRUE TRUE TRUE TRUE TRUE TRUE FALSE FALSE TRUE
8 ( 1 ) TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE
Si l’on choisit seulement deux facteurs, le meilleur modèle est le suivant Y = B0 + B1 * PM_Jingan + B2 * PM_Xuhui + e
On regarde s’il reste de la colinéarité :
PM_Jingan PM_Xuhui
19.43938 19.43938
La colinéarité persiste, donc on retiendra le modèle à 3 facteurs, choisi avec le critère du bic.
First, we looked at which quantitive variables could have an impact on the concentration of fine particle pollution in the US.POST Station in Shanghai. We found a satisfactory model with an ESM of 100.81.
Then we looked at the only qualitative variable present in the dataset which is the wind direction and we saw that the wind played a significant role in the concentration of pollution.
Finally, in order to improve the linear regression model found in the first part, we selected factors. We first established a modelling model. Three factors emerged from this selection: The concentration of pollution at the Jingan and Xuhui stations and the temperature. However, on the latter model, the selected factors have colinearity, which must be taken into account, since this disturbs our model.
Below is a summary table of our analyses:
| Mean squared error | Collinearity | Number of factors | Factors | |
|---|---|---|---|---|
| Multiple regression model | 100.811 | Yes | 9 | All quantitative factors |
| Modelling model | 99.068 | Yes | 5 | PM.Jingan, PM.Xuhui, Pressure, Temperature, Hourly precipitation |
| Forecasting model | 53.463 | Yes | 3 | PM.Jingan, PM.Xuhui, Temperature |
Description des variables
| Description des variables | |
|---|---|
| No | Year of data in this row |
| year | Month of data in this row |
| month | Day of data in this row |
| day | Hour of data in this row |
| hour | Season of data in this row |
| PM | PM2.5 concentration (ug/m^3) |
| DEWP | Dew Point (Celsius Degree) |
| TEMP | Temperature (Celsius Degree) |
| HUMI | Humidity (%) |
| PRES | Pressure (hPa) |
| cbwd | Combined wind direction |
| Iws | Cumulated wind speed (m/s) |
| Iprec | Hourly precipitation (mm) |
| precipitation | Cumulated precipitation (mm) |
Directions du vent
| Directions du vent | |
|---|---|
| NW | Nord-Ouest |
| NE | Nord-Est |
| SW | Sud-Ouest |
| SE | Sud-Est |
| cv | Vent calme et variable |