Introduction

In 2022, air pollution cost Shanghai about 13,000 deaths and $6,300,000,000 USD. That’s why we decided to look at the pollution factors in Shanghai, so that we could then try to remedy them. It is based on data from the site “https://archive.ics.uci.edu/ml/datasets/PM2.5+Data+of+Five+Chinese+Cities” collected between between Jan 1st, 2010 to Dec 31st, 2015. This dataset includes time data such as year, month, day, time and season of data collection. It also groups pollutants concentration variables on three different Chinese pollution stations. Finally, it groups together various factors that could influence these concentrations of pollutants such as temperature, humidity, pressure, wind direction and speed, and precipitation (See Appendix 1 for a description of the variables). The main purpose of this project is to analyse the variations of pollution in the city of Shanghai in relation to other variables, through the application of linear models. To do this, we will perform a multiple regression on the data, then an annova, and finally we will end with a selection of factors.

Régression multiple

Observations graphiques

En premier lieu, on sélectionne 3000 données et on effectue une première analyse graphique, en commençant par se concentrer sur 3 variables afin de savoir si la distribution de celles-ci adopte le même comportement sur les 3000 données que sur l’ensemble de la population. (Cliquez sur les graphiques pour les agrandir)  

  On remarque que la distribtuion des variables sur l’ensemble de la population sont semblables à celles sur notre sélection de 3000 données outre les valeurs aberrantes. On poursuit donc nos observations avec cette sélection.  

Résumé des variables

Minimum Médiane Moyenne Maximum
PM_Jingan 1.00 46.00 57.36 336.00
PM_US.Post 10.00 48.00 56.15 356.00
PM_Xuhui 1.00 50.00 60.87 317.00
DEWP -17.00 8.00 7.15 23.00
HUMI 13.09 69.40 65.42 93.98
PRES 999 1017 1017 1033
TEMP -3.00 15.00 14.39 34.00
Iws 0.00 21.00 49.61 393.00
precipitation 0.000 0.000 0.133 27.800
Iprec 0.000 0.000 0.948 65.300

 

On regarde maintenant si l’on remarque des liaisons linéaires entre les variables.  

 

On constate aisément a l’aide de ce graphique que beaucoup de variables de notre jeu de données sont liées. Trois d’entre elles relèvent en réalité seulement de phénomène naturel, en effet la pression athmosphérique influence la température négativement ainsi que la variable DEWP relative au point de rosé.  

Pour ce qui est de la varibale que l’on souhaite expliquer, cette dernière est corrélée avec les autres cantons qui eux aussi récupère les données relative a la pollution. Une pollution élevée sur un canton est intimement liée a la pollution relevée dans un autre canton de ce même pays. On constate donc que notre variable est influencée par les données des deux autres posts.  

Régression de la variable pollution en fonction des autres variables

 

Nous choisissons la variables US.Post comme variable à expliquer pour la suite de nos analyses.  

Coefficients de la régression  

 

Estimation Variance_erreurs T_value P_value Significativité
(Intercept) 16.79 47.77 0.35 0.73
PM_Jingan 0.6 0.01 41.01 0 ***
PM_Xuhui 0.18 0.01 12.37 0 ***
DEWP 0.14 0.14 1.01 0.31
HUMI -0.02 0.04 -0.62 0.53
PRES 0 0.05 -0.01 0.99
TEMP -0.35 0.14 -2.51 0.01 ***
Iws 0 0 -0.96 0.33
precipitation -0.01 0.2 -0.07 0.95
Iprec -0.06 0.04 -1.6 0.11

 

Le R2 est représente la part de variance de notre variable à expliquer, expliquée par le modèle de régression. Sur cette régression, le R2 vaut 0.95, ce qui signifie que 95 % de la variance des concentrations de pollution sur la station US.Post est expliqué par nos facteurs. Cette proportion étant supérieure à 70%, on peut en conclure que notre modèle est bon. De plus, la variance estimée des erreurs est de 8.023, ce qui est relativement faible et donc cela nous confirme que le modèle est bon. Cependant, ce ne sont pas les seuls indicateurs à prendre en compte pour valider notre modèle, donc on poursuit par l’analyse des résidus.  

 

Le graphique des distances de Cook et celui des résidus à effet de levier nous informent qu’il n’y a pas de valeurs influentes. De plus, bien que les résidus standardisés s’éloignent pas la droite de Henri aux extrémités, on peut considérer nos données gaussiennes par l’application du théorème central limite, car nous possédons plus que 50 observations. Cependant, il nous fait remarquer quand même la présence de valeurs aberrantes que l’on va supprimer.  

On supprime 30 valeurs aberrantes, soit 1% de nos données et on effectue de nouveau une régression sur ces données nettoyées.  

Estimation Variance_erreurs T_value P_value Significativité
(Intercept) 64.67 41.56 1.56 0.12
PM_Jingan 0.57 0.01 43.48 0 ***
PM_Xuhui 0.22 0.01 16.28 0 ***
DEWP 0.11 0.12 0.9 0.37
HUMI -0.03 0.03 -0.78 0.43
PRES -0.05 0.04 -1.2 0.23
TEMP -0.34 0.12 -2.83 0 ***
Iws 0 0 -0.59 0.56
precipitation -0.04 0.17 -0.21 0.84
Iprec -0.05 0.03 -1.55 0.12

 

Sur cette nouvelle régression, le R2 vaut 0.959, ce qui est supérieur à celui trouvé précédemment, donc notre modèle linéaire sur ce jeu de données néttoyé semble être meilleur que le précédent. De plus, la variance estimée des erreurs est de 6.929, ce qui est inférieur à celle trouvée sur l’ensemble des données. On procède maintenant à l’analyse des résidus sur cette nouvelle régression.  

 

On ne remarque aucune structure particulière sur le graphique des résidus par rapport aux valeurs ajustées, donc on en conclut qu’il n’y a pas d’hétéroscédasticité. De plus les distances de Cook sont toujours inférieures à 1 et les résidus s’éloignen tun peu moins de la droite de Henri, donc on poursuit en gardant ce modèle.   On passe maintenant à l’intervalle de confiance des estimateurs des moindres carrés :  

                      2.5 %        97.5 %
(Intercept)   -16.823146807 146.173026485
PM_Jingan       0.547423783   0.599127734
PM_Xuhui        0.190400882   0.242552124
DEWP           -0.128174004   0.345534849
HUMI           -0.093584776   0.040249146
PRES           -0.125462381   0.030119192
TEMP           -0.581910784  -0.105627288
Iws            -0.005377435   0.002891797
precipitation  -0.371567654   0.301083841
Iprec          -0.113615886   0.013272456

 

Ces intervalles nous permettent de savoir que les valeurs des coefficients se situent à 95% dans ces intervalles. Certains de ces intervalles se trouvent être plus petits que d’autres. Cela s’explique par la variance des variables concernées. Une variable ayant de nombreuses données se concentrant autour de celles que nous étudions aura un intervalle plus petit qu’une variable ayant des données relativement homogènes. Prenons par exemple la température, les relevés étant réalisés chaque heure ces dernières ne varient pas réellement. L’intervalle sera donc plus grand.  

Avec le summary et l’intervalle de confiance on peut admettre que les variables significatives au niveau 5% sont les deux autres postes a savoir PM_Jingan et PM_xuhui ainsi que la variable Temp.  

On souhaite maintenant effectuer des prévisions sur les 10 prochaines données et quantifier leur qualité à l’aide de l’erreur quadratique moyenne.  

Intervalles de confiance pour l’espérance de ces nouvelles valeurs  

fit lwr upr
38847 80.46422 79.72359 81.20485
38848 72.23077 71.45384 73.00769
38849 69.00918 68.22154 69.79682
38850 62.85159 62.04394 63.65923
38851 56.04520 55.35664 56.73375
38852 55.19782 54.49684 55.89881
38853 51.37628 50.72616 52.02640
38854 47.80701 47.18350 48.43052
38855 46.87791 46.28071 47.47512
38856 44.08272 43.48688 44.67856

 

Intervalles de prévision pour l’espérance de ces nouvelles valeurs  

fit lwr upr
38847 80.46422 66.85725 94.07119
38848 72.23077 58.62177 85.83976
38849 69.00918 55.39957 82.61879
38850 62.85159 49.24080 76.46237
38851 56.04520 42.44096 69.64943
38852 55.19782 41.59295 68.80269
38853 51.37628 37.77393 64.97862
38854 47.80701 34.20591 61.40811
38855 46.87791 33.27800 60.47783
38856 44.08272 30.48286 57.68258

 

Nous calculons pour finir la MSE ou Mean Squarred Error. L’erreur quadratique moyenne donne la moyenne de la différence quadratique entre la prévision du modèle et la valeur cible. Elle sera ici utilisée pour mesurer de la qualité de notre estimateur. Le MSE ici vaut 100.8106271. Nous interpréterons cette valeur lorsque nous aurons calculée le MSE lié a nos modèles par sélection de variable afin de pouvoir voir si les modèles obtenus sont meilleurs ou non.  

Annova

Nous venons de regarder la significativité des variables explicatives quantitatives et maintenant nous voulons regarder ce qu’il en est pour notre variable explicative qualitative, qui est la direction du vent.  

 

Graphiquement, on peut penser que les distributions semblent différentes, donc on émet l’hypothèse que la direction du vent pourrait avoir une influence sur la pollution. (Voir la nomenclature des directions du vent en annexe 2)  

Statistiques élémentaires des directions du vent  


  cv   NE   NW   SE   SW 
  83 1042  489 1080  307 
Effectifs Moyennes_empiriques Variances_empiriques
cv 83 76.77 2331.54
NE 1042 49.25 975.16
NW 489 70.94 1891.02
SE 1080 50.47 997.82
SW 307 70.48 1229.26

 

On lance alors le test de l’annova pour savoir si les directions du vent jouent un rôle significatif sur la concentration de la pollution.  

Tableau d’analyse de la variance  

              Df  Sum Sq Mean Sq F value Pr(>F)    
Y$cbwd         4  289865   72466   60.61 <2e-16 ***
Residuals   2996 3581943    1196                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

 

Soit H0 notre hypothèse nulle selon laquelle les moyennes des concentrations de pollution à particules fines sont égales selon la direction du vent contre H1 l’hypothèse alternative selon laquelle il existe une des moyennes différentes des autres. La p-value étant très petite, on rejette H0 à tous les niveaux. Autrement dit, on rejette le fait que les moyennes soient égales. On en conclut qu’au moins une des moyennes est différente des autres et donc que la direction du vent à un impact sur la concentration de la pollution.  

On procède maintenant à l’analyse des résidus de l’annova  

  Sur ces deux graphiques, nous pouvons tirer plusieurs informations. Sur le premier graphique nous pouvons obeserver la distributions des résidus avec les valeurs ajustées. Chaque direction du vent ayant une même moyenne , la distribution se fait logiquement de manière verticale. De plus on observe que certaines directions enregistrent une dispersion plus grandes, que d’autres, un comportement d’hétéroscédasticité avec également une proportion de valeurs positives et négatives différentes . En ce qui concerne le graphique de la normalité qui illustre la distribution avec la droite de Henry, la distribtuion de nos données ne semble pas ici suivre une loi normale, cependant on applique le théorème central limite car nous avons plus de 50 observations. On remarque enfin sur ces graphiques des données aberrantes que l’on va supprimer et on réalise un nouveau test de l’annova sur ces données nettoyées.  

  L’allure du premier graphique a changé, on peut exclure une éventuelle hétéroscédasticité. La distribution ne suis toujours pas une loi normale mais au vu du nombre de valeurs dans notre jeu de données, nous pouvons nous référer au théorème central limite et dire que nos conclusions ne sont toutefois pas éronées.  

On utilise maintenant les méthodes de comparaisons multiples afin d’affiner notre analyse, et de localiser les différences. On commence par utliser la méthode de Tukey en fixant une précision égale à 5%.  

  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = anovamieux$PM_US.Post ~ anovamieux$cbwd, data = anovamieux)

$`anovamieux$cbwd`
            diff        lwr        upr     p adj
NE-cv -21.429575 -30.421845 -12.437306 0.0000000
NW-cv  -2.814346 -12.172490   6.543798 0.9242823
SE-cv -20.102368 -29.081046 -11.123690 0.0000000
SW-cv  -0.719963 -10.454715   9.014789 0.9996306
NW-NE  18.615229  14.336510  22.893949 0.0000000
SE-NE   1.327207  -2.041656   4.696071 0.8193031
SW-NE  20.709612  15.660061  25.759164 0.0000000
SE-NW -17.288022 -21.538104 -13.037940 0.0000000
SW-NW   2.094383  -3.581172   7.769938 0.8521585
SW-SE  19.382405  14.357097  24.407714 0.0000000

 

On rejette notre hypothèse pour les p-valeur inférieures à 5% et on accepte notre hypothèse pour les autres.  

P-valeur < 0,05 : NW-NE, SW-NE, cv-NE, NW-SE, SW-SE, cv-SE  

P-valeur > 0,05 : NW-cv, SW-cv, SE-NE, SW-NW  

Ce qui nous donne: SW = NW = cv, SE = NE et NW =! NE, SW =! NE, cv =! NE, NW =! SE, SW =! SE, cv =! SE  

Il n’y a donc pas de contradiction entre nos résultats et on peut affirmer qu’au moins une des moyennes est différente, et donc que la direction du vent joue un rôle significatif sur la concentration de la pollution.  

Afin de confirmer ou d’invalider notre hypothèse précédente, on procède à la méthode de Sheffé.  


  Posthoc multiple comparisons of means: Scheffe Test 
    95% family-wise confidence level

$`anovamieux$cbwd`
            diff     lwr.ci     upr.ci    pval    
NE-cv -21.429575 -31.583848 -11.275303 1.7e-08 ***
NW-cv  -2.814346 -13.381773   7.753081  0.9545    
SE-cv -20.102368 -30.241294  -9.963443 1.7e-07 ***
SW-cv  -0.719963 -11.712664  10.272738  0.9998    
NW-NE  18.615229  13.783604  23.446855 < 2e-16 ***
SE-NE   1.327207  -2.476989   5.131404  0.8852    
SW-NE  20.709612  15.007545  26.411680 < 2e-16 ***
SE-NW -17.288022 -22.087310 -12.488734 < 2e-16 ***
SW-NW   2.094383  -4.314581   8.503347  0.9076    
SW-SE  19.382405  13.707714  25.057096 < 2e-16 ***

---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

 

Il n’y a pas de contradiction non plus. Il semble y avoir une différence notoire lorsque le vent venant du Nord-Est.  

Sélection de facteurs

On veut maintenant effectuer une sélection de facteurs afin d’améliorer le modèle trouvé lors de notre régression multiple, que ce soit au niveau de la modélisation ou des prévisions. Pour cela, on recherche dans un premier temps, une éventuelle colinéarité entre les facteurs.  

    PM_Jingan      PM_Xuhui          DEWP          HUMI          PRES 
    20.002457     19.997296     48.787023     27.422341      5.444092 
         TEMP           Iws precipitation         Iprec 
    46.579090      1.178220      1.346696      1.446523 

 

On peut supposer une colinéarité entre les facteurs lorsque les quantifications de colinéarité (tableau ci-dessus) sont supérieures à 4 et on peut affirmer une colinéarité lorsque ces dernières sont supérieures à 10. ans le cas de notre modèle, 5 variables présentent une colinéarité forte et 4 en sont suspectées. On effectue donc notre sélection de facteurs afin de diminuer voire supprimer ces colinéarités qui perturbent notre modèle.  

On utlise tout d’abord la méthode Forward qui consiste à effectuer une régression par ajout sur les données. Cela consiste à effectuer une régression de notre variable à expliquer avec qu’un seul facteur au début, puis à rajouter d’autres facteurs au fur et à mesure, jusqu’à ce qu’il ne reste plus de facteurs significatifs. Pour cela on se fixe un seuil de significativité de 5%.  

 

On retient 3 facteurs avec cette méthode : La concentration dans la station de Jingan, la concentration dans la station de Xuhui et la température.  

On compare avec la méthode Backward pour savoir si l’on trouve les mêmes facteurs. Cette méthode fonctionne sur le même principe que la précédente, sauf que l’on part de la régression sur tous les facteurs et on enlève les facteurs non-significatifs (dont la p-valeur est supérieure à 0,05) un par un.  

Avec cette méthode, on se retrouve également avec les 3 facteurs trouvés précédemment. On réalise alors une recherche exhaustive qui nous montre quel facteurs prendre selon le critère choisi. Pour un modèle de modélisation, on choisira le critère du R² ajusté et pour un modèle de prévision on choisira le critère du bic.  

Recherche exhaustive selon le nombre de facteurs voulus :  

Subset selection object
9 Variables  (and intercept)
              Forced in Forced out
PM_Jingan         FALSE      FALSE
PM_Xuhui          FALSE      FALSE
DEWP              FALSE      FALSE
HUMI              FALSE      FALSE
PRES              FALSE      FALSE
TEMP              FALSE      FALSE
Iws               FALSE      FALSE
precipitation     FALSE      FALSE
Iprec             FALSE      FALSE
1 subsets of each size up to 8
Selection Algorithm: exhaustive
         PM_Jingan PM_Xuhui  DEWP  HUMI  PRES  TEMP   Iws precipitation Iprec
1  ( 1 )      TRUE    FALSE FALSE FALSE FALSE FALSE FALSE         FALSE FALSE
2  ( 1 )      TRUE     TRUE FALSE FALSE FALSE FALSE FALSE         FALSE FALSE
3  ( 1 )      TRUE     TRUE FALSE FALSE FALSE  TRUE FALSE         FALSE FALSE
4  ( 1 )      TRUE     TRUE FALSE FALSE FALSE  TRUE FALSE         FALSE  TRUE
5  ( 1 )      TRUE     TRUE FALSE FALSE  TRUE  TRUE FALSE         FALSE  TRUE
6  ( 1 )      TRUE     TRUE  TRUE FALSE  TRUE  TRUE FALSE         FALSE  TRUE
7  ( 1 )      TRUE     TRUE  TRUE  TRUE  TRUE  TRUE FALSE         FALSE  TRUE
8  ( 1 )      TRUE     TRUE  TRUE  TRUE  TRUE  TRUE  TRUE         FALSE  TRUE

Recherche exhaustive selon le critère du R² ajusté :  

Le tableau ci-dessous donne le R² ajusté pour chaque modèle à k facteurs, de 1 facteur (à gauche) a p facteurs (à droite)  

[1] 0.9533523 0.9575060 0.9592043 0.9592392 0.9592674 0.9592574 0.9592507
[8] 0.9592419

 

Ici, on retiendra 5 facteurs car c’est le plus grand R² ajusté (0.9593). On se retrouve donc avec le modèle de modélisation suivant :  

(Intercept)   PM_Jingan    PM_Xuhui        PRES        TEMP       Iprec 
66.17366962  0.57283716  0.21773471 -0.05155529 -0.24811742 -0.05761947 

 

On procède de la même manière pour le critère du bic.  

[1] -9091.514 -9361.595 -9475.778 -9471.323 -9466.382 -9458.662 -9451.178
[8] -9443.542

 

On retient ici 3 facteurs car c’est le plus petit bic (-9475.778). On se retrouve donc avec le modèle de prévision suivant :  

(Intercept)   PM_Jingan    PM_Xuhui        TEMP 
 12.9611699   0.5725122   0.2190910  -0.2036978 

 

Afin d’affiner encore plus notre analyse, on peut également regarder le critère du cp de Mallows.  

[1] 429.924040 128.406831   5.773848   4.237228   3.189220   4.913418   6.402197
[8]   8.042213

 

Notre critère de choix se base sur le modèle à k facteurs ayant le coefficient le plus proche de k+1, pour k le plus petit possible, donc ici, on retiendra 4 facteurs, ce qui nous donne le modèle suivant :  

(Intercept)   PM_Jingan    PM_Xuhui        TEMP       Iprec 
 13.0766354   0.5732269   0.2174103  -0.2041433  -0.0514081 

  On réalise alors les prévisions et l’intervalle de confiance de notre modèle de modélisation.  

Intervalle de confiance  

                 2.5 %        97.5 %
(Intercept)  6.5654050 125.781934201
PM_Jingan    0.5471916   0.598482749
PM_Xuhui     0.1919233   0.243546142
PRES        -0.1094294   0.006318859
TEMP        -0.3090742  -0.187160599
Iprec       -0.1116456  -0.003593295

 

On regarde alors le summary de la régression pour savoir si les 5 facteurs sont significatifs.  

Estimation Variance_erreurs T_value P_value Significativité
(Intercept) 66.17 30.4 2.18 0.03
PM_Jingan 0.57 0.01 43.8 0 ***
PM_Xuhui 0.22 0.01 16.54 0 ***
PRES -0.05 0.03 -1.75 0.08 .
TEMP -0.25 0.03 -7.98 0 ***
Iprec -0.06 0.03 -2.09 0.04
 

Toutes les variables ne sont pas significatives, mais nous effectuons quand même des prévisions sur ce modèle :  

fit lwr upr
38847 80.37175 66.77600 93.96750
38848 72.16091 58.56186 85.75997
38849 68.89164 55.29234 82.49094
38850 62.70820 49.10858 76.30781
38851 55.87323 42.27994 69.46653
38852 55.03268 41.43948 68.62587
38853 51.21938 37.62718 64.81158
38854 47.65745 34.06550 61.24940
38855 46.75989 33.16830 60.35148
38856 43.97607 30.38434 57.56781

 

Le MSE sur ce modèle vaut 99.0675598, ce qui est inférieur à celui trouvé avec notre modèle de régression sur tous les facteurs.

On réalise alors les prévisions et l’intervalle de confiance de notre modèle de prévision.  

Intervalle de confiance  

                 2.5 %     97.5 %
(Intercept) 12.3347860 13.5875538
PM_Jingan    0.5468613  0.5981630
PM_Xuhui     0.1933217  0.2448603
TEMP        -0.2394847 -0.1679108

 

On regarde alors le summary de la régression pour savoir si les 3 facteurs sont significatifs.  

Estimation Variance_erreurs T_value P_value Significativité
(Intercept) 12.96 0.32 40.57 0 ***
PM_Jingan 0.57 0.01 43.76 0 ***
PM_Xuhui 0.22 0.01 16.67 0 ***
TEMP -0.2 0.02 -11.16 0 ***

 

Les variables sont toutes significatives, donc on regarde s’il y a toujours de la colinéarité entre les facteurs :  

PM_Jingan  PM_Xuhui      PRES      TEMP     Iprec 
19.703060 19.612746  3.016135  3.054759  1.049936 

 

Deux des trois variables présentent de la colinéarité. On effectuera donc par la suite une dernière sélection de facteurs. On réalise tout de même les prévisions pour ce modèle-ci.  

fit lwr upr
38847 80.20067 79.58093 80.82041
38848 72.03137 71.33197 72.73078
38849 68.71524 68.02319 69.40728
38850 62.43638 61.77394 63.09883
38851 55.63019 55.08453 56.17584
38852 54.73843 54.21871 55.25815
38853 50.93454 50.43817 51.43091
38854 47.36412 46.87038 47.85787
38855 46.42280 45.96946 46.87614
38856 43.64500 43.18865 44.10134

 

Le MSE sur ce modèle vaut 53.4634935, ce qui est nettement inférieur à celui trouvé avec le premier modèle et celui trouvé avec le modèle utilisé pour faire de la modélisation, ce qui paraît logique puisque ce modèle est retenu pour faire des prévisions et donc présente une erreur quadratique moyenne inférieure.  

Enfin, on essaye une dernière régression afin de limité la colinéarité entre les facteurs:  

Subset selection object
9 Variables  (and intercept)
              Forced in Forced out
PM_Jingan         FALSE      FALSE
PM_Xuhui          FALSE      FALSE
DEWP              FALSE      FALSE
HUMI              FALSE      FALSE
PRES              FALSE      FALSE
TEMP              FALSE      FALSE
Iws               FALSE      FALSE
precipitation     FALSE      FALSE
Iprec             FALSE      FALSE
1 subsets of each size up to 8
Selection Algorithm: exhaustive
         PM_Jingan PM_Xuhui  DEWP  HUMI  PRES  TEMP   Iws precipitation Iprec
1  ( 1 )      TRUE    FALSE FALSE FALSE FALSE FALSE FALSE         FALSE FALSE
2  ( 1 )      TRUE     TRUE FALSE FALSE FALSE FALSE FALSE         FALSE FALSE
3  ( 1 )      TRUE     TRUE FALSE FALSE FALSE  TRUE FALSE         FALSE FALSE
4  ( 1 )      TRUE     TRUE FALSE FALSE FALSE  TRUE FALSE         FALSE  TRUE
5  ( 1 )      TRUE     TRUE FALSE FALSE  TRUE  TRUE FALSE         FALSE  TRUE
6  ( 1 )      TRUE     TRUE  TRUE FALSE  TRUE  TRUE FALSE         FALSE  TRUE
7  ( 1 )      TRUE     TRUE  TRUE  TRUE  TRUE  TRUE FALSE         FALSE  TRUE
8  ( 1 )      TRUE     TRUE  TRUE  TRUE  TRUE  TRUE  TRUE         FALSE  TRUE

 

Si l’on choisit seulement deux facteurs, le meilleur modèle est le suivant Y = B0 + B1 * PM_Jingan + B2 * PM_Xuhui + e  

 

On regarde s’il reste de la colinéarité :  

PM_Jingan  PM_Xuhui 
 19.43938  19.43938 

 

La colinéarité persiste, donc on retiendra le modèle à 3 facteurs, choisi avec le critère du bic.  

Conclusion

 

First, we looked at which quantitive variables could have an impact on the concentration of fine particle pollution in the US.POST Station in Shanghai. We found a satisfactory model with an ESM of 100.81.  

Then we looked at the only qualitative variable present in the dataset which is the wind direction and we saw that the wind played a significant role in the concentration of pollution.  

Finally, in order to improve the linear regression model found in the first part, we selected factors. We first established a modelling model. Three factors emerged from this selection: The concentration of pollution at the Jingan and Xuhui stations and the temperature. However, on the latter model, the selected factors have colinearity, which must be taken into account, since this disturbs our model.  

Below is a summary table of our analyses:  

Mean squared error Collinearity Number of factors Factors
Multiple regression model 100.811 Yes 9 All quantitative factors
Modelling model 99.068 Yes 5 PM.Jingan, PM.Xuhui, Pressure, Temperature, Hourly precipitation
Forecasting model 53.463 Yes 3 PM.Jingan, PM.Xuhui, Temperature

Annexe

Annexe 1

Description des variables  

Description des variables
No Year of data in this row
year Month of data in this row
month Day of data in this row
day Hour of data in this row
hour Season of data in this row
PM PM2.5 concentration (ug/m^3)
DEWP Dew Point (Celsius Degree)
TEMP Temperature (Celsius Degree)
HUMI Humidity (%)
PRES Pressure (hPa)
cbwd Combined wind direction
Iws Cumulated wind speed (m/s)
Iprec Hourly precipitation (mm)
precipitation Cumulated precipitation (mm)

 

Annexe 2

Directions du vent  

Directions du vent
NW Nord-Ouest
NE Nord-Est
SW Sud-Ouest
SE Sud-Est
cv Vent calme et variable