Introduction

In 2022, air pollution cost Shanghai about 13,000 deaths and $6,300,000,000 USD. That’s why we decided to look at the pollution factors in Shanghai, so that we could then try to remedy them. It is based on data from the site “https://archive.ics.uci.edu/ml/datasets/PM2.5+Data+of+Five+Chinese+Cities” collected between between Jan 1st, 2010 to Dec 31st, 2015. This dataset includes time data such as year, month, day, time and season of data collection. It also groups pollutants concentration variables on three different Chinese pollution stations. Finally, it groups together various factors that could influence these concentrations of pollutants such as temperature, humidity, pressure, wind direction and speed, and precipitation (See Appendix 1 for a description of the variables). The main purpose of this project is to analyse the variations of pollution in the city of Shanghai in relation to other variables, through the application of linear models. To do this, we will perform a multiple regression on the data, then an annova, and finally we will end with a selection of factors.

Régression multiple

Observations graphiques

En premier lieu, on sélectionne 3000 données et on effectue une première analyse graphique, en commençant par se concentrer sur 3 variables afin de savoir si la distribution de celles-ci adopte le même comportement sur les 3000 données que sur l’ensemble de la population. (Cliquez sur les graphiques pour les agrandir)

On remarque que la distribtuion des variables sur l’ensemble de la population sont semblables à celles sur notre sélection de 3000 données outre les valeurs aberrantes. On poursuit donc nos observations avec cette sélection.

Résumé des variables

	Minimum	Médiane	Moyenne	Maximum
PM_Jingan	1.00	46.00	57.36	336.00
PM_US.Post	10.00	48.00	56.15	356.00
PM_Xuhui	1.00	50.00	60.87	317.00
DEWP	-17.00	8.00	7.15	23.00
HUMI	13.09	69.40	65.42	93.98
PRES	999	1017	1017	1033
TEMP	-3.00	15.00	14.39	34.00
Iws	0.00	21.00	49.61	393.00
precipitation	0.000	0.000	0.133	27.800
Iprec	0.000	0.000	0.948	65.300

On regarde maintenant si l’on remarque des liaisons linéaires entre les variables.

On constate aisément a l’aide de ce graphique que beaucoup de variables de notre jeu de données sont liées. Trois d’entre elles relèvent en réalité seulement de phénomène naturel, en effet la pression athmosphérique influence la température négativement ainsi que la variable DEWP relative au point de rosé.

Pour ce qui est de la varibale que l’on souhaite expliquer, cette dernière est corrélée avec les autres cantons qui eux aussi récupère les données relative a la pollution. Une pollution élevée sur un canton est intimement liée a la pollution relevée dans un autre canton de ce même pays. On constate donc que notre variable est influencée par les données des deux autres posts.

Régression de la variable pollution en fonction des autres variables

Nous choisissons la variables US.Post comme variable à expliquer pour la suite de nos analyses.

Coefficients de la régression

	Estimation	Variance_erreurs	T_value	P_value	Significativité
(Intercept)	16.79	47.77	0.35	0.73
PM_Jingan	0.6	0.01	41.01	0	***
PM_Xuhui	0.18	0.01	12.37	0	***
DEWP	0.14	0.14	1.01	0.31
HUMI	-0.02	0.04	-0.62	0.53
PRES	0	0.05	-0.01	0.99
TEMP	-0.35	0.14	-2.51	0.01	***
Iws	0	0	-0.96	0.33
precipitation	-0.01	0.2	-0.07	0.95
Iprec	-0.06	0.04	-1.6	0.11

Le R2 est représente la part de variance de notre variable à expliquer, expliquée par le modèle de régression. Sur cette régression, le R2 vaut 0.95, ce qui signifie que 95 % de la variance des concentrations de pollution sur la station US.Post est expliqué par nos facteurs. Cette proportion étant supérieure à 70%, on peut en conclure que notre modèle est bon. De plus, la variance estimée des erreurs est de 8.023, ce qui est relativement faible et donc cela nous confirme que le modèle est bon. Cependant, ce ne sont pas les seuls indicateurs à prendre en compte pour valider notre modèle, donc on poursuit par l’analyse des résidus.

Le graphique des distances de Cook et celui des résidus à effet de levier nous informent qu’il n’y a pas de valeurs influentes. De plus, bien que les résidus standardisés s’éloignent pas la droite de Henri aux extrémités, on peut considérer nos données gaussiennes par l’application du théorème central limite, car nous possédons plus que 50 observations. Cependant, il nous fait remarquer quand même la présence de valeurs aberrantes que l’on va supprimer.

On supprime 30 valeurs aberrantes, soit 1% de nos données et on effectue de nouveau une régression sur ces données nettoyées.

	Estimation	Variance_erreurs	T_value	P_value	Significativité
(Intercept)	64.67	41.56	1.56	0.12
PM_Jingan	0.57	0.01	43.48	0	***
PM_Xuhui	0.22	0.01	16.28	0	***
DEWP	0.11	0.12	0.9	0.37
HUMI	-0.03	0.03	-0.78	0.43
PRES	-0.05	0.04	-1.2	0.23
TEMP	-0.34	0.12	-2.83	0	***
Iws	0	0	-0.59	0.56
precipitation	-0.04	0.17	-0.21	0.84
Iprec	-0.05	0.03	-1.55	0.12

Sur cette nouvelle régression, le R2 vaut 0.959, ce qui est supérieur à celui trouvé précédemment, donc notre modèle linéaire sur ce jeu de données néttoyé semble être meilleur que le précédent. De plus, la variance estimée des erreurs est de 6.929, ce qui est inférieur à celle trouvée sur l’ensemble des données. On procède maintenant à l’analyse des résidus sur cette nouvelle régression.

On ne remarque aucune structure particulière sur le graphique des résidus par rapport aux valeurs ajustées, donc on en conclut qu’il n’y a pas d’hétéroscédasticité. De plus les distances de Cook sont toujours inférieures à 1 et les résidus s’éloignen tun peu moins de la droite de Henri, donc on poursuit en gardant ce modèle. On passe maintenant à l’intervalle de confiance des estimateurs des moindres carrés :

                      2.5 %        97.5 %
(Intercept)   -16.823146807 146.173026485
PM_Jingan       0.547423783   0.599127734
PM_Xuhui        0.190400882   0.242552124
DEWP           -0.128174004   0.345534849
HUMI           -0.093584776   0.040249146
PRES           -0.125462381   0.030119192
TEMP           -0.581910784  -0.105627288
Iws            -0.005377435   0.002891797
precipitation  -0.371567654   0.301083841
Iprec          -0.113615886   0.013272456

Ces intervalles nous permettent de savoir que les valeurs des coefficients se situent à 95% dans ces intervalles. Certains de ces intervalles se trouvent être plus petits que d’autres. Cela s’explique par la variance des variables concernées. Une variable ayant de nombreuses données se concentrant autour de celles que nous étudions aura un intervalle plus petit qu’une variable ayant des données relativement homogènes. Prenons par exemple la température, les relevés étant réalisés chaque heure ces dernières ne varient pas réellement. L’intervalle sera donc plus grand.

Avec le summary et l’intervalle de confiance on peut admettre que les variables significatives au niveau 5% sont les deux autres postes a savoir PM_Jingan et PM_xuhui ainsi que la variable Temp.

On souhaite maintenant effectuer des prévisions sur les 10 prochaines données et quantifier leur qualité à l’aide de l’erreur quadratique moyenne.

Intervalles de confiance pour l’espérance de ces nouvelles valeurs

	fit	lwr	upr
38847	80.46422	79.72359	81.20485
38848	72.23077	71.45384	73.00769
38849	69.00918	68.22154	69.79682
38850	62.85159	62.04394	63.65923
38851	56.04520	55.35664	56.73375
38852	55.19782	54.49684	55.89881
38853	51.37628	50.72616	52.02640
38854	47.80701	47.18350	48.43052
38855	46.87791	46.28071	47.47512
38856	44.08272	43.48688	44.67856

Intervalles de prévision pour l’espérance de ces nouvelles valeurs

	fit	lwr	upr
38847	80.46422	66.85725	94.07119
38848	72.23077	58.62177	85.83976
38849	69.00918	55.39957	82.61879
38850	62.85159	49.24080	76.46237
38851	56.04520	42.44096	69.64943
38852	55.19782	41.59295	68.80269
38853	51.37628	37.77393	64.97862
38854	47.80701	34.20591	61.40811
38855	46.87791	33.27800	60.47783
38856	44.08272	30.48286	57.68258

Nous calculons pour finir la MSE ou Mean Squarred Error. L’erreur quadratique moyenne donne la moyenne de la différence quadratique entre la prévision du modèle et la valeur cible. Elle sera ici utilisée pour mesurer de la qualité de notre estimateur. Le MSE ici vaut 100.8106271. Nous interpréterons cette valeur lorsque nous aurons calculée le MSE lié a nos modèles par sélection de variable afin de pouvoir voir si les modèles obtenus sont meilleurs ou non.

Annova

Nous venons de regarder la significativité des variables explicatives quantitatives et maintenant nous voulons regarder ce qu’il en est pour notre variable explicative qualitative, qui est la direction du vent.

Graphiquement, on peut penser que les distributions semblent différentes, donc on émet l’hypothèse que la direction du vent pourrait avoir une influence sur la pollution. (Voir la nomenclature des directions du vent en annexe 2)

Statistiques élémentaires des directions du vent


  cv   NE   NW   SE   SW 
  83 1042  489 1080  307

	Effectifs	Moyennes_empiriques	Variances_empiriques
cv	83	76.77	2331.54
NE	1042	49.25	975.16
NW	489	70.94	1891.02
SE	1080	50.47	997.82
SW	307	70.48	1229.26

On lance alors le test de l’annova pour savoir si les directions du vent jouent un rôle significatif sur la concentration de la pollution.

Tableau d’analyse de la variance

              Df  Sum Sq Mean Sq F value Pr(>F)    
Y$cbwd         4  289865   72466   60.61 <2e-16 ***
Residuals   2996 3581943    1196                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Soit H0 notre hypothèse nulle selon laquelle les moyennes des concentrations de pollution à particules fines sont égales selon la direction du vent contre H1 l’hypothèse alternative selon laquelle il existe une des moyennes différentes des autres. La p-value étant très petite, on rejette H0 à tous les niveaux. Autrement dit, on rejette le fait que les moyennes soient égales. On en conclut qu’au moins une des moyennes est différente des autres et donc que la direction du vent à un impact sur la concentration de la pollution.

On procède maintenant à l’analyse des résidus de l’annova

Sur ces deux graphiques, nous pouvons tirer plusieurs informations. Sur le premier graphique nous pouvons obeserver la distributions des résidus avec les valeurs ajustées. Chaque direction du vent ayant une même moyenne , la distribution se fait logiquement de manière verticale. De plus on observe que certaines directions enregistrent une dispersion plus grandes, que d’autres, un comportement d’hétéroscédasticité avec également une proportion de valeurs positives et négatives différentes . En ce qui concerne le graphique de la normalité qui illustre la distribution avec la droite de Henry, la distribtuion de nos données ne semble pas ici suivre une loi normale, cependant on applique le théorème central limite car nous avons plus de 50 observations. On remarque enfin sur ces graphiques des données aberrantes que l’on va supprimer et on réalise un nouveau test de l’annova sur ces données nettoyées.

L’allure du premier graphique a changé, on peut exclure une éventuelle hétéroscédasticité. La distribution ne suis toujours pas une loi normale mais au vu du nombre de valeurs dans notre jeu de données, nous pouvons nous référer au théorème central limite et dire que nos conclusions ne sont toutefois pas éronées.

On utilise maintenant les méthodes de comparaisons multiples afin d’affiner notre analyse, et de localiser les différences. On commence par utliser la méthode de Tukey en fixant une précision égale à 5%.

  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = anovamieux$PM_US.Post ~ anovamieux$cbwd, data = anovamieux)

$`anovamieux$cbwd`
            diff        lwr        upr     p adj
NE-cv -21.429575 -30.421845 -12.437306 0.0000000
NW-cv  -2.814346 -12.172490   6.543798 0.9242823
SE-cv -20.102368 -29.081046 -11.123690 0.0000000
SW-cv  -0.719963 -10.454715   9.014789 0.9996306
NW-NE  18.615229  14.336510  22.893949 0.0000000
SE-NE   1.327207  -2.041656   4.696071 0.8193031
SW-NE  20.709612  15.660061  25.759164 0.0000000
SE-NW -17.288022 -21.538104 -13.037940 0.0000000
SW-NW   2.094383  -3.581172   7.769938 0.8521585
SW-SE  19.382405  14.357097  24.407714 0.0000000

On rejette notre hypothèse pour les p-valeur inférieures à 5% et on accepte notre hypothèse pour les autres.

P-valeur < 0,05 : NW-NE, SW-NE, cv-NE, NW-SE, SW-SE, cv-SE

P-valeur > 0,05 : NW-cv, SW-cv, SE-NE, SW-NW

Ce qui nous donne: SW = NW = cv, SE = NE et NW =! NE, SW =! NE, cv =! NE, NW =! SE, SW =! SE, cv =! SE

Il n’y a donc pas de contradiction entre nos résultats et on peut affirmer qu’au moins une des moyennes est différente, et donc que la direction du vent joue un rôle significatif sur la concentration de la pollution.

Afin de confirmer ou d’invalider notre hypothèse précédente, on procède à la méthode de Sheffé.


  Posthoc multiple comparisons of means: Scheffe Test 
    95% family-wise confidence level

$`anovamieux$cbwd`
            diff     lwr.ci     upr.ci    pval    
NE-cv -21.429575 -31.583848 -11.275303 1.7e-08 ***
NW-cv  -2.814346 -13.381773   7.753081  0.9545    
SE-cv -20.102368 -30.241294  -9.963443 1.7e-07 ***
SW-cv  -0.719963 -11.712664  10.272738  0.9998    
NW-NE  18.615229  13.783604  23.446855 < 2e-16 ***
SE-NE   1.327207  -2.476989   5.131404  0.8852    
SW-NE  20.709612  15.007545  26.411680 < 2e-16 ***
SE-NW -17.288022 -22.087310 -12.488734 < 2e-16 ***
SW-NW   2.094383  -4.314581   8.503347  0.9076    
SW-SE  19.382405  13.707714  25.057096 < 2e-16 ***

---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Il n’y a pas de contradiction non plus. Il semble y avoir une différence notoire lorsque le vent venant du Nord-Est.

Sélection de facteurs

On veut maintenant effectuer une sélection de facteurs afin d’améliorer le modèle trouvé lors de notre régression multiple, que ce soit au niveau de la modélisation ou des prévisions. Pour cela, on recherche dans un premier temps, une éventuelle colinéarité entre les facteurs.

    PM_Jingan      PM_Xuhui          DEWP          HUMI          PRES 
    20.002457     19.997296     48.787023     27.422341      5.444092 
         TEMP           Iws precipitation         Iprec 
    46.579090      1.178220      1.346696      1.446523

On peut supposer une colinéarité entre les facteurs lorsque les quantifications de colinéarité (tableau ci-dessus) sont supérieures à 4 et on peut affirmer une colinéarité lorsque ces dernières sont supérieures à 10. ans le cas de notre modèle, 5 variables présentent une colinéarité forte et 4 en sont suspectées. On effectue donc notre sélection de facteurs afin de diminuer voire supprimer ces colinéarités qui perturbent notre modèle.

On utlise tout d’abord la méthode Forward qui consiste à effectuer une régression par ajout sur les données. Cela consiste à effectuer une régression de notre variable à expliquer avec qu’un seul facteur au début, puis à rajouter d’autres facteurs au fur et à mesure, jusqu’à ce qu’il ne reste plus de facteurs significatifs. Pour cela on se fixe un seuil de significativité de 5%.

On retient 3 facteurs avec cette méthode : La concentration dans la station de Jingan, la concentration dans la station de Xuhui et la température.

On compare avec la méthode Backward pour savoir si l’on trouve les mêmes facteurs. Cette méthode fonctionne sur le même principe que la précédente, sauf que l’on part de la régression sur tous les facteurs et on enlève les facteurs non-significatifs (dont la p-valeur est supérieure à 0,05) un par un.

Avec cette méthode, on se retrouve également avec les 3 facteurs trouvés précédemment. On réalise alors une recherche exhaustive qui nous montre quel facteurs prendre selon le critère choisi. Pour un modèle de modélisation, on choisira le critère du R² ajusté et pour un modèle de prévision on choisira le critère du bic.

Recherche exhaustive selon le nombre de facteurs voulus :

Subset selection object
9 Variables  (and intercept)
              Forced in Forced out
PM_Jingan         FALSE      FALSE
PM_Xuhui          FALSE      FALSE
DEWP              FALSE      FALSE
HUMI              FALSE      FALSE
PRES              FALSE      FALSE
TEMP              FALSE      FALSE
Iws               FALSE      FALSE
precipitation     FALSE      FALSE
Iprec             FALSE      FALSE
1 subsets of each size up to 8
Selection Algorithm: exhaustive
         PM_Jingan PM_Xuhui  DEWP  HUMI  PRES  TEMP   Iws precipitation Iprec
1  ( 1 )      TRUE    FALSE FALSE FALSE FALSE FALSE FALSE         FALSE FALSE
2  ( 1 )      TRUE     TRUE FALSE FALSE FALSE FALSE FALSE         FALSE FALSE
3  ( 1 )      TRUE     TRUE FALSE FALSE FALSE  TRUE FALSE         FALSE FALSE
4  ( 1 )      TRUE     TRUE FALSE FALSE FALSE  TRUE FALSE         FALSE  TRUE
5  ( 1 )      TRUE     TRUE FALSE FALSE  TRUE  TRUE FALSE         FALSE  TRUE
6  ( 1 )      TRUE     TRUE  TRUE FALSE  TRUE  TRUE FALSE         FALSE  TRUE
7  ( 1 )      TRUE     TRUE  TRUE  TRUE  TRUE  TRUE FALSE         FALSE  TRUE
8  ( 1 )      TRUE     TRUE  TRUE  TRUE  TRUE  TRUE  TRUE         FALSE  TRUE

Recherche exhaustive selon le critère du R² ajusté :

Le tableau ci-dessous donne le R² ajusté pour chaque modèle à k facteurs, de 1 facteur (à gauche) a p facteurs (à droite)

[1] 0.9533523 0.9575060 0.9592043 0.9592392 0.9592674 0.9592574 0.9592507
[8] 0.9592419

Ici, on retiendra 5 facteurs car c’est le plus grand R² ajusté (0.9593). On se retrouve donc avec le modèle de modélisation suivant :

(Intercept)   PM_Jingan    PM_Xuhui        PRES        TEMP       Iprec 
66.17366962  0.57283716  0.21773471 -0.05155529 -0.24811742 -0.05761947

On procède de la même manière pour le critère du bic.

[1] -9091.514 -9361.595 -9475.778 -9471.323 -9466.382 -9458.662 -9451.178
[8] -9443.542

On retient ici 3 facteurs car c’est le plus petit bic (-9475.778). On se retrouve donc avec le modèle de prévision suivant :

(Intercept)   PM_Jingan    PM_Xuhui        TEMP 
 12.9611699   0.5725122   0.2190910  -0.2036978

Afin d’affiner encore plus notre analyse, on peut également regarder le critère du cp de Mallows.

[1] 429.924040 128.406831   5.773848   4.237228   3.189220   4.913418   6.402197
[8]   8.042213

Notre critère de choix se base sur le modèle à k facteurs ayant le coefficient le plus proche de k+1, pour k le plus petit possible, donc ici, on retiendra 4 facteurs, ce qui nous donne le modèle suivant :

(Intercept)   PM_Jingan    PM_Xuhui        TEMP       Iprec 
 13.0766354   0.5732269   0.2174103  -0.2041433  -0.0514081

On réalise alors les prévisions et l’intervalle de confiance de notre modèle de modélisation.

Intervalle de confiance

                 2.5 %        97.5 %
(Intercept)  6.5654050 125.781934201
PM_Jingan    0.5471916   0.598482749
PM_Xuhui     0.1919233   0.243546142
PRES        -0.1094294   0.006318859
TEMP        -0.3090742  -0.187160599
Iprec       -0.1116456  -0.003593295

On regarde alors le summary de la régression pour savoir si les 5 facteurs sont significatifs.

	Estimation	Variance_erreurs	T_value	P_value	Significativité
(Intercept)	66.17	30.4	2.18	0.03
PM_Jingan	0.57	0.01	43.8	0	***
PM_Xuhui	0.22	0.01	16.54	0	***
PRES	-0.05	0.03	-1.75	0.08	.
TEMP	-0.25	0.03	-7.98	0	***
Iprec	-0.06	0.03	-2.09	0.04

Toutes les variables ne sont pas significatives, mais nous effectuons quand même des prévisions sur ce modèle :

	fit	lwr	upr
38847	80.37175	66.77600	93.96750
38848	72.16091	58.56186	85.75997
38849	68.89164	55.29234	82.49094
38850	62.70820	49.10858	76.30781
38851	55.87323	42.27994	69.46653
38852	55.03268	41.43948	68.62587
38853	51.21938	37.62718	64.81158
38854	47.65745	34.06550	61.24940
38855	46.75989	33.16830	60.35148
38856	43.97607	30.38434	57.56781

Le MSE sur ce modèle vaut 99.0675598, ce qui est inférieur à celui trouvé avec notre modèle de régression sur tous les facteurs.

On réalise alors les prévisions et l’intervalle de confiance de notre modèle de prévision.

Intervalle de confiance

                 2.5 %     97.5 %
(Intercept) 12.3347860 13.5875538
PM_Jingan    0.5468613  0.5981630
PM_Xuhui     0.1933217  0.2448603
TEMP        -0.2394847 -0.1679108

On regarde alors le summary de la régression pour savoir si les 3 facteurs sont significatifs.

	Estimation	Variance_erreurs	T_value	Significativité
(Intercept)	12.96	0.32	40.57	***
PM_Jingan	0.57	0.01	43.76	***
PM_Xuhui	0.22	0.01	16.67	***
TEMP	-0.2	0.02	-11.16	***

Les variables sont toutes significatives, donc on regarde s’il y a toujours de la colinéarité entre les facteurs :

PM_Jingan  PM_Xuhui      PRES      TEMP     Iprec 
19.703060 19.612746  3.016135  3.054759  1.049936

Deux des trois variables présentent de la colinéarité. On effectuera donc par la suite une dernière sélection de facteurs. On réalise tout de même les prévisions pour ce modèle-ci.

	fit	lwr	upr
38847	80.20067	79.58093	80.82041
38848	72.03137	71.33197	72.73078
38849	68.71524	68.02319	69.40728
38850	62.43638	61.77394	63.09883
38851	55.63019	55.08453	56.17584
38852	54.73843	54.21871	55.25815
38853	50.93454	50.43817	51.43091
38854	47.36412	46.87038	47.85787
38855	46.42280	45.96946	46.87614
38856	43.64500	43.18865	44.10134

Le MSE sur ce modèle vaut 53.4634935, ce qui est nettement inférieur à celui trouvé avec le premier modèle et celui trouvé avec le modèle utilisé pour faire de la modélisation, ce qui paraît logique puisque ce modèle est retenu pour faire des prévisions et donc présente une erreur quadratique moyenne inférieure.

Enfin, on essaye une dernière régression afin de limité la colinéarité entre les facteurs:

Subset selection object
9 Variables  (and intercept)
              Forced in Forced out
PM_Jingan         FALSE      FALSE
PM_Xuhui          FALSE      FALSE
DEWP              FALSE      FALSE
HUMI              FALSE      FALSE
PRES              FALSE      FALSE
TEMP              FALSE      FALSE
Iws               FALSE      FALSE
precipitation     FALSE      FALSE
Iprec             FALSE      FALSE
1 subsets of each size up to 8
Selection Algorithm: exhaustive
         PM_Jingan PM_Xuhui  DEWP  HUMI  PRES  TEMP   Iws precipitation Iprec
1  ( 1 )      TRUE    FALSE FALSE FALSE FALSE FALSE FALSE         FALSE FALSE
2  ( 1 )      TRUE     TRUE FALSE FALSE FALSE FALSE FALSE         FALSE FALSE
3  ( 1 )      TRUE     TRUE FALSE FALSE FALSE  TRUE FALSE         FALSE FALSE
4  ( 1 )      TRUE     TRUE FALSE FALSE FALSE  TRUE FALSE         FALSE  TRUE
5  ( 1 )      TRUE     TRUE FALSE FALSE  TRUE  TRUE FALSE         FALSE  TRUE
6  ( 1 )      TRUE     TRUE  TRUE FALSE  TRUE  TRUE FALSE         FALSE  TRUE
7  ( 1 )      TRUE     TRUE  TRUE  TRUE  TRUE  TRUE FALSE         FALSE  TRUE
8  ( 1 )      TRUE     TRUE  TRUE  TRUE  TRUE  TRUE  TRUE         FALSE  TRUE

Si l’on choisit seulement deux facteurs, le meilleur modèle est le suivant Y = B0 + B1 * PM_Jingan + B2 * PM_Xuhui + e

On regarde s’il reste de la colinéarité :

PM_Jingan  PM_Xuhui 
 19.43938  19.43938

La colinéarité persiste, donc on retiendra le modèle à 3 facteurs, choisi avec le critère du bic.

Conclusion

First, we looked at which quantitive variables could have an impact on the concentration of fine particle pollution in the US.POST Station in Shanghai. We found a satisfactory model with an ESM of 100.81.

Then we looked at the only qualitative variable present in the dataset which is the wind direction and we saw that the wind played a significant role in the concentration of pollution.

Finally, in order to improve the linear regression model found in the first part, we selected factors. We first established a modelling model. Three factors emerged from this selection: The concentration of pollution at the Jingan and Xuhui stations and the temperature. However, on the latter model, the selected factors have colinearity, which must be taken into account, since this disturbs our model.

Below is a summary table of our analyses:

	Mean squared error	Collinearity	Number of factors	Factors
Multiple regression model	100.811	Yes	9	All quantitative factors
Modelling model	99.068	Yes	5	PM.Jingan, PM.Xuhui, Pressure, Temperature, Hourly precipitation
Forecasting model	53.463	Yes	3	PM.Jingan, PM.Xuhui, Temperature

Annexe

Annexe 1

Description des variables

	Description des variables
No	Year of data in this row
year	Month of data in this row
month	Day of data in this row
day	Hour of data in this row
hour	Season of data in this row
PM	PM2.5 concentration (ug/m^3)
DEWP	Dew Point (Celsius Degree)
TEMP	Temperature (Celsius Degree)
HUMI	Humidity (%)
PRES	Pressure (hPa)
cbwd	Combined wind direction
Iws	Cumulated wind speed (m/s)
Iprec	Hourly precipitation (mm)
precipitation	Cumulated precipitation (mm)

Annexe 2

Directions du vent

	Directions du vent
NW	Nord-Ouest
NE	Nord-Est
SW	Sud-Ouest
SE	Sud-Est
cv	Vent calme et variable

SAE Prédire une variable quantitative avec des facteurs

Bellahcen Wajih Cat Thomas

2023-05-03