En Beijin y gran parte de China se esta experimentando una contaminación crónica del aire. Esto es de interés general ya que siendo la primer potencia económica del mundo establece estándares que repercuten en el mundo entero.
PM2.5 consiste en particulas que se encuentran el el aire con diametros menor a 2.5. Influye en la visibilidad, salud publica y el clima. Evidencia empidemiológica muestra que una exposición al PM2.5 puede causar morbilidad pulmonar, serios problemas respiratorios, al igual que problemas cardiovasculares, incluso la muerte.
Se ha descubierto que las condiciones metereológicas, aereosoles secundarios, emisiones locales y el transporte regional son los principales factores que contribuyen a la formación de PM2.5 en Beijing. También hay factores que no pueden ser ignorados al momento de analizar este tema, ya que la variabilidad en los patrones de distribución y transmision de PM2.5 se confunden con condiciones metereológcas, emisiones quimicas, etc.
Debido a esta variabilidad en las condiciones climatologicas, se cree que para realizar un análisis eficiente se ocupa un dataset con la longitud suficiente y una alta frecuencia temporal para generar una evaluación confiable del patron y tendencia, en gravedad y cantidad, de la contaminación del aire.
Para realizar este análisis se cuenta con un dataset generado por Song Xi Chen, de Guanghua School of Management, Center for Statistical Science, Univesidad de Peking [1].
El dataset tiene muestras de variables metereológicas y de PM 2.5. Como la concentración de contaminación PM2.5 es muy influenciada por las condiciones metereológicas, se podrá determinar una relación o aproximación de la concentración de PM2.5 respecto a las condiciones metereológicas.
El dataset se compone de 43825 observaciones con 13 características. Recopilando información de lecturas u observaciones realizadas del 2010 a 2015.
data<- read.csv("~/Documents/MCPI/Estadistica/Tarea Final/datasets/PRSA_data_2010.1.1-2014.12.31.csv", header=FALSE)
summary(data)
## V1 V2 V3 V4
## 1 : 1 2010:8760 1 : 3720 1 : 1440
## 10 : 1 2011:8760 10 : 3720 10 : 1440
## 100 : 1 2012:8784 12 : 3720 11 : 1440
## 1000 : 1 2013:8760 3 : 3720 12 : 1440
## 10000 : 1 2014:8760 5 : 3720 13 : 1440
## 10001 : 1 year: 1 7 : 3720 14 : 1440
## (Other):43819 (Other):21505 (Other):35185
## V5 V6 V7 V8
## 0 : 1826 16 : 626 18 : 1323 24 : 1566
## 1 : 1826 11 : 596 17 : 1294 23 : 1538
## 10 : 1826 13 : 589 19 : 1290 22 : 1433
## 11 : 1826 12 : 578 16 : 1238 21 : 1400
## 12 : 1826 17 : 572 20 : 1219 25 : 1397
## 13 : 1826 (Other):38797 15 : 1162 20 : 1364
## (Other):32869 NA's : 2067 (Other):36299 (Other):35127
## V9 V10 V11 V12
## 1014 : 1504 cbwd: 1 0.89 : 6266 0 :43456
## 1006 : 1445 cv : 9387 1.79 : 4807 1 : 66
## 1013 : 1443 NE : 4997 3.13 : 1932 2 : 46
## 1012 : 1382 NW :14150 1.78 : 1836 3 : 37
## 1025 : 1375 SE :15290 4.92 : 1251 4 : 31
## 1015 : 1374 3.58 : 1197 5 : 27
## (Other):35302 (Other):26536 (Other): 162
## V13
## 0 :42016
## 1 : 529
## 2 : 316
## 3 : 214
## 4 : 136
## 5 : 113
## (Other): 501
Se realizó un preprocesamiento del dataset para eliminar las observaciones incompletas que tengan NA asignados, después de ello el dataset quedó con 41757 observaciones.
knitr::kable(head(data[1:11,1:13]), format="markdown")
| No | year | month | day | hour | pm2.5 | DEWP | TEMP | PRES | cbwd | Iws | Is | Ir | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 26 | 25 | 2010 | 1 | 2 | 0 | 129 | -16 | -4 | 1020 | SE | 1.79 | 0 | 0 |
| 27 | 26 | 2010 | 1 | 2 | 1 | 148 | -15 | -4 | 1020 | SE | 2.68 | 0 | 0 |
| 28 | 27 | 2010 | 1 | 2 | 2 | 159 | -11 | -5 | 1021 | SE | 3.57 | 0 | 0 |
| 29 | 28 | 2010 | 1 | 2 | 3 | 181 | -7 | -5 | 1022 | SE | 5.36 | 1 | 0 |
| 30 | 29 | 2010 | 1 | 2 | 4 | 138 | -7 | -5 | 1022 | SE | 6.25 | 2 | 0 |
| 31 | 30 | 2010 | 1 | 2 | 5 | 109 | -7 | -6 | 1022 | SE | 7.14 | 3 | 0 |
A continuación se describen las 13 características:
El tipo de dato de las observaciones y su contenido se describe a continuación:
## 'data.frame': 41757 obs. of 13 variables:
## $ No : num 25 26 27 28 29 30 31 32 33 34 ...
## $ year : Factor w/ 6 levels "2010","2011",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ month: num 1 1 1 1 1 1 1 1 1 1 ...
## $ day : num 2 2 2 2 2 2 2 2 2 2 ...
## $ hour : num 0 1 2 3 4 5 6 7 8 9 ...
## $ pm2.5: num 129 148 159 181 138 109 105 124 120 132 ...
## $ DEWP : num -16 -15 -11 -7 -7 -7 -7 -7 -8 -7 ...
## $ TEMP : num -4 -4 -5 -5 -5 -6 -6 -5 -6 -5 ...
## $ PRES : num 1020 1020 1021 1022 1022 ...
## $ cbwd : Factor w/ 5 levels "cbwd","cv","NE",..: 5 5 5 5 5 5 5 5 5 5 ...
## $ Iws : num 1.79 2.68 3.57 5.36 6.25 ...
## $ Is : num 0 0 0 1 2 3 4 0 0 0 ...
## $ Ir : num 0 0 0 0 0 0 0 0 0 0 ...
Este tipo de herramientas estadísticas ayudarán el en la comprensión del comportamiento del fenónmeno de la contaminación del aire, ya que se verá como se comporta cada característica tomada en cuenta en la toma de muestras. A continuación se muestran las medidas de tendencia central más importantes por cada característica durante los años 2010-2015:
## No month day hour
## Min. : 25 Min. : 1.000 Min. : 1.00 Min. : 0.0
## 1st Qu.:11464 1st Qu.: 4.000 1st Qu.: 8.00 1st Qu.: 5.0
## Median :22435 Median : 7.000 Median :16.00 Median :12.0
## Mean :22279 Mean : 6.514 Mean :15.69 Mean :11.5
## 3rd Qu.:33262 3rd Qu.:10.000 3rd Qu.:23.00 3rd Qu.:18.0
## Max. :43824 Max. :12.000 Max. :31.00 Max. :23.0
## pm2.5 DEWP TEMP PRES
## Min. : 0.00 Min. :-40.00 Min. :-19.0 Min. : 991
## 1st Qu.: 29.00 1st Qu.:-10.00 1st Qu.: 2.0 1st Qu.:1008
## Median : 72.00 Median : 2.00 Median : 14.0 Median :1016
## Mean : 98.61 Mean : 1.75 Mean : 12.4 Mean :1016
## 3rd Qu.:137.00 3rd Qu.: 15.00 3rd Qu.: 23.0 3rd Qu.:1025
## Max. :994.00 Max. : 28.00 Max. : 42.0 Max. :1046
## Iws Is Ir
## Min. : 0.45 Min. : 0.00000 Min. : 0.0000
## 1st Qu.: 1.79 1st Qu.: 0.00000 1st Qu.: 0.0000
## Median : 5.37 Median : 0.00000 Median : 0.0000
## Mean : 23.87 Mean : 0.05534 Mean : 0.1949
## 3rd Qu.: 21.91 3rd Qu.: 0.00000 3rd Qu.: 0.0000
## Max. :565.49 Max. :27.00000 Max. :36.0000
El factor que más nos interesa es ver como se comporta es ver el comportamiento de las particulas PM2.5, a continuación se muestra un boxplot para visualisar el comportamiento de una manera gráfica.
A continuación de prueba si la característica tiene una distribución normal durante todos los años que se tienen registrados.
Como se puede observar en la figura anterior se muestra que la distribucion no tiene una forma gaussiana uniforme, por lo que que se complicará la predicción de su comportamiento con métodos lineales.
El estadístico paramétrico Coeficiente de Correlación de Pearson es adecuada cuando las observaciones de unidades maestreadas aleatoriamente, están medidas en escalas de intervalos [3]. mediante este parámetro se busca estimar la relación entre las variables metereológicas la precencia de partículas PM2.5.
## corrplot 0.84 loaded
Este gráfico muestra poca correlación de las partículas PM2.5 respecto a otras características. Pero se analizarán las variables que muestran más correlación para ver si se puede llegar a un modelo para predecir el comportamiento.
## Loading required package: xts
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## Attaching package: 'PerformanceAnalytics'
## The following object is masked from 'package:graphics':
##
## legend
# Regresión Se implementará un modelo de regresión lineal de tal manera que se modele la presencia de partículas PM2.5 usando las características temperatura, temperatura de punto de rocío, mes, hora, horas acumuladas de lluvia y de nieve. A continuación se muestra el modelo resultante:
# Modelo regresión multiple
model <- lm(pm2.5 ~ TEMP + DEWP +month + Ir + hour + Is , data = data)
summary(model)
##
## Call:
## lm(formula = pm2.5 ~ TEMP + DEWP + month + Ir + hour + Is, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -166.35 -54.17 -16.39 34.20 891.20
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 164.20788 1.19822 137.043 < 2e-16 ***
## TEMP -6.15556 0.06080 -101.237 < 2e-16 ***
## DEWP 5.60396 0.05152 108.771 < 2e-16 ***
## month -2.33091 0.11812 -19.733 < 2e-16 ***
## Ir -7.59930 0.28254 -26.896 < 2e-16 ***
## hour 1.54921 0.05986 25.880 < 2e-16 ***
## Is -3.96792 0.51296 -7.735 1.05e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 80.83 on 41750 degrees of freedom
## Multiple R-squared: 0.2291, Adjusted R-squared: 0.229
## F-statistic: 2068 on 6 and 41750 DF, p-value: < 2.2e-16
```
Como podemos ver algunos aportan coeficientes negativamente en el modelado de la variable seleccionada, pero a pesar que la la desviación estándar baja nos podría indicar que efectivamente el modelo hace una buena descripción del fenómeno, los valores de R-squared nos indica que solo el 22% de la varianza es modelada. Esto aunado a la nula significancia (ver valores de p-value) de las variables se puede concluir que con estas características se esta lejos de modelar el fenómeno.
Como puede observarse la determinación de establecer una relación de las partículas PM2.5 presentes en el aire no estan relacionadas linealmente por las variables metereológicas medidas en el dataset. Esto puede ser no por que no tengan relación si no por que como se vio, no tienen una distribución normal por lo que hacer un modelo de predicción lineal no es eficiente ya que no describe el fenómeno. Como trabajo por hacer es realizar un modelado no lineal para determinar un posible modelo de predicción de cantidad de partículas PM2.5 en relación con las condiciones metereológicas
El dataset tampoco se presta para hacer una clasificación ya que los valores que se encuentran en la mayoría de las características de interes tienen extensos valores únicos.
[1] Beijing PM2.5 Data Data Set.Xi Chen, de Guanghua School of Management, Center for Statistical Science, Univesidad de Peking. Consultado: enero 2019. http://archive.ics.uci.edu/ml/datasets/Beijing+PM2.5+Data
[2] Liang, X., Zou, T., Guo, B., Li, S., Zhang, H., Zhang, S., Huang, H. and Chen, S. X. (2015). Assessing Beijing’s PM2.5 pollution: severity, weather impact, APEC and winter heating. Proceedings of the Royal Society A, 471, 20150257.
[3] Correlación y Regresión Lineal. Consultado en enero del 2019: https://rpubs.com/osoramirez/316691