Introducción

En Beijin y gran parte de China se esta experimentando una contaminación crónica del aire. Esto es de interés general ya que siendo la primer potencia económica del mundo establece estándares que repercuten en el mundo entero.

PM2.5 consiste en particulas que se encuentran el el aire con diametros menor a 2.5. Influye en la visibilidad, salud publica y el clima. Evidencia empidemiológica muestra que una exposición al PM2.5 puede causar morbilidad pulmonar, serios problemas respiratorios, al igual que problemas cardiovasculares, incluso la muerte.

Se ha descubierto que las condiciones metereológicas, aereosoles secundarios, emisiones locales y el transporte regional son los principales factores que contribuyen a la formación de PM2.5 en Beijing. También hay factores que no pueden ser ignorados al momento de analizar este tema, ya que la variabilidad en los patrones de distribución y transmision de PM2.5 se confunden con condiciones metereológcas, emisiones quimicas, etc.

Debido a esta variabilidad en las condiciones climatologicas, se cree que para realizar un análisis eficiente se ocupa un dataset con la longitud suficiente y una alta frecuencia temporal para generar una evaluación confiable del patron y tendencia, en gravedad y cantidad, de la contaminación del aire.

Para realizar este análisis se cuenta con un dataset generado por Song Xi Chen, de Guanghua School of Management, Center for Statistical Science, Univesidad de Peking [1].

El dataset tiene muestras de variables metereológicas y de PM 2.5. Como la concentración de contaminación PM2.5 es muy influenciada por las condiciones metereológicas, se podrá determinar una relación o aproximación de la concentración de PM2.5 respecto a las condiciones metereológicas.


Descripción de dataset

El dataset se compone de 43825 observaciones con 13 características. Recopilando información de lecturas u observaciones realizadas del 2010 a 2015.

data<- read.csv("~/Documents/MCPI/Estadistica/Tarea Final/datasets/PRSA_data_2010.1.1-2014.12.31.csv", header=FALSE)
summary(data)
##        V1           V2             V3              V4       
##  1      :    1   2010:8760   1      : 3720   1      : 1440  
##  10     :    1   2011:8760   10     : 3720   10     : 1440  
##  100    :    1   2012:8784   12     : 3720   11     : 1440  
##  1000   :    1   2013:8760   3      : 3720   12     : 1440  
##  10000  :    1   2014:8760   5      : 3720   13     : 1440  
##  10001  :    1   year:   1   7      : 3720   14     : 1440  
##  (Other):43819               (Other):21505   (Other):35185  
##        V5              V6              V7              V8       
##  0      : 1826   16     :  626   18     : 1323   24     : 1566  
##  1      : 1826   11     :  596   17     : 1294   23     : 1538  
##  10     : 1826   13     :  589   19     : 1290   22     : 1433  
##  11     : 1826   12     :  578   16     : 1238   21     : 1400  
##  12     : 1826   17     :  572   20     : 1219   25     : 1397  
##  13     : 1826   (Other):38797   15     : 1162   20     : 1364  
##  (Other):32869   NA's   : 2067   (Other):36299   (Other):35127  
##        V9          V10             V11             V12       
##  1014   : 1504   cbwd:    1   0.89   : 6266   0      :43456  
##  1006   : 1445   cv  : 9387   1.79   : 4807   1      :   66  
##  1013   : 1443   NE  : 4997   3.13   : 1932   2      :   46  
##  1012   : 1382   NW  :14150   1.78   : 1836   3      :   37  
##  1025   : 1375   SE  :15290   4.92   : 1251   4      :   31  
##  1015   : 1374                3.58   : 1197   5      :   27  
##  (Other):35302                (Other):26536   (Other):  162  
##       V13       
##  0      :42016  
##  1      :  529  
##  2      :  316  
##  3      :  214  
##  4      :  136  
##  5      :  113  
##  (Other):  501

Se realizó un preprocesamiento del dataset para eliminar las observaciones incompletas que tengan NA asignados, después de ello el dataset quedó con 41757 observaciones.

knitr::kable(head(data[1:11,1:13]), format="markdown")
No year month day hour pm2.5 DEWP TEMP PRES cbwd Iws Is Ir
26 25 2010 1 2 0 129 -16 -4 1020 SE 1.79 0 0
27 26 2010 1 2 1 148 -15 -4 1020 SE 2.68 0 0
28 27 2010 1 2 2 159 -11 -5 1021 SE 3.57 0 0
29 28 2010 1 2 3 181 -7 -5 1022 SE 5.36 1 0
30 29 2010 1 2 4 138 -7 -5 1022 SE 6.25 2 0
31 30 2010 1 2 5 109 -7 -6 1022 SE 7.14 3 0

A continuación se describen las 13 características:

  1. No: número de obsrvación.
  2. year: año que se tomó la observación.
  3. month: mes que se tomó la observación.
  4. day: día que se tomó la observación.
  5. hour: hora que se tomó la observación.
  6. pm2.5: Concentración de PM2.5 (ug/m^3)
  7. DEWP: Temperatura del punto de rocío.
  8. TEMP: Temperatura.
  9. PRES: Presión (hPa)
  10. cbwd: Dirección combinada del viento.
  11. Iws: Velocidad acumulada del viento (m/s).
  12. Is: Horas acumuladas de nieve.
  13. Ir: Horas acumuladas de lluvia

El tipo de dato de las observaciones y su contenido se describe a continuación:

## 'data.frame':    41757 obs. of  13 variables:
##  $ No   : num  25 26 27 28 29 30 31 32 33 34 ...
##  $ year : Factor w/ 6 levels "2010","2011",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ month: num  1 1 1 1 1 1 1 1 1 1 ...
##  $ day  : num  2 2 2 2 2 2 2 2 2 2 ...
##  $ hour : num  0 1 2 3 4 5 6 7 8 9 ...
##  $ pm2.5: num  129 148 159 181 138 109 105 124 120 132 ...
##  $ DEWP : num  -16 -15 -11 -7 -7 -7 -7 -7 -8 -7 ...
##  $ TEMP : num  -4 -4 -5 -5 -5 -6 -6 -5 -6 -5 ...
##  $ PRES : num  1020 1020 1021 1022 1022 ...
##  $ cbwd : Factor w/ 5 levels "cbwd","cv","NE",..: 5 5 5 5 5 5 5 5 5 5 ...
##  $ Iws  : num  1.79 2.68 3.57 5.36 6.25 ...
##  $ Is   : num  0 0 0 1 2 3 4 0 0 0 ...
##  $ Ir   : num  0 0 0 0 0 0 0 0 0 0 ...

Descripción de dataset usando medidas de tendencia central

Este tipo de herramientas estadísticas ayudarán el en la comprensión del comportamiento del fenónmeno de la contaminación del aire, ya que se verá como se comporta cada característica tomada en cuenta en la toma de muestras. A continuación se muestran las medidas de tendencia central más importantes por cada característica durante los años 2010-2015:

##        No            month             day             hour     
##  Min.   :   25   Min.   : 1.000   Min.   : 1.00   Min.   : 0.0  
##  1st Qu.:11464   1st Qu.: 4.000   1st Qu.: 8.00   1st Qu.: 5.0  
##  Median :22435   Median : 7.000   Median :16.00   Median :12.0  
##  Mean   :22279   Mean   : 6.514   Mean   :15.69   Mean   :11.5  
##  3rd Qu.:33262   3rd Qu.:10.000   3rd Qu.:23.00   3rd Qu.:18.0  
##  Max.   :43824   Max.   :12.000   Max.   :31.00   Max.   :23.0  
##      pm2.5             DEWP             TEMP            PRES     
##  Min.   :  0.00   Min.   :-40.00   Min.   :-19.0   Min.   : 991  
##  1st Qu.: 29.00   1st Qu.:-10.00   1st Qu.:  2.0   1st Qu.:1008  
##  Median : 72.00   Median :  2.00   Median : 14.0   Median :1016  
##  Mean   : 98.61   Mean   :  1.75   Mean   : 12.4   Mean   :1016  
##  3rd Qu.:137.00   3rd Qu.: 15.00   3rd Qu.: 23.0   3rd Qu.:1025  
##  Max.   :994.00   Max.   : 28.00   Max.   : 42.0   Max.   :1046  
##       Iws               Is                 Ir         
##  Min.   :  0.45   Min.   : 0.00000   Min.   : 0.0000  
##  1st Qu.:  1.79   1st Qu.: 0.00000   1st Qu.: 0.0000  
##  Median :  5.37   Median : 0.00000   Median : 0.0000  
##  Mean   : 23.87   Mean   : 0.05534   Mean   : 0.1949  
##  3rd Qu.: 21.91   3rd Qu.: 0.00000   3rd Qu.: 0.0000  
##  Max.   :565.49   Max.   :27.00000   Max.   :36.0000

El factor que más nos interesa es ver como se comporta es ver el comportamiento de las particulas PM2.5, a continuación se muestra un boxplot para visualisar el comportamiento de una manera gráfica.

A continuación de prueba si la característica tiene una distribución normal durante todos los años que se tienen registrados.

Como se puede observar en la figura anterior se muestra que la distribucion no tiene una forma gaussiana uniforme, por lo que que se complicará la predicción de su comportamiento con métodos lineales.

Correlación de características

El estadístico paramétrico Coeficiente de Correlación de Pearson es adecuada cuando las observaciones de unidades maestreadas aleatoriamente, están medidas en escalas de intervalos [3]. mediante este parámetro se busca estimar la relación entre las variables metereológicas la precencia de partículas PM2.5.

## corrplot 0.84 loaded

Este gráfico muestra poca correlación de las partículas PM2.5 respecto a otras características. Pero se analizarán las variables que muestran más correlación para ver si se puede llegar a un modelo para predecir el comportamiento.

Correlación de variables más correlacionadas

## Loading required package: xts
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## 
## Attaching package: 'PerformanceAnalytics'
## The following object is masked from 'package:graphics':
## 
##     legend

# Regresión Se implementará un modelo de regresión lineal de tal manera que se modele la presencia de partículas PM2.5 usando las características temperatura, temperatura de punto de rocío, mes, hora, horas acumuladas de lluvia y de nieve. A continuación se muestra el modelo resultante:

# Modelo regresión multiple
model <- lm(pm2.5 ~ TEMP + DEWP +month + Ir + hour + Is , data = data)
summary(model)
## 
## Call:
## lm(formula = pm2.5 ~ TEMP + DEWP + month + Ir + hour + Is, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -166.35  -54.17  -16.39   34.20  891.20 
## 
## Coefficients:
##              Estimate Std. Error  t value Pr(>|t|)    
## (Intercept) 164.20788    1.19822  137.043  < 2e-16 ***
## TEMP         -6.15556    0.06080 -101.237  < 2e-16 ***
## DEWP          5.60396    0.05152  108.771  < 2e-16 ***
## month        -2.33091    0.11812  -19.733  < 2e-16 ***
## Ir           -7.59930    0.28254  -26.896  < 2e-16 ***
## hour          1.54921    0.05986   25.880  < 2e-16 ***
## Is           -3.96792    0.51296   -7.735 1.05e-14 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 80.83 on 41750 degrees of freedom
## Multiple R-squared:  0.2291, Adjusted R-squared:  0.229 
## F-statistic:  2068 on 6 and 41750 DF,  p-value: < 2.2e-16

```

Conclusiones

Como podemos ver algunos aportan coeficientes negativamente en el modelado de la variable seleccionada, pero a pesar que la la desviación estándar baja nos podría indicar que efectivamente el modelo hace una buena descripción del fenómeno, los valores de R-squared nos indica que solo el 22% de la varianza es modelada. Esto aunado a la nula significancia (ver valores de p-value) de las variables se puede concluir que con estas características se esta lejos de modelar el fenómeno.

Como puede observarse la determinación de establecer una relación de las partículas PM2.5 presentes en el aire no estan relacionadas linealmente por las variables metereológicas medidas en el dataset. Esto puede ser no por que no tengan relación si no por que como se vio, no tienen una distribución normal por lo que hacer un modelo de predicción lineal no es eficiente ya que no describe el fenómeno. Como trabajo por hacer es realizar un modelado no lineal para determinar un posible modelo de predicción de cantidad de partículas PM2.5 en relación con las condiciones metereológicas

El dataset tampoco se presta para hacer una clasificación ya que los valores que se encuentran en la mayoría de las características de interes tienen extensos valores únicos.

Fuentes

[1] Beijing PM2.5 Data Data Set.Xi Chen, de Guanghua School of Management, Center for Statistical Science, Univesidad de Peking. Consultado: enero 2019. http://archive.ics.uci.edu/ml/datasets/Beijing+PM2.5+Data

[2] Liang, X., Zou, T., Guo, B., Li, S., Zhang, H., Zhang, S., Huang, H. and Chen, S. X. (2015). Assessing Beijing’s PM2.5 pollution: severity, weather impact, APEC and winter heating. Proceedings of the Royal Society A, 471, 20150257.

[3] Correlación y Regresión Lineal. Consultado en enero del 2019: https://rpubs.com/osoramirez/316691