Calidad del Aire en Hermosillo y Movilidad

Equipo 2. Cielo Aholiva Higuera Gutiérrez, Mariana Pompa Rivera, Saul López López y Cristina Gpe. Arguelles Lema

21/05/2021

I. INTRODUCCIÓN

La gestión de la contaminación del aire se ha vuelto importante en el último periodo debido a las siguientes afirmaciones: “A causa del desarrollo industrial y avance tecnológico se estima aproximadamente 1200 millones de personas están expuestas a niveles de dióxido de azufre (SO2), muy por encima de por directrices de la Organización Mundial de la Salud (OMS) y aproximadamente 1400 millones de personas están expuestas a niveles excesivos de humo y material articulado (PM)” (Rico, 2018).

La importancia de respirar aire limpio sin contaminantes es crucial para todo ser viviente. Por lo cual es importante que este sea aire limpio, pero ¿Cómo detectar si el aire que respiramos no tiene contaminantes? ¿Cómo nos afecta a nosotros?. La calidad del aire está directamente relacionada con la movilidad de carros, autobuses y hasta la propia movilidad de la ciudad, donde las personas realizan sus actividades diarias, por lo tanto, entre más movilidad haya en la ciudad, aumentan los contaminantes en el aire.

Los principales contaminantes en el aire han sido creados principalmente por la actividad económica humana, la concentración de estas sustancias es altamente nociva para la salud del ser humano. Este estudio tuvo en cuenta los siguientes contaminantes:

  • Material particulado \((PM10)\)
  • Ozono \((O_3)\)
  • Dióxido de nitrógeno \((NO_2)\)
  • Dióxido de azufre \((SO_2)\)

II. ANTECEDENTES

El municipio de Hermosillo inicia de manera formal el Programa de Monitoreo de la Calidad del Aire en el año 2004, los aparatos de muestreo son donados al municipio por SEMARNAT y son reinstalados en sitios céntricos pese al crecimiento urbano que ha rebasado en kilómetros las zonas marginales de diez años atrás (Barajas Olvera, 2007).

En Hermosillo sonora, la contaminación del aire es elevada y la población desconoce acerca de este hecho. Existen antecedentes para esta ciudad de medición de PST (Partículas suspendidas totales similares a las PM10) de 1990 a 1995, reportándose que todos esos años se rebasó el máximo permisible anual de 75 μg/m^3 con promedios anuales que fluctuaban de 126 hasta 565 μg/m^3.

III. OBJETIVO

  • Determinar cómo varían las concentraciones de contaminantes en el aire y su relación con la movilidad durante el periodo Febrero 2020 - Mayo 2021 en la ciudad de Hermosillo, Sonora.

  • Comprobar el deterioro de la calidad del aire a partir de la reactivación económica en tiempos de COVID-19.

Ubicación de donde se obtuvieron los datos

IV. TEORÍA

¿Qué es la calidad del aire?

  • Con el nombre de atmósfera conocemos a la envoltura gaseosa que rodea a la Tierra, constando de unos 200 Km de espesor. La atmósfera es un medio continuo a través del cual son transportados y dispersados los contaminantes. Este transporte se realiza gracias al movimiento del aire que se produce a escala planetaria, regional y local.

  • Una vez en la atmósfera, la persistencia de los contaminantes dependerá de diversos factores, ya sean de carácter meteorológico, como el lavado por la lluvia y la deposición por acción de la gravedad o el impacto contra superficies, o su transformación por diversas reacciones químicas en otras sustancias que puedan ser contaminantes (contaminantes secundarios).

  • Técnicamente se puede definir la calidad del aire, inmisión o valor límite como la concentración de contaminante que llega a un receptor, más o menos alejado de la fuente de emisión.

Causas

El uso de combustibles fósiles como la gasolina y el gas natural son grandes contribuyentes a la polución del aire. Estos emiten gases como el dióxido de carbono y el metano, dos de los mayores contaminantes y generadores de otros problemas como el efecto invernadero. El dióxido de azufre es particularmente peligroso para el medio ambiente pues es el principal componente de la lluvia ácida.

Una las principales causas de la contaminación del aire es el uso de combustibles fósiles. Su liberación hacia la atmósfera produce un exceso de material particulado \((PM_10 y PM_2.5)\) y de gases de efecto invernadero como el dióxido de carbono, los óxidos de nitrógeno y los óxidos de azufre. Por su parte, el ozono, que aunque en condiciones de equilibrio nos ha ayudado a evitar la radiación ultravioleta, en grandes cantidades puede presentar problemas para la salud.

Los niveles altos de contaminación del aire pueden causar problemas de salud inmediatos:

  • Agravar enfermedades cardiovasculares y respiratorias.
  • Producir más estrés al corazón y los pulmones que deben trabajar más para suministrar oxígeno al cuerpo.
  • Dañar las células del sistema respiratorio.

El aumento de la contaminación atmosférica es una amenaza aguda, acumulativa y crónica para la salud humana y el ambiente. La calidad del aire en la ciudad de Hermosillo se deteriora cada día más, debido principalmente al tráfico vehicular aunque a partir de la última semana de junio, la calidad del aire en la capital sonorense volvió a normalizarse con respecto a los niveles de contaminación de años anteriores.

La titular del Instituto Municipal de Ecología (IME), señaló que en todo lo que va del año, la calidad del aire se ha mantenido por debajo de la norma, gracias a las acciones implementadas por la dependencia, tanto en la concientización de la ciudadanía, atención de reportes y el fortalecimiento en áreas protegidas.

Datos Clave

  • La contaminación del aire es el principal riesgo ambiental para la salud pública en las Américas.
  • En todo el mundo, cerca de 7 millones de muertes prematuras fueron atribuibles a la contaminación del aire ambiental en 2016. Alrededor del 88% de estas muertes ocurren en países de ingresos bajos y medios.
  • Más de 150 millones de personas en América Latina viven en ciudades que exceden las Guías de Calidad del Aire de la OMS.
  • La exposición a altos niveles de contaminación del aire puede causar una variedad de resultados adversos para la salud: aumenta el riesgo de infecciones respiratorias, enfermedades cardiacas, derrames cerebrales y cáncer de pulmón, las cuales afectan en mayor proporción a población vulnerable, niños, adultos mayores y mujeres.
  • La contaminación del aire en el hogar se asocia al uso de combustibles y prácticas de cocina ineficiente

¿Cómo afecta la calidad del aire a los sonorenses?

Gráfico 5.3. Principales causas de morbilidad registradas en el año 2015.

Según el Sistema Único de Información de Vigilancia Epidemiológica (SUIVE), durante el año 2015 se registraron un total de 1’251,463 diagnósticos de casos nuevos de enfermedad en la población sonorense. La principal causa de morbilidad en el estado al cierre del 2015 fueron las infecciones respiratorias agudas con 684,938 casos nuevos registrados ese año, lo cual representó el 55% del total de casos registrados por todo el Sector Salud, con una tasa de 240 casos por cada 1,000 habitantes del estado durante ese año.

Palabras clave

  • El ozono (\(O_3\)) es formado en la atmósfera por medio de reacciones fotoquímicas, en presencia de luz solar y a partir de la reacción entre contaminantes precursores como los óxidos de nitrógeno \((NOx)\) y compuestos orgánicos volátiles. El ozono hace un aporte significativo al balance radiativo de la tropósfera superior y la estratósfera inferior, de modo que los cambios en la distribución de O3 en estas capas atmosféricas afectan el forzamiento radiativo del clima. (Green, 2013)

  • El dióxido de azufre \((SO_2)\), como el NO2 , es un gas que puede exacerbar los síntomas de aquellos individuos que sufren enfermedades respiratorias o cardiacas. Es primordialmente formado en la combustión de combustibles fósiles en las plantas generadoras de energía y en otras instalaciones industriales, así como en fuentes móviles en un menor grado; y por consiguiente es un problema en algunas áreas urbanas e industriales. (Green, 2013)

  • Las PM10 \((PM10 – 2.5)\), también llamadas partículas inhalables, se consideran como contaminantes constituidos por material líquido y sólido de muy diversa composición y tamaño, que se encuentran en el aire, estas pueden ser generadas tanto por fuentes móviles como estacionarias, de manera natural o antropogénica. Se asocian generalmente a la combustión no controlada, algunas están relacionadas con la desintegración mecánica de la materia o la re-suspensión de partículas en el ambiente. Se ha establecido que las partículas se encuentran constituidas por 7 componentes químicos o especies: material geológico, sulfatos de amonio, nitratos de amonio, material orgánico, carbón elemental, sales y elementos trazas. (Rodríguez, 2014)

V. METODOLOGÍA

Análisis de Inflación de Varianza (VIF):

El factor de inflación de varianza (vif) es una medida de la cantidad de multicolinealidad en un conjunto de variables de regresión múltiple. matemáticamente, el vif para una variable de modelo de regresión es igual a la razón de la varianza general del modelo a la varianza de un modelo que incluye solo esa variable independiente única. Esta relación se calcula para cada variable independiente. un vif alto indica que la variable independiente asociada es altamente colineal con las otras variables en el modelo.

RESULTADO Y DISCUSIÓN

En el Objetivo 11 de Desarrollo la política nacional se centra en la disminución de la concentración de contaminantes atmosféricos.

Estadística descriptiva

Tabla 6.1. Datos de contaminantes atmosféricos y movilidad local

library(TSstudio)
library(DT)
library(readxl)
CM <- read_excel("Concentracion_Mov_1.xlsx")
datatable(CM)

Tabla 6.1: Concentraciones que afectan la calidad del aire y movilidad local

La tabla 6.1 se recolectan los datos obtenidos de la Red Universitaria de Observatorios Atmosféricos (RUOA) sobre la calidad de aire y movilidad local en Hermosillo, Sonora durante el periodo de Febrero 2020 - Mayo 2021.

Gráfico 6.1. Reporte de movilidad en Hermosillo, Sonora.

movilidad <- ggplot(CM)+
  geom_line(aes(x=Fecha,y=Reactivacion_Comercial,colour="Recreación y comercio"))+
    geom_line(aes(x=Fecha,y=Supermercado_Farmacia,colour="Supermercados y farmacias"))+
    geom_line(aes(x=Fecha,y=Parques_Centros,colour="Parques"))+
    geom_line(aes(x=Fecha,y=Estaciones_Transito,colour="Estaciones de tránsito"))+
    geom_line(aes(x=Fecha,y=Lugares_Trabajo,colour="Lugares de trabajo"))+
    geom_line(aes(x=Fecha,y=Residencia,colour="Lugares residenciales"))+
    labs(title="Reporte de movilidad",x="Fecha",y="Procentaje de cambio de movilidad")

ggplotly(movilidad)

Gráfico 6.1: Reporte de movilidad

  • En el gráfico 5.1, se representan los valores obtenidos a partir del reporte de movilidad en Hermosillo, Sonora. A partir de un análisis, sé comprobó que debido a la pandemia la movilidad pública, como lo son disminuyó notoriamente desde principios de marzo hasta mediados de abril de 2020, por consiguiente los días festivos tuvieron gran influencia tanto positiva como negativa; donde, las personas decidieron no respetar las medidas sanitarias otorgada por el Estado asistiendo a espacios de primera necesidad a la vez aumentando las estaciones de tránsito, por otro lado, los lugares de trabajo y recreación de comercio mostraron un índice menor, ya que los días festivos no se labora; Siendo así un aumento en lugares de residencia por parte de las personas a principios de cuarentena, obteniendo menor impacto en la movilidad, se concluyó que gracias a la pandemia difirió los cambios de movilidad para Hermosillo, Sonora a principios del año 2020 a fechas actuales.

Gráfico 6.2. Concentración de algunos contaminantes en el aire

plot_ly(CM,colors = rainbow(3)) %>%
  add_lines(x = ~Fecha, y = ~O3,mode="lines",name = "O3") %>%
add_lines(x = ~Fecha, y = ~SO2,mode="lines", name = "SO2") %>%
add_lines(x = ~Fecha, y = ~PM10,mode="lines", name ="PM10")  %>%
rangeslider() %>% 
  layout(title = 'Contaminantes atmosféricos (concentraciones)',
         xaxis = list(title = 'Fecha'),
         yaxis = list(title = 'Concentración (ppb para O3 y SO2, ug/m3 para PM10)'))

Gráfico 6.2: Contaminantes atmosféricos

En el gráfico 6.2 se muestra cómo ha variado la concentración de SO2, O3 y PM10, respectivamente. Es posible apreciar cómo las concentraciones de material particulado rebasan en todo momento al resto de los contaminantes atmosféricos.

Esto se debe a múltiples factores:

  • Las PM10 pueden ser generadas tanto por fuentes móviles como estacionarias, de manera natural o antropogénica (Villalobos et al., 2008).

  • Se asocian generalmente a la combustión no controlada, algunas están relacionadas con la desintegración mecánica de la materia o la re-suspensión de partículas en el ambiente (Echeverri y Maya, 2008).

  • Esto incluye procesos de combustión en vehículos, principalmente aquellos que usan diesel, industrias de fundición, pinturas, cerámica y plantas de energía (Tzintzun et al., 2005).

  • El aumento significativo de concentración de partículas contaminantes se produce cuando las intrusiones de polvo se producen en invierno, de diciembre a marzo, cuando son más intensos.

Regresión lineal múltiple

Análisis de relación entre variables.

En el siguiente apartado se realizarán los análisis para la obtención de resultados y se discutirán sus interpretaciones.

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following object is masked from 'package:gridExtra':
## 
##     combine
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(readxl)
cm <- read_excel("Concentracion_Mov.xlsx")
data <- as.data.frame(cm)

library(psych)
## 
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha
multi.hist(x = cm, dcol = c("blue", "red"), dlty = c("dotted", "solid"),
           main = "")

Gráfico 6.3: Histogramas de variables.

  • En el gráfico 6.3 se muestran diferentes variables con su respectivo comportamiento; en donde se puede observar que la mayoría tuvieron comportamientos símetricos, la línea azul representa el comportamiento real, mientras que la línea roja sugiere un ajuste para una perfecta simetría.

Dispersión.

library(GGally)
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggpairs(cm, lower = list(continuous = "smooth"),
        diag = list(continuous = "barDiag"), axisLabels = "none")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Gráfico 6.4 de dispersión

A diferencia del modelo anterior, estos gráficos nos permiten analizar la relación 1-1 de las variables, y además nos arrojan el coeficiente de correlación

Del análisis preliminar se pueden extraer las siguientes conclusiones:

  • Las variables que tienen una mayor relación lineal con el dióxido de azufre (SO2) son: Mercados y farmacia (r= 0.443), Reativación y comercio (r= 0.404) y Residencia (r= -0.371).

  • PM10 tiene diferentes variables que se encuentran medianamente relacionados, por lo que posiblemente no sea útil introducir ambos predictores en el modelo.

Generación de modelo.

El mejor modelo resultante:

modelo <- lm(SO2 ~ O3 + PM10 +Reactivacion_Comercial  + Supermercado_Farmacia + Parques_Centros + Estaciones_Transito + Lugares_Trabajo + Residencia, data = cm )
summary(modelo)
## 
## Call:
## lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
##     Parques_Centros + Estaciones_Transito + Lugares_Trabajo + 
##     Residencia, data = cm)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.51190 -0.09921 -0.00269  0.09870  0.52906 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            -0.0187954  0.0380324  -0.494 0.621416    
## O3                     -0.0057616  0.0009832  -5.860 9.10e-09 ***
## PM10                    0.0056324  0.0005408  10.415  < 2e-16 ***
## Reactivacion_Comercial  0.0096304  0.0020097   4.792 2.27e-06 ***
## Supermercado_Farmacia   0.0060624  0.0015668   3.869 0.000126 ***
## Parques_Centros        -0.0169489  0.0010860 -15.607  < 2e-16 ***
## Estaciones_Transito    -0.0018481  0.0013556  -1.363 0.173465    
## Lugares_Trabajo        -0.0106817  0.0009837 -10.858  < 2e-16 ***
## Residencia             -0.0352798  0.0041747  -8.451 4.32e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1582 on 438 degrees of freedom
## Multiple R-squared:  0.6938, Adjusted R-squared:  0.6882 
## F-statistic: 124.1 on 8 and 438 DF,  p-value: < 2.2e-16

El modelo con todas las variables introducidas como predictores tiene un R2 media (0.6882), es capaz de explicar el 68.82% de la variabilidad observada en el dióxido de azufre. El p-value del modelo es significativo (2.2e-16) por lo que se puede aceptar que el modelo no es por azar.

Selección de los mejores predictores.

step(object = modelo, direction = "both", trace = 1)
## Start:  AIC=-1639.29
## SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
##     Parques_Centros + Estaciones_Transito + Lugares_Trabajo + 
##     Residencia
## 
##                          Df Sum of Sq    RSS     AIC
## - Estaciones_Transito     1    0.0465 11.014 -1639.4
## <none>                                10.968 -1639.3
## - Supermercado_Farmacia   1    0.3749 11.343 -1626.3
## - Reactivacion_Comercial  1    0.5750 11.543 -1618.5
## - O3                      1    0.8600 11.828 -1607.5
## - Residencia              1    1.7883 12.756 -1573.8
## - PM10                    1    2.7161 13.684 -1542.4
## - Lugares_Trabajo         1    2.9523 13.920 -1534.7
## - Parques_Centros         1    6.0997 17.067 -1443.6
## 
## Step:  AIC=-1639.4
## SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
##     Parques_Centros + Lugares_Trabajo + Residencia
## 
##                          Df Sum of Sq    RSS     AIC
## <none>                                11.014 -1639.4
## + Estaciones_Transito     1    0.0465 10.968 -1639.3
## - Supermercado_Farmacia   1    0.3298 11.344 -1628.2
## - Reactivacion_Comercial  1    0.6091 11.623 -1617.3
## - O3                      1    0.8366 11.851 -1608.7
## - Residencia              1    1.7647 12.779 -1575.0
## - PM10                    1    2.7569 13.771 -1541.5
## - Lugares_Trabajo         1    2.9217 13.936 -1536.2
## - Parques_Centros         1    6.0965 17.111 -1444.5
## 
## Call:
## lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
##     Parques_Centros + Lugares_Trabajo + Residencia, data = cm)
## 
## Coefficients:
##            (Intercept)                      O3                    PM10  
##              -0.020842               -0.005669                0.005668  
## Reactivacion_Comercial   Supermercado_Farmacia         Parques_Centros  
##               0.008020                0.005439               -0.016944  
##        Lugares_Trabajo              Residencia  
##              -0.010417               -0.035005
  • La fórmula principal de nuestro análisis fue:

\[ Fórmula = SO_2 -> O_3 + PM10 + Reactivacion Comercial + SupermercadoFarmacia + ParquesCentros + EstacionesTransito + LugaresTrabajo + Residencia \]

  • Por lo que está estrategia seleccionó a las vairables más adecuadas para ser los predictores, quedando la fórmula de la siguente forma:

\[ SO_2 -> O_3 + PM10 + Supermercado Farmacia + Parques Centros + Estaciones Transito + Lugares Trabajo + Residencia \]

  • Fórmula representada.
modelo <- (lm(formula =  SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
    Parques_Centros + Lugares_Trabajo + Residencia, data = cm))
summary(modelo)
## 
## Call:
## lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
##     Parques_Centros + Lugares_Trabajo + Residencia, data = cm)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.5458 -0.1006 -0.0022  0.0964  0.5374 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            -0.0208416  0.0380399  -0.548 0.584047    
## O3                     -0.0056694  0.0009818  -5.775 1.46e-08 ***
## PM10                    0.0056679  0.0005407  10.482  < 2e-16 ***
## Reactivacion_Comercial  0.0080203  0.0016277   4.927 1.18e-06 ***
## Supermercado_Farmacia   0.0054386  0.0015000   3.626 0.000322 ***
## Parques_Centros        -0.0169444  0.0010870 -15.588  < 2e-16 ***
## Lugares_Trabajo        -0.0104169  0.0009653 -10.791  < 2e-16 ***
## Residencia             -0.0350045  0.0041739  -8.387 6.89e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1584 on 439 degrees of freedom
## Multiple R-squared:  0.6925, Adjusted R-squared:  0.6876 
## F-statistic: 141.2 on 7 and 439 DF,  p-value: < 2.2e-16
  • Es recomendable mostrar el intervalo de confianza para cada uno de los coeficientes parciales de regresión:
confint(lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
    Parques_Centros + Lugares_Trabajo + Residencia, data = cm))
##                               2.5 %       97.5 %
## (Intercept)            -0.095604583  0.053921343
## O3                     -0.007599002 -0.003739801
## PM10                    0.004605203  0.006730588
## Reactivacion_Comercial  0.004821182  0.011219376
## Supermercado_Farmacia   0.002490524  0.008386774
## Parques_Centros        -0.019080816 -0.014808020
## Lugares_Trabajo        -0.012314119 -0.008519681
## Residencia             -0.043207808 -0.026801239
  • Se obtienen los determinados contaminantes y la movilidad pública y se obtuvieron sus respectivos valores.

Validación de condiciones para la regresión múltiple lineal

library(gridExtra)
plot1 <- ggplot(data = cm, aes(O3, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot2 <- ggplot(data = cm, aes(PM10, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot3 <- ggplot(data = cm, aes(Reactivacion_Comercial, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot4 <- ggplot(data = cm, aes(Supermercado_Farmacia, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot5 <- ggplot(data = cm, aes(Parques_Centros, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot6 <- ggplot(data = cm, aes(Lugares_Trabajo, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot7 <- ggplot(data = cm, aes(Residencia, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
grid.arrange(plot1, plot2, plot3, plot4, plot5, plot6, plot7)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

Gráfrica 6.5 : Regresión lineal

  • En el gráfico 6.5 se cumple con la linealidad de los predictores, demostrando una alta relación de las concentraciones respecto a la movilidad.

Distribución normal de los residuos

shapiro.test(modelo$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.99227, p-value = 0.02042
qqnorm(modelo$residuals)
qqline(modelo$residuals)

Gráfica 6.6: Normal Q-Q Plot

  • Se observa en el gráfico 6.6 algún patrón específico y tanto el análisis gráfico como el test de hipótesis confirman la normalidad. Al tener mayor dispersión en los extremos, significa que la variabilidad es dependiente del valor ajustado y por lo tanto no hay homocedasticidad.

Matriz de correlación entre predictores.

library(corrplot)
## corrplot 0.84 loaded
corrplot(cor(dplyr::select(cm, O3, PM10, Reactivacion_Comercial, Supermercado_Farmacia, Parques_Centros, Lugares_Trabajo, Residencia)),
         method = "number", tl.col = "black")

Figura 6.1: Mátriz de correlación entre predictores

Análisis de Inflación de Varianza (VIF)

library(car)
## Loading required package: carData
## 
## Attaching package: 'car'
## The following object is masked from 'package:psych':
## 
##     logit
## The following object is masked from 'package:dplyr':
## 
##     recode
vif(modelo)
##                     O3                   PM10 Reactivacion_Comercial 
##               1.198005               1.304100              13.623986 
##  Supermercado_Farmacia        Parques_Centros        Lugares_Trabajo 
##               4.815401               3.618397               5.084395 
##             Residencia 
##              11.372743
  • Existe la presencia de una correlación lineal alta e inflación de varianza, por otro lado la gran mayoría de predictores indican lo contrario.

Autocorrelación

library(car)
dwt(modelo, alternative = "two.sided")
##  lag Autocorrelation D-W Statistic p-value
##    1       0.7177002     0.5524315       0
##  Alternative hypothesis: rho != 0
  • No hay evidencia de autocorrelación, debido a que la p-value da menor a 0.05 indicando que nuestra hipótesis nula se rechaza.

Identificación de posibles valores atípicos o influyentes

library(dplyr)
cm$studentized_residual <- rstudent(modelo)
ggplot(data = cm, aes(x = predict(modelo), y = abs(studentized_residual))) +
geom_hline(yintercept = 3, color = "grey", linetype = "dashed") +
# se identifican en rojo observaciones con residuos estandarizados absolutos > 3
geom_point(aes(color = ifelse(abs(studentized_residual) > 3, 'red', 'black'))) +
scale_color_identity() +
labs(title = "Distribución de los residuos studentized",
     x = "predicción modelo") + 
theme_bw() + theme(plot.title = element_text(hjust = 0.5))

Gráfico 6.7: Distribución de posibles valores atípicos.

which(abs(cm$studentized_residual) > 3)
##  27 159 295 296 
##  27 159 295 296
  • Para el gráfico 6.7 se observa que si se identificaron comportamientos atípicos, sin embargo, los valores atípicos son pocos, a comparación de los influyentes, ya que en su mayoría estos se encuentran en un rango > 3.
summary(influence.measures(modelo))
## Potentially influential observations of
##   lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia +      Parques_Centros + Lugares_Trabajo + Residencia, data = cm) :
## 
##     dfb.1_ dfb.O3 dfb.PM10 dfb.Rc_C dfb.Sp_F dfb.Pr_C dfb.Lg_T dfb.Rsdn dffit  
## 5   -0.02  -0.02  -0.10     0.00     0.06    -0.09    -0.04    -0.01    -0.16  
## 6    0.01   0.01   0.01     0.00    -0.01     0.02     0.00     0.00     0.02  
## 11   0.02   0.02   0.01     0.00    -0.03     0.04     0.01     0.00     0.06  
## 12   0.10   0.27  -0.03     0.05    -0.18     0.20     0.06    -0.01     0.46_*
## 26  -0.39   0.13   0.22    -0.08     0.11    -0.04     0.00     0.04    -0.42_*
## 27  -0.59   0.25   0.55    -0.28     0.17     0.29     0.07     0.07    -0.70_*
## 31  -0.21   0.12   0.17     0.28    -0.36    -0.28     0.31     0.18    -0.64_*
## 32  -0.15   0.08   0.10     0.07    -0.19    -0.07    -0.01    -0.02    -0.31  
## 74   0.04  -0.02  -0.06     0.16     0.09    -0.05     0.31     0.33    -0.41_*
## 137  0.02   0.09  -0.10     0.07    -0.08    -0.08    -0.04    -0.07    -0.23  
## 158  0.12  -0.10  -0.09    -0.01     0.00     0.03    -0.03     0.01     0.20  
## 159  0.16  -0.10  -0.18     0.01     0.02     0.02     0.00     0.06     0.31  
## 217  0.00   0.08   0.05     0.02    -0.02     0.14     0.12     0.14     0.25  
## 228  0.05   0.16  -0.31     0.04     0.05    -0.10    -0.02    -0.02    -0.42_*
## 294 -0.08   0.16  -0.05     0.31    -0.07    -0.24     0.19     0.28     0.42_*
## 295  0.05   0.05  -0.14     0.20     0.02    -0.25     0.19     0.17     0.41_*
## 296 -0.05   0.07   0.04     0.23    -0.03    -0.26     0.33     0.25     0.52_*
## 313  0.01   0.10   0.00     0.02    -0.26     0.06     0.01    -0.08    -0.36  
## 314 -0.09  -0.08   0.10    -0.18     0.28     0.05    -0.07    -0.05     0.33  
## 315 -0.08  -0.21   0.37    -0.65    -0.02     0.36    -0.71    -0.81     1.08_*
## 321 -0.01   0.08   0.06     0.11    -0.21     0.00     0.06     0.04    -0.22  
## 322  0.08  -0.06  -0.06    -0.39    -0.08     0.17    -0.61    -0.64     0.76_*
## 332  0.05  -0.07  -0.04     0.12    -0.06    -0.13     0.02     0.06     0.20  
## 341 -0.11   0.08   0.15    -0.16     0.12     0.20     0.06     0.01    -0.26  
## 371 -0.01   0.04  -0.02     0.07    -0.04    -0.13    -0.07    -0.05     0.20  
## 379  0.01   0.01  -0.02     0.01    -0.01     0.00     0.00     0.01    -0.03  
## 397  0.39  -0.25  -0.50     0.08     0.08    -0.23    -0.18    -0.11     0.54_*
## 412 -0.01   0.01   0.01    -0.08     0.09     0.05    -0.09    -0.07     0.14  
## 413 -0.01   0.01   0.03    -0.37     0.26     0.29    -0.31    -0.28     0.52_*
## 414  0.00   0.00   0.00     0.01     0.00    -0.01     0.01     0.01    -0.02  
## 415 -0.02   0.04   0.02    -0.06     0.00     0.02    -0.06    -0.09     0.11  
## 441 -0.03   0.08  -0.01     0.01     0.05     0.00     0.01     0.02     0.14  
## 442  0.02  -0.03   0.00     0.03    -0.04     0.00     0.03     0.03    -0.08  
##     cov.r   cook.d hat    
## 5    1.06_*  0.00   0.04  
## 6    1.06_*  0.00   0.04  
## 11   1.07_*  0.00   0.05  
## 12   0.98    0.03   0.04  
## 26   0.94_*  0.02   0.03  
## 27   0.84_*  0.06   0.04  
## 31   0.96    0.05   0.06_*
## 32   0.90_*  0.01   0.01  
## 74   0.99    0.02   0.04  
## 137  0.94_*  0.01   0.01  
## 158  0.94_*  0.01   0.01  
## 159  0.85_*  0.01   0.01  
## 217  0.94_*  0.01   0.01  
## 228  0.99    0.02   0.04  
## 294  0.90_*  0.02   0.02  
## 295  0.88_*  0.02   0.02  
## 296  0.84_*  0.03   0.02  
## 313  1.05    0.02   0.07_*
## 314  1.14_*  0.01   0.12_*
## 315  1.02    0.14   0.13_*
## 321  1.14_*  0.01   0.11_*
## 322  1.01    0.07   0.09_*
## 332  0.93_*  0.00   0.01  
## 341  1.06_*  0.01   0.06_*
## 371  0.90_*  0.00   0.01  
## 379  1.06_*  0.00   0.04  
## 397  1.02    0.04   0.07_*
## 412  1.08_*  0.00   0.06_*
## 413  1.03    0.03   0.07_*
## 414  1.11_*  0.00   0.08_*
## 415  1.07_*  0.00   0.05  
## 441  1.07_*  0.00   0.05  
## 442  1.06_*  0.00   0.04
  • En la tabla generada se recogen las observaciones que son significativamente influyentes en al menos uno de los predictores (una columna para cada predictor). Las tres últimas columnas son 3 medidas distintas para cuantificar la influencia. A modo de guía se pueden considerar excesivamente influyentes aquellas observaciones para las que:

  • Leverages (hat): Se consideran observaciones influyentes aquellas cuyos valores hat superen 2.5((p+1)/n), siendo p el número de predictores y n el número de observaciones. Distancia Cook (cook.d): Se consideran influyentes valores superiores a 1.

Concluyendo los valores para Hat indican que son influyentes en su mayoría ya que estos superan su mismo valor. Por otra parte, en la distancia de Cook ninguno se considera influyente por el hecho de que ningún valor es superior a 0.

La visualización gráfica.

influencePlot(modelo)
##        StudRes        Hat      CookD
## 27  -3.5582426 0.03713416 0.05945706
## 296  3.4731299 0.02155656 0.03240317
## 314  0.9075958 0.11755720 0.01372246
## 315  2.7710833 0.13124774 0.14283922
## 322  2.3883787 0.09266949 0.07205406
title("Valores influyentes")

  • Los análisis muestran varias observaciones influyentes (posición 322,315 y 314) que exceden los límites de preocupación para los valores de leverages o distancia Cook. Estudios más exhaustivos consistirían en rehacer el modelo sin las observaciones y ver el impacto. _______________________________________________________________________________________________________

Modelo lineal múltiple

\[ SO_2 = - 0.005669 O_3 + 0.005668PM10 + 0.008020Reactivación.Comercial + 0.005439 Supermecado.Farmacia - 0.016944Parques.Centros - 0.010417Luagres.Trabajo -0.0350005 Residencias\]

El modelo lineal múltiple es capaz de explicar el 69.38% de la variabilidad observada en el SO2 (R2: 0.6938, R2-Adjusted: 0.6882). El test F muestra que es significativo (p-value: 2.2e-16). Se satisfacen todas las condiciones para este tipo de regresión múltiple. Dos observaciones (posición 314, 315 y 322) podrían estar influyendo de forma notable en el modelo.

CONCLUSIÓN

BIBLIOGRAFÍA