I. INTRODUCCIÓN

La gestión de la contaminación del aire se ha vuelto importante en el último periodo debido a las siguientes afirmaciones: “A causa del desarrollo industrial y avance tecnológico se estima aproximadamente 1200 millones de personas están expuestas a niveles de dióxido de azufre (SO2), muy por encima de por directrices de la Organización Mundial de la Salud (OMS) y aproximadamente 1400 millones de personas están expuestas a niveles excesivos de humo y material articulado (PM)” (Rico, 2018).

La importancia de respirar aire limpio sin contaminantes es crucial para todo ser viviente. Por lo cual es importante que este sea aire limpio, pero ¿Cómo detectar si el aire que respiramos no tiene contaminantes? ¿Cómo nos afecta a nosotros?. La calidad del aire está directamente relacionada con la movilidad de carros, autobuses y hasta la propia movilidad de la ciudad, donde las personas realizan sus actividades diarias, por lo tanto, entre más movilidad haya en la ciudad, aumentan los contaminantes en el aire.

Los principales contaminantes en el aire han sido creados principalmente por la actividad económica humana, la concentración de estas sustancias es altamente nociva para la salud del ser humano. Este estudio tuvo en cuenta los siguientes contaminantes:

Material particulado \((PM10)\)
Ozono \((O_3)\)
Dióxido de nitrógeno \((NO_2)\)
Dióxido de azufre \((SO_2)\)

II. ANTECEDENTES

El municipio de Hermosillo inicia de manera formal el Programa de Monitoreo de la Calidad del Aire en el año 2004, los aparatos de muestreo son donados al municipio por SEMARNAT y son reinstalados en sitios céntricos pese al crecimiento urbano que ha rebasado en kilómetros las zonas marginales de diez años atrás (Barajas Olvera, 2007).

En Hermosillo sonora, la contaminación del aire es elevada y la población desconoce acerca de este hecho. Existen antecedentes para esta ciudad de medición de PST (Partículas suspendidas totales similares a las PM10) de 1990 a 1995, reportándose que todos esos años se rebasó el máximo permisible anual de 75 μg/m^3 con promedios anuales que fluctuaban de 126 hasta 565 μg/m^3.

III. OBJETIVO

Determinar cómo varían las concentraciones de contaminantes en el aire y su relación con la movilidad durante el periodo Febrero 2020 - Mayo 2021 en la ciudad de Hermosillo, Sonora.
Comprobar el deterioro de la calidad del aire a partir de la reactivación económica en tiempos de COVID-19.

IV. TEORÍA

¿Qué es la calidad del aire?

Con el nombre de atmósfera conocemos a la envoltura gaseosa que rodea a la Tierra, constando de unos 200 Km de espesor. La atmósfera es un medio continuo a través del cual son transportados y dispersados los contaminantes. Este transporte se realiza gracias al movimiento del aire que se produce a escala planetaria, regional y local.
Una vez en la atmósfera, la persistencia de los contaminantes dependerá de diversos factores, ya sean de carácter meteorológico, como el lavado por la lluvia y la deposición por acción de la gravedad o el impacto contra superficies, o su transformación por diversas reacciones químicas en otras sustancias que puedan ser contaminantes (contaminantes secundarios).
Técnicamente se puede definir la calidad del aire, inmisión o valor límite como la concentración de contaminante que llega a un receptor, más o menos alejado de la fuente de emisión.

Causas.

El uso de combustibles fósiles como la gasolina y el gas natural son grandes contribuyentes a la polución del aire. Estos emiten gases como el dióxido de carbono y el metano, dos de los mayores contaminantes y generadores de otros problemas como el efecto invernadero. El dióxido de azufre es particularmente peligroso para el medio ambiente pues es el principal componente de la lluvia ácida.

Una las principales causas de la contaminación del aire es el uso de combustibles fósiles. Su liberación hacia la atmósfera produce un exceso de material particulado \((PM_10 y PM_2.5)\) y de gases de efecto invernadero como el dióxido de carbono, los óxidos de nitrógeno y los óxidos de azufre. Por su parte, el ozono, que aunque en condiciones de equilibrio nos ha ayudado a evitar la radiación ultravioleta, en grandes cantidades puede presentar problemas para la salud.

Los niveles altos de contaminación del aire pueden causar problemas de salud inmediatos:

Agravar enfermedades cardiovasculares y respiratorias.
Producir más estrés al corazón y los pulmones que deben trabajar más para suministrar oxígeno al cuerpo.
Dañar las células del sistema respiratorio.

El aumento de la contaminación atmosférica es una amenaza aguda, acumulativa y crónica para la salud humana y el ambiente. La calidad del aire en la ciudad de Hermosillo se deteriora cada día más, debido principalmente al tráfico vehicular aunque a partir de la última semana de junio, la calidad del aire en la capital sonorense volvió a normalizarse con respecto a los niveles de contaminación de años anteriores.

La titular del Instituto Municipal de Ecología (IME), señaló que en todo lo que va del año, la calidad del aire se ha mantenido por debajo de la norma, gracias a las acciones implementadas por la dependencia, tanto en la concientización de la ciudadanía, atención de reportes y el fortalecimiento en áreas protegidas.

Datos clave.

La contaminación del aire es el principal riesgo ambiental para la salud pública en las Américas.
En todo el mundo, cerca de 7 millones de muertes prematuras fueron atribuibles a la contaminación del aire ambiental en 2016. Alrededor del 88% de estas muertes ocurren en países de ingresos bajos y medios.
Más de 150 millones de personas en América Latina viven en ciudades que exceden las Guías de Calidad del Aire de la OMS.
La exposición a altos niveles de contaminación del aire puede causar una variedad de resultados adversos para la salud: aumenta el riesgo de infecciones respiratorias, enfermedades cardiacas, derrames cerebrales y cáncer de pulmón, las cuales afectan en mayor proporción a población vulnerable, niños, adultos mayores y mujeres.
La contaminación del aire en el hogar se asocia al uso de combustibles y prácticas de cocina ineficiente

¿Cómo afecta la calidad del aire a los sonorenses?

Gráfico 5.3. Principales causas de morbilidad registradas en el año 2015.

Según el Sistema Único de Información de Vigilancia Epidemiológica (SUIVE), durante el año 2015 se registraron un total de 1’251,463 diagnósticos de casos nuevos de enfermedad en la población sonorense. La principal causa de morbilidad en el estado al cierre del 2015 fueron las infecciones respiratorias agudas con 684,938 casos nuevos registrados ese año, lo cual representó el 55% del total de casos registrados por todo el Sector Salud, con una tasa de 240 casos por cada 1,000 habitantes del estado durante ese año.

Palabras clave.

El ozono (\(O_3\)) es formado en la atmósfera por medio de reacciones fotoquímicas, en presencia de luz solar y a partir de la reacción entre contaminantes precursores como los óxidos de nitrógeno \((NOx)\) y compuestos orgánicos volátiles. El ozono hace un aporte significativo al balance radiativo de la tropósfera superior y la estratósfera inferior, de modo que los cambios en la distribución de O3 en estas capas atmosféricas afectan el forzamiento radiativo del clima. (Green, 2013)
El dióxido de azufre \((SO_2)\), como el NO2 , es un gas que puede exacerbar los síntomas de aquellos individuos que sufren enfermedades respiratorias o cardiacas. Es primordialmente formado en la combustión de combustibles fósiles en las plantas generadoras de energía y en otras instalaciones industriales, así como en fuentes móviles en un menor grado; y por consiguiente es un problema en algunas áreas urbanas e industriales. (Green, 2013)
Las PM10 \((PM10 – 2.5)\), también llamadas partículas inhalables, se consideran como contaminantes constituidos por material líquido y sólido de muy diversa composición y tamaño, que se encuentran en el aire, estas pueden ser generadas tanto por fuentes móviles como estacionarias, de manera natural o antropogénica. Se asocian generalmente a la combustión no controlada, algunas están relacionadas con la desintegración mecánica de la materia o la re-suspensión de partículas en el ambiente. Se ha establecido que las partículas se encuentran constituidas por 7 componentes químicos o especies: material geológico, sulfatos de amonio, nitratos de amonio, material orgánico, carbón elemental, sales y elementos trazas. (Rodríguez, 2014)

V. METODOLOGÍA

Para fines de reproducibilidad se incluye el código para su descarga.

Download Proyecto.Rmd

Ubicación de donde se obtuvieron los datos

En el siguiente análisis se discutirá acerca de un modelo de regresión lineal que permit

VI.RESULTADO Y DISCUSIÓN

En el Objetivo 11 de Desarrollo la política nacional se centra en la disminución de la concentración de contaminantes atmosféricos.

Tabla 6.1. Datos de contaminantes atmosféricos y movilidad local

Los datos de la tabla 6.1 fueron obtenidos de la Red Universitaria de Observatorios Atmosféricos (RUOA).

Gráfico 6.1. Reporte de movilidad en Hermosillo, Sonora.

En el gráfico 6.1 se representan los valores obtenidos a partir del reporte de movilidad en Hermosillo, Sonora. A partir de un análisisse comprobó que debido a la pandemia el porcentaje de movilidad disminuyó considerablemente desde principios de marzo hasta mediados de abril en el año 2020. Los picos de movilidad corresponden a días festivos, en los cuales la población dejaba el aislamiento para realizar ciertas actividades.Es posible notar que los espacios de primera necesidad (supermercados, farmacias y transporte) son los más concurridos. Por otro lado los lugares de trabajo y recreación de comercio mostraron un índice menor, debido a que a inicios de la pandemia cerraron muchos lugares de trabajo y no había actividad, contemplando que los días festivos no se trabaja. Finalmente hubo un aumento en lugares de residencia a principios de la cuarentena obteniendo menor impacto en la movilidad, se concluyó que gracias a la pandemia difirió cambios de movilidad para Hermosillo, Sonora a principios del año 2020 a fechas actuales.

Gráfico 6.2. Concentración de algunos contaminantes en el aire

plot_ly(CM,colors = rainbow(3)) %>%
  add_lines(x = ~Fecha, y = ~O3,mode="lines",name = "O3") %>%
add_lines(x = ~Fecha, y = ~SO2,mode="lines", name = "SO2") %>%
add_lines(x = ~Fecha, y = ~PM10,mode="lines", name ="PM10")  %>%
rangeslider() %>% 
  layout(title = 'Contaminantes atmosféricos (concentraciones)',
         xaxis = list(title = 'Fecha'),
         yaxis = list(title = 'Concentración (ppb para O3 y SO2, ug/m3 para PM10)'))

En el gráfico 6.2 se muestra cómo ha variado la concentración de SO2, O3 y PM10, respectivamente. Es posible apreciar cómo las concentraciones de material particulado rebasan en todo momento al resto de los contaminantes atmosféricos.

Esto se debe a múltiples factores:

Las PM10 pueden ser generadas tanto por fuentes móviles como estacionarias, de manera natural o antropogénica (Villalobos et al., 2008).
Se asocian generalmente a la combustión no controlada, algunas están relacionadas con la desintegración mecánica de la materia o la re-suspensión de partículas en el ambiente (Echeverri y Maya, 2008).
Esto incluye procesos de combustión en vehículos, principalmente aquellos que usan diesel, industrias de fundición, pinturas, cerámica y plantas de energía (Tzintzun et al., 2005).
El aumento significativo de concentración de partículas contaminantes se produce cuando las intrusiones de polvo se producen en invierno, de diciembre a marzo, cuando son más intensos.

Análisis de regresión entre Variables

library(readxl)
library(DT)
CM <- read_excel("Concentracion_Mov.xlsx")
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following object is masked from 'package:gridExtra':
## 
##     combine

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

data <- as.data.frame(CM)
round(cor(x = data, method = "pearson"),3)

##                            O3    SO2   PM10 Reactivacion_Comercial
## O3                      1.000 -0.220 -0.229                 -0.193
## SO2                    -0.220  1.000  0.612                  0.404
## PM10                   -0.229  0.612  1.000                  0.281
## Reactivacion_Comercial -0.193  0.404  0.281                  1.000
## Supermercado_Farmacia  -0.047  0.443  0.280                  0.875
## Parques_Centros        -0.182  0.019  0.065                  0.814
## Estaciones_Transito    -0.174  0.399  0.270                  0.944
## Lugares_Trabajo        -0.119  0.138  0.100                  0.581
## Residencia              0.130 -0.371 -0.238                 -0.842
##                        Supermercado_Farmacia Parques_Centros
## O3                                    -0.047          -0.182
## SO2                                    0.443           0.019
## PM10                                   0.280           0.065
## Reactivacion_Comercial                 0.875           0.814
## Supermercado_Farmacia                  1.000           0.655
## Parques_Centros                        0.655           1.000
## Estaciones_Transito                    0.872           0.770
## Lugares_Trabajo                        0.492           0.371
## Residencia                            -0.729          -0.617
##                        Estaciones_Transito Lugares_Trabajo Residencia
## O3                                  -0.174          -0.119      0.130
## SO2                                  0.399           0.138     -0.371
## PM10                                 0.270           0.100     -0.238
## Reactivacion_Comercial               0.944           0.581     -0.842
## Supermercado_Farmacia                0.872           0.492     -0.729
## Parques_Centros                      0.770           0.371     -0.617
## Estaciones_Transito                  1.000           0.474     -0.758
## Lugares_Trabajo                      0.474           1.000     -0.853
## Residencia                          -0.758          -0.853      1.000

6.3. Histograma de Variables

library(psych)

## 
## Attaching package: 'psych'

## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha

multi.hist(x = data, dcol = c("blue", "red"), dlty = c("dotted", "solid"),
           main = "")

En estos histogramas se visualiza un comportamiento simétrico para la mayoría de los casos. La línea azul representa el comportamiento real, mientras que la línea roja sugiere un ajuste para una perfecta simetría.

6.4. Gráfico de Dispersión

library(GGally)

## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2

ggpairs(CM, lower = list(continuous = "smooth"),
        diag = list(continuous = "barDiag"), axisLabels = "none")

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

A diferencia del modelo anterior, estos gráficos nos permiten analizar la relación 1-1 de las variables, y además nos arrojan el coeficiente de correlación Del análisis preliminar se pueden extraer las siguientes conclusiones: * Las variables que tienen una mayor relación lineal con el dióxido de azufre (SO2) son: Mercados y farmacia (r= 0.443), Reativación y comercio (r= 0.404) y Residencia (r= -0.371). * PM10 tiene diferentes variables que se encuentran medianamente relacionados, por lo que PM10 tiene diferentes variables que se encuentran medianamente relacionados, por lo que posiblemente no sea útil introducir ambos predictores en el modelo.

Generación del Modelo

modelo <- lm(SO2 ~ O3 + PM10 +Reactivacion_Comercial  + Supermercado_Farmacia + Parques_Centros + Estaciones_Transito + Lugares_Trabajo + Residencia, data = CM )
summary(modelo)

## 
## Call:
## lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
##     Parques_Centros + Estaciones_Transito + Lugares_Trabajo + 
##     Residencia, data = CM)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.51190 -0.09921 -0.00269  0.09870  0.52906 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            -0.0187954  0.0380324  -0.494 0.621416    
## O3                     -0.0057616  0.0009832  -5.860 9.10e-09 ***
## PM10                    0.0056324  0.0005408  10.415  < 2e-16 ***
## Reactivacion_Comercial  0.0096304  0.0020097   4.792 2.27e-06 ***
## Supermercado_Farmacia   0.0060624  0.0015668   3.869 0.000126 ***
## Parques_Centros        -0.0169489  0.0010860 -15.607  < 2e-16 ***
## Estaciones_Transito    -0.0018481  0.0013556  -1.363 0.173465    
## Lugares_Trabajo        -0.0106817  0.0009837 -10.858  < 2e-16 ***
## Residencia             -0.0352798  0.0041747  -8.451 4.32e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1582 on 438 degrees of freedom
## Multiple R-squared:  0.6938, Adjusted R-squared:  0.6882 
## F-statistic: 124.1 on 8 and 438 DF,  p-value: < 2.2e-16

El modelo con todas las variables introducidas como predictores tiene un R2 alta (0.6882), es capaz de explicar el 68,82% de la variabilidad observada en la esperanza de vida. El p-value del modelo es significativo (2.2e-16) de la variabilidad observada en el Ozono.

Selección de los mejores predictores

step(object = modelo, direction = "both", trace = 1)

## Start:  AIC=-1639.29
## SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
##     Parques_Centros + Estaciones_Transito + Lugares_Trabajo + 
##     Residencia
## 
##                          Df Sum of Sq    RSS     AIC
## - Estaciones_Transito     1    0.0465 11.014 -1639.4
## <none>                                10.968 -1639.3
## - Supermercado_Farmacia   1    0.3749 11.343 -1626.3
## - Reactivacion_Comercial  1    0.5750 11.543 -1618.5
## - O3                      1    0.8600 11.828 -1607.5
## - Residencia              1    1.7883 12.756 -1573.8
## - PM10                    1    2.7161 13.684 -1542.4
## - Lugares_Trabajo         1    2.9523 13.920 -1534.7
## - Parques_Centros         1    6.0997 17.067 -1443.6
## 
## Step:  AIC=-1639.4
## SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
##     Parques_Centros + Lugares_Trabajo + Residencia
## 
##                          Df Sum of Sq    RSS     AIC
## <none>                                11.014 -1639.4
## + Estaciones_Transito     1    0.0465 10.968 -1639.3
## - Supermercado_Farmacia   1    0.3298 11.344 -1628.2
## - Reactivacion_Comercial  1    0.6091 11.623 -1617.3
## - O3                      1    0.8366 11.851 -1608.7
## - Residencia              1    1.7647 12.779 -1575.0
## - PM10                    1    2.7569 13.771 -1541.5
## - Lugares_Trabajo         1    2.9217 13.936 -1536.2
## - Parques_Centros         1    6.0965 17.111 -1444.5

## 
## Call:
## lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
##     Parques_Centros + Lugares_Trabajo + Residencia, data = CM)
## 
## Coefficients:
##            (Intercept)                      O3                    PM10  
##              -0.020842               -0.005669                0.005668  
## Reactivacion_Comercial   Supermercado_Farmacia         Parques_Centros  
##               0.008020                0.005439               -0.016944  
##        Lugares_Trabajo              Residencia  
##              -0.010417               -0.035005

La fórmula principal de nuestro análisis fue:

\[ formula = O_3 ~ SO_2 + PM_10 +ReactivacionComercial + Supermercado_Farmacia + Parques_Centros + Estaciones_Transito + Lugares_Trabajo + Residencia \]

Por lo que está estrategia seleccionó a las variables más adecuadas para ser los predictores, quedando la fórmula de la siguente forma:

\[ Fórmula = SO_2 -> O_3 + PM10 + Reactivacion Comercial + SupermercadoFarmacia + ParquesCentros + EstacionesTransito + LugaresTrabajo + Residencia) \]

El mejor modelo resultante del proceso de selección ha sido:

modelo <- (lm(formula =  SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
    Parques_Centros + Lugares_Trabajo + Residencia, data = CM))
summary(modelo)

## 
## Call:
## lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
##     Parques_Centros + Lugares_Trabajo + Residencia, data = CM)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.5458 -0.1006 -0.0022  0.0964  0.5374 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            -0.0208416  0.0380399  -0.548 0.584047    
## O3                     -0.0056694  0.0009818  -5.775 1.46e-08 ***
## PM10                    0.0056679  0.0005407  10.482  < 2e-16 ***
## Reactivacion_Comercial  0.0080203  0.0016277   4.927 1.18e-06 ***
## Supermercado_Farmacia   0.0054386  0.0015000   3.626 0.000322 ***
## Parques_Centros        -0.0169444  0.0010870 -15.588  < 2e-16 ***
## Lugares_Trabajo        -0.0104169  0.0009653 -10.791  < 2e-16 ***
## Residencia             -0.0350045  0.0041739  -8.387 6.89e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1584 on 439 degrees of freedom
## Multiple R-squared:  0.6925, Adjusted R-squared:  0.6876 
## F-statistic: 141.2 on 7 and 439 DF,  p-value: < 2.2e-16

Es recomendable mostrar el intervalo de confianza para cada uno de los coeficientes parciales de regresión:

confint(lm(formula = O3 ~ SO2 + PM10 + Supermercado_Farmacia + Parques_Centros + 
    Estaciones_Transito + Lugares_Trabajo + Residencia, data = CM))

##                             2.5 %       97.5 %
## (Intercept)            18.5429587 24.272734653
## SO2                   -17.4754428 -9.273108691
## PM10                   -0.1078856  0.002902609
## Supermercado_Farmacia   0.3173485  0.586692242
## Parques_Centros        -0.4215821 -0.216357958
## Estaciones_Transito    -0.2640599 -0.063709120
## Lugares_Trabajo        -0.3817479 -0.185032682
## Residencia             -1.3783591 -0.600127926

Gráfica 6.5. Validación de condiciones para la regresión múltiple lineal

library(gridExtra)
plot1 <- ggplot(data = CM, aes(O3, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot2 <- ggplot(data = CM, aes(PM10, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot3 <- ggplot(data = CM, aes(Reactivacion_Comercial, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot4 <- ggplot(data = CM, aes(Supermercado_Farmacia, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot5 <- ggplot(data = CM, aes(Parques_Centros, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot6 <- ggplot(data = CM, aes(Lugares_Trabajo, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot7 <- ggplot(data = CM, aes(Residencia, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
grid.arrange(plot1, plot2, plot3, plot4, plot5, plot6, plot7)

## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

Se puede concluir que si se cumple la linealidad para todos los predictores mostrando una buena relación con las concentración respecto al movilidad, comprobando su alta correlacción.

Gráfica 6.6 Distribución normal de los residuos:

qqnorm(modelo$residuals)
qqline(modelo$residuals)

shapiro.test(modelo$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.99227, p-value = 0.02042

Se observa en el gráfico 6.6 algún patrón específico y tanto el análisis gráfico como el test de hipótesis confirman la normalidad. Al tener mayor dispersión en los extremos, significa que la variabilidad es dependiente del valor ajustado y por lo tanto no hay homocedasticidad.

Figura 6.1 Matriz de correlación entre predictores

library(corrplot)

## corrplot 0.84 loaded

corrplot(cor(dplyr::select(CM, O3, PM10, Reactivacion_Comercial, Supermercado_Farmacia, Parques_Centros, Lugares_Trabajo, Residencia)),
         method = "number", tl.col = "black")

Análisis de Inflación de Varianza (VIF):

library(car)

## Loading required package: carData

## 
## Attaching package: 'car'

## The following object is masked from 'package:psych':
## 
##     logit

## The following object is masked from 'package:dplyr':
## 
##     recode

vif(modelo)

##                     O3                   PM10 Reactivacion_Comercial 
##               1.198005               1.304100              13.623986 
##  Supermercado_Farmacia        Parques_Centros        Lugares_Trabajo 
##               4.815401               3.618397               5.084395 
##             Residencia 
##              11.372743

Existe la presencia de predictores que muestran una correlación lineal muy alta e inflación de varianza, por otro lado la gran mayoría de predictores indican lo contrario.

Autocorrelación

library(car)
dwt(modelo, alternative = "two.sided")

##  lag Autocorrelation D-W Statistic p-value
##    1       0.7177002     0.5524315       0
##  Alternative hypothesis: rho != 0

No hay evidencia de autocorrelación, debido a que la p-value da menor a 0.05 indicando que nuestra hipótesis nula se rechaza.

Gráfica 6.7 Identificación de posibles valores atípicos o influyentes

library(dplyr)
CM$studentized_residual <- rstudent(modelo)
ggplot(data = CM, aes(x = predict(modelo), y = abs(studentized_residual))) +
geom_hline(yintercept = 3, color = "grey", linetype = "dashed") +
# se identifican en rojo observaciones con residuos estandarizados absolutos > 3
geom_point(aes(color = ifelse(abs(studentized_residual) > 3, 'red', 'black'))) +
scale_color_identity() +
labs(title = "Distribución de los residuos studentized",
     x = "predicción modelo") + 
theme_bw() + theme(plot.title = element_text(hjust = 0.5))

which(abs(CM$studentized_residual) > 3)

##  27 159 295 296 
##  27 159 295 296

Para el gráfico 6.7 se observa que si se identificaron comportamientos atípicos, sin embargo, los valores atípicos son pocos, a comparación de los influyentes, ya que en su mayoría estos se encuentran en un rango > 3.

summary(influence.measures(modelo))

## Potentially influential observations of
##   lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia +      Parques_Centros + Lugares_Trabajo + Residencia, data = CM) :
## 
##     dfb.1_ dfb.O3 dfb.PM10 dfb.Rc_C dfb.Sp_F dfb.Pr_C dfb.Lg_T dfb.Rsdn dffit  
## 5   -0.02  -0.02  -0.10     0.00     0.06    -0.09    -0.04    -0.01    -0.16  
## 6    0.01   0.01   0.01     0.00    -0.01     0.02     0.00     0.00     0.02  
## 11   0.02   0.02   0.01     0.00    -0.03     0.04     0.01     0.00     0.06  
## 12   0.10   0.27  -0.03     0.05    -0.18     0.20     0.06    -0.01     0.46_*
## 26  -0.39   0.13   0.22    -0.08     0.11    -0.04     0.00     0.04    -0.42_*
## 27  -0.59   0.25   0.55    -0.28     0.17     0.29     0.07     0.07    -0.70_*
## 31  -0.21   0.12   0.17     0.28    -0.36    -0.28     0.31     0.18    -0.64_*
## 32  -0.15   0.08   0.10     0.07    -0.19    -0.07    -0.01    -0.02    -0.31  
## 74   0.04  -0.02  -0.06     0.16     0.09    -0.05     0.31     0.33    -0.41_*
## 137  0.02   0.09  -0.10     0.07    -0.08    -0.08    -0.04    -0.07    -0.23  
## 158  0.12  -0.10  -0.09    -0.01     0.00     0.03    -0.03     0.01     0.20  
## 159  0.16  -0.10  -0.18     0.01     0.02     0.02     0.00     0.06     0.31  
## 217  0.00   0.08   0.05     0.02    -0.02     0.14     0.12     0.14     0.25  
## 228  0.05   0.16  -0.31     0.04     0.05    -0.10    -0.02    -0.02    -0.42_*
## 294 -0.08   0.16  -0.05     0.31    -0.07    -0.24     0.19     0.28     0.42_*
## 295  0.05   0.05  -0.14     0.20     0.02    -0.25     0.19     0.17     0.41_*
## 296 -0.05   0.07   0.04     0.23    -0.03    -0.26     0.33     0.25     0.52_*
## 313  0.01   0.10   0.00     0.02    -0.26     0.06     0.01    -0.08    -0.36  
## 314 -0.09  -0.08   0.10    -0.18     0.28     0.05    -0.07    -0.05     0.33  
## 315 -0.08  -0.21   0.37    -0.65    -0.02     0.36    -0.71    -0.81     1.08_*
## 321 -0.01   0.08   0.06     0.11    -0.21     0.00     0.06     0.04    -0.22  
## 322  0.08  -0.06  -0.06    -0.39    -0.08     0.17    -0.61    -0.64     0.76_*
## 332  0.05  -0.07  -0.04     0.12    -0.06    -0.13     0.02     0.06     0.20  
## 341 -0.11   0.08   0.15    -0.16     0.12     0.20     0.06     0.01    -0.26  
## 371 -0.01   0.04  -0.02     0.07    -0.04    -0.13    -0.07    -0.05     0.20  
## 379  0.01   0.01  -0.02     0.01    -0.01     0.00     0.00     0.01    -0.03  
## 397  0.39  -0.25  -0.50     0.08     0.08    -0.23    -0.18    -0.11     0.54_*
## 412 -0.01   0.01   0.01    -0.08     0.09     0.05    -0.09    -0.07     0.14  
## 413 -0.01   0.01   0.03    -0.37     0.26     0.29    -0.31    -0.28     0.52_*
## 414  0.00   0.00   0.00     0.01     0.00    -0.01     0.01     0.01    -0.02  
## 415 -0.02   0.04   0.02    -0.06     0.00     0.02    -0.06    -0.09     0.11  
## 441 -0.03   0.08  -0.01     0.01     0.05     0.00     0.01     0.02     0.14  
## 442  0.02  -0.03   0.00     0.03    -0.04     0.00     0.03     0.03    -0.08  
##     cov.r   cook.d hat    
## 5    1.06_*  0.00   0.04  
## 6    1.06_*  0.00   0.04  
## 11   1.07_*  0.00   0.05  
## 12   0.98    0.03   0.04  
## 26   0.94_*  0.02   0.03  
## 27   0.84_*  0.06   0.04  
## 31   0.96    0.05   0.06_*
## 32   0.90_*  0.01   0.01  
## 74   0.99    0.02   0.04  
## 137  0.94_*  0.01   0.01  
## 158  0.94_*  0.01   0.01  
## 159  0.85_*  0.01   0.01  
## 217  0.94_*  0.01   0.01  
## 228  0.99    0.02   0.04  
## 294  0.90_*  0.02   0.02  
## 295  0.88_*  0.02   0.02  
## 296  0.84_*  0.03   0.02  
## 313  1.05    0.02   0.07_*
## 314  1.14_*  0.01   0.12_*
## 315  1.02    0.14   0.13_*
## 321  1.14_*  0.01   0.11_*
## 322  1.01    0.07   0.09_*
## 332  0.93_*  0.00   0.01  
## 341  1.06_*  0.01   0.06_*
## 371  0.90_*  0.00   0.01  
## 379  1.06_*  0.00   0.04  
## 397  1.02    0.04   0.07_*
## 412  1.08_*  0.00   0.06_*
## 413  1.03    0.03   0.07_*
## 414  1.11_*  0.00   0.08_*
## 415  1.07_*  0.00   0.05  
## 441  1.07_*  0.00   0.05  
## 442  1.06_*  0.00   0.04

En la tabla generada se recogen las observaciones que son significativamente influyentes en al menos uno de los predictores (una columna para cada predictor). Las tres últimas columnas son 3 medidas distintas para cuantificar la influencia. A modo de guía se pueden considerar excesivamente influyentes aquellas observaciones para las que:

Leverages (hat): Se consideran observaciones influyentes aquellas cuyos valores hat superen 2.5((p+1)/n), siendo p el número de predictores y n el número de observaciones. Distancia Cook (cook.d): Se consideran influyentes valores superiores a 1.

Concluyendo los valores para Hat indican que son influyentes en su mayoría ya que estos superan su mismo valor. Por otra parte, en la distanica de Cook ninguno se considera influtyente por el hecho de que ningun valor es superior a 0.

influencePlot(modelo)

##        StudRes        Hat      CookD
## 27  -3.5582426 0.03713416 0.05945706
## 296  3.4731299 0.02155656 0.03240317
## 314  0.9075958 0.11755720 0.01372246
## 315  2.7710833 0.13124774 0.14283922
## 322  2.3883787 0.09266949 0.07205406

Los análisis muestran varias observaciones influyentes (posición 322, 314 y 315) que exceden los límites de preocupación para los valores de Leverages o Distancia Cook. Estudios más exhaustivos consistirían en rehacer el modelo sin las observaciones y ver el impacto.

El modelo lineal múltiple

\[ SO_2 = 0.008020 Reactivación Comercial-0.010417Lugares de Trabajo-0.005669O_3+0.005438SupermercadoFarmacia-0.0350005Residencia+0.005668PM_10-0.016944ParquesCentros \]

El módelo lineal múltiple es capaz de explicar el 69.38% de la variabilidad observada en el SO_2 (R2: 0.6938, R2-Adjusted: 0.6882). El test F muestra que es significativo (p-value: 2.2e-16). Se satisfacen todas las condiciones para este tipo de regresión múltiple. Dos observaciones (posición 314, 315 y 322) podrían estar influyendo de forma notable en el modelo.

CONCLUSIÓN

BIBLIOGRAFÍA

Air pollution in cities: Urban Health Initiative. Recuperado el 16 de Mayo de 2021, de World Health Organization
Objetivos del Desarrollo Sostenible. (2015). Recuperado el 22 de Mayo de 2021, de ODS

Calidad del Aire en Hermosillo y Movilidad: Avance 1

Equipo 2. Cielo Aholiva Higuera Gutiérrez, Mariana Pompa Rivera, Cristina Gpe. Arguelles Lema, Saúl Eduardo López López

21/05/2021