Calidad del aire y movilidad en Hermosillo, Sonora

Equipo 2. Cielo Aholiva Higuera Gutiérrez, Mariana Pompa Rivera, Saul López López y Cristina Gpe. Arguelles Lema, Jennifer Larissa Molina Esquerra, Ingrid Marol Mena Martinez, Kenya Alejandra Arreola Díaz

24/05/2021

I. INTRODUCCIÓN

La gestión de la contaminación del aire se ha vuelto importante en el último periodo debido a las siguientes afirmaciones: “A causa del desarrollo industrial y avance tecnológico se estima aproximadamente 1200 millones de personas están expuestas a niveles de dióxido de azufre (SO2), muy por encima de por directrices de la Organización Mundial de la Salud (OMS) y aproximadamente 1400 millones de personas están expuestas a niveles excesivos de humo y material articulado (PM)” (Rico, 2018).

La importancia de respirar aire limpio sin contaminantes es crucial para todo ser viviente. Por lo cual es importante que este sea aire limpio, pero ¿Cómo detectar si el aire que respiramos no tiene contaminantes? ¿Cómo nos afecta a nosotros?. La calidad del aire está directamente relacionada con la movilidad de carros, autobuses y hasta la propia movilidad de la ciudad, donde las personas realizan sus actividades diarias, por lo tanto, entre más movilidad haya en la ciudad, aumentan los contaminantes en el aire.

Los principales contaminantes en el aire han sido creados principalmente por la actividad económica humana, la concentración de estas sustancias es altamente nociva para la salud del ser humano. Este estudio tuvo en cuenta los siguientes contaminantes:

  • Material particulado \((PM10)\)
  • Ozono \((O_3)\)
  • Dióxido de nitrógeno \((NO_2)\)
  • Dióxido de azufre \((SO_2)\)

Imagen 1.1.

II. ANTECEDENTES

El municipio de Hermosillo inicia de manera formal el Programa de Monitoreo de la Calidad del Aire en el año 2004, los aparatos de muestreo son donados al municipio por SEMARNAT y son reinstalados en sitios céntricos pese al crecimiento urbano que ha rebasado en kilómetros las zonas marginales de diez años atrás (Barajas Olvera, 2007).

En Hermosillo sonora, la contaminación del aire es elevada y la población desconoce acerca de este hecho. Existen antecedentes para esta ciudad de medición de PST (Partículas suspendidas totales similares a las PM10) de 1990 a 1995, reportándose que todos esos años se rebasó el máximo permisible anual de 75 μg/m^3 con promedios anuales que fluctuaban de 126 hasta 565 μg/m^3.

Contaminación ambiental en Hermosillo, Sonora

III. OBJETIVO

  • Determinar cómo varían las concentraciones de contaminantes en el aire y su relación con la movilidad durante el periodo Febrero 2020 - Mayo 2021 en la ciudad de Hermosillo, Sonora.

  • Comprobar el deterioro de la calidad del aire a partir de la reactivación económica en tiempos de COVID-19.

library(pacman)
p_load(rmdformats,readr,readxl,ggplot2,plotly,DT,xfun,gridExtra,leaflet)

Ubicación de donde se obtuvieron los datos

content <- paste(sep = "<br/>",
  "<b><a href='https://www.ruoa.unam.mx/index.php?page=estaciones&id=6#datos'>ERNO</a></b>","Lng: -110.9706, Lat: 29.0814")


m <- leaflet() %>%
  addTiles() %>%  
  addMarkers(lng=-110.9706, lat= 29.0814, popup= content)

m

IV. TEORÍA

¿Qué es la calidad del aire?

  • Con el nombre de atmósfera conocemos a la envoltura gaseosa que rodea a la Tierra, constando de unos 200 Km de espesor. La atmósfera es un medio continuo a través del cual son transportados y dispersados los contaminantes. Este transporte se realiza gracias al movimiento del aire que se produce a escala planetaria, regional y local.

  • Una vez en la atmósfera, la persistencia de los contaminantes dependerá de diversos factores, ya sean de carácter meteorológico, como el lavado por la lluvia y la deposición por acción de la gravedad o el impacto contra superficies, o su transformación por diversas reacciones químicas en otras sustancias que puedan ser contaminantes (contaminantes secundarios).

  • Técnicamente se puede definir la calidad del aire, inmisión o valor límite como la concentración de contaminante que llega a un receptor, más o menos alejado de la fuente de emisión.

Generación de contaminantes por empresas

Causas.

El uso de combustibles fósiles como la gasolina y el gas natural son grandes contribuyentes a la polución del aire. Estos emiten gases como el dióxido de carbono y el metano, dos de los mayores contaminantes y generadores de otros problemas como el efecto invernadero. El dióxido de azufre es particularmente peligroso para el medio ambiente pues es el principal componente de la lluvia ácida.

Una las principales causas de la contaminación del aire es el uso de combustibles fósiles. Su liberación hacia la atmósfera produce un exceso de material particulado \((PM_10 y PM_2.5)\) y de gases de efecto invernadero como el dióxido de carbono, los óxidos de nitrógeno y los óxidos de azufre. Por su parte, el ozono, que aunque en condiciones de equilibrio nos ha ayudado a evitar la radiación ultravioleta, en grandes cantidades puede presentar problemas para la salud.

Imagen 4.1. Difusión, Disperción y Reacciones Químicas

Consecuencias

Los niveles altos de contaminación del aire pueden causar problemas de salud inmediatos:

  • Agravar enfermedades cardiovasculares y respiratorias.
  • Producir más estrés al corazón y los pulmones que deben trabajar más para suministrar oxígeno al cuerpo.
  • Dañar las células del sistema respiratorio.

El aumento de la contaminación atmosférica es una amenaza aguda, acumulativa y crónica para la salud humana y el ambiente. La calidad del aire en la ciudad de Hermosillo se deteriora cada día más, debido principalmente al tráfico vehicular aunque a partir de la última semana de junio, la calidad del aire en la capital sonorense volvió a normalizarse con respecto a los niveles de contaminación de años anteriores.

La titular del Instituto Municipal de Ecología (IME), señaló que en todo lo que va del año, la calidad del aire se ha mantenido por debajo de la norma, gracias a las acciones implementadas por la dependencia, tanto en la concientización de la ciudadanía, atención de reportes y el fortalecimiento en áreas protegidas.

Personas propensas a generar enfermedades respiratorias

Datos clave.

  • La contaminación del aire es el principal riesgo ambiental para la salud pública en las Américas.
  • En todo el mundo, cerca de 7 millones de muertes prematuras fueron atribuibles a la contaminación del aire ambiental en 2016. Alrededor del 88% de estas muertes ocurren en países de ingresos bajos y medios.
  • Más de 150 millones de personas en América Latina viven en ciudades que exceden las Guías de Calidad del Aire de la OMS.
  • La exposición a altos niveles de contaminación del aire puede causar una variedad de resultados adversos para la salud: aumenta el riesgo de infecciones respiratorias, enfermedades cardiacas, derrames cerebrales y cáncer de pulmón, las cuales afectan en mayor proporción a población vulnerable, niños, adultos mayores y mujeres.
  • La contaminación del aire en el hogar se asocia al uso de combustibles y prácticas de cocina ineficiente

¿Cómo afecta la calidad del aire a los sonorenses?

Casos de enfermedades que afectaron a la población Sonora durante el año 2015

Gráfico 4.2. Principales causas de morbilidad registradas en el año 2015.

  • Según el Sistema Único de Información de Vigilancia Epidemiológica (SUIVE), durante el año 2015 se registraron un total de 1’251,463 diagnósticos de casos nuevos de enfermedad en la población sonorense. La principal causa de morbilidad en el estado al cierre del 2015 fueron las infecciones respiratorias agudas con 684,938 casos nuevos registrados ese año, lo cual representó el 55% del total de casos registrados por todo el Sector Salud, con una tasa de 240 casos por cada 1,000 habitantes del estado durante ese año.

Palabras clave.

  • El ozono (\(O_3\)) es formado en la atmósfera por medio de reacciones fotoquímicas, en presencia de luz solar y a partir de la reacción entre contaminantes precursores como los óxidos de nitrógeno \((NOx)\) y compuestos orgánicos volátiles. El ozono hace un aporte significativo al balance radiativo de la tropósfera superior y la estratósfera inferior, de modo que los cambios en la distribución de O3 en estas capas atmosféricas afectan el forzamiento radiativo del clima. (Green, 2013)

  • El dióxido de azufre \((SO_2)\), como el NO2 , es un gas que puede exacerbar los síntomas de aquellos individuos que sufren enfermedades respiratorias o cardiacas. Es primordialmente formado en la combustión de combustibles fósiles en las plantas generadoras de energía y en otras instalaciones industriales, así como en fuentes móviles en un menor grado; y por consiguiente es un problema en algunas áreas urbanas e industriales. (Green, 2013)

  • Las PM10 \((PM10 – 2.5)\), también llamadas partículas inhalables, se consideran como contaminantes constituidos por material líquido y sólido de muy diversa composición y tamaño, que se encuentran en el aire, estas pueden ser generadas tanto por fuentes móviles como estacionarias, de manera natural o antropogénica. Se asocian generalmente a la combustión no controlada, algunas están relacionadas con la desintegración mecánica de la materia o la re-suspensión de partículas en el ambiente. Se ha establecido que las partículas se encuentran constituidas por 7 componentes químicos o especies: material geológico, sulfatos de amonio, nitratos de amonio, material orgánico, carbón elemental, sales y elementos trazas. (Rodríguez, 2014)

V. METODOLOGÍA

Para este análisis se utilizarán las siguientes herramientas y metodologías:

Regresión Lineal Múltiple

La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable dependiente o respuesta (Y) se determina a partir de un conjunto de variables independientes llamadas predictores \((X_1, X_2, X_3…)\). Los modelos de regresión múltiple pueden emplearse para predecir el valor de la variable dependiente o para evaluar la influencia que tienen los predictores sobre ella (esto último se debe que analizar con cautela para no malinterpretar causa-efecto). (Rodrigo, 2016)

Los modelos lineales múltiples siguen la siguiente ecuación:

\[ Y_{i}=(\beta_{0}+\beta_{1}X_{1i}+\beta_{2}X_{2i}+\cdots+\beta_{n}X_{ni})+e_{i} \]

Data Science

Data Science o ciencia de datos es una disciplina científica centrada en el análisis de grandes fuentes de datos para extraer información, comprender la realidad y descubrir patrones con los que tomar decisiones. (Universidad Complutense Madrid, 2020)

Estadística Descriptiva

La estadística descriptiva es la parte de la estadística que sintetiza y resume la información contenida en un conjunto de datos, por tanto, un análisis descriptivo consiste en clasificar, representar y resumir los datos. La descripción se puede hacer utilizando dos tipos de procedimientos: mediante el cálculo de índices estadísticos que son números que resumen de modo sencillo la información contenida en los datos reales, o bien utilizando representaciones gráficas que son muy útiles, ya que pueden aportar mucha información en un solo golpe de vista.

Análisis de Inflación de Varianza (VIF)

El factor de inflación de varianza (VIF) es una medida de la cantidad de multicolinealidad en un conjunto de variables de regresión múltiple. matemáticamente, el vif para una variable de modelo de regresión es igual a la razón de la varianza general del modelo a la varianza de un modelo que incluye solo esa variable independiente única. Esta relación se calcula para cada variable independiente. un vif alto indica que la variable independiente asociada es altamente colineal con las otras variables en el modelo(Exonegocios, 2020).

VI. RESULTADOS Y DISCUSIÓN

En el siguiente apartado se realizarán los análisis para obtención de resultados y se discutirán sus interpretaciones.

Librerias

library(pacman)
p_load(rmdformats,readr,readxl,ggplot2,plotly,DT,xfun,gridExtra,leaflet)

Tabla de datos de concentraciones que afectan la calidad del aire y movilidad local

library(TSstudio)
library(DT)
library(readxl)
CM <- read_excel("Concentracion_Mov_1.xlsx")
datatable(CM)

Tabla 6.1: Relección de datos obtenidos de la Red Universitaria de Observatorios Atmosféricos (RUOA) sobre la calidad de aire y movilidad local en Hermosillo, Sonora.

Reporte de movilidad en Hermosillo, Sonora.

movilidad <- ggplot(CM)+
  geom_line(aes(x=Fecha,y=Reactivacion_Comercial,colour="Recreación y comercio"))+
    geom_line(aes(x=Fecha,y=Supermercado_Farmacia,colour="Supermercados y farmacias"))+
    geom_line(aes(x=Fecha,y=Parques_Centros,colour="Parques"))+
    geom_line(aes(x=Fecha,y=Estaciones_Transito,colour="Estaciones de tránsito"))+
    geom_line(aes(x=Fecha,y=Lugares_Trabajo,colour="Lugares de trabajo"))+
    geom_line(aes(x=Fecha,y=Residencia,colour="Lugares residenciales"))+
    labs(title="Reporte de movilidad",x="Fecha",y="Procentaje de cambio de movilidad")

ggplotly(movilidad)

Gráfico 6.1: Reporte de Movilidad

  • En el gráfico 6.1, se representan los valores obtenidos a partir del reporte de movilidad en Hermosillo, Sonora. A partir de un análisis, sé comprobó que debido a la pandemia la movilidad pública, como lo son disminuyó notoriamente desde principios de marzo hasta mediados de abril de 2020, por consiguiente los días festivos tuvieron gran influencia tanto positiva como negativa; donde, las personas decidieron no respetar las medidas sanitarias otorgada por el Estado asistiendo a espacios de primera necesidad a la vez aumentando las estaciones de tránsito, por otro lado, los lugares de trabajo y recreación de comercio mostraron un índice menor, ya que los días festivos no se labora; Siendo así un aumento en lugares de residencia por parte de las personas a principios de cuarentena, obteniendo menor impacto en la movilidad, se concluyó que gracias a la pandemia difirió los cambios de movilidad para Hermosillo, Sonora a principios del año 2020 a fechas actuales.

Contaminantes atmosféricos

plot_ly(CM,colors = rainbow(3)) %>%
  add_lines(x = ~Fecha, y = ~O3,mode="lines",name = "O3") %>%
add_lines(x = ~Fecha, y = ~SO2,mode="lines", name = "SO2") %>%
add_lines(x = ~Fecha, y = ~PM10,mode="lines", name ="PM10")  %>%
rangeslider() %>% 
  layout(title = 'Contaminantes atmosféricos (concentraciones)',
         xaxis = list(title = 'Fecha'),
         yaxis = list(title = 'Concentración (ppb para O3 y SO2, ug/m3 para PM10)'))

Gráfico 6.2. Contaminantes Atmosfericos

En el gráfico 6.2 se muestra cómo ha variado la concentración de SO2, O3 y PM10, respectivamente. Es posible apreciar cómo las concentraciones de material particulado rebasan en todo momento al resto de los contaminantes atmosféricos.

Esto se debe a múltiples factores:

  • Las PM10 pueden ser generadas tanto por fuentes móviles como estacionarias, de manera natural o antropogénica (Villalobos et al., 2008).

  • Se asocian generalmente a la combustión no controlada, algunas están relacionadas con la desintegración mecánica de la materia o la re-suspensión de partículas en el ambiente (Echeverri y Maya, 2008).

  • Esto incluye procesos de combustión en vehículos, principalmente aquellos que usan diesel, industrias de fundición, pinturas, cerámica y plantas de energía (Tzintzun et al., 2005).

  • El aumento significativo de concentración de partículas contaminantes se produce cuando las intrusiones de polvo se producen en invierno, de diciembre a marzo, cuando son más intensos.

Esto se debe a múltiples factores:

  • Las PM10 pueden ser generadas tanto por fuentes móviles como estacionarias, de manera natural o antropogénica (Villalobos et al., 2008).
  • Se asocian generalmente a la combustión no controlada, algunas están relacionadas con la desintegración mecánica de la materia o la re-suspensión de partículas en el ambiente (Echeverri y Maya, 2008).
  • Esto incluye procesos de combustión en vehículos, principalmente aquellos que usan diesel, industrias de fundición, pinturas, cerámica y plantas de energía (Tzintzun et al., 2005).
  • El aumento significativo de concentración de partículas contaminantes se produce cuando las intrusiones de polvo se producen en invierno, de diciembre a marzo, cuando son más intensos.

En el gráfico 5.2 se muestra cómo ha variado la concentración de SO2, O3 y PM10, respectivamente. Es posible apreciar cómo las concentraciones de material particulado rebasan en todo momento al resto de los contaminantes atmosféricos.

Esto se debe a múltiples factores:

  • Las PM10 pueden ser generadas tanto por fuentes móviles como estacionarias, de manera natural o antropogénica (Villalobos et al., 2008).
  • Se asocian generalmente a la combustión no controlada, algunas están relacionadas con la desintegración mecánica de la materia o la re-suspensión de partículas en el ambiente (Echeverri y Maya, 2008).
  • Esto incluye procesos de combustión en vehículos, principalmente aquellos que usan diesel, industrias de fundición, pinturas, cerámica y plantas de energía (Tzintzun et al., 2005).
  • El aumento significativo de concentración de partículas contaminantes se produce cuando las intrusiones de polvo se producen en invierno, de diciembre a marzo, cuando son más intensos.

Regresión Multiple Lineal

library(readxl)
library(DT)
aire <- read_excel("Concentracion_Mov.xlsx")
datatable(aire)

Tabla 6.2: Datos de la Calidad de aire sin fechas

Análisis de relación entre variables

library(dplyr)
datos <- as.data.frame(aire)
round(cor(x = datos, method = "pearson"), 3)
##                            O3    SO2   PM10 Reactivacion_Comercial
## O3                      1.000 -0.220 -0.229                 -0.193
## SO2                    -0.220  1.000  0.612                  0.404
## PM10                   -0.229  0.612  1.000                  0.281
## Reactivacion_Comercial -0.193  0.404  0.281                  1.000
## Supermercado_Farmacia  -0.047  0.443  0.280                  0.875
## Parques_Centros        -0.182  0.019  0.065                  0.814
## Estaciones_Transito    -0.174  0.399  0.270                  0.944
## Lugares_Trabajo        -0.119  0.138  0.100                  0.581
## Residencia              0.130 -0.371 -0.238                 -0.842
##                        Supermercado_Farmacia Parques_Centros
## O3                                    -0.047          -0.182
## SO2                                    0.443           0.019
## PM10                                   0.280           0.065
## Reactivacion_Comercial                 0.875           0.814
## Supermercado_Farmacia                  1.000           0.655
## Parques_Centros                        0.655           1.000
## Estaciones_Transito                    0.872           0.770
## Lugares_Trabajo                        0.492           0.371
## Residencia                            -0.729          -0.617
##                        Estaciones_Transito Lugares_Trabajo Residencia
## O3                                  -0.174          -0.119      0.130
## SO2                                  0.399           0.138     -0.371
## PM10                                 0.270           0.100     -0.238
## Reactivacion_Comercial               0.944           0.581     -0.842
## Supermercado_Farmacia                0.872           0.492     -0.729
## Parques_Centros                      0.770           0.371     -0.617
## Estaciones_Transito                  1.000           0.474     -0.758
## Lugares_Trabajo                      0.474           1.000     -0.853
## Residencia                          -0.758          -0.853      1.000

Histogramas de variables

library(psych)
multi.hist(x = aire, dcol = c("blue", "red"), dlty = c("dotted", "solid"),
           main = "")

Grafico 6.3: Histogramas de Variables para la Calidad de Aire

En estos histogramas se visualiza un comportamiento simétrico para la mayoría de los casos. La línea azul representa el comportamiento real, mientras que la línea roja sugiere un ajuste para una perfecta simetría.

Gráficos de disperción de variables

library(GGally)
ggpairs(aire, lower = list(continuous = "smooth"),
        diag = list(continuous = "barDiag"), axisLabels = "none")

Gráfico 6.4: Graficos de dispersión de las variables

  • A diferencia del modelo anterior, estos gráficos nos permiten analizar la relación 1-1 de las variables, y además nos arrojan el coeficiente de correlación. Del análisis preliminar se pueden extraer las siguientes conclusiones:

  • Las variables que tienen una mayor relación lineal con el SO2 da son: Supermercados y Farmacias (r= 0.433), Reactivación y Comercio (r= 0.404) y Residencia (r= -0.371).

  • PM10 tiene diferentes variables que se encuentran medianamente relacionados, por lo que posiblemente no sea útil introducir ambos predictores en el modelo.

Generación el modelo

modelo <- lm(SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + Parques_Centros + Estaciones_Transito + Lugares_Trabajo + Residencia, data = datos )
summary(modelo)
## 
## Call:
## lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
##     Parques_Centros + Estaciones_Transito + Lugares_Trabajo + 
##     Residencia, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.51190 -0.09921 -0.00269  0.09870  0.52906 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            -0.0187954  0.0380324  -0.494 0.621416    
## O3                     -0.0057616  0.0009832  -5.860 9.10e-09 ***
## PM10                    0.0056324  0.0005408  10.415  < 2e-16 ***
## Reactivacion_Comercial  0.0096304  0.0020097   4.792 2.27e-06 ***
## Supermercado_Farmacia   0.0060624  0.0015668   3.869 0.000126 ***
## Parques_Centros        -0.0169489  0.0010860 -15.607  < 2e-16 ***
## Estaciones_Transito    -0.0018481  0.0013556  -1.363 0.173465    
## Lugares_Trabajo        -0.0106817  0.0009837 -10.858  < 2e-16 ***
## Residencia             -0.0352798  0.0041747  -8.451 4.32e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1582 on 438 degrees of freedom
## Multiple R-squared:  0.6938, Adjusted R-squared:  0.6882 
## F-statistic: 124.1 on 8 and 438 DF,  p-value: < 2.2e-16

El modelo con todas las variables introducidas como predictores tiene un R2 ajustada (0.6882), es capaz de explicar el 68.82% de la variabilidad observada en el Dióxido de Azufre (SO_2).

Selección de los mejores predictores

En este caso se van a emplear la estrategia de stepwise mixto. El valor matemático empleado para determinar la calidad del modelo va a ser Akaike(AIC).

step(object = modelo, direction = "both", trace = 1)
## Start:  AIC=-1639.29
## SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
##     Parques_Centros + Estaciones_Transito + Lugares_Trabajo + 
##     Residencia
## 
##                          Df Sum of Sq    RSS     AIC
## - Estaciones_Transito     1    0.0465 11.014 -1639.4
## <none>                                10.968 -1639.3
## - Supermercado_Farmacia   1    0.3749 11.343 -1626.3
## - Reactivacion_Comercial  1    0.5750 11.543 -1618.5
## - O3                      1    0.8600 11.828 -1607.5
## - Residencia              1    1.7883 12.756 -1573.8
## - PM10                    1    2.7161 13.684 -1542.4
## - Lugares_Trabajo         1    2.9523 13.920 -1534.7
## - Parques_Centros         1    6.0997 17.067 -1443.6
## 
## Step:  AIC=-1639.4
## SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
##     Parques_Centros + Lugares_Trabajo + Residencia
## 
##                          Df Sum of Sq    RSS     AIC
## <none>                                11.014 -1639.4
## + Estaciones_Transito     1    0.0465 10.968 -1639.3
## - Supermercado_Farmacia   1    0.3298 11.344 -1628.2
## - Reactivacion_Comercial  1    0.6091 11.623 -1617.3
## - O3                      1    0.8366 11.851 -1608.7
## - Residencia              1    1.7647 12.779 -1575.0
## - PM10                    1    2.7569 13.771 -1541.5
## - Lugares_Trabajo         1    2.9217 13.936 -1536.2
## - Parques_Centros         1    6.0965 17.111 -1444.5
## 
## Call:
## lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
##     Parques_Centros + Lugares_Trabajo + Residencia, data = datos)
## 
## Coefficients:
##            (Intercept)                      O3                    PM10  
##              -0.020842               -0.005669                0.005668  
## Reactivacion_Comercial   Supermercado_Farmacia         Parques_Centros  
##               0.008020                0.005439               -0.016944  
##        Lugares_Trabajo              Residencia  
##              -0.010417               -0.035005

La fórmula principal de nuestro análisis fue:

Por lo que está estrategia seleccionó a las variables más adecuadas para ser los predictores, quedando de la siguiente forma:

El mejor modelo resultante del proceso de selección ha sido:

modelo <- (lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + Parques_Centros + Lugares_Trabajo + Residencia, data = datos))
summary(modelo)
## 
## Call:
## lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + 
##     Parques_Centros + Lugares_Trabajo + Residencia, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.5458 -0.1006 -0.0022  0.0964  0.5374 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            -0.0208416  0.0380399  -0.548 0.584047    
## O3                     -0.0056694  0.0009818  -5.775 1.46e-08 ***
## PM10                    0.0056679  0.0005407  10.482  < 2e-16 ***
## Reactivacion_Comercial  0.0080203  0.0016277   4.927 1.18e-06 ***
## Supermercado_Farmacia   0.0054386  0.0015000   3.626 0.000322 ***
## Parques_Centros        -0.0169444  0.0010870 -15.588  < 2e-16 ***
## Lugares_Trabajo        -0.0104169  0.0009653 -10.791  < 2e-16 ***
## Residencia             -0.0350045  0.0041739  -8.387 6.89e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1584 on 439 degrees of freedom
## Multiple R-squared:  0.6925, Adjusted R-squared:  0.6876 
## F-statistic: 141.2 on 7 and 439 DF,  p-value: < 2.2e-16
  • Es recomendable mostrar el intervalo de confianza para cada uno de los coeficientes parciales de regresión:
confint(lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + Parques_Centros + Lugares_Trabajo + Residencia, data = datos))
##                               2.5 %       97.5 %
## (Intercept)            -0.095604583  0.053921343
## O3                     -0.007599002 -0.003739801
## PM10                    0.004605203  0.006730588
## Reactivacion_Comercial  0.004821182  0.011219376
## Supermercado_Farmacia   0.002490524  0.008386774
## Parques_Centros        -0.019080816 -0.014808020
## Lugares_Trabajo        -0.012314119 -0.008519681
## Residencia             -0.043207808 -0.026801239

Validación de condiciones para la regresión múltiple lineal

library(gridExtra)
plot1 <- ggplot(data = datos, aes(O3, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot2 <- ggplot(data = datos, aes(PM10, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot3 <- ggplot(data = datos, aes(Reactivacion_Comercial, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot4 <- ggplot(data = datos, aes(Supermercado_Farmacia, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot5 <- ggplot(data = datos, aes(Parques_Centros, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot6 <- ggplot(data = datos, aes(Lugares_Trabajo, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot7 <- ggplot(data = datos, aes(Residencia, modelo$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
grid.arrange(plot1, plot2, plot3, plot4, plot5, plot6, plot7)

Gráfico 6.5: Gráficos de dispersión para la validación de condiciones para la regresión múltiple lineal

Se puede concluir que si se cumple la linealidad para todos los predictores mostrando una buena relación con las concentraciones respecto al movilidad, comprobando su alta correlacción.

Distribución normal de los residuos:

qqnorm(modelo$residuals)
qqline(modelo$residuals)

Gráfico 6.6: Distribución Normal de los Residuos

shapiro.test(modelo$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.99227, p-value = 0.02042
  • Se observa en el gráfico 6.6 algún patrón específico y tanto el análisis gráfico como el test de hipótesis confirman la normalidad. Al tener mayor dispersión en los extremos, significa que la variabilidad es dependiente del valor ajustado y por lo tanto no hay homocedasticidad.

Matriz de correlación entre predictores.

library(corrplot)
## corrplot 0.84 loaded
corrplot(cor(dplyr::select(datos, O3, PM10, Reactivacion_Comercial, Supermercado_Farmacia, Parques_Centros, Lugares_Trabajo, Residencia)),
         method = "number", tl.col = "black")

Figura 6.1: Matriz de Correlación

Análisis de Inflación de Varianza (VIF):

library(car)
vif(modelo)
##                     O3                   PM10 Reactivacion_Comercial 
##               1.198005               1.304100              13.623986 
##  Supermercado_Farmacia        Parques_Centros        Lugares_Trabajo 
##               4.815401               3.618397               5.084395 
##             Residencia 
##              11.372743
  • Para la Inflación de varianza si hay predictores que muestran una correlación lineal alta e inflación de varianza. Por otro lado, la gran mayoría de los predictores indican lo contrario.

Autocorrelación:

library(car)
dwt(modelo, alternative = "two.sided")
##  lag Autocorrelation D-W Statistic p-value
##    1       0.7177002     0.5524315       0
##  Alternative hypothesis: rho != 0
  • No hay evidencia de autocorrelación, debido a que la p-value da menor a 0.05 indicando que nuestra hipótesis nula se rechaza.

Identificación de posibles valores atípicos o influyentes

library(dplyr)
datos$studentized_residual <- rstudent(modelo)
ggplot(data = datos, aes(x = predict(modelo), y = abs(studentized_residual))) +
geom_hline(yintercept = 3, color = "grey", linetype = "dashed") +
# se identifican en rojo observaciones con residuos estandarizados absolutos > 3
geom_point(aes(color = ifelse(abs(studentized_residual) > 3, 'red', 'black'))) +
scale_color_identity() +
labs(title = "Distribución de los residuos studentized",
     x = "predicción modelo") + 
theme_bw() + theme(plot.title = element_text(hjust = 0.5))

Gráfico 6.7: Distribución de los Residuos

which(abs(datos$studentized_residual) > 3)
## [1]  27 159 295 296
  • Para el gráfico 6.7 se observa que si se identificaron comportamientos atípicos, sin embargo, los valores atípicos son pocos, a comparación de los influyentes, ya que en su mayoría estos se encuentran en un rango > 3.
summary(influence.measures(modelo))
## Potentially influential observations of
##   lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia +      Parques_Centros + Lugares_Trabajo + Residencia, data = datos) :
## 
##     dfb.1_ dfb.O3 dfb.PM10 dfb.Rc_C dfb.Sp_F dfb.Pr_C dfb.Lg_T dfb.Rsdn dffit  
## 5   -0.02  -0.02  -0.10     0.00     0.06    -0.09    -0.04    -0.01    -0.16  
## 6    0.01   0.01   0.01     0.00    -0.01     0.02     0.00     0.00     0.02  
## 11   0.02   0.02   0.01     0.00    -0.03     0.04     0.01     0.00     0.06  
## 12   0.10   0.27  -0.03     0.05    -0.18     0.20     0.06    -0.01     0.46_*
## 26  -0.39   0.13   0.22    -0.08     0.11    -0.04     0.00     0.04    -0.42_*
## 27  -0.59   0.25   0.55    -0.28     0.17     0.29     0.07     0.07    -0.70_*
## 31  -0.21   0.12   0.17     0.28    -0.36    -0.28     0.31     0.18    -0.64_*
## 32  -0.15   0.08   0.10     0.07    -0.19    -0.07    -0.01    -0.02    -0.31  
## 74   0.04  -0.02  -0.06     0.16     0.09    -0.05     0.31     0.33    -0.41_*
## 137  0.02   0.09  -0.10     0.07    -0.08    -0.08    -0.04    -0.07    -0.23  
## 158  0.12  -0.10  -0.09    -0.01     0.00     0.03    -0.03     0.01     0.20  
## 159  0.16  -0.10  -0.18     0.01     0.02     0.02     0.00     0.06     0.31  
## 217  0.00   0.08   0.05     0.02    -0.02     0.14     0.12     0.14     0.25  
## 228  0.05   0.16  -0.31     0.04     0.05    -0.10    -0.02    -0.02    -0.42_*
## 294 -0.08   0.16  -0.05     0.31    -0.07    -0.24     0.19     0.28     0.42_*
## 295  0.05   0.05  -0.14     0.20     0.02    -0.25     0.19     0.17     0.41_*
## 296 -0.05   0.07   0.04     0.23    -0.03    -0.26     0.33     0.25     0.52_*
## 313  0.01   0.10   0.00     0.02    -0.26     0.06     0.01    -0.08    -0.36  
## 314 -0.09  -0.08   0.10    -0.18     0.28     0.05    -0.07    -0.05     0.33  
## 315 -0.08  -0.21   0.37    -0.65    -0.02     0.36    -0.71    -0.81     1.08_*
## 321 -0.01   0.08   0.06     0.11    -0.21     0.00     0.06     0.04    -0.22  
## 322  0.08  -0.06  -0.06    -0.39    -0.08     0.17    -0.61    -0.64     0.76_*
## 332  0.05  -0.07  -0.04     0.12    -0.06    -0.13     0.02     0.06     0.20  
## 341 -0.11   0.08   0.15    -0.16     0.12     0.20     0.06     0.01    -0.26  
## 371 -0.01   0.04  -0.02     0.07    -0.04    -0.13    -0.07    -0.05     0.20  
## 379  0.01   0.01  -0.02     0.01    -0.01     0.00     0.00     0.01    -0.03  
## 397  0.39  -0.25  -0.50     0.08     0.08    -0.23    -0.18    -0.11     0.54_*
## 412 -0.01   0.01   0.01    -0.08     0.09     0.05    -0.09    -0.07     0.14  
## 413 -0.01   0.01   0.03    -0.37     0.26     0.29    -0.31    -0.28     0.52_*
## 414  0.00   0.00   0.00     0.01     0.00    -0.01     0.01     0.01    -0.02  
## 415 -0.02   0.04   0.02    -0.06     0.00     0.02    -0.06    -0.09     0.11  
## 441 -0.03   0.08  -0.01     0.01     0.05     0.00     0.01     0.02     0.14  
## 442  0.02  -0.03   0.00     0.03    -0.04     0.00     0.03     0.03    -0.08  
##     cov.r   cook.d hat    
## 5    1.06_*  0.00   0.04  
## 6    1.06_*  0.00   0.04  
## 11   1.07_*  0.00   0.05  
## 12   0.98    0.03   0.04  
## 26   0.94_*  0.02   0.03  
## 27   0.84_*  0.06   0.04  
## 31   0.96    0.05   0.06_*
## 32   0.90_*  0.01   0.01  
## 74   0.99    0.02   0.04  
## 137  0.94_*  0.01   0.01  
## 158  0.94_*  0.01   0.01  
## 159  0.85_*  0.01   0.01  
## 217  0.94_*  0.01   0.01  
## 228  0.99    0.02   0.04  
## 294  0.90_*  0.02   0.02  
## 295  0.88_*  0.02   0.02  
## 296  0.84_*  0.03   0.02  
## 313  1.05    0.02   0.07_*
## 314  1.14_*  0.01   0.12_*
## 315  1.02    0.14   0.13_*
## 321  1.14_*  0.01   0.11_*
## 322  1.01    0.07   0.09_*
## 332  0.93_*  0.00   0.01  
## 341  1.06_*  0.01   0.06_*
## 371  0.90_*  0.00   0.01  
## 379  1.06_*  0.00   0.04  
## 397  1.02    0.04   0.07_*
## 412  1.08_*  0.00   0.06_*
## 413  1.03    0.03   0.07_*
## 414  1.11_*  0.00   0.08_*
## 415  1.07_*  0.00   0.05  
## 441  1.07_*  0.00   0.05  
## 442  1.06_*  0.00   0.04

En la tabla generada se recogen las observaciones que son significativamente influyentes en al menos uno de los predictores (una columna para cada predictor). Las tres últimas columnas son 3 medidas distintas para cuantificar la influencia. A modo de guía se pueden considerar excesivamente influyentes aquellas observaciones para las que:

  • Leverages (hat): Se consideran observaciones influyentes aquellas cuyos valores hat superen 2.5((p+1)/n), siendo p el número de predictores y n el número de observaciones. Distancia Cook (cook.d): Se consideran influyentes valores superiores a 1.

Concluyendo los valores para Hat indican que son influyentes en su mayoría ya que estos superan su mismo valor. Por otra parte, en la distanica de Cook ninguno se considera influyente por el hecho de que ningún valor es superior a 0.

La visualización gráfica de las influencias se obtiene del siguiente modo:

influencePlot(modelo)

##        StudRes        Hat      CookD
## 27  -3.5582426 0.03713416 0.05945706
## 296  3.4731299 0.02155656 0.03240317
## 314  0.9075958 0.11755720 0.01372246
## 315  2.7710833 0.13124774 0.14283922
## 322  2.3883787 0.09266949 0.07205406

Los análisis muestran varias observaciones influyentes (posición 322,315 y 314) que exceden los límites de preocupación para los valores de leverages o distancia Cook. Estudios más exhaustivos consistirían en rehacer el modelo sin las observaciones y ver el impacto.


Modelo Lineal Múltiple

El módelo lineal múltiple es capaz de explicar el 69.38% de la variabilidad observada en en Dióxido de Azufre (R2: 0.6938, R2-Adjusted: 0.6882). El test F muestra que es significativo (p-value: 2.2e-16). Se satisfacen todas las condiciones para este tipo de regresión múltiple. Dos observaciones (posición 314, 315 y 322) podrían estar influyendo de forma notable en el modelo.

Recomendaciones

En el Objetivo 11 de Desarrollo la política nacional se centra en la disminución de la concentración de contaminantes atmosféricos.

Imagen 6.1. Objetivos de de Desarrollo Sostenible

VII.CONCLUSIÓN

Conclusión General

  • Las concentraciones de contaminantes atmosféricos disminuyeron en gran medida en la ciudad de Hermosillo durante el periodo de aislamiento por COVID-19 de acuerdo a los datos obtenidos del gráfico 6.1. Reporte de Movilidad. Sin embargo, consideramos que es necesario adaptar más estaciones de monitoreo dispersos en la ciudad para tener datos más específicos que nos ayuden a identificar las zonas más afectadas y mantener un control bajo para los niveles de contaminantes en el aire.

  • Estudiar y mejorar la calidad del aire es un tema de suma importancia para los sonorenses; la principal causa de morbilidad en el 2015 se atribuye a infecciones agudas respiratorias. Con esto nos damos una idea de la amenaza que representa una calidad del aire irregular para la ciudadanía.

Conclusión personal

  • Se cumplieron los objetivos iniciales donde se demostró que partir del aislamiento a principios del año 2020 debido a COVID - 19 se disminuyó la cantidad de contaminantes en el aire en Hermosillo, Sonora, donde generalmente tiene mayor concentración de contaminantes dañinos en el aire por su ubicación y la vegetación que existe en el lugar, esto con el fin de demostrar que no es necesario llevar años para mejorar la calidad del aire en un lugar donde se transita mucha población, sin embargo, como se indicó en el análisis está fuertemente relacionada con la movilidad que existe en la ciudad.

  • Para continuar con el análisis de la calidad de aire se recomienda continuar con el monitorio de la calidad de aire en la ciudad, en Hermosillo este tipo de información es otorgada por una red universitaria de observatorios atmosféricos (UNAM), a fin de contar con información más exhaustiva que permita relacionar la calidad del aire con los riesgos a la salud y la movilidad en la misma ciudad que pueda ser distribuida en la población y se pueda tomar acciones para esta problemática.

  • Además, se recalcó la importancia de la utilización de estadística aplicada y diferentes herramientas de data science en este análisis siendo de ayuda en cuantificar la información con mayor precisión obteniendo resultados más fiables, como lo fue utilizar histogramas para conocer su comportamiento con otras variables, así mismo. se obtuvo la R(0.6938) que fue capaz de explicar el 69.38% de la variabilidad observada en el Dióxido de Azufre, esto nos ayudó a comprobar nuestro objetivo, en cual las concentraciones de contaminantes tienen un relación muy estrecha con la movilidad que existe en la ciudad de Hermosillo, sin embargo la p-value (2.2e-16) no entro en el rango de confiabilidad ya que tiene que ser mayor de 0.05.

Los datos para este análisis fueron obtenidos de:

RUOA

VIII.BIBLIOGRAFÍA

  • Air pollution in cities: Urban Health Initiative. Recuperado el 16 de Mayo de 2021, de World Health Organization

  • Objetivos del Desarrollo Sostenible. (2015). Recuperado el 22 de Mayo de 2021, de ODS

  • Evaluación de la calidad del aire respecto de partículas suspendidas totales (PST) y metales pesados (Pb, Cd, Ni, Cu, Cr) en la ciudad de Hermosillo, Sonora, México, durante un periodo anual. (2013).). Recuperado el 20 de Mayo de 2021, de Revista internacional de contaminación ambiental

  • Secretaría de Medio Ambiente y Recursos Naturales. (2017). Estrategia Nacional Calidad del Aire. Recuperado de: Revista internacional de contaminación ambiental

  • Data Science. (2021). Recuperado el 23 de mayo de Link

  • Seoane, T., Martín, J. L. R., Martín-Sánchez, E., Lurueña-Segovia, S., & Moreno, F. A. (2007). Capítulo 7: estadística: estadística descriptiva y estadística inferencial. SEMERGEN-Medicina de familia, 33(9), 466-471. Recuperado el 23 de mayo del 2021, Sitio Web: Academia

  • C. (2020, 26 marzo). Factor de inflación de varianza. Recuperado 23 de mayo de 2021, de Exonegocios

  • Programa para Mejorar la Calidad del Aire. (S. F). Antecedentes. Recuperado de: Proaire

  • Rodrígo, J. (2016). Introducción a la Regresión Lineal Múltiple. Obtenido de Ciencia de datos:Link

  • Índice de calidad del aire (ICA) de Hermosillo y contaminación del aire de México | AirVisual. Recuperado el 17 de mayo de 2021, de https://www.iqair.com/mx/mexico/sonora/hermosillo:IQAir

  • SENSORES DE BAJO COSTO PARA EL MONITOREO DE LA CALIDAD DEL AIRE EN HERMOSILLO SONORA. (2018). Recuperado el 15 de mayo de 2021, de :Link

IX_DESCARGA DE DATOS_

  • Para la descarga de este código

Para fines de reproducibilidad inmediata se incluye todo el código para su descarga

xfun::embed_file("Proyecto_Final-EM2021.Rmd")

Download Proyecto_Final-EM2021.Rmd

  • Para la descarga de datos utilizados en este codigo

Para fines de reproducibilidad inmediata se incluye todos los datos para su descarga

xfun::embed_file("Concentracion_Mov.xlsx")

Download Concentracion_Mov.xlsx