La gestión de la contaminación del aire se ha vuelto importante en el último periodo debido a las siguientes afirmaciones: “A causa del desarrollo industrial y avance tecnológico se estima aproximadamente 1200 millones de personas están expuestas a niveles de dióxido de azufre (SO2), muy por encima de por directrices de la Organización Mundial de la Salud (OMS) y aproximadamente 1400 millones de personas están expuestas a niveles excesivos de humo y material articulado (PM)” (Rico, 2018).
La importancia de respirar aire limpio sin contaminantes es crucial para todo ser viviente. Por lo cual es importante que este sea aire limpio, pero ¿Cómo detectar si el aire que respiramos no tiene contaminantes? ¿Cómo nos afecta a nosotros?. La calidad del aire está directamente relacionada con la movilidad de carros, autobuses y hasta la propia movilidad de la ciudad, donde las personas realizan sus actividades diarias, por lo tanto, entre más movilidad haya en la ciudad, aumentan los contaminantes en el aire.
Los principales contaminantes en el aire han sido creados principalmente por la actividad económica humana, la concentración de estas sustancias es altamente nociva para la salud del ser humano. Este estudio tuvo en cuenta los siguientes contaminantes:
> Figura 1.1. Calidad del aire y movilidad.
En la ciudad de Hermosillo, Sonora, México, la población ha manifestado desde hace años su inquietud respecto de la calidad del aire que se respira, principalmente por la visible capa de polvo que cubre gran parte de la ciudad durante la mañanas y muy marcadamente durante los períodos de otoño e invierno. Existen antecedentes para esta ciudad de medición de PST de 1990 a 1995 (SEMARNAP 1996), reportándose que todos esos años se rebasó el máximo permisible anual de 75 μg/m3 con promedios anuales que fluctuaban de 126 hasta 565 μg/m3. En cuanto a metales en aire para esta ciudad, se identificó un estudio en el que se evaluó Pb (SEDESOL 1993) cuyas concentraciones promedio se encontraban entre 0.28 y 0.37 μg/m3.
El municipio de Hermosillo inicia de manera formal el Programa de Monitoreo de la Calidad del Aire en el año 2004, los aparatos de muestreo son donados al municipio por SEMARNAT y son reinstalados en sitios céntricos pese al crecimiento urbano que ha rebasado en kilómetros las zonas marginales de diez años atrás (Barajas Olvera, 2007).
En Hermosillo sonora, la contaminación del aire es elevada y la población desconoce acerca de este hecho. Existen antecedentes para esta ciudad de medición de PST (Partículas suspendidas totales similares a las PM10) de 1990 a 1995, reportándose que todos esos años se rebasó el máximo permisible anual de 75 μg/m^3 con promedios anuales que fluctuaban de 126 hasta 565 μg/m^3.
Determinar cómo varían las concentraciones de contaminantes en el aire y su relación con la movilidad durante el periodo Febrero 2020 - Mayo 2021 en la ciudad de Hermosillo, Sonora.
Comprobar el deterioro de la calidad del aire a partir de la reactivación económica en tiempos de COVID-19.
¿Qué es la calidad del aire?
Con el nombre de atmósfera conocemos a la envoltura gaseosa que rodea a la Tierra, constando de unos 200 Km de espesor. La atmósfera es un medio continuo a través del cual son transportados y dispersados los contaminantes. Este transporte se realiza gracias al movimiento del aire que se produce a escala planetaria, regional y local.
Una vez en la atmósfera, la persistencia de los contaminantes dependerá de diversos factores, ya sean de carácter meteorológico, como el lavado por la lluvia y la deposición por acción de la gravedad o el impacto contra superficies, o su transformación por diversas reacciones químicas en otras sustancias que puedan ser contaminantes (contaminantes secundarios).
Técnicamente se puede definir la calidad del aire, inmisión o valor límite como la concentración de contaminante que llega a un receptor, más o menos alejado de la fuente de emisión.
Causas.
El uso de combustibles fósiles como la gasolina y el gas natural son grandes contribuyentes a la polución del aire. Estos emiten gases como el dióxido de carbono y el metano, dos de los mayores contaminantes y generadores de otros problemas como el efecto invernadero. El dióxido de azufre es particularmente peligroso para el medio ambiente pues es el principal componente de la lluvia ácida.
Una las principales causas de la contaminación del aire es el uso de combustibles fósiles. Su liberación hacia la atmósfera produce un exceso de material particulado \((PM_10 y PM_2.5)\) y de gases de efecto invernadero como el dióxido de carbono, los óxidos de nitrógeno y los óxidos de azufre. Por su parte, el ozono, que aunque en condiciones de equilibrio nos ha ayudado a evitar la radiación ultravioleta, en grandes cantidades puede presentar problemas para la salud.
> Figura 4.1. Fuentes, tipos de contaminantes, procesos y efectos generales.
Los niveles altos de contaminación del aire pueden causar problemas de salud inmediatos:
El aumento de la contaminación atmosférica es una amenaza aguda, acumulativa y crónica para la salud humana y el ambiente. La calidad del aire en la ciudad de Hermosillo se deteriora cada día más, debido principalmente al tráfico vehicular aunque a partir de la última semana de junio, la calidad del aire en la capital sonorense volvió a normalizarse con respecto a los niveles de contaminación de años anteriores.
La titular del Instituto Municipal de Ecología (IME), señaló que en todo lo que va del año, la calidad del aire se ha mantenido por debajo de la norma, gracias a las acciones implementadas por la dependencia, tanto en la concientización de la ciudadanía, atención de reportes y el fortalecimiento en áreas protegidas.
Datos clave.
Principales causas de morbilidad en Sonora (Sistema Único de Vigencia Epidemiológica, 2015)
Según el Sistema Único de Información de Vigilancia Epidemiológica (SUIVE), durante el año 2015 se registraron un total de 1’251,463 diagnósticos de casos nuevos de enfermedad en la población sonorense. La principal causa de morbilidad en el estado al cierre del 2015 fueron las infecciones respiratorias agudas con 684,938 casos nuevos registrados ese año, lo cual representó el 55% del total de casos registrados por todo el Sector Salud, con una tasa de 240 casos por cada 1,000 habitantes del estado durante ese año.
Palabras clave.
El ozono (\(O_3\)) es formado en la atmósfera por medio de reacciones fotoquímicas, en presencia de luz solar y a partir de la reacción entre contaminantes precursores como los óxidos de nitrógeno \((NOx)\) y compuestos orgánicos volátiles. El ozono hace un aporte significativo al balance radiativo de la tropósfera superior y la estratósfera inferior, de modo que los cambios en la distribución de O3 en estas capas atmosféricas afectan el forzamiento radiativo del clima. (Green, 2013)
El dióxido de azufre \((SO_2)\), como el NO2 , es un gas que puede exacerbar los síntomas de aquellos individuos que sufren enfermedades respiratorias o cardiacas. Es primordialmente formado en la combustión de combustibles fósiles en las plantas generadoras de energía y en otras instalaciones industriales, así como en fuentes móviles en un menor grado; y por consiguiente es un problema en algunas áreas urbanas e industriales. (Green, 2013)
Las PM10 \((PM10 – 2.5)\), también llamadas partículas inhalables, se consideran como contaminantes constituidos por material líquido y sólido de muy diversa composición y tamaño, que se encuentran en el aire, estas pueden ser generadas tanto por fuentes móviles como estacionarias, de manera natural o antropogénica. Se asocian generalmente a la combustión no controlada, algunas están relacionadas con la desintegración mecánica de la materia o la re-suspensión de partículas en el ambiente. Se ha establecido que las partículas se encuentran constituidas por 7 componentes químicos o especies: material geológico, sulfatos de amonio, nitratos de amonio, material orgánico, carbón elemental, sales y elementos trazas. (Rodríguez, 2014)
Download Proyecto final.Rmd * Datos de contaminantes y movilidad (15/02/2020 - 06/05/2021)
Download Concentracion_Mov_1.xlsx
Data Science o ciencia de datos es una disciplina científica centrada en el análisis de grandes fuentes de datos para extraer información, comprender la realidad y descubrir patrones con los que tomar decisiones. (Universidad Complutense Madrid, 2020)
La estadística descriptiva es la parte de la estadística que sintetiza y resume la información contenida en un conjunto de datos, por tanto, un análisis descriptivo consiste en clasificar, representar y resumir los datos. La descripción se puede hacer utilizando dos tipos de procedimientos: mediante el cálculo de índices estadísticos que son números que resumen de modo sencillo la información contenida en los datos reales, o bien utilizando representaciones gráficas que son muy útiles, ya que pueden aportar mucha información en un solo golpe de vista. (Seoane, T., Martín, J. L. R., Martín-Sánchez, E., Lurueña-Segovia, S., & Moreno, F. A, 2007)
La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable dependiente o respuesta (Y) se determina a partir de un conjunto de variables independientes llamadas predictores \((X_1, X_2, X_3…)\). Los modelos de regresión múltiple pueden emplearse para predecir el valor de la variable dependiente o para evaluar la influencia que tienen los predictores sobre ella (esto último se debe que analizar con cautela para no malinterpretar causa-efecto). (Rodrigo, 2016)
Los modelos lineales múltiples siguen la siguiente ecuación:
\[ Y_{i}=(\beta_{0}+\beta_{1}X_{1i}+\beta_{2}X_{2i}+\cdots+\beta_{n}X_{ni})+e_{i} \]
El factor de inflación de varianza (vif) es una medida de la cantidad de multicolinealidad en un conjunto de variables de regresión múltiple. matemáticamente, el vif para una variable de modelo de regresión es igual a la razón de la varianza general del modelo a la varianza de un modelo que incluye solo esa variable independiente única. Esta relación se calcula para cada variable independiente. un vif alto indica que la variable independiente asociada es altamente colineal con las otras variables en el modelo.(Exonegocios, 2020)
En el siguiente apartado se realizarán los análisis para obtención de resultados y se discutirán sus interpretaciones.
Los datos de la tabla 6.1 fueron obtenidos de la Red Universitaria de Observatorios Atmosféricos (RUOA).
En el gráfico 6.1 se representan los valores obtenidos a partir del reporte de movilidad en Hermosillo, Sonora. A partir de un análisis se comprobó que debido a la pandemia el porcentaje de movilidad disminuyó considerablemente desde principios de marzo hasta mediados de abril en el año 2020.
Los picos de movilidad corresponden a días festivos, en los cuales la población dejaba el aislamiento para realizar ciertas actividades.Es posible notar que los espacios de primera necesidad (supermercados, farmacias y transporte) son los más concurridos. Por otro lado, los lugares de trabajo y reactivación de de comercio mostraron un índice menor, debido a que al iniciar la pandemia cerraron muchos lugares de trabajo y no había actividad (contemplando también que los días festivos no se trabaja). Finalmente, hubo un aumento en lugares de residencia a principios de la cuarentena obteniendo menor impacto en la movilidad.
plot_ly(CM,colors = rainbow(3)) %>%
add_lines(x = ~Fecha, y = ~O3,mode="lines",name = "O3") %>%
add_lines(x = ~Fecha, y = ~SO2,mode="lines", name = "SO2") %>%
add_lines(x = ~Fecha, y = ~PM10,mode="lines", name ="PM10") %>%
rangeslider() %>%
layout(title = 'Contaminantes atmosféricos (concentraciones)',
xaxis = list(title = 'Fecha'),
yaxis = list(title = 'Concentración (ppb para O3 y SO2, ug/m3 para PM10)'))En el gráfico 6.2 se muestra cómo ha variado la concentración de SO2, O3 y PM10, respectivamente. Es posible apreciar cómo las concentraciones de material particulado rebasan en todo momento al resto de los contaminantes atmosféricos.
Esto se debe a múltiples factores:
Las PM10 pueden ser generadas tanto por fuentes móviles como estacionarias, de manera natural o antropogénica (Villalobos et al., 2008).
Se asocian generalmente a la combustión no controlada, algunas están relacionadas con la desintegración mecánica de la materia o la re-suspensión de partículas en el ambiente (Echeverri y Maya, 2008).
Esto incluye procesos de combustión en vehículos, principalmente aquellos que usan diesel, industrias de fundición, pinturas, cerámica y plantas de energía (Tzintzun et al., 2005).
El aumento significativo de concentración de partículas contaminantes se produce cuando las intrusiones de polvo se producen en invierno, de diciembre a marzo, cuando son más intensos.
library(readxl)
library(DT)
CM <- read_excel("Concentracion_Mov.xlsx")
library(dplyr)##
## Attaching package: 'dplyr'
## The following object is masked from 'package:gridExtra':
##
## combine
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
data <- as.data.frame(CM)
round(cor(x = data, method = "pearson"),3)## O3 SO2 PM10 Reactivacion_Comercial
## O3 1.000 -0.220 -0.229 -0.193
## SO2 -0.220 1.000 0.612 0.404
## PM10 -0.229 0.612 1.000 0.281
## Reactivacion_Comercial -0.193 0.404 0.281 1.000
## Supermercado_Farmacia -0.047 0.443 0.280 0.875
## Parques_Centros -0.182 0.019 0.065 0.814
## Estaciones_Transito -0.174 0.399 0.270 0.944
## Lugares_Trabajo -0.119 0.138 0.100 0.581
## Residencia 0.130 -0.371 -0.238 -0.842
## Supermercado_Farmacia Parques_Centros
## O3 -0.047 -0.182
## SO2 0.443 0.019
## PM10 0.280 0.065
## Reactivacion_Comercial 0.875 0.814
## Supermercado_Farmacia 1.000 0.655
## Parques_Centros 0.655 1.000
## Estaciones_Transito 0.872 0.770
## Lugares_Trabajo 0.492 0.371
## Residencia -0.729 -0.617
## Estaciones_Transito Lugares_Trabajo Residencia
## O3 -0.174 -0.119 0.130
## SO2 0.399 0.138 -0.371
## PM10 0.270 0.100 -0.238
## Reactivacion_Comercial 0.944 0.581 -0.842
## Supermercado_Farmacia 0.872 0.492 -0.729
## Parques_Centros 0.770 0.371 -0.617
## Estaciones_Transito 1.000 0.474 -0.758
## Lugares_Trabajo 0.474 1.000 -0.853
## Residencia -0.758 -0.853 1.000
library(psych)##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
multi.hist(x = data, dcol = c("blue", "red"), dlty = c("dotted", "solid"),
main = "")En estos histogramas se visualiza un comportamiento simétrico para la mayoría de los casos. La línea azul representa el comportamiento real, mientras que la línea roja sugiere un ajuste para una perfecta simetría.
library(GGally)## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggpairs(CM, lower = list(continuous = "smooth"),
diag = list(continuous = "barDiag"), axisLabels = "none")## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
A diferencia del modelo anterior, estos gráficos nos permiten analizar la relación 1-1 de las variables, y además nos arrojan el coeficiente de correlación.
Del análisis preliminar se pueden extraer las siguientes conclusiones: * Las variables que tienen una mayor relación lineal con el dióxido de azufre (SO2) son: supermercados y farmacias (R= 0.443), reativación y comercio (R= 0.404) y residencia (R= -0.371). * PM10 tiene diferentes variables que se encuentran medianamente relacionados, por lo que posiblemente no sea útil introducir ambos predictores en el modelo.
modelo <- lm(SO2 ~ O3 + PM10 +Reactivacion_Comercial + Supermercado_Farmacia + Parques_Centros + Estaciones_Transito + Lugares_Trabajo + Residencia, data = CM )
summary(modelo)##
## Call:
## lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia +
## Parques_Centros + Estaciones_Transito + Lugares_Trabajo +
## Residencia, data = CM)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.51190 -0.09921 -0.00269 0.09870 0.52906
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.0187954 0.0380324 -0.494 0.621416
## O3 -0.0057616 0.0009832 -5.860 9.10e-09 ***
## PM10 0.0056324 0.0005408 10.415 < 2e-16 ***
## Reactivacion_Comercial 0.0096304 0.0020097 4.792 2.27e-06 ***
## Supermercado_Farmacia 0.0060624 0.0015668 3.869 0.000126 ***
## Parques_Centros -0.0169489 0.0010860 -15.607 < 2e-16 ***
## Estaciones_Transito -0.0018481 0.0013556 -1.363 0.173465
## Lugares_Trabajo -0.0106817 0.0009837 -10.858 < 2e-16 ***
## Residencia -0.0352798 0.0041747 -8.451 4.32e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1582 on 438 degrees of freedom
## Multiple R-squared: 0.6938, Adjusted R-squared: 0.6882
## F-statistic: 124.1 on 8 and 438 DF, p-value: < 2.2e-16
El modelo con todas las variables introducidas como predictores tiene un R2 alta (0.6882), es capaz de explicar el 68,82% de la variabilidad observada en el SO3. El p-value del modelo es significativo (2.2e-16).
step(object = modelo, direction = "both", trace = 1)## Start: AIC=-1639.29
## SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia +
## Parques_Centros + Estaciones_Transito + Lugares_Trabajo +
## Residencia
##
## Df Sum of Sq RSS AIC
## - Estaciones_Transito 1 0.0465 11.014 -1639.4
## <none> 10.968 -1639.3
## - Supermercado_Farmacia 1 0.3749 11.343 -1626.3
## - Reactivacion_Comercial 1 0.5750 11.543 -1618.5
## - O3 1 0.8600 11.828 -1607.5
## - Residencia 1 1.7883 12.756 -1573.8
## - PM10 1 2.7161 13.684 -1542.4
## - Lugares_Trabajo 1 2.9523 13.920 -1534.7
## - Parques_Centros 1 6.0997 17.067 -1443.6
##
## Step: AIC=-1639.4
## SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia +
## Parques_Centros + Lugares_Trabajo + Residencia
##
## Df Sum of Sq RSS AIC
## <none> 11.014 -1639.4
## + Estaciones_Transito 1 0.0465 10.968 -1639.3
## - Supermercado_Farmacia 1 0.3298 11.344 -1628.2
## - Reactivacion_Comercial 1 0.6091 11.623 -1617.3
## - O3 1 0.8366 11.851 -1608.7
## - Residencia 1 1.7647 12.779 -1575.0
## - PM10 1 2.7569 13.771 -1541.5
## - Lugares_Trabajo 1 2.9217 13.936 -1536.2
## - Parques_Centros 1 6.0965 17.111 -1444.5
##
## Call:
## lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia +
## Parques_Centros + Lugares_Trabajo + Residencia, data = CM)
##
## Coefficients:
## (Intercept) O3 PM10
## -0.020842 -0.005669 0.005668
## Reactivacion_Comercial Supermercado_Farmacia Parques_Centros
## 0.008020 0.005439 -0.016944
## Lugares_Trabajo Residencia
## -0.010417 -0.035005
La fórmula principal de nuestro análisis fue:
Este método seleccionó los mejores predictores, reduciendo la fórmula original a la siguiente:
modelo <- (lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia +
Parques_Centros + Lugares_Trabajo + Residencia, data = CM))
summary(modelo)##
## Call:
## lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia +
## Parques_Centros + Lugares_Trabajo + Residencia, data = CM)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.5458 -0.1006 -0.0022 0.0964 0.5374
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.0208416 0.0380399 -0.548 0.584047
## O3 -0.0056694 0.0009818 -5.775 1.46e-08 ***
## PM10 0.0056679 0.0005407 10.482 < 2e-16 ***
## Reactivacion_Comercial 0.0080203 0.0016277 4.927 1.18e-06 ***
## Supermercado_Farmacia 0.0054386 0.0015000 3.626 0.000322 ***
## Parques_Centros -0.0169444 0.0010870 -15.588 < 2e-16 ***
## Lugares_Trabajo -0.0104169 0.0009653 -10.791 < 2e-16 ***
## Residencia -0.0350045 0.0041739 -8.387 6.89e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1584 on 439 degrees of freedom
## Multiple R-squared: 0.6925, Adjusted R-squared: 0.6876
## F-statistic: 141.2 on 7 and 439 DF, p-value: < 2.2e-16
_
confint(lm(formula = O3 ~ SO2 + PM10 + Supermercado_Farmacia + Parques_Centros +
Estaciones_Transito + Lugares_Trabajo + Residencia, data = CM))## 2.5 % 97.5 %
## (Intercept) 18.5429587 24.272734653
## SO2 -17.4754428 -9.273108691
## PM10 -0.1078856 0.002902609
## Supermercado_Farmacia 0.3173485 0.586692242
## Parques_Centros -0.4215821 -0.216357958
## Estaciones_Transito -0.2640599 -0.063709120
## Lugares_Trabajo -0.3817479 -0.185032682
## Residencia -1.3783591 -0.600127926
library(gridExtra)
plot1 <- ggplot(data = CM, aes(O3, modelo$residuals)) +
geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
theme_bw()
plot2 <- ggplot(data = CM, aes(PM10, modelo$residuals)) +
geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
theme_bw()
plot3 <- ggplot(data = CM, aes(Reactivacion_Comercial, modelo$residuals)) +
geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
theme_bw()
plot4 <- ggplot(data = CM, aes(Supermercado_Farmacia, modelo$residuals)) +
geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
theme_bw()
plot5 <- ggplot(data = CM, aes(Parques_Centros, modelo$residuals)) +
geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
theme_bw()
plot6 <- ggplot(data = CM, aes(Lugares_Trabajo, modelo$residuals)) +
geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
theme_bw()
plot7 <- ggplot(data = CM, aes(Residencia, modelo$residuals)) +
geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
theme_bw()
grid.arrange(plot1, plot2, plot3, plot4, plot5, plot6, plot7)## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
Se cumple la linealidad para todos los predictores.
qqnorm(modelo$residuals)
qqline(modelo$residuals)shapiro.test(modelo$residuals)##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.99227, p-value = 0.02042
Tanto el análisis gráfico (gráfico 6.6) como el test de hipótesis confirman la normalidad. Al tener mayor dispersión en los extremos, significa que la variabilidad es dependiente del valor ajustado y por lo tanto no hay homocedasticidad.
library(corrplot)## corrplot 0.88 loaded
corrplot(cor(dplyr::select(CM, O3, PM10, Reactivacion_Comercial, Supermercado_Farmacia, Parques_Centros, Lugares_Trabajo, Residencia)),
method = "number", tl.col = "black")library(car)## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:psych':
##
## logit
## The following object is masked from 'package:dplyr':
##
## recode
vif(modelo)## O3 PM10 Reactivacion_Comercial
## 1.198005 1.304100 13.623986
## Supermercado_Farmacia Parques_Centros Lugares_Trabajo
## 4.815401 3.618397 5.084395
## Residencia
## 11.372743
Existe la presencia de predictores que muestran una correlación lineal muy alta e inflación de varianza, por otro lado la gran mayoría de predictores indican lo contrario.
library(car)
dwt(modelo, alternative = "two.sided")## lag Autocorrelation D-W Statistic p-value
## 1 0.7177002 0.5524315 0
## Alternative hypothesis: rho != 0
No hay evidencia de autocorrelación, debido a que la p-value da menor a 0.05 indicando que nuestra hipótesis nula se rechaza.
library(dplyr)
CM$studentized_residual <- rstudent(modelo)
ggplot(data = CM, aes(x = predict(modelo), y = abs(studentized_residual))) +
geom_hline(yintercept = 3, color = "grey", linetype = "dashed") +
# se identifican en rojo observaciones con residuos estandarizados absolutos > 3
geom_point(aes(color = ifelse(abs(studentized_residual) > 3, 'red', 'black'))) +
scale_color_identity() +
labs(title = "Distribución de los residuos studentized",
x = "predicción modelo") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5))which(abs(CM$studentized_residual) > 3)## 27 159 295 296
## 27 159 295 296
Para el gráfico 6.7 se observa que si se identificaron comportamientos atípicos. Sin embargo, los valores atípicos son pocos a comparación de los influyentes, ya que en su mayoría estos se encuentran en un rango > 3.
summary(influence.measures(modelo))## Potentially influential observations of
## lm(formula = SO2 ~ O3 + PM10 + Reactivacion_Comercial + Supermercado_Farmacia + Parques_Centros + Lugares_Trabajo + Residencia, data = CM) :
##
## dfb.1_ dfb.O3 dfb.PM10 dfb.Rc_C dfb.Sp_F dfb.Pr_C dfb.Lg_T dfb.Rsdn dffit
## 5 -0.02 -0.02 -0.10 0.00 0.06 -0.09 -0.04 -0.01 -0.16
## 6 0.01 0.01 0.01 0.00 -0.01 0.02 0.00 0.00 0.02
## 11 0.02 0.02 0.01 0.00 -0.03 0.04 0.01 0.00 0.06
## 12 0.10 0.27 -0.03 0.05 -0.18 0.20 0.06 -0.01 0.46_*
## 26 -0.39 0.13 0.22 -0.08 0.11 -0.04 0.00 0.04 -0.42_*
## 27 -0.59 0.25 0.55 -0.28 0.17 0.29 0.07 0.07 -0.70_*
## 31 -0.21 0.12 0.17 0.28 -0.36 -0.28 0.31 0.18 -0.64_*
## 32 -0.15 0.08 0.10 0.07 -0.19 -0.07 -0.01 -0.02 -0.31
## 74 0.04 -0.02 -0.06 0.16 0.09 -0.05 0.31 0.33 -0.41_*
## 137 0.02 0.09 -0.10 0.07 -0.08 -0.08 -0.04 -0.07 -0.23
## 158 0.12 -0.10 -0.09 -0.01 0.00 0.03 -0.03 0.01 0.20
## 159 0.16 -0.10 -0.18 0.01 0.02 0.02 0.00 0.06 0.31
## 217 0.00 0.08 0.05 0.02 -0.02 0.14 0.12 0.14 0.25
## 228 0.05 0.16 -0.31 0.04 0.05 -0.10 -0.02 -0.02 -0.42_*
## 294 -0.08 0.16 -0.05 0.31 -0.07 -0.24 0.19 0.28 0.42_*
## 295 0.05 0.05 -0.14 0.20 0.02 -0.25 0.19 0.17 0.41_*
## 296 -0.05 0.07 0.04 0.23 -0.03 -0.26 0.33 0.25 0.52_*
## 313 0.01 0.10 0.00 0.02 -0.26 0.06 0.01 -0.08 -0.36
## 314 -0.09 -0.08 0.10 -0.18 0.28 0.05 -0.07 -0.05 0.33
## 315 -0.08 -0.21 0.37 -0.65 -0.02 0.36 -0.71 -0.81 1.08_*
## 321 -0.01 0.08 0.06 0.11 -0.21 0.00 0.06 0.04 -0.22
## 322 0.08 -0.06 -0.06 -0.39 -0.08 0.17 -0.61 -0.64 0.76_*
## 332 0.05 -0.07 -0.04 0.12 -0.06 -0.13 0.02 0.06 0.20
## 341 -0.11 0.08 0.15 -0.16 0.12 0.20 0.06 0.01 -0.26
## 371 -0.01 0.04 -0.02 0.07 -0.04 -0.13 -0.07 -0.05 0.20
## 379 0.01 0.01 -0.02 0.01 -0.01 0.00 0.00 0.01 -0.03
## 397 0.39 -0.25 -0.50 0.08 0.08 -0.23 -0.18 -0.11 0.54_*
## 412 -0.01 0.01 0.01 -0.08 0.09 0.05 -0.09 -0.07 0.14
## 413 -0.01 0.01 0.03 -0.37 0.26 0.29 -0.31 -0.28 0.52_*
## 414 0.00 0.00 0.00 0.01 0.00 -0.01 0.01 0.01 -0.02
## 415 -0.02 0.04 0.02 -0.06 0.00 0.02 -0.06 -0.09 0.11
## 441 -0.03 0.08 -0.01 0.01 0.05 0.00 0.01 0.02 0.14
## 442 0.02 -0.03 0.00 0.03 -0.04 0.00 0.03 0.03 -0.08
## cov.r cook.d hat
## 5 1.06_* 0.00 0.04
## 6 1.06_* 0.00 0.04
## 11 1.07_* 0.00 0.05
## 12 0.98 0.03 0.04
## 26 0.94_* 0.02 0.03
## 27 0.84_* 0.06 0.04
## 31 0.96 0.05 0.06_*
## 32 0.90_* 0.01 0.01
## 74 0.99 0.02 0.04
## 137 0.94_* 0.01 0.01
## 158 0.94_* 0.01 0.01
## 159 0.85_* 0.01 0.01
## 217 0.94_* 0.01 0.01
## 228 0.99 0.02 0.04
## 294 0.90_* 0.02 0.02
## 295 0.88_* 0.02 0.02
## 296 0.84_* 0.03 0.02
## 313 1.05 0.02 0.07_*
## 314 1.14_* 0.01 0.12_*
## 315 1.02 0.14 0.13_*
## 321 1.14_* 0.01 0.11_*
## 322 1.01 0.07 0.09_*
## 332 0.93_* 0.00 0.01
## 341 1.06_* 0.01 0.06_*
## 371 0.90_* 0.00 0.01
## 379 1.06_* 0.00 0.04
## 397 1.02 0.04 0.07_*
## 412 1.08_* 0.00 0.06_*
## 413 1.03 0.03 0.07_*
## 414 1.11_* 0.00 0.08_*
## 415 1.07_* 0.00 0.05
## 441 1.07_* 0.00 0.05
## 442 1.06_* 0.00 0.04
En la tabla generada se recogen las observaciones que son significativamente influyentes en al menos uno de los predictores (una columna para cada predictor). Las tres últimas columnas son 3 medidas distintas para cuantificar la influencia. A modo de guía se pueden considerar excesivamente influyentes aquellas observaciones para las que:
Leverages (hat): Se consideran observaciones influyentes aquellas cuyos valores hat superen 2.5((p+1)/n), siendo p el número de predictores y n el número de observaciones. Distancia Cook (cook.d): Se consideran influyentes valores superiores a 1. Nota: los valores influyentes son señalados con un asterisco en las columnas dffit, cov.r, cook.d y hat (sin la necesidad de hacer cálculos extra).
influencePlot(modelo)## StudRes Hat CookD
## 27 -3.5582426 0.03713416 0.05945706
## 296 3.4731299 0.02155656 0.03240317
## 314 0.9075958 0.11755720 0.01372246
## 315 2.7710833 0.13124774 0.14283922
## 322 2.3883787 0.09266949 0.07205406
Los análisis muestran varias observaciones influyentes (posiciONES 322, 314 y 315) que exceden los límites de preocupación para los valores de Leverages o Distancia Cook. Estudios más exhaustivos consistirían en rehacer el modelo sin las observaciones y ver el impacto.
El módelo lineal múltiple es capaz de explicar el 69.38% de la variabilidad observada en el SO_2 (R2: 0.6938, R2-Adjusted: 0.6882). El test F muestra que es significativo (p-value: 2.2e-16). Se satisfacen todas las condiciones para este tipo de regresión múltiple. Dos observaciones (posición 314, 315 y 322) podrían estar influyendo de forma notable en el modelo.
El método no eliminó muchas variables de nuestro modelo lineal. Esto significa que la calidad del aire depende en gran medida de todas las variables en cuestión.
En el Objetivo 11 de Desarrollo la política nacional se centra en la disminución de la concentración de contaminantes atmosféricos.
Para concluir la calidad del aire se refiere a la presencia en mayor o menor medida de contaminantes en la atmósfera que puedan ser nocivos para la salud humana, para el medio ambiente en su conjunto y para otros bienes de cualquier naturaleza. Se establecen índices de calidad del aire que proporcionan valores indicativos del estado de la atmósfera respecto a un contaminante en particular o a un conjunto de ellos. Estos valores se refieren a una escala definida a partir de conocimientos científicos sobre los niveles de los distintos contaminantes que pueden resultar nocivos para la salud humana. Para que la calidad de aire sea buena no debe existir la movilidad de los automóviles, autobuses aunque también esta involucrada la movilidad de las actividades diarias que realizan las personas en la ciudad, por lo que cuanto más la movilidad exista en la ciudad, más contaminantes hay en el aire de esta misma. El área de salud y económica son los que se ven afectados por la calidad del aire. La salud debido a que la contaminación del aire puede afectar el desarrollo pulmonar y está implicada en el desarrollo del enfisema., asma y otras enfermedades respiratorias, como la enfermedad pulmonar obstructiva crónica (EPOC). La PM y el óxido de nitrógeno están relacionados con la bronquitis crónica. Las partículas finas pueden afectar la función de los vasos sanguíneos acelerar la calcificación en las arterias. Y la economía porque según el Banco Mundial, cada año la contaminación del aire le cuesta a la economía mundial más de US 5 billones en costos de asistencia social y US 225 mil millones en ingresos perdidos, además de que la mala calidad puede traer pérdidas económicas para todo el país de más de 20,000 millones de pesos (mdp) y un saldo de 37,488 muertes prematuras 103,000 hospitalizaciones y 6 millones de consultas médicas. El conocer este tipos de tema es suma importancia no solo para ciertas ciudades o estados ya que todos deberíamos estar involucrados en algo que es de vital importancia para todos los seres vivos.
Air pollution in cities: Urban Health Initiative. Recuperado el 16 de Mayo de 2021, de World Health Organization
Objetivos del Desarrollo Sostenible. (2015). Recuperado el 22 de Mayo de 2021, de ODS
Evaluación de la calidad del aire respecto de partículas suspendidas totales (PST) y metales pesados (Pb, Cd, Ni, Cu, Cr) en la ciudad de Hermosillo, Sonora, México, durante un periodo anual. (2013).). Recuperado el 20 de Mayo de 2021, de Revista internacional de contaminación ambiental
Secretaría de Medio Ambiente y Recursos Naturales. (2017). Estrategia Nacional Calidad del Aire. Recuperado de: Estrategia Nacional de la Calidad del Aire
Data Science. (2021). Recuperado el 23 de mayo de Link
Seoane, T., Martín, J. L. R., Martín-Sánchez, E., Lurueña-Segovia, S., & Moreno, F. A. (2007). Capítulo 7: estadística: estadística descriptiva y estadística inferencial. SEMERGEN-Medicina de familia, 33(9), 466-471. Recuperado el 23 de mayo del 2021, Sitio Web: Academia
C. (2020, 26 marzo). Factor de inflación de varianza. Recuperado 23 de mayo de 2021, de Exonegocios
Programa para Mejorar la Calidad del Aire. (S. F). Antecedentes. Recuperado de: Proaire
Rodrígo, J. (2016). Introducción a la Regresión Lineal Múltiple. Obtenido de Ciencia de datos:Link
Índice de calidad del aire (ICA) de Hermosillo y contaminación del aire de México | AirVisual. Recuperado el 17 de mayo de 2021, de https://www.iqair.com/mx/mexico/sonora/hermosillo:IQAir
SENSORES DE BAJO COSTO PARA EL MONITOREO DE LA CALIDAD DEL AIRE EN HERMOSILLO SONORA. (2018). Recuperado el 15 de mayo de 2021, de :Link