Mediante un análisis de la calidad del aire, se puede obtener información acerca de la composición y concentración de diversos gases y partículas presentes en la atmósfera, los cuales pueden tener un impacto directo o indirecto en la salud.
Existen múltiples factores que afectan tanto de forma directa como indirecta a la calidad del aire. Un ejemplo de ello es la influencia de las variables meteorológicas, las cuales desempeñan un papel determinante en la dispersión y las reacciones químicas de los elementos atmosféricos. Además, la temperatura, la humedad, los vientos, las precipitaciones, la radiación solar y la presión atmosférica son factores fundamentales que intervienen en el proceso de evaluación de la calidad del aire que respiramos.
Este estudio se enfocará en la variable del ozono (O3), la cual se ha seleccionado como indicador de respuesta debido a que la presencia excesiva de ozono en el aire puede tener efectos negativos en la calidad del mismo, siendo un factor contribuyente al cambio climático. Asimismo, debido a la contaminación que deteriora la capa de ozono, se está presenciando un aumento de la radiación solar en el planeta lo cual genera un aumento en la temperatura y posibles afectaciones a la salud. Por otra parte, la falta de humedad (menos del 40%) puede provocar sequedad en los ojos y en la piel.
A su vez, la velocidad del viento juega un papel crucial en el desplazamiento y dirección de los contaminantes entre las fuentes y los receptores. Estas variables tienen un impacto significativo en la calidad del aire y pueden dar lugar a enfermedades directas e indirectas que se propagan a través del aire. Por lo tanto, se creará un modelo en donde se establecerá la relación entre las variables y predecir la cantidad del ozono según las variables seleccionadas con la toma de datos del año 2018.
La metodología utilizada se basa en la modelación lineal, la cual deja establecer relaciones estadísticas entre una variable de respuesta y un conjunto de variables explicativas. Para el análisis de datos temporales, es necesario considerar los conceptos de series de tiempo y los supuestos asociados a la modelación lineal en este contexto, como la autocorrelación.
Ecuación del modelo lineal de serie de tiempo:
En el cual:
\(Y_{t}\) es la variable que deseamos predecir, es decir, la variable de “respuesta”.
Cada \(x_{j},_{t}\) es numérico y es un tipo de “predictor”. Usualmente se asume que se conocen para todos los tiempos pasados y futuros.
Los coeficientes \(\beta _{0}, . . . ,\beta _{k}\) miden el efecto de cada predictor después de tener en cuenta el efecto de todos los demás predictores en el modelo. Es decir, los coeficientes miden los efectos marginales.
\(\varepsilon _{t}\) es un término de error ruido blanco.
Por lo que se realizará el análisis de la serie de tiempo para descubrir el modelo. En este caso, una serie de tiempo hace referencia a una secuencia de mediciones que se realiza a lo largo del tiempo, es decir, se trata de una colección de datos que se ordena de manera cronológica. El análisis de series de tiempo se refiere al proceso de analizar los datos disponibles para descubrir el patrón o la tendencia en los datos. Permite extraer y modelar las relaciones entre datos a lo largo del tiempo, sea extrapolando (hacia futuro) o interpolando (hacia el pasado) el comportamiento de datos no observados.
No obstante, cuando se ajusta un modelo de regresión a datos de series de tiempo, es común encontrar autocorrelación en los residuos, si pasa esto el modelo estimado estaría violando el supuesto de que no hay autocorrelación en los errores, y para medir la autocorrelación se usa la función de autocorrelación ACF y la función de autocorrelación parcial PACF. Además, esto puede ser porque queda algo de información que debe tenerse en cuenta en el modelo para obtener mejores pronósticos. Los otros supuestos que debe cumplir el modelo son la linealidad, homocedasticidad y normalidad.
La base de datos inicial presenta valores faltantes (NA’s), por lo que se lleva a cabo una etapa de limpieza inicial mediante la eliminación de filas con datos faltantes. Posteriormente, se realiza un proceso de agregación para obtener valores diarios promediando los datos horarios. A partir de esta nueva base de datos, se seleccionan los 200 registros y se transforman los datos al formato de serie de tiempo.
Con las variables asignadas se creó un modelo lineal de serie de tiempo en el cual se observó que, las variables más significativas en el modelo son: Temp, Humedad, Rad.sol con una significancia al 5% y el modelo está explicando al ozono en un 62%, las variables de V.Viento y Dire.Viento no resultaron significativas al 5% para explicar la concentración de ozono, lo que sugiere que dentro del modelo analizado estas variables no tienen un impacto significativo en la predicción del nivel de ozono
Distribución:
Y → Oz: Ozono
X1 → V: V.Viento
X2 → DV: Dire.Viento
X3 → T: Temperatura
X4 → H: Humedad
X5 → RS: Rad.Solar
X6 → L: Lluvia
##
## Call:
## tslm(formula = Ozono ~ V.Viento + Dire.Viento + Temperatura +
## Humedad + Rad.Solar + Lluvia, data = Data2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.0661 -3.0722 -0.4351 2.8454 17.5020
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 141.11492 26.90254 5.245 4.10e-07 ***
## V.Viento 0.09400 1.32333 0.071 0.9434
## Dire.Viento -0.01742 0.01610 -1.082 0.2806
## Temperatura -1.50326 0.64989 -2.313 0.0218 *
## Humedad -1.23614 0.14778 -8.365 1.22e-14 ***
## Rad.Solar 0.06538 0.01597 4.093 6.27e-05 ***
## Lluvia 0.94423 0.57706 1.636 0.1034
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.831 on 192 degrees of freedom
## Multiple R-squared: 0.6351, Adjusted R-squared: 0.6237
## F-statistic: 55.7 on 6 and 192 DF, p-value: < 2.2e-16
Basado en los resultados anteriores, se pueden realizar las siguientes observaciones sobre el impacto de las variables en la estimación del nivel de ozono:
Por cada metro por segundo que aumente la cantidad del V.Viento se estima que en promedio el ozono aumenta en 0.094 unidades, esta variable no es significativa al 5% para explicar al ozono.
Por cada grado que aumente la cantidad del Dire.Viento se estima que en promedio el ozono disminuye en 0.01742 unidades, esta variable no es significativa al 5% para explicar al ozono.
Por cada grado celsius que aumenta la cantidad de Temperatura se estima que en promedio el ozono disminuye en 1.50326 unidades , esta variable es significativa al 5% para explicar al ozono.
Por cada punto porcentual en que aumente la cantidad de la humedad se estima que en promedio el ozono disminuye en 1.23614 unidades, esta variable es significativa al 5% para explicar al ozono.
Por cada watt sobre metro cuadrado en que aumente la cantidad de la Rad.Solar se estima que en promedio el ozono aumenta en 1.23614 unidades, esta variable es significativa al 5% para explicar al ozono.
Por cada milímetro que aumente la cantidad de la lluvia se estima que en promedio el ozono aumenta en 1.23614 unidades, esta variable no es significativa al 5% para explicar al ozono.
Ozono (ug/m³): Representa la concentración de ozono en el aire y se expresa en microgramos por metro cúbico (ug/m3). Esta variable da la cantidad de ozono que hay en una unidad de volumen en el aire. El ozono, es un gas que no tiene ningún tipo de color, y se encuentra en el aire que respiramos.
V.Viento (m/s): Se refiere a la velocidad del viento y se expresa en metros por segundo (m/s), habla de la magnitud de la velocidad que puede llegar a tener el viento. Esto mide la componente horizontal del movimiento que tiene el aire de un punto a otro en un momento determinado.
Dire.Viento (Grados): Es la dirección que puede llegar a tener el viento, por lo tanto se expresa en grados. La dirección del viento se mide desde 0º, lo cual se nombra como “excluido” hasta 360º, a lo cual se le llama “incluido”, en el sentido de las agujas del reloj.
Temperatura (C°): Esta variable es la temperatura del aire, de acuerdo con la base de datos, se expresa en grados Celsius (°C), esto dice la cantidad de calor o frío que hay en el aire para ese instante, se mide con ayuda de un termómetro ubicado de tal forma que la radiación solar no afecte los resultados.
Humedad (%): Da a conocer el porcentaje de humedad que hay en el aire en un determinado tiempo, se refiere a el porcentaje de agua que hay en el aire para aquel instante.
Rad.Sol (Watts/m²): Indica la radiación, en este caso medida en vatios sobre metros cuadrados. Es la cantidad de radiación emitida por el sol que tiene forma de radiación electromagnética que llega a la atmósfera.
Lluvia (mm): Hace referencia a la cantidad de precipitación, contada en milímetros que se da en un momento específico. Este fenómeno, también se le dice “precipitación pluvial” y habla sobre la cantidad de lluvia en estado sólido o líquido que alcanza la atmósfera y llega al planeta tierra.
A continuación se analizará los rangos de las variables que se podrán utilizar para los distintos escenarios.
## Ozono V.Viento Dire.Viento Temperatura
## Min. :11.91 Min. :1.795 Min. :148.8 Min. :25.22
## 1st Qu.:26.04 1st Qu.:2.346 1st Qu.:202.4 1st Qu.:27.65
## Median :31.54 Median :2.529 Median :222.0 Median :28.62
## Mean :31.68 Mean :2.559 Mean :219.7 Mean :28.47
## 3rd Qu.:37.17 3rd Qu.:2.752 3rd Qu.:236.2 3rd Qu.:29.34
## Max. :58.68 Max. :3.767 Max. :289.2 Max. :32.99
## Humedad Rad.Solar Lluvia
## Min. :36.97 Min. : 0.00 Min. :0.0000
## 1st Qu.:52.18 1st Qu.: 93.14 1st Qu.:0.0000
## Median :55.93 Median :104.64 Median :0.0000
## Mean :56.73 Mean :104.40 Mean :0.2658
## 3rd Qu.:60.73 3rd Qu.:117.54 3rd Qu.:0.1904
## Max. :73.03 Max. :232.82 Max. :5.2922
Al analizar la variable “Lluvia”, se observa que el valor mínimo, el primer cuartil y la mediana están en 0, mientras que el tercer cuartil alcanza 0.1904. Sin embargo, se registra un valor máximo de 5.29. Estos datos indican que la gran mayoría de las observaciones de lluvia se encuentran en cero.
Esta distribución dominada por valores nulos se debe a que, al calcular el promedio de los datos, la presencia de numerosos valores igual a cero afecta significativamente el resultado. Incluso si existen algunos valores más altos, su influencia se ve diluida por la abundancia de ceros, lo que resulta en un promedio considerablemente bajo.
Los residuales son la diferencia entre los valores reales y los valores ajustados del modelo. Por tanto, lo ideal es que los puntos estén lo más cercanos a cero. Sin embargo, se observa en los gráficos una gran dispersión en todas las variables, superando las 10 unidades de diferencia tanto en valores negativos como positivos. Esta discrepancia indica que los valores ajustados no se aproximan de manera precisa a los valores reales. Es una forma de evaluar la calidad de los ajustes obtenidos.
En el gráfico se observa todas las correlaciones y relaciones entre las variables, es decir, algunas correlaciones inversas o negativas lo que significa que cuando una variable aumenta la otra disminuye. Además, en el gráfico hay una correlación inversa entre la humedad y la velocidad del viento, así como una correlación directa entre la temperatura y la humedad. Estas relaciones indican cómo el cambio en una variable afecta a la otra en el contexto del modelo
En la parte izquierda del gráfico se encuentran diversas gráficas de la relación entre las variables y en la parte derecha se encuentra la correlación entre las variables y en toda la diagonal de izquierda a derecha se encuentra la distribución de la variable aproximado por la función de densidad.
En el esquema se evidencia correlaciones bajas donde no tienen ninguna significancia lo que significa que no se puede predecir qué comportamiento tendrá una variable si la otra sube o baja, un ejemplo es la Rad.Solar con la Direc.Viento ya que su correlación es de 0.056
Analizando la variable Lluvia, se obtuvo que el valor mínimo, el primer cuartil y la mediana están en 0 y hasta el tercer cuartil está en 0.1904 pero el máximo valor está en 5.29 por lo tanto, se puede decir que la gran mayoría de los datos de la lluvia están en cero. Esto sucede, porque como se tuvo que promediar los datos y la mayoría de valores eran 0, aunque hubieran datos altos, al promediarse daba un número muy bajo.
En el gráfico se presenta el cambio de la concentración de ozono en el intervalo de tiempo utilizado para el modelo. Los datos reales se muestran en color rojo, mientras que los valores ajustados se representan en color azul. Es importante destacar que los valores no son idénticos, ya que el modelo no logra explicar el 100% de la variabilidad de los datos. Por esta razón, se observa una diferencia entre las líneas correspondientes a los valores reales y ajustados en el gráfico. Sin embargo, se puede ver con las variables predictoras se logra plasmar la trayectoria en esta serie.
En el siguiente gráfico se presenta la dispersión de los datos ajustados en comparación con los datos reales, mostrando una tendencia lineal.
El objetivo en este gráfico es que los puntos estén lo más cercanos posible a la línea de pendiente. Aunque no todos los puntos se encuentran exactamente sobre la línea, se puede observar que están cerca de ella. Esto indica que el modelo está funcionando de manera adecuada en términos de su capacidad para ajustarse a los datos.
El gráfico muestra los residuales, que son la diferencia entre los valores reales y los valores ajustados del modelo. Se observa una dispersión considerable en los puntos, los cuales deberían estar más concentrados cerca de cero. Para evaluar la suposición de linealidad, se realiza un análisis correspondiente utilizando el P-value.
En la prueba de linealidad, se lleva a cabo un análisis de correlación con las hipótesis respectivas establecidas:
Con el P-value obtenido, que es 2.2e-16, se determina que este valor es bastante pequeño. Según el análisis establecido, se rechaza H0 y se acepta H1, lo que indica que existe una correlación lineal.
El P-value se observa al crear el modelo lineal de series de tiempo.La prueba de normalidad se utiliza para verificar si los residuos (errores) siguen una distribución normal. En este caso, se presentan dos gráficos para visualizar la distribución y hacer una predicción sobre si se cumple o no el supuesto de normalidad.
Para que se cumpla el supuesto de normalidad, se espera que la distribución de los residuales tengan una forma de campana, que se asemeje a una distribución normal.
En el gráfico siguiente, se espera que los puntos estén ubicados sobre la línea azul para cumplir el supuesto. Aunque en su mayoría se observa que los puntos están en la línea con una tendencia esperada, y en las puntas se dispersan ligeramente. Esta dispersión en las puntas es algo normal, pero lo más importante es que la mayoría de los puntos estén cerca de la línea.
A partir de los gráficos anteriores, se puede realizar un análisis superficial para evaluar el supuesto de normalidad. Sin embargo, para obtener una conclusión más sólida, se realizó la prueba de Shapiro-Wilk. El P-value obtenido en la prueba fue 0.006823, que es menor al nivel de significancia del 5%. Por lo tanto, se rechaza la hipótesis nula (Ho) y se acepta la hipótesis alternativa (H1).
Esto indica que los residuales no siguen una distribución normal, por lo que no se cumple el supuesto de normalidad.
##
## Shapiro-Wilk normality test
##
## data: Modelo1$residuals
## W = 0.98033, p-value = 0.006823
Se refiere a la constancia de la varianza de los errores en un modelo. Para evaluar este supuesto, se utiliza un gráfico de dispersión y se aplica la prueba de Breusch-Pagan. La hipótesis nula (H0) establece que existe varianza constante, mientras que la hipótesis alternativa (H1) plantea que no hay varianza constante.
##
## studentized Breusch-Pagan test
##
## data: Modelo1
## BP = 6.4935, df = 6, p-value = 0.3702
Al realizar la prueba, obtuvimos un P-value igual a
0.3702. Con base en este resultado, se acepta la
hipótesis nula (H0) y se rechaza la hipótesis alternativa (H1), lo que
indica que sí se cumple el supuesto de homocedasticidad.
En el primer gráfico se puede observar que no hay ninguna tendencia y se sigue un proceso aleatorio.
En el correlograma en el eje y estas las correlaciones y en el eje x los rezagos, es decir, las observaciones de días anteriores, en esta se puede observar que hay una tendencia ya que todas los rezagos se ubican por encima del cero, habiendo una correlación en los residuos y además la mayoría sobrepasan la banda de confianza.
En el gráfico PACF se muestra la distribución de los residuales y da la impresión que tiene un comportamiento normal.
##
## Breusch-Godfrey test for serial correlation of order up to 10
##
## data: Residuals from Linear regression model
## LM test = 47.465, df = 10, p-value = 7.769e-07
Este supuesto implica que los residuos deben ser independientes entre sí, es decir, que no haya ninguna correlación presente entre ellos. Para verificar esto, se realiza la prueba de Breusch-Godfrey.
El P-value obtenido en la prueba es de 7.769e-07, que es menor que 0.05. Por lo tanto, se rechaza la hipótesis nula (H0) y se acepta la hipótesis alternativa (H1).
## 1 2 3 4 5 6 7 8
## 18.850410 15.843890 17.151558 0.138418 1.271491 1.346690 4.311182 12.285722
## 9 10
## 12.285722 35.772433
Se realizaron diez escenarios con diferentes valores para cada variables y se realizó las predicciones correspondientes para obtener la cantidad del ozono.
## V.Viento Dire.Viento Temperatura Humedad Rad.Solar Lluvia
## 1 2.0 260 28.0 72 200 0.1
## 2 2.0 260 30.0 72 200 0.1
## 3 2.0 260 30.0 72 220 0.1
## 4 2.2 190 19.8 97 140 2.8
## 5 2.2 190 19.8 97 140 4.0
## 6 3.0 190 19.8 97 140 4.0
## 7 2.5 250 32.0 79 200 0.0
## 8 2.5 250 28.0 79 230 0.0
## 9 2.5 250 28.0 79 230 0.0
## 10 2.5 250 28.0 60 230 0.0
En el primer escenario se estudió una situación de verano con altas temperaturas, para esto se investigó en cali temporadas con altas temperaturas durante un prolongado plazo de tiempo y en estas fechas se buscó cuál era la dirección del viento, velocidad del viento, radiación solar, precipitaciones y humedad, con estos datos se realizó la predicción y como resultado se obtuvo que el ozono tuvo un valor de 18.850410 ug/m2
Para la segunda situación se mantuvo la situación de verano pero se varió la temperatura pasando de 28 a 30, al realizar este cambio y con todo lo demás constante el ozono paso de 18.850410 ug/m2 a 15.843890 ug/m2. El ozono disminuyó en 3,0065 ug/m2.
En la tercera situación se varió la radiación solar a comparación del primer escenario, pasando de 200 a 220, al realizar este cambio el ozono cambio de 18.85041 a 17.151558, teniendo una reducción de 1.6988 ug/m2
La cuarta situación, que es denominado día lluvioso, se pone en evidencia que la radiación solar es baja, ya que esta variable disminuye en los días lluviosos, al igual que la temperatura, ya que la lluvia actúa como un mecanismo de enfriamiento cuando se evapora. Por lo que refiere a la humedad, esta aumenta, por la presencia de lluvia que hay en el ambiente. La velocidad y la dirección del viento, son bajos, porque no hay alta intensidad, y la precipitación tiene un valor significativo, ya que esto refleja la cantidad de que cae. Dando así el ozono 0.138418 ug/m3
En la quinta situación se varió la precipitación de 2.8mm a 4mm con este cambio se obtuvo una contracción de ozono de 1.271491ug/m3 tuvo un aumento de 1.133ug/m3.
Y en la sexta situación se aumentó la velocidad del viento, pasando de 2.2 m/s a 3 m/s, se predijo un ozono de 1.34669 ug/m3 con una diferencia de la situación 4 de 1.2ug/m3.
El fenómeno del Niño se caracteriza por el calentamiento anormal de las aguas del Océano Pacífico tropical, lo que tiene efectos significativos en los patrones climáticos a nivel global.
La séptima situación trata de la temperatura es alta, por ende no habría precipitaciones y con alta velocidad del viento , en este caso,la concentración de ozono que nos arrojo es de 4.3111 ug/m3,
En la octava situación solo se disminuyó la temperatura y el ozono fue de 10.3242ug/m3.
En la novena situación se aumentó la radiación solar y las demás variables constantes lo cual nos dio una concentración de ozono de 12.285ug/m3.
Y en la última situación se disminuyó la humedad de 79 a 60 y el modelo predijo el ozono de 35.7724ug/m3.
El modelo aprobó dos supuestos, linealidad y homocedasticidad, pero falló el supuesto de la independencia. Por lo tanto el modelo no funciona para explicar el ozono, esto sugiere la necesidad de considerar mejoras en el modelo o explorar otras técnicas de ajuste como técnicas de transformación de datos o la inclusión de variables adicionales que capturen mejor la complejidad del fenómeno estudiado.
Se destacan las variables de temperatura, humedad y radiación solar como las más influyentes en la predicción del nivel de ozono. Estas variables son consideradas como factores clave a tener en cuenta para comprender y predecir los cambios en la concentración de ozono.
El análisis de los datos de lluvia reveló que la mayoría de las observaciones presentan un valor de cero, esto se presento por que al realizar la depuración de los datos se realizó un promedio por día y esto hizo que muchos valores diversos que se tenían se redujeron a un valor muy pequeño y no se tuviera en cuenta valores importantes, esto pasó con otras variables y no se presentan completamente sus valores, se cree que al no presentarse todos los valores registrados y solo un promedio por día fuera una de las razones para que el modelo no funcionara es su totalidad.
El ozono aumenta cuando se disminuye la temperatura en uno de los escenarios, pero en la matriz de correlación se concluyó que tenían una relación positiva, esto se debe a la multicolinealidad, afectando al modelo cuando realiza las predicciones.
Viento. (s/f). Navarra.es. Recuperado el 21 de junio de 2023, de http://meteo.navarra.es/definiciones/viento.cfm
Radiación solar. (s/f). Navarra.es. Recuperado el 21 de junio de 2023, de http://meteo.navarra.es/definiciones/radiacion_solar.cfm
Precipitación pluvial. (s/f). Proteccioncivilasesorias.com. Recuperado el 21 de junio de 2023, de http://www.proteccioncivilasesorias.com/index.php/meteorologicos/precipitacion-menu/precipitacion-pluvial-intro
Pronósticos con análisis de series de tiempo. (s/f). Recuperado el 21 de junio de 2023, de https://support.minitab.com/es-mx/minitab/21/help-and-how-to/statistical-modeling/time-series/supporting-topics/basics/forecasting/
El tiempo en Cali en el verano, temperatura promedio (Colombia) - Weather Spark. (s/f). Weatherspark.com. Recuperado el 22 de junio de 2023, de https://es.weatherspark.com/s/21493/1/Tiempo-promedio-en-el-verano-en-Cali-Colombia
Ozono. (2002). Poisoning, Toxicology, Environmental Health. Recuperado el 22 de junio de 2023, de https://medlineplus.gov/spanish/ozone.html
Estación Metereológica. (s/f). Ign.es. Recuperado el 22 de junio de 2023, de https://www.ign.es/espmap/figuras_clima_bach/pdf/Clima_fig_01.pdf
¿Qué es la humedad? (s/f). Airthings.com. Recuperado el 22 de junio de 2023, de https://www.airthings.com/es/what-is-humidity
CodeCogs, Zyba Ltd. (s/f). Equation Editor for online mathematics. Codecogs.com. Recuperado el 22 de junio de 2023, de https://editor.codecogs.com/