Es conocido el modelo de regresión por series de tiempo como una técnica estadística que se utiliza con el objetivo de analizar y predecir el comportamiento que tendrá una variable con respecto al tiempo. Este método es utilizado comúnmente cuando los datos se organizan de forma cronológica y a su vez es de esperarse que exista una relación entre la variable dependiente y el tiempo. Por medio de este tipo de modelos, se busca encontrar una relación lineal entre las variables independientes y las variables dependientes a lo largo del tiempo.
En el modelo se hará uso de la base de datos de calidad de aire de la estación Compartir en el año 2018. Mediante una elección aleatoria de 200 datos se ajustará el modelo de modo que tome como variable de respuesta o “Y” a la variable dependiente \(O^3\) (Ozono) y como variables independientes a la Temperatura, la Radiación Solar, la Humedad, la Velocidad del aire, la Dirección del aire y la Precipitación o Lluvias; a lo largo del documento se profundizará detalladamente sobre el concepto y las características estadísticas de cada variable. El objetivo principal de este modelo es predecir y analizar el comportamiento con respecto al tiempo de la variable dependiente \(O^3\) (Ozono) haciendo uso de las demás variables independientes mencionadas.
Las series de tiempo, son conjuntos de datos los cuales son recopilados a lo largo del tiempo. El análisis de estas, es una técnica estadística para predecir y comprender el comportamiento de los datos a través del tiempo. Estas deben cumplir unos supuestos básicos:
Normalidad: se refiere a la distribución de los datos en la serie de tiempo, se dice que existe normalidad si estos se distribuyen alrededor de su media, siguiendo la forma de la campana de Gauss. Esta suele ser un supuesto deseable y en este caso se va a observar por medio del Shapiro-Test.
Independencia: los valores de la serie en algún punto no deben mostrar correlación con los valores anteriores o posteriores, si existe alguna relación temporal en los datos, entonces hay autocorrelación presente en la serie. Se observa por medio de la función de autocorrelación (ACF).
Homocedasticidad: la varianza de los errores debe ser constante a lo largo del tiempo, es decir, la dispersión de los errores no debe depender del tiempo. Se puede observar por medio de gráficos de descomposición de series de tiempo o con el análisis de los residuos.
Linealidad: la mayoría de modelos de series de tiempo, suelen asumir linealidad ya que implica que los cambios en una variable están directamente relacionados con los cambios en otra variable de manera proporcional. Se puede evaluar por medio de gráficos y pruebas estadísticas.
Ozono (\(O^3\)): es una sustancia compuesta por 3 atomos de oxígeno, se encuentra presente en dos partes de la atmósfera: en la más alta, para formar una capa que protege la tierra de los rayos ultravioletas, y al nivel del suelo, que se considera como un contaminante en el aire.
En la base de datos de la estación Compartir, se puede observar que el 2018-05-13 se presentó el menor nivel de ozono con un valor de 12.69 µg/m3, por otro lado, el 2018-08-27 se presentó el mayor nivel de ozono con un valor de 58.67 µg/m3, cabe resaltar que en los datos tomados, en promedio el nivel de ozono atmosférico fue de 31.09 µg/m3.
La gráfica muestra la variación de los datos de nuestra base llamada “Base5” a través del periodo de tiempo atribuido, cada color está asignado a una variable, la cual se puede observar en la extrema derecha de la gráfica.
La siguiente gráfica muestra el comportamiento de ozono en función del tiempo, lo cual nos permite analizar cómo ha variado la cantidad de ozono a lo largo de nuestro periodo de tiempo establecido. El eje horizontal representa el tiempo y el eje vertical muestra la concentración de ozono, expresada en microgramos por metro cúbico (μg/m³).
No se puede decir que la trayectoria de la concentración de ozono es ascendente o descendente a través de este tiempo, pues la gráfica muestra fluctuaciones regulares, además, se observan concentraciones de ozono muy altas y muy bajas en ciertos puntos, estos pueden ser denominadas anomalías o eventos atípicos, los cuales pudieron haber sido causados por diferentes eventos, como por ejemplo incendios forestales, emisiones industriales o eventos meteorológicos extremos.
La correlación entre la variable dependiente y las variables independientes puede indicar si existe una relación lineal entre ellas. Una correlación positiva sugiere que a medida que los valores de las variables independientes aumentan, también lo hacen los valores de la variable dependiente. Por otro lado, una correlación negativa indica que a medida que los valores de las variables independientes aumentan, los valores de la variable dependiente disminuyen. Estas relaciones lineales pueden ser útiles para comprender la naturaleza de la relación entre las variables y proporcionar información para la interpretación de los resultados del modelo.
A continuación los gráficos muestran las relaciones lineales entre los puntos del diagrama de nuestra variable dependiente y las variables independientes situándose a lo largo de una recta, mediante su dirección observamos una asociación en algunos casos positiva o negativa como se puede observar, además la fuerza de la relación se ve expresada en la proximidad de las puntas a la forma que tiene la recta.
Correlaciones con la variable Ozono:
La matriz de correlación nos permite analizar fácilmente las correlaciones que presentan tanto las variables entre sí, como su relación con la variable dependiente. En nuestra matriz se logra observar que casi todas las variables presentan una distribución normal con excepción de la variable lluvia. Además, se muestra la correlación de las variables de forma cuantitativa, como ya sabemos esta fluctúa entre -1 y 1, y su nivel de significancia que está dado por asteriscos, en donde “***” significa mayor relevancia.
Por ejemplo, una correlación que además de ser positiva es relevante es la de la radiación solar con el ozono, por el contrario una correlación que no es relevante es entre la dirección del viento y la velocidad del viento.
Al utilizar el Ozono como variable de respuesta o variable dependiente y las demás variables como variables regresoras o independientes, se pueden observar cuál es el nivel de significancia de estas, las únicas variables que no son significativas son la velocidad y dirección del viento. Con respecto a la bondad de ajuste, el 59% de variabilidad del Ozono es explicado por el modelo.
##
## Call:
## tslm(formula = Ozono ~ Temperatura + Vel.Viento + Dirc.Viento +
## RadiacionSolar + Lluvia + Humedad, data = Base5)
##
## Residuals:
## Min 1Q Median 3Q Max
## -16.6236 -3.2376 -0.0832 2.6347 17.7370
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 131.77942 29.07827 4.532 1.02e-05 ***
## Temperatura -1.52394 0.72909 -2.090 0.0379 *
## Vel.Viento 0.92634 1.42099 0.652 0.5152
## Dirc.Viento 0.01132 0.01678 0.675 0.5007
## RadiacionSolar 0.07455 0.01851 4.027 8.12e-05 ***
## Lluvia 2.03686 0.78732 2.587 0.0104 *
## Humedad -1.23946 0.15758 -7.865 2.51e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.254 on 194 degrees of freedom
## Multiple R-squared: 0.603, Adjusted R-squared: 0.5907
## F-statistic: 49.1 on 6 and 194 DF, p-value: < 2.2e-16
En el gráfico de los residuos de nuestro modelo de regresión lineal podemos observar como los residuales están no autocorrelacionados, pues no se logra evidenciar una tendencia, sino más bien estos siguen un proceso aleatorio (nuestro p-valor también es más pequeño que el de significancia, de 0.05). Además en el ACF se logra evidenciar como gran cantidad de correlaciones no superan nuestras bandas de confianza y las que sí lo hacen son aquellas que podemos tolerar. Por último, en el histograma de residuales, da la impresión de que estos tienen un comportamiento normal. Por lo que concluimos que los residuos son independientes entre sí.
##
## Breusch-Godfrey test for serial correlation of order up to 40
##
## data: Residuals from Linear regression model
## LM test = 88.592, df = 40, p-value = 1.55e-05
Dado a que se rechaza la hipótesis nula, puesto que existe al menos una variable que presenta una relación lineal. Esto sugiere en nuestro modelo que los cambios en las variables independientes están estrechamente relacionados con los cambios en nuestra variable dependiente (ozono).
En los diagramas de dispersión entre los residuos del modelo con cada predictor utilizado y con los valores ajustados del modelo se observa que estos no presentan algún patrón resaltante, por lo que se puede decir si hay linealidad en el modelo, de esta manera, no se requiere ajustes en el modelo y la inclusión de variables adicionales.
Para esta prueba la hipótesis nula propone que los errores del modelo ajustado tienen varianza constante mientras que la hipótesis alterna que estos no tienen varianza constante.
Al realizarse la prueba (Breusch-Pagan) nuestro p-value es de 0.04305, menor que el del nivel de significancia establecido, por lo que no se tiene evidencia suficiente para rechazar la hipótesis nula de que los errores del modelo ajustado tienen varianza constante. De esta manera aceptamos H0. Esto indica que la variabilidad de los errores es constante en todos los niveles de las variables predictoras, algo deseable para nuestro análisis.
##
## studentized Breusch-Pagan test
##
## data: M1
## BP = 12.999, df = 6, p-value = 0.04305
Como se mencionó anteriormente en la metodología, para analizar la normalidad se hizo uso de la prueba shapiro.test() en donde la hipótesis nula (H0) es que existe normalidad o los datos presentan una distribución normal, mientras que la hipótesis alterna (H1) sugiere que no se presenta normalidad en los datos.
##
## Shapiro-Wilk normality test
##
## data: M1$residuals
## W = 0.98626, p-value = 0.04821
Como se observa el resultado del p-value de la prueba es de 0.04821 lo que nos indica que no se tiene evidencia suficiente para rechazar la hipótesis nula de que los datos siguen una distribución normal. Por lo que aceptamos H0, que indica que los datos se aproximan a una distribución normal. El hecho de que los residuos presentan una distribución normal indica que los errores se distribuyen simétricamente alrededor de cero, lo que implica un supuesto importante en la regresión lineal, puesto que si los residuos no siguen una distribución normal los intervalos de confianza o los valores o pueden ser inexactos o inválidos.
Para esta parte, se plantearon 10 distintos escenarios, desde épocas de mucha lluvia y bajas temperaturas, y de mucho sol con temperaturas altas.
Con los valores anteriores se realiza la primera predicción con el escenario base
newdata1= data.frame(Vel.Viento=c(2.641667), Dirc.Viento=c(189.6417), Temperatura=c(31.18333), Humedad=c(49.45833), RadiacionSolar=c(215.71667), Lluvia=c(0.00000000))
predict(M1, newdata1)
## 1
## 43.63118
Teniendo en cuenta el cambio en las variables mencionadas y con todo lo demás constante se realizó la segunda predicción con este escenario.
newdata2= data.frame(Vel.Viento=c(3.7), Dirc.Viento=c(189.6417), Temperatura=c(25.3), Humedad=c(70), RadiacionSolar=c(215.71667), Lluvia=c(3.5))
predict(M1, newdata2)
## 1
## 35.24578
Como se observa la concentración de ozono disminuyó durante la temporada de lluvias en base a el escenario principal. Hay varias razones que explican esta reducción:
Limpieza atmosférica: La lluvia actúa como un mecanismo natural de limpieza atmosférica, ya que arrastra y elimina los contaminantes presentes en el aire, incluyendo el ozono. Las gotas de lluvia pueden absorber las partículas y los compuestos químicos presentes en la atmósfera, incluyendo el ozono, llevándolos hacia la superficie terrestre. Mayor dispersión y dilución: Durante las temporadas de lluvia, es común que haya una mayor humedad en el aire. Esta humedad favorece una mayor dispersión de los contaminantes, incluyendo el ozono, lo que conduce a una dilución de su concentración. Procesos químicos: La presencia de agua en forma de lluvia puede participar en reacciones químicas que conducen a la degradación y eliminación del ozono. Por ejemplo, el ozono puede reaccionar con los compuestos orgánicos presentes en el aire en presencia de agua, formando subproductos que son más solubles y pueden ser eliminados más fácilmente.
Teniendo en cuenta el cambio en las variables mencionadas y con todo lo demás constante se realizó la tercera predicción.
newdata3= data.frame(Vel.Viento=c(2.641667), Dirc.Viento=c(189.6417), Temperatura=c(32.9), Humedad=c(36.9), RadiacionSolar=c(232), Lluvia=c(0.00000000))
predict(M1, newdata3)
## 1
## 57.79459
Este es el caso contrario de la temporada de lluvias, por lo que la concentración de ozono ahora tiende a aumentar. Esto se debe al aumento considerable de la radiación solar, pues durante el verano, hay una mayor cantidad de radiación solar que incide sobre la superficie terrestre. La radiación solar es un factor clave en la formación de ozono en la troposfera a través de reacciones fotoquímicas. La luz solar actúa sobre los precursores de ozono, como los óxidos de nitrógeno (NOx) y los compuestos orgánicos volátiles (COV), para formar ozono en presencia de otros contaminantes atmosféricos.
Por otra parte, hay una mayor estabilidad atmosférica, en las temporadas de verano, especialmente en áreas urbanas, se puede generar una mayor estabilidad atmosférica debido a la disminución de las corrientes ascendentes y la presencia de anticiclones. Esta estabilidad atmosférica puede atrapar los contaminantes cerca de la superficie, incluyendo el ozono, permitiendo que se acumulen y aumenten sus concentraciones.
Por último, durante el verano, hay una mayor actividad humana, incluyendo el aumento del tráfico vehicular y la actividad industrial. Estas actividades liberan precursores de ozono, como los óxidos de nitrógeno (NOx) y los compuestos orgánicos volátiles (COV), que contribuyen a la formación de ozono en la troposfera.
Teniendo en cuenta el cambio en las variables mencionadas y con todo lo demás constante se realizó la cuarta predicción
newdata4= data.frame(Vel.Viento=c(3.5), Dirc.Viento=c(230), Temperatura=c(31.18333), Humedad=c(49.45833), RadiacionSolar=c(215.71667), Lluvia=c(3.5))
predict(M1, newdata4)
## 1
## 52.01212
La presencia de una tormenta tropical puede resultar en un aumento de la concentración de ozono (según el escenario principal) como se observa en la predicción, aunque debido a las fuertes lluvias y los vientos intensos estas ayudan a limpiar la atmósfera, aún existe el factor de las emisiones locales de contaminantes (afectando su concentranción local). Además, los cambios en la circulación atmosférica asociados a la tormenta pueden influir en la distribución y concentración del ozono, especialmente a través de cambios en la dirección del viento.
Es importante tener en cuenta que los terremotos son fenómenos principalmente asociados con movimientos tectónicos y liberación de energía en la corteza terrestre, por lo que no tienen un impacto directo en variables como la temperatura, la humedad o la lluvia.
newdata5= data.frame(Vel.Viento=c(2.641667), Dirc.Viento=c(148), Temperatura=c(31.18333), Humedad=c(49.45833), RadiacionSolar=c(34), Lluvia=c(0.00000000))
predict(M1, newdata5)
## 1
## 29.61292
Es importante tener en cuenta que los terremotos no afectan directamente la concentración de ozono, pero pueden tener algunos efectos secundarios en la atmósfera que podrían tener un impacto indirecto en ella. Por esta razón la predicción muestra una disminución de concentración de ozono baja, sólo de aproximadamente 2 (ug/m3). Los efectos secundarios que llevan a esta disminución pueden ser:
Liberación de partículas y polvo: Durante un terremoto, la agitación del suelo puede generar la liberación de partículas y polvo en la atmósfera. Estas partículas y polvo pueden interactuar con otros compuestos presentes en la atmósfera, pero su impacto en la concentración de ozono suele ser limitado y de corta duración.
Alteraciones en la circulación atmosférica: Un terremoto de gran magnitud puede afectar temporalmente los patrones de circulación atmosférica, especialmente en áreas cercanas al epicentro. Estos cambios en la circulación pueden influir en la mezcla y dispersión de los contaminantes en la troposfera, lo que podría tener un efecto indirecto en la concentración de ozono.
En un incendio forestal se crean corrientes de aire que aumentan la velocidad del viento de la zona, mas no cambian de manera considerable la dirección hacia donde normalmente se mueve el viento, la temperatura atmosférica se eleva por el calor que generan las llamas y los niveles de humedad en el aire disminuyen, un incendio forestal no aumenta directamente los niveles de radiación, ni la lluvia, haremos el supuesto de que ese día no llovió, por lo cual la vegetación estaba seca y ayudó a que se diera el incendio.
newdata6= data.frame(Vel.Viento=c(3.71667), Dirc.Viento=c(173.6417), Temperatura=c(33.18333), Humedad=c(30.45833), RadiacionSolar=c(110.5435), Lluvia=c(0.00000000))
predict(M1, newdata6)
## 1
## 57.1072
Los incendios forestales, tienen niveles significativos en el ozono, como por ejemplo:
Emisión de contaminantes: aumento de la concentración del ozono en la parte baja en las áreas afectadas por el humo y los elementos que causaron la combustión.
Transporte de humo: suele contener compuestos químicos que son precursores del ozono, pueden ser transportados por el viento a otras regiones y contribuir a la formación de ozono en zonas más alejadas del incendio.
Cambios en la radiación solar: los incendios forestales producen una gran cantidad de humo y partículas que pueden afectar directamente a los cambios en la radiación solar, puesto que, el humo puede bloquear el paso de radiación solar, afectando tanto la formación como la destrucción del ozono.
Durante la temporada de cometa la velocidad del viento es alta, la dirección del viento no se ve afectada, la temperatura tiende a permanecer cercana a la media de la zona, la humedad también se mantiene un poco alta debido a que se está cerca de la temporada de lluvia, la radiación solar tiempo a ser baja ya que los días normalmente son nublados y la lluvia tiende a ser baja.
newdata7= data.frame(Vel.Viento=c(3.641667), Dirc.Viento=c(192.6417), Temperatura=c(25.34333), Humedad=c(59.45833), RadiacionSolar=c(53.71667), Lluvia=c(0.7))
predict(M1, newdata7)
## 1
## 30.44543
Esta no tiene un impacto significativo en el cambio de las partículas de ozono, ya que se suele ver mayormente afectado por factores como emisiones de sustancias químicas, radiación solar y reacciones químicas.
Dado que, los cometas son cuerpos celestes con una gran distancia a la tierra, las emisiones de gases de estos es demasiado baja como para afectar de manera significativa, la mayoría de estos gases suelen dispersarse por el espacio y se diluyen rápidamente hasta desaparecer, sin llegar a tener un impacto en la composición del ozono.
Durante la época de pocas lluvias la velocidad y la dirección del viento tiende a ser cercana a la media de la zona, la temperatura tiende a ser alta y la humedad baja, debido a la falta de lluvia y a los altos niveles de radiación solar. Este calentamiento, se produce debido a cambios en los patrones y en la circulación atmosférica.
newdata8= data.frame(Vel.Viento=c(2.741667), Dirc.Viento=c(189.6417), Temperatura=c(32.343), Humedad=c(37.33), RadiacionSolar=c(214.17), Lluvia=c(0.00000000))
predict(M1, newdata8)
## 1
## 56.87387
La influencia en el ozono por parte del fenómeno del niño, es de manera indirecta y depende de mucho otros factores, como por ejemplo, el camabio en la variabilidad de la radiación solar, ya sea por cambios en las nubes y condiciones atmosféricas que influyan a la cantidad de radiación UV que llega hacia la tierra.
Durante final de año, tiende a ser la temporada de lluvia donde la velocidad del viento tiende a ser alta, debido a las fuertes corrientes de aire que se ven durante las lluvias, la dirección del viento tiende a estar cerca a la tendencia de la zona, la temperatura es baja ya que durante esta época aumentan la lluvia y los niveles de humedad del ambiente, además la radiación solar tiende a ser baja debido a la alta presencia de nubes, por lo cual el clima de la zona tiende a ser más frío de lo normal.
newdata9= data.frame(Vel.Viento=c(3.667), Dirc.Viento=c(205.6417), Temperatura=c(24.58), Humedad=c(70.433), RadiacionSolar=c(118.927), Lluvia=c(3.2789))
predict(M1, newdata9)
## 1
## 28.29088
Al igual que el escenario anterior, no tiene una influencia directa al cambio en el ozono, afectando de igual manera la variabilidad de la radiación solar y por otro lado, la emisión de contaminantes, por elementos como la calefacción o el humo de fogatas/chimeneas que puedan aumentar también emisiones de contaminantes.
Durante una lluvia con granizo, la velocidad del viento tiende a ser alta, debido a las fuertes corrientes de aire que trae la tormenta , la dirección del viento tiende a estar cerca a la tendencia de la zona, ya que no hay ningún evento considerable que pueda afectarla, los niveles de humedad del ambiente son altos debido a la lluvia, además la temperatura atmosférica tiende a ser baja ya que este es uno de los causantes de que se genere el granizo, además, la radiación solar tiende a ser baja debido a que la alta presencia de nubes que están generando al lluvia, bloquea el paso de los rayos solares.
newdata10= data.frame(Vel.Viento=c(3.721667), Dirc.Viento=c(139.6417), Temperatura=c(23.18333), Humedad=c(65.453), RadiacionSolar=c(67.77), Lluvia=c(2.96536))
predict(M1, newdata10)
## 1
## 31.44307
El granizo, suele estar asociado a tormentas eléctricas y fuertes corrientes, las cuales pueden influir directamente en la circulación, aún así, su impacto no es demasiado, suele depender de otros factores como la región en la que sucede este escenario.
En torno a la creación del modelo de regresión lineal en series de tiempo usando como variable dependiente al O3 (Ozono) observamos que el modelo ajustado cumple con todos los supuestos necesarios como lo son la homocedasticidad, la independencia, linealidad y normalidad. Por lo tanto, se presume afirmar que el modelo es eficiente y es posible hacer inferencias significativas conforme a las variables de respuesta que arroje.
Entre la información sacada a partir del modelo es posible observar que las variables significativas o aquellas que guardan mayor relevancia en el cálculo de la variable dependiente, poseen una relación científicamente explicada. Entre estas variables aquella que poseen un mayor nivel de relevancia o significancia es la radiación solar, esto se debe a que la radiación ultravioleta del sol es el principal impulsor de la formación de la partícula del ozono dentro de la atmósfera, interactúa con las moléculas de oxígeno dividiéndolas en átomos individuales los cuales reaccionan con otras moléculas formando así el ozono. Por este motivo la intensidad de la radiación solar afecta de forma directa la generación de ozono.
Por otro lado la relación que guarda el ozono con la humedad, la cual es otra variable significativa en el modelo, es que esta influye en el transporte y la dispersión del ozono afectando los patrones de circulación de aire afectando así su concentración, razón por la cual se denota en el modelo una relación negativa entre esta variable y la variable de respuesta. La temperatura, otra variable relevante, al igual que la humedad comprende una relación negativa con el ozono puesto que las bajas temperaturas pueden conducir a una mayor destrucción del ozono, esto se debe a que la formación de masas de aire frío y aislado en la estratosfera traen consigo acumulaciones de sustancias químicas destructoras del ozono.
En último lugar entre las variables significativas se encuentra la lluvía, su baja influencia es debida a que a pesar de que la lluvia puede tener un efecto de lavado sobre el ozono, el impacto que esta guarda sobre la variable de respuesta depende de varios factores ambientales y químicos.
Entre las predicciones es posible apreciar estas observaciones tomando como ejemplo el resultado de la variable dependiente comparando la temporada de lluvia donde la humedad es mayor y hay temperaturas más bajas con la temporada de verano en donde hay mayor presencia de la radiación solar y existen temperaturas más altas, además de tener bajas cantidades atmosféricas de humedad. Se contempla que la cantidad de ozono es menor en la temporada de lluvias que en la temporada de verano siendo los valores arrojados por el modelo 35.24 y 57.79 respectivamente.
En conclusión es posible afirmar la efectividad del modelo al cumplir con todos los prerrequisitos para su correcto funcionamiento y al observar su capacidad de acercarse a datos o conclusiones observadas en la realidad.
“Introductory Time Series with R” de Paul S.P. Cowpertwait y Andrew V. Metcalfe.
Universal, R. E. (2018, 23 febrero). ¿Qué es el ozono? El Universal. https://www.eluniversal.com.mx/nacion/sociedad/que-es-el-ozono/