Introducción

El presente trabajo se realiza en el marco del desarrollo del curso “Gestión de datos” de la Universidad del Valle, en el cual se aborda el tema de series de tiempo, el cual ha sido guiado por el libro digital “Análisis y pronóstico de series de tiempo con R” del autor: Jorge Rodríguez.

Lo que se propone a realizar en el presente trabajo es un análisis de datos correspondientes a la calidad del aire, los datos son medidos en la estación Compartir, la cual está ubicada en el oriente de la ciudad de santiago de Cali y es una estación automática que reporta información horaria al centro de control del DAGMA (Departamento Administrativo de Gestión del Medio Ambiente). En esta estación se miden contaminantes como:

  • Material particulado menor a 10 micrometros (PM10)
  • Material particulado menor a 2.5 micrometros (PM2.5)
  • Ozono (O3)
  • Velocidad del viento
  • Dirección del viento
  • Temperatura
  • Humedad
  • Radiación solar
  • Precipitación.

Los datos generados por esta estación estan dados de forma horaria, es decir, las mediciones se realizan cada hora en punto, iniciando a las 00:00 y finalizando a las 23:00. Esta toma de datos al realizarse constantemente hace que se generen datos faltantes, debido a dos motivos según explican ellos:

  1. Anomalías en las estaciones de monitoreo, tales como fallas en los equipos, falta de energía eléctrica en la zona, hurto de equipos o cableado, mantenimiento o cambio de equipos.

  2. Inclusión o exclusión de algunos contaminantes o variables metereológicas (según criterio de expertos y caracteristic de la zona a monitorear)

Por tal motivo se realiza un análisis exploratorio de los datos para análizar los datos faltantes, se agrupan las observaciones de todo un día y se calcula el promedio de estas para generar un valor promedio de la variable para cada uno de los días a análizar.

Posteriormente se procede a análizar el modelo que va a tener como respuesta la variable O3 (Ozono) y como variables independientes la Radiación Solar, la Temperatura, la Humedad Relativa, la Velocidad y la Dirección del Viento y la Precipitación.

Con el modelo generado se propone realizar un análisis de diferentes escenarios con las variables independientes, dichos escenarios corresponderan a situaciónes probables y sus valores estarán justificados por lógica.

La base de datos que se usará para el desarrollo del modelo y de los diferentes análisis fue dada por el profesor Orlando Joaqui Barandica para fines estrictamente académicos.

CONTEXTO Y VARIABLES

Contexto climático

Para entender los análisis que se van a realizar es indispensable tener claros algunos conceptos sobre los datos que se van a tratar, algunos de estos conceptos se definen a continuación:

  • Tiempo atmosférico: “es el estado de la atmósfera en un momento dado. El tiempo atmosférico se expresa en el conjunto de fenómenos (nublado, soleado, lluvioso, calor, frío, viento o calma; o en situaciones atmosféricas extremas como helada, tormenta, vendaval, granizada, entre otros) que observamos en un instante determinado. El intervalo a que hace referencia el tiempo atmosférico es de minutos, horas hasta un par de días.”

  • Clima: “se entiende las condiciones atmosféricas predominantes durante un período determinado sobre un lugar o una región. Ese período puede ser una semana, o de cinco-diez días, mes(es), años, siglos. Las condiciones predominantes generalmente se cuantifican con el promedio de temperatura del período, el acumulado de precipitación en el periodo o el número de fenómenos extremos ocurrido en el período.”

  • Patrón climatológico: “el cual representa las condiciones que predominan durante un período largo, generalmente 30 años, con el que se caracterizan el clima de una región. Este se cuantifica mediante el cálculo de promedios de las observaciones o mediciones realizadas a las variables climatológicas (temperatura del aire, presión atmosférica, humedad relativa, precipitación, etc) y de la frecuencia de los fenómenos extremos.”

  • Cambio Climático: “Modificación de largo plazo de los patrones (distribución espacial, ciclo anual, amplitud, frecuencia de fenómenos meteorológicos extremos) observados en el clima durante largos periodos (siglos, milenios, etc).”

  • Fenómeno de El Niño: “término usado originalmente para describir la aparición, de tiempo en tiempo, de aguas superficiales más cálidas que lo normal en la región del Pacífico tropical central y oriental, frente a las costas del norte de Perú, Ecuador y sur de Colombia. Es una de las fases extremas dentro del ciclo conocido como El Niño, La Niña - Oscilación del Sur, que es la causa de la mayor señal de la variabilidad climática interanual, en la zona tropical.”

  • Fenómeno de La Niña: “se refiere a las condiciones frías extremas que recurrentemente, pero de manera irregular, se presentan en el sector central y oriental del Pacífico tropical (es el opuesto a las condiciones El Niño), durante por lo menos seis meses. Dicho enfriamiento de la superficie del mar cubre grandes extensiones de la superficie de este océano y por su magnitud altera sensiblemente el clima en diferentes regiones del planeta.”

Algunos autores han análizado a profundidad el tema del futuro climatico especificamente en el territorio colombiano, con diferentes escenarios, positivos y negativos sobre el incremento en la temperatura del territorio nacional, si desea saber mas sobre este tema dirijase al siguiente documento “LA VARIABILIDAD CLIMÁTICA Y EL CAMBIO CLIMÁTICO EN COLOMBIA” así mismo de aqui se extrajo toda la información sobre el contexto climático que se acabó de análizar, el documento se encuentra en el siguiente enlace: http://documentacion.ideam.gov.co/openbiblio/bvirtual/023778/variabilidad.pdf

prom_o3
Media SD Mínimo Mediana Máximo
31.56778 7.871336 12.69583 31.5375 58.67857
prom_vel_viento
Media SD Mínimo Mediana Máximo
2.551562 0.2984573 1.795454 2.529167 3.7
prom_dir_viento
Media SD Mínimo Mediana Máximo
217.4491 27.04989 134.6125 221.4167 279.9083
prom_temperatura
Media SD Mínimo Mediana Máximo
28.50368 1.269514 25.22 28.63333 32.98571
prom_humedad
Media SD Mínimo Mediana Máximo
57.01956 5.970239 36.97143 56.09583 73.03333
prom_radiacion
Media SD Mínimo Mediana Máximo
104.4379 25.93514 35.13571 104.6292 232.825
prom_lluvia
Media SD Mínimo Mediana Máximo
0.2654905 0.6836353 0 0 5.292222


Metodología

La metodología empleada en este caso implica la aplicación de un análisis de regresión lineal múltiple a una serie de tiempo. El objetivo es examinar la relación entre una variable dependiente y seis variables independientes. A través de este análisis, se busca determinar la relación lineal entre estas variables y crear un modelo que pueda predecir el comportamiento de la variable de respuesta \(Y\) utilizando los valores conocidos de las variables explicativas \(X_{it}\).
En este modelo de regresión, se considera que el término \(e\) representa el error aleatorio o residual. Este término captura la variabilidad no explicada por las variables independientes incluidas en el modelo. En resumen, el modelo se expresa mediante una relación lineal de la siguiente manera:


\[ Y\;=\;β_{0}\;+\;β_{1}*X_{1t}\;+\;β_{2}*X_{2t}\;+\;β_{3}*X_{3t}\;+\;β_{4}*X_{4t}\;+\;β_{5}*X_{5t}\;+\;β_{6}*X_{6t}\;+\;e_t \]


Donde:


  • \(Y:\) Es la variable de respuesta o variable dependiente que deseas predecir o explicar mediante el modelo de regresión lineal..

  • \(X_{kt}:\) Son las variables explicativas o variables independientes que se utilizan para predecir o explicar la variable de respuesta yt en el momento o período t. Cada x representa una variable distinta, y la subíndice t indica el valor específico de cada variable en el momento t.

  • \(β_{0}:\) (Intercepto) Que valor asumiría \(Y\) en la eventualidad de ausencia en \(X_{i}\), Es el intercepto o término independiente del modelo, que representa el valor esperado de yt cuando todas las variables explicativas (x1, x2, …, xk) son igual a cero..

  • \(β_{k}:\) (Pendiente) Cuánto cambia la variable dependiente \(Y\) , por cada unidad que varíe la variable independiente \(X_{k}\). Son los coeficientes de regresión que representan la relación entre cada variable explicativa (x1, x2, …, xk) y la variable de respuesta yt. Estos coeficientes indican cómo se espera que cambie yt cuando se modifica una unidad en la variable explicativa correspondiente, manteniendo constantes todas las demás variables explicativas., por lo tanto se puede decir que los coeficientes miden los efectos marginales

  • \(et:\) Es el término de error o residuo en el modelo de regresión lineal. Representa la diferencia entre el valor observado de yt y el valor predicho por el modelo. El término de error captura la variación no explicada por las variables explicativas y se asume que sigue una distribución normal con media cero.

Conocida ya la ecuación general para el modelo de regresión lineal múltiple con la serie de tiempos que se planea implementar, es importante a su vez definir que tipo de datos van a representar las variables predictoras \(X_{k}\) y la variable de respuesta \(Y\). De tal manera se tiene entonces que:


  • \(Y:\) Promedio de Oxigeno

  • \(X_{1}:\) Velociddad del tiempo

  • \(X_{2}:\) Dirección del viento

  • \(X_{3}:\) Temperatura

  • \(X_{4}:\) Humedad

  • \(X_{5}:\) Radiación Solar

  • \(X_{6}:\) Luvia

Dicho lo anterior, se procede entonces a remplazar las variables de respuesta \(X_{k}\) y la variable predictoria \(Y\) por sus respectivos nombres en la ecuación planteada al inicio de este apartado, Obteniendose:


\[ \small \text{prom_o3}\;=\;β_{0}\;+\;β_{1}*\text{prom_vel_viento}\;+\;β_{2}*\text{prom_dir_viento} \] \[ \small +\;β_{3}*\text{prom_temperatura}\;+\;β_{4}*\text{prom_humedad}\;+\;β_{5}*\text{prom_radiacion}\;+\;β_{6}*\text{prom_lluvia}\;+\;e_t \]


Explicación del modelo

Estimate Std. Error t value Pr(>|t|)
(Intercept) 168.9434 28.401 5.9485 *** (0.0000)
prom_vel_viento 0.1982 1.3398 0.1479 (0.8826)
prom_dir_viento -0.0138 0.014 -0.9875 (0.3247)
prom_temperatura -2.2682 0.6801 -3.3351 ** (0.0010)
prom_humedad -1.3668 0.1536 -8.8965 *** (0.0000)
prom_radiacion 0.0722 0.0155 4.6615 *** (0.0000)
prom_lluvia 0.6479 0.5502 1.1777 (0.2404)
## El R-cuadrado ajustado es: 0.6541
## El valor p es: 0.2403925

En el desarrollo del análisis del modelo se encuentra:

Interpretación del R²:

En la tabla anterior se muestra el valor del \((R^2)\) ajustado de:


## El R-cuadrado ajustado es: 0.6541


Esto se interpreta que el modelo de series de tiempo que se ha ajustado explica el 65.41% de la variabilidad total del ozono, utilizando las variables independientes: prom_vel_viento, prom_dir_viento, prom_temperatura, prom_humedad, prom_radiacion y prom_lluvia; esto quiere decir que el restante, osea el 34.59% se debe a factores no incluidos en el modelo o a errores aleatorios, este ajues es bueno para el modelo .


Interpretación de los coeficientes de regresión y valores - p:
  • prom_vel_viento: Para esta variable el coeficiente de regresión es de 0.19819, esto indica que si se aumenta en promedio 1 unidad en la velocidad del viento, la varible de ozono aumentara en un 0.19819. Sin embargo, como el valor p (0.8826) para esta variable es mayor a 0.05 se concluye que no es estadísticamente significativa, por lo tanto, se interpretar que el promedio de la velocidad del viento no tiene una relación significativa para la variable de ozono.

\[0.8826\;>\;0.05\]


  • prom_dir_viento: Para esta variable el coeficiente de regresión es de -0.01383, esto indica que si se aumenta en promedio 1 unidad en la dirección del viento, la varible de ozono diminuira en un -0.01383. Sin embargo, como el valor p (0.32466) para esta variable es mayor a 0.05 se concluye que no es estadísticamente significativa, por lo tanto, se interpretar que el promedio de la velocidad del viento no tiene una relación significativa para la variable de ozono.

\[0.32466\;>\;0.05\]


  • prom_temperatura : Para esta variable el coeficiente de regresión es de -2.26818, esto indica que si se aumenta en promedio 1 unidad en la temperatura, la varible de ozono diminuira en un -2.26818. Sin embargo, como el valor p (0.00102) para esta variable es menor a 0.05 se concluye que SI es estadísticamente significativa, y se defino como variable que explica el modelo.

\[0.00102\;<\;0.05\]


  • prom_humedad: Para esta variable el coeficiente de regresión es de -1.36682, esto indica que si se aumenta en promedio 1 unidad en la humedad, la varible de ozono diminuira en un -1.36682. Sin embargo, como el valor p (4.28e-16) para esta variable es menor a 0.05 se concluye que SI es estadísticamente significativa, y se defino como variable que explica el modelo.

\[4.28e-16\;<\;0.05\]


  • prom_radiacion: Para esta variable el coeficiente de regresión es de 0.07221, esto indica que si se aumenta en promedio 1 unidad en la radiacón solar, la varible de ozono aumentara en un 0.07221. Sin embargo, como el valor p (5.86e-06) para esta variable es menor a 0.05 se concluye que SI es estadísticamente significativa, y se defino como variable que explica el modelo.

\[5.86e-06\;<\;0.05\]

  • prom_lluvia: Para esta variable el coeficiente de regresión es de 0.64793, esto indica que si se aumenta en promedio 1 unidad en la lluvia, la varible de ozono aumentara en un 0.64793. Sin embargo, como el valor p (0.24039) para esta variable es mayor a 0.05 se concluye que no es estadísticamente significativa, por lo tanto, se interpretar que el promedio de la lluvia no tiene una relación significativa para la variable de ozono.

\[0.24039\;>\;0.05\]



Gráfico del modelo con valores Reales vs Ajustados


En el gráfico presentado, se representan dos líneas distintas. La primera línea corresponde a los valores reales de la variable de interés, mientras que la segunda línea representa los valores ajustados por el modelo de regresión lineal.
La relación cercana entre estas dos líneas en el gráfico indica que el modelo de regresión lineal es capaz de predecir de manera precisa los valores ajustados en comparación con los valores reales. Esta proximidad sugiere que el modelo tiene un buen ajuste y captura eficientemente la relación entre las variables independientes y la variable dependiente.
Al visualizar el gráfico, es evidente que los valores ajustados siguen una tendencia similar a la de los valores reales. Esto indica que el modelo ha capturado la estructura subyacente de los datos y es capaz de hacer predicciones cercanas a los valores observados. La cercanía entre las dos líneas también sugiere que el modelo tiene un buen poder predictivo y puede utilizarse para predecir con precisión el comportamiento de la variable de respuesta utilizando los valores conocidos de las variables explicativas.
En general, esta evidencia visual respalda la efectividad del modelo de regresión lineal en la predicción de los valores ajustados y sugiere que existe una relación cercana entre las dos líneas trazadas en el gráfico.

Gráfico de valores reales (eje x) y valores ajustados(eje y), dispersión


En este gráfico, se muestra la relación entre los valores ajustados y los valores reales de la variable de interés. La finalidad de esta representación es evaluar si existe una tendencia lineal entre los valores ajustados y los valores reales.
Cuando se observa una tendencia lineal en el gráfico, significa que a medida que aumentan los valores ajustados, los valores reales también tienden a aumentar en una proporción similar. Del mismo modo, cuando los valores ajustados disminuyen, los valores reales también tienden a disminuir en una proporción similar.
La presencia de una tendencia lineal indica que el modelo de regresión lineal es capaz de capturar y modelar de manera efectiva la relación lineal entre las variables independientes y la variable dependiente. Esto implica que el modelo ha encontrado una relación significativa y coherente entre las variables que se ajusta a un patrón lineal.
Es importante destacar que, si la relación entre los valores ajustados y los valores reales muestra una tendencia lineal sólida, esto respalda la validez y utilidad del modelo de regresión lineal en la predicción de la variable de interés. Sin embargo, si no se observa una relación lineal clara en el gráfico, podría indicar que el modelo no es apropiado o que existen otros factores no lineales que influyen en los datos.

Gráfico de correlaciones de variables


En esta tabla, se presentan las correlaciones entre las variables, lo que permite analizar las relaciones existentes entre ellas. Por ejemplo, al observar la variable del promedio de radiación solar, se puede notar que muestra tendencias claras en relación con las demás variables. Esto sugiere que la radiación solar puede tener un impacto significativo en el comportamiento de las otras variables. Por otro lado, al examinar la variable del promedio de lluvia, se puede observar que no muestra ninguna tendencia clara en el gráfico de dispersión. Esto indica que la lluvia puede tener una correlación débil o nula con las demás variables.
En la tabla, además de las correlaciones, se proporcionan las dimensiones de las variables, lo que permite comprender mejor las magnitudes de las relaciones encontradas. Las correlaciones pueden variar desde -1 hasta 1, donde un valor de -1 indica una correlación negativa perfecta, un valor de 1 indica una correlación positiva perfecta, y un valor cercano a 0 indica una correlación débil o nula.
Al analizar las correlaciones y sus magnitudes en la tabla, se pueden identificar patrones y relaciones significativas entre las variables. Estos hallazgos pueden ser útiles para comprender la naturaleza de los datos y su interdependencia. También pueden proporcionar información valiosa para futuros análisis y toma de decisiones.


Residuales del modelo

## 
##  Breusch-Godfrey test for serial correlation of order up to 10
## 
## data:  Residuals from Linear regression model
## LM test = 40.089, df = 10, p-value = 1.634e-05


En esta tabla de residuales, se realizan varios análisis para evaluar la calidad y características de los residuales del modelo. Los residuales representan la diferencia entre los valores observados y los valores ajustados por el modelo, y proporcionan información sobre la cantidad de variabilidad no explicada por las variables independientes.

- En la primera gráfica, se analiza la orientación y organización de los datos. Si los residuales no muestran ninguna orientación o patrón discernible, esto sugiere que no hay una dependencia estructurada en los residuales y que el modelo ha capturado la mayor parte de la variabilidad en los datos. Esto es deseable, ya que indica que el modelo es capaz de explicar la mayoría de la variabilidad observada en la variable de interés.

- En la segunda gráfica, se representa la función de autocorrelación (ACF) o correlograma. La función de autocorrelación muestra la correlación entre los residuales en diferentes retardos o intervalos de tiempo. Si se observa autocorrelación en los residuales, esto indica que hay una dependencia serial entre los errores del modelo. En otras palabras, los valores residuales en un momento dado están correlacionados con los valores residuales en momentos anteriores. Si algunos de los datos residuales se encuentran fuera de la banda de confianza, esto sugiere que hay una correlación significativa en esos retardos.

- En la tercera gráfica, se evalúa la distribución de los residuales. Si los residuales siguen una distribución normal, esto indica que el modelo captura adecuadamente la variabilidad aleatoria y que los errores se distribuyen de manera simétrica alrededor de cero. Esta es una suposición importante en el análisis de regresión, ya que permite realizar inferencias estadísticas precisas y confiables.

Gráficas de disperción de los variables para datos residuales


En estos gráficos, se presentan los residuales de las variables independientes del modelo de regresión. Los residuales representan la diferencia entre los valores observados de las variables independientes y los valores predichos por el modelo.
Cuando se analizan los residuales de las variables independientes, es deseable que permanezcan cerca del valor 0. Esto significa que el modelo es capaz de capturar la variabilidad de las variables independientes y que los valores predichos se ajustan de manera cercana a los valores observados.
Al observar los gráficos, si los residuales de las variables independientes se mantienen alrededor del valor 0 y no muestran patrones sistemáticos o tendencias claras, se puede concluir que cumplen con este principio. Esto indica que el modelo es capaz de explicar la mayoría de la variabilidad en las variables independientes y que las predicciones realizadas son precisas.
Cuando los residuales de las variables independientes se alejan significativamente del valor 0, podría indicar que el modelo no está capturando adecuadamente la variabilidad de las variables independientes. Esto podría ser una señal de que se necesita revisar o mejorar el modelo. Asi se puede saber si estas variables inciden en algun sesgo para el modelo.

Gráficas de disperción de residuales del modelo


En este gráfico de dispersión de los residuales con respecto al modelo, se busca evaluar la presencia de dispersión y autocorrelación en los residuales. Estas características son importantes para asegurar la validez del modelo de regresión.
La dispersión en el gráfico de dispersión indica la variabilidad de los residuales en relación con los valores predichos por el modelo. Si se observa una dispersión uniforme alrededor de cero, esto sugiere que los residuales están distribuidos de manera aleatoria y no existe un patrón sistemático en la variabilidad no explicada por el modelo. En otras palabras, los residuales se distribuyen de manera equitativa tanto por encima como por debajo de cero a lo largo del rango de valores del modelo. Esto indica que el modelo está capturando de manera efectiva la variabilidad de la variable dependiente.
En cuanto a la autocorrelación, se analiza si hay patrones sistemáticos en la disposición de los residuales a lo largo del rango del modelo. Si no se observa ninguna autocorrelación, significa que los residuales no están correlacionados entre sí y no existe una dependencia serial en los errores del modelo. Esto es deseable, ya que garantiza que los errores sean independientes y no se afecten mutuamente en diferentes puntos del rango de valores del modelo.
Al concluir que existe dispersión en el gráfico de dispersión de los residuales con respecto al modelo y que no se observa ninguna autocorrelación clara, se puede inferir que los residuales están correctamente distribuidos y que no hay dependencia serial en los errores del modelo. Esto respalda la validez del modelo de regresión y sugiere que el modelo está capturando de manera adecuada la variabilidad de la variable dependiente, dejando solo errores aleatorios sin patrones sistemáticos.

Predicciones

Estos sera nuestro datos base. Los datos suministrados fuero las media de los valores de los promedio por variable, y los datos en los escenarios se varia de mayor a menor datos aleatorios dentro de los rangos de los valores de la base de datos, dependiendo de la variable a tratar.

##        1 
## 31.56747

Escenario 1 Variación de temperatura

##        1        2        3        4 
## 24.20425 29.12619 32.58289 36.51590


Para la temperatura se quizo variar de mayor a menor dentro del rango que se permite, dentro de los valores suministrados en la base de datos. Estos son:
- Prueba 1: 31.75
- Prueba 2: 29.58
- Prueba 3: 28.056
- Prueba 4: 26.322


Con los resultados mostrados anteriormente se puede ver que mientras disminuya la temperatura la variable del promedio Ozono va aumentar. En este escenario es ligado a las temporadas de sequia o fenomeno del niño, todas las afectaciones que pueden tener las industria en el cambio climático en el mundo.

Escenario 2 Variando la Humedad

##        1        2        3 
## 10.37710 25.31915 29.59182


Para la Humedad se quizo variar los valores de mayor a menor, dentro de los valores suministrados en la base de datos. Estos son:
- Prueba 1: 72.523
- Prueba 2: 61.591
- Prueba 3: 58.465

Con los resultados mostrados anteriormente se puede ver que mientras se disminuya la humedad la variable del promedio Ozono va aumentar significativamente. En este escenario esta ligado a las temporadas de lluvias o fenomeno de la niña.

Escenario 3 Variando la Radiación Solar

##        1        2        3 
## 40.66731 34.29689 28.34710


Para la Radiación solar se quizo variar los valores de mayor a menor, dentro de los valores suministrados en la base de datos. Estos son:
- Prueba 1: 230.456
- Prueba 2: 142.236
- Prueba 3: 59.841

Con los resultados mostrados anteriormente se puede ver que mientras se disminuya la Radiación solar la variable del promedio Ozono a disminuir significativamente. Con esto se concluye que la Radiación solar es un factor determinante para explicar la variable del promedio Ozono, ademas si se logra bajos numeros de radiación solar tiene un indice menor en el Ozono.


Conclusiones

De acuerdo al modelo realizado y a los resultados obtenidos de las predicciones, podemos llegar a la conclusión de que al existir una mayor temperatura y humedad habrá una menor concentración de ozono. Así mismo, al haber una mayor radiación solar existirá una tendencia a que se incremente la concentración de ozono en el aire.

REFERENCIAS

  • IDEAM - UNAL, Variabilidad Climática y Cambio Climático en Colombia, Bogotá, D.C., 2018. 2018, Instituto de Hidrología, Meteorología y Estudios Ambientales – IDEAM; Universidad Nacional de Colombia – UNAL. Todos los derechos reservados. Los textos pueden ser usados parcial o totalmente citando la fuente. Su reproducción total o parcial debe ser autorizada por el IDEAM. Publicación aprobada por el IDEAM Marzo de 2018, Bogotá D.C., Colombia - Distribución Gratuita. ISBN: 978-958-8067-97-1