Integrantes:
Sara Velasco
Cristian Rivera
Manuel
Rincón
Luis Eduardo Cambindo
El presente trabajo se realiza en el marco del desarrollo del curso “Gestión de datos” de la Universidad del Valle, en el cual se aborda el tema de series de tiempo, el cual ha sido guiado por el libro digital “Análisis y pronóstico de series de tiempo con R” del autor: Jorge Rodríguez.
Lo que se propone a realizar en el presente trabajo es un análisis de datos correspondientes a la calidad del aire, los datos son medidos en la estación Compartir, la cual está ubicada en el oriente de la ciudad de santiago de Cali y es una estación automática que reporta información horaria al centro de control del DAGMA (Departamento Administrativo de Gestión del Medio Ambiente). En esta estación se miden contaminantes como:
Los datos generados por esta estación estan dados de forma horaria, es decir, las mediciones se realizan cada hora en punto, iniciando a las 00:00 y finalizando a las 23:00. Esta toma de datos al realizarse constantemente hace que se generen datos faltantes, debido a dos motivos según explican ellos:
Anomalías en las estaciones de monitoreo, tales como fallas en los equipos, falta de energía eléctrica en la zona, hurto de equipos o cableado, mantenimiento o cambio de equipos.
Inclusión o exclusión de algunos contaminantes o variables metereológicas (según criterio de expertos y caracteristic de la zona a monitorear)
Por tal motivo se realiza un análisis exploratorio de los datos para análizar los datos faltantes, se agrupan las observaciones de todo un día y se calcula el promedio de estas para generar un valor promedio de la variable para cada uno de los días a análizar.
Posteriormente se procede a análizar el modelo que va a tener como respuesta la variable O3 (Ozono) y como variables independientes la Radiación Solar, la Temperatura, la Humedad Relativa, la Velocidad y la Dirección del Viento y la Precipitación.
Con el modelo generado se propone realizar un análisis de diferentes escenarios con las variables independientes, dichos escenarios corresponderan a situaciónes probables y sus valores estarán justificados por lógica.
La base de datos que se usará para el desarrollo del modelo y de los diferentes análisis fue dada por el profesor Orlando Joaqui Barandica para fines estrictamente académicos.
Para entender los análisis que se van a realizar es indispensable tener claros algunos conceptos sobre los datos que se van a tratar, algunos de estos conceptos se definen a continuación:
Tiempo atmosférico: “es el estado de la atmósfera en un momento dado. El tiempo atmosférico se expresa en el conjunto de fenómenos (nublado, soleado, lluvioso, calor, frío, viento o calma; o en situaciones atmosféricas extremas como helada, tormenta, vendaval, granizada, entre otros) que observamos en un instante determinado. El intervalo a que hace referencia el tiempo atmosférico es de minutos, horas hasta un par de días.”
Clima: “se entiende las condiciones atmosféricas predominantes durante un período determinado sobre un lugar o una región. Ese período puede ser una semana, o de cinco-diez días, mes(es), años, siglos. Las condiciones predominantes generalmente se cuantifican con el promedio de temperatura del período, el acumulado de precipitación en el periodo o el número de fenómenos extremos ocurrido en el período.”
Patrón climatológico: “el cual representa las condiciones que predominan durante un período largo, generalmente 30 años, con el que se caracterizan el clima de una región. Este se cuantifica mediante el cálculo de promedios de las observaciones o mediciones realizadas a las variables climatológicas (temperatura del aire, presión atmosférica, humedad relativa, precipitación, etc) y de la frecuencia de los fenómenos extremos.”
Cambio Climático: “Modificación de largo plazo de los patrones (distribución espacial, ciclo anual, amplitud, frecuencia de fenómenos meteorológicos extremos) observados en el clima durante largos periodos (siglos, milenios, etc).”
Fenómeno de El Niño: “término usado originalmente para describir la aparición, de tiempo en tiempo, de aguas superficiales más cálidas que lo normal en la región del Pacífico tropical central y oriental, frente a las costas del norte de Perú, Ecuador y sur de Colombia. Es una de las fases extremas dentro del ciclo conocido como El Niño, La Niña - Oscilación del Sur, que es la causa de la mayor señal de la variabilidad climática interanual, en la zona tropical.”
Fenómeno de La Niña: “se refiere a las condiciones frías extremas que recurrentemente, pero de manera irregular, se presentan en el sector central y oriental del Pacífico tropical (es el opuesto a las condiciones El Niño), durante por lo menos seis meses. Dicho enfriamiento de la superficie del mar cubre grandes extensiones de la superficie de este océano y por su magnitud altera sensiblemente el clima en diferentes regiones del planeta.”
Algunos autores han análizado a profundidad el tema del futuro climatico especificamente en el territorio colombiano, con diferentes escenarios, positivos y negativos sobre el incremento en la temperatura del territorio nacional, si desea saber mas sobre este tema dirijase al siguiente documento “LA VARIABILIDAD CLIMÁTICA Y EL CAMBIO CLIMÁTICO EN COLOMBIA” así mismo de aqui se extrajo toda la información sobre el contexto climático que se acabó de análizar, el documento se encuentra en el siguiente enlace: http://documentacion.ideam.gov.co/openbiblio/bvirtual/023778/variabilidad.pdf
| Media | SD | Mínimo | Mediana | Máximo |
|---|---|---|---|---|
| 31.56778 | 7.871336 | 12.69583 | 31.5375 | 58.67857 |
| Media | SD | Mínimo | Mediana | Máximo |
|---|---|---|---|---|
| 2.551562 | 0.2984573 | 1.795454 | 2.529167 | 3.7 |
| Media | SD | Mínimo | Mediana | Máximo |
|---|---|---|---|---|
| 217.4491 | 27.04989 | 134.6125 | 221.4167 | 279.9083 |
| Media | SD | Mínimo | Mediana | Máximo |
|---|---|---|---|---|
| 28.50368 | 1.269514 | 25.22 | 28.63333 | 32.98571 |
| Media | SD | Mínimo | Mediana | Máximo |
|---|---|---|---|---|
| 57.01956 | 5.970239 | 36.97143 | 56.09583 | 73.03333 |
| Media | SD | Mínimo | Mediana | Máximo |
|---|---|---|---|---|
| 104.4379 | 25.93514 | 35.13571 | 104.6292 | 232.825 |
| Media | SD | Mínimo | Mediana | Máximo |
|---|---|---|---|---|
| 0.2654905 | 0.6836353 | 0 | 0 | 5.292222 |
La metodología empleada en este caso implica la aplicación de un
análisis de regresión lineal múltiple a una serie de tiempo. El objetivo
es examinar la relación entre una variable dependiente y seis variables
independientes. A través de este análisis, se busca determinar la
relación lineal entre estas variables y crear un modelo que pueda
predecir el comportamiento de la variable de respuesta \(Y\) utilizando los valores conocidos de las
variables explicativas \(X_{it}\).
En este modelo de regresión, se considera que el término \(e\) representa el error aleatorio o
residual. Este término captura la variabilidad no explicada por las
variables independientes incluidas en el modelo. En resumen, el modelo
se expresa mediante una relación lineal de la siguiente manera:
\[ Y\;=\;β_{0}\;+\;β_{1}*X_{1t}\;+\;β_{2}*X_{2t}\;+\;β_{3}*X_{3t}\;+\;β_{4}*X_{4t}\;+\;β_{5}*X_{5t}\;+\;β_{6}*X_{6t}\;+\;e_t \]
Donde:
\(Y:\) Es la variable de respuesta o variable dependiente que deseas predecir o explicar mediante el modelo de regresión lineal..
\(X_{kt}:\) Son las variables explicativas o variables independientes que se utilizan para predecir o explicar la variable de respuesta yt en el momento o período t. Cada x representa una variable distinta, y la subíndice t indica el valor específico de cada variable en el momento t.
\(β_{0}:\) (Intercepto) Que valor asumiría \(Y\) en la eventualidad de ausencia en \(X_{i}\), Es el intercepto o término independiente del modelo, que representa el valor esperado de yt cuando todas las variables explicativas (x1, x2, …, xk) son igual a cero..
\(β_{k}:\) (Pendiente) Cuánto cambia la variable dependiente \(Y\) , por cada unidad que varíe la variable independiente \(X_{k}\). Son los coeficientes de regresión que representan la relación entre cada variable explicativa (x1, x2, …, xk) y la variable de respuesta yt. Estos coeficientes indican cómo se espera que cambie yt cuando se modifica una unidad en la variable explicativa correspondiente, manteniendo constantes todas las demás variables explicativas., por lo tanto se puede decir que los coeficientes miden los efectos marginales
\(et:\) Es el término de error o residuo en el modelo de regresión lineal. Representa la diferencia entre el valor observado de yt y el valor predicho por el modelo. El término de error captura la variación no explicada por las variables explicativas y se asume que sigue una distribución normal con media cero.
Conocida ya la ecuación general para el modelo de regresión lineal múltiple con la serie de tiempos que se planea implementar, es importante a su vez definir que tipo de datos van a representar las variables predictoras \(X_{k}\) y la variable de respuesta \(Y\). De tal manera se tiene entonces que:
\(Y:\) Promedio de Oxigeno
\(X_{1}:\) Velociddad del tiempo
\(X_{2}:\) Dirección del viento
\(X_{3}:\) Temperatura
\(X_{4}:\) Humedad
\(X_{5}:\) Radiación Solar
\(X_{6}:\) Luvia
Dicho lo anterior, se procede entonces a remplazar las variables de respuesta \(X_{k}\) y la variable predictoria \(Y\) por sus respectivos nombres en la ecuación planteada al inicio de este apartado, Obteniendose:
\[ \small \text{prom_o3}\;=\;β_{0}\;+\;β_{1}*\text{prom_vel_viento}\;+\;β_{2}*\text{prom_dir_viento} \] \[ \small +\;β_{3}*\text{prom_temperatura}\;+\;β_{4}*\text{prom_humedad}\;+\;β_{5}*\text{prom_radiacion}\;+\;β_{6}*\text{prom_lluvia}\;+\;e_t \]
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 168.9434 | 28.401 | 5.9485 | *** (0.0000) |
| prom_vel_viento | 0.1982 | 1.3398 | 0.1479 | (0.8826) |
| prom_dir_viento | -0.0138 | 0.014 | -0.9875 | (0.3247) |
| prom_temperatura | -2.2682 | 0.6801 | -3.3351 | ** (0.0010) |
| prom_humedad | -1.3668 | 0.1536 | -8.8965 | *** (0.0000) |
| prom_radiacion | 0.0722 | 0.0155 | 4.6615 | *** (0.0000) |
| prom_lluvia | 0.6479 | 0.5502 | 1.1777 | (0.2404) |
## El R-cuadrado ajustado es: 0.6541
## El valor p es: 0.2403925
En el desarrollo del análisis del modelo se encuentra:
En la tabla anterior se muestra el valor del \((R^2)\) ajustado de:
## El R-cuadrado ajustado es: 0.6541
Esto se interpreta que el modelo de series de tiempo que se ha ajustado explica el 65.41% de la variabilidad total del ozono, utilizando las variables independientes: prom_vel_viento, prom_dir_viento, prom_temperatura, prom_humedad, prom_radiacion y prom_lluvia; esto quiere decir que el restante, osea el 34.59% se debe a factores no incluidos en el modelo o a errores aleatorios, este ajues es bueno para el modelo .
prom_vel_viento: Para esta variable el coeficiente de regresión es de 0.19819, esto indica que si se aumenta en promedio 1 unidad en la velocidad del viento, la varible de ozono aumentara en un 0.19819. Sin embargo, como el valor p (0.8826) para esta variable es mayor a 0.05 se concluye que no es estadísticamente significativa, por lo tanto, se interpretar que el promedio de la velocidad del viento no tiene una relación significativa para la variable de ozono.
\[0.8826\;>\;0.05\]
prom_dir_viento: Para esta variable el coeficiente de regresión es de -0.01383, esto indica que si se aumenta en promedio 1 unidad en la dirección del viento, la varible de ozono diminuira en un -0.01383. Sin embargo, como el valor p (0.32466) para esta variable es mayor a 0.05 se concluye que no es estadísticamente significativa, por lo tanto, se interpretar que el promedio de la velocidad del viento no tiene una relación significativa para la variable de ozono.
\[0.32466\;>\;0.05\]
prom_temperatura : Para esta variable el coeficiente de regresión es de -2.26818, esto indica que si se aumenta en promedio 1 unidad en la temperatura, la varible de ozono diminuira en un -2.26818. Sin embargo, como el valor p (0.00102) para esta variable es menor a 0.05 se concluye que SI es estadísticamente significativa, y se defino como variable que explica el modelo.
\[0.00102\;<\;0.05\]
prom_humedad: Para esta variable el coeficiente de regresión es de -1.36682, esto indica que si se aumenta en promedio 1 unidad en la humedad, la varible de ozono diminuira en un -1.36682. Sin embargo, como el valor p (4.28e-16) para esta variable es menor a 0.05 se concluye que SI es estadísticamente significativa, y se defino como variable que explica el modelo.
\[4.28e-16\;<\;0.05\]
prom_radiacion: Para esta variable el coeficiente de regresión es de 0.07221, esto indica que si se aumenta en promedio 1 unidad en la radiacón solar, la varible de ozono aumentara en un 0.07221. Sin embargo, como el valor p (5.86e-06) para esta variable es menor a 0.05 se concluye que SI es estadísticamente significativa, y se defino como variable que explica el modelo.
\[5.86e-06\;<\;0.05\]
prom_lluvia: Para esta variable el coeficiente de regresión es de 0.64793, esto indica que si se aumenta en promedio 1 unidad en la lluvia, la varible de ozono aumentara en un 0.64793. Sin embargo, como el valor p (0.24039) para esta variable es mayor a 0.05 se concluye que no es estadísticamente significativa, por lo tanto, se interpretar que el promedio de la lluvia no tiene una relación significativa para la variable de ozono.
\[0.24039\;>\;0.05\]
En el gráfico presentado, se representan dos líneas distintas. La
primera línea corresponde a los valores reales de la variable de
interés, mientras que la segunda línea representa los valores ajustados
por el modelo de regresión lineal.
La relación cercana entre estas
dos líneas en el gráfico indica que el modelo de regresión lineal es
capaz de predecir de manera precisa los valores ajustados en comparación
con los valores reales. Esta proximidad sugiere que el modelo tiene un
buen ajuste y captura eficientemente la relación entre las variables
independientes y la variable dependiente.
Al visualizar el gráfico,
es evidente que los valores ajustados siguen una tendencia similar a la
de los valores reales. Esto indica que el modelo ha capturado la
estructura subyacente de los datos y es capaz de hacer predicciones
cercanas a los valores observados. La cercanía entre las dos líneas
también sugiere que el modelo tiene un buen poder predictivo y puede
utilizarse para predecir con precisión el comportamiento de la variable
de respuesta utilizando los valores conocidos de las variables
explicativas.
En general, esta evidencia visual respalda la
efectividad del modelo de regresión lineal en la predicción de los
valores ajustados y sugiere que existe una relación cercana entre las
dos líneas trazadas en el gráfico.
En este gráfico, se muestra la relación entre los valores ajustados
y los valores reales de la variable de interés. La finalidad de esta
representación es evaluar si existe una tendencia lineal entre los
valores ajustados y los valores reales.
Cuando se observa una
tendencia lineal en el gráfico, significa que a medida que aumentan los
valores ajustados, los valores reales también tienden a aumentar en una
proporción similar. Del mismo modo, cuando los valores ajustados
disminuyen, los valores reales también tienden a disminuir en una
proporción similar.
La presencia de una tendencia lineal indica que
el modelo de regresión lineal es capaz de capturar y modelar de manera
efectiva la relación lineal entre las variables independientes y la
variable dependiente. Esto implica que el modelo ha encontrado una
relación significativa y coherente entre las variables que se ajusta a
un patrón lineal.
Es importante destacar que, si la relación entre
los valores ajustados y los valores reales muestra una tendencia lineal
sólida, esto respalda la validez y utilidad del modelo de regresión
lineal en la predicción de la variable de interés. Sin embargo, si no se
observa una relación lineal clara en el gráfico, podría indicar que el
modelo no es apropiado o que existen otros factores no lineales que
influyen en los datos.
En esta tabla, se presentan las correlaciones entre las variables,
lo que permite analizar las relaciones existentes entre ellas. Por
ejemplo, al observar la variable del promedio de radiación solar, se
puede notar que muestra tendencias claras en relación con las demás
variables. Esto sugiere que la radiación solar puede tener un impacto
significativo en el comportamiento de las otras variables. Por otro
lado, al examinar la variable del promedio de lluvia, se puede observar
que no muestra ninguna tendencia clara en el gráfico de dispersión. Esto
indica que la lluvia puede tener una correlación débil o nula con las
demás variables.
En la tabla, además de las correlaciones, se
proporcionan las dimensiones de las variables, lo que permite comprender
mejor las magnitudes de las relaciones encontradas. Las correlaciones
pueden variar desde -1 hasta 1, donde un valor de -1 indica una
correlación negativa perfecta, un valor de 1 indica una correlación
positiva perfecta, y un valor cercano a 0 indica una correlación débil o
nula.
Al analizar las correlaciones y sus magnitudes en la tabla,
se pueden identificar patrones y relaciones significativas entre las
variables. Estos hallazgos pueden ser útiles para comprender la
naturaleza de los datos y su interdependencia. También pueden
proporcionar información valiosa para futuros análisis y toma de
decisiones.
##
## Breusch-Godfrey test for serial correlation of order up to 10
##
## data: Residuals from Linear regression model
## LM test = 40.089, df = 10, p-value = 1.634e-05
En esta tabla de residuales, se realizan varios análisis para
evaluar la calidad y características de los residuales del modelo. Los
residuales representan la diferencia entre los valores observados y los
valores ajustados por el modelo, y proporcionan información sobre la
cantidad de variabilidad no explicada por las variables independientes.
- En la primera gráfica, se analiza la orientación y
organización de los datos. Si los residuales no muestran ninguna
orientación o patrón discernible, esto sugiere que no hay una
dependencia estructurada en los residuales y que el modelo ha capturado
la mayor parte de la variabilidad en los datos. Esto es deseable, ya que
indica que el modelo es capaz de explicar la mayoría de la variabilidad
observada en la variable de interés.
- En la segunda gráfica,
se representa la función de autocorrelación (ACF) o correlograma. La
función de autocorrelación muestra la correlación entre los residuales
en diferentes retardos o intervalos de tiempo. Si se observa
autocorrelación en los residuales, esto indica que hay una dependencia
serial entre los errores del modelo. En otras palabras, los valores
residuales en un momento dado están correlacionados con los valores
residuales en momentos anteriores. Si algunos de los datos residuales se
encuentran fuera de la banda de confianza, esto sugiere que hay una
correlación significativa en esos retardos.
- En la tercera
gráfica, se evalúa la distribución de los residuales. Si los residuales
siguen una distribución normal, esto indica que el modelo captura
adecuadamente la variabilidad aleatoria y que los errores se distribuyen
de manera simétrica alrededor de cero. Esta es una suposición importante
en el análisis de regresión, ya que permite realizar inferencias
estadísticas precisas y confiables.
En estos gráficos, se presentan los residuales de las variables
independientes del modelo de regresión. Los residuales representan la
diferencia entre los valores observados de las variables independientes
y los valores predichos por el modelo.
Cuando se analizan los
residuales de las variables independientes, es deseable que permanezcan
cerca del valor 0. Esto significa que el modelo es capaz de capturar la
variabilidad de las variables independientes y que los valores predichos
se ajustan de manera cercana a los valores observados.
Al observar
los gráficos, si los residuales de las variables independientes se
mantienen alrededor del valor 0 y no muestran patrones sistemáticos o
tendencias claras, se puede concluir que cumplen con este principio.
Esto indica que el modelo es capaz de explicar la mayoría de la
variabilidad en las variables independientes y que las predicciones
realizadas son precisas.
Cuando los residuales de las variables
independientes se alejan significativamente del valor 0, podría indicar
que el modelo no está capturando adecuadamente la variabilidad de las
variables independientes. Esto podría ser una señal de que se necesita
revisar o mejorar el modelo. Asi se puede saber si estas variables
inciden en algun sesgo para el modelo.
En este gráfico de dispersión de los residuales con respecto al
modelo, se busca evaluar la presencia de dispersión y autocorrelación en
los residuales. Estas características son importantes para asegurar la
validez del modelo de regresión.
La dispersión en el gráfico de
dispersión indica la variabilidad de los residuales en relación con los
valores predichos por el modelo. Si se observa una dispersión uniforme
alrededor de cero, esto sugiere que los residuales están distribuidos de
manera aleatoria y no existe un patrón sistemático en la variabilidad no
explicada por el modelo. En otras palabras, los residuales se
distribuyen de manera equitativa tanto por encima como por debajo de
cero a lo largo del rango de valores del modelo. Esto indica que el
modelo está capturando de manera efectiva la variabilidad de la variable
dependiente.
En cuanto a la autocorrelación, se analiza si hay
patrones sistemáticos en la disposición de los residuales a lo largo del
rango del modelo. Si no se observa ninguna autocorrelación, significa
que los residuales no están correlacionados entre sí y no existe una
dependencia serial en los errores del modelo. Esto es deseable, ya que
garantiza que los errores sean independientes y no se afecten mutuamente
en diferentes puntos del rango de valores del modelo.
Al concluir
que existe dispersión en el gráfico de dispersión de los residuales con
respecto al modelo y que no se observa ninguna autocorrelación clara, se
puede inferir que los residuales están correctamente distribuidos y que
no hay dependencia serial en los errores del modelo. Esto respalda la
validez del modelo de regresión y sugiere que el modelo está capturando
de manera adecuada la variabilidad de la variable dependiente, dejando
solo errores aleatorios sin patrones sistemáticos.
Estos sera nuestro datos base. Los datos suministrados fuero las media de los valores de los promedio por variable, y los datos en los escenarios se varia de mayor a menor datos aleatorios dentro de los rangos de los valores de la base de datos, dependiendo de la variable a tratar.
## 1
## 31.56747
## 1 2 3 4
## 24.20425 29.12619 32.58289 36.51590
Para la temperatura se quizo variar de mayor a menor dentro del
rango que se permite, dentro de los valores suministrados en la base de
datos. Estos son:
- Prueba 1: 31.75
- Prueba 2: 29.58
-
Prueba 3: 28.056
- Prueba 4: 26.322
Con los resultados mostrados anteriormente se puede ver que
mientras disminuya la temperatura la variable del promedio Ozono va
aumentar. En este escenario es ligado a las temporadas de sequia o
fenomeno del niño, todas las afectaciones que pueden tener las industria
en el cambio climático en el mundo.
## 1 2 3
## 10.37710 25.31915 29.59182
Para la Humedad se quizo variar los valores de mayor a menor,
dentro de los valores suministrados en la base de datos. Estos son:
- Prueba 1: 72.523
- Prueba 2: 61.591
- Prueba 3: 58.465
Con los resultados mostrados anteriormente se puede ver que
mientras se disminuya la humedad la variable del promedio Ozono va
aumentar significativamente. En este escenario esta ligado a las
temporadas de lluvias o fenomeno de la niña.
## 1 2 3
## 40.66731 34.29689 28.34710
Para la Radiación solar se quizo variar los valores de mayor a
menor, dentro de los valores suministrados en la base de datos. Estos
son:
- Prueba 1: 230.456
- Prueba 2: 142.236
- Prueba 3:
59.841
Con los resultados mostrados anteriormente se puede ver
que mientras se disminuya la Radiación solar la variable del promedio
Ozono a disminuir significativamente. Con esto se concluye que la
Radiación solar es un factor determinante para explicar la variable del
promedio Ozono, ademas si se logra bajos numeros de radiación solar
tiene un indice menor en el Ozono.
De acuerdo al modelo realizado y a los resultados obtenidos de las predicciones, podemos llegar a la conclusión de que al existir una mayor temperatura y humedad habrá una menor concentración de ozono. Así mismo, al haber una mayor radiación solar existirá una tendencia a que se incremente la concentración de ozono en el aire.