Introducción

Los modelos lineales con series de tiempo son una herramienta estadística que se utilizan para analizar datos que varían en el tiempo. Estos modelos se basan en la idea de que los valores futuros de una variable dependen de sus valores pasados y de otras variables que actúan como predictoras.

La calidad del aire es un tema de creciente preocupación en la sociedad actual debido a sus efectos perjudiciales en la salud humana y el medio ambiente. Entre los contaminantes atmosféricos más relevantes se encuentra el ozono, cuyas concentraciones pueden variar significativamente a lo largo del tiempo y estar influenciadas por múltiples factores.

El presente informe tiene como objetivo analizar la calidad del aire en el año 2018, específicamente en el periodo comprendido entre el 15 de febrero del 2018 y el 3 de septiembre del mismo año, a través de un modelo de regresión lineal con series de tiempo. La base de datos utilizada en este estudio contiene registros de siete variables ambientales recolectadas a lo largo de este lapso de tiempo. La variable dependiente (y) en nuestro modelo es el ozono, mientras que las variables independientes (x) incluyen la dirección y, la velocidad del viento, temperatura, humedad, radiación solar y lluvias. El modelo busca establecer una relación lineal entre la variable dependiente y las independientes, para predecir el comportamiento futuro de la variable respuesta.

Los resultados obtenidos en este estudio proporcionan una comprensión más profunda de los factores que contribuyen a la variabilidad temporal del ozono y permitirán identificar las variables ambientales más influyentes en su concentración. Estos hallazgos podrán ser utilizados para tomar decisiones en la gestión de la calidad del aire y establecer estrategias efectivas de control y mitigación de la contaminación atmosférica.

Descripción de las variables

  • Ozono: Esta variable se refiere a la concentración de ozono en el aire y se mide en microgramos por metro cúbico (ug/m³). El ozono es un gas que se encuentra en la atmósfera y puede tener tanto un origen natural como ser resultado de la actividad humana.

En el anterior gráfico, se encuentra la distribución de los datos de concentración de ozono en el aire en el periodo de estudio, donde podemos observar que la mayor cantidad de datos están entre el rango de 30 ug/m³ a 35 ug/m³, es decir, que en el periodo de febrero a septiembre del 2018 hubo una cantidad moderada de ozono en el aire, que aunque es aceptable, puede ser perjudicial para personas que tienen enfermedades respiratorias. Por otro lado, se observa que la extensión de los datos va desde 10 ug/m³ hasta 60 ug/m³.

  • Vel.viento: Esta variable se refiere a la velocidad a la que se mueve el aire y se mide en metros por segundo (m/s). Es una medida de la rapidez con la que el viento se desplaza en un lugar específico.

En el anterior gráfico, encontramos la velocidad del viento en el año 2018, específicamente entre el periodo febrero a septiembre de este año. Podemos observar que la extensión de los datos va desde 2 m/s a 3.5 m/s aproximadamente, por otro lado, se revela que el centro de los datos cae cerca de 2.6 m/s y que la mayor frecuencia de datos está en el rango de datos de 2.4 m/s a 2.6 m/s, es decir, una velocidad moderada del viento.

  • Dir.viento: Esta variable se refiere a la orientación desde la cual proviene el viento y se expresa en grados. Representa la dirección hacia la cual el viento está soplando en un lugar específico.

En el anterior gráfico, se encuentra la distribución de los datos de dirección del viento en el periodo de estudio, donde vemos que la extensión de los datos va desde 103° hasta 310° aproximadamente, además se observa en su pico, la concentración de datos del intervalo de tiempo, los cuales están en 206° aproximadamente, demostrando que esta es la dirección desde la cual sopló más el viento en el periodo de tiempo estudiado, es decir, desde el suroeste.

  • Temperatura: Esta variable se refiere al grado de calor o frío en el ambiente, y se mide en grados Celsius (°C).

En el anterior gráfico se observa la distribución de los datos de temperatura en grados celsius presentados en cada día del periodo en estudio. Encontramos que los datos van desde 26°C hasta 32°C aproximadamente, donde el centro de los datos es cerca de 29°C, además se puede observar que la mayor frecuencia de datos se encuentra en el rango entre 28°C y 29°C, es decir, durante la mayor cantidad de días del periodo estudiado se presentó un clima cálido en promedio, el cual puede ser perjudicial para algunas personas sensibles con enfermedades cardiovasculares o respiratorias, además de que aumenta el riesgo de deshidratación y puede contribuir a la generación de concentraciones de ozono en el aire.

  • Humedad: Esta variable se refiere a la cantidad de vapor de agua presente en el aire y se expresa en porcentaje (%). Esto afecta las condiciones de confort y la formación de nubes.

En el anterior diagrama de cajas, encontramos la distribución de los datos de humedad promedio de cada día del periodo en estudio. En este podemos observar que los valores de datos son más o menos simétricos ya que la mediana está muy cerca del centro de la caja, con un valor de 55% de humedad. Además se observa un valor atípico con el porcentaje más bajo que alcanzó la humedad entre el periodo de tiempo en estudio, bajos niveles de humedad puede aumentar el riesgo de sequías y propagación de incendios forestales.

  • Radiacion.solar: Esta variable se refiere a la cantidad de energía radiante proveniente del sol que llega a una superficie en particular y se mide en vatios por metro cuadrado (W/m²). La radiación solar es una forma de energía electromagnética emitida por el sol que se propaga a través del espacio y llega a la Tierra.

En el anterior gráfico, encontramos la distribución de los datos de la radiación solar generada diariamente durante el periodo de estudio. Se encuentra que la extensión de los datos va desde menos de 50 W/m² hasta 250 W/m² aproximadamente, por otro lado, podemos observar en el pico del gráfico, la concentración de datos, es decir, la mayor cantidad de datos obtenidos en el periodo, los cuales están alrededor de 130 W/m² aproximadamente, el cual se considera un nivel de radiación solar alta, esta puede aumentar la temperatura ambiente y la sensación de calor, siendo perjudicial para el medio ambiente ya que este reacciona con los contaminantes emitidos por industrias y vehículos para formar ozono.

  • Lluvia: Está variable representa la cantidad de lluvia medida en milímetros registrada durante el periodo de tiempo analizado, indicando el espesor o altura del agua acumulada en una determinada área.

En el anterior histograma se observa la distribución de los datos de cantidad de lluvia en milímetros registrada en el periodo de tiempo estudiado. Se observa que la extensión de los datos va desde 0mm hasta 5 mm aproximadamente, además nos indica que el rango entre 0 mm y 0.5mm es el que obtuvo la mayor frecuencia de datos registrados, es decir, la cantidad promedio diaria de lluvia de la mayoría de días durante este periodo fue muy baja o nula, esto puede ser perjudicial para el medio ambiente si se combina con altos niveles de contaminación, ya que podría aumentar la concentración de contaminantes en el aire y reducir la calidad del clima.

Estadísticas descriptivas

A continuación se muestra una tabla con medidas estadísticas para cada una de las 7 variables de la base de datos.

Variable Media Mínimo Máximo
Ozono 30.50 12.70 58.68
Velocidad Viento 2.53 1.80 3.43
Dirección Viento 211.65 133.77 279.91
Temperatura 28.51 25.22 32.99
Humedad 57.14 36.97 73.03
Radiación Solar 104.16 36.06 232.82
Lluvia 0.26 0.00 5.29

Esta tabla muestra la media, que representa el valor promedio de los datos de cada variable, el máximo y el mínimo indicando los valores más altos y más bajos respectivamente, y la desviación estándar que muestra la dispersión de los datos con respecto a la media. De la información proporcionada en la tabla podemos decir que:

  • La concentración promedio del ozono es de 30.50 ug/m³, lo cual indica un nivel moderado de ozono en el aire durante el periodo de tiempo estudiado, sin embargo, es importante tener en cuenta que en este periodo de tiempo hubo variaciones significativas en la concentración, ya que se registraron valores mínimos de 12.70 ug/m³ y valores máximos de 58.68 ug/m³, estos extremos muestran variaciones significativas en la concentración del ozono, lo que puede significar implicaciones para la calidad del aire y la salud humana.

  • La velocidad del viento muestra una media de 2.53 m/s, con valores que oscilan entre 1.80 m/s y 3.43 m/s. Estos valores muestran que durante el periodo de tiempo estudiado hay una variabilidad en la intensidad del viento, lo cual puede tener implicaciones en la dispersión de contaminantes en la atmósfera.

  • La dirección del viento muestra un promedio de 211.65°. Sin embargo, se observa una variabilidad significativa ya que su valor minimo y maximo son 133.77° y 279.91° respectivamente, los cuales indican una diferencia de aproximadamente 146° en la dirección del viento, lo cual destaca la importancia de comprender y tener en cuenta la variabilidad en la dirección del viento porque estos cambios pueden influir en cómo se dispersan los contaminantes.

  • La temperatura promedio durante el periodo analizado fue de 28.51°C, lo cual indica que en este periodo en general se experimentó un clima cálido. En cuanto a sus extremos tenemos que la temperatura mínima que se experimentó fue de 25.22°C y la temperatura máxima fue de 32.99 °C, hay que tener en cuenta que a mayor temperatura, puede haber una mayor probabilidad de formación de ozono. Por tal motivo estos datos muestran que hay variabilidad en la temperatura en este periodo de tiempo y es importante considerarla a la hora de analizar la calidad del aire.

  • La humedad en promedio en este periodo de tiempo fue de 57.14%, lo que indica un equilibrio moderado en la cantidad de vapor de agua presente en el aire. Pero de la tabla se observa que la humedad varió desde lo más mínimo que fue 36.97%, lo que indica periodos más secos hasta lo más alto que fue 73.03%, que a diferencia del anterior indica momentos de mayor humedad atmosférica, estos cambios en la humedad pueden tener impactos significativos en la calidad del aire, debido a que a un alto porcentaje de humedad puede reducir la formación de ciertos contaminantes y a su dispersión, mientras que a una baja humedad puede influir en la concentración de contaminantes en el aire afectando la calidad del mismo.

  • La radiación solar promedio fue de 104.16 W/m², lo que quiere decir que hubo una cantidad moderada de radiación solar durante este periodo de tiempo se observaron momentos en los que la radiación solar alcanzó su máximo con 232.82 W/m², indicando una alta intensidad solar , pero por otro lado, también se muestra que alcanzó niveles mínimos con 36.06 W/m², estas variaciones pueden tener un impacto significativo en la calidad del aire, debido a que a una mayor radiación solar puede contribuir a una mayor actividad fotoquímica y por lo tanto influir en la formación de contaminantes atmosféricos, además de aumentar el riesgo de sequías e incendios forestales.

  • Durante el lapso de tiempo estudiado se observa que el promedio de la cantidad de lluvia fue de 0.26 mm, lo que indica que se experimentó niveles bajos de lluvia durante este periodo, esto debido a que se registraron momentos en los que no se produjo lluvia, indicando posiblemente periodos de sequía, pero también se observa momentos de mayor intensidad de lluvia, con un máximo de 5.29 mm. La cantidad de lluvia representa un papel importante en la calidad del aire, ya que esta ayuda en la reducción de contaminantes atmosféricos, incluyendo el ozono.

Metodología

Modelo lineal en series de tiempo

Para empezar un modelo lineal es una técnica estadística que busca establecer una relación lineal entre una variable de interés, llamada variable dependiente, y una o más variables predictoras, conocidas como variables independientes. Se asume que esta relación lineal es válida y se busca estimar los coeficientes que mejor describan dicha relación. Los modelos lineales se utilizan para realizar predicciones, inferencias y análisis de la relación entre las variables.

Por otro lado, series de tiempo se refiere a un conjunto de observaciones recopiladas secuencialmente a lo largo del tiempo. Estas observaciones suelen tener una frecuencia regular, como por ejemplo, mediciones diarias, mensuales o anuales. Las series de tiempo se utilizan para analizar y predecir la evolución de un fenómeno a lo largo del tiempo, como datos económicos, climáticos como en este caso, financieros o de ventas.

Teniendo una vez los dos conceptos definidos, un modelo lineal en series de tiempo es una técnica estadística que se utiliza para modelar y predecir la relación lineal entre una variable dependiente y el tiempo en conjuntos de datos secuenciales. A diferencia de la regresión lineal tradicional, en la regresión lineal en series de tiempo, el tiempo se considera como una variable independiente y se utiliza para explicar y predecir la variabilidad de la variable dependiente a lo largo del tiempo, se puede expresar de la siguiente manera: \[y_{t}=β_{0}+β_{1}x_{1,t}+β_{2}x_{2,t}+...+β_{k}x_{k,t}+ϵ_{t}\]

Donde:

  • Yₜ es la variable que queremos predecir, es decir la dependiente.
  • xⱼₜ son las variables predictoras, es decir las independientes, estas se conocen para tiempos pasados y futuros.
  • β₁…βₖ son los coeficientes que miden el efecto de cada predictor, los efectos marginales.
  • ϵₜ es el término de error, que representa la variabilidad no explicada del modelo.

Supuestos

Los supuestos son las condiciones que se establecen para que el modelo sea válido y se puedan obtener conclusiones confiables de él, en los modelos lineales en series de tiempo los supuestos son los mismos que en los modelos lineales tradicionales, pero adaptados a la naturaleza secuencial de los datos. Estos supuestos son los siguientes:

  • Linealidad: Cuando hablamos de linealidad suponemos que los cambios en una variable tienen un efecto proporcional en otra variable. Por ejemplo, si se aumenta la cantidad de fábricas en el país, se supone que el nivel de contaminación también aumenta de manera proporcional.

  • Normalidad de los residuos: Este supuesto establece que los datos deben seguir una distribución normal, es decir, los datos deben estar distribuidos de manera simétrica alrededor de la media. Esto permite realizar inferencias estadísticas válidas y utilizar pruebas de hipótesis.

  • Independencia de los residuos: Este supuesto establece que los residuos deben ser independientes entre sí, lo que significa que no hay patrones sistemáticos o autocorrelación en los errores del modelo. Cuando se trabaja con series temporales, como es el caso de este estudio, se pueden hallar residuos autocorrelacionados entre sí, es decir, que un valor determinado depende de los valores anteriores.

  • Homocedasticidad: Este supuesto establece que la varianza de los residuos debe ser constante a lo largo de todos los niveles de las variables independientes y el tiempo. En otras palabras, no debe haber una relación sistemática entre la dispersión de los residuos y los valores de las variables independientes, la varianza de los errores no debe depender del tiempo

Evaluar estos supuestos es importante para asegurarse de que el modelo lineal sea adecuado para los datos.

Pasos

En primer lugar se descargaron las librerías requeridas para el código incluyendo la librería “Lubridate” la cual proporciona funciones para manipular y trabajar con fechas y horas, lo cual era requerido por la base de datos a utilizar, se llamó la base de datos Compartir2 sobre datos climáticos. A continuación, se procedió a realizarle limpieza, seleccionando específicamente las fechas asignadas para el modelo y eliminando cualquier espacio en blanco presente en los datos, cabe resaltar que en la base de datos no había registro de datos desde el 15 de febrero del 2018 hasta el 26 de febrero del mismo año, por tal motivo nuestro periodo de tiempo empieza desde el 27 de febrero del 2018.

library(lubridate)
library(readxl)
library(dplyr)
library(tidyverse)
library(fpp2)
library(lmtest)
library(ggplot2)
library(psych)

# Leer la base de datos
base <- read_xlsx("C:\\Users\\sarar\\Downloads\\Compartir2 (1).xlsx")
View(base)

# Convertir la columna de fecha al formato de fecha
base$`Fecha & Hora` <- as.Date(base$`Fecha & Hora`, format = "yyyy-mm-dd")

#convertirlo en dataframe
base1 <- as.data.frame(base)
View(base1)
#seleccionar fechas 
base2 <- subset(base1, `Fecha & Hora` >= as.Date("2018-02-15") & `Fecha & Hora` <= as.Date("2018-09-03"))
View(base2)
#eliminar NAS
base3 <- na.omit(base2)
View(base3)

Luego se realizó el cálculo de los promedios diarios para las fechas asignadas. Esto nos permite obtener un resumen diario de las variables de interés. A continuación, convertimos este conjunto de promedios en un data frame, lo que facilita su manipulación y análisis posterior.

Se crea una serie de tiempo a partir de los datos en basefinal. Se selecciona la información relevante de los datos y se organiza en una estructura que representa la serie de tiempo.

Luego, se realiza un gráfico de la serie de tiempo para visualizar la evolución de los datos a lo largo del tiempo. Este paso es fundamental para analizar las características temporales de los datos y detectar posibles patrones o tendencias que puedan influir en su comportamiento.

# Calcular los promedios diarios
base4 <- aggregate(base3[,-c(1)], by=list(base3$`Fecha & Hora`), mean)

# Convertir los resultados en un nuevo data frame
basefinal<- as.data.frame(base4)
View(basefinal)

nombres=c("Días","ozono","vel.viento","dir.viento","temperatura","humedad",
          "radiacion.solar","lluvia")
colnames(basefinal)=nombres

serie_tiempo <- ts(basefinal[, -1],freq=365,start=c(2018,1))
autoplot(serie_tiempo)

Después se construyó el modelo lineal para examinar la relación entre la variable “ozono” y las variables predictoras. Hemos ajustado el modelo utilizando los datos de nuestra serie de tiempo denominada “serie tiempo”.

Modelo<- tslm(ozono ~ vel.viento + dir.viento + temperatura +
                humedad + radiacion.solar + lluvia, data=serie_tiempo)
summary(Modelo)

Luego se realizan diferentes gráficos y pruebas para verificar los supuestos del modelo lineal.

#supuestos
plot(Modelo$fitted.values, Modelo$residuals)
qqnorm(Modelo$residuals)
qqline(Modelo$residuals)
shapiro.test(Modelo$residuals)
bptest(Modelo)
checkresiduals(Modelo)

Para finalizar se crearon diez escenarios de predicción utilizando un conjunto de datos llamado “escenarios”. Este conjunto contiene los valores de las variables predictoras para los cuales se desea obtener predicciones de la variable de respuesta “ozono”. Utilizando el modelo lineal ajustado previamente, se realizan las predicciones correspondientes a cada escenario, lo que nos permite obtener información sobre los niveles de ozono esperados en función de las condiciones dadas por los escenarios definidos en el conjunto de datos.

#prediccion
escenarios <- data.frame(vel.viento = c(2.865, 2.196, 3.215,2.056,3.069,
                                        2.156,3.145,2.368,2.698,3.165),
                         dir.viento = c(140.36, 180.26, 270.56,198.27,245.39,
                                        133.54,196.56,153.99,269.26,238.65),
                         temperatura = c(29.66,32.54,29.55,33.21,31.69,
                                         27.58,26.24,28.68,30.52,25.66),
                         humedad = c(36.59,70.14,50.58,75.68,46.21,55.24,
                                     48.32,66.52,43.21,38.21),
                         radiacion.solar=c(56.35,100.65,96.52,65.52,230.56,
                                           68.65,165.25,43.95,112.98,76.31),
                         lluvia=c(0.025,0.36,2.59,0.69,2.13,0.95,0.026,0.69,
                                   0.39,3.69))
View(escenarios)

# Hacer predicciones para cada uno de los escenarios
predicciones <- predict(Modelo, newdata = escenarios)

Resultados principales

Correlación de las variables

El siguiente gráfico nos proporciona información sobre la correlación existente entre las diferentes variables, con su coeficiente de correlación, diagrama de dispersión y diagrama de densidad.

De la anterior grafica podemos concluir:

  1. Las variables “lluvia” y “ozono” muestran una correlación negativa débil. Esto implica que tienen una relación inversa entre sí, lo que significa que cuando la lluvia aumenta, el nivel de ozono tiende a disminuir. Sin embargo, esta relación es bastante débil y no es significativamente fuerte.

  2. Lo mismo ocurre con otras combinaciones de variables. Por ejemplo, las variables “dirección del viento” y “velocidad del viento”, “humedad” y “dirección del viento”, así como “lluvia” y “velocidad del viento”, muestran una correlación negativa débil. Esto indica que, en general, cuando una variable aumenta, la otra tiende a disminuir, pero la relación no es muy fuerte.

  3. Por otro lado, se observa una correlación positiva débil entre algunas variables. Por ejemplo, las variables “dirección del viento” y “ozono”, “radiación solar” y “velocidad del viento”, “temperatura” y “dirección del viento”, así como “radiación solar” y “dirección del viento” muestran una relación positiva débil. Esto significa que cuando una variable aumenta, la otra también tiende a aumentar, pero la relación no es muy fuerte.

  4. Algunas variables presentan una correlación positiva moderada. Por ejemplo, las variables “velocidad del viento” y “ozono”, “radiación solar” y “ozono”, “temperatura” y “velocidad del viento”, “radiación solar” y “temperatura”, así como “lluvia” y “humedad” muestran una relación más fuerte. Esto implica que cuando una variable aumenta, la otra también tiende a aumentar, y esta relación es más fuerte que las mencionadas anteriormente.

  5. Finalmente, algunas variables presentan una correlación negativa moderada o intensa. Por ejemplo, las variables “humedad” y “ozono”, “velocidad del viento”, “temperatura” y “radiación solar” muestran una relación fuerte. Esto indica que cuando una variable aumenta, la otra tiende a disminuir de manera significativa.

Serie de tiempo

En el anterior gráfico se puede observar que los niveles de ozono, la dirección del viento y la humedad muestran una variabilidad más pronunciada y una influencia más destacada en la serie de tiempo analizada en comparación con la lluvia, la velocidad del viento y la temperatura. Esto sugiere que los cambios en el ozono, la dirección del viento y la humedad tienen un impacto más significativo en los patrones y condiciones climáticas durante el periodo examinado en 2018.

Modelo lineal

## 
## Call:
## tslm(formula = ozono ~ vel.viento + dir.viento + temperatura + 
##     humedad + radiacion.solar + lluvia, data = serie_tiempo)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.8140 -2.8678 -0.0986  2.4014 11.4188 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      1.219e+02  2.631e+01   4.634 6.86e-06 ***
## vel.viento      -1.364e+00  1.375e+00  -0.993    0.322    
## dir.viento      -6.673e-04  1.046e-02  -0.064    0.949    
## temperatura     -1.154e+00  6.353e-01  -1.816    0.071 .  
## humedad         -1.106e+00  1.420e-01  -7.793 5.03e-13 ***
## radiacion.solar  7.863e-02  1.479e-02   5.315 3.12e-07 ***
## lluvia           3.991e-01  5.242e-01   0.761    0.447    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.3 on 180 degrees of freedom
## Multiple R-squared:  0.678,  Adjusted R-squared:  0.6673 
## F-statistic: 63.18 on 6 and 180 DF,  p-value: < 2.2e-16

En el análisis del modelo de regresión lineal aplicado a la serie de tiempo donde la variable que queremos predecir es “ozono”, podemos observar que el coeficiente del intercepto es 121.9 y es significativo, lo que indica que hay un valor constante de concentración de ozono de 121.9 ug/m³ cuando todas las variables predictoras son cero, además este modelo también revela que la humedad y la radiación solar son variables significativas en la predicción de los niveles de ozono a un valor de significancia del 5%.

Un aumento de un 1% en la humedad se relaciona con una disminución en los niveles de ozono en 1.106 ug/m³, mientras que el aumento de 1 W/m² de radiación solar se asocia con un aumento en los niveles de ozono en 0.0786 ug/m³. Sin embargo, las variables como la velocidad del viento, la dirección del viento y la lluvia no tienen una influencia estadísticamente significativa en los niveles de ozono.

Por otro lado, la temperatura muestra una tendencia a tener un efecto significativo en el nivel de ozono, pero a un valor de significancia del 10%.

En general, el modelo muestra un ajuste razonable con un coeficiente de determinación de aproximadamente 0.678, lo que indica que alrededor del 67% de la variabilidad en los niveles de ozono puede explicarse por las variables predictoras consideradas en el modelo.

Modelo ajustado

En el anterior gráfico el componente “Data” representa los valores reales de la variable “ozono”, mientras que “Fitted” muestra los valores ajustados por el modelo. En este gráfico se puede observar que los valores reales y los ajustados tienen un comportamiento ligeramente similar. Pero, aunque tienen una tendencia similar, no son exactamente iguales debido a la presencia de variabilidad en los datos. Sin embargo, el modelo captura cierta relación en los datos de “ozono”, pero no se ajusta perfectamente a todos los puntos.

En el siguiente gráfico se puede observar únicamente la serie ajustada para mejor visualización

Análisis de supuestos

Linealidad

A partir del anterior gráfico se podría concluir que si se cumple el supuesto de linealidad, puesto que se presentan los valores ajustados oscilando alrededor del 0 en los residuales, aunque hay algunos datos alejados. Esto lo podemos comprobar revisando el p-value del modelo, el cual es 2.2x10-16, este es un número menor a 0.05, es decir que si existe linealidad.

Normalidad

## 
##  Shapiro-Wilk normality test
## 
## data:  Modelo$residuals
## W = 0.99004, p-value = 0.2195

A partir del anterior gráfico se podría concluir que como los puntos se encuentran cercanos a lo largo de la línea si se cumple el supuesto de normalidad, esto lo podemos comprobar a partir del test de Shapiro, el cual dice que el p - value es 0.219, un valor mayor a 0.05, por lo tanto se rechaza la hipótesis 1, comprobando que si hay normalidad de los residuos.

Homocedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  Modelo
## BP = 6.8106, df = 6, p-value = 0.3387

Se realizó la prueba de Breusch- pagan para evaluar si hay o no varianza constante, de esta prueba se obtuvo que el valor p - value es igual a 0.3387, un valor mayor al de significancia que es igual a 0,05, lo que significa que aceptamos la hipótesis uno y rechazamos la hipótesis cero, por ende los errores tienen varianza constante, por lo que podemos concluir que el supuesto de homocedasticidad se cumple.

Independencia

En estos modelos con series de tiempo es probable que el valor de una variable en el tiempo actual sea similar a su valor en un periodo anterior, por lo tanto, es común encontrar autocorrelación en los residuos. Para verificar lo anterior accedemos a los gráficos de los residuales del modelo.

## 
##  Breusch-Godfrey test for serial correlation of order up to 37
## 
## data:  Residuals from Linear regression model
## LM test = 50.464, df = 37, p-value = 0.06903

En los anteriores gráficos podemos observar que en general no existe un patrón de comportamiento, además de que algunas líneas del ACF superan las bandas de confianza, por lo tanto se podría concluir que los residuos son no autocorrelacionados, es decir, no tienen autodependencia, pero esto lo podemos poner a prueba con el test Breush Godfrey, el cual obtuvo un p-value de 0.069, un valor mayor que el nivel de significancia 0.05, esto quiere decir que no se puede rechazar la hipótesis nula, es decir, no hay autocorrelación en los errores del modelo.

Residuos vs variables predictoras

En el gráfico de “Residuos vs vel.viento”, “Residuos vs dir.viento”, “Residuos vs temperatura”, “Residuos vs humedad” se observa una dispersión de puntos alrededor de un patrón general, aunque no se aprecia una relación clara y definida entre estas variables y los residuos. La dispersión de los puntos puede indicar una variabilidad aleatoria en los residuos, lo que sugiere que estas variables no tienen una influencia fuerte o directa en la variabilidad de los residuos del modelo.

Por otro lado en el gráfico “Residuos vs lluvia” se observa que los puntos forman una línea vertical en el eje y alrededor de 0 en el eje x. Esto indica que la variable lluvia no tiene una influencia significativa en la variabilidad de los residuos del modelo. Los residuos se distribuyen de manera uniforme alrededor de 0, lo que sugiere que la lluvia no proporciona una explicación clara para la variación de los residuos.

Residuos vs modelo ajustado

En éste gráfico de “residuos vs fitted” podemos observar que los puntos se encuentran dispersos, pero hay una tendencia a agruparse en la mitad de la gráfica, aunque de forma leve. Esta distribución sugiere que los residuos tienden a tener valores cercanos a cero en general, lo cual indica que el modelo ha capturado en gran medida la variabilidad de los datos.

Predicciones

Se realizó una predicción de diez observaciones asumiendo diferentes escenarios en las variables predictoras de nuestro modelo, estos escenarios se eligieron basándonos en el rango de datos que tenía cada variable en nuestra base de datos, eligiendo datos parecidos, que demostraran 10 días con diferentes registros de cada variable. Por ejemplo, para el dia 1 se creó el escenario de un dia con una velocidad moderada del viento 2.8m/s soplando desde el sureste, con un clima cálido pero con un porcentaje no tan alto de humedad, un nivel bajo de radiación solar y que presentó una cantidad muy baja de lluvia.

Predicción vel.viento dir.viento temperatura humedad radiacion.solar lluvia Predicción de ozono
1 2.865 140.36 29.66 36.59 56.35 0.025 47.65197
2 2.196 180.26 32.54 70.14 100.65 0.360 11.71479
3 3.215 270.56 29.55 50.58 96.52 2.590 5.91924
4 2.056 198.27 33.21 75.68 65.52 0.690 2.36092
5 3.069 245.39 31.69 46.21 230.56 2.130 48.85749
6 2.156 133.54 27.58 55.24 68.65 0.950 31.72683
7 3.145 196.56 26.24 48.32 165.25 0.026 46.76459
8 2.368 153.99 28.68 66.52 43.95 0.690 15.62922
9 2.698 269.26 30.52 43.21 112.98 0.390 44.07636
10 3.165 238.65 25.66 38.21 76.31 3.690 53.03214

Utilizando estos diez escenarios representativos, realizamos predicciones del modelo para comprender cómo variables como la velocidad del viento, dirección del viento, temperatura, humedad, radiación solar y lluvia influyen en los niveles de ozono.

Los resultados de la predicción muestran los valores estimados para los niveles de ozono en cada uno de los 10 escenarios. Por ejemplo, para el escenario descrito anteriormente para el día uno, la concentración de ozono predicha fue de 47.65 ug/m3, es decir una cantidad moderada de concentraciones de ozono en el aire.

Estos valores representan la respuesta esperada del modelo para cada combinación de condiciones dadas por las variables predictoras en los escenarios definidos en el conjunto de datos.

Conclusiones

En conclusión, en el análisis de nuestro modelo lineal en series de tiempo se ha demostrado que este cumple con todos los supuestos, indicando que el modelo es adecuado para los datos y que permite realizar inferencias amplias y confiables basadas en el modelo.

Por otro lado, se puede concluir que las variables independientes utilizadas en este modelo si son influyentes en la predicción de concentraciones de ozono en el aire, específicamente la humedad, radiación solar y temperatura a un nivel de significancia del 5% y 10%, estas que contribuyen en la reacción con los contaminantes emitidos por los vehículos e industrias para formar ozono.

Por otro lado, no encontramos una relación significativa entre los niveles de ozono y variables como la velocidad del viento, dirección del viento, temperatura y lluvia. Es decir, estos factores no parecen tener un impacto estadísticamente significativo en los niveles de ozono según nuestro modelo.

Finalmente, considerando el valor del coeficiente de determinación ajustado del 66.73%, podemos concluir que nuestro modelo tiene una capacidad moderada para explicar la variabilidad en los niveles de ozono. Esto significa que alrededor del 66.73% de la variabilidad puede ser explicada por las variables predictoras incluidas en el modelo. Si bien no es un ajuste perfecto, nos brinda una comprensión útil de los factores que influyen en los niveles de ozono.

Referencias bibliográficas

  1. Galan. F. (2019). Supuestos del modelo de regresión lineal. frankgalandev. Available: https://frankgalandev.com/supuestos-del-modelo-de-regresion-lineal/

  2. Marulanda. C. (2018). Análisis de series temporales. Finanzas one. Available: https://finanzaszone.com/analisis-y-prediccion-de-series-temporales-con-r-iii-autocorrelacion/#:~:text=%C2%BFQu%C3%A9%20es%20la%20autocorrelaci%C3%B3n%20en,pasadas%20influyen%20en%20las%20actuales.

  3. Meteoblue. (s.f.). Viento. Meteoblue. Available: https://content.meteoblue.com/es/investigacion-educacion/especificaciones/variables-meteorologicas/viento

  4. PCE Instruments. (s.f.). Tabla de las velocidades del viento. PCE instruments. Available: https://www.pce-iberic9a.es/medidor-detalles-tecnicos/tablas-de-velocidades-del-viento.htm

  5. Sulmont, D. (2019). Supuestos del modelo de regresión lineal y diagnóstico. rpups. Available: https://rstudio-pubs-static.s3.amazonaws.com/740953_5b6d2acfe47b43b99a7d898d13ff9aec.html