U2A2

Team 2. Cielo Aholiva Higuera Gutiérrez, Mariana Pompa Rivera, Saul López López y Cristina Arguelles Lema

26/04/2021

setwd("~/6to semestre/Estadistica aplicada/U2/U2A2")
library(pacman)
p_load("MASS", "class", "ggplot2")

Correlación de lineal: Calidad del aire

Calidad del aire

¿Estan las relacionadas las variables de SO2 y NO2 con la calidad del aire?

Para conocer graficamente si existe una relación entre la variable de SO2 y la variable de NO2, los cuales son contaminantes que afectan la calidad del aire, para ello haremos un diagrama de dispersión con los datos obtenidos por una red universitaria de observatorios atmosféricos (UNAM) en la temporada de Marzo - Junio de 2020 en Hermosillo, Sonora.

Hipótesis

Las concentraciones de los contaminantes SO2 y NO2 en el aire, influyen en la calidad del aire. Estos contaminantes se encuentran relacionadas por sus repercusiones en la salud, atacando directamente al sistema respiratorio, por lo que se llega a la hipótesis que estos contaminantes por ser concentraciones similares afectan de manera semejante a la calidad del aire.

Regresión lineal

library(readxl)
datos <- read_excel("aireSO2.xlsx")
## New names:
## * `` -> ...4
ggplot(data = datos, aes(x = SO2, y = NO2)) + 
  geom_point(colour = "violetred4") +
  ggtitle("Diagrama de dispersión") +
  theme_bw() +
  theme(plot.title = element_text(hjust = 0.5))

El diagrama de dispersión parece indicar que si existe una fuerte relación entre ambas variables.

Para poder elegir el coeficiente de correlación adecuado, se tiene que analizar el tipo de variables y la distribución que presentan. En este caso, ambas variables son cuantitativas continuas y pueden transformarse en rangos para ordenarlas, por lo que a priori los tres coeficientes podrían aplicarse. La elección se hará en función de la distribución que presenten las observaciones.

Análisis de normalidad

par(mfrow = c(1,2))
hist(datos$SO2, breaks = 10, main="", xlab="Particulas", border = "tomato3")
hist(datos$NO2, breaks = 10, main="", xlab="Particulas", border = "skyblue4")

qqnorm(datos$SO2, main = "Concentraciones de SO2", col = "darkred")
qqline(datos$SO2)

qqnorm(datos$NO2, main = "Concentraciones de NO2", col = "blue")
qqline(datos$NO2)

Significancia

shapiro.test(datos$SO2)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$SO2
## W = 0.98395, p-value = 0.254
shapiro.test(datos$NO2)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$NO2
## W = 0.98993, p-value = 0.6457

El análisis gráfico y el contraste de normalidad muestran que para ambas variables, como lo es SO2 y la variable NO2 estan fuertemente relacionadas, debido a que la significancia es mayor de 0.05, se puede asumir que estan alrededor de la media. Para este análisis se puede utilizar el método de Pearson, ya que las variables son monótona, es decir, que cuando una variable crece la otra también lo hace o cuando una crece la otra decrece.

Cálculo de correlación

En el siguiente cálculo se presentan datos obtenidos por el método de Pearson y Spearman.

cor(x = datos$NO2, y = datos$SO2, method = "pearson")
## [1] 0.9184734
cor(x = datos$NO2, y = datos$SO2, method = "spearman")
## [1] 0.9165372

Ambos test muestran una correlación alta (>0.8), se puede decir que es muy alta, debido a que ambos arrojan resultados de 0.91. Sin embargo para poder considerar que existe realmente correlación entre las dos variables es necesario calcular su significancia, de lo contrario podría deberse al azar.

Significancia de la correlación

cor.test(x = datos$NO2,
         y = datos$SO2, 
         alternative = "two.sided",
         conf.level  = 0.95,
         method      = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  datos$NO2 and datos$SO2
## t = 23.224, df = 100, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8814416 0.9442808
## sample estimates:
##       cor 
## 0.9184734
cor.test(x = datos$NO2,
         y = datos$SO2, 
         alternative = "two.sided",
         conf.level  = 0.95,
         method      = "spearman")
## Warning in cor.test.default(x = datos$NO2, y = datos$SO2, alternative =
## "two.sided", : Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  datos$NO2 and datos$SO2
## S = 14760, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.9165372

Ambos coeficientes de correlación son significativos (p_value ≈ 0).

Coeficiente de determinación R2 (tamaño del efecto)

R2_pearson <- cor(x = datos$NO2,
                  y = datos$SO2,
                  method = "pearson")
R2_pearson <- R2_pearson^2
R2_pearson
## [1] 0.8435934
R2_spearman <- cor(x = datos$NO2,
                   y = datos$SO2,
                   method = "spearman")
R2_spearman <- R2_spearman^2
R2_spearman
## [1] 0.8400405

Existe una correlación significativa entre SO2 y NO2 en la calidad del aire (r=0.8, p-value < 0.245), con un tamaño de efecto medio-alto (R2=0.84).

Se comprueba y se rechaza la hipótesis nula, donde se puede decir que estos contaminantes se encuentran relacionadas por sus repercusiones en la salud, atacando directamente al sistema respiratorio, de igual manera, son los contaminantes precursores de las lluvias ácidas debido a la interacción con la radiación solar y la humedad atmosférica, por ser concentraciones similares afectan de igual manera a la calidad del aire y causando diferentes consecuencias en el medio ambiente.

En conclusión, se puede decir que las variables de los contaminantes SO2 y NO2 se relacionaron en la temporada de Marzo - Junio en 2020, en donde se mostraron cambios significativos en la calidad del aire debido a la cuarentena por COVID - 19. A partir de los cálculos se demostró que al aumentar un contaminante, el segundo contaminante aumenta o tiene el mismo comportamiento.

Bibliografia

  • Amat, Joaquín (2016). Correlación lineal y regresión lineal simple. Obtenido de Ciencia de datos, Link

  • UNAM (2020. Calidad del aire en Hermosillo, Sonora. Link

Anexos

  • Descarga de este código Para fines de reproducibilidad inmediata se incluye todo el código para su descarga
xfun::embed_file("U2A2.Rmd")

Download U2A2.Rmd

xfun::embed_file("aireSO2.xlsx")

Download aireSO2.xlsx