U2A3

Cristina Gpe. Arguelles Lema, Cielo Aholiva Higuera Gutierrez, Saul Eduardo López López y Mariana Pompa Rivera

6/5/2021

Correlación lineal: Calidad del aire

Descarga de este código:

  • Para fines de reproducibilidad inmediata se incluye todo el código para su descarga
xfun::embed_file("U2A3.Rmd")

Download U2A3.Rmd

setwd("~/Estadistica/U1A144")
library(pacman)
p_load("MASS", "class", "ggplot2")

¿Estan las relacionadas las variables de SO2 y NO2 con la calidad del aire?

Para saber si existe una relación entre la variable de SO2 y la variable de NO2 de manera gráfica, los cuales son contaminantes que afectan la calidad del aire, se realizará un diagrama de dispersión con los datos obtenidos por una red universitaria de observatorios atmosféricos (UNAM) en la temporada de Marzo - Junio de 2020 en Hermosillo, Sonora.

Hipótesis

Las concentraciones de los contaminantes SO2 y NO2 en el aire, influyen en la calidad del aire. Estos contaminantes se encuentran relacionadas por sus repercusiones en la salud, atacando directamente al sistema respiratorio, por lo que se llega a la hipótesis que estos contaminantes por ser concentraciones similares afectan de igual manera a la calidad del aire.

Regresión Lineal

Análisis de Correlación

library(MASS)
library(ggplot2)
library(readxl)
datos <- read_excel("Aire.xlsx")
## New names:
## * `` -> ...4
ggplot(data = datos, aes(x = SO2, y = NO2)) + 
  geom_point(colour = "darkmagenta") +
  ggtitle("Diagrama de dispersión") +
  theme_bw() +
  theme(plot.title = element_text(hjust = 0.5))

Análisis de normalidad

# Representación gráfica
par(mfrow = c(1, 2))
hist(datos$SO2, breaks = 10, main = "", xlab = "SO2", border = "deepskyblue3")
hist(datos$NO2, breaks = 10, main = "", xlab = "NO2", border = "deeppink3")

qqnorm(datos$SO2, main = "SO2", col = "goldenrod3")
qqline(datos$SO2)

qqnorm(datos$NO2, main = "NO2", col = "deeppink1")
qqline(datos$NO2)

Significancia

par(mfrow = c(1,1))
# Test de hipótesis para el análisis de normalidad
shapiro.test(datos$SO2)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$SO2
## W = 0.98395, p-value = 0.254
shapiro.test(datos$NO2)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$NO2
## W = 0.98993, p-value = 0.6457

Cálculo de Correlación

cor(x = datos$NO2, y = datos$SO2, method = "pearson")
## [1] 0.9184734
cor(x = datos$NO2, y = datos$SO2, method = "spearman")
## [1] 0.9165372

Significancia de la correlación

cor.test(x = datos$NO2, 
         y = datos$SO2,alternative = "two.sided", 
         conf.level  = 0.95, 
         method      = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  datos$NO2 and datos$SO2
## t = 23.224, df = 100, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8814416 0.9442808
## sample estimates:
##       cor 
## 0.9184734
cor.test(x = datos$NO2, 
         y = datos$SO2, alternative = "two.sided", 
         conf.level  = 0.95, 
         method      = "spearman")
## Warning in cor.test.default(x = datos$NO2, y = datos$SO2, alternative =
## "two.sided", : Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  datos$NO2 and datos$SO2
## S = 14760, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.9165372
  • Ambos coeficientes de correlación son significativos (p_value ≈ 0)

Coeficiente de determinación de R2 (tamaño del efecto)

R2_pearson <- cor(x = datos$NO2, y = datos$SO2, method = "pearson")
R2_pearson <- R2_pearson^2
R2_pearson
## [1] 0.8435934
R2_spearman <- cor(x = datos$NO2, y = datos$SO2, method = "spearman")
R2_spearman <- R2_spearman^2
R2_spearman
## [1] 0.8400405

Prueba de Normalidad de Varianzas

var.test(datos$SO2, datos$NO2)
## 
##  F test to compare two variances
## 
## data:  datos$SO2 and datos$NO2
## F = 0.96847, num df = 101, denom df = 101, p-value = 0.8724
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.6542298 1.4336427
## sample estimates:
## ratio of variances 
##          0.9684688
  • La prueba de F arroja para nuestras muestras de SO2 y NO2 un valor de P = 0.8724, mayor al α establecido (0.05).

Prueba de T student

t.test( datos$SO2, datos$NO2, var.equal = T, )
## 
##  Two Sample t-test
## 
## data:  datos$SO2 and datos$NO2
## t = 0.011881, df = 202, p-value = 0.9905
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.02672074  0.02704469
## sample estimates:
## mean of x mean of y 
## -0.149838 -0.150000
  • Los datos relevantes obtenidos en la prueba de t son los siguientes: los grados de libertad (df)= 202; los grados de libertad se pueden comprobar con la formula. El parámetro que debemos revisar para comprobar si aceptamos o rechazamos la H0 es el valor de P, para esta prueba fue de 0.9905 por lo cual al ser mayor que α 0.5 rechazamos la H0 y se acepta la H1.

Prueba de hipótesis

  • H0 (Nula) : Las concentraciones de los contaminantes SO2 y NO2 en el aire, no influyen en la calidad del aire y sus variables coinciden sin tener similitudes.

  • H1 (Alternativa) : Las concentraciones de los contaminantes SO2 y NO2 en el aire, influyen en la calidad del aire, por sus repercusiones en la salud, además de sus concentraciones similares en los datos.

Existe una correlación significativa entre SO2 y NO2 en la calidad del aire (r=0.8, p-value < 0.245), con un tamaño de efecto entre el rango de medio-alto (R2=0.84)

Se rechaza H0 y se acepta H1 debido a que se hicieron varias pruebas de normalidad y se aceptó H1 (hipótesis alternativa). Los mencionados contaminantes tienen mucha relación debido a que ambos afectan la calidad del aire, generando lluvia ácida, al generar este fenómeno, los contaminantes pueden trasladarse por cientos de kilómetros a diversos lugares, donde afecta a las personas ocasionando enfermedades respiratorias y a los seres vivos.

Conclusión

  • Finalmente se puede deducir que los contaminantes SO2 y NO2 se relacionaron en la temporada de Marzo - Junio en 2020, debido a que si un contaminante aumentaba el segundo se comportaba de igual manera.

Bibliografía

  • Amat, Joaquín (2016). Correlación lineal y regresión lineal simple. Obtenido de Ciencia de datos.

  • UNAM (2020. Calidad del aire en Hermosillo, Sonora.