U2A3

EQUIPO 2. Mariana Pompa Rivera, Cielo Aholiva Higuera Gutierrez, Saul Lopez Lopez y Cristina Arguelles Lema

05/05/2021

Analisis de correlación

  • Para la descarga de este código

Para fines de reproducibilidad inmediata se incluye todo el código para su descarga

xfun::embed_file("U2A2.Rmd")

Download U2A2.Rmd

  • Para la descarga de datos utilizados en este codigo

Para fines de reproducibilidad inmediata se incluye todos los datos para su descarga

xfun::embed_file("aireSO2.xlsx")

Download aireSO2.xlsx

Hipotesis

Se comprueba y se acepta la hipótesis nula, donde se puede decir que estos contaminantes se encuentran relacionadas por sus repercusiones en la salud, atacando directamente al sistema respiratorio, de igual manera, son los contaminantes precursores de las lluvias ácidas debido a la interacción con la radiación solar y la humedad atmosférica, por ser concentraciones similares afectan de igual manera a la calidad del aire y causando diferentes consecuencias en el medio ambiente

Calidad del Aire.

Se dispone de un data set con información sobre diferentes variables. Se quiere estudiar si existe una correlación entre el SO2 y NO2.

R contiene funciones que permiten calcular los diferentes tipos de correlaciones y sus niveles de significancia: cor() y cor.test(). La segunda función es más completa ya que además de calcular el coeficiente de correlación indica su significancia (p-value) e intervalo de confianza.

library(MASS)
library(ggplot2)
library(readxl)
datos <- read_excel("aireSO2.xlsx")
## New names:
## * `` -> ...4
ggplot(data= datos, aes(x=SO2, y=NO2))+
geom_point(colour = "red4") +
  ggtitle("Diagrama de dispersión") +
  theme_bw() +
  theme(plot.title = element_text(hjust = 0.5))

En primer lugar se representan las dos variables mediante un diagrama de dispersión para intuir si existe relación lineal o monotónica. Si no la hay, no tiene sentido calcular este tipo de correlaciones.

Análisis de normalidad

# Representación gráfica
par(mfrow = c(1, 2))
hist(datos$SO2, breaks = 10, main = "", xlab = "SO2", border = "darkred")
hist(datos$NO2, breaks = 10, main = "", xlab = "NO2",
     border = "blue")

qqnorm(datos$SO2, main = "SO2", col = "darkred")
qqline(datos$SO2)

qqnorm(datos$NO2, main = "NO2", col = "blue")
qqline(datos$NO2)

par(mfrow = c(1,1))

Test de hipótesis para el análisis de normalidad

shapiro.test(datos$SO2)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$SO2
## W = 0.98395, p-value = 0.254
shapiro.test(datos$NO2)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$NO2
## W = 0.98993, p-value = 0.6457

Calculo de correlación

cor(x = datos$NO2, y = datos$SO2, method = "pearson")
## [1] 0.9184734
cor(x = datos$NO2, y = datos$SO2, method = "spearman")
## [1] 0.9165372

Significancia de la correlación

Por muy alto que sea un coeficiente de correlación, si no es significativa se ha de considerar inexistente.

cor.test(x = datos$NO2,
         y = datos$SO2, 
         alternative = "two.sided",
         conf.level  = 0.95,
         method      = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  datos$NO2 and datos$SO2
## t = 23.224, df = 100, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8814416 0.9442808
## sample estimates:
##       cor 
## 0.9184734
cor.test(x = datos$NO2,
         y = datos$SO2, 
         alternative = "two.sided",
         conf.level  = 0.95,
         method      = "spearman")
## Warning in cor.test.default(x = datos$NO2, y = datos$SO2, alternative =
## "two.sided", : Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  datos$NO2 and datos$SO2
## S = 14760, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.9165372

Coeficiente de la determinación R2 (tamaño del efecto)

R2_pearson <- cor(x = datos$NO2,
                  y = datos$SO2,
                  method = "pearson")
R2_pearson <- R2_pearson^2
R2_pearson
## [1] 0.8435934

Existe una correlación significativa entre SO2 y NO2 en la calidad del aire (r=0.8, p-value < 0.245), con un tamaño de efecto medio-alto (R2=0.84).

Prueba de Hipotesis

  • H0 (Nula) : Las concentraciones de los contaminantes SO2 y NO2 en el aire, no influyen en la calidad del aire.

  • H1 (Alternativa) : Las concentraciones de los contaminantes SO2 y NO2 en el aire, influyen en la calidad del aire, por sus repercusiones en la salud, además de sus concentraciones similares en los datos.

Importar Datos

library(readxl)
library(DT)
datos <- read_excel("aireSO2.xlsx")
## New names:
## * `` -> ...4
datatable(datos)

Prueba de T student

t.test(datos$SO2, datos$NO2, var.equal = T, )
## 
##  Two Sample t-test
## 
## data:  datos$SO2 and datos$NO2
## t = 0.011881, df = 202, p-value = 0.9905
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.02672074  0.02704469
## sample estimates:
## mean of x mean of y 
## -0.149838 -0.150000

Los datos relevantes del obtenidos de la prueba de t son los siguientes: los grados de libertad (df)= 202; los grados de libertad se pueden comprobar con la formula . El parámetro que debemos revisar para comprobar si aceptamos o rechazamos la H0 es el valor de P, para esta prueba fue de 0.9905 por lo cual al ser mayor que α 0.5 rechazamos la H0 y se acepta la H1.

Prueba de normalidad de varianzas.

var.test(datos$SO2, datos$NO2)
## 
##  F test to compare two variances
## 
## data:  datos$SO2 and datos$NO2
## F = 0.96847, num df = 101, denom df = 101, p-value = 0.8724
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.6542298 1.4336427
## sample estimates:
## ratio of variances 
##          0.9684688

Bibliografía

  • Amat, Joaquín (2016). Correlación lineal y regresión lineal simple. Obtenido de Ciencia de datos, Recuperado 25 de Abril del 2021https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal