U2A2

Fernando A., Ian S., Julian P., Juan V.

4/24/2021

Análisis de la correlación de la agronomia con la contaminación ambiental.

Planteaminto de la hipotesis.

  • Hemos detectado que la agricultura tiene un papel importante en cuanto a emisiones de gases de efecto invernadero por lo que consideramos hacer un análisis de correlación de Shapiro-Wilk y Kolmogorov-Smirnov para saber si lo que pensamos es algo cierto o solo son suposiciones.

Importacion de datos y paquetes

Importación de paquete

library(pacman)
p_load(ggplot2, readxl, readr, xfun,DT,dplyr,tibbletime,MASS,dplyr)

Importación de los datos

land_use_per_capita <- read_csv("agricultural-area-per-capita.csv")

ghg_emissions_by_sector <- read_csv("ghg-emissions-by-sector.csv")

filtrado de datos

land_use_per_capita <- land_use_per_capita[land_use_per_capita$Entity=="Mexico",]
land_use_per_capita <- land_use_per_capita[30:56, ]$agricultural_land_per_capita

ghg_emissions_by_sector <- ghg_emissions_by_sector[ghg_emissions_by_sector$Entity=="Mexico" ,]

agricultura_GHG <- ghg_emissions_by_sector$`Agriculture (GHG Emissions, CAIT)`

land_use_GHG <- ghg_emissions_by_sector$`Land-Use Change and Forestry (GHG Emissions, CAIT)`

datos <- data.frame(land_use_GHG,agricultura_GHG,land_use_per_capita)

Descarga del código

xfun::embed_file("U2A2.Rmd")
Download U2A2.Rmd

Descarga del datos

xfun::embed_file("agricultural-area-per-capita.csv")
Download agricultural-area-per-capita.csv
xfun::embed_file("ghg-emissions-by-sector.csv")
Download ghg-emissions-by-sector.csv

Análisis

ggplot(data = datos, aes(x=land_use_per_capita, y=land_use_GHG))+
  geom_point(color = "darkred")+
  labs(title="Diagrama de dispersión", x="Land use per capita", y="Green house gases by land use")+
  theme_bw()+
  theme(plot.title = element_text(hjust = 0.5))

## Pruebas de normalidad

Histogramas de frecuencia

par (mfrow = c(1,2))
hist (datos$land_use_per_capita, breaks=10, main="", xlab="Land use per capita", border = "darkred")
hist (datos$land_use_GHG, breaks=10, main="", xlab="Green House gases land use", border = "darkred")

En los gráficos vistos anteriormente podemos ver que tanto el uso de suelo per cápita como el uso de suelo de gases de efecto invernadero tienen una distribución normal cuando se tiene en cuenta la frecuencia. Esto significa que la mayoría de los puntos de datos son relativamente similares, lo que significa que ocurren dentro de un rango pequeño de valores con menos valores atípicos en los extremos superior e inferior del rango de datos.

Diagramas de quantiles

par (mfrow = c(1,2))
qqnorm(datos$land_use_per_capita, main="Land use", col="darkred")
qqline(datos$land_use_per_capita)

qqnorm(datos$land_use_GHG, main="Green House gases land use", col="darkred")
qqline(datos$land_use_GHG)

Después de mirar el gráfico de diagramas de cuartiles, podemos determinar si un conjunto de datos proviene de alguna distribución teórica como Normal o exponencial. En nuestro caso, después de analizar la línea de regresión y el punto en cada gráfico, podemos ver que existe una gran posibilidad de que nuestros datos de uso de la tierra y gases de efecto invernadero sean normales.

Shapiro-Wilk

shapiro.test(datos$land_use_per_capita)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$land_use_per_capita
## W = 0.94436, p-value = 0.156
shapiro.test(datos$land_use_GHG)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos$land_use_GHG
## W = 0.95778, p-value = 0.3285

Como podemos observar en estos analisis de Shapiro-Wilk en nuestros datos, el p-value es superior a 0.05 asi que podemos considerar que la correlación de los datos que estamos utilizando es lo suficientemente alta como para tomar en cuenta para un análisis estadístico.

Kolmogorov-Smirnov

ks.test(datos$land_use_GHG,"pnorm",mean=mean(datos$land_use_GHG),sd=sd(datos$land_use_GHG))
## Warning in ks.test(datos$land_use_GHG, "pnorm", mean =
## mean(datos$land_use_GHG), : ties should not be present for the Kolmogorov-
## Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  datos$land_use_GHG
## D = 0.14921, p-value = 0.5847
## alternative hypothesis: two-sided
ks.test(datos$land_use_per_capita,"pnorm",mean=mean(datos$land_use_per_capita),sd=sd(datos$land_use_per_capita))
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  datos$land_use_per_capita
## D = 0.098977, p-value = 0.9305
## alternative hypothesis: two-sided

En este caso hicimos un análisis de Kolmogorov-Smirnov en donde obtuvimos un p-value lo suficientemente alto para darnos cuenta que las distribuciones de probabilidad de las dos variables que tomamos en cuenta estan relacionadas entre si.

Prueba de varianza

Como podemos la prueba de varianza podemos afirmar que tenemos un 95 porciento de intervalo de confianza por lo que pasa la prueba.

var.test(datos$land_use_GHG,datos$land_use_per_capita)
## 
##  F test to compare two variances
## 
## data:  datos$land_use_GHG and datos$land_use_per_capita
## F = 1.4613e+15, num df = 26, denom df = 26, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  6.659548e+14 3.206558e+15
## sample estimates:
## ratio of variances 
##       1.461309e+15

Prueba T-Student

Utilizamos la prueba de T Student para determinar si existía una diferencia entre nuestros 2 grupos de datos encontrados, en este test se necesita tener un valor p que sea igual o mayor a .05 y se puede concluir que en esta prueba se aprueba el nivel de normalidad de las 2 variables contempladas.

t.test(datos$land_use_GHG,datos$land_use_per_capita, var.equal = T)
## 
##  Two Sample t-test
## 
## data:  datos$land_use_GHG and datos$land_use_per_capita
## t = 18.742, df = 52, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  16184905 20066204
## sample estimates:
##    mean of x    mean of y 
## 1.812556e+07 1.031014e+00

Conslusión

En base a nuestros análisis estadísticos podemos concluir que el uso de la tierra con fines agricolas y las emisiones de gases de efecto invernadero tienen un P-value de 0.05 superior a 0.05 por lo que estos dos parametros cuentan con una correlación entre si lo suficientemente alta como para tomar en cuenta nuestro trabajo, y tambien para comprobar nuestra hipótesis previamente planteada.

Bibliografía

Lindwall, C. (2019, 31 julio). Industrial Agricultural Pollution 101. NRDC. https://www.nrdc.org/stories/industrial-agricultural-pollution-101

Ritchie, H. (2013, 13 noviembre). Land Use. Our World in Data. https://ourworldindata.org/land-use

Ritchie, H. (2020, 11 mayo). CO2 and Greenhouse Gas Emissions. Our World in Data. https://ourworldindata.org/co2-and-other-greenhouse-gas-emissions