Análisis de la correlación de la agronomia con la contaminación ambiental.
library(pacman)
p_load(ggplot2, readxl, readr, xfun,DT,dplyr,tibbletime,MASS,dplyr)Planteaminto de la hipotesis.
Hemos detectado que la agricultura tiene un papel importante en cuanto a emisiones de gases de efecto invernadero por lo que consideramos hacer un análisis de correlación de Shapiro-Wilk y Kolmogorov-Smirnov para saber si lo que pensamos es algo cierto o solo son suposiciones.
Importación de los datos
land_use_per_capita <- read_csv("agricultural-area-per-capita.csv")
ghg_emissions_by_sector <- read_csv("ghg-emissions-by-sector.csv")Descarga del datos
xfun::embed_file("agricultural-area-per-capita.csv")Download agricultural-area-per-capita.csv
xfun::embed_file("ghg-emissions-by-sector.csv")filtrado de datos
land_use_per_capita <- land_use_per_capita[land_use_per_capita$Entity=="Mexico",]
land_use_per_capita <- land_use_per_capita[30:56, ]$agricultural_land_per_capita
ghg_emissions_by_sector <- ghg_emissions_by_sector[ghg_emissions_by_sector$Entity=="Mexico" ,]
agricultura_GHG <- ghg_emissions_by_sector$`Agriculture (GHG Emissions, CAIT)`
land_use_GHG <- ghg_emissions_by_sector$`Land-Use Change and Forestry (GHG Emissions, CAIT)`
datos <- data.frame(land_use_GHG,agricultura_GHG,land_use_per_capita)Análisis
ggplot(data = datos, aes(x=land_use_per_capita, y=land_use_GHG))+
geom_point(color = "darkred")+
labs(title="Diagrama de dispersión", x="Land use per capita", y="Green house gases by land use")+
theme_bw()+
theme(plot.title = element_text(hjust = 0.5))Pruebas de normalidad
Histogramas de frecuencia
par (mfrow = c(1,2))
hist (datos$land_use_per_capita, breaks=10, main="", xlab="Land use per capita", border = "darkred")
hist (datos$land_use_GHG, breaks=10, main="", xlab="Green House gases land use", border = "darkred")Diagramas de quantiles
par (mfrow = c(1,2))
qqnorm(datos$land_use_per_capita, main="Land use", col="darkred")
qqline(datos$land_use_per_capita)
qqnorm(datos$land_use_GHG, main="Green House gases land use", col="darkred")
qqline(datos$land_use_GHG)Después de mirar el gráfico de diagramas de cuartiles, podemos determinar si un conjunto de datos proviene de alguna distribución teórica como Normal o exponencial. En nuestro caso, después de analizar la línea de regresión y el punto en cada gráfico, podemos ver que existe una gran posibilidad de que nuestros datos de uso de la tierra y gases de efecto invernadero sean normales.
Shapiro-Wilk
shapiro.test(datos$land_use_per_capita)##
## Shapiro-Wilk normality test
##
## data: datos$land_use_per_capita
## W = 0.94436, p-value = 0.156
shapiro.test(datos$land_use_GHG)##
## Shapiro-Wilk normality test
##
## data: datos$land_use_GHG
## W = 0.95778, p-value = 0.3285
Como podemos observar en estos analisis de Shapiro-Wilk en nuestros datos, el p-value es superior a 0.05 asi que podemos considerar que la correlación de los datos que estamos utilizando es lo suficientemente alta como para tomar en cuenta para un análisis estadístico.
Kolmogorov-Smirnov
ks.test(datos$land_use_GHG,"pnorm",mean=mean(datos$land_use_GHG),sd=sd(datos$land_use_GHG))## Warning in ks.test(datos$land_use_GHG, "pnorm", mean =
## mean(datos$land_use_GHG), : ties should not be present for the Kolmogorov-
## Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: datos$land_use_GHG
## D = 0.14921, p-value = 0.5847
## alternative hypothesis: two-sided
ks.test(datos$land_use_per_capita,"pnorm",mean=mean(datos$land_use_per_capita),sd=sd(datos$land_use_per_capita))##
## One-sample Kolmogorov-Smirnov test
##
## data: datos$land_use_per_capita
## D = 0.098977, p-value = 0.9305
## alternative hypothesis: two-sided
En este caso hicimos un análisis de Kolmogorov-Smirnov en donde obtuvimos un p-value lo suficientemente alto para darnos cuenta que las distribuciones de probabilidad de las dos variables que tomamos en cuenta estan relacionadas entre si.
Prueba de varianza
var.test(datos$land_use_GHG,datos$land_use_per_capita)##
## F test to compare two variances
##
## data: datos$land_use_GHG and datos$land_use_per_capita
## F = 1.4613e+15, num df = 26, denom df = 26, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 6.659548e+14 3.206558e+15
## sample estimates:
## ratio of variances
## 1.461309e+15
Prueba T Student
Como podemos la prueba de varianza podemos afirmar que tenemos un 95 porciento de intervalo de confianza por lo que pasa la prueba.
t.test(datos$land_use_GHG,datos$land_use_per_capita, var.equal = T)##
## Two Sample t-test
##
## data: datos$land_use_GHG and datos$land_use_per_capita
## t = 18.742, df = 52, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 16184905 20066204
## sample estimates:
## mean of x mean of y
## 1.812556e+07 1.031014e+00
Prueba T-Student
Utilizamos la prueba de T Student para determinar si existía una diferencia entre nuestros 2 grupos de datos encontrados, en este test se necesita tener un valor p que sea igual o mayor a .05 y se puede concluir que en esta prueba se aprueba el nivel de normalidad de las 2 variables contempladas.
t.test(datos$land_use_GHG,datos$land_use_per_capita, var.equal = T)##
## Two Sample t-test
##
## data: datos$land_use_GHG and datos$land_use_per_capita
## t = 18.742, df = 52, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 16184905 20066204
## sample estimates:
## mean of x mean of y
## 1.812556e+07 1.031014e+00
Pruebas de hipótesis
Conclusión
En base a nuestros análisis estadísticos podemos concluir que el uso de la tierra con fines agricolas y las emisiones de gases de efecto invernadero tienen un P-value de 0.05 superior a 0.05 por lo que estos dos parametros cuentan con una correlación entre si lo suficientemente alta como para tomar en cuenta nuestro trabajo, y tambien para comprobar nuestra hipótesis previamente planteada.
Bibliografía
Lindwall, C. (2019, 31 julio). Industrial Agricultural Pollution 101. NRDC. https://www.nrdc.org/stories/industrial-agricultural-pollution-101
Ritchie, H. (2013, 13 noviembre). Land Use. Our World in Data. https://ourworldindata.org/land-use
Ritchie, H. (2020, 11 mayo). CO2 and Greenhouse Gas Emissions. Our World in Data. https://ourworldindata.org/co2-and-other-greenhouse-gas-emissions