Análisis de la correlación de la agronomia con la contaminación ambiental.
Planteaminto de la hipotesis.
- Hemos detectado que la agricultura tiene un papel importante en cuanto a emisiones de gases de efecto invernadero por lo que consideramos hacer un análisis de correlación de Shapiro-Wilk y Kolmogorov-Smirnov para saber si lo que pensamos es algo cierto o solo son suposiciones.
Importacion de datos y paquetes
Importación de paquete
Importación de los datos
filtrado de datos
land_use_per_capita <- land_use_per_capita[land_use_per_capita$Entity=="Mexico",]
land_use_per_capita <- land_use_per_capita[30:56, ]$agricultural_land_per_capita
ghg_emissions_by_sector <- ghg_emissions_by_sector[ghg_emissions_by_sector$Entity=="Mexico" ,]
agricultura_GHG <- ghg_emissions_by_sector$`Agriculture (GHG Emissions, CAIT)`
land_use_GHG <- ghg_emissions_by_sector$`Land-Use Change and Forestry (GHG Emissions, CAIT)`
datos <- data.frame(land_use_GHG,agricultura_GHG,land_use_per_capita)Análisis
ggplot(data = datos, aes(x=land_use_per_capita, y=land_use_GHG))+
geom_point(color = "darkred")+
labs(title="Diagrama de dispersión", x="Land use per capita", y="Green house gases by land use")+
theme_bw()+
theme(plot.title = element_text(hjust = 0.5)) ## Pruebas de normalidad
Histogramas de frecuencia
par (mfrow = c(1,2))
hist (datos$land_use_per_capita, breaks=10, main="", xlab="Land use per capita", border = "darkred")
hist (datos$land_use_GHG, breaks=10, main="", xlab="Green House gases land use", border = "darkred")En los gráficos vistos anteriormente podemos ver que tanto el uso de suelo per cápita como el uso de suelo de gases de efecto invernadero tienen una distribución normal cuando se tiene en cuenta la frecuencia. Esto significa que la mayoría de los puntos de datos son relativamente similares, lo que significa que ocurren dentro de un rango pequeño de valores con menos valores atípicos en los extremos superior e inferior del rango de datos.
Diagramas de quantiles
par (mfrow = c(1,2))
qqnorm(datos$land_use_per_capita, main="Land use", col="darkred")
qqline(datos$land_use_per_capita)
qqnorm(datos$land_use_GHG, main="Green House gases land use", col="darkred")
qqline(datos$land_use_GHG) Después de mirar el gráfico de diagramas de cuartiles, podemos determinar si un conjunto de datos proviene de alguna distribución teórica como Normal o exponencial. En nuestro caso, después de analizar la línea de regresión y el punto en cada gráfico, podemos ver que existe una gran posibilidad de que nuestros datos de uso de la tierra y gases de efecto invernadero sean normales.
Shapiro-Wilk
##
## Shapiro-Wilk normality test
##
## data: datos$land_use_per_capita
## W = 0.94436, p-value = 0.156
##
## Shapiro-Wilk normality test
##
## data: datos$land_use_GHG
## W = 0.95778, p-value = 0.3285
Como podemos observar en estos analisis de Shapiro-Wilk en nuestros datos, el p-value es superior a 0.05 asi que podemos considerar que la correlación de los datos que estamos utilizando es lo suficientemente alta como para tomar en cuenta para un análisis estadístico.
Kolmogorov-Smirnov
## Warning in ks.test(datos$land_use_GHG, "pnorm", mean =
## mean(datos$land_use_GHG), : ties should not be present for the Kolmogorov-
## Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: datos$land_use_GHG
## D = 0.14921, p-value = 0.5847
## alternative hypothesis: two-sided
ks.test(datos$land_use_per_capita,"pnorm",mean=mean(datos$land_use_per_capita),sd=sd(datos$land_use_per_capita))##
## One-sample Kolmogorov-Smirnov test
##
## data: datos$land_use_per_capita
## D = 0.098977, p-value = 0.9305
## alternative hypothesis: two-sided
En este caso hicimos un análisis de Kolmogorov-Smirnov en donde obtuvimos un p-value lo suficientemente alto para darnos cuenta que las distribuciones de probabilidad de las dos variables que tomamos en cuenta estan relacionadas entre si.
Prueba de varianza
Como podemos la prueba de varianza podemos afirmar que tenemos un 95 porciento de intervalo de confianza por lo que pasa la prueba.
##
## F test to compare two variances
##
## data: datos$land_use_GHG and datos$land_use_per_capita
## F = 1.4613e+15, num df = 26, denom df = 26, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 6.659548e+14 3.206558e+15
## sample estimates:
## ratio of variances
## 1.461309e+15
Prueba T-Student
Utilizamos la prueba de T Student para determinar si existía una diferencia entre nuestros 2 grupos de datos encontrados, en este test se necesita tener un valor p que sea igual o mayor a .05 y se puede concluir que en esta prueba se aprueba el nivel de normalidad de las 2 variables contempladas.
##
## Two Sample t-test
##
## data: datos$land_use_GHG and datos$land_use_per_capita
## t = 18.742, df = 52, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 16184905 20066204
## sample estimates:
## mean of x mean of y
## 1.812556e+07 1.031014e+00
Conslusión
En base a nuestros análisis estadísticos podemos concluir que el uso de la tierra con fines agricolas y las emisiones de gases de efecto invernadero tienen un P-value de 0.05 superior a 0.05 por lo que estos dos parametros cuentan con una correlación entre si lo suficientemente alta como para tomar en cuenta nuestro trabajo, y tambien para comprobar nuestra hipótesis previamente planteada.
Bibliografía
Lindwall, C. (2019, 31 julio). Industrial Agricultural Pollution 101. NRDC. https://www.nrdc.org/stories/industrial-agricultural-pollution-101
Ritchie, H. (2013, 13 noviembre). Land Use. Our World in Data. https://ourworldindata.org/land-use
Ritchie, H. (2020, 11 mayo). CO2 and Greenhouse Gas Emissions. Our World in Data. https://ourworldindata.org/co2-and-other-greenhouse-gas-emissions