La huella de carbono se define como la cantidad total de emisiones de gases de efecto invernadero emitidos durante todo el ciclo de vida de un proceso o producto expresadas como toneladas de dióxido de carbono equivalente (TCO2eq) (Kemp, 2020). La cual es evaluada bajo factores de conversión a partir del Potencial de calentamiento global, definido para diversos gases. Asimismo, se toma como punto de partida al CO2 debido a qué es el gas más representativo qué se acumulo en la atmósfera durante la revolución industrial. Además, entre diversos procesos productivos es el más típico en un gran número de actividades (Hidrocarburos, Minería, Producción, etc).
Utilizando:
library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5 v purrr 0.3.4
## v tibble 3.1.4 v dplyr 1.0.7
## v tidyr 1.1.4 v stringr 1.4.0
## v readr 2.0.1 v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
Huella <- read.csv("https://raw.githubusercontent.com/luiqs/Estadistica-Aplicada/main/PDB/Huella.csv")
La base de datos “Huella”, tiene 4 variables de estudio. A continuación se describe cada una de ellas:
Tabla 1
Identificación de las variables de estudio
| Nombre de Variable | Descripción |
|---|---|
| Nombre | Variable de tipo nominal que representa el nombre de la empresa. |
| Huella.Carbono | Es el calculo de la huella de carbono, expresado en toneladas de CO2 equivalente (anual). |
| Consumo.Energia | Es el consumo de energía anual (expresado en MegaWatts) |
| Tamaño.Empresa (TA.EM2) | Variable de tipo categórica que agrupa a la empresa según en número de trabajadores (la tienen tanto como categoría númerica y con nombre nomimal. Donde 1, corresponde a empresa chica; 2, a empresa mediana y 3 a empresa grande). |
| Consumo.Agua | Es el consumo de agua anual (expresado en Toneladas al año) |
| Ganancias.Anuales | Son las ganancias anuales en dolares de las mineras. |
Se plantea los siguientes objetivos los cuales se busca enfocar y encaminar el resultado
Analizar los efectos del consumo energético y crecimiento económico sobre el nivel de huella de carbono de 30 empresas mineras..
Evaluar cómo influye el consumo de agua sobre la huella de carbono.
Es decir que la importancia de esta investigación conlleva a responder cómo estas variables influyen sobre las empresas en la medición de la huella de carbono. .
Realice un análisis de agrupamiento con las variables huella de carbono, consumo de agua, consumo de energía y ganancias anuales.
Huella.Agrupamiento <-
Huella %>%
select(Huella.Carbono,
Consumo.Agua,
Consumo.Energia,
Ganancias.Anuales) %>%
scale()%>%
as.data.frame()
Nota: Se ha identificado previamente la existencia de un valor atípico
library(dplyr)
Huella.Agrupamiento = slice(Huella.Agrupamiento,-23, .preserve = FALSE)
dendrogram_i<- hclust(dist(Huella.Agrupamiento, method = "euclidean"),
method = "ward.D")
-NOTA-
El dendograma es utilizado para mostrar la relación jerarquica entre objetos. Por lo general, se crea como resultado de la agrupación jerarquica , cuyo objetivo principal es encontrar la mejor manera de asignar objetos a grupos con carcteristicas similares, en este caso de las varibles de la huella de carbono.
library(ggdendro)
ggdendrogram(dendrogram_i)
Interpretación: En este caso se observa como el dendograma se distribuye en tres grandes grupos, por lo tanto considerando los factores de similitud entre las poblaciones se optará por considerar k=3, sin embargo se evaluará el resultado de otros modelos y se adecuara mejor a nuestro objetivo de investigación qué se presentó inicialmente.
Corte.Arbol.Huella <- cutree(dendrogram_i, k=2)
CAI=data.frame(Corte.Arbol.Huella)
CAI2=table(CAI)
CAI2
## CAI
## 1 2
## 35 14
A= barplot(CAI2, xlab = "Numero de clusters", ylab="Frecuencias", col = palette("Pastel 2"))
Corte.Arbol.Huella <- cutree(dendrogram_i, k=3)
CAI=data.frame(Corte.Arbol.Huella)
CAI2=table(CAI)
CAI2
## CAI
## 1 2 3
## 22 13 14
B=barplot(CAI2, xlab = "Numero de clusters", ylab="Frecuencias", col = palette("Pastel 2"))
Corte.Arbol.Huella <- cutree(dendrogram_i, k=4)
CAI=data.frame(Corte.Arbol.Huella)
CAI2=table(CAI)
CAI2
## CAI
## 1 2 3 4
## 21 13 1 14
C=barplot(CAI2, xlab = "Numero de clusters", ylab="Frecuencias", col = palette("Pastel 2"))
Interpretación: Asimismo se puede observar que al existir 3 grupos, nuestra población de empresa se distribuyen de manera más uniforme. En comparación a que sea más fragmentada (mayor número de grupos)
set.seed(1)
wcss = vector()
for (i in 1:10){
wcss[i] <- sum(kmeans(Huella.Agrupamiento, i)$withinss)
}
plot(1:10, wcss, type = 'b', main = "Método del codo",
xlab = "Número de clusters (k)", ylab = "WCSS(k)")
Interpretación: Mediante el método del codo se puede observar como existe una desviación “logarítmica” analogicamente sobre el número de clusters, en este caso se tomará como punto de inflexión sobre la curva al punto 2 (k=2) y punto 3 (k=3). Asimismo, se analizará a detalle cómo influyen el número de clusters sobre un objetivo de investigación establecido.
library(factoextra)
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
library(NbClust)
k3 <- kmeans(Huella.Agrupamiento, centers = 3, nstart = 25)
k4 <- kmeans(Huella.Agrupamiento, centers = 4, nstart = 25)
k2 <- kmeans(Huella.Agrupamiento, centers = 2, nstart = 25)
Asimismo, revisamos algunas librerías para entender el código de las gráficas del cluster, resultado de ello se modificó a una manera más estética y funcional para evitar confusión entre la diferenciación de poblaciones.
Modelo que agrupa a las variables en dos grupos, criterio en base al modelo no jerárquico de la diagrama de codos
fviz_cluster(k2, data = Huella.Agrupamiento, ellipse.type = "euclid", palette= "Set1", ggtheme =theme_minimal(),star.plot = TRUE)
Modelo de distribución en tres poblaciones, determinadas a través del método de dendrograma y diagrama del árbol.
fviz_cluster(k3, data = Huella.Agrupamiento, ellipse.type = "euclid", palette= "Set2", ggtheme =theme_minimal(),star.plot = TRUE)
## Too few points to calculate an ellipse
Modelo de agrupamiento distribuido en 4 poblaciones, método experimental para verificar los resultados
fviz_cluster(k4, data = Huella.Agrupamiento, ellipse.type = "euclid", palette= "Set3", ggtheme =theme_minimal(), star.plot = TRUE)
## Too few points to calculate an ellipse
Interpretación: En este caso podemos obviar a un número de clusters mayor a 3 debido a que al dividirse en uno más perdería representatividad gráfica es decir que el grupo de individuos es menor en comparación de los demás grupos. (Número de individuos del cluster 4 = 6), por lo tanto solo analizaremos los k = 2 y 3
Huella.Agrupamiento$clus<-as.factor(k2$cluster)
Huella.Agrupamiento$clus<-factor(Huella.Agrupamiento$clus)
data_long <- gather(Huella.Agrupamiento, caracteristica, valor, Huella.Carbono:Ganancias.Anuales, factor_key=TRUE)
ggplot(data_long, aes(as.factor(x = caracteristica), y = valor,group=clus, colour = clus)) +
stat_summary(fun = mean, geom="pointrange", size = 1)+
stat_summary(geom="line")
## No summary function supplied, defaulting to `mean_se()`
## Warning: Removed 8 rows containing missing values (geom_segment).
Huella.Agrupamiento$clus<-as.factor(k3$cluster)
Huella.Agrupamiento$clus<-factor(Huella.Agrupamiento$clus)
data_long <- gather(Huella.Agrupamiento, caracteristica, valor, Huella.Carbono:Ganancias.Anuales, factor_key=TRUE)
ggplot(data_long, aes(as.factor(x = caracteristica), y = valor,group=clus, colour = clus)) +
stat_summary(fun = mean, geom="pointrange", size = 1)+
stat_summary(geom="line")
## No summary function supplied, defaulting to `mean_se()`
## Warning: Removed 12 rows containing missing values (geom_segment).
Interpretación: Las principales diferencias entre el Cluster 1 y 2 es que a mayor huella de carbono, mayor consumo energético, mayor consumo de agua y mayores ganancias anuales, así como otros que describen de manera opuesta que a mayor huella de carbono menores ganancias. Por lo tanto decidiremos por temas de facilidad y practicidad escoger al modelo con k=3, debido a que podríamos considerar que existe una mayor huella de carbono a mayores niveles de producción, sin embargo existen casos que tienen ganancias similares pero huellas de carbono diferentes.
Luego de haber analizado las gráficas qué permiten identificar el mejor número de clusters o agrupamientos (dendograma k= 3, método del codo k= 2, experimento k=4), debemos de considerar que estos modelos son principalmente creados para un objetivo de una investigación. Por lo tanto, determinar solo un agrupamiento representativo no tendría relevancia si no se le da un enfoque adecuado. Siendo en este caso que las variables a estudiar están relacionadas al comportamiento de la huella de carbono dentro de una empresa.(Consumo de agua y energía, ganancias anuales). Para este ejercicio se considerará el objetivo general y específico descrito inicialmente sobre nuestra unidad de análisis (Huella de carbono)
En base a los objetivos de investigación planteados se puede definir que el mejor grupo de clusters es el segundo modelo, ya que este nos muestra una realidad más clara y homogénea sobre la problemática de las empresas con respecto a la medición de su huella de carbono. Teniendo como principal enfoque a nivel internacional el control de su consumo energético. Asimismo, debemos de considerar que esta huella de carbono va a estar mucho más influenciada por otros mecanismos. Por ejemplo, el consumo de hidrocarburos, el número de flotas vehiculares, consumo de aire acondicionado, consumo de gas natural. Así como medir su huella indirecta mediante las actividades que promueven en la organización. Es decir, que bajo un enfoque crítico, la huella de carbono que se midió en la organización es indirecta y de alcance 2, según lo establecido por la ISO 14064.
Por lo tanto, habia que incurri a estrategias de gestion d ela energia al momento de craer un modelo de agrupamiento para huella de carbono. Según Feng et al (2015) describe que podriamos utilizar estas 4 politicas en la gestión de la energia.
Ahorrar energía y mejorar la politica de eficiencia energetica
Optimizar la estructura energética y mejorar la politica de eficiencia energetica
Actualizar la politica de la estructura de fabricación
Mejorar la gestion de las emisiones de GEI para la politica del sector residencial
Por lo tanto, la medición de la huella de carbono debe de ser considerada como una oportunidad para innovar, lograr una mejor eficiencia energética, diversificar y agregar valor, para ganar competitividad internacional.
Mediante técnicas de agrupamiento se logró determinar en función a un objetivo de investigación coherente de la variable de estudio como estas se comportan y la mejor manera de estudiarla es mediante la creación de 3 clusters, los cuales representan aquellos con un altos niveles de huella de carbono con el incremento de las unidades de consumo (energía y agua) y la ganancias netas anuales de la producción. Por otro lado, existen empresas las cuales no tienen esta tendencia las cuales representan al clúster n°1 (Empresas 8,12,15,24,25). Las cuales por ejemplo, deberían de realizar un análisis en base a la ISO 14064 sobre su huella de carbono y sus tres alcances para disminuirla y neutralizar sus emisiones.
Realice un análisis de componentes principales () con las variables huella de carbono, consumo de agua, consumo de energía y ganancias anuales.
Se considerara el mismo agrupamiento de la base de datos anterior considerando
Huella.PCA<-
Huella %>%
select(Huella.Carbono,
Consumo.Agua,
Consumo.Energia,
Ganancias.Anuales) %>%
scale()%>%
as.data.frame()
Huella.PCA= slice(Huella.PCA,-23, .preserve = FALSE)
library(FactoMineR)
respcah <- PCA(X = Huella.PCA, scale.unit = FALSE, graph = TRUE, ncp=5)
## Warning: ggrepel: 8 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps
print(respcah)
## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 49 individuals, described by 4 variables
## *The results are available in the following objects:
##
## name description
## 1 "$eig" "eigenvalues"
## 2 "$var" "results for the variables"
## 3 "$var$coord" "coord. for the variables"
## 4 "$var$cor" "correlations variables - dimensions"
## 5 "$var$cos2" "cos2 for the variables"
## 6 "$var$contrib" "contributions of the variables"
## 7 "$ind" "results for the individuals"
## 8 "$ind$coord" "coord. for the individuals"
## 9 "$ind$cos2" "cos2 for the individuals"
## 10 "$ind$contrib" "contributions of the individuals"
## 11 "$call" "summary statistics"
## 12 "$call$centre" "mean of the variables"
## 13 "$call$ecart.type" "standard error of the variables"
## 14 "$call$row.w" "weights for the individuals"
## 15 "$call$col.w" "weights for the variables"
head(respcah$var)
## $coord
## Dim.1 Dim.2 Dim.3 Dim.4
## Huella.Carbono 0.9483243 -0.04934917 -0.1444109 -0.27223478
## Consumo.Agua 0.8835336 0.01439290 -0.3863173 0.22309828
## Consumo.Energia 0.3103090 0.92266731 0.2097274 0.01139023
## Ganancias.Anuales 0.7309260 -0.34508227 0.5652999 0.07869133
##
## $cor
## Dim.1 Dim.2 Dim.3 Dim.4
## Huella.Carbono 0.9498831 -0.04943029 -0.1446483 -0.27268227
## Consumo.Agua 0.8925708 0.01454012 -0.3902687 0.22538023
## Consumo.Energia 0.3116014 0.92651011 0.2106009 0.01143767
## Ganancias.Anuales 0.7386894 -0.34874754 0.5713042 0.07952714
##
## $cos2
## Dim.1 Dim.2 Dim.3 Dim.4
## Huella.Carbono 0.90227790 0.0024433535 0.02092313 0.0743556177
## Consumo.Agua 0.79668266 0.0002114151 0.15230967 0.0507962484
## Consumo.Energia 0.09709545 0.8584209785 0.04435275 0.0001308202
## Ganancias.Anuales 0.54566209 0.1216248464 0.32638850 0.0063245665
##
## $contrib
## Dim.1 Dim.2 Dim.3 Dim.4
## Huella.Carbono 38.923215 0.25028187 3.907937 56.91856654
## Consumo.Agua 33.786337 0.02128955 27.966345 38.22602778
## Consumo.Energia 4.167578 87.49030176 8.242480 0.09963949
## Ganancias.Anuales 23.122870 12.23812683 59.883237 4.75576619
Interpretación: El círculo de correlación, nos muestra cómo se comportan las variables y su relación que existe (directa e inversamente proporcional). Asimismo, este se considera más útil que el presentado en clase, debido a que con el paquete FactoMiner nos permite tener una representación más limpia de los resultados. En este caso, podemos considerar que en la mayoría de los casos existe una relación directamente proporcional entre sí, sin embargo no todas contribuyen de igual manera.
Presentamos algunos datos interesantes
Menos ganancias = empresa n°5
Menor consumo de agua= empresa n°12
Menor huella de carbono= empresa n°10
Menor consumo de energía=empresa n°7
fviz_contrib(respcah, choice = "var")
Interpretación, en este caso no se eliminara ninguna variable para aumentar la sifgnificancia de la base de datos ya que actualmente posee un buen nivel de representatividad (92.09 %), además que en teoria la huella de carbono medida bajo estos valores no es represenmtativa sin el indicador del consumo energetico .
pca.Huella <- prcomp(Huella.PCA,scale=T)
summary(pca.Huella)
## Importance of components:
## PC1 PC2 PC3 PC4
## Standard deviation 1.5303 0.9913 0.7375 0.3628
## Proportion of Variance 0.5854 0.2457 0.1360 0.0329
## Cumulative Proportion 0.5854 0.8311 0.9671 1.0000
fviz_contrib(respcah, choice = "ind", ggtheme = theme_minimal())
Por otro lado, al momento de saber que empresas posee una mayor huella de carbono podríamos usar la función fviz_contrib del paquete FactoExtra, el cual nos ayuda a identificar los principales valores más influyentes en el PCA. Por ejemplo, en valor del lugar 17,9,18,13 son aquellas con una mayor huella de carbono. Por lo que, sería ideal estudiar aquellas empresas que poseen un comportamiento en común.
El análisis de huella de carbono con cluster y PCA nos dan la visión de cómo comprender e interpretar una serie de variables. Sin embargo, en algunos casos es conveniente definir correctamente las variables para establecer un mejor resultado, es decir que sea más correlacional al tema. Asimismo, someter a las variables a un análisis de representatividad y correlación es necesario solo cuando no se cumple supuestos de representatividad. Además, mencionar que ambos modelos de clasificación nos ayudan a representar casi lo mismo, pero con enfoques distintos. Por ejemplo, en el cluster 2 están todas aquellas empresas con una mayor huella de carbono y asu vez son las que máyor contribución dan al PCA.
Feng, C., Gao, X., Wu, J., Tang, Y., He, J., Qi, Y., Zhang, Y., (2015). Greenhouse gas emissions investigation for towns in China: a case study of Xiaolan. Journal of Cleaner Production 103, 130e139.
Kemp, I. C., (2020). Análisis de pellizco para la reducción de la huella de carbono y la energía || Glosario de términos. , (), 523-526. doi: 10.1016 / B978-0-08-102536-9.09993-8