Huella de carbono

La huella de carbono se define como la cantidad total de emisiones de gases de efecto invernadero emitidos durante todo el ciclo de vida de un proceso o producto expresadas como toneladas de dióxido de carbono equivalente (TCO2eq) (Kemp, 2020). La cual es evaluada bajo factores de conversión  a partir del Potencial de calentamiento global, definido para diversos gases. Asimismo, se toma como punto de partida al CO2 debido a qué es el gas más representativo qué se acumulo en la atmósfera durante la revolución industrial. Además, entre diversos procesos productivos es el más típico en un gran número de actividades (Hidrocarburos, Minería, Producción, etc).

0. Base de datos

Utilizando:

library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5     v purrr   0.3.4
## v tibble  3.1.4     v dplyr   1.0.7
## v tidyr   1.1.4     v stringr 1.4.0
## v readr   2.0.1     v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
Huella <- read.csv("https://raw.githubusercontent.com/luiqs/Estadistica-Aplicada/main/PDB/Huella.csv")

La base de datos “Huella”, tiene 4 variables de estudio. A continuación se describe cada una de ellas:

Tabla 1

Identificación de las variables de estudio

Nombre de Variable Descripción
Nombre Variable de tipo nominal que representa el nombre de la empresa.
Huella.Carbono Es el calculo de la huella de carbono, expresado en toneladas de CO2 equivalente (anual).
Consumo.Energia Es el consumo de energía anual (expresado en MegaWatts)
Tamaño.Empresa (TA.EM2) Variable de tipo categórica que agrupa a la empresa según en número de trabajadores (la tienen tanto como categoría númerica y con nombre nomimal. Donde 1, corresponde a empresa chica; 2, a empresa mediana y 3 a empresa grande).
Consumo.Agua Es el consumo de agua anual (expresado en Toneladas al año)
Ganancias.Anuales Son las ganancias anuales en dolares de las mineras.

Se plantea los siguientes objetivos los cuales se busca enfocar y encaminar el resultado

0.1. Objetivo general: 

  • Determinar la influencia de indicadores de consumo y crecimiento económico sobre la medición de la huella de carbono de 30 empresas de minería.

0. 2 Objetivo específico:

  • Analizar los efectos del consumo energético y crecimiento económico sobre el nivel de huella de carbono de 30 empresas mineras..

  • Evaluar cómo influye el consumo de agua sobre la huella de carbono.

Es decir que la importancia de esta investigación conlleva a responder cómo estas variables influyen sobre las empresas en la medición de la huella de carbono. . 

1. Análisis de agrupamiento

Realice un análisis de agrupamiento con las variables huella de carbono, consumo de agua, consumo de energía y ganancias anuales.

1.1. Selección de variables

Huella.Agrupamiento <- 
  Huella %>% 
  select(Huella.Carbono,
        Consumo.Agua,
        Consumo.Energia,
        Ganancias.Anuales) %>%
  scale()%>%
  as.data.frame() 

Nota: Se ha identificado previamente la existencia de un valor atípico

  • Se eliminaron los datos de la empresa “La Caja” debido a su alto consumo energético. Esto se debe a que lo consideramos como un valor atípico que podría afectar a nuestra distribución de datos siendo la única empresa que tiene un consumo energético mayor a los 1000 MWh. Asimismo si consideramos el contexto que se encuentra en la evaluación de la huella de carbono y tomando en cuenta los datos de ganancia anual. Por lo tanto, se podría definir que la empresa no es eficiente respecto al consumo de energía,  ya que el mayor consumo de la energía no representa las ganancias anuales, es decir qué hay empresas qué tienen menos consumo energético, poseen mayores ganancias anuales y su huella de carbono es menor. Por ello se tiene ahora 29 datos por medio de la función slice del paquete dplyr.
library(dplyr)
Huella.Agrupamiento = slice(Huella.Agrupamiento,-23, .preserve = FALSE)

1.2 Dendograma

dendrogram_i<- hclust(dist(Huella.Agrupamiento, method = "euclidean"), 
                    method = "ward.D")

-NOTA-

El dendograma es utilizado para mostrar la relación jerarquica entre objetos. Por lo general, se crea como resultado de la agrupación jerarquica , cuyo objetivo principal es encontrar la mejor manera de asignar objetos a grupos con carcteristicas similares, en este caso de las varibles de la huella de carbono.

1.3. Graficamos el dendograma. Metodo 1

library(ggdendro)
ggdendrogram(dendrogram_i)

Interpretación: En este caso se observa como el dendograma se distribuye en tres grandes grupos, por lo tanto considerando los factores de similitud entre las poblaciones se optará por considerar k=3, sin embargo se evaluará el resultado de otros modelos y se adecuara mejor a nuestro objetivo de investigación qué se presentó inicialmente.

Representación grafica

Corte.Arbol.Huella <- cutree(dendrogram_i, k=2)
CAI=data.frame(Corte.Arbol.Huella)
CAI2=table(CAI)
CAI2
## CAI
##  1  2 
## 35 14
A= barplot(CAI2, xlab = "Numero de clusters", ylab="Frecuencias", col = palette("Pastel 2"))

Corte.Arbol.Huella <- cutree(dendrogram_i, k=3)
CAI=data.frame(Corte.Arbol.Huella)
CAI2=table(CAI)
CAI2
## CAI
##  1  2  3 
## 22 13 14
B=barplot(CAI2, xlab = "Numero de clusters", ylab="Frecuencias", col = palette("Pastel 2"))

Corte.Arbol.Huella <- cutree(dendrogram_i, k=4)
CAI=data.frame(Corte.Arbol.Huella)
CAI2=table(CAI)
CAI2
## CAI
##  1  2  3  4 
## 21 13  1 14
C=barplot(CAI2, xlab = "Numero de clusters", ylab="Frecuencias", col = palette("Pastel 2"))

Interpretación: Asimismo se puede observar que al existir 3 grupos, nuestra población de empresa se distribuyen de manera más uniforme. En comparación a que sea más fragmentada (mayor número de grupos)

1.4. Evaluación de K, determinación de grupos de analisis. Metodo 2

set.seed(1)
wcss = vector()
for (i in 1:10){
  wcss[i] <- sum(kmeans(Huella.Agrupamiento, i)$withinss)
}
plot(1:10, wcss, type = 'b', main = "Método del codo",
     xlab = "Número de clusters (k)", ylab = "WCSS(k)")

Interpretación: Mediante el método del codo se puede observar como existe una desviación “logarítmica” analogicamente sobre el número de clusters, en este caso se tomará como punto de inflexión sobre la curva al punto 2 (k=2) y punto 3 (k=3). Asimismo, se analizará a detalle cómo influyen el número de clusters sobre un objetivo de investigación establecido.

1.5. Kmeans

library(factoextra)
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
library(NbClust)
k3 <- kmeans(Huella.Agrupamiento, centers = 3, nstart = 25)
k4 <- kmeans(Huella.Agrupamiento, centers = 4, nstart = 25)
k2 <- kmeans(Huella.Agrupamiento, centers = 2, nstart = 25)

Asimismo, revisamos algunas librerías para entender el código de las gráficas del cluster, resultado de ello se modificó a una manera más estética y funcional para evitar confusión entre la diferenciación de poblaciones.

1.6. Cluster

A. k=2

Modelo que agrupa a las variables en dos grupos, criterio en base al modelo no jerárquico de la diagrama de codos

fviz_cluster(k2, data = Huella.Agrupamiento, ellipse.type = "euclid", palette= "Set1", ggtheme =theme_minimal(),star.plot = TRUE)

B. k=3

Modelo de distribución en tres poblaciones, determinadas a través del método de dendrograma y diagrama del árbol.

fviz_cluster(k3, data = Huella.Agrupamiento, ellipse.type = "euclid", palette= "Set2", ggtheme =theme_minimal(),star.plot = TRUE)
## Too few points to calculate an ellipse

C. k=4

Modelo de agrupamiento distribuido en 4 poblaciones, método experimental para verificar los resultados

fviz_cluster(k4, data = Huella.Agrupamiento, ellipse.type = "euclid", palette= "Set3", ggtheme =theme_minimal(), star.plot = TRUE)
## Too few points to calculate an ellipse

Interpretación: En este caso podemos obviar a un número de clusters mayor a 3 debido a que al dividirse en uno más perdería representatividad gráfica es decir que el grupo de individuos es menor en comparación de los demás grupos. (Número de individuos del cluster 4 = 6), por lo tanto solo analizaremos los k = 2 y 3

1.7. Resultados finales de agrupamiento

A. Cluster 1 (k=2)

Huella.Agrupamiento$clus<-as.factor(k2$cluster)
Huella.Agrupamiento$clus<-factor(Huella.Agrupamiento$clus)

data_long <- gather(Huella.Agrupamiento, caracteristica, valor, Huella.Carbono:Ganancias.Anuales, factor_key=TRUE)

ggplot(data_long, aes(as.factor(x = caracteristica), y = valor,group=clus, colour = clus)) + 
  stat_summary(fun = mean, geom="pointrange", size = 1)+
  stat_summary(geom="line")
## No summary function supplied, defaulting to `mean_se()`
## Warning: Removed 8 rows containing missing values (geom_segment).

B. Cluster 2 (k=3)

Huella.Agrupamiento$clus<-as.factor(k3$cluster)
Huella.Agrupamiento$clus<-factor(Huella.Agrupamiento$clus)

data_long <- gather(Huella.Agrupamiento, caracteristica, valor, Huella.Carbono:Ganancias.Anuales, factor_key=TRUE)

ggplot(data_long, aes(as.factor(x = caracteristica), y = valor,group=clus, colour = clus)) + 
  stat_summary(fun = mean, geom="pointrange", size = 1)+
  stat_summary(geom="line")
## No summary function supplied, defaulting to `mean_se()`
## Warning: Removed 12 rows containing missing values (geom_segment).

Interpretación: Las principales diferencias entre el Cluster 1 y 2 es que a mayor huella de carbono, mayor consumo energético, mayor consumo de agua y mayores ganancias anuales, así como otros que describen de manera opuesta que a mayor huella de carbono  menores ganancias. Por lo tanto decidiremos por temas de facilidad y practicidad escoger al modelo con k=3, debido a que podríamos considerar que existe una mayor huella de carbono a  mayores niveles de producción, sin embargo existen casos que tienen ganancias similares pero huellas de carbono diferentes.

2. ¿Cual sera un mejor cluster?

2.1. Analisis y determinación de objetivos de investigación

Luego de haber analizado las gráficas qué permiten identificar el mejor número de clusters o agrupamientos (dendograma k= 3, método del codo k= 2, experimento k=4), debemos de considerar que estos modelos son principalmente creados para un objetivo de una investigación.  Por lo tanto, determinar solo un agrupamiento representativo no tendría relevancia si no se le da un enfoque adecuado. Siendo en este caso que las variables a estudiar están relacionadas al comportamiento de la huella de carbono dentro de una empresa.(Consumo de agua y energía, ganancias anuales). Para este ejercicio se considerará el objetivo general y específico descrito inicialmente sobre nuestra unidad de análisis (Huella de carbono)

3. Discusión del analisis de agrupamiento

En base a los objetivos de investigación planteados se puede definir que el mejor grupo de clusters es el segundo modelo, ya que este nos muestra una realidad más clara y homogénea sobre la problemática de las empresas con respecto a la medición de su huella de carbono. Teniendo como principal enfoque a nivel internacional el control de su consumo energético. Asimismo, debemos de considerar que esta huella de carbono va a estar mucho más influenciada por otros mecanismos. Por ejemplo, el consumo de hidrocarburos, el número de flotas vehiculares, consumo de aire acondicionado, consumo de gas natural. Así como medir su huella indirecta mediante las actividades que promueven en la organización. Es decir, que bajo un enfoque crítico, la huella de carbono que se midió en la organización es indirecta y de alcance 2, según lo establecido por la ISO 14064.

Por lo tanto, habia que incurri a estrategias de gestion d ela energia al momento de craer un modelo de agrupamiento para huella de carbono. Según Feng et al (2015) describe que podriamos utilizar estas 4 politicas en la gestión de la energia.

Por lo tanto, la medición de la huella de carbono debe de ser considerada como una oportunidad para innovar, lograr una mejor eficiencia energética, diversificar y agregar valor, para ganar competitividad internacional.

4. Conclusión del analisis de agrupamiento

Mediante técnicas de agrupamiento se logró determinar en función a un objetivo de investigación coherente de la variable de estudio como estas se comportan y la mejor manera de estudiarla es mediante la creación de 3 clusters, los cuales representan aquellos con un altos niveles de huella de carbono con el incremento de las unidades de consumo (energía y agua) y la ganancias netas anuales de la producción.  Por otro lado, existen empresas las cuales no tienen esta tendencia las cuales representan al clúster n°1 (Empresas 8,12,15,24,25). Las cuales por ejemplo, deberían de realizar un análisis en base a la ISO 14064 sobre su huella de carbono y sus tres alcances para disminuirla y neutralizar sus emisiones.

5. Analisis de componentes principales (PCA)

Realice un análisis de componentes principales () con las variables huella de carbono, consumo de agua, consumo de energía y ganancias anuales.

5.1. Base de datos

Se considerara el mismo agrupamiento de la base de datos anterior considerando

Huella.PCA<- 
  Huella %>% 
  select(Huella.Carbono,
        Consumo.Agua,
        Consumo.Energia,
        Ganancias.Anuales) %>%
  scale()%>%
  as.data.frame() 
Huella.PCA= slice(Huella.PCA,-23, .preserve = FALSE)
library(FactoMineR)

respcah <- PCA(X = Huella.PCA, scale.unit = FALSE, graph = TRUE, ncp=5)
## Warning: ggrepel: 8 unlabeled data points (too many overlaps). Consider
## increasing max.overlaps

print(respcah)
## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 49 individuals, described by 4 variables
## *The results are available in the following objects:
## 
##    name               description                          
## 1  "$eig"             "eigenvalues"                        
## 2  "$var"             "results for the variables"          
## 3  "$var$coord"       "coord. for the variables"           
## 4  "$var$cor"         "correlations variables - dimensions"
## 5  "$var$cos2"        "cos2 for the variables"             
## 6  "$var$contrib"     "contributions of the variables"     
## 7  "$ind"             "results for the individuals"        
## 8  "$ind$coord"       "coord. for the individuals"         
## 9  "$ind$cos2"        "cos2 for the individuals"           
## 10 "$ind$contrib"     "contributions of the individuals"   
## 11 "$call"            "summary statistics"                 
## 12 "$call$centre"     "mean of the variables"              
## 13 "$call$ecart.type" "standard error of the variables"    
## 14 "$call$row.w"      "weights for the individuals"        
## 15 "$call$col.w"      "weights for the variables"
head(respcah$var) 
## $coord
##                       Dim.1       Dim.2      Dim.3       Dim.4
## Huella.Carbono    0.9483243 -0.04934917 -0.1444109 -0.27223478
## Consumo.Agua      0.8835336  0.01439290 -0.3863173  0.22309828
## Consumo.Energia   0.3103090  0.92266731  0.2097274  0.01139023
## Ganancias.Anuales 0.7309260 -0.34508227  0.5652999  0.07869133
## 
## $cor
##                       Dim.1       Dim.2      Dim.3       Dim.4
## Huella.Carbono    0.9498831 -0.04943029 -0.1446483 -0.27268227
## Consumo.Agua      0.8925708  0.01454012 -0.3902687  0.22538023
## Consumo.Energia   0.3116014  0.92651011  0.2106009  0.01143767
## Ganancias.Anuales 0.7386894 -0.34874754  0.5713042  0.07952714
## 
## $cos2
##                        Dim.1        Dim.2      Dim.3        Dim.4
## Huella.Carbono    0.90227790 0.0024433535 0.02092313 0.0743556177
## Consumo.Agua      0.79668266 0.0002114151 0.15230967 0.0507962484
## Consumo.Energia   0.09709545 0.8584209785 0.04435275 0.0001308202
## Ganancias.Anuales 0.54566209 0.1216248464 0.32638850 0.0063245665
## 
## $contrib
##                       Dim.1       Dim.2     Dim.3       Dim.4
## Huella.Carbono    38.923215  0.25028187  3.907937 56.91856654
## Consumo.Agua      33.786337  0.02128955 27.966345 38.22602778
## Consumo.Energia    4.167578 87.49030176  8.242480  0.09963949
## Ganancias.Anuales 23.122870 12.23812683 59.883237  4.75576619

Interpretación: El círculo de correlación, nos muestra cómo se comportan las variables y su relación que existe (directa e inversamente proporcional). Asimismo, este se considera más útil que el presentado en clase, debido a que con el paquete FactoMiner nos permite tener una representación más limpia de los resultados. En este caso, podemos considerar que en la mayoría de los casos existe una relación directamente proporcional entre sí, sin embargo no todas contribuyen de igual manera. 

Presentamos algunos datos interesantes

  • Menos ganancias = empresa n°5

  • Menor consumo de agua= empresa n°12

  • Menor huella de carbono= empresa n°10

  • Menor consumo de energía=empresa n°7

5.3. Analisis de la contribución por variables

fviz_contrib(respcah, choice = "var")

Interpretación, en este caso no se eliminara ninguna variable para aumentar la sifgnificancia de la base de datos ya que actualmente posee un buen nivel de representatividad (92.09 %), además que en teoria la huella de carbono medida bajo estos valores no es represenmtativa sin el indicador del consumo energetico .

pca.Huella <- prcomp(Huella.PCA,scale=T)
summary(pca.Huella)
## Importance of components:
##                           PC1    PC2    PC3    PC4
## Standard deviation     1.5303 0.9913 0.7375 0.3628
## Proportion of Variance 0.5854 0.2457 0.1360 0.0329
## Cumulative Proportion  0.5854 0.8311 0.9671 1.0000
fviz_contrib(respcah, choice = "ind",  ggtheme = theme_minimal())

Por otro lado, al momento de saber que empresas posee una mayor huella de carbono podríamos usar la función fviz_contrib del paquete FactoExtra, el cual nos ayuda a identificar los principales valores más influyentes en el PCA. Por ejemplo, en valor del lugar 17,9,18,13 son aquellas con una mayor huella de carbono. Por lo que, sería ideal estudiar aquellas empresas que poseen un comportamiento en común.

6. Conclusion General

El análisis de huella de carbono con cluster y PCA nos dan la visión de cómo comprender e interpretar una serie de variables. Sin embargo, en algunos casos  es conveniente definir correctamente las variables para establecer un mejor resultado, es decir que sea más correlacional al tema. Asimismo, someter a las variables a un análisis de representatividad y correlación es necesario solo cuando no se cumple supuestos de representatividad. Además, mencionar que ambos modelos de clasificación nos ayudan a representar casi lo mismo, pero con enfoques distintos. Por ejemplo, en el cluster 2 están todas aquellas empresas con una mayor huella de carbono  y asu vez son las que máyor contribución dan al PCA.

7. Referencias