🌳 Introducción:

En la actualidad los países enfrentan diversos retos en torno al contexto del cambio climático global y la creciente preocupación por la disminución de recursos fósiles. En ese sentido, las energías renovables se han convertido en un pilar fundamental para alcanzar un desarrollo sostenible. Estas fuentes de energía incluyen la energía solar, eólica, hidroeléctrica, geotérmica y biomasa, las cuales se caracterizan por su capacidad de regeneración natural y su bajo impacto ambiental en comparación con los combustibles fósiles. (Twidell y Weir, 2015).

Ahora bien, el uso de energías renovables contribuye significativamente a la reducción de emisiones de gases de efecto invernadero, mejora la seguridad energética y promueve la creación de empleo en sectores verdes (Panwar, Kaushik y Kothair, 2011). En particular, la energía solar fotovoltaica y la eólica han experimentado un notable crecimiento durante la última década, gracias a la disminución de sus costos y políticas de apoyo implementadas por diversos gobiernos (IRENA, 2023).

Además, la integración de energías renovables en las plantas energéticas nacionales está relacionada con múltiples beneficios sociales, como el acceso a la electricidad en zonas rurales y la diversificación económica. Sin embargo, su implementación a gran escala genera también retos técnicos y económicos, como la necesidad de almacenamiento energético y la modernización de redes eléctricas (Ellabban, Haitham y Blaabjerg, 2014).

Así pues, el presente estudio tiene como objetivo aplicar técnicas de Aprendizaje No Supervisado (ANS) para identificar patrones y clasificar a 157 países según su nivel de participación en la producción de energía a partir de fuentes renovables. Para ello, se construyó una base de datos con información del año 2022, recopilada de Our World in Data y el Banco Mundial, que integra indicadores tanto energéticos como socioeconómicos. A través del análisis, se busca evidenciar agrupamientos significativos entre países con alta y baja participación de energías renovables, lo cual puede aportar a la comprensión global de la transición energética y a la formulación de estrategias sostenibles de desarrollo.

🍃 Descripción de las variables:

El conjunto de datos incluye información de distintos países relacionada con variables socioeconómicas, de acceso a servicios y de producción y consumo de energía:

1. emisiones_co2: Representa las emisiones de dióxido de carbono (CO2) per cápita, es decir, la cantidad promedio de toneladas métricas de CO2 emitidas por habitante en cada país. Esta variable es un indicador clave del impacto ambiental asociado al consumo de energía y al desarrollo industrial.

2. poblacion_urbana: Indica la proporción de la población que vive en áreas urbanas. Se expresa como un número entre 0 y 1, donde valores cercanos a 1 indican alta urbanización. Esta variable puede estar relacionada con el acceso a servicios, la demanda energética y el nivel de desarrollo del país.

3. acceso_electricidad: Muestra el porcentaje de la población que tiene acceso a electricidad. Un valor de 1.0 indica cobertura total. Esta variable es importante para entender el nivel de infraestructura energética y el grado de inclusión social en cada país.

4. consumo_electricidad: Corresponde al consumo total de electricidad per cápita, medido en kilovatios-hora por persona. Este indicador refleja tanto el nivel de desarrollo como los patrones de consumo energético en cada país.

5. PIB_per_capita: Es el Producto Interno Bruto per cápita expresado en dólares estadounidenses. Este valor representa el ingreso promedio por persona y es un indicador general del nivel económico del país.

6. financiamiento_energias_limpias: Esta variable muestra la cantidad de recursos financieros que un país destina a proyectos relacionados con energías limpias. Puede incluir inversiones públicas y privadas en tecnologías renovables, eficiencia energética y transición energética.

7. consumo_combustibles_fosiles: Indica la proporción del consumo total de energía que proviene de fuentes fósiles, como el petróleo, el carbón y el gas natural. Valores cercanos a 1 implican una alta dependencia de estas fuentes no renovables.

8. consumo_energias_renovables: Muestra la proporción del consumo energético total que proviene de fuentes renovables, tales como la energía solar, eólica, hidroeléctrica y biomasa. Esta variable es clave para evaluar el avance hacia una matriz energética sostenible.

9. produccion_combustibles_fosiles: Representa la proporción de la energía producida en el país que se genera a partir de combustibles fósiles. Es útil para entender no solo el consumo, sino también la capacidad productiva asociada a fuentes contaminantes.

10. produccion_energias_renovables: Indica la proporción de energía producida a partir de fuentes renovables. Es un indicador relevante para medir la autosuficiencia energética sostenible de los países.

11. energia_eolica: Refleja la proporción de la energía total generada que proviene específicamente de fuentes eólicas (viento). Esta forma de energía renovable está en expansión y es común en países con grandes llanuras o zonas costeras.

12. energia_hidroelectrica: Muestra la proporción de energía generada por fuentes hidroeléctricas, como represas y ríos. Es una de las formas más tradicionales de energía renovable, especialmente en países con abundantes recursos hídricos.

13. energia_solar: Representa la proporción de energía generada a partir de la radiación solar. Esta variable es especialmente relevante en países con alta exposición solar y refleja los avances en tecnologías fotovoltaicas.

14. energia_bajas_carbon: Esta variable agrupa la proporción de energía generada mediante fuentes con bajas emisiones de carbono, incluyendo tanto fuentes renovables como tecnologías limpias alternativas (por ejemplo, energía nuclear o geotérmica en algunos casos). Es un indicador general del grado de descarbonización del sistema energético.

🌳 Técnicas aplicadas:

🌻 Kmeans:

El método k-means es una técnica de agrupamiento (clustering) que busca dividir un conjunto de observaciones en k grupos o clústeres, de manera que los elementos dentro de cada grupo sean lo más parecidos entre sí y lo más distintos posible de los otros grupos. Para lograr esto, el algoritmo asigna cada observación al centroide más cercano y ajusta repetidamente los centroides hasta lograr una estructura estable. Es útil para descubrir patrones ocultos y segmentar datos sin necesidad de etiquetas previas.

🌱 ACP:

El Análisis de Componentes Principales (ACP) es una técnica estadística utilizada para reducir la dimensión de un conjunto de datos. Su objetivo es transformar un grupo de variables posiblemente correlacionadas en un número menor de componentes no correlacionados que explican la mayor parte de la variabilidad de los datos. De esta forma, el ACP facilita la visualización, interpretación y análisis de datos complejos, conservando la información más relevante. Y está es su ecuación:

Z=λ1X1+λ2X2+⋯+λpXp

🌼 Ward o jerárquico:

El método de Ward es una técnica de clustering jerárquico que agrupa observaciones de forma sucesiva en función de su similitud, formando una estructura en forma de árbol llamada dendrograma. A diferencia de otros métodos jerárquicos, Ward minimiza el incremento de la varianza total dentro de los grupos en cada paso de la agrupación. Esto permite formar clústeres compactos y bien diferenciados, lo cual es útil para explorar la estructura interna de los datos sin necesidad de fijar un número inicial de grupos.

🌳 Análisis descriptivos:

#Cargar las librerías necesarias y la base de datos:
library(readxl)
library(tidyverse)
library(ggplot2)
library(knitr)
library(kableExtra)
library(DT)

datos <- read_excel("Caso3.xlsx")

resumen <- summary(datos)
resumen_df <- as.data.frame(resumen)

datatable(
  resumen_df,
  caption = "Resumen estadístico de variables del conjunto de datos",
  extensions = 'Buttons',
  options = list(
    dom = 'Bfrtip',
    buttons = c('copy', 'csv', 'excel', 'pdf', 'print'),
    pageLength = 10,
    scrollX = TRUE
  )
)
#Dejar solo las variables:
datos_filtrado <- scale(datos[,-1])
datos_filtrado_df <- as.data.frame(datos_filtrado)

📌 Hipótesis y Patrones:

Este apartado presenta los principales patrones y comportamientos identificados a partir del análisis exploratorio de variables relacionadas con la energía, el desarrollo sostenible y el medio ambiente. Se incluyen observaciones sobre la forma de las distribuciones y relaciones destacadas entre variables, acompañadas de visualizaciones gráficas y su respectiva interpretación. La finalidad es establecer hipótesis preliminares sobre desigualdad energética, transición a energías limpias y desarrollo sostenible.

graficos <- list()

for (var in names(datos_filtrado_df)) {
  g <- ggplot(datos, aes_string(x = var)) +
    geom_histogram(aes(y = ..density..), bins = 30, fill = "skyblue", color ="black") +
    geom_density(color = "red", size = 1) +
    scale_x_continuous(labels = scales::comma) + 
    theme_minimal() +
    labs(title = paste("Distribución de:", var), x = var, y = "Densidad")
  
  graficos[[var]] <- g
}
#Para ver los gráficos:

graficos[["PIB_per_capita"]]

graficos[["acceso_electricidad"]]

graficos[["energia_eolica"]]

graficos[["energia_hidroelectrica"]]

graficos[["energia_solar"]]

graficos[["energia_bajas_carbon"]]

graficos[["consumo_combustibles_fosiles"]]

graficos[["consumo_electricidad"]]

graficos[["financiamiento_energias_limpias"]]

graficos[["produccion_energias_renovables"]]

graficos[["produccion_combustibles_fosiles"]]

graficos[["emisiones_co2"]]

graficos[["poblacion_urbana"]]

El análisis de distribuciones revela una marcada desigualdad en el acceso, consumo e inversión energética entre países. Muchas variables están sesgadas, lo que justifica la necesidad de usar transformaciones estadísticas para un análisis más justo. A partir de estas observaciones, se pueden establecer hipótesis clave:

  • Los países con mayor PIB per cápita tienden a tener mayor consumo eléctrico.

  • La alta urbanización se asocia con mejor acceso a electricidad.

  • No todos los países ricos emiten mucho CO2, lo que sugiere que el uso de renovables y la eficiencia energética pueden mitigar el impacto ambiental.

  • La transición hacia energías limpias es desigual y depende de múltiples factores económicos y políticos.

1. Los países con mayorPIB per cápita tienden a tener mayor consumo eléctrico:

library(ggplot2)

p <- ggplot(datos, aes(x = PIB_per_capita, y = consumo_electricidad)) +
  geom_point(aes(color = emisiones_co2), size = 3, alpha = 0.8) +
  scale_color_gradient(low = "green", high = "red") +
  scale_x_log10(labels = scales::comma) +
  scale_y_log10(labels = scales::comma) +
  theme_minimal() +
  labs(
    title = "Relación entre el PIB per cápita y el consumo eléctrico",
    subtitle = "Escala logarítmica (colores = emisiones de CO₂)",
    x = "PIB per cápita (USD)",
    y = "Consumo eléctrico per cápita (kWh)",
    color = "Emisiones CO₂"
  )
p

El gráfico muestra una relación positiva entre el PIB per cápita y el consumo eléctrico: los países más ricos tienden a consumir más energía. Sin embargo, este mayor consumo no siempre se traduce en más emisiones de CO2, ya que algunos países desarrollados usan fuentes limpias o son energéticamente eficientes. En contraste, los países con bajo PIB presentan tanto consumo como emisiones reducidas, lo que puede deberse a baja industrialización o menor acceso a la electricidad. El análisis resalta cómo el desarrollo económico influye en el consumo energético, pero las emisiones dependen del tipo de energía utilizada, lo cual es clave para pensar en desarrollo sostenible y energías limpias.

2. La alta urbanización se asocia con mejor acceso a electricidad:

library(ggrepel)

p <- ggplot(datos, aes(x = poblacion_urbana, y = acceso_electricidad)) +
  geom_point(aes(size = PIB_per_capita, color = consumo_electricidad),
             alpha = 0.7) +
  geom_text_repel(aes(label = ifelse(acceso_electricidad < 0.9 | poblacion_urbana < 0.6, pais, NA)),
                  size = 3, max.overlaps = 10) +
  scale_color_gradient(low = "lightblue", high = "darkblue") +
  scale_size(range = c(2, 10)) +
  scale_x_continuous(labels = scales::percent_format(accuracy = 1)) +
  scale_y_continuous(labels = scales::percent_format(accuracy = 1)) +
  theme_minimal() +
  labs(
    title = "Relación entre urbanización y el acceso a la eléctricidad",
    subtitle = "Países con baja urbanización o acceso resaltados",
    x = "% de población urbana",
    y = "% de acceso a eléctricidad",
    color = "Consumo electricidad (Kwh)",
    size = "PIB per capita (USD)"
  )

p

El análisis revela una relación clara entre urbanización y acceso a la electricidad: los países más urbanizados suelen tener mayor cobertura eléctrica. Sin embargo, hay excepciones donde, pese a una alta urbanización, el acceso sigue siendo limitado, lo que indica desigualdades o fallas en infraestructura. También se destacan casos de países poco urbanizados con acceso casi total, posiblemente por políticas efectivas de electrificación rural. Además, el tamaño y color de los puntos en el gráfico reflejan que los países con mayor PIB y consumo energético tienden a ser más urbanizados, aunque algunos aún enfrentan barreras en el acceso. En conjunto, el gráfico muestra avances, pero también retos para garantizar un acceso equitativo y sostenible a la electricidad.

3. No todos los países ricos emiten mucho CO2, lo que sugiere que el uso de renovables y la eficiencia energética pueden mitigar el impacto ambiental:

options(scipen = 999)
p <- ggplot(datos, aes(x = PIB_per_capita,
                  y = emisiones_co2,
                  size = financiamiento_energias_limpias,
                  color = consumo_energias_renovables)) +
  geom_point(alpha = 0.7) +
  scale_size_continuous(range = c(1, 12), name = "Financiamiento limpio") +
  scale_color_gradient(low = "yellow", high = "darkgreen", name = "Consumo renovable") +
  scale_x_continuous(labels = scales::comma) +
  scale_y_continuous(labels = scales::comma) +
  labs(
    title = "Emisiones vs PIB per cápita",
    x = "PIB per cápita (USD)",
    y = "Emisiones de co2 (Toneladas)" +
      theme_minimal() +
      theme(plot.title = element_text(face = "blod", size = 14))
  )

p

El gráfico muestra que, aunque los países con mayor PIB per cápita tienden a concentrarse hacia la derecha, no todos presentan altas emisiones de CO₂. Algunos destacan por combinar altos ingresos con bajas emisiones, probablemente gracias al uso de energías renovables y tecnologías limpias. En contraste, los países con bajo PIB, ubicados en la esquina inferior izquierda, presentan bajos niveles de emisiones, consumo renovable e inversión, lo que refleja limitaciones en industrialización o acceso energético. También se evidencia que una alta inversión en energías limpias no implica una transición inmediata, ya que sus efectos pueden tardar en reflejarse en el consumo renovable.

4. La transición hacia energías limpias es desigual y depende de múltiples factores económicos y políticos:

library(ggcorrplot)
library(dplyr)

matriz_cor <- cor(datos_filtrado_df, use = "complete.obs")

ggcorrplot(matriz_cor,
          hc.order = TRUE,
          type = "upper",
          lab = TRUE,
          lab_size = 3,
          colors = c("blue", "white", "red"),
          title = "Mapa de calor de correlaciones entre variables",
          ggtheme = theme_minimal())

El mapa de calor revela relaciones clave entre variables energéticas, económicas y sociales. Destaca una fuerte correlación negativa (-0.82) entre el consumo de energías renovables y fósiles, lo que indica que los países suelen centrarse en una de estas fuentes. También se observa una relación moderada entre el PIB per cápita, el consumo eléctrico (0.64) y las emisiones de Co2 (0.60), evidenciando que el desarrollo económico suele ir acompañado de mayor uso energético y contaminación. El acceso a la electricidad se vincula con la urbanización (0.50) y, en menor grado, con el PIB (0.44), lo que sugiere que el crecimiento urbano y económico mejora la cobertura eléctrica.

Además, las fuentes limpias como la solar, eólica y bajas en carbono están fuertemente correlacionadas entre sí, lo que indica una tendencia a diversificar dentro del sector sostenible. Aunque la inversión en energías limpias tiene correlaciones débiles, muestra cierta relación positiva con el PIB y la producción renovable. En conjunto, el análisis evidencia una división entre países enfocados en combustibles fósiles y aquellos que avanzan hacia una matriz energética sostenible, así como la persistente relación entre desarrollo económico, alto consumo y emisiones, con señales de transición en algunos

🌳 Resultados de las técnicas:

#Cargar librerías necesarias:
library(tidyverse)
library(ggplot2)
library(factoextra)
library(reshape2)
library(FactoClass)

#Escalamiento de los datos:
datos_filtrado <- scale(datos[,-1])
datos_filtrado_df <- as.data.frame(datos_filtrado)

🌻 Kmeans:

🍃 Número adecuado de clusters:

fviz_nbclust(datos_filtrado, FUN = kmeans, method = "wss")

La gráfica del método del “codo” sugiere que el número adecuado de clusters para segmentar los países, según sus características energéticas y socioeconómicas, corresponde a un k=2. Este resultado nos indica que, a partir de ese punto, agregar más grupos no aporta mejoras significativas en la homogeneidad interna de los clusters. Así pues, esta agrupación permite distinguir patrones relevantes entre países con distintos niveles de integración de energías renovables, consumo de combustibles fósiles y acceso a servicios energéticos. En ese sentido, utilizar 2 clusters permite una interpretación más clara de las trayectorias de transición energética a nivel global, diferenciando entre contextos de alta participación renovable, dependencia a combustibles fósiles y condiciones intermedias que pueden orientar políticas públicas hacia un desarrollo energético más sostenible.

fviz_nbclust(datos_filtrado, FUN = kmeans, method = "silhouette")

Igualmente, según el método de silhouette, el número óptimo de cluster para segmentar los países es un k=2. Este valor permite una mejor interpretación de la separación entre grupos, lo que indica que los países incluidos en la base de datos pueden dividirse de forma clara en dos grandes categorías con características diferenciadas teniendo en cuenta sus indicadores energéticos y socioeconómicos. En el contexto de la investigación, esta división sugiere la existencia de un grupo de países con mayor participación de energías renovables y mejores condiciones de acceso a servicios energéticos, frente a otro grupo con mayor dependencia a combustibles fósiles y menores niveles de desarrollo energético. Esta diferencia es relevante para el análisis de la transición energética, dado que permite identificar con mayor claridad en cuáles podrían focalizarse políticas de apoyo e inversión en energías limpias.

modelo <- kmeans(datos_filtrado_df, centers = 2)

datos_agrupados <- datos_filtrado_df %>% 
  mutate(cluster = modelo$cluster)

datatable(
  datos_agrupados,
  caption = "Observaciones con su respectivo clúster",
  extensions = 'Buttons',
  options = list(
    dom = 'Bfrtip',
    buttons = c('copy', 'csv', 'excel', 'pdf', 'print'),
    pageLength = 10,
    scrollX = TRUE
  )
)

🍃 Análisis por cluster:

datos_agrupados %>%
  group_by(cluster) %>%
  summarise(across(everything(), ~mean(.x, na.rm = TRUE))) %>%
  datatable(
    caption = "Promedio de cada variable por clúster",
    extensions = 'Buttons',
    options = list(
      dom = 'Bfrtip',
      buttons = c('copy', 'csv', 'excel', 'pdf', 'print'),
      pageLength = 10,
      scrollX = TRUE
    )
  )

A partir de la segmentación de los datos con k=2 clusters, se calcularon los promedios estandarizados de las variables energéticas y socioeconómicas en cada grupo. Este análisis permite caracterizar los clusters identificados y resaltar las diferencias en aspectos como las emisiones de CO2, el consumo de energía, el financiamiento de energías limpias y la participación de fuentes renovables, entre otros indicadores clave en la alta participación de energías renovables.

Ahora bien, los resultados permiten diferenciar claramente dos grupos de países, uno con mayor participación en la integración de energías renovables (cluster 2), en el cual se presentan valores positivos en los que se evidencian mayor integración de energías renovables (consumo_energias_renovables = 0.8387), y otro con una fuerte dependencia a las fuentes fósiles, menor capacidad financiera y limitaciones en el acceso a servicios energéticos (cluster 1), en el cual se evidencian valores negativos que atribuyen a una débil participación de energías renovables (consumo_energias_renovables = -0.6924).

🍃 Visualización por cluster:

data_long <- melt(datos_agrupados, id = "cluster")

# Gráfico general
ggplot(data_long,aes(y= value, x= variable)) +
  geom_boxplot() +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1))

# Gráfico coloreado por clúster
ggplot(data_long,aes(y= value, x= variable, color = as.factor(cluster))) +
  geom_boxplot() +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1))

Las gráficas boxplot permiten visualizar la distribución de las variables estandarizadas y compararlas entre los 2 clusters identificados. Se observa que los países del cluster 2 presentan, en promedio, una mayor participación de energías renovables en su matriz energética, así como mayores niveles de producción limpia (eólica, solar e hidroeléctrica). Por el contrario, el cluster 1 agrupa países con una marcada tendencia al consumo de combustibles fósiles y mayores emisiones de CO2.

🌱 ACP:

acp <- prcomp(datos_filtrado_df, scale = TRUE)
summary(acp)
## Importance of components:
##                          PC1    PC2    PC3     PC4     PC5     PC6     PC7
## Standard deviation     2.239 1.5870 1.3786 1.02825 0.96215 0.79597 0.77346
## Proportion of Variance 0.358 0.1799 0.1358 0.07552 0.06612 0.04525 0.04273
## Cumulative Proportion  0.358 0.5379 0.6736 0.74913 0.81526 0.86051 0.90324
##                            PC8     PC9    PC10    PC11    PC12      PC13
## Standard deviation     0.67218 0.62952 0.52755 0.45504 0.14523 0.0003613
## Proportion of Variance 0.03227 0.02831 0.01988 0.01479 0.00151 0.0000000
## Cumulative Proportion  0.93552 0.96382 0.98370 0.99849 1.00000 1.0000000
##                                         PC14
## Standard deviation     0.0000000000000006799
## Proportion of Variance 0.0000000000000000000
## Cumulative Proportion  1.0000000000000000000
fviz_eig(acp)

Este análisis permitió reducir la dimensionalidad de los datos, extrayendo nuevas variables que resumen la información original sin pérdida significativa de varianza. El primer componente (PC1) explica el 35.8% de la variabilidad, el segundo (PC2) la explica con el 17.9% y PC3 con el 13.6%. En conjunto, los 3 primeros componentes explican aproximadamente el 67.4% de la varianza total, lo cual se considera adecuado para visualizar la estructura de los datos en dos o tres dimensiones. Esta reducción en la dimensión permite la interpretación de los patrones entre países según sus características energéticas y socioeconómicas, en función de que se puedan agruparlos en ejes latentes como el nivel de desarrollo energético o la dependencia que pueden tener hacia las fuentes fósiles.

La gráfica deja en evidencia el aporte de cada componente a la varianza total de los datos. En particular, se observa una caída significativa en los primeros 3 componentes lo que indica que estos concentran la mayor parte de la información útil; en otras palabras, dicha caída significativa indica un cambio de ritmo en la varianza explicada, lo cual es una señal visual de que vale la pena quedarse solo con los primeros componentes. A partir del cuarto componente, la disminución en el porcentaje de varianza explicada se vuelve menos pronunciada, lo que sugiere un punto de inflexión.

Así pues, este comportamiento justifica la selección de los 3 primeros componentes para el análisis, dado que permiten reducir la dimensionalidad de los datos sin perder información relevante, posibilitando una mejor interpretación de las variables de estudio.

⚡ Visualización del ACP:

fviz_pca_ind(acp,
             col.ind = "cos2", 
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE)

fviz_pca_var(acp,
             col.var = "contrib",
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE)

fviz_pca_biplot(acp, repel = TRUE,
                col.var = "#2E9FDF", 
                col.ind = "#696969")

La primera gráfica permite la visualización de los individuos en el plano principal del ACP permite identificar la distribución de los países según sus características energéticas y socioeconómicas. Los países que aparecen más alejados del centro muestran perfiles particulares o extremos en alguna de las variables analizadas, mientras que aquellos más cercanos en alguna de las variables analizadas, mientras que aquellos más cercanos tienden a compartir patrones comunes. El color de los puntos indica la calidad de representaciones, en las cuales unmayor valor implica una mejor representación del país en las dos primeras dimensiones. En general, esta representación posibilita detectar outliers o agrupamientos preliminares en los datos.

Ahora bien, las gráficas de variables y el biplot ofrecen información clave para poder interpretar el significado de las dimensiones principales. La primera dimensión (Dim1), que explica el 35.8% de la varianza, está asociada a variables como PIB per cápita, emisiones de co2, acceso a electricidad y consumo de electricidad, lo que sugiere un eje de desarrollo económico y energético. La segunda dimensión (Dim2), con el 18% de varianza, agrupa variables como producción y consumo de energías renovables, así como energía eólica y solar, evidenciando un eje de transición energética. Así, los países ubicados a la derecha del plano tienden a presentar altos niveles de industrialización y consumo, mientras que los situados hacia la izquierda destacan por una mayor participación de fuentes limpias, lo cual justifica la segmentación posterior por clústeres.

⚡ Resultados variables:

eig.val <- get_eigenvalue(acp)
eig.val
##                                     eigenvalue
## Dim.1  5.0114823559504637628947421035263687372
## Dim.2  2.5186541769182384520320283627370372415
## Dim.3  1.9004546670982986888986943085910752416
## Dim.4  1.0572912941021450627943067956948652864
## Dim.5  0.9257376555579015509067630773643031716
## Dim.6  0.6335666954161073283202654238266404718
## Dim.7  0.5982344998906223842993767902953550220
## Dim.8  0.4518286619812106885696323388401651755
## Dim.9  0.3962912799426134835556467805872671306
## Dim.10 0.2783065731535416809094840573379769921
## Dim.11 0.2070601302102594298837345831998391077
## Dim.12 0.0210918792630260219789217757124788477
## Dim.13 0.0000001305155803415059369895073748680
## Dim.14 0.0000000000000000000000000000004622044
##                              variance.percent cumulative.variance.percent
## Dim.1  35.79630254250329102205796516500413418                    35.79630
## Dim.2  17.99038697798740571442976943217217922                    53.78669
## Dim.3  13.57467619355926835567061061738058925                    67.36137
## Dim.4   7.55208067215817457906723575433716178                    74.91345
## Dim.5   6.61241182541357908064583170926198363                    81.52586
## Dim.6   4.52547639582933491908534051617607474                    86.05133
## Dim.7   4.27310357064729995357765801600180566                    90.32444
## Dim.8   3.22734758558007417406088279676623642                    93.55179
## Dim.9   2.83065199959009428098966054676566273                    96.38244
## Dim.10  1.98790409395386769020319661649409682                    98.37034
## Dim.11  1.47900093007328070626726912450976670                    99.84934
## Dim.12  0.15065628045018578107239193286659429                   100.00000
## Dim.13  0.00000093225414529647037346210547426                   100.00000
## Dim.14  0.00000000000000000000000000000330146                   100.00000
res.var <- get_pca_var(acp)
res.var$coord [,1:3]
##                                       Dim.1       Dim.2       Dim.3
## emisiones_co2                    0.34954406 -0.65333826  0.38174663
## poblacion_urbana                 0.20390831 -0.77358676  0.11842186
## acceso_electricidad              0.36565073 -0.62002537  0.03201385
## consumo_electricidad            -0.05955092 -0.26117735 -0.14279800
## PIB_per_capita                   0.18002537 -0.84152873  0.11409689
## financiamiento_energias_limpias  0.15218589  0.05284028 -0.33366539
## consumo_combustibles_fosiles     0.94270215  0.21036018 -0.10905873
## consumo_energias_renovables     -0.94270215 -0.21036018  0.10905873
## produccion_combustibles_fosiles -0.38919299 -0.21842240 -0.83075550
## produccion_energias_renovables   0.36895005  0.32949920  0.82286131
## energia_eolica                  -0.72776008 -0.05483838  0.24514516
## energia_hidroelectrica          -0.85155881 -0.03200343  0.05618326
## energia_solar                   -0.66820228  0.19151431  0.35879312
## energia_bajas_carbon            -0.94268490 -0.21040194  0.10911157
res.var$contrib [,1:3]
##                                       Dim.1       Dim.2       Dim.3
## emisiones_co2                    2.43802212 16.94757810  7.66819060
## poblacion_urbana                 0.82966671 23.76016857  0.73791488
## acceso_electricidad              2.66788246 15.26336792  0.05392851
## consumo_electricidad             0.07076373  2.70833554  1.07296788
## PIB_per_capita                   0.64669755 28.11702391  0.68499919
## financiamiento_energias_limpias  0.46214958  0.11085665  5.85820826
## consumo_combustibles_fosiles    17.73302355  1.75694652  0.62584001
## consumo_energias_renovables     17.73302355  1.75694652  0.62584001
## produccion_combustibles_fosiles  3.02248269  1.89419994 36.31524120
## produccion_energias_renovables   2.71624494  4.31062457 35.62835529
## energia_eolica                  10.56842453  0.11939901  3.16219865
## energia_hidroelectrica          14.46981854  0.04066535  0.16609490
## energia_solar                    8.90942558  1.45624325  6.77377392
## energia_bajas_carbon            17.73237447  1.75764416  0.62644670
res.var$cos2[,1:3]
##                                       Dim.1       Dim.2       Dim.3
## emisiones_co2                   0.122181048 0.426850884 0.145730486
## poblacion_urbana                0.041578601 0.598436478 0.014023738
## acceso_electricidad             0.133700459 0.384431454 0.001024887
## consumo_electricidad            0.003546312 0.068213606 0.020391268
## PIB_per_capita                  0.032409133 0.708170597 0.013018099
## financiamiento_energias_limpias 0.023160545 0.002792096 0.111332592
## consumo_combustibles_fosiles    0.888687347 0.044251407 0.011893806
## consumo_energias_renovables     0.888687347 0.044251407 0.011893806
## produccion_combustibles_fosiles 0.151471187 0.047708346 0.690154696
## produccion_energias_renovables  0.136124136 0.108569726 0.677100741
## energia_eolica                  0.529634730 0.003007248 0.060096152
## energia_hidroelectrica          0.725152403 0.001024219 0.003156558
## energia_solar                   0.446494291 0.036677731 0.128732503
## energia_bajas_carbon            0.888654818 0.044268978 0.011905336

El Análisis de Componentes Principales (ACP) permitió reducir la complejidad de los datos energéticos y socioeconómicos conservando una proporción significativa de la varianza. Las dos primeras dimensiones explican en conjunto un 53,79% de la varianza total, y al considerar la tercera se alcanza un 67,36%. La Dimensión 1, que podría denominarse “Perfil de consumo energético”, agrupa principalmente variables relacionadas con el uso de diferentes fuentes de energía, como el consumo de energías renovables, combustibles fósiles, energías bajas en carbono y energía solar. La Dimensión 2, que se sugiere llamar “Nivel de desarrollo e infraestructura”, está asociada a variables como PIB per cápita, población urbana, emisiones de CO2 y acceso a la electricidad, las cuales reflejan condiciones estructurales de los países. Por su parte, la Dimensión 3, que podría nombrarse “Modelo de producción energética”, está determinada por la producción de energías renovables y no renovables, diferenciando claramente las fuentes de generación energética.

En relación con la calidad de representación de las variables en el plano de las dos primeras dimensiones, se observa que variables como el consumo de combustibles fósiles, energías bajas en carbono y energía solar están bien representadas, por lo que su análisis en estos ejes es confiable. En contraste, variables como PIB per cápita, consumo de electricidad y población urbana tienen una representación más baja, por lo que sería conveniente analizarlas en planos alternativos como el de las Dimensiones 2 y 3. Así pues, el ACP permite identificar agrupaciones y patrones que conectan el consumo y la producción energética con el nivel de desarrollo de los países, facilitando una interpretación visual y analítica de las relaciones entre variables clave en el contexto energético global.

⚡ Resultados individuales:

res.ind <- get_pca_ind(acp)
res.ind$coord[1:20,1:3]
##         Dim.1       Dim.2       Dim.3
## 1   4.1196238  0.71312579  0.36729341
## 2  -1.3290496  0.77018986 -1.35515197
## 3   2.5546093  1.07301021  0.75431286
## 4   2.2115090 -0.64025395 -0.16309856
## 5   1.2684245  0.20689637 -0.39495887
## 6   1.8579625 -1.68661096  1.12837607
## 7  -1.2872118 -1.95517852 -0.99852079
## 8   3.9332553  0.93359956 -0.10745057
## 9   2.7933344 -2.27664400  2.36163746
## 10  3.8514708  1.92844498  0.02483816
## 11 -2.0342521  0.62043234  1.96293743
## 12  3.7839534 -0.04916767  0.43467294
## 13  0.9710834 -2.23515231  0.02258280
## 14 -0.4845421  0.20792715 -1.60873442
## 15 -1.7277841  1.73847654  1.62126192
## 16 -1.3940804 -0.14101794 -2.10331057
## 17  1.6218693  0.40942127 -0.29081889
## 18 -2.6007416 -1.59343388 -3.00512556
## 19  0.6572635 -1.01183016  0.25059426
## 20 -0.5789054 -2.92951906 -0.76599450
res.ind$contrib[1:20,1:3]
##         Dim.1        Dim.2        Dim.3
## 1  2.15699562 0.1286068491 0.0452136014
## 2  0.22450008 0.1500124819 0.6154869260
## 3  0.82943647 0.2911652326 0.1906978751
## 4  0.62160081 0.1036659982 0.0089154467
## 5  0.20448592 0.0108252407 0.0522813248
## 6  0.43874080 0.7193854368 0.4267274408
## 7  0.21058827 0.9667287660 0.3341619958
## 8  1.96624853 0.2204210580 0.0038695482
## 9  0.99169930 1.3107566108 1.8692581855
## 10 1.88532994 0.9404729582 0.0002067672
## 11 0.52594906 0.0973465716 1.2913850255
## 12 1.81980853 0.0006113516 0.0633239555
## 13 0.11985253 1.2634150675 0.0001709222
## 14 0.02983988 0.0109333740 0.8673842654
## 15 0.37941379 0.7643098852 0.8809458114
## 16 0.24700730 0.0050289872 1.4826875518
## 17 0.33432269 0.0423908982 0.0283457563
## 18 0.85966361 0.6420959084 3.0266909544
## 19 0.05490515 0.2589089395 0.0210467508
## 20 0.04259409 2.1703234507 0.1966500846
res.ind$cos2[1:20,1:3]
##         Dim.1        Dim.2         Dim.3
## 1  0.89515011 0.0268233515 0.00711552611
## 2  0.25701839 0.0863132402 0.26721315180
## 3  0.58259121 0.1027833212 0.05079464839
## 4  0.71437545 0.0598761161 0.00388552198
## 5  0.54571095 0.0145190824 0.05290992719
## 6  0.27805660 0.2291338010 0.10255741424
## 7  0.19456892 0.4488965482 0.11708133181
## 8  0.88360695 0.0497824343 0.00065943544
## 9  0.34435773 0.2287463773 0.24614466819
## 10 0.74973398 0.1879613175 0.00003118120
## 11 0.38860056 0.0361478725 0.36183185642
## 12 0.92329597 0.0001558865 0.01218357066
## 13 0.10789975 0.5716387274 0.00005835298
## 14 0.05019909 0.0092439008 0.55335213295
## 15 0.31070670 0.3145642231 0.27357601469
## 16 0.21534807 0.0022035051 0.49019869169
## 17 0.62657044 0.0399281330 0.02014574847
## 18 0.11623446 0.0436323503 0.15519072327
## 19 0.10968051 0.2599355884 0.01594383274
## 20 0.02363913 0.6053532365 0.04138734019

El análisis individual en el espacio definido por las primeras dos dimensiones del ACP permite identificar los países o casos que más aportan a la configuración del plano factorial. Los individuos 1, 3, 9 y 10 presentan los mayores niveles de contribución a la Dimensión 1, la cual se ha denominado “Perfil de consumo energético”. Este nombre se justifica porque en esta dimensión predominan variables como el consumo de energías renovables, consumo de combustibles fósiles, energías bajas en carbono, energía solar e hidroeléctrica. Todas estas variables se relacionan con las fuentes de energía que utiliza cada país, permitiendo establecer contrastes entre modelos energéticos sostenibles y convencionales. Por su parte, los individuos 2, 3, 9 y 10 también tienen una alta contribución en la Dimensión 2, denominada “Nivel de desarrollo e infraestructura”. Esta dimensión agrupa variables como el PIB per cápita, la población urbana, las emisiones de CO₂ y el acceso a la electricidad, las cuales reflejan el grado de desarrollo socioeconómico y la disponibilidad de infraestructura energética. Estas denominaciones permiten una lectura coherente del plano factorial desde una perspectiva energética y estructural.

En cuanto a la calidad de representación de los individuos en el plano formado por las dimensiones 1 y 2, se observa que los casos 1, 3, 9, 10 y 13 están bien representados, es decir, sus perfiles multivariados se explican adecuadamente en ese espacio y pueden ser utilizados como referentes clave para la interpretación gráfica. En contraste, individuos como el 6, 7 o 20 presentan una representación más baja, lo cual sugiere que sería conveniente considerar dimensiones adicionales. En particular, la Dimensión 3, denominada “Modelo de producción energética”, cobra relevancia en estos casos. Esta dimensión está fuertemente influenciada por variables como la producción de energías renovables y la producción de combustibles fósiles, lo que permite caracterizar la manera en que los países generan su energía, diferenciando entre modelos de producción sostenibles y no sostenibles. En ese sentido, el análisis individual permite comprender no solo qué países tienen mayor peso en la configuración del espacio factorial, sino también cómo se distribuyen en función de su consumo, desarrollo y modelo energético.

⚡ Proyección de nuevos individuos:

ind.test <- datos_filtrado_df[1:15,]
ind.test.coord <- predict(acp, newdata = ind.test)
ind.test.coord[, 1:2]
##           PC1         PC2
## 1   4.1196238  0.71312579
## 2  -1.3290496  0.77018986
## 3   2.5546093  1.07301021
## 4   2.2115090 -0.64025395
## 5   1.2684245  0.20689637
## 6   1.8579625 -1.68661096
## 7  -1.2872118 -1.95517852
## 8   3.9332553  0.93359956
## 9   2.7933344 -2.27664400
## 10  3.8514708  1.92844498
## 11 -2.0342521  0.62043234
## 12  3.7839534 -0.04916767
## 13  0.9710834 -2.23515231
## 14 -0.4845421  0.20792715
## 15 -1.7277841  1.73847654

Se utilizó un conjunto de datos conformado por los 15 primeros países como subconjunto de prueba para evaluar su comportamiento en el espacio reducido por el Análisis de Componentes Principales (ACP). Estos países fueron proyectados sobre los componentes principales con el fin de identificar patrones energéticos y estructurales útiles para tareas de predicción o segmentación. En el plano definido por las primeras dos dimensiones (PC1 y PC2), se observa que algunos países, como el 1, 3, 4 y 10, presentan valores positivos elevados en la Dimensión 1, denominada Perfil de consumo energético, lo que sugiere una tendencia hacia el uso de energías renovables o limpias. Por otro lado, países como el 2, 7 y 15 tienen valores negativos, lo cual puede reflejar una mayor dependencia de combustibles fósiles o un menor nivel de transición energética. En cuanto a la Dimensión 2, relacionada con el Nivel de desarrollo e infraestructura, los países 10 y 15 destacan por sus valores positivos, mientras que 7, 8, 13 y 14 se ubican en posiciones negativas, posiblemente asociados a condiciones de menor desarrollo en términos de urbanización, acceso a electricidad o PIB per cápita.

Además del análisis en el plano principal, se examinó la proyección de estos países en dimensiones adicionales. Aunque la mayor parte de la variabilidad relevante se concentra en las dos primeras dimensiones (53,8%), algunos países muestran particularidades en componentes superiores. Por ejemplo, el país 8 presenta un valor alto en PC3 (Modelo de producción energética), lo que indica que este eje también aporta información importante en su caracterización, especialmente en lo relativo a la forma en que genera su energía. Asimismo, países como el 3 y 12 muestran dispersión moderada en varias dimensiones, lo que sugiere perfiles energéticos complejos. Este enfoque permite identificar no solo similitudes y diferencias entre países, sino también utilizar las coordenadas principales como insumos para modelos predictivos o de clasificación sobre variables como transición energética, emisiones o dependencia de recursos fósiles.

p <- fviz_pca_ind(acp, repel = TRUE)
fviz_add(p, ind.test.coord, color = "blue")

El gráfico muestra el plano factorial del Análisis de Componentes Principales (ACP), donde se visualizan simultáneamente los individuos (en negro) y las variables (en azul) proyectados sobre las dos primeras dimensiones, que explican conjuntamente el 53,8% de la varianza total. La Dimensión 1 (35.8%), identificada como “Perfil de consumo energético”, permite distinguir entre países con alto consumo de energías renovables y aquellos que dependen de combustibles fósiles. Por su parte, la Dimensión 2 (18%), denominada “Nivel de desarrollo e infraestructura”, separa a los países en función de variables como el PIB per cápita, acceso a la electricidad y urbanización. Se observa una clara dispersión de individuos a lo largo del eje horizontal, mientras que la mayoría de las variables se agrupan hacia el lado derecho del gráfico, indicando una fuerte asociación entre energías renovables, desarrollo y eficiencia energética. Los países situados en los extremos del plano pueden considerarse casos atípicos o representativos de perfiles muy marcados dentro del conjunto analizado.

🌼 Ward o jerarquico:

# Escalar los datos
datos_scaled <- scale(datos_filtrado_df)

distancia <- dist(datos_scaled, method = "euclidean")
modelo_jerarquico <- hclust(distancia, method = "ward.D2")

# Dendrograma
paises <- datos$pais
plot(modelo_jerarquico, labels = paises, main = "Dendrograma - Método de Ward")

# Corte para 2 grupos
rect.hclust(modelo_jerarquico, k = 2, border = "red")

🐝️ Resultados:

library(DT)

clusters_hier <- cutree(modelo_jerarquico, k = 2)


datos$cluster_ward <- as.factor(clusters_hier)

datos %>%
  group_by(cluster_ward) %>%
  summarise(across(where(is.numeric), mean, na.rm = TRUE)) %>%
  datatable(
    caption = "Promedio de variables numéricas por clúster (Ward)",
    extensions = 'Buttons',
    options = list(
      dom = 'Bfrtip',
      buttons = c('copy', 'csv', 'excel', 'pdf', 'print'),
      pageLength = 10,
      scrollX = TRUE
    )
  )

🌳 Conclusiones:

El análisis realizado permitió segmentar 158 países según sus características energéticas y socioeconómicas mediante técnicas de aprendizaje no supervisado. Con el uso de los métodos WSS y Silhouette se determinó que el número óptimo de clústeres era k = 2, lo que posibilitó identificar dos grandes grupos de países con perfiles claramente diferenciados. El Cluster 1 agrupa países con bajo uso energético, bajas emisiones y alta participación de energías limpias, mientras que el Cluster 2 corresponde a países con mayor consumo energético, más emisiones y una fuerte dependencia de combustibles fósiles. Este tipo de clasificación facilita la formulación de hipótesis en torno al vínculo entre desarrollo, consumo energético y sostenibilidad, además de aportar insumos para políticas diferenciadas según el perfil energético de cada grupo.

La aplicación del Análisis de Componentes Principales (ACP) fue esencial para reducir la complejidad de los datos. Las primeras tres componentes explicaron un 67,4% de la varianza total, lo que permitió conservar la mayor parte de la información con un menor número de variables. La gráfica de varianza acumulada mostró una caída significativa en las primeras componentes, justificando su uso para el análisis. Esta reducción facilitó la interpretación del conjunto de datos y permitió que los modelos de clustering funcionaran de manera más eficiente, sin perder detalle en la estructura interna de los datos. Además, permitió visualizar qué variables eran más relevantes para explicar las diferencias entre países.

Los modelos de agrupamiento k-means y Ward permitieron identificar patrones claros entre los países. En ambos métodos, el Cluster 1 se compone de países con mayor desarrollo económico, PIB per cápita alto, mejor acceso a la electricidad y mayor inversión en tecnologías limpias, pero también con elevadas emisiones de CO₂ y fuerte consumo de combustibles fósiles. Estos países no priorizan del todo el consumo de energías renovables, a pesar de tener los recursos para hacerlo. Por otro lado, el Cluster 2 incluye países con economías más modestas, menor inversión, pero un mayor uso y producción de energías renovables, en especial solar y bajas en carbono, lo que muestra un compromiso ambiental significativo, aunque con desafíos estructurales en acceso y cobertura.

Finalmente, se identificaron las variables con mayor impacto en la segmentación: financiamiento en energías limpias, consumo de fósiles, emisiones de CO₂, consumo eléctrico, acceso a electricidad y PIB per cápita, todas con alta dispersión y capacidad discriminatoria. También se identificaron casos atípicos (outliers), como países con niveles excepcionalmente altos o bajos en variables clave. En conjunto, este estudio demuestra que la combinación de ACP y clustering es una herramienta poderosa para el análisis energético global, ya que no solo permite clasificar países con base en datos objetivos, sino también anticipar trayectorias y diseñar políticas energéticas más justas, sostenibles y adaptadas a las realidades de cada grupo.

🌳 Referencias Bibliagráficas:

  • Sovacool, B. K., Ryan, S. E., Stern, P. C., Janda, K., & Rochlin, G. (2020). The clean energy revolution: Socio-technical insights and policy implications. Energy Research & Social Science, 70, 101739.

  • Twidell, J., & Weir, T. (2015). Renewable Energy Resources (3rd ed.). Routledge.

  • Panwar, N. L., Kaushik, S. C., & Kothari, S. (2011). Role of renewable energy sources in environmental protection: A review. Renewable and Sustainable Energy Reviews, 15(3), 1513–1524.

  • International Energy Agency (IEA). (2023). World Energy Investment 2023.

  • IRENA. (2023). Renewable Capacity Statistics 2023. International Renewable Energy Agency.

  • Joaqui Barandica, O. (s.f.) Sitio web personal. Recuperado de: https://www.joaquibarandica.com/

  • Ellabban, O., Abu-Rub, H., & Blaabjerg, F. (2014). Renewable energy resources: Current status, future prospects and their enabling technology. Renewable and Sustainable Energy Reviews, 39, 748–764.