Aplicación de Aprendizaje Supervisado para Estimar la Transición a Energías Renovables
Introducción
La transición hacia fuentes de energía renovable es uno de los pilares fundamentales para combatir el cambio climático y promover el desarrollo sostenible. En un contexto global donde los países enfrentan desafíos ambientales y económicos, es crucial entender qué factores están asociados con un mayor nivel de adopción de energías limpias. Este informe tiene como objetivo analizar y modelar el nivel de transición energética de los países, clasificándolos en dos grupos: aquellos con alta participación de energía renovable y aquellos con baja participación. Para ello, se recopilaron datos del año 2021 para un conjunto de países a partir de fuentes como Our World in Data y el Banco Mundial, incluyendo variables como:
Para ello, se recopilaron datos para un conjunto de países a partir de fuentes como Our World in Data y el Banco Mundial, incluyendo variables como:
- Porcentaje de energía renovable
- Capacidad instalada de energía solar
- Consumo energético per cápita
- Emisiones de CO2
- PIB per cápita
- Financiamiento para energías limpias
- Índice de desarrollo humano
- Porcentaje de la producción de electricidad procedente de la energía hidroeléctrica
- Porcentaje de la producción de electricidad a partir de combustibles fósiles
- Porcentaje del uso final de energía procedente de fuentes renovables
La variable objetivo “Nivel de transición energética” fue construida a partir del porcentaje de energía renovable, transformándola en una variable binaria que clasifica a los países
Metodología
La variable dependiente corresponde al nivel de transición energética de cada país, la cual se encuentra definida de manera binara para efectos del análisis de clasificación mediante aprendizaje supervisado, dividiendo los datos de la siguiente manera:
- Transición alta (valor = 1): cuando el porcentaje de generación eléctrica renovable es mayor o igual al 35%.
- Transición baja (valor = 0): cuando el porcentaje es menor al 35%.
Esta dicotomización permite categorizar a los países según el grado de avance en su transición energética. Justificación del umbral de 35%
El valor de 35% como punto de corte se basa en referencias internacionales y marcos estratégicos de sostenibilidad energética.
Según:
La Agencia Internacional de Energías Renovables (IRENA), alcanzar o superar el 30-35% de electricidad renovable marca una fase avanzada de integración de energías limpias en la red eléctrica nacional, implicando no solo mayor infraestructura, sino también cambios regulatorios y tecnológicos para gestionar su variabilidad.
Transición alta (valor = 1): cuando el porcentaje de generación eléctrica renovable es mayor o igual al 35%. Fuente: IRENA (2020). Global Renewables Outlook
Además, varios informes de progreso de ODS 7 (energía asequible y no contaminante) publicados por el Banco Mundial y la ONU destacan que superar el umbral del 35% posiciona a un país entre los líderes en adopción de energía renovable dentro de su producción eléctrica. Posteriormente se realiza un análisis exploratorio para visualizar la relación entre la variable objetivo y las variables explicativas, identificar patrones, y formular hipótesis. Luego, la base de datos se divide en dos subconjuntos: entrenamiento (75%) y prueba (25%), cuidando que ambas clases estén equilibradas mediante un muestreo estratificado.
Se entrenan dos modelos de clasificación:
- k-vecinos más cercanos (knn)
- Árbol de decisión (tree)
- Árbol de decisión (rpart)
Estos modelos se evalúan con base en su capacidad predictiva en el conjunto de prueba utilizando métricas como la precisión, exactitud, sensibilidad y especificidad. Finalmente, se selecciona el modelo con mejor desempeño y se interpretan sus resultados en términos del problema original.
Variables analíticas
Resumen cuantitativo
Aunque para el entrenamiento de los modelos se utilizó la base de datos excluyendo las dos primeras columnas (que corresponden al nombre del país y la variable cuantitativa que fue convertida a binaria), en esta visualización de la tabla se han conservado dichas columnas con el propósito de facilitar la interpretación, comparación y comprensión general de los datos presentados.
Las bases de datos seleccionadas comprendían en su mayoría un total de entre 190 a 208 países, por esta discrepancia y por las exigencias del modelo analítico se opta por eliminar los países que no representaban información en alguna de sus celdas, es decir, las casillas N/A. Aclarando la inclusión de las casillas con valores de 0 en alguna de las variables puesto que esto se considera un valor válido en algunas de ellas. De esta manera, se obtiene como resultado la siguiente base de datos:
Variables
En relación con las variables consideradas en este estudio, a continuación, se presentan sus principales características descriptivas, enfocadas en medidas de tendencia central y distribución general. Cada una de estas variables cuenta con un diagrama de cajas que permite visualizar su comportamiento en distintos países, destacando el valor central, los rangos intercuartílicos y posibles valores atípicos. Esta representación gráfica facilita una comprensión rápida de las diferencias entre naciones en términos de avance hacia la transición energética, así como la identificación de patrones, desigualdades o concentraciones en los indicadores clave relacionados con sostenibilidad, desarrollo y consumo energético
Porcentaje de producción de energía renovable
Esta variable indica qué proporción del total de electricidad generada en un país proviene de fuentes renovables, como la energía solar, eólica, hidroeléctrica, geotérmica y de biomasa. Se expresa como un porcentaje respecto a la producción eléctrica total. Es un indicador clave del avance hacia una matriz energética sostenible, ya que refleja el grado de incorporación de tecnologías limpias en la generación eléctrica nacional.
Capacidad instalada de energía solar
Corresponde a la cantidad total de potencia instalada, medida en megavatios (MW), que un país tiene disponible para generar electricidad a partir de la energía solar. Esta variable refleja el nivel de infraestructura y desarrollo tecnológico en esta fuente energética, así como el grado de compromiso del país con la adopción de soluciones limpias y sostenibles para la generación eléctrica.
Consumo energético por persona
Esta variable mide la cantidad promedio de energía que consume cada persona en un país durante un año, usualmente expresada en kilovatios-hora (kWh) o toneladas equivalentes de petróleo (tep). Es un indicador clave del nivel de desarrollo económico y tecnológico de una sociedad, pero también puede señalar ineficiencias en el uso energético o una alta dependencia de fuentes contaminantes si no se acompaña de estrategias sostenibles.
Emisiones de CO2
Representa la cantidad de dióxido de carbono (CO2) emitido a la atmósfera como resultado de actividades humanas, especialmente la quema de combustibles fósiles para energía y transporte. Se expresa comúnmente en toneladas métricas por habitante o en emisiones totales por país. Esta variable es crucial para evaluar el impacto ambiental de una nación y su contribución al cambio climático global.
Producto Interno Bruto (PIB):
El Producto Interno Bruto per cápita es una medida del ingreso promedio por habitante en un país, calculado dividiendo el PIB total entre la población. Se utiliza como un indicador del nivel económico y del bienestar general de la población. Una economía con mayor PIB per cápita puede tener mayores capacidades para invertir en infraestructura energética renovable y adoptar políticas de transición energética.
Financiamiento recibido para proyectos de energía limpia:
Esta variable hace referencia a los recursos financieros destinados a la promoción, desarrollo e implementación de tecnologías y proyectos de energía limpia. Incluye inversiones públicas y privadas, subvenciones, incentivos fiscales, préstamos verdes y cooperación internacional. Un mayor nivel de financiamiento puede acelerar la transición hacia una matriz energética más sostenible y baja en carbono.
Índice de Desarrollo Humano (IDH)
El IDH es un indicador compuesto elaborado por el Programa de las Naciones Unidas para el Desarrollo (PNUD), que mide el progreso de un país en tres dimensiones fundamentales: salud (esperanza de vida al nacer), educación (promedio y esperanza de años de escolaridad) e ingresos (PIB per cápita ajustado). Un mayor IDH suele estar asociado con una mayor capacidad institucional, económica y social para promover la sostenibilidad y adoptar tecnologías de energía renovable.
Porcentaje de producción de electricidad procedente de energía hidroeléctrica:
Esta variable refleja la proporción de electricidad generada a partir de energía hidroeléctrica en relación con la producción total de electricidad del país. La hidroenergía, aunque renovable, implica impactos ambientales y sociales asociados a grandes represas. Por ello, su peso en la matriz energética debe analizarse en conjunto con otros factores de sostenibilidad y diversidad energética.
Producción eléctrica basada en combustibles fósiles:
Este indicador representa la proporción de la generación eléctrica total que proviene de fuentes fósiles, como el carbón, el petróleo y el gas natural. Su valor elevado se asocia con mayores niveles de emisiones de gases de efecto invernadero y una mayor dependencia de fuentes no renovables, lo que contrasta con los objetivos de descarbonización y transición energética planteados a nivel global.
Porcentaje del uso final de energía procedente de fuentes renovables:
Esta variable mide qué proporción del consumo energético total (incluyendo electricidad, transporte y calefacción) proviene de fuentes renovables. A diferencia de otras variables centradas solo en la producción eléctrica, esta ofrece una visión más integral del grado de penetración de energías limpias en la economía y en los patrones de consumo energético del país.
Visualización global de las variables
El gráfico geográfico que se muestra a continuación representa visualmente la distribución de las variables seleccionadas en distintos países. A través de una escala de colores, se observa cómo varía cada indicador (como el uso de energías renovables, emisiones de CO₂ o PIB per cápita, etc) a nivel mundial. Este tipo de representación facilita la comparación espacial entre regiones y resalta patrones relevantes para el análisis energético global
Medidas de tendencia central
La siguiente tabla presenta las principales medidas de tendencia central y dispersión para las variables cuantitativas del estudio. Se incluyen la media, mediana, moda (cuando es aplicable) y los percentiles 0%, 25%, 50%, 75% y 100%. Estas estadísticas permiten identificar la distribución general de los datos, detectar posibles asimetrías y comprender el rango de variabilidad presente en las variables analizadas.
Correlaciones entre las variables
El gráfico de correlaciones muestra cómo se relacionan las variables que componen la base de datos sobre energía, como el uso de fuentes renovables, las emisiones de CO2, el PIB per cápita, entre otras. Esta visualización permite identificar qué factores están más ligados entre sí, lo que ayuda a entender mejor qué variables podrían influir en la transición hacia fuentes de energía más limpias.
Modelos de analísis
Para construir modelos predictivos confiables como k-Nearest Neighbors (k-NN), árboles de decisión y RPart, es fundamental dividir los datos en dos conjuntos: entrenamiento y prueba. El conjunto de entrenamiento permite que el modelo aprenda los patrones presentes en los datos, mientras que el conjunto de prueba sirve para evaluar su capacidad de generalización sobre información nueva. Esta separación es esencial para evitar errores como el sobreajuste, garantizar una evaluación objetiva del modelo y comparar su rendimiento con otros enfoques. Sin esta división, no es posible validar de forma realista la utilidad práctica de un modelo predictivo.
Conjunto de entrenamiento
El Conjunto de Entrenamiento es un subconjunto del 75% de los datos que se utilizan para entrenar el modelo predictivo. Este conjunto contiene las mismas variables que el Conjunto de Muestra, pero solo incluye una parte de los datos para crear y ajustar el modelo.
Conjunto de test
El Conjunto de Testeo es el 25% restante de los datos, y se utiliza para evaluar el rendimiento del modelo después de haber sido entrenado con el Conjunto de Entrenamiento.
kNN (caret)
El algoritmo K-Nearest Neighbors (KNN) es un modelo de aprendizaje supervisado no paramétrico utilizado principalmente para clasificación y regresión. Su principio fundamental se basa en la cercanía: para clasificar un nuevo dato, KNN identifica los k elementos más cercanos en el conjunto de entrenamiento y asigna la clase más común entre ellos. La cercanía se mide habitualmente mediante una métrica de distancia, como la distancia Euclidiana.
Presición
Este gráfico muestra cómo varía la precisión del modelo k-NN (k-Nearest Neighbors) en función del valor de k (número de vecinos), lo cual es fundamental para elegir el valor óptimo de este hiperparámetro en un modelo de aprendizaje supervisado.
Valor de k óptimo:
El valor óptimo de k es aquel que maximiza la precisión del modelo, el cual, según el gráfico, los mejores resultados de precisión se alcanzan en:
k = 1 (precisión ~0.72)
k = 3 (precisión ~0.72)
k = 7 y k = 9 (también cercanos a ~0.72)
Aunque k = 1 da el valor más alto, es más propenso al sobreajuste (overfitting), por lo que k = 3 o k = 7 podrían ser elecciones más equilibradas en términos de generalización.
Predicción final con el mejor k
Se recomienda utilizar k = 3 (o eventualmente k = 7) como valor final para hacer las predicciones.
Matríz de confusión
La matriz de confusión del modelo KNN permite evaluar su desempeño al clasificar correctamente los países según su nivel de transición energética. En ella se observa cuántos casos fueron clasificados de forma acertada y cuántos fueron confundidos entre las categorías, lo cual es clave para valorar la precisión y utilidad del modelo.
Exactitud (Accuracy): 0.714
El modelo acertó en el 71.4% de los casos, lo cual representa un desempeño aceptable. Supera el valor esperado por azar (No Information Rate de 0.619), aunque la diferencia no es estadísticamente significativa (p = 0.2539).
Sensibilidad (Recall para clase ‘Positivo’): 0.500
El modelo identificó correctamente el 50% de los casos realmente positivos (“Alto”). Este valor muestra una mejora frente a un clasificador que simplemente ignora la clase positiva, pero aún deja muchos falsos negativos.
Especificidad (para clase ‘Negativo’): 0.846
El modelo identificó correctamente el 84.6% de los casos negativos (“Bajo”), lo cual indica un buen desempeño en evitar falsos positivos.
Estos resultados indican que el modelo k-NN con el valor óptimo de k = 3 o 7 logra un mejor balance entre ambas clases, a diferencia del modelo de ejemplo anterior (que tenía sensibilidad muy baja).
Exactitud Balanceada (Balanced Accuracy): 0.673
Promediando la sensibilidad y especificidad, este valor refleja un desempeño razonablemente equilibrado entre las clases.
Valor Predictivo Positivo (Precisión para ‘Positivo’): 0.6667
De las veces que el modelo predijo “Alto”, el 66.7% fueron correctas. Este valor es útil pero debe complementarse con el recall para una visión completa.
Valor Predictivo Positivo (Precisión para ‘Positivo’): 1.000
De todas las veces que el modelo predijo “Positivo”, el 100% fueron correctas. Este valor es alto, pero debe interpretarse con precaución, ya que el modelo casi nunca predice esta clase, por lo que la precisión puede estar inflada artificialmente.
Árbol de decisión
El modelo de Árbol de Decisión, implementado mediante la librería tree en R, es un algoritmo de clasificación que divide recursivamente el conjunto de datos en subconjuntos más homogéneos a partir de reglas basadas en los atributos predictivos. Estas divisiones se representan en una estructura jerárquica con forma de árbol, donde cada nodo interno representa una prueba sobre una variable, cada rama una salida de esa prueba, y cada hoja una clase predicha. Este modelo es altamente intuitivo y fácil de interpretar, ya que proporciona una visualización clara del proceso de decisión. Sin embargo, la versión sin poda (tree) puede generar árboles complejos y sobre ajustados si no se controlan parámetros como la profundidad o el tamaño mínimo de los nodos terminales.
Número de nodos terminales: 4
En un árbol de clasificación, un nodo terminal (o hoja) es donde finaliza una rama del árbol y se toma una decisión final de clasificación. Dado esto, el árbol relacionado con este modelo genera 4 reglas de decisión finales, es decir, clasifica los datos en 4 grupos distintos según los umbrales que se establecen con las variables predictoras.
Variables utilizadas por el árbol:Por_Produccion_ECFosil, USD_financiamiento
El modelo identificó que solo dos variables son relevantes para clasificar correctamente los casos: o Por_Produccion_ECFosil:
- Porcentaje de la producción de electricidad a partir de combustibles fósiles.
- USD_financiamiento: Financiamiento para energías limpias.
Estas variables aparecen en las divisiones del árbol porque ofrecen la mayor capacidad de separar correctamente las clases objetivo (Alto/Bajo).
Resumen del árbol (summary)
Elemento | Valor |
---|---|
Número de nodos terminales | 4 |
Variables utilizadas por el árbol | Por_Produccion_ECFosil, USD_financiamiento |
Desviación residual media | 0.2071 |
Tasa de error de clasificación | 4.48 % (3 de 67 observaciones mal clasificadas) |
Gráfico del árbol
Matriz de confusión - Árbol
La matriz de confusión del modelo de árbol de decisión permite visualizar el desempeño del clasificador al predecir el nivel de transición energética de los países en el conjunto de prueba. A través de esta matriz se identifican los aciertos y errores en la clasificación, permitiendo evaluar la efectividad del modelo. A continuación, se presentan también las métricas del modelo en el conjunto de testeo, como la precisión, la sensibilidad y la especificidad, que complementan el análisis del rendimiento.
Exactitud (Accuracy): 0.952 El modelo acertó en el 95.2% de los casos, lo cual refleja un rendimiento excelente en términos generales. A pesar de que el árbol es simple y tiene pocas divisiones, las variables seleccionadas en los nodos resultaron ser altamente predictivas, lo que permitió una clasificación muy precisa en la mayoría de los casos.
Sensibilidad (Recall para clase ‘Alto’): 1.000 El modelo detectó correctamente el 100% de los casos que realmente eran “Alto”, lo que significa que no dejó pasar ningún caso positivo sin clasificar. Esto indica una capacidad sobresaliente para identificar correctamente todos los ejemplos de la clase “Alto”.
Especificidad (para clase ‘Bajo’): 0.923 Identificó correctamente el 92.3% de los casos que realmente pertenecían a la clase “Bajo”. Esto muestra que el modelo también tiene una excelente capacidad para reconocer los casos negativos, reduciendo significativamente los falsos positivos.
Balanced Accuracy: 0.961 El promedio entre sensibilidad y especificidad fue muy alto, indicando que el modelo mantiene un equilibrio sólido entre ambas clases. Esto es importante en contextos donde se desea evitar que el modelo favorezca excesivamente una clase sobre la otra.
Valor Predictivo Positivo (Precisión para ‘Alto’): 0.889 De todas las veces que el modelo predijo la clase “Alto”, el 88.9% eran correctas. Aunque ligeramente más bajo que la sensibilidad, este valor sigue siendo muy fuerte, lo que indica que el modelo no solo identifica todos los casos de “Alto”, sino que también lo hace con alta precisión. A pesar de ser un árbol simple, el modelo ofrece predicciones confiables y robustas.
Curva ROC
La forma de la curva indica que el árbol de clasificación tiene un excelente desempeño discriminativo, separando correctamente las clases “Alto” y “Bajo” en la mayoría de los casos. Aunque no se muestra directamente el AUC (Área Bajo la Curva), la forma de la curva sugiere que está muy cerca de 1, lo que implica una capacidad predictiva muy alta.
Rpart
El algoritmo rpart (Recursive Partitioning and Regression Trees) es una implementación avanzada de árboles de decisión en R que mejora la estabilidad y generalización mediante la técnica de poda. Este proceso reduce el tamaño del árbol al eliminar ramas que no aportan significativamente a la precisión del modelo, evitando así el sobreajuste. rpart permite un control preciso del modelo a través de parámetros como el completeness parameter (cp), que regula el costo de complejidad y ayuda a mantener la simplicidad sin perder precisión. Además, la combinación con funciones como rpart.plot facilita una visualización clara y profesional del árbol. Este modelo es especialmente útil cuando se busca un equilibrio entre interpretabilidad, precisión y robustez frente a datos ruidosos.
Árbol rPart
Parametro CP
El parámetro de complejidad y actúa como un umbral de poda (pruning). Define la mínima mejora en el error que debe aportar una división (split) para que se mantenga en el árbol. En otras palabras: Si un split no reduce el error del árbol al menos en cp, entonces no se realiza.
En este caso, el ábol tiene solo una división basada en Por_Produccion_ECFosil < 63. Las otras 8 variables del conjunto de datos no se usaron, porque ninguna aportó una mejora mayor al 5% del error total, sugiriendo que:
Una sola variable domina la predicción en este conjunto de datos (Por_Produccion_ECFosil).
El umbral de 5% fue demasiado estricto y dejó fuera divisiones útiles pero más sutiles.
Matríz de confusión
Esta matriz permite visualizar el desempeño del modelo al clasificar correctamente o incorrectamente a los países según su nivel de transición hacia energías renovables. Junto con ella, se incluyen las Métricas del Modelo de Clasificación, las cuales brindan una visión general de la precisión del modelo y su efectividad para predecir correctamente los distintos niveles de avance en materia energética.
Exactitud (Accuracy): 0.886
El modelo acertó en el 88.6% de los casos, demostrando asi una excelente presicion en general, a pesar de tener un parametro CP bastante estricto la variable usada en la única división del árbol es muy predictiva y dominante
Sensibilidad (Recall para clase ‘Alto’): 0.923
El modelo detectó correctamente el 92.3% de los casos que realmente eran “Alto”.
Especificidad (para clase ‘Bajo’): 0.871
Identificó correctamente el 87.1% de los casos realmente “Bajo”.
Estos valores nos indican que la única variable usada logró separar bastante bien ambas clases.
Balanced Accuracy: 0.897
El promedio entre sensibilidad y especificidad es un valor alto, lo que indica que el modelo es balanceado y no favorece a una clase sobre otra.
Valor Predictivo Positivo (Precisión para ‘Alto’): 0.750
De todas las veces que el modelo predijo “Alto”, el 75% eran correctas. Aunque no es tan alto como la sensibilidad, es razonablemente bueno, a pesar de ser un árbol simple aún es capaz de generar predicciones confiables.
Comparación de los modelos
En la siguiente tabla se hace una comparación de las 3 matrices de confusión generadas por cada modelo
A partir del análisis comparativo entre los modelos k-NN, Árbol de Decisión y Rpart, se concluye que el modelo de Árbol de Decisión es el más adecuado para la toma de decisiones. Este modelo obtuvo la mayor precisión (95.24%), muy superior al k-NN (71.43%) y al Rpart (88.64%). Además, el valor-p asociado al Árbol de Decisión (0.000589) indica que su precisión es estadísticamente significativa frente al modelo nulo, lo cual no ocurre con el modelo k-NN, cuyo valor-p fue de 0.2539.
En cuanto al coeficiente Kappa, que mide el acuerdo entre la predicción del modelo y la realidad, el Árbol de Decisión también se destaca con un valor de 0.9014, lo que indica un excelente nivel de concordancia, mientras que Rpart alcanzó 0.7442 (bueno) y k-NN apenas 0.3636 (bajo). Asimismo, el Árbol de Decisión mostró una sensibilidad perfecta (1.00) y alta especificidad (0.9231), lo que evidencia su capacidad para identificar correctamente tanto los casos positivos como los negativos.
Por otro lado, el Árbol de Decisión obtuvo el mayor valor predictivo positivo (0.8889) y la mayor precisión balanceada (0.9615), que considera tanto la sensibilidad como la especificidad. Estas métricas confirman que el Árbol de Decisión no solo es preciso, sino también equilibrado y confiable en contextos donde ambas clases tienen relevancia.
En resumen, el modelo de Árbol de Decisión supera de manera consistente a los demás en prácticamente todas las métricas evaluadas, lo que lo convierte en la opción más robusta y adecuada para apoyar procesos de decisión basados en estos datos.
Conclusiones
A partir del análisis realizado, se pueden extraer varias observaciones relevantes. En primer lugar, el modelo de árbol de decisión logró clasificar a los países en función de su nivel de uso de energías renovables con un desempeño aceptable. Esto nos dice que los indicadores seleccionados contienen suficiente información para distinguir entre países con altos y bajos niveles de adopción de energías limpias.
Entre las variables que más influyeron en la clasificación destacan el consumo de energía por persona, la participación de la energía hidroeléctrica en la matriz eléctrica y las emisiones de CO₂. Estas variables parecen estar estrechamente ligadas al tipo de fuentes que predominan en la producción de electricidad y al grado de sostenibilidad de los sistemas energéticos nacionales.
El uso de un enfoque de clasificación binaria permitió simplificar el análisis, haciendo más claro el contraste entre los grupos de países. Además, la evaluación del modelo, tanto mediante la matriz de confusión como con la curva ROC, mostró que el árbol fue capaz de predecir con una precisión razonable, aunque con margen de mejora si se incorporaran más datos o se ajustaran otros algoritmos.
Por último, la visualización en el mapa aportó una dimensión geográfica muy útil, ya que permitió identificar patrones regionales y desigualdades energéticas que no siempre se detectan en una tabla. Este tipo de representaciones facilita la comprensión de los resultados y puede servir como punto de partida para estudios más profundos o propuestas de política pública.