Impacto de las variables climatológicas asociadas a incendios forestales en la generación de energía solar fotovoltaica.

Maestría en Investigación operativa y estadística

UTP


Resumen

La creciente demanda mundial de energía eléctrica y la necesidad de reducir las emisiones contaminantes han destacado la importancia de las fuentes de energía renovables. La energía solar fotovoltaica ha mostrado un crecimiento considerable, sin embargo, eventos como los incendios forestales pueden afectar su estabilidad, reduciendo la generación de energía hasta en un 20%. Este proyecto se enfoca en desarrollar un modelo de aprendizaje automático que emplea datos históricos de generación de energía solar fotovoltaica y datos de medición de variables asociadas a incendios forestales, de tal forma que se logre prever el impacto del humo en la generación de energía eléctrica, la información obtenida servirá para desarrollar estrategias de mitigación y fortalecer la resiliencia de la infraestructura solar fotovoltaica frente a situaciones climatológicas extremas.

Abstract

The increasing global demand for electrical energy and the necessity to reduce pollutant emissions have emphasized the significance of renewable energy sources. Solar photovoltaic energy has exhibited substantial growth; however, events like forest fires can affect its stability, leading to a reduction in energy generation by up to 20%. This project focuses on developing a machine learning model that utilizes historical data of solar photovoltaic energy generation and measurements of variables associated with forest fires to forecast the impact of smoke on electricity generation. The insights obtained will aid in crafting mitigation strategies and bolstering the resilience of photovoltaic solar infrastructure against extreme weather conditions.

Introducción

La creciente demanda de energía eléctrica [1] , y la urgencia en la reducción de las emisiones de gases contaminantes a la atmósfera, plantean la consideración de un futuro con una alta dependencia de fuentes de energía renovables. Estas fuentes se visualizan como medios para satisfacer las necesidades energéticas globales de manera sostenible.

En la matriz energética mundial, la energía solar fotovoltaica ha experimentado un notable ascenso. Hasta el año 2022, la generación de energía solar fotovoltaica alcanzó los 1185 GW, compitiendo con la energía hidráulica (1220 GW) y la energía eólica (906 GW) [2]. Además, tanto la energía solar como la eólica se han posicionado como las principales destinatarias de inversiones en el ámbito de las energías renovables, según revela un informe reciente de Statista [3].

Sin embargo, la estabilidad de la energía solar puede verse comprometida por eventos extremos como los incendios forestales. Estos eventos generan humo y partículas contaminantes en el entorno, lo que resulta en una disminución en la energía generada. Un estudio llevado a cabo en Corea empleando el análisis de regresión, concluyó que las pérdidas de generación se estimaban entre un 15-20% menos de la producción habitual, ésto como consecuencia de la presencia de aerosoles en el aire [4]. La identificación precisa de la cantidad de energía que puede dejar de producirse podría actuar como una alerta temprana, permitiendo una correcta distribución de carga dentro del sistema eléctrico.

Este proyecto se centra en investigar y desarrollar un modelo de aprendizaje automático (machine learning), empleando la metodología CRISP-DM, enfocado en comprender y prever el impacto del humo proveniente de incendios forestales en la generación de energía eléctrica a través de sistemas solares fotovoltaicos.

Para determinar el análisis y posterior enfoque del modelo, se cuenta con datos históricos de generación de energía solar fotovoltaica y mediciones medioambientales relacionadas con incendios forestales, de tal forma que permitan la construcción de un modelo predictivo preciso, utilizando métricas de evaluación como precisión, recall, F-score y AUC, que permitirán entender el impacto del humo de los incendios forestales en la producción de energía eléctrica.

Este proyecto tiene el potencial de proporcionar información para el diseño de estrategias de mitigación de riesgos, planificación energética y toma de decisiones para mejorar la resiliencia de la infraestructura energética basada en la energía solar fotovoltaica frente a situaciones adversas relacionadas con incendios forestales y eventos ambientales extremos.

Metodología

La metodología empleada en el desarrollo de este proyecto es CRISP-DM (Cross Industry Standard Process for Data Mining) adaptada para analizar el impacto de la quema de material vegetal en la generación de energía eléctrica, esta metodología proporcionará el marco estructurado para indagar sobre el nivel de producción de energía eléctrica de las plantas fotovoltaicas en relación con las variables climáticas vinculadas a los incendios forestales. Este enfoque metodológico garantizará un análisis exhaustivo y detallado a lo largo de todo el proceso, facilitando la comprensión de la relación entre estos factores.

Bussines Understanding

1. Objetivo general

Desarrollar un modelo de aprendizaje automático utilizando la metodología CRISP-DM, con el fin de evaluar el impacto de las variables climatológicas asociadas a la quema de material vegetal en la generación de energía eléctrica a través de sistemas solares fotovoltaicos.

1.1 Objetivos específicos

Aplicar la metodología CRISP-DM (Cross-Industry Standard Process for Data Mining) como marco de trabajo en la creación y desarrollo de un modelo predictivo para evaluar el impacto del humo generado por incendios forestales en la producción de energía eléctrica mediante paneles solares.

Inspeccionar la base de datos empleando técnicas analíticas avanzadas para la identificación precisa y detallada de patrones, tendencias y anomalías significativas, con el fin de obtener una comprensión precisa de la información expresada por el conjuntos de datos.

Elaborar un modelo de machine learning basado en técnicas de análisis supervisado de clasificación, con el fin de realizar una clasificación precisa de la energía generada durante eventos de incendios forestales.

Realizar una evaluación exhaustiva del desempeño del clasificador implementado, analizando métricas clave como precisión, exhaustividad, F1-score y matriz de confusión para medir la efectividad y la capacidad de generalización del modelo de clasificación propuesto.

Data Understanding

2. Descripción de la base de datos

La base de datos “Dataset for Evaluating the Impact of Wildfire Smoke on Solar Photovoltaic Production” se encuentra disponible a través del siguiente enlace en la página Data.gov (https://catalog.data.gov/dataset/dataset-for-evaluating-the-impact-of-wildfire-smoke-on-solar-photovoltaic-production).

La base de datos consta de 17,673 instancias y comprende 11 variables descriptivas. Para llevar a cabo el análisis, se ha seleccionado un rango temporal específico que abarca desde el 1 de abril de 2018 hasta el 31 de diciembre de 2022. Es importante destacar que en esta base de datos no se han detectado valores faltantes, por lo que no se realiza ningún procedimiento de imputación de datos.

Feature

Description

Units

date

Date of observed production and corresponding weather conditions, mm/dd/yyyy.

dimensionless

site

Unique identification key for each site.

dimensionless

size

DC nameplate capacity for a specific site.

kW

energy_generated_kWh

The daily production of the site.

kWh

adjusted_generation

The normalized daily production, generated by dividing the observed daily production by the highest ever observed daily production for a site.

dimensionless

KT

Insolation clearness index, the ratio of surface irradiance and top of the atmosphere irradiance, a measure of proportionally how much irradiance is transmitted through the atmosphere.

dimensionless

PRECTOT

A bias corrected average of total precipitation at the surface of the earth in water mass.

millimeters per day

T2M

The average daily air temperature at 2 meters above the surface of the earth.

degrees C

WS10M

The average daily wind speed at 10 meters above the surface of the earth.

meters per second

WS50M

The average daily wind speed at 50 meters above the surface of the earth.

meters per second

pm25

Weighted daily average PM2.5 particulate matter where weights are based on theoretical hourly irradiance so that the measurement is biased towards hours of the day with more sunshine. PM2.5 measures concentrations of particulate matter that is 2.5 micrometers and smaller.

micrograms per cubic meter of air

date

site

size

energy_generated_kWh

adjusted_generation

KT

PRECTOT

T2M

WS10M

WS50M

pm25

2018-04-01

C2S1

26,299

139,246.2

0.6125956

0.58

0

15.85

2.56

3.98

4.316491

2018-04-02

C2S1

26,299

184,160.2

0.8101893

0.68

0

12.93

4.42

5.89

5.750058

2018-04-03

C2S1

26,299

192,121.5

0.8452136

0.73

0

15.18

1.97

2.76

6.433728

2018-04-04

C2S1

26,299

175,236.7

0.7709311

0.72

0

15.67

2.41

3.43

7.761564

2018-04-05

C2S1

26,299

182,147.6

0.8013347

0.69

0

16.05

3.81

5.31

5.476114

2.1 Exploración de la base de datos

Análisis Univariado

El análisis univariado del conjunto de datos se centra en explorar las características individuales de cada variable. parte de este análisis se concentra en identificar patrones, tendencias y particularidades dentro de cada una de las variables descriptoras. Al realizar este análisis, buscamos comprender la distribución, la dispersión y la naturaleza de los datos presentes en cada variable sin considerar la influencia o relación con otras variables.

Este análisis se desarrollará presentando la información detallada de cada una de las variables y al final de cada descripción, se realizará una breve síntesis de los posibles hallazgos en la variable.

Variable Target : Energía Generada (kWh)

La variable Target está etiquetada durante el periodo comprendido entre el 01-04-2018 y el 31-12-2022 con 6 etiquetas (Site): C2S1, C2S5, C2S6, C2S7, C2S13 y C2S14. Cada una de estas etiquetas corresponde a un intervalo de tiempo específico y a una capacidad de generación específica (KW) (Size). Por lo tanto, el análisis de la variable se dividirá en dos partes de la siguiente manera:

  1. El análisis de la variable energía generada (KWh) durante todo el período estudiado.

  2. La división de la variable energía generada (KWh) por etiqueta y capacidad de generación (Size). En esta parte del análisis, se creará una variable sintética categórica de energía generada en función de la etiqueta y la capacidad de generación. Se definirán las siguientes categorías: Mínima Autonomía (≤25% de la energía generada), Autonomía Básica (>25% - ≤50% de la energía generada), Autonomía Sólida (≥50% - ≤75% de la energía generada) y Autonomía Óptima (> 75% de la energía generada). Se sugiere la revisión del apartado 3.2 del presente informe para mayor claridad sobre este procedimiento.

Site

Outliers

C2S5

10,426.261

C2S5

7,725.378

C2S5

11,477.830

C2S6

22,679.620

C2S6

16,357.569

Imagen 1. Exploración de variable Target: Energía generada (KWh)
Imagen 1. Exploración de variable Target: Energía generada (KWh)


El análisis exploratorio de la variable “energía_generada (kWh)” revela que la distribución de los datos no sigue una distribución normal y que la presencia de valores atípicos solo se manifiesta al considerar la variable en relación con la etiqueta ‘Site’. Para la detección de outliers, se aplicó el Método de Rango Intercuartílico [5], ver Anexo tabla 1. Outliers variable energía Generada

Se reconoce que la dispersión alta y la presencia de valores atípicos pueden impactar en la interpretación de los datos y en la construcción de modelos. Sin embargo, en este contexto particular, estos valores atípicos se perciben como potencialmente significativos para el entendimiento general de las variables relacionadas, por lo que se considera mantenerlos y generar un proceso de identificación multivariado.

Variable: Generación ajustada

La base de datos Evaluating the impact of wildfire smoke on solar photovoltaic production, presenta un ajuste sobre la variable Energía generada KWh, en este ajuste, los autores llevaron a cabo la normalización de la energía generada dividiendo cada valor por el máximo de energía generado en cada sitio (variable “site”). Esto resultó en que los datos de la variable ‘energía ajustada’ se mantuvieran dentro del rango de 0 a 1 adimensional [6].

Imagen 2. Exploración de la variable: Generación ajustada
Imagen 2. Exploración de la variable: Generación ajustada


El comportamiento de la variable Generación ajustada muestra un cambio notable en cuanto a que se observa una “regularización” en la dispersión de los datos durante los años 2020 y 2021. A pesar de este cambio, al analizar la variable según la etiqueta (Site) y la capacidad de generación, se observa un comportamiento similar al de la variable “energía generada (KWh).

Exploración de variables descriptoras

El análisis de las variables descriptoras del conjunto de datos se enfocará en dos aspectos principales: la detección de valores atípicos y la exploración visual que permita comprender la dispersión y concentración de los datos.

Esta estrategia combinada de análisis estadístico para identificar valores atípicos y el uso de representaciones visuales ayudará a obtener una visión completa de la naturaleza de las variables y será fundamental para comprender la estructura de los datos en el conjunto de estudio.

Column

Outliers

Percentage

energy_generated_kWh

0

0.00

adjusted_generation

0

0.00

KT

128

7.37

PRECTOT

353

20.33

T2M

0

0.00

WS10M

32

1.84

WS50M

36

2.07

pm25

129

7.43

Variable KT (Insolation clearness index)

Imagen 3. Exploración de la variable KT
Imagen 3. Exploración de la variable KT


La distribución de la variable no sigue una distribución normal y se han detectado valores atípicos. Estos valores no serán eliminados, ya que pueden proporcionar información valiosa sobre el momento en que ocurrieron en la variable. En esta etapa de la inspección, se considera la posibilidad de que los valores más bajos de KT estén relacionados con la temporalidad de los años. Por esta razón, se realizará un análisis mensual para comprender mejor el comportamiento de la variable en cada periodo.

Variable PRECTOT (Precipitación total (milímetros/día))

Imagen 4. Exploración de la variable: Precipitación total
Imagen 4. Exploración de la variable: Precipitación total


La variable PRECTOT exhibe una marcada variabilidad en sus datos, posiblemente atribuible a las estaciones anuales y a un patrón recurrente a lo largo del año. Además, se observa una presencia significativa de valores atípicos, lo que motiva considerar la opción de normalizar la variable para realizar una nueva identificación de estos valores fuera de lo común.

Variable T2M (Temperatura a 2m (grados Celsius))

Imagen 5. Exploración variable: Temperatura a 2m
Imagen 5. Exploración variable: Temperatura a 2m


La variable “Temperatura a 2m” muestra un comportamiento con datos más uniformemente agrupados, con una menor variabilidad y la ausencia de valores atípicos. Ante esta situación, se considera la opción de normalizar la variable y posterior a este procedimiento evaluar el comportamiento de los valores atípicos de manera multivariada.

Variable WS10M (Velocidad del viento a 10m (metros/segundo))

Imagen 6. Exploración variable: Velocidad del viento 10m
Imagen 6. Exploración variable: Velocidad del viento 10m


La variable “Velocidad del viento a 10m” presenta datos más uniformemente distribuidos, con menor variabilidad y la posible presencia de valores atípicos que podrían estar asociados a las estaciones climáticas del año. Ante este escenario, se contempla la normalización de la variable seguida por un análisis multivariado para evaluar el comportamiento de estos valores atípicos.

Variable WS50M (Velocidad del viento a 50m (metros/segundo))

Imagen 7. Exploración variable: Velocidad del viento 50m
Imagen 7. Exploración variable: Velocidad del viento 50m


La variable “Velocidad del viento a 50m” presenta datos más uniformemente distribuidos, con menor variabilidad y la posible presencia de valores atípicos que podrían estar asociados a las estaciones climáticas del año. Ante este escenario, se contempla la normalización de la variable seguida por un análisis multivariado para evaluar el comportamiento de estos valores atípicos.

Variable PM2.5 (Partículas de 2.5 micrómetros o menos (microgramos/m3 de aire))

Imagen 8. Exploración variable: Partículas PM2.5
Imagen 8. Exploración variable: Partículas PM2.5


El PM2.5, partículas suspendidas en el aire con un diámetro menor a 2.5 micrómetros, está estrechamente relacionado con la quema de material vegetal. Cuando se quema material orgánico como bosques, cultivos agrícolas o residuos vegetales, se liberan partículas finas de aerosol, incluyendo el PM2.5, al ambiente.La variable no tiene un comportamiento normal y se presentan valores atípicos que pueden ser representativos de situaciones en las que se presentaron incendios forestales.

Análisis de variables (año 2018)

Durante el año 2018, se registraron tres incendios significativos en California, Estados Unidos. El análisis a continuación se centra en identificar posibles tendencias en los datos durante los períodos en los que ocurrieron estos incendios.

Incendio Ferguson: 13-07-2018 a 19-08-2018
Incendio Mendocino: 27-07-2018 a 18-09-2018
Incendio Camp Fire: 08-11-2018 a 25-11-2018

Imagen 9. Análisis de variables año 2018
Imagen 9. Análisis de variables año 2018
Imagen 10. Análisis de variables - incendios forestales
Imagen 10. Análisis de variables - incendios forestales

Algunas variables presentan alteraciones notables y significativas durante el periodo de tiempo en el que se desencadenaron los incendios, lo cual sugiere una posible influencia o impacto de estos eventos en los datos analizados.

Data Preparation

3. Normalización de los datos

De cuerdo con el análisis exploratorio previo de cada variable en la base de datos, se detectaron valores atípicos en algunas de ellas, posiblemente debido a su magnitud, por lo que se realizará la normalización de los datos y se comparará frente al comportamiento de la variable sin normalizar. Para la normalización de las variables descriptoras, se opta por aplicar el método Z-Score.

Las siguientes imágenes muestran datos relacionados con la variable original (parte superior del gráfico) y la variable normalizada (parte inferior del gráfico). Para facilitar la comparación, se utiliza el gráfico de frecuencia, el cual proporciona una visión detallada del comportamiento de ambas variables, permitiendo observar las diferencias entre los datos originales y su versión normalizada.


Imagen 11. Variables sin normalizar - Variables normalizadas

El procedimiento de normalización aplicado a las variables predictoras (KT, PRECTOT y PM25) no conduce a una centralización de los valores ni a una reducción significativa de la asimetría en los datos.

Imagen 12. Variables sin normalizar - Variables normalizadas
Imagen 12. Variables sin normalizar - Variables normalizadas


Las variables (T2M, WS10M y WS50M) experimentan una mayor concentración de sus datos a través del proceso de normalización.

En este proyecto particular, se optará por analizar los datos sin la aplicación del proceso de normalización. Esta decisión se basa en la consideración de que la variable de mayor escala, la energía generada, ya ha pasado por un procedimiento de normalización previo. Además, dado que esta variable es la variable objetivo y será categorizada posteriormente, su impacto predominante sobre las demás variables durante el proceso de modelado se minimiza.

3.1 Matriz de correlación

La matriz de correlación de las variables descriptoras en relación con la variable target (energía generada KWh) revela información valiosa sobre la interdependencia entre estas variables. No se observa una correlación significativa que sugiera colinealidad entre la variable target y alguna de las variables descriptoras. Sin embargo, se identifican ciertas relaciones destacables:

  1. Índice de Claridad y Temperatura a 2 metros: Existe una correlación positiva notable entre estas dos variables. Esto sugiere que, en general, a mayores índices de claridad, se tiende a registrar temperaturas más altas. Esta relación puede ser de interés al estudiar el impacto del clima en la generación de energía.

  2. Precipitación Total (PRECTOT): Presenta una correlación negativa con la variable target. Esto indica una posible tendencia a una menor generación de energía en períodos con mayor precipitación.

  3. Velocidad del Viento y Partículas PM2.5: Se observa una correlación baja entre estas variables y la variable target. Aunque su impacto directo en la generación de energía no es significativo, estas variables son cruciales para comprender los eventos de incendios forestales, por lo que se mantienen en el conjunto de datos.

Las variables descriptoras Velocidad del viento a 10 metros (WS10M) y Velocidad del viento a 50 metros (WS50M), muestran una muy alta correlación (0.97), sin embargo, en el contexto de de los datos de incendios forestales y generación de energía, ambas variables, a pesar de su alta correlación, pueden ser relevantes por las diferencias en la ubicación de las mediciones (a diferentes alturas) y su relación con los procesos atmosféricos. La velocidad del viento a diferentes alturas puede tener impactos distintos en la propagación del fuego, la generación de energía y el movimmiento de partículas PM2.5 en el aire, por lo que ambas variables podrían proporcionar información complementaria para comprender completamente estos fenómenos.

3.2 Variable sintética Autonomy_label (Energía generada discretizada)

El modelo de machine learning propuesto se orienta hacia una tarea de clasificación, para lo cual se tiene prevista la creación de una variable sintética. Esta variable se construirá considerando la energía generada y su relación con dos atributos específicos: la etiqueta Site y la variable Size.

Al generar una variable sintética dependiente de las variables Site y Size en función de la energía generada, se busca capturar y codificar la relación entre estas características. Este enfoque permitirá al modelo identificar patrones significativos en la energía generada, relacionados con las ubicaciones específicas (Site) y las capacidades de generación (Size).

Los rangos que delimitarán la variable sintética Autonomy_label se establecen en función de la energía generada, y se definen de la siguiente manera:

Mínima Autonomía (≤25% de la energía generada)
Autonomía Básica (>25% - ≤50% de la energía generada)
Autonomía Sólida (>50% - ≤75% de la energía generada)
Autonomía Óptima (>75% de la energía generada)

El propósito de esta clasificación es identificar y comprender cómo las condiciones climáticas relacionadas con incendios forestales impactan en la generación de energía eléctrica. Estos intervalos permitirán categorizar diferentes niveles de autonomía en la generación de energía en función de su porcentaje con respecto al total generado.

La variable Autonomy_label proporcionará una perspectiva clara sobre cómo los factores ambientales influyen en la capacidad de generación de energía eléctrica en distintos niveles de autonomía. Esta clasificación es esencial para comprender mejor el comportamiento de la generación de energía en relación con las condiciones climáticas específicas, lo que puede ser fundamental para tomar decisiones estratégicas en la gestión de recursos y la planificación ante posibles escenarios de incendios forestales.

Una vez creada la variable sintética Autonomy_label, se procederá con un análisis univariado de los valores atípicos en cada una de las variables. Este análisis tiene como objetivo detectar valores inusuales que puedan estar asociados con variaciones en la generación de energía eléctrica.

Para llevar a cabo esta evaluación, se utilizará el software Orange con el método Isolation Forest [7], reconocido por su eficacia en la detección de valores atípicos. Esta herramienta posibilitará la identificación y visualización de patrones anómalos dentro de cada variable, permitiendo tener una comprensión más profunda de su posible influencia en la variable Energía generada. Se sugiere revisar los resultados obtenidos en este análisis en la sección de Resultados (tablas y gráficos).

3.3. Análisis univariado de Outliers

El análisis de outliers univariados se desarrolla siguiendo estos pasos:

  1. Identificación de outliers por variable: Se lleva a cabo un procesamiento individual para detectar los valores atípicos en cada variable.

  2. Fusión de datos: Se utiliza el widget “Merge Data” para combinar los outliers detectados en cada variable, empleando como referencia las fechas de ocurrencia de dichos valores anómalos.

  3. Creación de una tabla de resultados: Una vez se han unificado todos los valores atípicos identificados en cada variable, se genera una tabla consolidada que presenta los resultados finales del análisis. Esta tabla permitirá visualizar de manera conjunta los outliers detectados en todas las variables, proporcionando una visión global de la presencia y distribución de estos valores anómalos en el conjunto de datos.

En el númeral 8 del presente proyecto, se proporcionan los resultados obtenidos del proceso de detección de outliers para cada variable del conjunto de datos. A continuación, se presenta un extracto informativo que resume los hallazgos recopilados.

método de identificación de outliers
método de identificación de outliers



Del análisis univariado de outliers se identifica que, existe una notable presencia de outliers principalmente en la categoría de mínima autonomía, que representa un porcentaje de generación por debajo del 25%. El máximo número de outliers es de 174 coincidiendo este valor para cada una de las variables.

Sin embargo, al proceder a la unión de las variables a través del tiempo, se observa una alta cantidad de valores faltantes en esta unión. Por lo tanto, esta propuesta de identificar un patrón común se descarta, y se opta por evaluar los outliers de manera multivariada, buscando comprender mejor la relación y el comportamiento conjunto de estas variables.

Análisis multivariado

3.4 Análisis multivariado de Outliers

El análisis multivariado de outlier se realizó empleando dos metodologías para su reconocimiento:

  1. Método de Mahalanobis [8] [9] El Método de Mahalanobis calcula la distancia de cada punto de datos respecto a la media y la dispersión de todas las variables, identificando aquellos puntos que están significativamente alejados.

  2. Método Isolation Forest [10] el Método de Isolation Forest divide repetidamente el conjunto de datos en subgrupos más pequeños, aislando gradualmente los puntos atípicos, los cuales se encuentran más solos o en ramas cortas del árbol.

3.4.1 Método de Mahalanobis para detección de outliers

date

site

size

energy_generated_kWh

adjusted_generation

KT

PRECTOT

T2M

WS10M

WS50M

pm25

autonomy_label

2018-04-12

C2S1

26,299

206,107.2

0.9067420

0.75

0.09

8.57

9.33

11.91

5.490191

Autonomía Óptima

2018-04-30

C2S1

26,299

194,329.0

0.8549256

0.28

2.27

9.81

3.02

3.74

8.399555

Autonomía Óptima

2018-06-15

C2S1

26,299

224,315.1

0.9868454

0.44

0.07

15.98

4.85

5.64

6.148858

Autonomía Óptima

2018-08-06

C2S1

26,299

174,053.6

0.7657264

0.72

0.01

29.92

3.08

4.09

58.779978

Autonomía Sólida

2018-11-22

C2S1

26,299

70,873.1

0.3117971

0.41

20.55

9.92

7.18

9.32

2.643202

Autonomía Básica


El número de valores atípicos empleando el método de Mahalanobis es de 87 outliers para toda la base de datos.

Outliers Multivariados Método Mahalanobis


Mínima Autonomía = 59 (67.81%)
Autonomía básica = 18 (20.68%)
Autonomía sólida = 3 (3.44%)
Autonomía óptima = 7 (8.04%)
Total Outliers = 87


3.4.2 Método Isolation Forest para detección de outliers

método de identificación de outliers Isolation Forest


La diferencia en el número de outliers identificados por el método Isolation Forest (174) y los encontrados por el método Mahalanobis (87) es significativo y sugiere diferencias fundamentales en cómo estos métodos detectan anomalías en los datos.

Sin embargo, es crucial destacar que los 174 outliers identificados por Isolation Forest no parecen estar asociados temporalmente con los registros de eventos de incendios forestales. Esta discrepancia puede indicar que los valores atípicos detectados por Isolation Forest podrían representar patrones distintos a los eventos de incendios forestales específicos que estamos analizando, por lo que se considera viable la eliminación de los mismos.

Modeling

4. Modelo de Clasificación Supervisado

El modelo de aprendizaje automático propuesto para el conjunto de datos se ha desarrollado utilizando el software de análisis de datos Orange. La representación gráfica del modelo se muestra en la imagen a continuación:

modelo supervisado de clasificación
modelo supervisado de clasificación


El modelo de aprendizaje supervisado propuesto tiene como variable objetivo autonomy_label, cuyo proceso de creación se ha detallado en la sección 3.2 de este informe. Este modelo se centra en clasificar los niveles de energía generada con base en características atmosféricas asociadas a incendios forestales.

Para lograr esta clasificación, se han implementado varios clasificadores dentro del modelo, tales como K-Nearest Neighbors (KNN), Árboles de Decisión (Tree), Gradient Boosting y Redes Neuronales. Cada uno de estos clasificadores ofrece enfoques distintos para la predicción y clasificación de los niveles de energía generada a partir de las características atmosféricas registradas durante los incendios forestales.

La validación de los resultados se lleva a cabo mediante la técnica de Validación Cruzada (Cross Validation) con un número de 10 divisiones (folds), garantizando una proporción similar entre las clases de los datos.

Evaluation

5. Evaluación de resultados

La evaluación del sistema se realizará principalmente a través del valor F-score, que ofrece una medida del equilibrio entre precisión y exhaustividad del modelo.

Asimismo, se analizará la matriz de confusión, que permitirá ver la precisión de la clasificación del modelo, mostrando los resultados verdaderos positivos (TP), verdaderos negativos (TN), falsos positivos (FP) y falsos negativos (FN), permitiendo una comprensión detallada del desempeño del sistema en la clasificación de las distintas clases.

Valores F-Score clasificador

El modelo que muestra el mejor rendimiento para predecir el comportamiento de los datos es el Gradient Boosting, con un valor F1 de 0.999. Este modelo logró un tiempo de entrenamiento de 1.365 segundos y un tiempo de prueba de 0.030 segundos.


Aunque el clasificador más eficaz es el Gradient Boosting, se considera la viabilidad de utilizar el clasificador de árboles de decisión (Tree), el cual presenta un valor F1 de 0.998, Además, destaca por sus tiempos de entrenamiento y prueba considerablemente inferiores frente al gradient boosting (entrenamiento Tree: 0.167 segundos, prueba Tree: 0.001 segundos).

Clasificadores: árboles de decisión y Gradient boosting
Clasificadores: árboles de decisión y Gradient boosting


A continuación, se incluyen dos clasificadores adicionales: las redes neuronales (neural network), con un valor F1 de 0.972, un tiempo de entrenamiento de 30.942 segundos y un tiempo de prueba de 0.074 segundos; y KNN (K-Nearest Neighbors), que registra un valor F1 de 0.893, un tiempo de entrenamiento de 0.194 segundos y de prueba de 0.506 segundos.

clasificadores: Redes Neuronales y KNN

6. Análisis y discusión de resultados

La base de datos “Dataset for Evaluating the Impact of Wildfire Smoke on Solar Photovoltaic Production”, presenta un conjunto de datos con un preprocesamiento que hace que no se tengan valores faltantes (missing values) y que los datos correspondientes a cada una de las variables descriptoras se encuentren en rangos coherentes frente a su magnitud. Esto nos permite realizar un análisis univariado enfocado en determinar el tipo de distribución presente en las variables, evaluar el comportamiento de los valores atípicos y considerar la posibilidad de normalizar los datos.

Se observa que el conjunto de datos no presenta un comportamiento normal en sus variables, y que el proceso de normalización no conlleva a una reducción significativa en la dispersión de los datos o en la minimización de los valores atípicos. Por lo tanto, se decide mantener el tratamiento de la información tal como se presenta originalmente. La creación de la variable sintética autonomy_label posibilita la contextualización de los datos al asociar las variables descriptoras con momentos de mayor o menor capacidad de generación de energía eléctrica.

El análisis univariado revela que muchos datos atípicos podrían estar asociados, en varios casos, con la variación estacional inherente al proceso de generación de energía solar fotoovoltaica. No obstante, dado que el objetivo central de este estudio es determinar cómo las variables ambientales relacionadas con la quema de material vegetal impactan la producción de energía solar fotovoltaica, se ha llevado a cabo una exploración multivariada. Se empleó el método de Isolation Forest, el cual identificó un total de 174 valores atípicos, 87 más que los encontrados mediante el método de Mahalanobis. Sin embargo, este análisis sugiere que los valores atípicos no reflejan un comportamiento anormal de la variable debido a incendios forestales, lo que justifica su posible eliminación.

El modelo de aprendizaje automático propuesto para el conjunto de datos es un modelo supervisado de clasificación. Las etiquetas se basan en la autonomía o capacidad de generación de una planta solar fotovoltaica. Se proponen cuatro modelos de clasificación: KNN (K-Nearest Neighbors), Redes Neuronales (Neural Networks), Gradient Boosting y Árboles de Decisión (Tree). Los resultados se validan mediante validación cruzada (cross-validation) de 10 folds. Considerando la métrica F-Score para los 4 clasificadores, los modelos con mejor rendimiento son Gradient Boosting, con un F-Score de 0.999, y Tree, con un F-Score de 0.998.

Para este proyecto, se selecciona el modelo de Árboles de Decisión, ya que aunque tiene un valor ligeramente menor en la métrica F-Score en comparación con Gradient Boosting, presenta tiempos de entrenamiento y prueba más reducidos, lo que lo hace más eficiente computacionalmente.

7. Conclusiones y trabajos futuros

La inspección univariada de las variables predictoras permitió identificar que las variables climatológicas tienen un comportamiento que no se ajusta a una distribución normal, presentando cierta tendencia estacional en algunos casos. Además, se detectaron valores atípicos, los cuales, aunque en algunos casos podrían asociarse con la estacionalidad inherente a la generación de energía solar ftovoltaica, el análisis multivariado con el método Isolation Forest reveló un total de 174 outliers, indicando que estos valores atípicos no representan un comportamiento anormal provocado específicamente por incendios forestales. Este descubrimiento fue esencial para tomar decisiones sobre la eliminación o retención de dichos valores atípicos en el conjunto de datos.

El modelo construido utilizando la metodología CRISP-DM demostró una eficaz capacidad de clasificación para relacionar las variables ambientales específicas vinculadas a incendios forestales con la generación de energía a través de sistemas fotovoltaicos. Específicamente, el clasificador Gradient Boosting se destacó como el más efectivo entre los evaluados en la tarea de clasificar estas relaciones de manera precisa y con un alto grado de exactitud.

Teniendo en cuenta que el enfoque del presente proyecto se centró en la creación de un modelo supervisado de clasificación, se sugiere como trabajo futuro la posibilidad de realizar la creación de un modelo supervisado de regresión para profundizar en la estimación cuantitativa de la cantidad de energía eléctrica que podría dejarse de producir durante eventos extremos como los incendios forestales. Este enfoque permitiría una evaluación más precisa y cuantitativa del impacto de las variables climáticas asociadas a los incendios forestales en la generación de energía solar fotovoltaica.

8. Tablas y gráficos

A continuación, se presentan las gráficas del análisis univariado de los valores atípicos para cada una de las variables descriptoras. En total, se identificaron 174 valores atípicos, sin embargo, es importante destacar que los valores atípicos registrados por cada variable no coinciden en sus fechas de ocurrencia. Además, se observa que la categoría con el mayor número de valores atípicos es la relacionada con la mínima autonomía.

método de identificación de outliers Energía Generada
método de identificación de outliers Energía Generada



método de identificación de outliers Claridad Total
método de identificación de outliers Claridad Total



método de identificación de outliers Precipitación Total
método de identificación de outliers Precipitación Total



método de identificación de outliers Temperatura a 2 metros
método de identificación de outliers Temperatura a 2 metros



método de identificación de outliers Velocidad del viento a 10 metros
método de identificación de outliers Velocidad del viento a 10 metros



método de identificación de outliers Velocidad del viento a 50 metros
método de identificación de outliers Velocidad del viento a 50 metros



método de identificación de outliers Partículas PM2.5
método de identificación de outliers Partículas PM2.5



9. Bibliografía

[1] World Energy Trade. (2023, 19 de julio). El crecimiento de la demanda mundial de electricidad disminuirá en medio de la desaceleración económica. Recuperado de https://www.worldenergytrade.com/finanzas-energia/economia/demanda-mundial-de-electricidad-19233

[2] Statista. (s.f.). Generación mundial de energía renovable por tipo de fuente energética [Página web] . Recuperado de https://es.statista.com/estadisticas/638825/generacion-mundial-de-energia-renovable-por-tipo-de-fuente-energetica/

[3] Statista. (s.f.). Las energías renovables en el mundo - Datos estadísticos [Página web]. Recuperado de https://es.statista.com/temas/8542/las-energias-renovables-en-el-mundo/#topicOverview

[4] Son, J., Jeong, S., Park, H., & Park, C-E. (2020). The effect of particulate matter on solar photovoltaic power generation over the Republic of Korea. Environmental Research Letters, 15, 084004. https://doi.org/10.1088/1748-9326/ab905b.

[5] Moreno Castellanos, J. G. (2012). Método de detección temprana de outliers [Tesis de pregrado, Pontificia Universidad Javeriana].

[6] Gilletly, S. D., Jackson, N. D., & Staid, A. (2023). Evaluating the impact of wildfire smoke on solar photovoltaic production. Applied Energy, Volume(348), Page 4.

[7] Xu, H., Pang, G., Wang, Y., & Wang, Y. (2023). Deep Isolation Forest for Anomaly Detection.

[8] Muñoz García, J. A., & Uribe, I. A. (2013). Técnicas para detección de outliers multivariantes. Revista en Telecomunicaciones e Informática, 3(5), 11-25.

[9] Ghorbani, H. (2019). Mahalanobis distance and its application for detecting multivariate outliers. FACTA UNIVERSITATIS (NIS) Ser. Math. Inform., 34(3), 583–595. https://doi.org/10.22190/FUMI1903583G

[10] Lesouple, J., Baudoin, C., Spigai, M., & Tourneret, J.-Y. (2021). Generalized isolation forest for anomaly detection. Pattern Recognition Letters, 149, 109-119. https://doi.org/10.1016/j.patrec.2021.06.008