Análisis Clúster

Junio, 2018

Antecedentes

Brasil tiene una de los sistemas hidrológicos más complejos, diversos y extensos del mundo. A diferencia de la gran mayorı́a de los paı́ses desarrollados, Brasil tiene en los rı́os su principal fuente de generación de electricidad , ocupando el tercer lugar dentro de los más grandes productores hidroeléctricos del mundo. Debido a la importancia del sector hidroeléctrico, buscar formas de facilitar y mejorar el modelamiento de datos asociados a este sector es un problema prioritario.

Fuentes de Generación de Energía

Problema

Una de las posibles problemáticas en el modelamiento de estos datos es lidiar con la enorme cantidad de datos asociados a mediciones de Caudales de los rı́os que componen este sistema, que cuenta con alrededor de 150 estaciones de medición repartidas en todo Brasil. Dichos datos se presentan en forma de Series de Tiempo que posee tres carácteristicas que dificultan su análisis, como:

La primera es que estas series de tiempo poseen observaciones diarias de los caudales en un periodo de tiempo de alrededor de 30 años, es decir, son series muy extensas.
La segunda caracterı́stica es que estas series de tiempo son estacionals.
Por último existe evidencia de que el ruido o error asociado a estas series no se distribuye normalmente sino que su distribución posee colas más pesadas como las analizadas en teorı́a de valores extremos.

Problema

En este contexto, notamos que es posible disminuir la dimensión del problema a travéz la identificación de clústers o zonas representativas (no necesariamente geográficas) que resuman el comportamiento temporal que poseen los caudales de los rı́os. Esto en términos de modelamiento esto se traduce en pasar del problema de modelar el nivel de caudal en todas las 150 estaciones, al problema de modelar unicamente 1 estación por cada clúster.

Análisis Clúster

Ideas Introductorias

El Análisis Clúster es un técnica de aprendizaje no supervisado que tiene como objetivo dividir un conjunto de objetos en grupos homogéneos (clústers). La partición se realiza de tal manera que los objetos en un mismo "clúster"" son más "similares" entre sí que dos objetos en diferentes clústers.

Medidas de Similitud y Disimilitud

Desde un punto de vista general el término proximidad indica el concepto de cercanı́a en espacio, tiempo o cualquier otro contexto. Desde un punto de vista matemático, ese término hace referencia al concepto de disimilaridad o similaridad entre dos elementos.

Sea O un conjunto finito o infinito de elementos (individuos, estímulos, sujetos u objetos) sobre los que queremos definir una proximidad. Dados dos elementos \(o_i\) y \(o_j\) de este conjunto, diremos que la función \(\delta: O\times O \rightarrow \mathbb{R}\) es una función de disimilitud si cumple:

\(\delta(o_i,o_j) = \delta(o_j,o_i)\)
\(\delta(o_i,o_i) \le\delta(o_i,o_j)\)
\(\delta(o_i,o_i) = \delta_0\)

Convencionalmente se considera \(\delta_0=0\).

Observación. Es posible transformar una función de disimilaridad en una métrica (distancia), forzandola a cumplir a desigualdad triangular.

Medidas de Disimilitud

Ejemplos

Para \(X,Y\in \mathbb{R}^n\) se definen las siguientes funciones:

Métrica Euclidea \[ d_{euc}(X,Y)=\sqrt{\sum_{t\in n}(x_t-y_t)^2} \]
Métrica de Minkowski

\[ d_{mink}(X,Y)=\sqrt[p]{\sum_{t\in n}(x_t-y_t)^p} \]

Norma Infinito

\[ d_{inf}(X,Y)=\underset{t\in n}{\max} |x_t-y_t| \]

Escalonamiento Multidimensional (MDS)

Es un conjunto de técnicas que permiten visualizar un conjunto de objetos en un espacio de dimensión \(N\) (\(N=2\) o \(3\) usualmente, y definida a priori), esto a partir de una matriz de disimilitud (similitud o distancia) entre dichos objetos.

MDS es usualmente es usada como una técnica de reducción de dimensiones, es decir, representar objetos que se encuentran en un espacio de una dimensión alta (\(N\ge 4\)) en un espacio de dimensión menor (\(N=2\)) (como el Análisis de Componentes Principales, Factorial, entre otros).

Metodología

Primero construimos la matriz de distacias entre las series de tiempo (univariantes o multivariantes) asociadas a los CAUDALES(en el caso múltiple además incluye variables asociadas al CLIMA), para ello escogemos una de las métricas definidas para series de tiempo. Luego, a partir de la matriz de distancias utilizamos la técnica de MDS clásica, a partir de ella se obtiene una nube de puntos (en dimensión \(N=2\)) donde cada punto representa a la serie de CAUDALES (o conjunto de series Caudales/CLIMA) de una estación.

A partir de esta nube de puntos en dimensión \(N=2,3,...\), usamos el Análisis Clúster para crear grupos de puntos basandose en su cercanía (esta cercanía depende fundamentalmente de la métrica elegida).

Algunos de los resultados obtenidos de haber escojido una métrica específica se muestran a continuación.

Aplicación

Métrica (ACP para Series Múltiples)

Consideremos los Dataset's \(X^{(i)}\) (para \(i=1,2,...,q\)) asociadas a \(q\) series de tiempo multivariantes \((X_t^{(i)})_{t\in T}\), es decir \(X_t^{(i)} = (x_{1t}^{(i)},x_{2t}^{(i)},...,x_{nt}^{(i)} )\). Entonces se define una medida de similitud entre \(X^{(i)}\) y \(X^{(j)}\) como sigue:

\[ S_{ACP}(X^{(i)},X^{(j)}) = \frac{\sum_{r=1}^{K}\sum_{s=1}^{K}(\lambda_r^{(i)}\lambda_{s}^{(j)})\cos^2(\theta_{rs})}{\sum_{r=1}^{K}\lambda_r^{(i)}\lambda_{r}^{(j)}} \]

Donde \(\lambda_r^{(i)}\) es el \(r-ésimo\) valor propio de la mátriz de correlación del dataset \(X^{(i)}\), conocido como "factor loading" del ACP de este dataset. Mientras que \(\theta_{rs}\) representa el ángulo medido entre el \(r-ésimo\) vector propio (factor scores o componente principal) del dataset \(X^{(i)}\) y el \(s-ésimo\) componente principal del dataset \(X^{(j)}\).

En nuestro caso cada Dataset está compuesto por mediciones de Vazoes, y 4 variables climáticas como Precipitacion total, Temperatura Máxima y Mínima, y Humedad relativa media (que componen una serie de tiempo múltiple de dimensión 5).

Nube de "objetos"

Series de cada Cluster

Series de Tiempo Univariadas

En esta sección mostramos resultados obtenidos al considerar métricas que consideran la correlación en y entre las series.

Disimilitud basada en la Autocorrelación

\[ d_{acf}(X_t,Y_t)=\sqrt{(\hat\rho_x-\hat\rho_y)^t\Omega(\hat\rho_x-\hat\rho_y)} \]

donde \(\hat\rho_x\) es el vector con los coeficientes de autocorrelación.

Disimilitud basada en Correlación

\[ d_{cor}(X_t,Y_t)=\sqrt{\left( \frac{1-\rho}{1+\rho} \right)^\beta} \]

donde \(\rho\) es el coeficiente de correlación de Pearson entre las series, y \(\beta\) se define a priori.

Series de Tiempo

Distacia basada en la Correlación Cruzada

\[ d_{ccor}(X_t,Y_t)=\sqrt{\frac{(1-CC(x_t,y_t,0))^2}{\sum_{k}(1-CC(x_t,y_t,k))^2}} \]

Donde \(CC(x_t,y_t,k)\) es la función de correlación cruzada con \(k\) retardos.

Antecedentes

Antecedentes

Fuentes de Generación de Energía

Problema

Problema

Problema

Análisis Clúster

Ideas Introductorias

Medidas de Similitud y Disimilitud

Medidas de Disimilitud

Ejemplos

Escalonamiento Multidimensional (MDS)

Metodología

Aplicación

Métrica (ACP para Series Múltiples)

Nube de "objetos"

Series de cada Cluster

Series de Tiempo Univariadas

Disimilitud basada en la Autocorrelación

Disimilitud basada en Correlación

Series de Tiempo

Distacia basada en la Correlación Cruzada

Disimilitud basada en la Autocorrelación

Nube de "objetos"

Modelamiento