Junio, 2018
Brasil tiene una de los sistemas hidrológicos más complejos, diversos y extensos del mundo. A diferencia de la gran mayorı́a de los paı́ses desarrollados, Brasil tiene en los rı́os su principal fuente de generación de electricidad , ocupando el tercer lugar dentro de los más grandes productores hidroeléctricos del mundo. Debido a la importancia del sector hidroeléctrico, buscar formas de facilitar y mejorar el modelamiento de datos asociados a este sector es un problema prioritario.
Una de las posibles problemáticas en el modelamiento de estos datos es lidiar con la enorme cantidad de datos asociados a mediciones de Caudales de los rı́os que componen este sistema, que cuenta con alrededor de 150 estaciones de medición repartidas en todo Brasil. Dichos datos se presentan en forma de Series de Tiempo que posee tres carácteristicas que dificultan su análisis, como:
En este contexto, notamos que es posible disminuir la dimensión del problema a travéz la identificación de clústers o zonas representativas (no necesariamente geográficas) que resuman el comportamiento temporal que poseen los caudales de los rı́os. Esto en términos de modelamiento esto se traduce en pasar del problema de modelar el nivel de caudal en todas las 150 estaciones, al problema de modelar unicamente 1 estación por cada clúster.
El Análisis Clúster es un técnica de aprendizaje no supervisado que tiene como objetivo dividir un conjunto de objetos en grupos homogéneos (clústers). La partición se realiza de tal manera que los objetos en un mismo "clúster"" son más "similares" entre sí que dos objetos en diferentes clústers.
Desde un punto de vista general el término proximidad indica el concepto de cercanı́a en espacio, tiempo o cualquier otro contexto. Desde un punto de vista matemático, ese término hace referencia al concepto de disimilaridad o similaridad entre dos elementos.
Sea O un conjunto finito o infinito de elementos (individuos, estímulos, sujetos u objetos) sobre los que queremos definir una proximidad. Dados dos elementos \(o_i\) y \(o_j\) de este conjunto, diremos que la función \(\delta: O\times O \rightarrow \mathbb{R}\) es una función de disimilitud si cumple:
Convencionalmente se considera \(\delta_0=0\).
Observación. Es posible transformar una función de disimilaridad en una métrica (distancia), forzandola a cumplir a desigualdad triangular.
Para \(X,Y\in \mathbb{R}^n\) se definen las siguientes funciones:
Métrica Euclidea \[ d_{euc}(X,Y)=\sqrt{\sum_{t\in n}(x_t-y_t)^2} \]
Métrica de Minkowski
\[ d_{mink}(X,Y)=\sqrt[p]{\sum_{t\in n}(x_t-y_t)^p} \]
\[ d_{inf}(X,Y)=\underset{t\in n}{\max} |x_t-y_t| \]
Es un conjunto de técnicas que permiten visualizar un conjunto de objetos en un espacio de dimensión \(N\) (\(N=2\) o \(3\) usualmente, y definida a priori), esto a partir de una matriz de disimilitud (similitud o distancia) entre dichos objetos.
MDS es usualmente es usada como una técnica de reducción de dimensiones, es decir, representar objetos que se encuentran en un espacio de una dimensión alta (\(N\ge 4\)) en un espacio de dimensión menor (\(N=2\)) (como el Análisis de Componentes Principales, Factorial, entre otros).
Primero construimos la matriz de distacias entre las series de tiempo (univariantes o multivariantes) asociadas a los CAUDALES
(en el caso múltiple además incluye variables asociadas al CLIMA
), para ello escogemos una de las métricas definidas para series de tiempo. Luego, a partir de la matriz de distancias utilizamos la técnica de MDS clásica, a partir de ella se obtiene una nube de puntos (en dimensión \(N=2\)) donde cada punto representa a la serie de CAUDALES
(o conjunto de series Caudales/CLIMA
) de una estación.
A partir de esta nube de puntos en dimensión \(N=2,3,...\), usamos el Análisis Clúster para crear grupos de puntos basandose en su cercanía (esta cercanía depende fundamentalmente de la métrica elegida).
Algunos de los resultados obtenidos de haber escojido una métrica específica se muestran a continuación.
Consideremos los Dataset's \(X^{(i)}\) (para \(i=1,2,...,q\)) asociadas a \(q\) series de tiempo multivariantes \((X_t^{(i)})_{t\in T}\), es decir \(X_t^{(i)} = (x_{1t}^{(i)},x_{2t}^{(i)},...,x_{nt}^{(i)} )\). Entonces se define una medida de similitud entre \(X^{(i)}\) y \(X^{(j)}\) como sigue:
\[ S_{ACP}(X^{(i)},X^{(j)}) = \frac{\sum_{r=1}^{K}\sum_{s=1}^{K}(\lambda_r^{(i)}\lambda_{s}^{(j)})\cos^2(\theta_{rs})}{\sum_{r=1}^{K}\lambda_r^{(i)}\lambda_{r}^{(j)}} \]
Donde \(\lambda_r^{(i)}\) es el \(r-ésimo\) valor propio de la mátriz de correlación del dataset \(X^{(i)}\), conocido como "factor loading" del ACP de este dataset. Mientras que \(\theta_{rs}\) representa el ángulo medido entre el \(r-ésimo\) vector propio (factor scores o componente principal) del dataset \(X^{(i)}\) y el \(s-ésimo\) componente principal del dataset \(X^{(j)}\).
En nuestro caso cada Dataset está compuesto por mediciones de Vazoes, y 4 variables climáticas como Precipitacion total, Temperatura Máxima y Mínima, y Humedad relativa media (que componen una serie de tiempo múltiple de dimensión 5).
En esta sección mostramos resultados obtenidos al considerar métricas que consideran la correlación en y entre las series.
\[ d_{acf}(X_t,Y_t)=\sqrt{(\hat\rho_x-\hat\rho_y)^t\Omega(\hat\rho_x-\hat\rho_y)} \]
donde \(\hat\rho_x\) es el vector con los coeficientes de autocorrelación.
\[ d_{cor}(X_t,Y_t)=\sqrt{\left( \frac{1-\rho}{1+\rho} \right)^\beta} \]
donde \(\rho\) es el coeficiente de correlación de Pearson entre las series, y \(\beta\) se define a priori.
\[ d_{ccor}(X_t,Y_t)=\sqrt{\frac{(1-CC(x_t,y_t,0))^2}{\sum_{k}(1-CC(x_t,y_t,k))^2}} \]
Donde \(CC(x_t,y_t,k)\) es la función de correlación cruzada con \(k\) retardos.