En estadística la mayoria de los metodos se basean en el concepto de correlación, sin embargo desde el punto de vista práctico no tiene ningún sentido utilizar esta metodologia, por un lado es aplicable en supuestos muy restrictivos, por ejemplo solo se puede definir en espacios topológicos donde exista un producto escalar o con datos que sigán una distribución elíptica y por otro se usa como médida de dependencia, pero solo es capaz de captar relaciones lineales entre las variables y es muy sensible a la existencia de otro tipo de relaciones en una región de los datos, y por tanto puede ocurrir que parezca que no existe relación relación cuando lo que pasa es que en esa area sea necesario hacer una análisis por separado con clusters previos debido a la fuerte granularidad de los datos y la necesidad de consideración de más variables que ayuden a explicar esa relación oculta y que el coeficiente de correlación es incapaz de detectar. Se han intentado aplicar métodos que extiendan el concepto de corelacción como la corellación local o el de semi-corellación,pero resultan totalmente insuficientes.

library("energy")

x1= seq(-1,1,length=100)
y1= x1^2
x2= seq(-0.01,0.01,length=1000)
y2= x2^2
dcor(x1,y1)
## [1] 0.4915272
cor(x1,y1)
## [1] 2.837047e-16
dcor(x2,y2)
## [1] 0.4914506
cor(x2,y2)
## [1] -1.628811e-16

Pese a exister una relación de la forma \(Y= X^2\) si nos restringimos al intervalo \([-0.01,0.01]\) el resultado es que el coeficiente de correlación no detecta nada de esa relación mientras que la distancia correlation si.

Una comparativa de los métodos de dependencia

Székely, G. J., Rizzo, M. L., and Bakirov, N. K. (2007). Measuring and testing depen- dence by correlation of distances