Test \(\rho\) de correlación de Spearman

El coeficiente de correlación de Spearman es un coeficiente no paramétrico alternativo al coeficiente de correlación de Pearson cuando este no cumple los supuestos de normalidad. Charles Spearman, un estadístico británico, introdujo una medida de relación para datos de nivel ordinal. Esta medida permite estudiar la relación entre grupos ordenados por rangos y es denotada por \(\rho\)

El coeficiente de relación de Spearman es muy usado ya que tampoco se encuentra restringido por una relación lineal, es decir no necesariamente las variables deben presentar una relación lineal, pero sí monótona. Una relación es monótona creciente si el incremento de una de las variables corresponde al incremento de la otra, y una relación es monótona decreciente si el incremento de una de las variables corresponde al decremento de la otra.

Descripción de la prueba

Supuestos

Los datos provienen de una muestra aleatoria bivariada y deben tener escala de medida ordinal o categórica.

Cálculo del coeficiente de correlación de Spearman

\[{\displaystyle \rho=\frac{\sum_{i=1}^{n}R(X_{i})R(Y_{i})-n\left(\frac{n+1}{2}\right)^{2}}{\left(\left(\sum_{i=1}^{n}R(X_{i})^{2}-n\left(\frac{n+1}{2}\right)^{2}\right)\left(\sum_{i=1}^{n}R(Y_{i})^{2}-n\left(\frac{n+1}{2}\right)^{2}\right)\right)^{\frac{1}{2}}}}\]

Los valores que puede tomar, están entre \(-1< \rho < 1\). los valores cercanos a uno indican una relación monótona creciente, y los valores cercanos a -1 muestran una relación monótona decreciente, mientras que valores cercanos a 0 indican que no hay una relación fuerte.

\[\rho = 1-\frac{6\sum_{i=1}^n[R(X_i)-R(Y_i)]^2}{n(n^2-1)}\]

La ecuación presentada anteriormente es más fácil de calcular y es otra forma equivalente solo si no hay empates.

Prueba de significancia del coeficiente de correlación de Spearman

Hipótesis

A. A dos colas

\(H_0 :\) los valorres de \(X_i\) Y \(Y_i\) son mutuamente independientes

\(H_1 :\) Existe alguna tendencia a que los valores mayores o menores de \(X\) se emparejen con los valores mayores de \(Y\)

B. A cola izquierda (relación negativa)

\(H_0 :\) los valores de \(X_i\) Y \(Y_i\) son mutuamente independientes

\(H_1 :\) Existe alguna tendencia a que los valores más pequeños de X se emparejen con los valores mas grandes de Y, y viceversa.

C. A cola derecha (relación positiva)

\(H_0 :\) los valores de \(X_i\) Y \(Y_i\) son mutuamente independientes \(H_1 :\) Existe alguna tendencia a que los valores más grandes de \(X\) y \(Y\) se emparejen juntos.

Estadístico de prueba

El coeficiente de correlación poblacional \(\rho\) de los datos con rango cero. La distribución muestral de \(\rho\) es aproximadamente normal con media cero y una desviación estándar dada por:

\[\sigma_\rho = \frac{1}{\sqrt{n-1}}\]

Como consecuencia, para una población de pares con rango, podemos determinar si \(\rho \neq 0\) encontrando el valor \(z\) de \(\rho\) bajo el supuesto de que \(\rho = 0\)

\[z_{cal} = \frac{\rho - 0}{\frac{1}{\sqrt{n-1}}} = \rho \sqrt{n-1}\]

Valores críticos

Los cuantiles exactos de \(\rho\) cuando \(X\) y \(Y\) son independientes se dan en la tabla de “Cuantiles de Spearman \(\rho\)” para tamaños de muestra menores o iguales a 30 y sin empates. Para tamaños de muestras más grandes o que contengan muchos empates el cuantil de \(\rho\) esta dado por:

\[W_{1-\alpha} = \frac{Z_p}{\sqrt{n-1}}\]

valor p

A. A dos colas

\[p-valor = 2P(Z\geq Z_{cal})\]

B. A cola izquierda (relación negativa)

\[p-valor = P(Z\leq Z_{cal})\]

C. A cola derecha (relación positiva)

\[p-valor = P(Z \geq Z_{cal})\]

Regla de decisión

Se rechaza la hipótesis nula si la probabilidad de obtener un valor de \(Z_cal\) es menor o igual que \(\alpha\)

Comparación con la Correlación de Pearson

Característica Correlación de Pearson Correlación de Spearman
Suposiciones Normalidad, linealidad Monotonía
Impacto de los Outliers Sensible Insensible
Tipo de Datos Intervalo/Ratio Ordinal o Rango

Ejemplo 1

Se estudian doce graduados de MBA para medir la relación entre su puntuación en el GMAT, que tomaron antes para ingresar a la escuela de posgrado, y su promedio de calificaciones mientras estaban en el programa de MBA. Sus puntuaciones GMAT y sus GPAs se dan a conocer, junto con las clasificaciones y algunos cálculos.

x1 = c(810,610,640,580,545,560,610,530,560,540,570,560)
y1 = c(4,4,3.9,3.8,3.7,3.6,3.5,3.5,3.5,3.3,3.2,3.2)

d1 = data.frame("gmat" = x1, "gpa" = y1);datatable(d1)
abline(plot(x1,y1))

shapiro.test(x1)
## 
##  Shapiro-Wilk normality test
## 
## data:  x1
## W = 0.71346, p-value = 0.001139
shapiro.test(y1)
## 
##  Shapiro-Wilk normality test
## 
## data:  y1
## W = 0.92804, p-value = 0.3598

Se puede observar que las variables no cumplen los supuestos de normalidad por ende no es posible calcular el coeficiente de correlación de Pearson

d2<-d1%>%
  dplyr::mutate(RangosX = rank(x1)) %>%
  dplyr::mutate(RangosY = rank(y1)) %>%
  dplyr::mutate(dife2 = (RangosX-RangosY)^2)
datatable(d2)
sum(d2$RangosX^2)
## [1] 647.5
sum(d2$RangosY^2)
## [1] 647
sum(d2$RangosX*d2$RangosY)
## [1] 589.75
plot(d2$RangosX,d2$RangosY)

Calculo del coeficiente de relación

\[\displaystyle{\rho = 1-\frac{6(115)}{12(12^2-1)} = 0.5979}\]

El valor 0.59 nos indica que existe una relación positiva entre las calificaciones del GPA y GMAT para los recién graduados de MBA. Pero para asegurar el resultado debemos realizar la prueba de significancia.

Prueba de significancia

\(H_0:\) los GPA son independientes de los resultados de GMAT

\(H_1:\) Los GPA altos tienden a asociarse con puntuaciones de GMAT altas

Estadístico de prueba

\[Z_{cal} = 0.59\sqrt{11} = 1.9568\]

Con un nivel de significancia del \(5\%\) se halla sus respectivos cuantiles por medio de la tabla de Spearman, el cuantil correspondiente es \(W_{0.95} = 0.4965\). Al buscar el cuantil por medio de una aproximación normal es:

\[W_{0.95} = \frac{1.6449}{\sqrt{11}} = 0.4960\]

Podemos observar que la diferencia entre las dos formas de calcularlo es baja pero mientras el tamaño de la muestra sea menos o igual a 30, será más preciso calcular el cuantil a través de la tabla.

\[valor p = P(Z\geq 1.9568) = 0.025\]

Por ende, se rechaza la hipótesis nula, es decir que es posible que los valores altos de GPA tiendan a asociarse con los valores altos de GMAT

Comprobación

cor.test(x1, y1, method = "spearman",alternative = "greater")
## 
##  Spearman's rank correlation rho
## 
## data:  x1 and y1
## S = 117.25, p-value = 0.02172
## alternative hypothesis: true rho is greater than 0
## sample estimates:
##       rho 
## 0.5900188

Ejemplo 2

La siguiente tabla registra los pesos \(X\), en miles de libras, y los rendimientos promedios en millas por galón \(Y\), para diez automóviles de fabricación reciente. Determine el coeficiente de relación de Spearman \(\rho\)

x2 = c(2.7,4.1,3.5,2.7,2.2,3.9,2.2,2.2,3.5,2.2)
y2 = c(28,19,22,30,30,26,19,38,26,45)


d3 = data.frame("Pesos" = x2, "Rendimiento" = y2)
shapiro.test(x2)
## 
##  Shapiro-Wilk normality test
## 
## data:  x2
## W = 0.83873, p-value = 0.0426
shapiro.test(y2)
## 
##  Shapiro-Wilk normality test
## 
## data:  y2
## W = 0.91355, p-value = 0.3063

Al realizar las pruebas de normalidad, encontramos que la variable \(Y\) no cumple el supuesto paramétrico, por ende utilizamos el coeficiente de relación de Spearman

d4<-d3%>%
  dplyr::mutate(RangosX = rank(x2)) %>%
  dplyr::mutate(RangosY = rank(y2)) %>%
  dplyr::mutate(dife2 = (RangosX-RangosY)^2)

datatable(d4)
sum(d4$RangosX^2)
## [1] 379
sum(d4$RangosY^2)
## [1] 383.5
sum(d4$RangosX*d4$RangosY)
## [1] 256

Calculo del coeficiente de relación

numerador = (256-10*(11/2)^2)
denominador = sqrt((379-10*(11/2)^2))*sqrt((383.5-10*(11/2)^2))

rho1 = numerador/denominador

\[\rho = -0.59072\]

sum(d4$dife2)
## [1] 250.5
rho2 = 1 - ((6*250.5)/(10*(100-1)))

\[\rho = -0.51818\]

El valor \(-0.59\) indica una relación monótona decreciente entre los pesos de los automóviles y los rendimientos de la gasolina. Mientras más pesado es el coche, menor es el rendimiento.

Prueba de significancia

\(H_0: \rho \geq 0\)

\(H_1: \rho < 0\)

Estadístico de prueba

Zcal = -0.59*sqrt(9);Zcal
## [1] -1.77

valores críticos

Como el tamaño de la muestra es menor o igual a \(30\), utilizamos la tabla, encontramos que el cuantil correspondiente para un tamaño de \(n=10\) y un nivel de significancia de \(5\%\) es: \(0.55\)

Cabe resaltar que la tabla tiene los cuantiles superiores, si se quisieran calcular los cuantiles inferiores se aplica la siguiente formula:

\[W_p = -W_{1-p}\]

Hallamos el cuantil por medio de una aproximación normal

W = -1.64485/sqrt(9);W
## [1] -0.5482833

\[W_{0.05} = \frac{1.6449}{\sqrt{11}} = -0.5483\]

valor p

pnorm(q = Zcal)
## [1] 0.03836357

Por lo tanto, rechazamos la hipótesis nula, es decir que es posible que el coeficiente de correlación sea menor a \(0\) en otras palabras que los pesos de los coches y los rendimientos de la gasolina tienen una relación decreciente monótona

Comprobación

cor.test(x2, y2, method = "spearman",alternative = "less")
## 
##  Spearman's rank correlation rho
## 
## data:  x2 and y2
## S = 262.47, p-value = 0.03608
## alternative hypothesis: true rho is less than 0
## sample estimates:
##        rho 
## -0.5907173

Coeficiente de Correlación de Tau de Kendall

En el campo de la estadística, frecuentemente se estudian los valores de una variable a partir de otra relacionada (Como en regrsión, al predecir valores de una variable dependiente a partir de una o varias independientes), pero, para poder justificar la conexión entre dos variables es necesario aplicar un procedimeiento que permita medir la fuerza y el sentido de la relacion entre las dos variables, esto es un coeficiente de correlación.

Con frecuencia, se consideram sinónimos a el término “coeficiente de correlación” y el método de coeficiente de correlación de Pearson, siendo este ultimo frecuentemente introducido pimero a estudiantes e investigadores que estudian regresión lineal, este coeficiente, aunque fantástico al momento de evalur variables cuantitativas continuas independiete que probienen de poblaciones independientes y de las que se presupone normalidad.

Cuando estas carateristicas no se cumplen, no es apropiado medir la relación entre variable con el método Pearson. Una de las opciones que existen es medir la correlacion con un test no parametrico ya sea \(\rho\) de Spearman o \(\tau\) de Kendall.

Maurice Kendall

Sir Maurice Kendall (1907-1983) fué un matematico Inglés quien tras terminar sus estudios matematicos y dedicarse a trabajar en el ministerio de agricultura, empezó a interesarse por la estadistica. Kendall estudio y produjo textos sobre teoría estadistica desde los principios de la decada de 1930 y produjo su primer paper sobre medidas de correlacion calculadas a partir de rangos en 1948. Sus aportes a la ciencia estadística fueron tales que fue condecorado con la posicion de caballero en 1974 y recibió multiples condecoraciones academicas inglesas y americanas.

Supuestos

El coeficiente de correlacion de kendall se calcula a partir de rangos ranqueados lo cual lo hace potente contra valores atipicos, pero con la desventaja que se trabaja con valores transformados y no con los valores originales.

Para calcular el coeficiente se presupone

  • Las variables estan medidas en una escala númerica o por lo menos ordinal, dentro de la cual las afirmaciones “menor que” y “mayor que” tienen sentido.

  • Ya sea como conclusión de un analisis explotario o de estudios realizados previamente es preferible mas no indispensable poder asumir una relación monotónica entre las variables(Si una variable aumenta la otra también, o si una aumenta la otra disminuye)

Características Clave

  1. Mide Relaciones Monótonas: Determina si una relación es consistente en aumentar o disminuir, incluso si no es lineal.

  2. Robusto ante Ties y No Normalidad: Funciona bien con datos ordinales o cuando se violan las suposiciones de normalidad.

  3. Amigable con Muestras Pequeñas: Proporciona una medida más precisa para conjuntos de datos pequeños en comparación con la correlación de Spearman.

Hipótesis

El test puede ser construido a una o dos colas.

Test a dos colas

\[H_o: las\ variables\ X\ y\ Y\ son \ independientes\] \[H_a: Los\ pares\ de\ observaciones\ tienden\ a\ ser\ concordantes\ o\ discordantes \]

Test a cola izquierda

\[H_o: las\ variables\ X\ y\ Y\ son \ independientes\] \[H_a: Los\ pares\ de\ observaciones\ tienden\ a\ ser\ discordantes \]

Test a cola derecha

\[H_o: las\ variables\ X\ y\ Y\ son \ independientes\] \[H_a: Los\ pares\ de\ observaciones\ tienden\ a\ ser\ concordantes \]

\(\tau\) de Kendall vs R de pearson

Como en la mayoría de pruebas estadisticas no parametricas, la medida de correlación \(\tau\) de Kendall no presupone la distribución de los datos, la cual permite realizarla cuando se desconoce caracteristicas de la poblacion de la que fueron extraidas las muestras, como no sucede en el coeficiente de Pearson. El coeficiente de Kendall tambien permite trabajar con datos númericos discretos e incluso no númericos, mientras que Pearson no.

Como el coficiente de Pearson es un coeficiente de varianzas, el calculo de este es muy sensible a datos atipicos, ya que sabemos que estos datos afectan a la media y a la varianza.

Ambas medidas trabajan con observaciones pareadas, para cada observacion en la variable dependiente hay una observacion que le correspone en la variable independiente.

Definición

La correlación de Tau de Kendall se define como: \[ \tau = \frac{C - D}{\binom{n}{2}} \]

Donde:

  • \(C\): Número de pares concordantes (pares de observaciones donde el orden relativo de \(X\) y \(Y\) es el mismo).

  • \(D\): Número de pares discordantes (pares de observaciones donde el orden relativo de \(X\) y \(Y\) es opuesto).

  • \(\binom{n}{2} = \frac{n(n-1)}{2}\): Número total de pares posibles en el conjunto de datos.

En este test, se trabaja con parejas de datos de las dos variables a comparar \((x,y)\) y estas se evaluan para determinar si son concordantes o discordantes

Sea \((x_1,y_1),(x_2,y_2)...,(x_n,y_n)\) pares de observaciones de dos variables aleatorias \(X\) y \(Y\). Cualquier par de observaciones \((x_i,y_i)\) y \((x_j,y_j)\) se dicen concordantes si el orden los rangos de ambas coinciden. Es decir \(x_i>x_j\) y \(y_i>y_j\) ó \(x_i<x_j\) y \(y_i<y_j\). Otra forma de decir lo anterior es que las diferencias \((x_i-x_j),(y_i-y_j)\) tienen el mismo signo.

Cuando el orden los rangos de uno de los elementos es inverso al del segundo elemento , estos pares son discordantes. Dicho de otra manera cuando las diferencias \((x_i-x_j),(y_i-y_j)\) tienen signos opuestos.

Si \((x_i=x_j)\) o \((y_i=y_j)\) no se consideran ni concordantes ni discordantes

Pasos para Computar la Correlación de Tau de Kendall

1. Identificar Pares Concordantes y Discordantes

  • Un par concordante (\((X_i, Y_i), (X_j, Y_j)\)) satisface: \[ \text{Sign}(X_j - X_i) = \text{Sign}(Y_j - Y_i) \]

  • Un par discordante satisface: \[ \text{Sign}(X_j - X_i) \neq \text{Sign}(Y_j - Y_i) \]

2. Calcular Ties (empates)

  • Ties en \(X\): Pares donde \(X_j = X_i\), pero \(Y_j \neq Y_i\).

  • Ties en \(Y\): Pares donde \(Y_j = Y_i\), pero \(X_j \neq X_i\).

  • Ties en ambos \(X\) y \(Y\): Pares donde \(X_j = X_i\) y \(Y_j = Y_i\).

3. Ajustar la Fórmula para Empates

La correlación de Tau ajustada (Tau-b) cuenta con ties: \[ \tau_b = \frac{C - D}{\sqrt{(C + D + T_X)(C + D + T_Y)}} \] Donde:

  • \(T_X\): Número de ties en \(X\).

  • \(T_Y\): Número de ties en \(Y\).

Ejemplo 1.

Supongase que se pidió a dos jueces que calificaran en orden de preferencia cuatro productos y se obtienen los siguientes resultados.

A B C D
Juez x 3 4 2 1
Juez y 3 1 4 2

Primero se ordenan los rangos del juez x en orden de menor a mayor para facilitar el calculo de las parejas. Notese que el valor del coeficiente no cambia si se escoge la segunda variable.

ej.1<- data.frame(obj= c("a","b","c","d"),x= c(3,4,2,1),y=c(3,1,4,2))


ej.1 %>% arrange(x)
##   obj x y
## 1   d 1 2
## 2   c 2 4
## 3   a 3 3
## 4   b 4 1

Despues de ordenar la variable se procede a contar el numero de pares que estan en el orden correcto para la variable “y” y el numero que esta en el orden incorrecto, para hacer esto se consideran todas las parejas que puedan formarse a partir de a variable en desorden.

Empezamos con elprimer elemento de la variable y -el rango 2- y se forma la pareja con el siguiente hacia abajo -el rango 4-, esta pareja (2,4) tiene el orden correcto. tambien lo tiene la siguiente pareja (2,3), pero el tercer par (2,1) estan en orden incorrecto.

Se les asignara valor de +1 a todas las parejas en el orden correcto y -1 a las que estan en desorden. Por tanto la puntuacion de las parejas que tienen como primer miembro al rango 2 es

\[(+1)+(+1)+(-1)=+1\]

Se realiza el mismo procedimiento con el segundo elemento de la variable y-el rango 4-. Como este es el valor maximo posible se tiene que todos los que estan a su derecha son valores discordantes.

\[(-1)+(-1)=-2\]

Finalmente la última pareja a contrastar es la (3,1) esta esta en el orden incorrecto por tanto su puntuacion es -1.

El total de las puntuaciones sería

\[(+1)+(-2)+(-1)=-2\]

El coeficiente de Kendall es una clase de coeficiente de desorden, una funcion que mide cuantos rangos se deben intercambiar para convertir una variable en otra.

Para hacer esto se calcula :

\[T= \frac{ acuerdos- desacuerdos}{total \ de\ pares}\] El número total de pares posible es a la combinacion de la cantidad de elementos de la muestra (en este caso n=4) entre 2. Ó sea el numero total de pares que puede hacerse de cuatro objetos.

El valor del coeficiente de correlacion para el ejemplo anterior es \[=\frac{-2}{n(n-1)/2}\\ =\frac{-2}{6}\\ =0.33\]

Una forma mas inmediata de calcular la suma de datos concordantes y discordantes es , despues de ordenar los valores de una de las variables, asignar valores +1 y -1 , sumar cada una de los resultados y se obtiene

Juez y 2 4 3 1 Total
2 + + - 1
4 - - -2
3 - -1
1 0
Total -2
ej.1ord<- ej.1 %>% arrange(x)
s<- NULL
y<- ej.1ord$y

i<-2

for (i in 1:(length(y)-1)){
s[i]<-
sum(
  ifelse(y[i]<y[(i+1):(length(y))],1,-1)
)
};s;1-2-1
## [1]  1 -2 -1
## [1] -2

Consideremos el numerador del coeficiente anterior (Numero de acuerdos - Numero desacuerdos) como \(s=N_c-N_d\) y al denominador, o sea la combinacion \(n\choose 2\) , como la fracción \(\frac{n(n-1)}{2}\) y realiar un despeje algebraico se obtiene que la formula para calcular el coeficiente es:

\[ T= \frac{2s}{n(n-1)}\]

Ejemplo 2

Comunmente se afirma que la temperatura de ebullicion del agua es 100 grados centigrados o 212 grados Fahrenheit, pero esto es solo cierto cuando se encuentra al nivel del mar, al aumentar la altitud, aumenta la presion del ambiente lo que hace que sea necesaria mas temperatura para lograr el hervor.

Para comprobar esta teoría un equipo de investigación midió la presión en 17 altitudes de los Alpes y midió el punto de ebullición de cada uno de los lugares.

  • \(H_o:\) No hay relación entre el nivel de presión y el punto de ebullición del agua

  • \(H_ a\) A mayor presión y altitud , la temperatura necesaria para que el agua hierva es mayor.

Solución

bp<- rank(forbes$bp)
pres<- rank(forbes$pres)
# Ranquear las dos variables 
plot(pres,bp)

Parece indicar que hay una relacion lineal positiva entre la presion y el punto de ebullición

#ingresar los datos y ordenar x
m<- data.frame(bp,pres) %>% arrange(bp)


#contar  cuales estan en orden incorrecto en Y
y<- m$pres
s<-NULL
n<- length(y)

for (i in 1:(n-1)){
  s[i]<- sum(y[i]<y[(i+1):n])
}
nc<- sum(s)
s<-NULL
for (i in 1:(n-1)){
  s[i]<- sum(y[i]>y[(i+1):n])
}

nd<- sum(s)

S<- nc-nd

# como solo hay un empate, se utiliza Tau
nn<- n*(n-1)
tao<- 2*S/nn;tao
## [1] 0.9926471
## Estadistico de prueba es S= nc-nd

S
## [1] 135
### A traves de la fncion cor.test

cor.test(m$bp,m$pres,method = "kendall",alternative = "greater")
## 
##  Kendall's rank correlation tau
## 
## data:  m$bp and m$pres
## z = 5.5657, p-value = 1.305e-08
## alternative hypothesis: true tau is greater than 0
## sample estimates:
##       tau 
## 0.9963167

Acá aparece que el cuantil \(1-\alpha\) ó .950 para n=17 es 40, nuestro valor estimado fue de 135, por tanto se rechaza contundentemente que no haya relación entre las variables. Hay evidencia con 5% de confianza de una relación lineal positiva entre las variables.

Ejemplo 3

Se realiza un estudio que mide el tiempo entre erupciones y la duración de las erupciones ,amabas medidas en minutos,del géiser “Old faithful” ubicado en el parque nacional Yellowston en USA.

Se desea probar la independencia entre las dos variables

*\(H_o\) El tiempo de espera entre erupción y la duración de la subsiguiente erupción son independientes.

*\(H_a\) Las variables son dependientes

Desarrollo

plot(faithful)

Gráficamente podemos ver que parece exister una relacion positiva entre las variables, al haber mas tiempo entre erupciones , estas tienden a durar mas.

## [1] 0.5738568
## [1] -1.959964  1.959964
## [1] 3.506101e-45

Se rechaza la independencia entre variables, con un nivel de confianza del 95% se puede afrimar que hay dependencia entre las dos variables .