Miary współzależności

Artur Machno
24.10.2015

Omawiane miary współzależności

Współczynnik korelacji Pearsona
Współczynnik korelacji Spearmana
Współczynnik V-Cramera

Współczynnik Pearsona

\[ \text{cor}(x,y)=\sum_{i=1}^N \frac{(x_i -\bar{x})(y_i -\bar{y})}{\sigma (x) \sigma (y) }; \]

gdzie:

\( (x_1,y_1), ..., (x_N,y_N) \)- obserwacje dwuwymiarowe
\( \bar{x}, \bar{y} \)- średnie zmiennych \( x \) i \( y \)
\( \sigma(x), \sigma(y) \)- odchylenia standardowe zmiennych \( x \) i \( y \)

Współczynnik Pearsona- interpretacja

Mierzy siłę zależności między zmiennymi liczbowymi
Przyjmuje wartości od minus jeden do jeden
Wartości bliskie zeru- brak zależności liniowej między zmiennymi
Wartości bliskie jeden lub minus jeden- duża zależność
wartości dodatnie- duże wartości jednej zmiennej występują z dużymi wartościami drugiej
wartości ujemne- duże wartości jednej zmiennej występują z małymi wartościami drugiej

Współczynnik Spearmana

\[ \rho (x,y) = \text{cor}(r_x,r_y); \]

gdzie \( r_x,r_y \) oznaczają rangi wartości \( x \) i \( y \).

Przykłady wyznaczenia rang

Dla wektora \( x=(1,3,2,0,5) \),

\[ r_x=(2,4,3,1,5). \]

Dla wektora \( y=(5,2,4,2,0) \),

\[ r_y=\left(5, \frac{5}{2}, 4, \frac{5}{2},1\right) . \]

Współczynnik Spearmana- interpretacja

Wartości jak w korelacji Pearsona
Jest niezmienny ze względu na dodatnie transformacje (np. współczynnik między zmiennymi dodatnimi jest taki sam jak między ich logarytmami)
Jako ostateczny wynik podlegający interpretacji powinien być częściej stosowany niż współczynnik Pearsona.

Współczynnik V-Cramera

\[ V-C= \sqrt{\frac{\sum_{i,j}\frac{\left( n_{ij}-\frac{ n_{i\cdot}n_{\cdot j} }{n} \right)^2 }{\frac{ n_{i\cdot}n_{\cdot j} }{n}}} {n\min(k-1,r-1)}}; \]

gdzie

\( n \)- ilość obserwacji zmiennej kategorycznej dwuwymiarowej (np. płeć i wykształcenie)
\( n_{i\cdot} \)- ilość obserwacji mających pierwszą cechę na poziomie \( i \)
\( n_{\cdot j} \)- ilość obserwacji mających drugą na poziomie \( j \)
\( n_{ij} \)- ilość obserwacji mających pierwszą cechę na poziomie \( i \) i drugą na poziomie \( j \)
\( k,r \)- liczby poziomów pierwszej i drugiej cechy

V-Cramera- interpretacja

Wartości z przedziału zero do jeden
Wartości bliskie zera- brak zależności między poziomami zmiennych
Wartości powyżej 0,25 są uznawane za wysokie i interpretuje się je jako sugestie zależności między zmiennymi
Lepiej użyć testu neizależności \( \chi ^2 \), którego interpretacja jest znacznie łatwiejsza i wnioski bardziej konkretne