Miary współzależności

Artur Machno
24.10.2015

Omawiane miary współzależności

  • Współczynnik korelacji Pearsona
  • Współczynnik korelacji Spearmana
  • Współczynnik V-Cramera

Współczynnik Pearsona

\[ \text{cor}(x,y)=\sum_{i=1}^N \frac{(x_i -\bar{x})(y_i -\bar{y})}{\sigma (x) \sigma (y) }; \]

gdzie:

  • \( (x_1,y_1), ..., (x_N,y_N) \)- obserwacje dwuwymiarowe
  • \( \bar{x}, \bar{y} \)- średnie zmiennych \( x \) i \( y \)
  • \( \sigma(x), \sigma(y) \)- odchylenia standardowe zmiennych \( x \) i \( y \)

Współczynnik Pearsona- interpretacja

  • Mierzy siłę zależności między zmiennymi liczbowymi
  • Przyjmuje wartości od minus jeden do jeden
  • Wartości bliskie zeru- brak zależności liniowej między zmiennymi
  • Wartości bliskie jeden lub minus jeden- duża zależność
  • wartości dodatnie- duże wartości jednej zmiennej występują z dużymi wartościami drugiej
  • wartości ujemne- duże wartości jednej zmiennej występują z małymi wartościami drugiej

Współczynnik Spearmana

\[ \rho (x,y) = \text{cor}(r_x,r_y); \]

gdzie \( r_x,r_y \) oznaczają rangi wartości \( x \) i \( y \).

Przykłady wyznaczenia rang

Dla wektora \( x=(1,3,2,0,5) \),

\[ r_x=(2,4,3,1,5). \]

Dla wektora \( y=(5,2,4,2,0) \),

\[ r_y=\left(5, \frac{5}{2}, 4, \frac{5}{2},1\right) . \]

Współczynnik Spearmana- interpretacja

  • Wartości jak w korelacji Pearsona
  • Jest niezmienny ze względu na dodatnie transformacje (np. współczynnik między zmiennymi dodatnimi jest taki sam jak między ich logarytmami)
  • Jako ostateczny wynik podlegający interpretacji powinien być częściej stosowany niż współczynnik Pearsona.

Współczynnik V-Cramera

\[ V-C= \sqrt{\frac{\sum_{i,j}\frac{\left( n_{ij}-\frac{ n_{i\cdot}n_{\cdot j} }{n} \right)^2 }{\frac{ n_{i\cdot}n_{\cdot j} }{n}}} {n\min(k-1,r-1)}}; \]

gdzie

  • \( n \)- ilość obserwacji zmiennej kategorycznej dwuwymiarowej (np. płeć i wykształcenie)
  • \( n_{i\cdot} \)- ilość obserwacji mających pierwszą cechę na poziomie \( i \)
  • \( n_{\cdot j} \)- ilość obserwacji mających drugą na poziomie \( j \)
  • \( n_{ij} \)- ilość obserwacji mających pierwszą cechę na poziomie \( i \) i drugą na poziomie \( j \)
  • \( k,r \)- liczby poziomów pierwszej i drugiej cechy

V-Cramera- interpretacja

  • Wartości z przedziału zero do jeden
  • Wartości bliskie zera- brak zależności między poziomami zmiennych
  • Wartości powyżej 0,25 są uznawane za wysokie i interpretuje się je jako sugestie zależności między zmiennymi
  • Lepiej użyć testu neizależności \( \chi ^2 \), którego interpretacja jest znacznie łatwiejsza i wnioski bardziej konkretne