Test istotności dla współczynnika korelacji rang Spearmana

Kamil Bojdo

03/Feb/2021

Istota zależności funkcyjnej polega na tym, że zmiana wartości jednej zmiennej powoduje ściśle określoną zmianę wartości drugiej zmiennej. W przypadku zależności funkcyjnej : określonej wartości jednej zmiennej (X) odpowiada jedna i tylko jedna wartość drugiej zmiennej (Y).Współzależność między zmiennymi może być dwojakiego rodzaju: funkcyjna lub stochastyczna(probabilistyczna).Przy zależności stochastycznej nie ma związku deterministycznego jak przy zależności funkcyjnej.

Kiedy należy używać korelacji rang Spearmana?

Korelacja rang Spearmana jest nieparametryczną wersją korelacji Pearsona. Współczynnik korelacji Spearmana (p, również oznaczany przez rs ,rho) mierzy siłę i kierunek związku między dwiema rangowanymi zmiennymi. Współczynnik korelacji rang (Spearmana) rho używa się w przypadku gdy:

  1. Choć jedna z badanych cech jest cechą jakościową (niemierzalną), ale istnieje możliwość uporządkowania (ponumerowania) wariantów każdej z cech
  2. Cechy maja charakter ilościowy (mierzalny), ale liczebność zbiorowości jest mała (n<30).

Jakie są założenia testu?

Do przeprowadzenia testu są potrzebne dwie zmienne: mierzalne lub niemierzalne, ale dające się uporządkować. Korelacja Spearmana może być używana, gdy założenia korelacji Pearsona nie są spełnione. Jednak korelacja Spearmana określa siłę i kierunek monotonicznej relacji między dwiema zmiennymi, w przypadku korelacji Pearsona badana jest tylko zależność liniowa.

Co to jest relacja monotoniczna?

Relacja monotoniczna to relacja, w której zachodzi jedna z zależnosci:
  1. Wraz ze wzrostem wartości jednej zmiennej rośnie także wartość drugiej zmiennej;
  2. Gdy wartość jednej zmiennej wzrasta, wartość drugiej zmiennej maleje.

Przykłady zależności monotonicznych i niemonotonicznych przedstawiono na poniższym schemacie:

Dlaczego monotoniczny związek jest ważny dla korelacji Spearmana?

Korelacja Spearmana mierzy siłę i kierunek monotonicznego związku między dwiema zmiennymi. Monotoniczność jest „mniej restrykcyjna” niż zależność liniowa. Na przykład środkowy obrazek powyżej przedstawia relację, która jest monotoniczna, ale nie liniowa. Relacja monotoniczna nie jest ściśle założeniem korelacji Spearmana. Oznacza to, że można użyc korelację Spearmana na relacji niemonotonicznej, aby określić, czy występuje monotoniczny składnik związku. Tak wiec jeśli wykres rozrzutu pokazuje, że zależność między dwiema zmiennymi wygląda na monotoniczny, należy skorzystać z korelacji Spearmana, ponieważ będzie to mierzyć siłę i kierunek tej monotonicznej zależności. Z drugiej strony, jeśli na przykład zależność wydaje się być liniowa (oceniana za pomocą wykresu rozrzutu), należy przeprowadzić korelację Pearsona, ponieważ będzie ona mierzyć siłę i kierunek dowolnej zależności liniowej (i jest lepsza, o ile możemy ją stosować)

Jaka jest definicja korelacji rang Spearmana?

Korelacja rang sortuje obserwacje według rang i oblicza poziom podobieństwa między rangą. Korelacja rang ma tę zaletę, że jest odporna na wartości odstające i nie jest powiązana z rozkładem danych. Korelacja rang Spearmana zawsze mieści się w zakresie od -1 do 1, a wartość bliska skrajności wskazuje na silny związek. Istnieją dwie metody obliczania korelacji Spearmana w zależności od tego, czy:
  1. Dane nie mają powiązanych rang,
  2. Dane mają powiązane rangi.

  Wzór przy braku równych rang jest następujący:

\[ rho= 1-\frac{\mathrm{6 \sum {d_i^2} } }{\mathrm{n}( n^2-1)} \] gdzie di = różnica w parowanych rangach, a n = liczebność próby.

Wzór do użycia w przypadku rangi powiązanych to:

\[ rho=\frac{\sum i(x_{i}-\tilde{x})(y_{i}-\tilde{y})}{\sqrt{\sum_i(x_{i}-\tilde{x})^2\sum_i(y_{i}-\tilde{y})^2}} \] gdzie i = wynik w parze.

Przykład:

 

Jakie wartości może przyjąć współczynnik korelacji Spearmana rho ?

Współczynnik korelacji Spearmana, rho , może przyjmować wartości od -1 do 1. Rho= 1 wskazuje silny związek między badanymi zmiennymi, a rho= 0 wskazuje na brak związku między badanymi zmiennymi.Korelacja to wielkość efektu, więc możemy opisać siłę korelacji, korzystając z poniższych przedziałów dla wyliczonej wartości:

  1. 0.00-0.19 „bardzo słaby”
  2. 0.20-0.39 „słaby”
  3. 0.40-.0.59 „umiarkowany”
  4. 0.60-0.79 „silny”
  5. 0.80–1 „bardzo mocny”

Jak wyrazić hipotezę zerową dla tego testu?

Ogólna postać hipotezy zerowej dla korelacji Spearmana to:

H0 : Nie ma monotonicznego związku między dwiema zmiennymi w populacji

Hipoteza alternatywna:

Ha : Istnieje korelacja monotoniczna miedzy dwiema zmiennymi w populacji

Równoważnie:

\[ rho=\frac{\sum i(x_{i}-\tilde{x})(y_{i}-\tilde{y})}{\sqrt{\sum_i(x_{i}-\tilde{x})^2\sum_i(y_{i}-\tilde{y})^2}} \]

H0 : rho = 0

Ha : rho ≠ 0

Test Spearmana

Argumenty:

x, y- numeryczne wektory wartości danych. x i y musi mieć taką samą długość.

alternative - oznacza alternatywne hipotezy i może być “two.sided” - niezerowa, “greater”- większa od zera (tj. dodatnia korelacja) lub “less”- mniej niż zero (tj. korelacja ujemna).

method- ciąg znaków wskazujący, który współczynnik korelacji ma być użyty w teście. Jeden z “pearson”, “kendall”lub “spearman”

exact - logika wskazująca, czy należy obliczyć dokładną wartość p. NULL(ustawienie domyślne).

conf.level -poziom istotności dla zwróconego przedziału ufności. obserwacji.

continuity - logiczne: jeśli prawda, korekta ciągłości jest używana dla Kendalla i Spearmana kiedy wartość p nie jest dokładnie obliczona.

Wynik

W wynikach testu korelacji Spearmana zwraca się kilka parametrów:

data - dwie zmienne w teście

S - statystyka s

p- value - p dla testu korelacji Spearmana

alternative hypothesis- opis hipotezy alternatywnej

rho - współczynnik korelacji Spearmana

Patrząc na przykładowy wynik, współczynnik korelacji Spearmana wynosi -0,89

Ponieważ wartość współczynnika jest ujemna, oznacza to, że istnieje ujemna korelacja między zmiennymi MPG a HP. Innymi słowy, wraz ze wzrostem MPG spada HP Wartość p wynosi 0,000000000005086 (5,086 x 10-12 ). Ponieważ ta wartość p jest poniżej poziomu alfa (0,05), należy odrzuci hipotezę zerową i zaakceptowac hipotezę alternatywną. Innymi słowy, istnieje znacząca(bardzo mocna)-ujemna korelacja między MPG a HP.

Wyznaczenie wspólczynnika rang Spearmana dla kosztów budowy elektrowni atomowych wyrażonych w 100000$ oraz ich mocy w MW

Źródło: Cox, D,R,, and Snell, E,J, (1981), Applied Statistics, 82
Źródło: Cox, D,R,, and Snell, E,J, (1981), Applied Statistics, 82

library(readxl)
dane <- read_excel("C:/Users/User/Desktop/dane.xlsx")
View(dane)
summary(dane)
##  Cost in $100,000     MWatts      
##  Min.   :207.5    Min.   : 457.0  
##  1st Qu.:383.4    1st Qu.: 730.5  
##  Median :458.6    Median : 821.5  
##  Mean   :489.9    Mean   : 821.8  
##  3rd Qu.:626.6    3rd Qu.:1050.0  
##  Max.   :881.2    Max.   :1130.0
head(dane)
## # A tibble: 6 x 2
##   `Cost in $100,000` MWatts
##                <dbl>  <dbl>
## 1               345.    514
## 2               460.    687
## 3               453.   1065
## 4               443.   1065
## 5               652.   1065
## 6               642.   1065
plot(dane$`Cost in $100,000`,dane$MWatts,xlab="Cost in $100,000", ylab="MWatts",pch = 15, col = "red")

Interpretacja wyników

cor.test(dane$`Cost in $100,000`,dane$MWatts,method="spearman")
## Warning in cor.test.default(dane$`Cost in $100,000`, dane$MWatts, method =
## "spearman"): Cannot compute exact p-value with ties
## 
##  Spearman's rank correlation rho
## 
## data:  dane$`Cost in $100,000` and dane$MWatts
## S = 1533.9, p-value = 0.00121
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##      rho 
## 0.580204

 

Współczynnik korelacji Spearmana wynosi 0,580204 Ponieważ wartość współczynnika jest dodatnia, oznacza to, że istnieje dodatnia korelacja między zmiennymi Cost in $100,000 a MWatts. Innymi słowy, wraz ze wzrostem Cost in $100,000 wzrasta MWatts Wartość p wynosi 0,00121. Przeprowadzony test wskazuje, że jest on istotnie różny od 0. Ponieważ wartość p jest poniżej poziomu alfa (0,05), należy odrzucić hipotezę zerową i zaakceptować hipotezę alternatywną. Innymi słowy, istnieje umiarkowana - dodatnia korelacja między zmiennymi Cost in $100,000 a MWatts