Kamil Bojdo
03/Feb/2021
Istota zależności funkcyjnej polega na tym, że zmiana wartości jednej zmiennej powoduje ściśle określoną zmianę wartości drugiej zmiennej. W przypadku zależności funkcyjnej : określonej wartości jednej zmiennej (X) odpowiada jedna i tylko jedna wartość drugiej zmiennej (Y).Współzależność między zmiennymi może być dwojakiego rodzaju: funkcyjna lub stochastyczna(probabilistyczna).Przy zależności stochastycznej nie ma związku deterministycznego jak przy zależności funkcyjnej.
Korelacja rang Spearmana jest nieparametryczną wersją korelacji Pearsona. Współczynnik korelacji Spearmana (p, również oznaczany przez rs ,rho) mierzy siłę i kierunek związku między dwiema rangowanymi zmiennymi. Współczynnik korelacji rang (Spearmana) rho używa się w przypadku gdy:
Do przeprowadzenia testu są potrzebne dwie zmienne: mierzalne lub niemierzalne, ale dające się uporządkować. Korelacja Spearmana może być używana, gdy założenia korelacji Pearsona nie są spełnione. Jednak korelacja Spearmana określa siłę i kierunek monotonicznej relacji między dwiema zmiennymi, w przypadku korelacji Pearsona badana jest tylko zależność liniowa.
Przykłady zależności monotonicznych i niemonotonicznych przedstawiono na poniższym schemacie:
Korelacja Spearmana mierzy siłę i kierunek monotonicznego związku między dwiema zmiennymi. Monotoniczność jest „mniej restrykcyjna” niż zależność liniowa. Na przykład środkowy obrazek powyżej przedstawia relację, która jest monotoniczna, ale nie liniowa. Relacja monotoniczna nie jest ściśle założeniem korelacji Spearmana. Oznacza to, że można użyc korelację Spearmana na relacji niemonotonicznej, aby określić, czy występuje monotoniczny składnik związku. Tak wiec jeśli wykres rozrzutu pokazuje, że zależność między dwiema zmiennymi wygląda na monotoniczny, należy skorzystać z korelacji Spearmana, ponieważ będzie to mierzyć siłę i kierunek tej monotonicznej zależności. Z drugiej strony, jeśli na przykład zależność wydaje się być liniowa (oceniana za pomocą wykresu rozrzutu), należy przeprowadzić korelację Pearsona, ponieważ będzie ona mierzyć siłę i kierunek dowolnej zależności liniowej (i jest lepsza, o ile możemy ją stosować)
Wzór przy braku równych rang jest następujący:
\[ rho= 1-\frac{\mathrm{6 \sum {d_i^2} } }{\mathrm{n}( n^2-1)} \] gdzie di = różnica w parowanych rangach, a n = liczebność próby.
Wzór do użycia w przypadku rangi powiązanych to:
\[ rho=\frac{\sum i(x_{i}-\tilde{x})(y_{i}-\tilde{y})}{\sqrt{\sum_i(x_{i}-\tilde{x})^2\sum_i(y_{i}-\tilde{y})^2}} \] gdzie i = wynik w parze.
Przykład:
Współczynnik korelacji Spearmana, rho , może przyjmować wartości od -1 do 1. Rho= 1 wskazuje silny związek między badanymi zmiennymi, a rho= 0 wskazuje na brak związku między badanymi zmiennymi.Korelacja to wielkość efektu, więc możemy opisać siłę korelacji, korzystając z poniższych przedziałów dla wyliczonej wartości:
Ogólna postać hipotezy zerowej dla korelacji Spearmana to:
H0 : Nie ma monotonicznego związku między dwiema zmiennymi w populacji
Hipoteza alternatywna:
Ha : Istnieje korelacja monotoniczna miedzy dwiema zmiennymi w populacji
Równoważnie:
\[ rho=\frac{\sum i(x_{i}-\tilde{x})(y_{i}-\tilde{y})}{\sqrt{\sum_i(x_{i}-\tilde{x})^2\sum_i(y_{i}-\tilde{y})^2}} \]
H0 : rho = 0
Ha : rho ≠ 0
Argumenty:
x, y- numeryczne wektory wartości danych. x i y musi mieć taką samą długość.
alternative - oznacza alternatywne hipotezy i może być “two.sided” - niezerowa, “greater”- większa od zera (tj. dodatnia korelacja) lub “less”- mniej niż zero (tj. korelacja ujemna).
method- ciąg znaków wskazujący, który współczynnik korelacji ma być użyty w teście. Jeden z “pearson”, “kendall”lub “spearman”
exact - logika wskazująca, czy należy obliczyć dokładną wartość p. NULL(ustawienie domyślne).
conf.level -poziom istotności dla zwróconego przedziału ufności. obserwacji.
continuity - logiczne: jeśli prawda, korekta ciągłości jest używana dla Kendalla i Spearmana kiedy wartość p nie jest dokładnie obliczona.
W wynikach testu korelacji Spearmana zwraca się kilka parametrów:
data - dwie zmienne w teście
S - statystyka s
p- value - p dla testu korelacji Spearmana
alternative hypothesis- opis hipotezy alternatywnej
rho - współczynnik korelacji Spearmana
Patrząc na przykładowy wynik, współczynnik korelacji Spearmana wynosi -0,89
Ponieważ wartość współczynnika jest ujemna, oznacza to, że istnieje ujemna korelacja między zmiennymi MPG a HP. Innymi słowy, wraz ze wzrostem MPG spada HP Wartość p wynosi 0,000000000005086 (5,086 x 10-12 ). Ponieważ ta wartość p jest poniżej poziomu alfa (0,05), należy odrzuci hipotezę zerową i zaakceptowac hipotezę alternatywną. Innymi słowy, istnieje znacząca(bardzo mocna)-ujemna korelacja między MPG a HP.
## Cost in $100,000 MWatts
## Min. :207.5 Min. : 457.0
## 1st Qu.:383.4 1st Qu.: 730.5
## Median :458.6 Median : 821.5
## Mean :489.9 Mean : 821.8
## 3rd Qu.:626.6 3rd Qu.:1050.0
## Max. :881.2 Max. :1130.0
## # A tibble: 6 x 2
## `Cost in $100,000` MWatts
## <dbl> <dbl>
## 1 345. 514
## 2 460. 687
## 3 453. 1065
## 4 443. 1065
## 5 652. 1065
## 6 642. 1065
plot(dane$`Cost in $100,000`,dane$MWatts,xlab="Cost in $100,000", ylab="MWatts",pch = 15, col = "red")## Warning in cor.test.default(dane$`Cost in $100,000`, dane$MWatts, method =
## "spearman"): Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: dane$`Cost in $100,000` and dane$MWatts
## S = 1533.9, p-value = 0.00121
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.580204
Współczynnik korelacji Spearmana wynosi 0,580204 Ponieważ wartość współczynnika jest dodatnia, oznacza to, że istnieje dodatnia korelacja między zmiennymi Cost in $100,000 a MWatts. Innymi słowy, wraz ze wzrostem Cost in $100,000 wzrasta MWatts Wartość p wynosi 0,00121. Przeprowadzony test wskazuje, że jest on istotnie różny od 0. Ponieważ wartość p jest poniżej poziomu alfa (0,05), należy odrzucić hipotezę zerową i zaakceptować hipotezę alternatywną. Innymi słowy, istnieje umiarkowana - dodatnia korelacja między zmiennymi Cost in $100,000 a MWatts