두 변수가 어떤 식으로든 관계가 있는지 파악하는 가장 간단한 방법은 두 변수의 분산에 공통점이 있는지 보는 것이다.
공분산(Covariance)개념을 이해하려면 분산 개념을 이해해야한다.
분산은 점수들이 평균과 얼마나 떨어져 있는지를 나타낸다.
x바는 표본의 평균이고 x아이는 주어진 자료점, N은 관측값들의 개수이다.
이해를 돕기 위한 예로 여러 편의 광고를 보여주고 그 다음 한 주 동안 사들인 타피 사탕 봉지의 수를 측정
두 변수에 어떤 관계가 존재한다면, 한 변수가 평균에서 벗어나는 방식은 다른 변수가 평균에서 벗어나느 방식과 같거나 그 반대 방향일 것이다.
두 변수의 편차 패턴들 사이의 유사성을 구체적인 수치로 나타내려면 어떻게 해야 할까?
편차를 합치면 양의 편차와 음의 편차가 상쇄되어버린다. 그래서 일반 변수는 이를 제곱을 해서 해소시킨다.
변수가 두개인 경우에는 각 편차를 제곱하는 대신 두 변수의 편차를 곱하는 방법이 있다.
만일 두 편차의 값이 둘 다 양수이거나 둘 다 음수이면 그 곱은 양수가 되고(두 편차가 방향이 같다는 뜻), 하나만 음수이면 곱은 음수가 된다(두 편차가 방향이 다르다는 뜻), 이렇게 한 변수의 편차를 다른 변수의 해당 편차와 곱한 것을 교차곱 편차(cross-product deviation)이라고 부른다.
각 교차곱편차들을 모두 더해 n-1로 나눠주면 이게 공분산이다.
-> 공분산이 양수 : 한 변수가 평균에서 이탈하면 다른 변수도 같은 방향으로 이탈함을 뜻함
-> 공분산이 음수 : 한 변수가 평균에서 이탈하면 다른 변수는 그와 반대 방향으로 이탈함을 뜻함.
이 상관계수의 좀 더 긴 이름은 피어슨의 곱적률 상관계수 또는 피어슨 상관계수이다. (이 상관계수는 ’칼 피어슨’이 고안했다)
표 6.1을 다시 보면, 시청한 광고 수의 표준편차는 1.67이고 구입한 사탕 봉지 수의 표준편차는 2.92이다. 이 둘을 곱하면 1.67 x 2.92 = 4.88 이다. 그리고 두 변수의 공분산은 이전에 구했듯이 4.25이다. 이를 표준편차 곱으로 나누면 r = 4.25/4.88 = .87이라는 상관계수가 나온다.
공분산을 이런 식으로 표준화하면 -1에서 +1까지의 값이 된다.
상관계수가 +1이라는 것은 두 변수의 관계가 완전한 양의 상관이라는 뜻으로 즉, 한 변수가 증가하면 다른 변수도 그에 비례하는 양만큼 증가한다.
반대로 상관계수가 -1이라는 것은 두 변수의 관계가 완전한 음의 상관이라는 뜻이다.
즉, 한 변수가 증가하면 다른 변수는 그에 비례하는 양만큼 감소한다. 그리고 상관계수가 0이면 두 변수에 아무런 선형 관계도 없다는 뜻이다. 즉, 한 변수가 변해도 다른 변수는 변하지 않는다
상관계수는 관측된 효과의 표준화된 측도이므로 효과의 크기를 측정하는 용도로도 흔히 쓰인다. 상관계수가 ±.1 이면 작은 효과. ±.3이면 중간 효과, ±.5이면 큰 효과에 해당한다.
상관은 두 종류가 있다.
이변랑 상관 : 두 변수의 상관관계를 말한다. 피어슨의 곱적률 상관계수, 스피어만, 로와 켄달의 타우도 이변량 상관계수의 예
편상관 : 하나 이상의 다른 변수들의 효과를 ‘제어’ 할 때의 두 변수의 상관관계