지수함수 그래프를 그려본다. y 값은 0보다 항상 크다.
x <- seq(-4, 4, 0.01)
y <- exp(x)
plot(x, y, type="l")
abline(h = 0, v = 0) # x, y축 그리기
로그함수 그래프를 그려본다.
x <- seq(-4, 4, 0.01)
y <- log(x)
## Warning in log(x): NaN이 생성되었습니다
plot(x, y, type="l")
abline(h = 0, v = 0) # x, y축 그리기
위의 그래프를 그릴 경우, Warning이 발생한다. 왜냐하면 x 값은 0 보다 항상 커야 한다. y = log(x) <=> exp(y) = x 와 동일하다.
따라서 지수함수에 로그를 취하면, 선형 그래프가 나온다. 자료의 분포 형태가 지수형태인지? 로그형태인지에 따라 선형으로 변환가능하고, 이렇게 변환된 선형 그래프는 자료를 분석하기 쉽게 만들어 준다.
x <- seq(-4, 4, 0.01)
y <- log(exp(x))
plot(x, y, type="l")
abline(h = 0, v = 0)
오즈비 odds ratio = p / (1-p)
이번에는 오즈비에 대한 그래프를 그려본다.
p <- seq(0, 1, 0.01)
y <- p / (1 - p)
plot(x = p, y = y, type="l")
abline(h = 0, v = 0) # x, y축 그리기
그림을 보면 지수함수 그래프와 유사하다. 확률이 1에 가까울 수록 오즈비의 값의 무한대에 가깝게 된다.
odds ratio에 log를 취하는 방식을 logit transformation 이라고 한다.
로짓변환: f(x) = ln (p/(1-p)) = logit p
logit p를 대상으로 회귀분석을 적용한 것이 로지스틱 회귀분석 logistic regression analysis 이다.
오즈비에 로그를 취한 로짓(logit) 그래프를 그려본다.
p <- seq(0, 1, 0.01)
y <- log(p / (1 - p))
plot(x = p, y = y, type="l")
abline(h = 0, v = 0) # x, y축 그리기
오즈는 확률을 표현하는 또 다른 방식이다. 예를 들어 어떤 병에 걸렸는데 살 가능성이 1이고 죽을 가능성이 5라고 하자. 즉, 1:5가 되는데, 살 가능성을 확률로 표현하면 전체 사건중에 일어날 가능성이 되므로 1/6이 되고 죽을 확률은 5/6이 된다. 오즈비로 간단히 표현하면 1/5가 된다. 둘은 같은 내용의 다른 표현이다. p = 1/6, q = 1 - p = 5/6이므로 오즈비 = p / (1-p) = (1/6) / (5/6) = 1/5 이 된다.