베이즈 정리와 집단 지성의 원리

김재광

2/20/2020

결정론적 세계관

상태 결과
콩 심음 콩 나옴
팥 심음 팥 나옴
—— ————-
착한 사람 착한 행동
나쁜 사람 나쁜 행동

확률론적 세계관

상태 (가설) 결과 (관측) 확률
유방암 있음 양성 0.8
유방암 있음 음성 0.2
———- —————- ——-
유방암 없음 양성 0.1
유방암 없음 음성 0.9

베이즈 정리

  • 확률이란 상태에 대한 믿음을 숫자로 나타낸 것
  • 그 확률은 관측을 통해서 업데이트 됨

\[ P( C \mid D) = \frac{ P(D \mid C) P(C)}{P(D \mid C) P(C) + P(D \mid \mbox{not } C) \{1- P(C)\} } \]

  • 관측 이전의 확률: 사전 확률 \(P(C)\)
  • 관측 이후의 확률: 사후 확률 \(P(C \mid D)\)

사례 (유방암 검사 )

검사 결과 유방암 있음 (1%) 유방암 없음 (99%)
양성 1% * 80% 99%* 10%
음성 1%*20% 99%* 90%
———- ————— ———-

테스트 결과가 양성인 경우 실제로 유방암 환자일 확률은?

사례 (유방암 검사 )

10,000명 단위로 생각해 보면 다음과 같다.

검사 결과 유방암 있음 (100) 유방암 없음 (9900)
양성 80 990
음성 20 8910
———- ————— ———-

사후확률은 \(80/(89+990)=0.0748\) 이다.

추가 설명

  • 사후확률은 오즈(odds)로도 설명할수 있다. \[ \frac{ P( C=1 \mid T= +) }{ P ( C=0 \mid T=+) } = \frac{ P(T=+ \mid C=1) }{ P ( T=+ \mid C=0)} \times \frac{ P( C=1)}{ P (C=0) } . \]

  • 즉, “사후 오즈 (Posterior odds) = 증거 기반 조정값 (evidence adjustment)* 사전 오즈 (Prior Odds)”로 표현 된다.

  • 위의 예제에서 증거기반 조정값은 \((0.8/0.1=8)\) 로서 높지만 사전 오즈값이 매우 낮기에 \((1/99)\), 사후 오즈 값이 여전히 낮은 편에 해당된다.

심화학습

만약 이 환자가 첫번째 테스트 결과에서 양성이 나온 후에 상심하여 다른 병원에서 테스트를 또 받았다고 한다. 이때 두번째 테스트에서도 양성이 나왔다면 이 환자가 진짜 유방암 환자일 확률은 어떻게 되는가?

풀이

    1. 사후 오즈를 계산한다. \[ 8*8*(1/99)=0.6465 \]
    1. 사후 확률: \[ \frac{0.6465}{1+ 0.6465} =0.39 \]

집단 지성

  • 가장 뛰어난 사람 (천재)이 판단하는 것이랑 민주주의를 통해 다수결로 결정하는 것이랑 어떤게 더 나은 판단을 가져올까?

  • 천재의 판단력

상태 (C) 판단 (D) 확률
Y Y 0.9
Y N 0.1
N N 0.9
N Y 0.1

\[ P( C=Y \mid D= Y ) = \frac{ 0.9 P(C=Y)}{0.9 P(C=Y) + 0.1 P(C=N) } \]

따라서 \(P(Y)=P(N)=0.5\)라고 하면 이 천재가 올바른 판단을 내릴 확률은 0.9 가 된다.

다수결에서의 사후 확률

  • 일반인의 판단력
상태 (C) 판단 (D) 확률
Y Y p=0.6
Y N 1-p= 0.4
N N p= 0.6
N Y 1-p 0.4
  • 다수결 하에서의 판단력 (\(N\)명)

\[ P( D=Y \mid C=Y) = \sum_{x \ge [N/2]}^N { N \choose x} p^x (1-p)^{n-x} \]

사후 확률 계산 (N=10)

bpro <-function(n,x,p){ 
  bpro<-choose(n,x)*(p^x)*((1-p)^(n-x))
 return(bpro)
}


n <- 10
p <- 0.6
x <- seq(n,n/2+1, -1)
prod <- sum(bpro(n,x,p))/(sum(bpro(n,x,p))+sum(bpro(n,x,1-p)) )
prod 
## [1] 0.7920306

사후 확률 계산 (N=20)

n <- 20
p <- 0.6
x <- seq(n,n/2+1, -1)
prod <- sum(bpro(n,x,p))/(sum(bpro(n,x,p))+sum(bpro(n,x,1-p)) )
prod 
## [1] 0.8555587

사후 확률 계산 (N=100)

n <- 100
p <- 0.6
x <- seq(n,n/2+1, -1)
prod <- sum(bpro(n,x,p))/(sum(bpro(n,x,p))+sum(bpro(n,x,1-p)) )
prod 
## [1] 0.9830632

집단 지성의 두가지 전제

  1. 개인들의 판단력이 평균 0.5 이상이어야 한다.

  2. 독립적인 판단이 가능해야 함