2020 8 19

주사위를 굴려봅시다.

주사위를 12번 굴리면 어떤 결과가 나올까요?

위와 같이 각 눈이 2번씩이 아니어도 이 결과를 받아드릴 수 있습니까?

이제 120,000번을 굴려보겠습니다.

전통적인 통계적 확률은 무수히 많은 실험 속에 관찰되는 횟수가 어떤 값으로 수렴하는지를 나타냅니다. 우리는 주사위를 굴리기 전에 각 눈이 나올 확률은 모두 동일하다는 것을 인정하고 적은 횟수의 주사위 굴리기를 실행했을 때 그 수가 일정하지 않더라도 자연스럽게 그 결과를 받아드립니다.

조금은 이상한 주사위를 굴려봅시다.

그런데, 만일 주사위가 1의 면적이 넓은 주사위라면 어떨 까요? 다음 장의 도표는 1의 눈이 나올 확률을 다른 눈이 나오는 경우보다 5배 높은 주사위를 굴린 결과입니다. (120,000번 굴렸어요)

미리 마음 속에 어떤 결과가 나올지 한번 생각해 볼까요?

1의 눈 면적이 넓은 주사위

만일 주사위의 상태를 모른다면?

만일 우리가 주사위의 상태를 모른다면 어떨까요? 다음 도표는 36번을 굴린 주사위의 결과를 시각화 한 것입니다.

표본을 통한 관측

앞선 도표는 주사위 굴리기를 36번을 실시한 즉, 표본추출을 36번 실시한 결과로 볼 수 있습니다. 이로부터 우리는 주사위의 원래 눈이 어떤 확률을 갖는지 추측해 볼 수 있습니다.

먼저 다음과 같이 원래 주사위 눈이 나올 확률(모집단 상태)에 대한 추측을 합니다.

  • 주사위의 각 눈이 나올 확률은 동일하다.
  • 주사위의 각 눈이 나올 확률은 동일하지 않다.

현재 각 눈이 어떻게 될지는 모르지만, 위의 두 가지 상태 중 어떤 상태가 맞을 것인지 추정할 수 있습니다. 이런 방법이 바로 통계적 가설검정 입니다.

앞서 세운 모집단 상태에 대한 두 가지 추측을 각각 영가설과 대안가설이라고 하며, 이 두 가지 가설 중 무엇을 선택할지는 표본을 통해 관찰한 값으로 결정합니다.

가설검정

앞서와 같이 가설을 검정하였다면, 표본을 통해 관찰되는 값을 특정한 함수식에 넣습니다.

함수식은 우선 영가설이 맞다는 가정하에 작성되어 있으며, 통계에서는 이를 검정통계량 이라고 합니다.

이 경우의 검정통계량은 다음과 같습니다.

\[ T ~ = ~\frac{ {(O_{i} - E_{i}) }^{2}}{E_{i}}~~ \sim ~~ \chi^{2}_{c-1}\]

  • 어려우니 아… 이런게 있구나 하셔도 됩니다.
  • 이는 표본으로 관찰된 값(\(t\))의 확률(\(P(T > |t|)\))을 구하고, 여기서 나온 확률을 이용하여 영가설하에서 일어날 수 있는 것인지를 판단합니다. (이를 유의확률 이라 부르고 \(p-value\)라고 표기합니다)
  • 판단의 기준을 위해 사용하는 확률이 있으며, 통계용어로 유의수준이라 부르고 기호로 \(\alpha\)로 나타냅니다.

판정

  • 유의확률이 유의수준보다 크면, 영가설 채택
  • 유의확률이 유의수준보다 작으면, 영가설 기각 즉 대안가설 채택을 합니다.

통계계산

1 2 3 4 5 6
관찰빈도 9.0 6 10.000000 6 1.000000 4.0000000 36
기대빈도 6.0 6 6.000000 6 6.000000 6.0000000 36
차이 9.0 0 16.000000 0 25.000000 4.0000000 54
검정통계량 1.5 0 2.666667 0 4.166667 0.6666667 9

검정통계량은 9이고 이 때의 유의확률은 0.1090642 으로 대부분 많이 사용하는 유의수준 0.05보다 크므로 우리는 영가설, 즉 주사위의 각 눈이 나올 확률은 동일하다는 결론을 얻을 수 있습니다.

엑셀에서 어떻게 구하는지 함께 살펴봅시다.