퀴즈 응답

Birthday Problem

어느 날에 몇 명씩 생일이 같은가?

01월04일 2
01월14일 2
01월19일 3
02월07일 3
02월08일 2
02월13일 2
02월16일 2
02월18일 2
02월19일 3
02월23일 2
02월24일 2
03월06일 2
03월14일 2
03월23일 4
03월24일 2
04월06일 2
04월13일 2
04월15일 2
05월04일 3
05월09일 2
05월12일 3
05월21일 2
05월23일 2
06월07일 3
06월15일 2
06월19일 2
06월22일 2
06월30일 2
07월03일 2
07월05일 2
07월09일 2
07월12일 2
07월18일 2
08월06일 2
08월14일 2
08월22일 2
09월02일 2
09월17일 2
09월18일 3
09월19일 2
09월22일 2
10월16일 2
10월18일 2
10월20일 2
10월28일 2
10월30일 3
11월05일 2
11월14일 2
11월15일 3
11월16일 4
12월01일 2
12월03일 2
12월06일 2
12월18일 2
12월19일 3
12월24일 2
12월30일 2
128

생일이 같은 사람은 몇 명 정도 기대되는가?

생일이 같은 날은 모두 57 일이다. \(N\)을 전체 인원이라 할 때, 기대 인원은 \(N\times\{1- (\frac{364}{365})^{N-1}\}\), 분산은 \(N\times\{1- (\frac{364}{365})^{N-1}\} + N\times(N-1)\times\{1-(\frac{363}{365})^{N-2}\}\)로 계산된다.

무응답이거나 결석한 학생을 제외한 응답 인원 267명에 대하여 기대인원을 계산하면 138.3명, 표준오차는 11.8명으로 계산되어 관찰된 값이 그 범위에 잘 들어감을 알 수 있다.

기대되는 인원

## [1] 138.3

표준오차

## [1] 11.8

태어난 달의 분포는?

1월 2월 3월 4월 5월 6월 7월 8월 9월 10월 11월 12월
Red 11 21 10 7 11 7 8 7 14 14 9 15 134
Black 11 11 12 8 13 16 14 12 7 9 13 7 133
22 32 22 15 24 23 22 19 21 23 22 22 267

랜덤화 효과

Pearson’s Chi-squared test with simulated p-value (based on 2000 replicates): .
Test statistic df P value
17.07 NA 0.1134

월별로 고르게 출생하였는가?

Chi-squared test for given probabilities: .
Test statistic df P value
7.382 11 0.7674

Matching Problem

정답갯수의 분포

  0개 1개 2개 4개
Red 42 57 27 8 134
Black 44 61 23 5 133
86 118 50 13 267

Observed vs Expected

랜덤하게 골랐다면, 각각의 확률은 9/24, 8/24, 6/24, 1/24임. 응답인원 267명을 각 확률에 곱해보면 이론적으로 기대되는 인원이 계산됩니다. 확률분포로부터 기대하는 값과 관찰된 값이 벗어나는 것을 관찰할 수 있습니다. 인터넷 검색금지를 일부만 지킨 것 같습니다. 바로 직전 학기와 비교해 보십시요. 한 가지, 기대값과 표준편차가 다 1이라고 해서 1개 맞추는 사람들이 가장 많은 게 아닙니다.

Observed vs Expected
  0개 1개 2개 4개
Observed 86.0 118.0 50.0 13.0 267.0
Expected 100.1 89.0 66.8 11.1 267.0
Difference -14.1 29.0 -16.8 1.9 0.0

매칭 모델 카이제곱 적합도 테스트

Chi-squared test for given probabilities: .
Test statistic df P value
15.96 3 0.001155 * *

직관과 어긋나는 용어

연비

1,200 킬로미터룰 주행한다고 해 봅시다. ’가’는 120리터에서 100리터로 20리터를 절감하고, ’나’는 40리터에서 30리터 10리터를 절감하게 됩니다. 따라서 ’가’운전자가 이전보다 더 절감합니다. 연비라는 용어가 주는 직관과는 잘 맞지 않다는 것을 여러분의 응답에서 잘 알 수 있습니다. 연비 높은 차량으로 바꾸는 것이 더 절감할 것이라는 응답이 무려 60%에 가깝습니다. 악마는 디테일에 있습니다.

집계

연비 10 => 12 연비 30 => 40
Red 52 82 134
Black 41 92 133
93 174 267
Chi-squared test for given probabilities with simulated p-value (based on 20000 replicates): .
Test statistic df P value
0.003745 NA 1

% 비교.

연비 10 => 12 연비 30 => 40
34.8 65.2 100.0

Monty Hall 문제

문항 배열 효과?

Red

Black

염소가 들어있는 문을 보여줌으로써 다른 문에 자동차가 들어 있을 확률은 2/3로 늘어나므로 바꾸는 것이 적절한 판단임. Red와 Black의 차이는 “바꾼다”와 “고수한다”의 순서를 바꾼 것으로 “바꾼다”를 앞에 놓은 Black 집단에서 바꾼다는 응답이 다소 높게 나왔으나 통계적으로 유의한 수준은 아님.

집계

  고수한다 바꾼다
Red 90 44 134
Black 93 40 133
183 84 267
Pearson’s Chi-squared test with Yates’ continuity correction: .
Test statistic df P value
0.1253 1 0.7234

% 비교.

  고수한다 바꾼다
Red 67.2 32.8 100.0
Black 69.9 30.1 100.0

합산(%)

  고수한다 바꾼다
68.5 31.5 100.0