13주차 데이터 실험 집계

실험의 목적

13주차 구글 예습 설문지 집계결과를 분석합니다.

Q1에서는 잘 알려진 생일 문제를 수강생들에게 적용하여 보았습니다.

상당히 많은 인원이기 때문에 한쌍 이상의 생일이 같을 확률은 당연히 1이고 생일이 같은 사람이 얼마나 되는 지 알아보겠습니다.

이론적으로 기대되는 인원과 표준오차를 계산하여 실제 관찰된 인원과 비교 합니다.

생일의 월별분포에 대해서도 분석합니다.

Q2에서는 맷칭문제의 사례로 가수와 노래를 짝짓는 문제를 살펴봅니다.

랜덤하게 고르도록 하였는데 왜 이론적으로 기대하는 분포와 다른 결과가 나오는 것인지 생각해 봅니다.

Q3에서는 연비라는 용어가 직관적으로 주는 오류에 대해서 알아 봅니다.

연비가 높은 차를 연비가 좀 더 높은 차로 바꾸는 것과 연비가 낮은 차를 연비가 좀 더 높은 차로 바꾸는 것 중에서 어떤 선택이 좀더 연료비를 절감할 수 있는 지 알아 봅니다.

Q4에서는 잘 알려진 Monty Hall 문제를 수강생들에게 물어 본 결과를 분석합니다.

Red 와 Black 은 “고수한다”와 “바꾼다”의 순서를 바꿔 보았는데 그 효과는 통계적으로 유의한 차이를 보이지 않습니다.

그리고 여러분들이 직관적으로 고른 답은 대부분 정답이 아닌 것으로 드러납니다.

Red, Black을 잘못 표시한 사람들

	Red(구글예습퀴즈)	Black(구글예습퀴즈)
Red(랜덤화출석부)	354	3
Black(랜덤화출석부)	1	360
계	355	363

랜덤화출석부에 있는 Red, Black 과 실제 구글설문에 올린 Red, Black 이 다른 사람들의 수효는 4명입니다.

Red를 Black 이라고 한 사람이 3명, Black 을 Red 라고 한 사람이 1명입니다.

두 가지 방법으로 분석합니다.

우선 Red, Black 을 잘못 선택한 4명을 랜덤하게 둘로 나누면 어느 한 쪽 집단에 들어갈 기대인원은 4명을 둘로 나눈 2(명)이고, 표준오차는 4의 제곱근에 1/2을 곱해 준 1명이 됩니다.

실제로 Red를 Black 이라고 한 사람수, 3명이나 Black 을 Red 라고 한 사람수, 1명은 기대인원으로부터 표준오차 범위에 아주 잘 들어갑니다.

두 번째 분석 방법은 확률을 계산해 보는 것입니다.

Red, Black 을 잘못 선택한 4명을 랜덤하게 둘로 나눌 때, 실제로 관찰된 3명 이상이나 1명이하로 잘못 선택한 사람수가 나올 가능성은 얼마나 되는가 입니다.

이 경우 공평한 동전던지기를 확률 법칙으로 표현한 이항분포로부터 계산할 수 있습니다.

시행횟수가 4이고 한 번 시행에서 성공확률이 1/2 인 이항분포에서 성공횟수가 1이하이거나 3이상을 관찰할 확률은 0.625입니다.

공평한 동전 던지기에서 앞면이 1개 이하 나오는 확률은 3개 이상 나오는 확률과 같기 때문에 사실상 한쪽만 계산해서 2배 해 주면 됩니다.

다만, 이번 실험과 같이 3명씩 동일한 결과가 나온 경우에는 중복되는 확률을 빼 주어야 합니다.

이 값을 p-value 라고 하는데, p-value가 0.05보다 작을 때 통계적으로 유의한 차이를 관찰하였다고 말합니다.

즉, 공평한 동전을 던지는 것과 같은 과정이라고 가정하였을 때 실제로 관찰된 값들이 가정으로부터 얼마나 떨어져 있는지를 표현한 것입니다.

0.05는 이런 실험을 스무 번 정도 반복하면 1번 나올 정도로 드문 사건을 의미합니다.

즉 가정이 잘못되었다는 것입니다.

그런데 Red, Black 을 잘못 표시한 사람들의 분포에서 관찰된 p-value 는 0.05와는 비교도 안될 정도로 큰 값입니다.

따라서 두 집단이 랜덤화 효과가 작동하여 통계적으로 유의한 차이를 보이지 않는다고 할 수 있습니다.

응답인원의 Red, Black

Red 로 응답한 인원은 355명, Black 에 응답한 인원은 363명입니다.

전체 응답인원 718 명을 랜덤하게 둘로 나눌 때 어느 한 쪽의 기대인원은 전체 응답인원의 절반인 359명이고, 표준오차는 전체 응답인원의 제곱근에 1/2을 곱해 준 13.4 명입니다.

따라서 Red, Black 각 그룹에 관찰된 인원은 기대인원으로부터 표준오차 범위 안에 들어갑니다.

Q1. Birthday Problem

Q1은 생일 문제라고 잘 알려져 있습니다.

23명만 모여 있어도 생일이 같은 사람이 한쌍 이상 있을 확률이 1/2을 넘어갑니다.

다음 그림은 1에서 365의 숫자 중 x-축에 나온 숫자 만큼 랜덤하게 뽑아서 (복원 추출) 같은 숫자가 있는지 여부를 백만번씩 돌려서 나온 결과들입니다.

23명을 뽑았을 때 백만번 중에 50만7천8백번 같은 숫자가 나왔다는 뜻입니다.

큰수의 법칙에 따라서 그 비율은 23명 중에 생일이 같은 사람이 최소한 한 쌍 있을 확률로 수렴해 갑니다.

다음은 집계결과로부터 어느 날짜에 몇 명의 생일이 같은지 순서대로 정리한 것입니다.

가끔 이 결과를 보고 “나도 제출했는데 내 생일이 빠졌다”고 의문을 제기하는 사람들이 있습니다만 그 사람과 생일 같은 사람이 없는 것 뿐입니다.

집계가 진행되면서 당연히도 생일 같은 사람들의 수효는 늘어나게 마련입니다.

그럼에도 그 인원은 이론적으로 계산한 기대인원과 표준오차 범위에 거의 들어가는 것을 관찰할 수 있습니다.

보고서의 맨 위에 집계 시점이 나옵니다.

시간 경과에 따라 생일이 같은 사람의 수효가 늘어나는 것과 그 수효가 이론적으로 에측한 범위에 들어가는지 살펴보기 바랍니다.

어느 날에 몇 명씩 생일이 같은가?

01월01일	2
01월03일	4
01월04일	3
01월05일	5
01월06일	5
01월08일	4
01월09일	3
01월10일	4
01월16일	3
01월19일	2
01월20일	2
01월21일	2
01월22일	4
01월23일	4
01월24일	3
01월30일	2
01월31일	2
02월01일	4
02월03일	3
02월04일	3
02월05일	2
02월06일	2
02월07일	5
02월08일	3
02월09일	3
02월10일	2
02월11일	2
02월12일	4
02월16일	3
02월18일	2
02월19일	2
02월20일	5
02월21일	3
02월22일	2
02월23일	3
03월01일	2
03월03일	2
03월04일	4
03월05일	2
03월06일	4
03월08일	2
03월10일	2
03월12일	3
03월15일	4
03월16일	2
03월17일	2
03월18일	3
03월19일	7
03월20일	2
03월21일	2
03월22일	5
03월23일	3
03월24일	3
03월25일	2
03월27일	2
03월30일	3
04월02일	2
04월04일	4
04월05일	2
04월06일	4
04월07일	3
04월08일	2
04월10일	3
04월13일	2
04월14일	2
04월17일	5
04월19일	4
04월20일	2
04월21일	6
04월22일	2
04월23일	3
04월24일	2
04월27일	2
04월28일	5
04월29일	4
04월30일	2
05월03일	2
05월06일	3
05월07일	3
05월08일	2
05월09일	2
05월10일	2
05월15일	2
05월16일	3
05월17일	2
05월18일	3
05월21일	2
05월23일	3
05월24일	3
05월26일	2
05월28일	2
05월30일	5
06월03일	3
06월04일	3
06월06일	2
06월07일	4
06월10일	2
06월11일	4
06월13일	2
06월14일	3
06월15일	4
06월16일	3
06월17일	2
06월18일	2
06월19일	3
06월21일	2
06월22일	2
06월25일	2
06월26일	2
06월27일	4
06월28일	2
06월29일	2
06월30일	2
07월04일	2
07월05일	4
07월06일	2
07월07일	4
07월09일	3
07월10일	3
07월11일	3
07월13일	3
07월16일	2
07월17일	4
07월18일	2
07월23일	2
07월25일	2
07월26일	5
07월27일	2
07월30일	2
08월02일	3
08월04일	2
08월05일	2
08월07일	2
08월08일	2
08월09일	2
08월10일	2
08월11일	2
08월12일	3
08월13일	3
08월15일	3
08월16일	2
08월18일	3
08월19일	3
08월23일	3
08월24일	2
08월26일	3
08월27일	4
08월30일	4
08월31일	4
09월01일	3
09월02일	3
09월06일	2
09월09일	3
09월10일	3
09월13일	3
09월15일	3
09월16일	3
09월17일	2
09월20일	5
09월23일	7
09월26일	2
10월03일	2
10월05일	3
10월06일	4
10월07일	2
10월09일	2
10월10일	4
10월11일	2
10월12일	5
10월13일	3
10월14일	2
10월16일	2
10월19일	3
10월20일	2
10월21일	2
10월26일	4
10월27일	2
10월28일	2
10월29일	2
10월30일	3
11월01일	2
11월02일	4
11월04일	4
11월06일	2
11월07일	4
11월08일	2
11월11일	3
11월12일	4
11월13일	2
11월14일	4
11월15일	2
11월17일	3
11월18일	3
11월20일	2
11월21일	3
11월24일	3
11월25일	4
11월27일	3
11월28일	3
11월30일	4
12월02일	3
12월03일	2
12월06일	3
12월07일	4
12월10일	2
12월11일	3
12월12일	3
12월14일	3
12월15일	4
12월18일	3
12월20일	3
12월21일	2
12월22일	3
12월26일	3
12월27일	2
12월28일	2
12월30일	2
계	622

생일이 같은 사람은 몇 명 정도 기대되는가?

전체 응답인원 719(명) 중에 생일이 같은 사람은 622(명)이고 생일이 같은 날은 217(일)입니다.

\(N\)을 전체 인원이라 할 때, 기대 인원은 \(N\times\{1- (\frac{364}{365})^{N-1}\}\), 분산은 \(N\times\{1- (\frac{364}{365})^{N-1}\} + N\times(N-1)\times\{1-(\frac{363}{365})^{N-2}\}\)로 계산됩니다.

무응답이거나 결석한 학생을 제외한 응답 인원 719명에 대하여 공식에 따라 기대인원을 계산하면 618.7명, 표준오차는 24.9명으로 계산되어 생일이 같은 사람들의 수효 622(명)은 기대인원으로부터 표준오차, 혹은 두 배의 표준오차 범위 안에 잘 들어감을 알 수 있습니다.

기대되는 인원

기대인원
618.7

표준오차

표준오차
24.9

이전 학기 자료들에서는 10명이 생일이 같은 경우도 있었고, 8명이 생일이 같은 경우는 여럿 나오기도 했는 데 이번 학기에는 03월19일, 09월23일에 7(명)의 생일이 같습니다.

2024년 1학기, 2023년 1, 2학기, 2022년 1, 2학기, 2021년 1, 2학기 모두 이론적으로 기대하는 값과 관찰값이 잘 들어 맞았습니다.

2020년 1-2학기에는 기대에 약간 못 미치는 인원을 관찰하였지만 통상적으로 얘기하는 표준오차의 두배 이내에는 잘 들어맞는 인원입니다.

여러분의 생일은 몇 명이나 같은 사람이 있나요?

이론적으로 기대하는 인원과 실제 관찰된 인원이 잘 부합한다는 점에 대해서 어떤 생각이 듭니까?

태어난 달의 분포는?

제출한 생일 날짜들을 월별로 정리하였습니다.

아래 교차표로부터 두 가지 질문을 던져볼 수 있겠습니다.

응답자들은 월별로 고르게 출생하였을까?

출생한 달의 분포는 Red, Black 간에 닮았는가?

이 질문에 답하기 위해서 카이제곱 테스트를 수행합니다.

	1월	2월	3월	4월	5월	6월	7월	8월	9월	10월	11월	12월	계
Red	32	34	39	39	23	20	25	25	20	30	42	27	356
Black	31	27	28	26	26	41	29	39	29	33	26	28	363
계	63	61	67	65	49	61	54	64	49	63	68	55	719

월별로 고르게 출생하였는지 알아보려면 위의 교차표에서 “계” 행의 1월부터 12월까지를 잘라 내어 카이제곱 균일성 테스트를 수행해야 합니다.

이 때 1월부터 12월까지 12개의 범주가 있으니까 자유도는 하나를 뺀 11이 됩니다.

월별로 고르게 출생하였는가?

1월	2월	3월	4월	5월	6월	7월	8월	9월	10월	11월	12월
63	61	67	65	49	61	54	64	49	63	68	55

Chi-squared test for given probabilities: `.`
Test statistic	df	P value
7.96	11	0.7169

월별로 고르게 출생하였는지 알아보기 위하여 수행한 카이제곱 테스트에서 카이제곱 통계량은 7.960, 자유도는 11.00, p-value 는 0.7169 이므로 월별로 고르게 출생하고 있음을 시사합니다.

가장 많이 태어난 달은 11월에 68(명)이고 가장 적게 태어난 달은 5월, 9월에 49, 49(명)입니다.

태어난 달의 분포가 Red, Black 간에 닮았는지 살펴보기 위하여 “계”행과 “계”열을 삭제한 다음 교차표에 카이제곱 테스트를 수행합니다.

Red and Black

	1월	2월	3월	4월	5월	6월	7월	8월	9월	10월	11월	12월
Red	32	34	39	39	23	20	25	25	20	30	42	27
Black	31	27	28	26	26	41	29	39	29	33	26	28

Pearson’s Chi-squared test: `.`
Test statistic	df	P value
21.51	11	0.02846 *

Red, Black 간에 월별 출생의 분포가 닮았는지 알아보기 위하여 수행한 카이제곱 테스트에서 카이제곱 통계량은 21.510, 자유도는 11, p-value 는 0.0285 이므로 Red, Black 간에 출생의 분포는 통계적으로 유의한 차이를 보이고 있습니다.

여기서 자유도는 \((2-1)\times{(12-1) = 11}\)로 계산한 것입니다.

앞의 출생이 월별로 고른가에 대한 테스트와 결과적으로 자유도가 같지만 과정은 다릅니다.

매 학기 Red 와 Black 의 차이를 살펴보는 랜덤화효과는 거의 예외없이 잘 나타납니다.

p-value 가 0.05보다 대부분 훨씬 큰 값으로 나오는 것이죠.

그런데 월별 출생인원의 분포는 고르지 않은 경우가 제법 있습니다.

바로 2023년 1, 2학기와 2021년 1학기가 그런 경우이죠.

확인해 보기 바랍니다.

Q2. Matching Problem

다음은 어느 가수가 어느 노래를 불렀는지 짝 짓는 (matching) 문제입니다.

수강생들이 태어나기 훨씬 전에 활동하던 옛날 가수와 노래들이기 때문에 누가 무엇을 불렀는지 알 길이 없고 운에 기대어 랜덤하게 골라야 합니다.

이 때 몇 개나 맞출 수 있을까요?

맞춘 갯수가 이론적으로 기대하는 갯수와 잘 들어맞는지 알아보기 위하여 카이제곱 테스트를 수행합니다.

하나도 못 맞추는 경우를 derangement 라고 합니다.

완전히 엉클어진 경우이죠.

ABCD 를 완전히 엉클어 놓기 위해서 A에 주목합시다.

A를 갖다 놓을 수 있는 곳은 A위치를 제외한 나머지 3군데 중 하나입니다.

그 위치를 B라고 했을 때 두 가지 경우가 생깁니다.

원래의 B를 어디에 놓느냐 하는 것이죠.

B를 A의 위치에 놓는 경우와 A아닌 다른 위치에 놓는 방법이 있습니다.

B를 A의 위치에 놓으면 C와 D를 엉클어 놓으면 됩니다.

방법은 하나밖에 없습니다.

그런데 B를 A가 아닌 다른 위치에 놓겠다고 하면 선택은 ACD 를 엉클어 놓는 방법의 수만큼 있습니다.

두 개입니다.

CDA와 DAC이죠.

따라서 ABCD를 엉클어 놓는 방법의 수는 \((4 - 1)\times(1 + 2) = 9\)(개)입니다.

맷칭이 두개 일어나는 경우는 서로 맞는 2개, 예를 들어서 AB를 고르고 나머지 두 개, CD는 자동적으로 서로 맞지 않게 DC로 배치하면 되니까 서로 맞는 2개를 고르는 방법의 수, 즉 4개에서 2개를 고르는 방법의 수 \(\binom{4}{2} = 6\)(개)가 나옵니다.

1개를 맞추려면 나머지 3개를 서로 엇갈리게 배치하는 방법이 2개 밖에 없습니다.

예를 들어서 ABCD가 바른 순서일 때 A를 고정시키면 BCD 를 엇갈리게 배치하는 방법은 CDB와 DBC 밖에 없습니다.

따라서 \(4\times2 = 8\)(개)의 배치 방법이 있습니다.

여기까지 잘 따라왔으면 1개도 맞추지 못하는 경우의 수는 \(24 - (8 + 6 + 1) = 9\)(개)가 되기 때문에 또 다른 방법으로 derangement 의 갯수를 확인하게 됩니다.

이 9개가 나오는 과정을 잘 알려진 공식으로 표현하면 \(4! \left( 1 - \frac{1}{1!} + \frac{1}{2!} - \frac{1}{3!} + \frac{1}{4!} \right)\) 이 됩니다.

Q2는 맷칭 (matching)문제라고 잘 알려져 있는데 스마트폰이 대중화된 이후로 이상하게도 가수와 노래를 짝짓는 문제에서 수강생들의 정답 비율이, 특히 네개를 다 맞히는, 매우 높았었습니다.

예전 학기들 자료를 보세요.

가수와 노래가 60년대에 속하기 때문에 여러분이 전혀 알 수 없는 것들인데 이 높은 정답률이 인터넷 검색의 위력이라는 것을 2018년 2학기에 알게 되었습니다.

여러분들이 이 노래를 전혀 모르는 상태에서 랜덤하게 고른다면 하나도 못 맞출 확률이 9/24로 가장 높습니다. 1개 맞출 확률은 8/24, 2개는 6/24, 다 맞출 확률은 1/24에 불과합니다.

따라서 맞추는 갯수의 기대값과 표준편차는 모두 한 개입니다.

재수 없으면 하나도 못 맞히고, 재수 좋으면 두 개 정도 맞힌다는 것입니다.

“A이면 B이다”와 논리적으로 동등한 것은 “B가 아니면 A가 아니다”라는 것을 기억해 보면, 집계결과가 이론적으로 예측한 바와 잘 맞지 않으므로 랜덤하게 고르지 않았다는 얘기가 됩니다.

그래서 2018년2학기와 2019년 2학기에 Matching 이라는 퀴즈를 준비했는데 이마저도 기대한 대로 결과가 나오지 않았습니다.

주역의 괘를 어느 정도 알고 있거나 이 정도는 인터넷 검색이 가능한 것 같습니다.

주역 괘 구분하기와 비교해 보십시요.

그러던 중에 2020년 1학기 온라인 수업으로 소통이 원활하지 않다고 생각하던 중에 구글 설문지에다 여러분의 인터넷 검색을 금지하고, 랜덤하게 골라달라는 부탁을 하였더니 이론과 너무나도 잘 들어맞는 결과가 나왔습니다.

그런데, 지난 학기에도 예전 학기들 만큼이나 1개를 맞추는 사람들의 수효 352명이 맷칭 모델로부터 기대되는 인원 234명보다 압도적으로 많이 관찰되면서 4곡 다는 아니더라도 한 곡 정도는 인터넷 검색이 많이 있었던 게 아닌가 싶습니다.

인터넷 검색을 금하지 않았던 시기에는 4개 다 맞히는 인원이 가장 많았던 점과 비교해 보면 덜하긴 한 것이죠.

각자 자신의 경험을 댓글로 올려 보세요.

랜덤하게 골랐나요?

몇 개나 맞췄나요?

70년대초 즐겨 듣던 노래들인 데 … 한 학기 댓글 올리느라고 힘든 몸과 마음을 음악으로 차분하게 다스려 보세요.

음악에 대한 의견은 어떤가요?

음악 감상이 끝나면 분석으로 들어갑니다.

응답 분포

	Cruel War	Famous Blue Raincoat	And Yours is Piece of Mine	Rain	계
Uriah Heep	116	256	216	131	719
Leonard Cohen	201	134	322	62	719
Peter, Paul and Mary	302	161	122	134	719
Marmalade	100	168	59	392	719
계	719	719	719	719	2876

가수별, 노래별로 응답 빈도의 교차표를 만들었습니다.

행의 소계나 열의 소계가 모두 719(명)으로 같습니다.

Uriah Heep 의 노래가 Rain이니까 정답을 맞춘 사람은 131(명)입니다.

랜덤하게 골랐다면 719(명)을 4로 나눠 준 179.75(명) 정도 나와야 합니다.

어떻습니까?

Leonard Cohen의 노래는 Famous Blue Raincoat 입니다.

정답을 맞춘 사람은 134(명)입니다.

Peter, Paul and Mary 의 노래는 Cruel War 이니까 정답을 맞춘 사람은 302(명)입니다.

Marmalade 의 노래는 And Yours is Piece of Mine 이니까 정답을 맞춘 사람은 59(명)입니다.

유난히 많이 맞춘 가수의 노래가 있군요.

검색을 한 걸까요?

가수별로 응답 분포의 백분율을 구해 보겠습니다.

응답분포(가수별 %)

	Cruel War	Famous Blue Raincoat	And Yours is Piece of Mine	Rain	계
Uriah Heep (Rain)	16.1	35.6	30	18.2	100
Leonard Cohen (Famous Blue Raincoat)	28	18.6	44.8	8.6	100
Peter, Paul and Mary (Cruel War)	42	22.4	17	18.6	100
Marmalade (And Yours is Piece of Mine)	13.9	23.4	8.2	54.5	100

가수별 백분율을 살펴보면 어느 가수의 노래를 유난히 잘 맞추고 있는지 파악할 수 있습니다.

우선 Uriah Heep 의 노래는 정답을 맞춘 백분율이 18.2(%) 입니다.

간단히 25%가 평균이라고 할 수 있는데 어떻습니까?

Leonard Cohen 의 노래는 정답을 맞춘 백분율이 18.6(%) 입니다. Peter, Paul and Mary 의 노래는 정답을 맞춘 백분율이 42(%) 입니다.

Marmalade 의 노래는 정답을 맞춘 백분율이 8.2(%) 입니다.

누구의 노래를 유난히 잘 맞히고 있습니까?

랜덤하게 고르라고 한 지시를 잘 지키고 있는지 알아 봅시다.

정답갯수의 분포

0개	1개	2개	4개	계
209	356	129	25	719

응답자별로 정답 맟춘 갯수를 세어서 테이블로 정리한 것입니다.

전체 719(명) 중에서 하나도 못 맞춘 사람은 209(명), 1개를 맞춘 사람은 356(명), 2개를 맞춘 사람은 129(명), 4개 모두 맞춤 사람은 25(명) 입니다.

랜덤하게 고르라고 한 지시를 잘 지켰는지를 파악하기 위하여 카이제곱 테스트를 수행합니다.

맷칭 문제의 확률분포로부터 각 맞춘 개수의 기대인원을 계산해 보겠습니다.

Observed vs Expected

Observed vs Expected
	0개	1개	2개	4개	계
Observed	209.0	356.0	129.0	25.0	719.0
Expected	269.6	239.7	179.8	30.0	719.0
Difference	-60.6	116.3	-50.8	-5.0	0.0

네명의 가수와 노래를 짝짓는 맷칭 문제에서 맷칭 갯수 {0, 1, 2, 4} 각각의 확률은 {9/24, 8/24, 6/24, 1/24}입니다.

응답인원 719명을 각 확률에 곱해보면 이론적으로 기대되는 인원이 계산됩니다.

맷칭 갯수 별로 관찰된 인원을 Observed 행에 올리고, 맷칭 문제의 확률분포로부터 계산한 기대 인원을 Expected 행에 올렸습니다.

하나도 못 맞춘 인원은 209(명)인데 확률분포로부터 기대되는 인원은 269.6(명)이어서 그 차이가 -60.6(명)입니다. 1개를 맞춘 인원은 356(명)인데 확률분포로부터 기대되는 인원은 239.7(명)이어서 그 차이가 116.3(명)입니다.

2개를 맞춘 인원은 129(명)인데 확률분포로부터 기대되는 인원은 179.8(명)이어서 그 차이가 -50.8(명)입니다.

4개를 다 맞춘 인원은 25(명)인데 확률분포로부터 기대되는 인원은 30.0(명)이어서 그 차이가 -5.0(명)입니다.

4개를 맞춘 인원은 거의 기대인원과 같은데, 1개를 맞춘 인원은 기대인원보다 유난히 많습니다.

그래서 하나도 못 맞추거나 2개를 맞춘 인원이 기대인원보다 적은 결과를 빚습니다.

인터넷 검색하지 말라고 해서 네 개 다 검색하지는 못하고 한 개만 검색한 걸까요? 카이제곱 테스트를 수행합니다.

맷칭 모델 카이제곱 적합도 테스트

Chi-squared test for given probabilities: `.`
Test statistic	df	P value
85.25	3	2.295e-18 * * *

맷칭 문제의 집계 결과가 맷칭 문제의 확률분포로부터 기대되는 인원과 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 85.248, 자유도는 3.00, p-value 는 2.3e-18이므로 매우 통계적으로 유의한 차이를 보입니다.

앞에서 관찰한 것처럼 1개 맞춘 사람들이 유난히 많은 게 카이제곱 통계량이 커지는 데 크게 기여하였습니다.

그 의미를 각자 새겨보기 바랍니다.

응답결과를 Red 와 Black으로 나눠 보았을 떄 통계적으로 유의한 차이가 있을까요?

Red and Black

	0개	1개	2개	4개	계
Red	103	176	62	15	356
Black	106	180	67	10	363
계	209	356	129	25	719

Pearson’s Chi-squared test: `.`
Test statistic	df	P value
1.214	3	0.7497

맷칭 문제의 집계 결과를 Red, Black으로 나누어 보았습니다.

Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였더니 카이제곱 통계량은 1.214, 자유도는 3, p-value 는 0.7497이므로 Red, Black 간에는 통계적으로 유의한 차이를 보이지 않습니다.

Q3. 직관과 어긋나는 용어

연비

Q3는 Thinking Fast and Slow 에 나오는 예로 연비의 정의를 단위 연료당 갈 수 있는 거리로 정의하다보니 생길 수 있는 오류를 지적하고 있습니다.

연비라는 용어가 주는 직관과는 잘 맞지 않다는 것을 여러분의 응답에서 잘 알 수 있습니다.

연비는 1리터의 연료로 갈 수 있는 거리입니다.

연비가 높으면 높을수록 적은 연료를 넣고도 먼 거리를 갈 수 있습니다.

그런데 원래 연비가 10인 차량을 연비 12인 차량으로 업그레이드하는 것과 연비가 30인 차량을 연비가 40인 차량으로 업그레이드 하는 것 중에서 어떤 선택이 더 연료를 절감할 수 있는지 계산해 보면 우리가 직관적으로 생각하는 것과는 다른 정답이 기다리고 있음을 알게 됩니다.

이 문제에 대하여 우리 수강생들의 응답을 분석해 봅니다.

1,200 킬로미터룰 주행한다고 해 봅시다.

’가’는 120리터에서 100리터로 20리터를 절감하고, ’나’는 40리터에서 30리터로 10리터를 절감하게 됩니다.

따라서 ’가’운전자가 이전보다 더 절감합니다.

연비라는 용어가 주는 직관과는 잘 맞지 않다는 것을 여러분의 응답에서 잘 알 수 있습니다.

연비 높은 차량으로 바꾸는 것이 더 절감할 것이라는 응답이 압도적입니다.

악마는 디테일에 있습니다.

Red, Black 부터 살펴봅니다.

집계

	연비 10 => 12	연비 30 => 40	계
Red	155	201	356
Black	160	203	363
계	315	404	719

Pearson’s Chi-squared test with Yates’ continuity correction: `.`
Test statistic	df	P value
0.004921	1	0.9441

Q3의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 0.0049, 자유도는 1, p-value 는 0.9441이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

따라서 합쳐서 백분율을 비교해 보겠습니다.

% 비교.

	연비 10 => 12	연비 30 => 40	계
Red	43.5	56.5	100.0
Black	44.1	55.9	100.0

합쳐서 보겠습니다.

%(통합)

연비 10 => 12	연비 30 => 40	계
43.8	56.2	100.0

Red, Black을 합쳐서 계산할 때 56.2(%)가 정답을 고르지 못하였습니다.

이러한 경향은 학기마다 거의 비슷합니다.

학기별 응답 요약

데이터로 확인헤 보세요.

정답을 맞춘 백분율은 32.6%에서 42.5%사이에 있습니다. 절반을 넘어가지 못하는 것을 Mosaic Plot이 잘 보여주고 있습니다.

용어에서 직관적으로 받는 인상과 실제는 다른 것이죠.

Q4. Monty Hall 문제

퀴즈 쇼 진행자인 Monty Hall 이 세 개의 문을 보여줍니다.

세 문 중 하나는 자동차를 숨기고 있고, 나머지 두 문 뒤에는 염소가 있습니다.

참가자는 세 문 중 하나를 선택합니다.

참가자가 선택한 문을 열기 전에, Monty Hall 은 항상 염소가 있는 디른 문 하나를 열어 보여줍니다.

이제 Monty Hall 은 참가자에게 선택을 바꿀 기회를 줍니다.

참가자는 선택한 문을 고수하거나,
남아 있는 다른 문으로 바꿀 수 있습니다.

질문 : 선택을 바꾸는 것이 더 나은 전략일까요?

문항 배열 효과?

많은 사람들은 선택을 바꾸나 유지하거나 확률이 동일하다고 생각하지만, 선택을 바꾸는 것이 항상 유리합니다.

처음 선택한 문이 자동차일 확률은 1/3이고 처음 선택한 문이 염소일 확룰은 2/3입니다.

Monty는 항상 염소가 있는 문을 엽니다.

즉, 선택을 바꾸는 경우, 처음에 염소를 선택했을 확률 2/3가 남은 문에 자동차가 있을 확률로 전환됩니다.

따라서 처음 선택을 유지할 경우 자동차일 확률은 1/3 그대로이지만 선택을 바꿀 경우 자동차일 확률은 2/3로 늘어나게 됩니다.

자동차는 세 문 중 하나에 무작위로 배치되어 있습니다.

참가자가 문1을 선택했을 때, 자동차가 문1에 있을 확률은 1/3이고 Monty는 문2나 문3 중에 하나를 고를 수 밖에 업습니다.

이 때 참가자가 선택을 바꾸면 염소를 고르게 됩니다.

자동차가 문2에 있다면, Monty 는 반드시 문3을 열 수 밖에 없고 이때 참가자가 선택을 바꾸면 자동차가 있는 문2를 선택하여 승리하게 됩니다.

자동차가 문3에 있더라도 같은 논리로 참가자가 선택을 바꾸면 자동차가 있는 문3을 선택하여 승리하게 됩니다.

즉, 선택을 바꾸면 승리할 확률이 2/3가 되는 것입니다.

사람들은 “문이 두 개 남았으니, 확률은 1/2로 동일할 것이다”라고 생각하기 쉽습니다.

그러나 Monty 가 문을 열 때 이미 정보를 반영한다는 점에서 조건부 확률이 적용됩니다.

따라서 이 문제는 우리의 직관이 얼마나 확률을 잘못 이해할 수 있는지를 보여줍니다.

Red 와 Black 의 차이는 “바꾼다”와 “고수한다”의 순서를 바꾼 것으로 “바꾼다”를 앞에 놓은 Black 집단에서 바꾼다는 응답이 다소 높게 나왔으나 통계적으로 유의한 수준은 아닙니다.

집계

	고수한다	바꾼다	계
Red	251	105	356
Black	231	132	363
계	482	237	719

Pearson’s Chi-squared test with Yates’ continuity correction: `.`
Test statistic	df	P value
3.533	1	0.06014

Q4의 Red는 “선택을 고수한다”를 앞에, “선택을 바꾼다”를 뒤에 나오도록 하였고, Black은 “선택을 바꾼다”를 앞에, “선택을 고수한다”를 뒤에 나오도록 하여 소위 1번효과가 작동하는지를 살펴 보았습니다.

그 결과 Red, Black 의 차이를 분석하기 위한 카이제곱 통계량은 3.533, 자유도는 1, p-value 는 0.0601 으로 1번효과는 통계적으로 유의하지 않음을 보여 줍니다.

그런데 2023년 1학기에는 특이하게도 “바꾼다”를 앞에 놓은 Black 에서 “바꾼다”를 선택한 인원이 Red 보다 통계적으로 유의한 수준으로 많이 나와서 소위 1번효과를 관찰할 수 있습니다.

2021년 2학기에도 통계적으로 유의한 차이를 관찰하였고, 2017년 2학기에도 통계적으로 유의한 차이가 나온 적이 있지만 대체로 1번효과는 잘 나타나지 않습니다.

백분율로 비교합니다.

% 비교.

	고수한다	바꾼다	계
Red	70.5	29.5	100.0
Black	63.6	36.4	100.0

이를 백분율로 살펴보면 Red에서 “선택을 고수한다”는 백분율, 70.5(%)(은)는 “선택을 바꾼다”는 백분율, 29.5(%) 보다 윌등히 높고, Black에서 “선택을 고수한다”는 백분율, 63.6(%)(은)는 “선택을 바꾼다”는 백분율, 36.4(%)보다 역시 월등히 높다는 것을 알 수 있습니다.

통계적으로 유의한 차이를 관찰하지 않았기 때문에 합쳐서 보는 게 타당합니다.

합산(%)

	고수한다	바꾼다	계
계	67.0	33.0	100.0

Red, Black 을 통합하여 보면 “선택을 고수한다”는 백분율 67.0(%)는 ’선택을 바꾼다’는 백분율 33.0(%)보다 월등히 높습니다.

그만큼 우리의 직관이 취약하다는 것을 알 수 있습니다.

Mosaic Plot

학기별 응답 요약

학기별로 ’고수한다’와 ’바꾼다’의 비율을 Mosaic Plot 으로 요약해 보았습니다.

여러분의 직관에 대해서 그리고 학기별로 꾸준히 관찰되는 거의 고정된 비율에 대해서 댓글을 올려 주세요.

마감 시간으로부터 제출 시간의 분포

분포표

일 단위
	[0,1]	(1,2]	(2,3]	(3,4]	(4,5]	(5,6]	(6,7]	(7,8]	(8,9]	(9,10]	(10,11]	(11,12]	(12,13]	(13,14]	계
Red	112	19	14	9	9	10	8	48	24	16	25	9	14	39	356
Black	119	21	14	6	6	3	11	44	22	17	18	17	29	36	363
계	231	40	28	15	15	13	19	92	46	33	43	26	43	75	719

분포표로부터 두 가지 문제를 살펴보겠습니다.

첫째, 날마다 고르게 제출하는가?

둘쨰, Red, Black 간에 통게적으로 유의한 차이가 있는가?

각 문제를 살펴보기 위해서는 분포표의 일부분을 대상으로 카이제곱 테스트를 수행합니다.

날마다 고르게 제출하는가?

[0,1]	(1,2]	(2,3]	(3,4]	(4,5]	(5,6]	(6,7]	(7,8]	(8,9]	(9,10]	(10,11]	(11,12]	(12,13]	(13,14]
231	40	28	15	15	13	19	92	46	33	43	26	43	75

Chi-squared test for given probabilities: `.`
Test statistic	df	P value
807.4	13	3.542e-164 * * *

날마다 고르게 제출하는지 알아 보았습니다.

분포표의 “계”행에서 ’계’열을 제외하고 카이제곱테스트를 수행합니다.

분포표 만으로도 쉽게 파악할 수 있지만 카이제곱테스트가 명확히 해 줍니다.

카이제곱 통계량은 807.428, 자유도는 13.00, p-value 는 3.5e-164 이므로 날짜별로 고르게 제출하고 있지 않다는 것을 강력히 시사합니다.

막대그래프로 살펴 보겠습니다.

막대그래프

Red, Black 간에 닮았는가?

	[0,1]	(1,2]	(2,3]	(3,4]	(4,5]	(5,6]	(6,7]	(7,8]	(8,9]	(9,10]	(10,11]	(11,12]	(12,13]	(13,14]
Red	112	19	14	9	9	10	8	48	24	16	25	9	14	39
Black	119	21	14	6	6	3	11	44	22	17	18	17	29	36

Pearson’s Chi-squared test: `.`
Test statistic	df	P value
14.93	13	0.3115

제출시간의 분포가 Red, Black 간에 닮았는지 알아 보았습니다.

이번에는 분포표의 첫번쨰와 두번쨰 행, ’계’열을 제외한 나머지 열에 대해서 카이제곱테스트를 수행합니다.

카이제곱 통계량은 14.93, 자유도는 13, p-value 는 0.3115 이므로 제출 시간의 분포는 Red, Black 간에 통계적으로 유의한 차이가 관찰되지 않습니다.

이 사실을 Mosaic Plot 을 이용하여 시각적으로 살펴보겠습니다.

닮았다고 느껴지나요?

Quiz 241125 (Birthday Problem, … , Monty Hall)

coop711

2024-11-25

13주차 데이터 실험 집계

실험의 목적

Red, Black을 잘못 표시한 사람들

응답인원의 Red, Black

Q1. Birthday Problem

어느 날에 몇 명씩 생일이 같은가?

생일이 같은 사람은 몇 명 정도 기대되는가?

기대되는 인원

표준오차

태어난 달의 분포는?

월별로 고르게 출생하였는가?

Red and Black

Q2. Matching Problem

응답 분포

응답분포(가수별 %)

정답갯수의 분포

Observed vs Expected

맷칭 모델 카이제곱 적합도 테스트

Red and Black

Q3. 직관과 어긋나는 용어

연비

집계

% 비교.

%(통합)

학기별 응답 요약

Q4. Monty Hall 문제

문항 배열 효과?

집계

% 비교.

합산(%)

Mosaic Plot

학기별 응답 요약

마감 시간으로부터 제출 시간의 분포

분포표

날마다 고르게 제출하는가?

막대그래프

Red, Black 간에 닮았는가?

Mosaic Plot

제출 시간 분포의 변화