9주차 데이터 실험 집계

실험의 목적

9주차 구글 예습 설문지 집계결과를 분석합니다.

Q1 ~ Q6에서는 랜덤화의 효과로 Red, Black이 얼마나 닮았는지 알아봅니다.

Q7에서는 Default Effects 에 대한 데이터실험 결과에 대하여 분석합니다.

제출시간의 분포가 날마다 고른지, Red, Black 간에는 닮았는지 알아봅니다.

Red, Black을 잘못 표시한 사람들

  Red(구글예습퀴즈) Black(구글예습퀴즈)
Red(랜덤화출석부) 285 0
Black(랜덤화출석부) 2 285
287 285

응답인원의 Red, Black

Red 로 응답한 인원은 287명, Black 에 응답한 인원은 285명입니다.

전체 응답인원 572 명을 랜덤하게 둘로 나눌 때 어느 한 쪽의 기대인원은 전체 응답인원의 절반인 286명이고, 표준오차는 전체 응답인원의 제곱근에 1/2을 곱해 준 12 명입니다.

따라서 Red, Black 각 그룹에 관찰된 인원은 기대인원으로부터 표준오차 범위 안에 들어갑니다. 랜덤화출석부에 있는 Red, Black 과 실제 구글설문에 올린 Red, Black 이 다른 사람들의 수효는 2명입니다. Red를 Black 이라고 한 사람이 0명, Black 을 Red 라고 한 사람이 2명입니다.

Q1. OECD 2022년 9월 실업률 비교

실업률 가장 낮은 나라 (집계))

  스페인 미국 OECD 전체 대한민국
Red 12 32 8 235 287
Black 19 20 7 239 285
31 52 15 474 572
Pearson’s Chi-squared test: .
Test statistic df P value
4.443 3 0.2174

Q1의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 4.443, 자유도는 3 , p-value 는 0.2174이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

실업률 가장 낮은 나라 (%)

스페인 미국 OECD 전체 대한민국
5.4 9.1 2.6 82.9 100.0

정답률은 Red, Black 을 합하여 계산하는데, 82.9(%) 입니다.

Q2. 고용률의 산식

고용률?

  경제활동인구 / 15세이상 인구 취업자 / 경제활동인구 취업자 / 15세 이상 인구 실업자 / 경제활동인구
Red 36 47 188 16 287
Black 48 49 177 11 285
84 96 365 27 572
Pearson’s Chi-squared test: .
Test statistic df P value
3.006 3 0.3906

Q2의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 3.006, 자유도는 3, p-value 는 0.3906이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

고용률? (%)

경제활동인구 / 15세이상 인구 취업자 / 경제활동인구 취업자 / 15세 이상 인구 실업자 / 경제활동인구
14.7 16.8 63.8 4.7 100.0

정답률은 Red, Black 을 합하여 계산하는데, 63.8(%) 입니다.

Q3. 취업자의 조건

취업자란?

  조사 대상 주간 중 수입을 목적으로 1시간 이상 일한 자 자기 가구에서 경영하는 농장이나 사업체의 수입을 높이는 데 도운 가족종사자로서 주당 18시간 이상 일한 자 조사대상 주간에 일시적으로 병이 나거나, 날씨가 안 좋거나, 휴가 또는 연가, 노동쟁의 등의 이유로 일을 못한 일시 휴직자 조사대상 주간에 수입 있는 일을 하지 않았으나, 지난 4주간 구직활동하였으며 즉시 취업 가능한자
Red 18 34 36 199 287
Black 26 25 46 188 285
44 59 82 387 572
Pearson’s Chi-squared test: .
Test statistic df P value
4.353 3 0.2258

Q3의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 4.353, 자유도는 3, p-value 는 0.2258이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

취업자란? (%)

조사 대상 주간 중 수입을 목적으로 1시간 이상 일한 자 자기 가구에서 경영하는 농장이나 사업체의 수입을 높이는 데 도운 가족종사자로서 주당 18시간 이상 일한 자 조사대상 주간에 일시적으로 병이 나거나, 날씨가 안 좋거나, 휴가 또는 연가, 노동쟁의 등의 이유로 일을 못한 일시 휴직자 조사대상 주간에 수입 있는 일을 하지 않았으나, 지난 4주간 구직활동하였으며 즉시 취업 가능한자
7.7 10.3 14.3 67.7 100.0

정답률은 Red, Black 을 합하여 계산하는데, 67.7(%) 입니다.

Q4. 평균과 중위값

집계

  평균 : 100만원, 중위값 : 200만원 평균 : 200만원, 중위값 : 100만원 평균 : 1,000만원, 중위값 : 100만원 평균 : 100만원, 중위값 : 1,000만원
Red 23 218 29 17 287
Black 26 214 31 14 285
49 432 60 31 572
Pearson’s Chi-squared test: .
Test statistic df P value
0.5707 3 0.9031

Q4의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 0.571, 자유도는 3, p-value 는 0.9031이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

평균 : 100만원, 중위값 : 200만원 평균 : 200만원, 중위값 : 100만원 평균 : 1,000만원, 중위값 : 100만원 평균 : 100만원, 중위값 : 1,000만원
8.6 75.5 10.5 5.4 100.0

정답률은 Red, Black 을 합하여 계산하는데, 75.5(%) 입니다.

Q5. 평균과 중위값

집계

  평균 : 100만원, 중위값 : 200만원 평균 : 200만원, 중위값 : 100만원 평균 : 1,000만원, 중위값 : 100만원 평균 : 100만원, 중위값 : 1,000만원
Red 21 33 214 19 287
Black 14 35 214 22 285
35 68 428 41 572
Pearson’s Chi-squared test: .
Test statistic df P value
1.671 3 0.6433

Q5의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 1.671, 자유도는 3, p-value 는 0.6433이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

평균 : 100만원, 중위값 : 200만원 평균 : 200만원, 중위값 : 100만원 평균 : 1,000만원, 중위값 : 100만원 평균 : 100만원, 중위값 : 1,000만원
6.1 11.9 74.8 7.2 100.0

정답률은 Red, Black 을 합하여 계산하는데, 74.8(%) 입니다.

Q6. 연 500만원 이하 근로소득자의 비율

집계

  5% 10% 15% 19.1% 25%
Red 19 34 35 192 7 287
Black 13 32 36 199 5 285
32 66 71 391 12 572
Pearson’s Chi-squared test: .
Test statistic df P value
1.328 4 0.8565

Q6의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 1.328, 자유도는 4, p-value 는 0.8565이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

5% 10% 15% 19.1% 25%
5.6 11.5 12.4 68.4 2.1 100.0

정답률은 Red, Black 을 합하여 계산하는데, 68.4(%) 입니다.

디폴트 효과 : Q7. … 하면 표시하세요.의 효과

표시하지 않으면 사후 장기기증 의사가 있는 것으로 간주하는 경우(Red)와 표시하면 사후 장기기증 의사가 있는 것으로 간주하는 경우(Black), 표시하지 않으면 사후 장기기증 의사가 있다고 보는 질문지(Red)에 사후 장기기증 의사 비율이 더 높게 나오는 것으로 알려져 있으나 관찰 결과는 반대로 나옵니다.

어디에 디폴트를 설정하느냐에 따라 조사결과가 달라지는 것으로 알려져 있으나 응답 결과는 랜덤화 효과에 가깝게 나와서 당황스럽습니다.

집계 (전체)

  사후 장기기증 의사 있음 사후 장기기증 의사 없음
Red(사후 장기기증 의사 없으면 표시) 126 161 287
Black(사후 장기기증 의사 있으면 표시) 141 144 285
267 305 572
Pearson’s Chi-squared test with Yates’ continuity correction: .
Test statistic df P value
1.566 1 0.2107

Q7의 Red 는 default 가 사후 장기기증 의사가 있는 것으로서 사후 장기기증 의사가 없으면 표시토록 하고, Black 은 default 가 사후 장기기증 의사가 없는 것으로서 사후 장기기증 의사가 있으면 표시토록 합니다.

표시하는 것조차 귀찮은 사람들은 당연히 default 를 따를 것으로 기대되어 Red 에서는 장기기증 의사가 있다는 응답 비율이 더 높고, Black 에서는 장기기증의사가 없다는 응답 비율이 더 높을 것으로 기대되었지만 지난 학기들의 기록이나 이번 학기의 집계결과를 보면 그렇지 않아서 당황스럽습니다.

여기서 수행하고 있는 카이제곱 테스트는 default 를 어떻게 설정하느냐의 효과가 통계적으로 유의한지 알아보기 위한 것입니다.

그 결과 카이제곱 통계량은 1.57, 자유도는 1, p-value 는 0.21이므로 default의 설정을 바꾼 것은 사후 장기기증 의사에 통계적으로 유의한 차이를 보이지 않습니다.

% 비교

  사후 장기기증 의사 있음 사후 장기기증 의사 없음
Red(사후 장기기증 의사 없으면 표시) 43.9 56.1 100.0
Black(사후 장기기증 의사 있으면 표시) 49.5 50.5 100.0

이를 백분율로 살펴보면 사후 장기기증 의사가 없으면 표시하라는 Red에서 사후 장기기증 의사가 있다고 응답한 백분율, 43.9(%)(이)나 사후 장기기증 의사가 있으면 표시하라는 Black 에서 사후 장기기증 의사가 있다고 응답한 백분율, 49.5(%)(이)나 큰 차이가 없어서 default의 설정이 응답에는 통계적으로 유의한 영향을 주지 못한다는 것을 명확히 알 수 있습니다.

어쨌든 통계적으로 유의한 차이를 관찰하지 못했으므로 Red, Black 은 합쳐서 분석하는 것이 타당합니다. 그 결과는 다음과 같습니다.

합산(%)

사후 장기기증 의사 있음 사후 장기기증 의사 없음
46.7 53.3 100.0

사후 장기기증 의사가 있다고 응답한 백분률은 default의 설정과는 무관하게 46.7(%)(으)로 절반이 좀 안 되는군요.

Mosaic Plot

Mosaic Plot 은 이 집계결과를 시각적으로 잘 보여줍니다.

default 의 설정에 거의 무관할 정도로 응답이 비슷하기 때문에 Red, Black 이 닮았고, 사후 장기기증 의사가 있다고 응답한 백분율도 닮은 것을 잘 알 수 있습니다.

Thinking, Fast and Slow

Article

우리의 관찰은 Thinking, Fast and Slow (Daniel Kahneman, 2011) 의 default effects 에서 소개한 유럽의 사례와는 아주 차이가 많이 납니다.

2003년 오스트리아는 100%, 스웨덴은 86%가 사후 장기기증 의사가 있다고 한 반면에 독일은 12%, 덴마크는 4% 밖에 사후 장기기증 의사가 있다는 조사 결과가 나왔습니다.

Facts Found

여기서 결정적인 차이는 오스트리아와 스웨덴은 사후 장기기증 의사가 없으면 표시를 해야 하고, 독일과 덴마크는 사후 장기기증 의사가 있으면 표시를 해야 하는 시스템이었다는 점입니다.

여러분들의 응답과는 아주 다른 상황이죠?

Original Article (Johnson & Goldstein 2003)

Johnson and Goldstein의 원전에 나오는 그래프를 옮겨 왔습니다.

황금색으로 표시한 나라들은 사후 장기기증 의사를 직접 표시해야 하는 나라들이고 하늘색으로 표시한 나라들은 사후 장기기증 의사를 default 로 하여 사후 장기기증 의사가 없으면 직접 표시해야 하는 나라들입니다.

여기서 오스트리아, 독일, 스웨덴, 덴마크의 수치를 확인해 보세요.

마감 시간으로부터 제출 시간의 분포

분포표

일 단위
  [0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] (11,12] (12,13] (13,14]
Red 122 21 10 10 5 4 8 42 18 7 11 3 9 17 287
Black 128 20 11 3 5 6 8 33 14 8 7 12 15 15 285
250 41 21 13 10 10 16 75 32 15 18 15 24 32 572

분포표로부터 두 가지 문제를 살펴보겠습니다.

첫째, 날마다 고르게 제출하는가?

둘째, Red, Black 간에 통게적으로 유의한 차이가 있는가?

각 문제를 살펴보기 위해서는 분포표의 일부분을 대상으로 카이제곱 테스트를 수행합니다.

날마다 고르게 제출하는가?

[0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] (11,12] (12,13] (13,14]
250 41 21 13 10 10 16 75 32 15 18 15 24 32
Chi-squared test for given probabilities: .
Test statistic df P value
1246 13 2.469e-258 * * *

날마다 고르게 제출하는지 알아 보았습니다.

분포표의 “계”행에서 ’계’열을 제외하고 카이제곱테스트를 수행합니다.

분포표 만으로도 쉽게 파악할 수 있지만 카이제곱테스트가 명확히 해 줍니다.

카이제곱 통계량은 1245.80, 자유도는 13.00, p-value 는 2.5e-258 이므로 날짜별로 고르게 제출하고 있지 않음을 시사합니다.

막대그래프로 살펴 보겠습니다.

막대그래프

Red, Black 간에 닮았는가?

  [0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] (11,12] (12,13] (13,14]
Red 122 21 10 10 5 4 8 42 18 7 11 3 9 17
Black 128 20 11 3 5 6 8 33 14 8 7 12 15 15
Pearson’s Chi-squared test: .
Test statistic df P value
13.94 13 0.3782

제출시간의 분포가 Red, Black 간에 닮았는지 알아 보았습니다.

이번에는 분포표의 첫번째와 두번째 행, ’계’열을 제외한 나머지 열에 대해서 카이제곱테스트를 수행합니다.

카이제곱 통계량은 13.939, 자유도는 13, p-value 는 0.3782이므로 제출 시간의 분포는 Red, Black 간에 통계적으로 유의한 차이가 관찰되지 않습니다.

이 사실을 Mosaic Plot 을 이용하여 시각적으로 살펴보겠습니다. 닮았다고 느껴지나요?

Mosaic Plot