Red, Black을 잘못 표시한 사람들

랜덤화출석부에 있는 Red, Black 과 실제 구글예습퀴즈에 올린 Red, Black 이 여전히 다른 사람들이 있어서 파악해 보았습니다. Red를 Black 이라고 한 사람의 수효(27명)와 Black을 Red 라고 한 사람의 수효(17명)에 차이가 많이 나는 것처럼 보이지만 44명이 동전을 던져서 앞면, 뒷면을 나눠보면 44 \(\pm\sqrt44/2\) = 22 \(\pm\) 3.3 명으로 범위를 살짝 벗어나는 수준입니다. p-value 로 이야기해 보면 동전의 앞면이 17명 이하거나 27명 이상일 확률은 0.174 으로 0.05보다 훨씬 큰 값입니다.

  Red(구글예습퀴즈) Black(구글예습퀴즈)
Red(랜덤화출석부) 351 72
Black(랜덤화출석부) 85 345

퀴즈 응답 비교

Q1. 춘추전국시대에 국가통계관리의 중요성 강조

관자(집계표)

  공자 맹자 관자 노자 장자
Red 84 45 275 19 13 436
Black 90 38 270 13 6 417
174 83 545 32 19 853
Pearson’s Chi-squared test with simulated p-value (based on 2000 replicates): .
Test statistic df P value
4.126 NA 0.3883

관자(%)

공자 맹자 관자 노자 장자
20.4 9.7 63.9 3.8 2.2 100.0

Q2. 국가정책을 수립하는 데 통계의 역할

통계의 중요성(집계표)

  절대로 중요하지 않다 거의 중요하지 않다 보통이다 상당히 중요하다 절대적으로 중요하다
Red 2 2 11 197 224 436
Black 3 1 11 192 210 417
5 3 22 389 434 853
Pearson’s Chi-squared test with simulated p-value (based on 2000 replicates): .
Test statistic df P value
0.08871 NA 0.976

통계의 중요성(%)

절대로 중요하지 않다 거의 중요하지 않다 보통이다 상당히 중요하다 절대적으로 중요하다
0.59 0.35 2.58 45.60 50.88 100.00

Q3. 우리나라 생산가능인구 감소 시기

생산가능인구 감소 시기(집계표)

  2012 2017 2022 2027
Red 56 344 34 2 436
Black 58 310 42 7 417
114 654 76 9 853
Pearson’s Chi-squared test with simulated p-value (based on 2000 replicates): .
Test statistic df P value
5.002 NA 0.1754

생산가능인구 감소 시기(%)

2012 2017 2022 2027
13.4 76.7 8.9 1.1 100.0

Q4. 우리나라 총인구 최대 시기

총인구 최대 시기(집계표)

  2018 2019 2020 2021
Red 110 57 253 16 436
Black 119 62 212 24 417
229 119 465 40 853
Pearson’s Chi-squared test: .
Test statistic df P value
5.358 3 0.1474

총인구 최대 시기(%)

2018 2019 2020 2021
26.8 14.0 54.5 4.7 100.0

Q5. 소멸위험 단계 개선 지역

소멸위험 단계 개선 지역(집계표)

  서울 경기 세종 제주
Red 24 33 344 35 436
Black 25 38 327 27 417
49 71 671 62 853
Pearson’s Chi-squared test: .
Test statistic df P value
1.413 3 0.7025

소멸위험 단계 개선 지역(%)

서울 경기 세종 제주
5.7 8.3 78.7 7.3 100.0

Q6. 조출생률과 합계출산율

조출생률과 합계출산율(집계표)

  합계출산율 A : 0.5, B : 0.125, C : 0.25 합계출산율 A : 0.25, B : 0.125, C : 0.5 합계출산율 A : 0.125, B : 0.5, C : 0.25 합계출산율 A : 0.5, B : 0.25, C : 0.125
Red 227 72 93 44 436
Black 212 63 106 36 417
439 135 199 80 853
Pearson’s Chi-squared test: .
Test statistic df P value
2.34 3 0.505

조출생률과 합계출산율(%)

합계출산율 A : 0.5, B : 0.125, C : 0.25 합계출산율 A : 0.25, B : 0.125, C : 0.5 합계출산율 A : 0.125, B : 0.5, C : 0.25 합계출산율 A : 0.5, B : 0.25, C : 0.125
51.5 15.8 23.3 9.4 100.0

Cheating Charts

Q7. 눈속임 그래프

지난 학기까지 앞에 나오는 선지를 고르기 쉽다는 1번효과에 대한 질문을 만들어서 테스트해 왔지만 효과를 검증하기 어려워 문제를 바꿔 보았습니다. 언론방송에서 가끔 원형그래프나 막대그래프를 제시하면서 숫자와 그림이 맞지 않는 경우를 볼 수 있습니다. 여러분들은 그런 경우에 어떻게 인식하는 지 Red 와 Black 에 언론기관에서 발표한 눈속임 그래프를 보여주면서 어떤 응답이 나올지 살펴보았습니다. 여러분들은 대부분 눈속임 그래프에 속지 않고 있습니다. 언론기관들이 왜 이런 짓들을 하는지 궁금해집니다.

Red

Black

집계표

  제대로 보여주고 있다 제대로 보여주고 있지 않다 모름/응답거절
Red(김영란법 국회통과) 88 263 85 436
Black(고위공직자 범죄수사처 설립) 130 188 99 417
218 451 184 853
Pearson’s Chi-squared test: .
Test statistic df P value
21.22 2 2.471e-05 * * *

% 비교

  제대로 보여주고 있다 제대로 보여주고 있지 않다 모름/응답거절
Red(김영란법 국회통과) 20.2 60.3 19.5 100.0
Black(고위공직자 범죄수사처 설립) 31.2 45.1 23.7 100.0

Mosaic Plot

제출 시간의 분포

과제 제출이 제출 기간 마지막 날에 몰린다는 것을 시각적으로 보여주고 싶어서 하나 추가하였습니다. 아직은 학기초라 덜 한데, 중반 이후가 되면 마지막 날, 그것도 오후2시부터 몰리는 현상을 관찰할 수 있습니다. 여기서조차 랜덤화 효과를 관찰할 수 있네요. p-value 에 유의해 주세요. 제출시간과 관련한 두 가지 현상에 대해서도 여러분의 생각을 들어보고 싶습니다. 첫째, 랜덤화 효과. 둘쨰, 마감날에 몰리는 현상.

일 단위 마감 시간으로부터 제출 시간의 분포

분포표

일 단위
  [0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] (11,12] (12,13] (13,14]
Red 69 11 15 4 7 15 16 76 44 35 22 35 42 44
Black 62 16 14 3 13 12 11 54 50 35 28 44 36 37
Pearson’s Chi-squared test with simulated p-value (based on 2000 replicates): .
Test statistic df P value
10.99 NA 0.6377

막대그래프

Mosaic Plot