2주차 데이터 실험 집계

실험의 목적

2주차 구글 예습 설문지 집계결과를 분석합니다.

Q1~Q6에서는 랜덤화의 효과로 Red, Black 이 얼마나 닮았는지 알아봅니다.

Q7에서는 같은 눈속임 그래프인데 원형그래프의 각도를 속일 떄(Red)와 막대그래프의 높이를 속일 때(Black) 오류를 지각하는 데 차이가 있는지 알아봅니다.

끝으로 제출시간의 분포가 날마다 고른지, Red, Black 간에는 닮았는지 알아봅니다.

Red, Black을 잘못 표시한 사람들

  Red(구글예습퀴즈) Black(구글예습퀴즈)
Red(랜덤화출석부) 269 12
Black(랜덤화출석부) 13 269
282 281

랜덤화출석부에 있는 Red, Black 과 실제 구글설문에 올린 Red, Black 이 다른 사람들의 수효는 25명입니다.

Red를 Black 이라고 한 사람이 12명, Black 을 Red 라고 한 사람이 13명입니다.

두 가지 방법으로 분석합니다.

우선 Red, Black 을 잘못 선택한 25명을 랜덤하게 둘로 나누면 어느 한 쪽 집단에 들어갈 기대인원은 25명을 둘로 나눈 12.5(명)이고, 표준오차는 25의 제곱근에 1/2을 곱해 준 2.5명이 됩니다.

실제로 Red를 Black 이라고 한 사람수, 12명이나 Black 을 Red 라고 한 사람수, 13명은 기대인원으로부터 표준오차 범위 안에 아주 잘 들어갑니다.

사실 표준오차 범위 안에 들어가는 정도가 아니라 25명을 랜덤하게 둘로 나눌 때, 이 이상 닮게 나올 수 없을 정도이죠.

두 번째 분석 방법은 확률을 계산해 보는 것입니다.

Red, Black 을 잘못 선택한 25명을 랜덤하게 둘로 나눌 때, 실제로 관찰된 13명 이상이나 12명이하로 잘못 선택한 사람수가 나올 가능성은 얼마나 되는가 입니다.

이 경우 공평한 동전던지기를 확률 법칙으로 표현한 이항분포로부터 계산할 수 있습니다.

시행횟수가 25이고 한 번 시행에서 성공확률이 1/2 인 이항분포에서 성공횟수가 12이하이거나 13이상을 관찰할 확률은 1입니다.

나올 수 있는 모든 경우가 포함되었다는 뜻이고 가장 닮은 경우가 나온 것입니다.

공평한 동전 던지기에서 앞면이 12개 이하 나오는 확률은 13개 이상 나오는 확률과 같기 때문에 사실상 한쪽만 계산해서 2배 해 주면 됩니다.

이 값을 p-value 라고 하는데, p-value가 0.05보다 작을 때 통계적으로 유의한 차이를 관찰하였다고 말합니다.

즉, 공평한 동전을 던지는 것과 같은 과정이라고 가정하였을 때 실제로 관찰된 값들이 가정으로부터 얼마나 떨어져 있는지를 표현한 것입니다.

0.05, 즉 1/20은 이런 실험을 스무 번 정도 반복하면 1번 나올 정도로 드문 사건을 의미합니다.

즉 가정이 타당하다면 나오기 힘든 결과라는 것입니다.

그런데 Red, Black 을 잘못 표시한 사람들의 분포에서 관찰된 p-value 는 0.05와는 비교도 안될 정도로 큰 값입니다.

따라서 두 집단이 랜덤화 효과가 작동하여 통계적으로 유의한 차이를 보이지 않는다고 할 수 있습니다.

응답인원의 Red, Black

Red 로 응답한 인원은 282명, Black 에 응답한 인원은 281명입니다.

전체 응답인원 563 명을 랜덤하게 둘로 나눌 때 어느 한 쪽의 기대인원은 전체 응답인원의 절반인 281.5명이고, 표준오차는 전체 응답인원의 제곱근에 1/2을 곱해 준 11.9 명입니다.

따라서 Red, Black 각 그룹에 관찰된 인원은 기대인원으로부터 표준오차 범위, 혹은 두배의 표준오차 범위 안에 들어갑니다.

물론 이 경우에도 563 명을 랜덤하게 둘로 나눌 때 더 이상 닮기 어려울 정도로 닮은 인원이 관찰되었습니다만, 일반적으로 기대인원으로부터 표준오차 범위, 혹은 두배의 표준오차 범위 안에 들어간다는 것은 기억해 둘 필요가 있습니다.

Q1. 춘추전국시대에 국가통계관리의 중요성 강조

관자(집계표)

  공자 맹자 관자 노자 장자
Red 40 9 224 8 1 282
Black 25 17 223 11 5 281
65 26 447 19 6 563
Pearson’s Chi-squared test: .
Test statistic df P value
9.064 4 0.05952

Q1의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 9.06, 자유도는 4 , p-value 는 0.0595이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

관자(%)

공자 맹자 관자 노자 장자
11.5 4.6 79.4 3.4 1.1 100.0

정답률은 Red, Black 을 합하여 계산하는데, 79.4(%) 입니다.

Q2. 국가정책을 수립하는 데 통계의 역할

통계의 중요성(집계표)

  절대로 중요하지 않다 거의 중요하지 않다 보통이다 상당히 중요하다 절대적으로 중요하다
Red 0 2 9 94 177 282
Black 2 4 9 94 172 281
2 6 18 188 349 563
Pearson’s Chi-squared test: .
Test statistic df P value
2.056 3 0.561

Q2의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 2.056, 자유도는 3, p-value 는 0.5610이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

통계의 중요성(%)

절대로 중요하지 않다 거의 중요하지 않다 보통이다 상당히 중요하다 절대적으로 중요하다
0.36 1.07 3.20 33.39 61.99 100.00

정답률은 Red, Black 을 합하여 계산하는데, 62.0(%) 입니다.

Q3. 우리나라 생산가능인구 감소 시기

생산가능인구 감소 시기(집계표)

  2012 2017 2022 2027
Red 31 224 23 4 282
Black 23 227 25 6 281
54 451 48 10 563
Pearson’s Chi-squared test: .
Test statistic df P value
1.687 3 0.6399

Q3의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 1.687, 자유도는 3, p-value 는 0.6399이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

생산가능인구 감소 시기(%)

2012 2017 2022 2027
9.6 80.1 8.5 1.8 100.0

정답률은 Red, Black 을 합하여 계산하는데, 80.1(%) 입니다.

Q4. 우리나라 총인구 최대 시기

총인구 최대 시기(집계표)

  2018 2019 2020 2021
Red 47 27 205 3 282
Black 29 27 215 10 281
76 54 420 13 563
Pearson’s Chi-squared test: .
Test statistic df P value
8.269 3 0.04077 *

Q4의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 8.269, 자유도는 3, p-value 는 0.0408이므로 Red, Black 간에 통계적으로 유의한 차이를 보이고 있습니다.

총인구 최대 시기(%)

2018 2019 2020 2021
13.5 9.6 74.6 2.3 100.0

정답률은 Red, Black 을 합하여 계산하는데, 74.6(%) 입니다.

Q5. 소멸위험 단계 개선 지역

소멸위험 단계 개선 지역(집계표)

  서울 경기 세종 제주
Red 13 14 241 14 282
Black 9 14 245 13 281
22 28 486 27 563
Pearson’s Chi-squared test: .
Test statistic df P value
0.7955 3 0.8506

Q5의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 0.795, 자유도는 3, p-value 는 0.8506이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

소멸위험 단계 개선 지역(%)

서울 경기 세종 제주
3.9 5.0 86.3 4.8 100.0

정답률은 Red, Black 을 합하여 계산하는데, 86.3(%) 입니다.

Q6. 조출생률과 합계출산율

조출생률과 합계출산율(집계표)

  합계출산율 A : 0.5, B : 0.125, C : 0.25 합계출산율 A : 0.25, B : 0.125, C : 0.5 합계출산율 A : 0.125, B : 0.5, C : 0.25 합계출산율 A : 0.5, B : 0.25, C : 0.125
Red 163 34 56 29 282
Black 140 56 48 37 281
303 90 104 66 563
Pearson’s Chi-squared test: .
Test statistic df P value
8.707 3 0.03345 *

Q6의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 8.707, 자유도는 3, p-value 는 0.0335이므로 Red, Black 간에 통계적으로 유의한 차이를 보이고 있습니다.

조출생률과 합계출산율(%)

합계출산율 A : 0.5, B : 0.125, C : 0.25 합계출산율 A : 0.25, B : 0.125, C : 0.5 합계출산율 A : 0.125, B : 0.5, C : 0.25 합계출산율 A : 0.5, B : 0.25, C : 0.125
53.8 16.0 18.5 11.7 100.0

정답률은 Red, Black 을 합하여 계산하는데, 53.8(%) 입니다.

Q7. 눈속임 그래프(Cheating Charts)

지난 학기까지 앞에 나오는 선지를 고르기 쉽다는 1번효과에 대한 질문을 만들어서 테스트해 왔지만 효과를 검증하기 어려워 문제를 바꿔 보았습니다.

언론방송에서 가끔 원형그래프나 막대그래프를 제시하면서 숫자와 그림이 맞지 않는 경우를 볼 수 있습니다.

여러분들은 그런 경우에 어떻게 인식하는 지 언론기관에서 발표한 눈속임 그래프를 보여줍니다.

Red에는 원형그래프의 각도를 속이고, Black 에는 막대그래프의 높이를 속여 어떤 응답이 나오는 지 살펴보았습니다.

여러분들은 대부분 눈속임 그래프에 속지 않고 있습니다.

언론기관들이 왜 이런 짓들을 하는지 궁금해집니다.

집계표

  제대로 보여주고 있다 제대로 보여주고 있지 않다 모름/응답거절
Red(김영란법 국회통과) 65 180 37 282
Black(고위공직자 범죄수사처 설립) 100 119 62 281
165 299 99 563
Pearson’s Chi-squared test: .
Test statistic df P value
26.18 2 2.065e-06 * * *

Q7의 Red에는 김영란법 국회통과에 대한 여론조사 결과를 원형그래프로 나타내었는데 잘했다(64%), 잘못했다(7.3%), 모르겠다(28.7%)의 각도를 데이터와 전혀 맞지 않게 왜곡하여 마치 잘했다와 잘못했다의 비율이 거의 대등한 것처럼 각도를 조정하였습니다.

282명이 응답한 가운데 65명이 결과를 “제대로 보여주고 있다”는 반응을 보이고, 180명이 결과를 “제대로 보여주고 있지 않다”는 반응을 보입니다.

Black은 2017년 대선의 대선주자 여론조사에서 33%의 지지율을 기록한 문재인 예비후보와 22%의 지지율을 기록한 안희정 예비후보의 지지율 막대가 거의 비슷한 것처럼 왜곡하였습니다.

281명이 응답한 가운데 100명이 여론조사 결과를 ” 제대로 보여주고 있다”는 반응을 보이고, 119명이 여론조사 결과를 “제대로 보여주고 있지 않다”는 반응을 보입니다.

그리고 “모름/무응답”에 답한 인원은 Red에 37명, Black 에 62명이 었습니다.

카이제곱 테스트는 이와 같은 상황에서 원형그래프를 왜곡할 떄와 막대그래프를 왜곡할 때 인식의 차이가 통계적으로 유의하다는 것을 보여 줍니다.

카이제곱 통계량은 26.180, 자유도는 2, p-value 는 2.1e-06(으)로 그래프의 유형에 따라 눈속임의 인식에 통계적으로 유의한 차이가 관찰된다는 것을 보여줍니다.

여기서 그래프의 유형이 눈속임의 인식에 차이를 주지 않는다고 가정합니다.

랜덤화의 효과로 Red, Black 의 응답은 닮게 마련입니다.

즉, 통계적으로 유의한 차이를 보이지 않게 됩니다.

그러나 실제로 관찰된 카이제곱 통계값의 P-value 는 0.05보다 매우 작은 값입니다.

따라서, 그래프의 유형이 눈속임의 인식에 영향을 끼치지 않는다는 가정은 잘못된 것이죠.

이러한 논증 방식을 귀류법이라고 합니다.

% 비교

  제대로 보여주고 있다 제대로 보여주고 있지 않다 모름/응답거절
Red(김영란법 국회통과) 23.0 63.8 13.1 100.0
Black(고위공직자 범죄수사처 설립) 35.6 42.3 22.1 100.0

원형그래프의 각도를 왜곡한 Red에서 여론조사 결과를 “제대로 보여주고 있다”고 응답하는 사람들의 백분율, 23.0(%)은 “제대로 보여주고 있지 않다”고 응답하는 사람들의 백분율, 63.8(%) 보다 매우 낮습니다.

반면 막대그래프의 높이를 왜곡한 Black에서 여론조사 결과를 “제대로 보여주고 있다”고 응답하는 사람들의 백분율, 35.6(%)은 “제대로 보여주고 있지 않다”고 응답하는 사람들의 백분율, 42.3(%) 보다 적습니다.

원형그래프에서 눈속임을 지각하는 백분율이 막대그래프에서 눈속임을 지각하는 백분율보다 훨씬 높게 나타나고 있습니다.

원형그래프의 각도를 속이느냐, 막대그래프의 높이를 속이느냐에 따라 반응이 달라진다는 것을 잘 알 수 있습니다.

Mosaic Plot

Mosaic Plot 은 이 집계결과를 시각적으로 잘 보여줍니다.

원형그래프의 각도를 왜곡한 Red 에서 여론조사 결과를 “제대로 보여주고 있다”고 응답한 백분율이 매우 낮고, 막대그래프의 높이를 왜곡한 Black 에서 여론조사 결과를 “제대로 보여주고 있다”고 응답한 백분율은 상대적으로 덜 낮은 것을 시각적으로 알 수 있습니다.

마감 시간으로부터 제출 시간의 분포

분포표

일 단위
  [0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] (11,12] (12,13] (13,14]
Red 52 17 9 6 12 8 12 51 20 13 21 13 21 27 282
Black 59 11 11 3 6 7 9 43 19 18 20 21 26 28 281
111 28 20 9 18 15 21 94 39 31 41 34 47 55 563

분포표로부터 두 가지 문제를 살펴보겠습니다.

첫째, 날마다 고르게 제출하는가?

둘쨰, Red, Black 간에 통계적으로 유의한 차이가 있는가?

각 문제를 살펴보기 위해서는 분포표의 일부분을 대상으로 카이제곱 테스트를 수행합니다.

날마다 고르게 제출하는가?

[0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] (11,12] (12,13] (13,14]
111 28 20 9 18 15 21 94 39 31 41 34 47 55
Chi-squared test for given probabilities: .
Test statistic df P value
281.6 13 1.685e-52 * * *

날마다 고르게 제출하는지 알아 보았습니다.

분포표의 “계”행에서 ’계’열을 제외하고 카이제곱테스트를 수행합니다.

분포표 만으로도 쉽게 파악할 수 있지만 카이제곱테스트가 명확히 해 줍니다.

카이제곱 통계량은 281.60, 자유도는 13.00, p-value 는 1.7e-52 이므로 결코 고르게 제출한다고 말할 수 없겠습니다.

막대그래프로 살펴 보겠습니다.

막대그래프

막대그래프는 총 제출인원 563(명) 중에 111(명), 20(%)가 마감일에 몰리는 것을 명확히 보여주고 있습니다.

Red, Black 간에 닮았는가?

  [0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] (11,12] (12,13] (13,14]
Red 52 17 9 6 12 8 12 51 20 13 21 13 21 27
Black 59 11 11 3 6 7 9 43 19 18 20 21 26 28
Pearson’s Chi-squared test: .
Test statistic df P value
9.39 13 0.7429

제출시간의 분포가 Red, Black 간에 닮았는지 알아 보았습니다.

이번에는 분포표의 첫번쨰와 두번쨰 행, ’계’열을 제외한 나머지 열에 대해서 카이제곱테스트를 수행합니다.

카이제곱 통계량은 9.390, 자유도는 13, p-value 는 0.7429 이므로 제출 시간의 분포는 Red, Black 간에 통계적으로 유의한 차이가 관찰되지 않습니다.

이 사실을 Mosaic Plot 을 이용하여 시각적으로 살펴보겠습니다.

닮았다고 느껴지나요?

Mosaic Plot