11주차 데이터실험 집계

실험의 목적

11주차 구글 예습 설문지 집계결과를 분석합니다.

Q1~Q6에서는 랜덤화의 효과로 Red, Black 이 얼마나 닮았는지 알아봅니다.

Q7에서는 Anchor Effects 를 알아 보기 위하여 Red 에서는 대학 등록금이 무상인 나라들의 예를 들고 나서 우리나라 국공립 대학 등록금의 적정 수준에 대해서 묻고, Black 에서는 대학 등록금이 고액인 나라들의 예를 들고 나서 우리나라 국공립 대학 등록금의 적정 수준에 대해서 물어 보아 차이가 통계적으로 유의한지 살핍니다.

그리고, 제출시간의 분포가 날마다 고른지, Red, Black 간에는 닮았는지 알아봅니다.

Red, Black을 잘못 표시한 사람들

  Red(구글예습퀴즈) Black(구글예습퀴즈)
Red(랜덤화출석부) 345 1
Black(랜덤화출석부) 1 355
346 356

응답인원의 Red, Black

Red 로 응답한 인원은 346명, Black 에 응답한 인원은 356명입니다.

전체 응답인원 702 명을 랜덤하게 둘로 나눌 때 어느 한 쪽의 기대인원은 전체 응답인원의 절반인 351명이고, 표준오차는 전체 응답인원의 제곱근에 1/2을 곱해 준 13.2 명입니다.

따라서 Red, Black 각 그룹에 관찰된 인원은 기대인원으로부터 표준오차 범위 안에 들어갑니다.

Q1. 1분위와 5분위의 평균소비성향 비교

집계

  1분위의 평균소비성향이 5분위의 평균소비성향보다 낮다 1분위의 평균소비성향이 5분위의 평균소비성향보다 높다 1분위의 평균소비성향이 5분위의 평균소비성향과 같다 1분위의 평균소비성향과 5분위의 평균소비성향은 비교할 수 없다
Red 23 257 52 14 346
Black 24 243 67 22 356
47 500 119 36 702
Pearson’s Chi-squared test: .
Test statistic df P value
3.94 3 0.268

Q1의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 3.940, 자유도는 3 , p-value 는 0.2680이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

1분위의 평균소비성향이 5분위의 평균소비성향보다 낮다 1분위의 평균소비성향이 5분위의 평균소비성향보다 높다 1분위의 평균소비성향이 5분위의 평균소비성향과 같다 1분위의 평균소비성향과 5분위의 평균소비성향은 비교할 수 없다
6.7 71.2 17.0 5.1 100.0

정답률은 Red, Black 을 합하여 계산하는데, 71.2(%) 입니다.

Q2. 낙수효과

집계

  낙수효과를 기대하기 어렵다 낙수효과를 잘 보여주고 있다 소비지출이 급격히 늘어나고 있다 고소득층의 평균소비성향이 급격히 늘어나고 있다
Red 219 75 31 21 346
Black 210 81 42 23 356
429 156 73 44 702
Pearson’s Chi-squared test: .
Test statistic df P value
2.026 3 0.567

Q2의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 2.026, 자유도는 3, p-value 는 0.5670이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

낙수효과를 기대하기 어렵다 낙수효과를 잘 보여주고 있다 소비지출이 급격히 늘어나고 있다 고소득층의 평균소비성향이 급격히 늘어나고 있다
61.1 22.2 10.4 6.3 100.0

정답률은 Red, Black 을 합하여 계산하는데, 61.1(%) 입니다.

Q3. 최고한계세율과 상위1% 소득점유율

집계

  최고한계세율이 높을 때 상위1%의 소득점유율도 높다. 최고한계세율이 낮을 때 상위1%의 소득점유율도 낮다. 최고한계세율이 높을 때 상위1%의 소득점유율은 낮다. 최고한계세율이 높아지면 상위1%의 소득점유율은 낮아진다.
Red 26 58 230 32 346
Black 28 62 213 53 356
54 120 443 85 702
Pearson’s Chi-squared test: .
Test statistic df P value
5.907 3 0.1162

Q3의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 5.907, 자유도는 3, p-value 는 0.1162이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

최고한계세율이 높을 때 상위1%의 소득점유율도 높다. 최고한계세율이 낮을 때 상위1%의 소득점유율도 낮다. 최고한계세율이 높을 때 상위1%의 소득점유율은 낮다. 최고한계세율이 높아지면 상위1%의 소득점유율은 낮아진다.
7.7 17.1 63.1 12.1 100.0

정답률은 Red, Black 을 합하여 계산하는데, 63.1(%) 입니다.

Q4. 최고한계세율과 상위1%, 하위99%의 소득증가

집계

  최고한계세율이 높았던 시기에 하위 99%의 소득증가율이 상위1%의 소득증가율 보다 높았다. 최고한계세율을 높이면 하위 99%의 소득증가율이 상위1%의 소득증가율보다 높아진다. 최고한계세율이 높았던 시기에 하위 99%의 소득이 상위1%의 소득보다 많았다. 최고한계세율을 높이면 하위 99%의 소득이 상위1%의 소득보다 많아진다.
Red 172 79 70 25 346
Black 175 76 71 34 356
347 155 141 59 702
Pearson’s Chi-squared test: .
Test statistic df P value
1.322 3 0.724

Q4의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 1.322, 자유도는 3, p-value 는 0.7240이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

최고한계세율이 높았던 시기에 하위 99%의 소득증가율이 상위1%의 소득증가율 보다 높았다. 최고한계세율을 높이면 하위 99%의 소득증가율이 상위1%의 소득증가율보다 높아진다. 최고한계세율이 높았던 시기에 하위 99%의 소득이 상위1%의 소득보다 많았다. 최고한계세율을 높이면 하위 99%의 소득이 상위1%의 소득보다 많아진다.
49.4 22.1 20.1 8.4 100.0

정답률은 Red, Black 을 합하여 계산하는데, 20.1(%) 입니다.

Q5. 생산성과 급료의 격차

집계

  1948년부터 1979년까지는 생산성과 급료가 함께 상승하였다. 1979년 이후 생산성과 급료가 함께 상승하였다. 1979년 이후 생산성은 62.5%의 상승을 보였다. 1979년 이후 급료는 15.9% 의 상승을 보였다.
Red 36 238 46 26 346
Black 40 224 70 22 356
76 462 116 48 702
Pearson’s Chi-squared test: .
Test statistic df P value
5.792 3 0.1222

Q5의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 5.792, 자유도는 3, p-value 는 0.1222이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

1948년부터 1979년까지는 생산성과 급료가 함께 상승하였다. 1979년 이후 생산성과 급료가 함께 상승하였다. 1979년 이후 생산성은 62.5%의 상승을 보였다. 1979년 이후 급료는 15.9% 의 상승을 보였다.
10.8 65.8 16.5 6.8 100.0

정답률은 Red, Black 을 합하여 계산하는데, 65.8(%) 입니다.

Q6. LM3

집계

  10억원 20억원 25억원 30억원
Red 13 249 56 28 346
Black 22 234 74 26 356
35 483 130 54 702
Pearson’s Chi-squared test: .
Test statistic df P value
5.205 3 0.1574

Q6의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 5.205, 자유도는 3, p-value 는 0.1574이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

10억원 20억원 25억원 30억원
5.0 68.8 18.5 7.7 100.0

정답률은 Red, Black 을 합하여 계산하는데, 68.8(%) 입니다.

Q7. 국공립대 등록금 국제 비교

이 질문은 기준점이 어디에 있느냐에 따라서 응답이 달라진다는 Anchor Effects 를 보여줍니다.

국공립대학의 등록금이 무상인 나라들을 소개한 Red 에서는 적정 수준이 “무상” 또는 100만원이라고 응답한 비율이 국공립대학의 등록금이 우리나라보다 높거나 대등한 나라들의 예를 먼저 들고 적정 수준을 물어본 경우(Black)에 “무상” 또는 100만원이라고 응답한 비율보다 월등히 높은 것을 알 수 있습니다.

500만원 이상을 적정하다고 응답한 비율의 비교도 흥미롭습니다.

국공립대 등록금의 적정 수준 (집계)

  무상 100만원 200만원 500만원 1,000만원
Red(등록금무상국가 소개) 66 125 120 29 6 346
Black(등록금고액국가 소개) 25 64 197 57 13 356
91 189 317 86 19 702
Pearson’s Chi-squared test: .
Test statistic df P value
68.43 4 4.867e-14 * * *

Q7의 Red에는 스웨덴, 노르웨이, 아일랜드, 아이슬랜드, 핀란드, 체코 등 국공립대의 등록금이 전혀 없는 나라들의 예를 들고 나서 우리나라 국공립대 등록금의 적정 수준을 묻고, Black에는 미국, 일본, 오스트레일리아, 캐나다 등 국공립대학의 등록금이 높은 수준인 나라들의 예를 들고 나서 우리나라 국공립대 등록금의 적정 수준을 물었습니다.

Daniel Kahneman 의 Think, Fast and Slow 에서 소개한 바와 같이 이와 설정하였을 때 소개한 나라들의 등록금 수준이 마치 닻을 내린 것과 같은 역할을 하여 등록금이 무상인 나라들을 소개한 Red 에서는 우리나라 국공립대 등록금의 적정 수준을 낮게 잡고, 대학 등록금 수준이 높은 나라들을 소개한 Black 에서는 우리나라 국공립대 등록금의 적정 수준을 높게 잡는 것을 관찰할 수 있습니다.

그 결과 적정 등록금 수준을 다섯 단계로 나누어 차이를 분석하기 위한 카이제곱 통계량은 68.430, 자유도는 4, p-value 는 4.9e-14 으로 등록금의 적정 수준의 차이가 통계적으로 유의함을 보여 줍니다.

즉, Anchor 효과가 있는 것으로 파악됩니다.

국공립대 등록금의 적정 수준 (%)

  무상 100만원 200만원 500만원 1,000만원
Red(등록금무상국가 소개) 19.1 36.1 34.7 8.4 1.7 100.0
Black(등록금고액국가 소개) 7.0 18.0 55.3 16.0 3.7 100.0

이를 백분율로 살펴보면 대학 등록금 무상 국가들을 소개한 Red에서 국공립대 적정 등록금 수준을 무상이라고 답한 백분율은 19.1(%), 100만원이라고 답한 백분율은 36.1(%) 입니다.

반면 대학 등록금이 고액인 국가들을 소개한 Black에서 국공립대 적정 등록금 수준을 무상이라고 답한 백분율은 7.0(%), 100만원이라고 답한 백분율은 18.0(%) 입니다.

Red에서 국공립대 적정 등록금 수준을 500만원이라고 답한 백분율은 8.4(%), 1,000만원이라고 답한 백분율은 1.7(%) 입니다.

반면 Black에서 국공립대 적정 등록금 수준을 500만원이라고 답한 백분율은 16.0(%), 1,000만원이라고 답한 백분율은 3.7(%) 입니다.

국공립대 등록금의 적정 수준 (2단계) (%)

무상, 100만원을 100만원 이하, 200만원, 500만원, 1,000만원을 200만원 이상으로 나눠 보겠습니다.

  100만원 이하 200만원 이상
Red(등록금무상국가 소개) 55.2 44.8 100.0
Black(등록금고액국가 소개) 25.0 75.0 100.0

이를 백분율로 살펴보면 Red 에서 100만원 이하를 적정 수준이라고 답한 백분율, 55.2(%)은 200만원 이상을 적정 수준이라고 답한 백분율, 36.1(%) 보다 월등히 높습니다. 반면 Black에서 100만원 이하를 적정 수준이라고 답한 백분율, 7.0(%)은 200만원 이상을 적정 수준이라고 답한 백분율, 18.0(%) 보다 낮습니다.

Anchor Effects 를 확인할 수 있는 것입니다.

Mosaic Plot

Mosaic Plot 은 이 집계결과를 시각적으로 잘 보여줍니다.

대학 등록금의 적정 수준을 예로 들은 나라들의 수준에 맞춰 설정하는 것을 시각적으로 파악할 수 있습니다.

마감 시간으로부터 제출 시간의 분포

분포표

일 단위
  [0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] (11,12] (12,13] (13,14]
Red 117 20 14 8 9 10 10 35 12 19 24 17 19 32 346
Black 126 25 9 6 4 11 6 38 24 13 25 18 24 27 356
243 45 23 14 13 21 16 73 36 32 49 35 43 59 702

분포표로부터 두 가지 문제를 살펴보겠습니다.

첫째, 날마다 고르게 제출하는가?

둘쨰, Red, Black 간에 통게적으로 유의한 차이가 있는가?

각 문제를 살펴보기 위해서는 분포표의 일부분을 대상으로 카이제곱 테스트를 수행합니다.

날마다 고르게 제출하는가?

[0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] (11,12] (12,13] (13,14]
243 45 23 14 13 21 16 73 36 32 49 35 43 59
Chi-squared test for given probabilities: .
Test statistic df P value
878.9 13 1.718e-179 * * *

날마다 고르게 제출하는지 알아 보았습니다.

분포표의 “계”행에서 ’계’열을 제외하고 카이제곱테스트를 수행합니다.

분포표 만으로도 쉽게 파악할 수 있지만 카이제곱테스트가 명확히 해 줍니다.

카이제곱 통계량은 878.883, 자유도는 13.00, p-value 는 1.7e-179 이므로 날짜별로 제출이 고르지 않다는 점을 강력히 시사합니다.

막대그래프로 살펴 보겠습니다.

막대그래프

Red, Black 간에 닮았는가?

  [0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] (11,12] (12,13] (13,14]
Red 117 20 14 8 9 10 10 35 12 19 24 17 19 32
Black 126 25 9 6 4 11 6 38 24 13 25 18 24 27
Pearson’s Chi-squared test: .
Test statistic df P value
11.39 13 0.5778

제출시간의 분포가 Red, Black 간에 닮았는지 알아 보았습니다.

이번에는 분포표의 첫번쨰와 두번쨰 행, ’계’열을 제외한 나머지 열에 대해서 카이제곱테스트를 수행합니다.

카이제곱 통계량은 11.39, 자유도는 13, p-value 는 0.5778 이므로 제출 시간의 분포는 Red, Black 간에 통계적으로 유의한 차이가 관찰되지 않습니다.

이 사실을 Mosaic Plot을 이용하여 시각적으로 살펴보겠습니다.

닮았다고 느껴지나요?

Mosaic Plot