11주차 데이터실험 집계

실험의 목적

11주차 구글 예습 설문지 집계결과를 분석합니다.

Q1~Q6에서는 랜덤화의 효과로 Red, Black 이 얼마나 닮았는지 알아봅니다.

Q7에서는 Anchor Effects 를 알아 보기 위하여 Red 에서는 대학 등록금이 무상인 나라들의 예를 들고 나서 우리나라 국공립 대학 등록금의 적정 수준에 대해서 묻고, Black 에서는 대학 등록금이 고액인 나라들의 예를 들고 나서 우리나라 국공립 대학 등록금의 적정 수준에 대해서 물어 보아 차이가 통계적으로 유의한지 살핍니다.

그리고, 제출시간의 분포가 날마다 고른지, Red, Black 간에는 닮았는지 알아봅니다.

Red, Black을 잘못 표시한 사람들

  Red(구글예습퀴즈) Black(구글예습퀴즈)
Red(랜덤화출석부) 155 0
Black(랜덤화출석부) 0 149
155 149

응답인원의 Red, Black

Red 로 응답한 인원은 155명, Black 에 응답한 인원은 149명입니다.

전체 응답인원 304 명을 랜덤하게 둘로 나눌 때 어느 한 쪽의 기대인원은 전체 응답인원의 절반인 152명이고, 표준오차는 전체 응답인원의 제곱근에 1/2을 곱해 준 8.7 명입니다.

따라서 Red, Black 각 그룹에 관찰된 인원은 기대인원으로부터 표준오차 범위 안에 들어갑니다.

Q1. 1분위와 5분위의 평균소비성향 비교

집계

  1분위의 평균소비성향이 5분위의 평균소비성향보다 낮다 1분위의 평균소비성향이 5분위의 평균소비성향보다 높다 1분위의 평균소비성향이 5분위의 평균소비성향과 같다 1분위의 평균소비성향과 5분위의 평균소비성향은 비교할 수 없다
Red 17 116 16 6 155
Black 15 116 17 1 149
32 232 33 7 304
Pearson’s Chi-squared test: .
Test statistic df P value
3.61 3 0.3068

Q1의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 3.610, 자유도는 3 , p-value 는 0.3068이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

1분위의 평균소비성향이 5분위의 평균소비성향보다 낮다 1분위의 평균소비성향이 5분위의 평균소비성향보다 높다 1분위의 평균소비성향이 5분위의 평균소비성향과 같다 1분위의 평균소비성향과 5분위의 평균소비성향은 비교할 수 없다
10.5 76.3 10.9 2.3 100.0

정답률은 Red, Black 을 합하여 계산하는데, 76.3(%) 입니다.

Q2. 낙수효과

집계

  낙수효과를 기대하기 어렵다 낙수효과를 잘 보여주고 있다 소비지출이 급격히 늘어나고 있다 고소득층의 평균소비성향이 급격히 늘어나고 있다
Red 107 29 12 7 155
Black 109 23 10 7 149
216 52 22 14 304
Pearson’s Chi-squared test: .
Test statistic df P value
0.7745 3 0.8556

Q2의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 0.775, 자유도는 3, p-value 는 0.8556이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

낙수효과를 기대하기 어렵다 낙수효과를 잘 보여주고 있다 소비지출이 급격히 늘어나고 있다 고소득층의 평균소비성향이 급격히 늘어나고 있다
71.1 17.1 7.2 4.6 100.0

정답률은 Red, Black 을 합하여 계산하는데, 71.1(%) 입니다.

Q3. 최고한계세율과 상위1% 소득점유율

집계

  최고한계세율이 높을 때 상위1%의 소득점유율도 높다. 최고한계세율이 낮을 때 상위1%의 소득점유율도 낮다. 최고한계세율이 높을 때 상위1%의 소득점유율은 낮다. 최고한계세율이 높아지면 상위1%의 소득점유율은 낮아진다.
Red 17 21 104 13 155
Black 14 12 109 14 149
31 33 213 27 304
Pearson’s Chi-squared test: .
Test statistic df P value
2.782 3 0.4265

Q3의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 2.782, 자유도는 3, p-value 는 0.4265이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

최고한계세율이 높을 때 상위1%의 소득점유율도 높다. 최고한계세율이 낮을 때 상위1%의 소득점유율도 낮다. 최고한계세율이 높을 때 상위1%의 소득점유율은 낮다. 최고한계세율이 높아지면 상위1%의 소득점유율은 낮아진다.
10.2 10.9 70.1 8.9 100.0

정답률은 Red, Black 을 합하여 계산하는데, 70.1(%) 입니다.

Q4. 최고한계세율과 상위1%, 하위99%의 소득증가

집계

  최고한계세율이 높았던 시기에 하위 99%의 소득증가율이 상위1%의 소득증가율 보다 높았다. 최고한계세율을 높이면 하위 99%의 소득증가율이 상위1%의 소득증가율보다 높아진다. 최고한계세율이 높았던 시기에 하위 99%의 소득이 상위1%의 소득보다 많았다. 최고한계세율을 높이면 하위 99%의 소득이 상위1%의 소득보다 많아진다.
Red 94 25 23 13 155
Black 102 19 14 14 149
196 44 37 27 304
Pearson’s Chi-squared test: .
Test statistic df P value
3.254 3 0.3541

Q4의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 3.254, 자유도는 3, p-value 는 0.3541이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

최고한계세율이 높았던 시기에 하위 99%의 소득증가율이 상위1%의 소득증가율 보다 높았다. 최고한계세율을 높이면 하위 99%의 소득증가율이 상위1%의 소득증가율보다 높아진다. 최고한계세율이 높았던 시기에 하위 99%의 소득이 상위1%의 소득보다 많았다. 최고한계세율을 높이면 하위 99%의 소득이 상위1%의 소득보다 많아진다.
64.5 14.5 12.2 8.9 100.0

정답률은 Red, Black 을 합하여 계산하는데, 64.5(%) 입니다.

Q5. 생산성과 급료의 격차

집계

  1948년부터 1979년까지는 생산성과 급료가 함께 상승하였다. 1979년 이후 생산성과 급료가 함께 상승하였다. 1979년 이후 생산성은 62.5%의 상승을 보였다. 1979년 이후 급료는 15.9% 의 상승을 보였다.
Red 18 113 15 9 155
Black 12 110 14 13 149
30 223 29 22 304
Pearson’s Chi-squared test: .
Test statistic df P value
1.884 3 0.5967

Q5의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 1.884, 자유도는 3, p-value 는 0.5967이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

1948년부터 1979년까지는 생산성과 급료가 함께 상승하였다. 1979년 이후 생산성과 급료가 함께 상승하였다. 1979년 이후 생산성은 62.5%의 상승을 보였다. 1979년 이후 급료는 15.9% 의 상승을 보였다.
9.9 73.4 9.5 7.2 100.0

정답률은 Red, Black 을 합하여 계산하는데, 73.4(%) 입니다.

Q6. LM3

집계

  10억원 20억원 25억원 30억원
Red 6 117 23 9 155
Black 6 122 13 8 149
12 239 36 17 304
Pearson’s Chi-squared test: .
Test statistic df P value
2.824 3 0.4196

Q6의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 2.824, 자유도는 3, p-value 는 0.4196이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

10억원 20억원 25억원 30억원
3.9 78.6 11.8 5.6 100.0

정답률은 Red, Black 을 합하여 계산하는데, 78.6(%) 입니다.

Q7. 국공립대 등록금 국제 비교

이 질문은 기준점이 어디에 있느냐에 따라서 응답이 달라진다는 Anchor Effects 를 보여줍니다.

국공립대학의 등록금이 무상인 나라들을 소개한 Red 에서는 적정 수준이 “무상” 또는 100만원이라고 응답한 비율이 국공립대학의 등록금이 우리나라보다 높거나 대등한 나라들의 예를 먼저 들고 적정 수준을 물어본 경우(Black)에 “무상” 또는 100만원이라고 응답한 비율보다 월등히 높은 것을 알 수 있습니다.

500만원 이상을 적정하다고 응답한 비율의 비교도 흥미롭습니다.

국공립대 등록금의 적정 수준 (집계)

  무상 100만원 200만원 500만원 1,000만원
Red(등록금무상국가 소개) 23 37 84 10 1 155
Black(등록금고액국가 소개) 11 15 74 43 6 149
34 52 158 53 7 304
Cochran-Armitage test for trend: .
Test statistic dim P value Alternative hypothesis
-5.458 5 2.404e-08 * * * one.sided

Q7의 Red에는 스웨덴, 노르웨이, 아일랜드, 아이슬랜드, 핀란드, 체코 등 국공립대학의 등록금이 전혀 없는 나라들의 예를 든 후에 우리나라 국공립대학 등록금의 적정 수준을 묻고, Black에는 미국, 일본, 오스트레일리아, 캐나다 등 국공립대학 등록금이 높은 수준인 나라들의 예를 든 후에 우리나라 국공립대학 등록금의 적정 수준을 물었습니다.

Daniel Kahneman 의 Thinking, Fast and Slow 에서 설명한 것처럼 이와 같이 설정하였을 때 소개한 나라들의 등록금 수준이 마치 닻을 내린 것과 같은 역할을 하여 등록금이 무상인 나라들을 소개한 Red 에서는 우리나라 국공립대학 등록금의 적정 수준을 낮게 잡고, 대학 등록금 수준이 높은 나라들을 소개한 Black 에서는 우리나라 국공립대학 등록금의 적정 수준을 높게 잡는 것을 관찰할 수 있습니다.

응답결과를 분석하는 데 있어서 유의해야 할 사항은 등록금 수준이 무상에서 1000만원까지 순서가 있다는 점입니다. 따라서 명목형 변수에 대하여 사용한 카이제곱 동일성 테스트를 적용하는 것은 적절치 않고 코크란-아미티지 테스트가 이 상황에 적합한 분석 도구입니다.

적정 등록금 수준을 다섯 단계로 나누어 차이를 분석하기 위한 코크란-아미티지 통계량은 -5.458, dim은 5, p-value 는 2.4e-08 으로 등록금의 적정 수준의 차이가 통계적으로 유의함을 보여 줍니다.

즉, Anchor 효과가 있는 것으로 파악됩니다.

국공립대 등록금의 적정 수준 (%)

  무상 100만원 200만원 500만원 1,000만원
Red(등록금무상국가 소개) 14.84 23.87 54.19 6.45 0.65 100.00
Black(등록금고액국가 소개) 7.38 10.07 49.66 28.86 4.03 100.00

이를 백분율로 살펴보면 대학 등록금 무상 국가들을 소개한 Red에서 국공립대 적정 등록금 수준을 무상이라고 답한 백분율은 14.8(%), 100만원이라고 답한 백분율은 23.9(%) 입니다.

반면 대학 등록금이 고액인 국가들을 소개한 Black에서 국공립대 적정 등록금 수준을 무상이라고 답한 백분율은 7.4(%), 100만원이라고 답한 백분율은 10.1(%) 입니다.

Red에서 국공립대 적정 등록금 수준을 500만원이라고 답한 백분율은 6.5(%), 1,000만원이라고 답한 백분율은 0.65(%) 입니다.

반면 Black에서 국공립대 적정 등록금 수준을 500만원이라고 답한 백분율은 28.9(%), 1,000만원이라고 답한 백분율은 4.0(%) 입니다.

Mosaic Plot

Mosaic Plot 은 이 집계결과를 시각적으로 잘 보여줍니다.

대학 등록금의 적정 수준을 예로 들은 나라들의 수준에 맞춰 설정하는 것을 시각적으로 파악할 수 있습니다.

국공립대 등록금의 적정 수준 (2단계) (%)

무상, 100만원을 100만원 이하, 200만원, 500만원, 1,000만원을 200만원 이상으로 나눠 보겠습니다.

  100만원 이하 200만원 이상
Red(등록금무상국가 소개) 38.7 61.3 100.0
Black(등록금고액국가 소개) 17.4 82.6 100.0

이를 백분율로 살펴보면 Red 에서 100만원 이하를 적정 수준이라고 답한 백분율, 38.7(%)은 200만원 이상을 적정 수준이라고 답한 백분율, 61.3(%) 보다 상당히 높습니다. 반면 Black에서 100만원 이하를 적정 수준이라고 답한 백분율, 17.4(%)은 200만원 이상을 적정 수준이라고 답한 백분율, 82.6(%) 보다 월등히 낮습니다.

Anchor Effects 를 확인할 수 있는 것입니다.

Mosaic Plot

Mosaic Plot 은 이 집계결과를 시각적으로 잘 보여줍니다.

대학 등록금의 적정 수준을 예로 들은 나라들의 수준에 맞춰 설정하는 것을 시각적으로 파악할 수 있습니다.

마감 시간으로부터 제출 시간의 분포

분포표

일 단위
  14일 13일 12일 11일 10일 9일 8일 7일 6일 5일 4일 3일 2일 1일
Red 0 16 4 4 9 6 14 25 24 7 8 10 9 19 155
Black 0 6 9 9 10 7 13 26 18 6 12 5 14 14 149
0 22 13 13 19 13 27 51 42 13 20 15 23 33 304

분포표로부터 두 가지 문제를 살펴보겠습니다.

첫째, 날마다 고르게 제출하는가?

둘째, Red, Black 간에 통게적으로 유의한 차이가 있는가?

각 문제를 살펴보기 위해서는 분포표의 일부분을 대상으로 카이제곱 테스트를 수행합니다.

날마다 고르게 제출하는가?

13일 12일 11일 10일 9일 8일 7일 6일 5일 4일 3일 2일 1일
22 13 13 19 13 27 51 42 13 20 15 23 33
Chi-squared test for given probabilities: .
Test statistic df P value
74.8 12 4.015e-11 * * *

날마다 고르게 제출하는지 알아 보았습니다.

분포표의 “계”행에서 ’계’열을 제외하고 카이제곱테스트를 수행합니다.

분포표 만으로도 쉽게 파악할 수 있지만 카이제곱테스트가 명확히 해 줍니다.

카이제곱 통계량은 74.796, 자유도는 12.00, p-value 는 4e-11 이므로 날짜별로 제출이 고르지 않다는 점을 강력히 시사합니다.

막대그래프로 살펴 보겠습니다.

막대그래프

Red, Black 간에 닮았는가?

  13일 12일 11일 10일 9일 8일 7일 6일 5일 4일 3일 2일 1일
Red 16 4 4 9 6 14 25 24 7 8 10 9 19
Black 6 9 9 10 7 13 26 18 6 12 5 14 14
Pearson’s Chi-squared test: .
Test statistic df P value
13.71 12 0.3196

제출시간의 분포가 Red, Black 간에 닮았는지 알아 보았습니다.

이번에는 분포표의 첫번째와 두번째 행, ’계’열을 제외한 나머지 열에 대해서 카이제곱테스트를 수행합니다.

카이제곱 통계량은 13.71, 자유도는 12, p-value 는 0.3196 이므로 제출 시간의 분포는 Red, Black 간에 통계적으로 유의한 차이가 관찰되지 않습니다.

이 사실을 Mosaic Plot을 이용하여 시각적으로 살펴보겠습니다.

닮았다고 느껴지나요?

Mosaic Plot