11주차 구글 예습 설문지 집계결과를 분석합니다.
Q1~Q6에서는 랜덤화의 효과로 Red, Black 이 얼마나 닮았는지 알아봅니다.
Q7에서는 Anchor Effects 를 알아 보기 위하여 Red 에서는 대학 등록금이 무상인 나라들의 예를 들고 나서 우리나라 국공립 대학 등록금의 적정 수준에 대해서 묻고, Black 에서는 대학 등록금이 고액인 나라들의 예를 들고 나서 우리나라 국공립 대학 등록금의 적정 수준에 대해서 물어 보아 차이가 통계적으로 유의한지 살핍니다.
그리고, 제출시간의 분포가 날마다 고른지, Red, Black 간에는 닮았는지 알아봅니다.
Red(구글예습퀴즈) | Black(구글예습퀴즈) | |
---|---|---|
Red(랜덤화출석부) | 279 | 0 |
Black(랜덤화출석부) | 0 | 277 |
계 | 279 | 277 |
Red 로 응답한 인원은 279명, Black 에 응답한 인원은 277명입니다.
전체 응답인원 556 명을 랜덤하게 둘로 나눌 때 어느 한 쪽의 기대인원은 전체 응답인원의 절반인 278명이고, 표준오차는 전체 응답인원의 제곱근에 1/2을 곱해 준 11.8 명입니다.
따라서 Red, Black 각 그룹에 관찰된 인원은 기대인원으로부터 표준오차 범위 안에 들어갑니다.
1분위의 평균소비성향이 5분위의 평균소비성향보다 낮다 | 1분위의 평균소비성향이 5분위의 평균소비성향보다 높다 | 1분위의 평균소비성향이 5분위의 평균소비성향과 같다 | 1분위의 평균소비성향과 5분위의 평균소비성향은 비교할 수 없다 | 계 | |
---|---|---|---|---|---|
Red | 20 | 206 | 40 | 13 | 279 |
Black | 19 | 199 | 41 | 18 | 277 |
계 | 39 | 405 | 81 | 31 | 556 |
Test statistic | df | P value |
---|---|---|
0.9582 | 3 | 0.8114 |
Q1의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.
그 결과 카이제곱 통계량은 0.958, 자유도는 3 , p-value 는 0.8114이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.
실제로 닮은 게 느껴집니까?
1분위의 평균소비성향이 5분위의 평균소비성향보다 낮다 | 1분위의 평균소비성향이 5분위의 평균소비성향보다 높다 | 1분위의 평균소비성향이 5분위의 평균소비성향과 같다 | 1분위의 평균소비성향과 5분위의 평균소비성향은 비교할 수 없다 | 계 |
---|---|---|---|---|
7.0 | 72.8 | 14.6 | 5.6 | 100.0 |
정답률은 Red, Black 을 합하여 계산하는데, 72.8(%) 입니다.
낙수효과를 기대하기 어렵다 | 낙수효과를 잘 보여주고 있다 | 소비지출이 급격히 늘어나고 있다 | 고소득층의 평균소비성향이 급격히 늘어나고 있다 | 계 | |
---|---|---|---|---|---|
Red | 174 | 52 | 33 | 20 | 279 |
Black | 180 | 63 | 21 | 13 | 277 |
계 | 354 | 115 | 54 | 33 | 556 |
Test statistic | df | P value |
---|---|---|
5.298 | 3 | 0.1512 |
Q2의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.
그 결과 카이제곱 통계량은 5.298, 자유도는 3, p-value 는 0.1512이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.
실제로 닮은 게 느껴집니까?
낙수효과를 기대하기 어렵다 | 낙수효과를 잘 보여주고 있다 | 소비지출이 급격히 늘어나고 있다 | 고소득층의 평균소비성향이 급격히 늘어나고 있다 | 계 |
---|---|---|---|---|
63.7 | 20.7 | 9.7 | 5.9 | 100.0 |
정답률은 Red, Black 을 합하여 계산하는데, 63.7(%) 입니다.
최고한계세율이 높을 때 상위1%의 소득점유율도 높다. | 최고한계세율이 낮을 때 상위1%의 소득점유율도 낮다. | 최고한계세율이 높을 때 상위1%의 소득점유율은 낮다. | 최고한계세율이 높아지면 상위1%의 소득점유율은 낮아진다. | 계 | |
---|---|---|---|---|---|
Red | 27 | 37 | 174 | 41 | 279 |
Black | 27 | 31 | 183 | 36 | 277 |
계 | 54 | 68 | 357 | 77 | 556 |
Test statistic | df | P value |
---|---|---|
1.074 | 3 | 0.7834 |
Q3의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.
그 결과 카이제곱 통계량은 1.074, 자유도는 3, p-value 는 0.7834이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.
실제로 닮은 게 느껴집니까?
최고한계세율이 높을 때 상위1%의 소득점유율도 높다. | 최고한계세율이 낮을 때 상위1%의 소득점유율도 낮다. | 최고한계세율이 높을 때 상위1%의 소득점유율은 낮다. | 최고한계세율이 높아지면 상위1%의 소득점유율은 낮아진다. | 계 |
---|---|---|---|---|
9.7 | 12.2 | 64.2 | 13.8 | 100.0 |
정답률은 Red, Black 을 합하여 계산하는데, 64.2(%) 입니다.
최고한계세율이 높았던 시기에 하위 99%의 소득증가율이 상위1%의 소득증가율 보다 높았다. | 최고한계세율을 높이면 하위 99%의 소득증가율이 상위1%의 소득증가율보다 높아진다. | 최고한계세율이 높았던 시기에 하위 99%의 소득이 상위1%의 소득보다 많았다. | 최고한계세율을 높이면 하위 99%의 소득이 상위1%의 소득보다 많아진다. | 계 | |
---|---|---|---|---|---|
Red | 159 | 44 | 56 | 20 | 279 |
Black | 154 | 57 | 39 | 27 | 277 |
계 | 313 | 101 | 95 | 47 | 556 |
Test statistic | df | P value |
---|---|---|
5.831 | 3 | 0.1201 |
Q4의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.
그 결과 카이제곱 통계량은 5.831, 자유도는 3, p-value 는 0.1201이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.
실제로 닮은 게 느껴집니까?
최고한계세율이 높았던 시기에 하위 99%의 소득증가율이 상위1%의 소득증가율 보다 높았다. | 최고한계세율을 높이면 하위 99%의 소득증가율이 상위1%의 소득증가율보다 높아진다. | 최고한계세율이 높았던 시기에 하위 99%의 소득이 상위1%의 소득보다 많았다. | 최고한계세율을 높이면 하위 99%의 소득이 상위1%의 소득보다 많아진다. | 계 |
---|---|---|---|---|
56.3 | 18.2 | 17.1 | 8.5 | 100.0 |
정답률은 Red, Black 을 합하여 계산하는데, 17.1(%) 입니다.
1948년부터 1979년까지는 생산성과 급료가 함께 상승하였다. | 1979년 이후 생산성과 급료가 함께 상승하였다. | 1979년 이후 생산성은 62.5%의 상승을 보였다. | 1979년 이후 급료는 15.9% 의 상승을 보였다. | 계 | |
---|---|---|---|---|---|
Red | 32 | 187 | 39 | 21 | 279 |
Black | 31 | 194 | 35 | 17 | 277 |
계 | 63 | 381 | 74 | 38 | 556 |
Test statistic | df | P value |
---|---|---|
0.7746 | 3 | 0.8555 |
Q5의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.
그 결과 카이제곱 통계량은 0.775, 자유도는 3, p-value 는 0.8555이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.
실제로 닮은 게 느껴집니까?
1948년부터 1979년까지는 생산성과 급료가 함께 상승하였다. | 1979년 이후 생산성과 급료가 함께 상승하였다. | 1979년 이후 생산성은 62.5%의 상승을 보였다. | 1979년 이후 급료는 15.9% 의 상승을 보였다. | 계 |
---|---|---|---|---|
11.3 | 68.5 | 13.3 | 6.8 | 100.0 |
정답률은 Red, Black 을 합하여 계산하는데, 68.5(%) 입니다.
10억원 | 20억원 | 25억원 | 30억원 | 계 | |
---|---|---|---|---|---|
Red | 12 | 200 | 52 | 15 | 279 |
Black | 14 | 215 | 38 | 10 | 277 |
계 | 26 | 415 | 90 | 25 | 556 |
Test statistic | df | P value |
---|---|---|
3.867 | 3 | 0.2762 |
Q6의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.
그 결과 카이제곱 통계량은 3.867, 자유도는 3, p-value 는 0.2762이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.
실제로 닮은 게 느껴집니까?
10억원 | 20억원 | 25억원 | 30억원 | 계 |
---|---|---|---|---|
4.7 | 74.6 | 16.2 | 4.5 | 100.0 |
정답률은 Red, Black 을 합하여 계산하는데, 74.6(%) 입니다.
이 질문은 기준점이 어디에 있느냐에 따라서 응답이 달라진다는 Anchor Effects 를 보여줍니다.
국공립대학의 등록금이 무상인 나라들을 소개한 Red 에서는 적정 수준이 “무상” 또는 100만원이라고 응답한 비율이 국공립대학의 등록금이 우리나라보다 높거나 대등한 나라들의 예를 먼저 들고 적정 수준을 물어본 경우(Black)에 “무상” 또는 100만원이라고 응답한 비율보다 월등히 높은 것을 알 수 있습니다.
500만원 이상을 적정하다고 응답한 비율의 비교도 흥미롭습니다.
무상 | 100만원 | 200만원 | 500만원 | 1,000만원 | 계 | |
---|---|---|---|---|---|---|
Red(등록금무상국가 소개) | 66 | 99 | 90 | 19 | 5 | 279 |
Black(등록금고액국가 소개) | 11 | 47 | 163 | 53 | 3 | 277 |
계 | 77 | 146 | 253 | 72 | 8 | 556 |
Test statistic | dim | P value | Alternative hypothesis |
---|---|---|---|
-8.755 | 5 | 0 * * * | one.sided |
Q7의 Red에는 스웨덴, 노르웨이, 아일랜드, 아이슬랜드, 핀란드, 체코 등 국공립대학의 등록금이 전혀 없는 나라들의 예를 든 후에 우리나라 국공립대학 등록금의 적정 수준을 묻고, Black에는 미국, 일본, 오스트레일리아, 캐나다 등 국공립대학 등록금이 높은 수준인 나라들의 예를 든 후에 우리나라 국공립대학 등록금의 적정 수준을 물었습니다.
Daniel Kahneman 의 Thinking, Fast and Slow 에서 설명한 것처럼 이와 같이 설정하였을 때 소개한 나라들의 등록금 수준이 마치 닻을 내린 것과 같은 역할을 하여 등록금이 무상인 나라들을 소개한 Red 에서는 우리나라 국공립대학 등록금의 적정 수준을 낮게 잡고, 대학 등록금 수준이 높은 나라들을 소개한 Black 에서는 우리나라 국공립대학 등록금의 적정 수준을 높게 잡는 것을 관찰할 수 있습니다.
응답결과를 분석하는 데 있어서 유의해야 할 사항은 등록금 수준이 무상에서 1000만원까지 순서가 있다는 점입니다. 따라서 명목형 변수에 대하여 사용한 카이제곱 동일성 테스트를 적용하는 것은 적절치 않고 코크란-아미티지 테스트가 이 상황에 적합한 분석 도구입니다.
적정 등록금 수준을 다섯 단계로 나누어 차이를 분석하기 위한
코크란-아미티지 통계량은 -8.755, dim
은 5, p-value 는 0.0000
으로 등록금의 적정 수준의 차이가 통계적으로 유의함을 보여 줍니다.
즉, Anchor 효과가 있는 것으로 파악됩니다.
무상 | 100만원 | 200만원 | 500만원 | 1,000만원 | 계 | |
---|---|---|---|---|---|---|
Red(등록금무상국가 소개) | 23.7 | 35.5 | 32.3 | 6.8 | 1.8 | 100.0 |
Black(등록금고액국가 소개) | 4.0 | 17.0 | 58.8 | 19.1 | 1.1 | 100.0 |
이를 백분율로 살펴보면 대학 등록금 무상 국가들을 소개한 Red에서 국공립대 적정 등록금 수준을 무상이라고 답한 백분율은 23.7(%), 100만원이라고 답한 백분율은 35.5(%) 입니다.
반면 대학 등록금이 고액인 국가들을 소개한 Black에서 국공립대 적정 등록금 수준을 무상이라고 답한 백분율은 4.0(%), 100만원이라고 답한 백분율은 17.0(%) 입니다.
Red에서 국공립대 적정 등록금 수준을 500만원이라고 답한 백분율은 6.8(%), 1,000만원이라고 답한 백분율은 1.8(%) 입니다.
반면 Black에서 국공립대 적정 등록금 수준을 500만원이라고 답한 백분율은 19.1(%), 1,000만원이라고 답한 백분율은 1.1(%) 입니다.
Mosaic Plot 은 이 집계결과를 시각적으로 잘 보여줍니다.
대학 등록금의 적정 수준을 예로 들은 나라들의 수준에 맞춰 설정하는 것을 시각적으로 파악할 수 있습니다.
무상, 100만원을 100만원 이하, 200만원, 500만원, 1,000만원을 200만원 이상으로 나눠 보겠습니다.
100만원 이하 | 200만원 이상 | 계 | |
---|---|---|---|
Red(등록금무상국가 소개) | 59.1 | 40.9 | 100.0 |
Black(등록금고액국가 소개) | 20.9 | 79.1 | 100.0 |
이를 백분율로 살펴보면 Red 에서 100만원 이하를 적정 수준이라고 답한 백분율, 59.1(%)은 200만원 이상을 적정 수준이라고 답한 백분율, 35.5(%) 보다 월등히 높습니다. 반면 Black에서 100만원 이하를 적정 수준이라고 답한 백분율, 4.0(%)은 200만원 이상을 적정 수준이라고 답한 백분율, 17.0(%) 보다 낮습니다.
Anchor Effects 를 확인할 수 있는 것입니다.
Mosaic Plot 은 이 집계결과를 시각적으로 잘 보여줍니다.
대학 등록금의 적정 수준을 예로 들은 나라들의 수준에 맞춰 설정하는 것을 시각적으로 파악할 수 있습니다.
[0,1] | (1,2] | (2,3] | (3,4] | (4,5] | (5,6] | (6,7] | (7,8] | (8,9] | (9,10] | (10,11] | (11,12] | (12,13] | (13,14] | 계 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Red | 127 | 19 | 7 | 8 | 2 | 12 | 6 | 31 | 16 | 10 | 13 | 7 | 6 | 15 | 279 |
Black | 146 | 15 | 8 | 11 | 4 | 3 | 8 | 21 | 12 | 8 | 7 | 11 | 7 | 16 | 277 |
계 | 273 | 34 | 15 | 19 | 6 | 15 | 14 | 52 | 28 | 18 | 20 | 18 | 13 | 31 | 556 |
분포표로부터 두 가지 문제를 살펴보겠습니다.
첫째, 날마다 고르게 제출하는가?
둘째, Red, Black 간에 통게적으로 유의한 차이가 있는가?
각 문제를 살펴보기 위해서는 분포표의 일부분을 대상으로 카이제곱 테스트를 수행합니다.
[0,1] | (1,2] | (2,3] | (3,4] | (4,5] | (5,6] | (6,7] | (7,8] | (8,9] | (9,10] | (10,11] | (11,12] | (12,13] | (13,14] |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
273 | 34 | 15 | 19 | 6 | 15 | 14 | 52 | 28 | 18 | 20 | 18 | 13 | 31 |
Test statistic | df | P value |
---|---|---|
1519 | 13 | 4.088e-317 * * * |
날마다 고르게 제출하는지 알아 보았습니다.
분포표의 “계”행에서 ’계’열을 제외하고 카이제곱테스트를 수행합니다.
분포표 만으로도 쉽게 파악할 수 있지만 카이제곱테스트가 명확히 해 줍니다.
카이제곱 통계량은 1518.669, 자유도는 13.00, p-value 는 4.1e-317 이므로 날짜별로 제출이 고르지 않다는 점을 강력히 시사합니다.
막대그래프로 살펴 보겠습니다.
[0,1] | (1,2] | (2,3] | (3,4] | (4,5] | (5,6] | (6,7] | (7,8] | (8,9] | (9,10] | (10,11] | (11,12] | (12,13] | (13,14] | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Red | 127 | 19 | 7 | 8 | 2 | 12 | 6 | 31 | 16 | 10 | 13 | 7 | 6 | 15 |
Black | 146 | 15 | 8 | 11 | 4 | 3 | 8 | 21 | 12 | 8 | 7 | 11 | 7 | 16 |
Test statistic | df | P value |
---|---|---|
14.19 | 13 | 0.3604 |
제출시간의 분포가 Red, Black 간에 닮았는지 알아 보았습니다.
이번에는 분포표의 첫번째와 두번째 행, ’계’열을 제외한 나머지 열에 대해서 카이제곱테스트를 수행합니다.
카이제곱 통계량은 14.19, 자유도는 13, p-value 는 0.3604 이므로 제출 시간의 분포는 Red, Black 간에 통계적으로 유의한 차이가 관찰되지 않습니다.
이 사실을 Mosaic Plot을 이용하여 시각적으로 살펴보겠습니다.
닮았다고 느껴지나요?