10주차 데이터 실험 집계

실험의 목적

10주차 구글 예습 설문지 집계결과를 분석합니다.

Q1 ~ Q6에서는 랜덤화의 효과로 Red, Black 이 얼마나 닮았는지 알아봅니다.

Q7에서는 Prospect Theory 에서 이득은 확고히 하고 손실은 회피하려는 심리에 대해서 살펴봅니다.

제출시간의 분포가 날마다 고른지, Red, Black 간에는 닮았는지 알아봅니다.

Red, Black을 잘못 표시한 사람들

  Red(구글예습퀴즈) Black(구글예습퀴즈)
Red(랜덤화출석부) 280 2
Black(랜덤화출석부) 1 278
281 280

응답인원의 Red, Black

Red 로 응답한 인원은 281명, Black 에 응답한 인원은 280명입니다.

전체 응답인원 561 명을 랜덤하게 둘로 나눌 때 어느 한 쪽의 기대인원은 전체 응답인원의 절반인 280.5명이고, 표준오차는 전체 응답인원의 제곱근에 1/2을 곱해 준 11.8 명입니다.

따라서 Red, Black 각 그룹에 관찰된 인원은 기대인원으로부터 표준오차 범위 안에 들어갑니다. 랜덤화출석부에 있는 Red, Black 과 실제 구글설문에 올린 Red, Black 이 다른 사람들의 수효는 3명입니다. Red를 Black 이라고 한 사람이 2명, Black 을 Red 라고 한 사람이 1명입니다.

Q1. Wilkinson

소득불평등과 건강 및 사회문제 지표

  소득불평등이 심한 나라에서 건강 및 사회문제지수가 나쁘게 나온다. 소득이 많은 나라에서 건강 및 사회문제지수가 나쁘게 나온다. 소득불평등이 심하면 건강 및 사회문제지수가 나빠진다. 소득이 많아지면 건강 및 사회문제지수가 나빠진다.
Red 162 37 75 7 281
Black 180 29 62 9 280
342 66 137 16 561
Pearson’s Chi-squared test: .
Test statistic df P value
3.134 2 0.2086

Q1의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 3.134, 자유도는 2 , p-value 는 0.2086이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

소득불평등과 건강 및 사회문제 지표 (%)

소득불평등이 심한 나라에서 건강 및 사회문제지수가 나쁘게 나온다. 소득이 많은 나라에서 건강 및 사회문제지수가 나쁘게 나온다. 소득불평등이 심하면 건강 및 사회문제지수가 나빠진다. 소득이 많아지면 건강 및 사회문제지수가 나빠진다.
61.0 11.8 24.4 2.9 100.0

정답률은 Red, Black 을 합하여 계산하는데, 61.0(%) 입니다.

Q2. 소득 상위1%의 몫과 시대적 사건들

대공황. 대번영, 대침체

  대공황, 대침체, 대번영 대침체, 대공황, 대번영 대번영, 대공황, 대침체 대공황, 대번영, 대침체
Red 44 40 34 163 281
Black 58 23 37 162 280
102 63 71 325 561
Pearson’s Chi-squared test: .
Test statistic df P value
6.637 3 0.08442

Q2의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 6.637, 자유도는 3, p-value 는 0.0844이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

대공황. 대번영, 대침체(%)

대공황, 대침체, 대번영 대침체, 대공황, 대번영 대번영, 대공황, 대침체 대공황, 대번영, 대침체
18.2 11.2 12.7 57.9 100.0

정답률은 Red, Black 을 합하여 계산하는데, 57.9(%) 입니다.

Q3. Piketty의 21세기 자본

상위10%의 총소득 점유율

  25% 35% 50% 60%
Red 28 63 131 59 281
Black 35 66 127 52 280
63 129 258 111 561
Pearson’s Chi-squared test: .
Test statistic df P value
1.349 3 0.7175

Q3의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 1.349, 자유도는 3, p-value 는 0.7175이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

상위10%의 총소득 점유율 (%)

25% 35% 50% 60%
11.2 23.0 46.0 19.8 100.0

정답률은 Red, Black 을 합하여 계산하는데, 46.0(%) 입니다.

Q4. World Top Income Database

우리나라 상위10%의 소득점유율

  25% 35% 45% 60%
Red 26 46 181 28 281
Black 34 45 181 20 280
60 91 362 48 561
Pearson’s Chi-squared test: .
Test statistic df P value
2.409 3 0.4919

Q4의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 2.409, 자유도는 3, p-value 는 0.4919이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

우리나라 상위10%의 소득점유율(%)

25% 35% 45% 60%
10.7 16.2 64.5 8.6 100.0

정답률은 Red, Black 을 합하여 계산하는데, 64.5(%) 입니다.

Q5. 황금기와 신자유주의 시기

5분위별 소득증가율 비교

  황금기에 소득이 가장 많이 늘어난 계층은 하위 20%(1분위)이다. 황금기에 소득증가율이 가장 높은 계층은 하위 20%(1분위)이다. 신자유주의시기에 소득이 가장 많이 늘어난 계층은 하위 20%(1분위)이다. 신자유주의시기에 소득증가율이 가장 높은 계층은 하위 20%(1분위)이다.
Red 41 182 40 18 281
Black 48 170 31 31 280
89 352 71 49 561
Pearson’s Chi-squared test: .
Test statistic df P value
5.548 3 0.1358

Q5의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 5.548, 자유도는 3, p-value 는 0.1358이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

5분위별 소득증가율 비교 (%)

황금기에 소득이 가장 많이 늘어난 계층은 하위 20%(1분위)이다. 황금기에 소득증가율이 가장 높은 계층은 하위 20%(1분위)이다. 신자유주의시기에 소득이 가장 많이 늘어난 계층은 하위 20%(1분위)이다. 신자유주의시기에 소득증가율이 가장 높은 계층은 하위 20%(1분위)이다.
15.9 62.7 12.7 8.7 100.0

정답률은 Red, Black 을 합하여 계산하는데, 62.7(%) 입니다.

Q6. 주역

천지비

  지천태 천지비 풍뢰익 산택손
Red 41 170 39 31 281
Black 38 163 46 33 280
79 333 85 64 561
Pearson’s Chi-squared test: .
Test statistic df P value
0.8983 3 0.8258

Q6의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 0.898, 자유도는 3, p-value 는 0.8258이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

천지비 (%)

지천태 천지비 풍뢰익 산택손
14.1 59.4 15.2 11.4 100.0

정답률은 Red, Black 을 합하여 계산하는데, 59.4(%) 입니다.

Q7. Prospect Theory : 이득과 손실

이득은 확고히 하고, 손실은 피하고자 하는 보통 사람들의 심리적 경향을 확인합니다.

기대값을 계산해 보면 어는 게임을 선택하더라도 상관이 없어야 하는 데 이득 게임인 Red에서는 조금 덜 받더라도이득을 확고히 하려는 게임(A)에, 손실 게임인 Black에서는 손실을 확률적으로 줄이려는 게임(B)을 많이 선택하여 Kahneman과 Tversky의 Prospect Theory 에 부합하는 결과를 보여줍니다.

집계

  확률 100% 확률 90%
이득 게임 205 76 281
손실 게임 84 196 280
289 272 561
Pearson’s Chi-squared test with Yates’ continuity correction: .
Test statistic df P value
101.9 1 5.875e-24 * * *

Q7의 Red 는 100%의 확률로 900달러를 따거나 90%의 확률로 1000달러를 따는 게임 중에서 많은 사람들이 900달러를 확고하게 갖는 것이 혹시라도 모를 10%의 확률로 아무 것도 안 생기는 것보다 선호한다는 것을 보여줍니다.

Black 은 100%의 확률로 900달러를 잃거나 90%의 확률로 1000달러를 잃는 게임 중에서는 손실을 확고히 하기 보다 10%의 확률이라도 1000달러의 손실을 회피하는 게임을 선호한다는 것을 보여줍니다.

이론적으로는 손실 게임이나 이득 게임이나 기대값이 같기 때문에 100% 게임이나 90% 게임을 비슷하게 선택할 것으로 생각되지만 우리의 실제 행동은 전혀 그렇지 않다는 것을 보여 줍니다.

여기서 수행하고 있는 카이제곱 테스트는 이득은 확고히 하고 손실은 운에 기대어 회피하려는 경향을 잘 보여 줍니다.

그 결과 카이제곱 통계량은 101.89, 자유도는 1, p-value 는 5.9e-24 합리적 행동을 한다는 가설로부터 어떤 선택도 비슷하게 나오리라는 기대와는 통계적으로 매우, 매우 유의하게 차이나는 결과를 보여줍니다.

% 비교

  확률 100% 확률 90%
이득 게임 73.0 27.0 100.0
손실 게임 30.0 70.0 100.0

이를 백분율로 살펴보면 이득 게임인 Red에서 100% 확률로 900달러를 따려는 사람들의 백분율, 73.0(%)은 90% 확률로 1000달러를 따려는 사람들의 백분율, 27.0(%) 보다 월등히 높습니다.반면 손실 게임인 Black에서 100% 확률로 900달러를 잃겠다는 사람들의 백분율, 30.0(%)은 90%의 확률로 1000달러를 잃겠다는 사람들의 백분율, 70.0(%) 보다 적습니다.

이득을 확고히 하려는 사람들의 백분율보다 손실을 운에 기대어 회피하려는 사람들의 백분울이 월등히 적은 것을 관찰할 수 있습니다.

Mosaic Plot

Mosaic Plot 은 이 집계결과를 시각적으로 잘 보여줍니다.

이득을 확고히 하려는 사람들의 백분율이 손실을 운에 기대어 회피하려는 사람들의 백분율보다 월등히 많은 것을 쉽게 파악할 수 있습니다.

마감 시간으로부터 제출 시간의 분포

분포표

일 단위
  [0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] (11,12] (12,13] (13,14]
Red 118 23 11 6 1 7 8 23 18 14 16 14 8 14 281
Black 136 20 13 5 3 5 6 26 11 10 10 15 9 11 280
254 43 24 11 4 12 14 49 29 24 26 29 17 25 561

분포표로부터 두 가지 문제를 살펴보겠습니다.

첫째, 날마다 고르게 제출하는가?

둘째, Red, Black 간에 통게적으로 유의한 차이가 있는가?

각 문제를 살펴보기 위해서는 분포표의 일부분을 대상으로 카이제곱 테스트를 수행합니다.

날마다 고르게 제출하는가?

[0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] (11,12] (12,13] (13,14]
254 43 24 11 4 12 14 49 29 24 26 29 17 25
Chi-squared test for given probabilities: .
Test statistic df P value
1277 13 3.904e-265 * * *

날마다 고르게 제출하는지 알아 보았습니다.

분포표의 “계”행에서 ’계’열을 제외하고 카이제곱테스트를 수행합니다.

분포표 만으로도 쉽게 파악할 수 있지만 카이제곱테스트가 명확히 해 줍니다.

카이제곱 통계량은 1277.392, 자유도는 13.00, p-value 는 3.9e-265 이므로 날짜별로 고르게 제출하지 않고 있음을 강력히 시사합니다.

막대그래프로 살펴 보겠습니다.

막대그래프

Red, Black 간에 닮았는가?

  [0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] (11,12] (12,13] (13,14]
Red 118 23 11 6 1 7 8 23 18 14 16 14 8 14
Black 136 20 13 5 3 5 6 26 11 10 10 15 9 11
Pearson’s Chi-squared test: .
Test statistic df P value
7.738 13 0.8603

제출시간의 분포가 Red, Black 간에 닮았는지 알아 보았습니다.

이번에는 분포표의 첫번째와 두번째 행, ’계’열을 제외한 나머지 열에 대해서 카이제곱테스트를 수행합니다.

카이제곱 통계량은 7.74, 자유도는 13, p-value 는 0.8603 이므로 제출 시간의 분포는 Red, Black 간에 통계적으로 유의한 차이가 관찰되지 않습니다.

이 사실을 Mosaic Plot 을 이용하여 시각적으로 살펴보겠습니다.

닮았다고 느껴지나요?

Mosaic Plot