10주차 데이터 실험 집계

실험의 목적

10주차 구글 예습 설문지 집계결과를 분석합니다.

Q1 ~ Q6에서는 랜덤화의 효과로 Red, Black 이 얼마나 닮았는지 알아봅니다.

Q7에서는 Prospect Theory 에서 이득은 확고히 하고 손실은 회피하려는 심리에 대해서 살펴봅니다.

제출시간의 분포가 날마다 고른지, Red, Black 간에는 닮았는지 알아봅니다.

Red, Black을 잘못 표시한 사람들

  Red(구글예습퀴즈) Black(구글예습퀴즈)
Red(랜덤화출석부) 42 0
Black(랜덤화출석부) 0 38
42 38

응답인원의 Red, Black

Red 로 응답한 인원은 42명, Black 에 응답한 인원은 38명입니다.

전체 응답인원 80 명을 랜덤하게 둘로 나눌 때 어느 한 쪽의 기대인원은 전체 응답인원의 절반인 40명이고, 표준오차는 전체 응답인원의 제곱근에 1/2을 곱해 준 4.5 명입니다.

따라서 Red, Black 각 그룹에 관찰된 인원은 기대인원으로부터 표준오차 범위 안에 들어갑니다. 랜덤화출석부에 있는 Red, Black 과 실제 구글설문에 올린 Red, Black 이 다른 사람들의 수효는 0명입니다. Red를 Black 이라고 한 사람이 0명, Black 을 Red 라고 한 사람이 0명입니다.

Q1. Wilkinson

소득불평등과 건강 및 사회문제 지표

  소득불평등이 심한 나라에서 건강 및 사회문제지수가 나쁘게 나온다. 소득이 많은 나라에서 건강 및 사회문제지수가 나쁘게 나온다. 소득불평등이 심하면 건강 및 사회문제지수가 나빠진다. 소득이 많아지면 건강 및 사회문제지수가 나빠진다.
Red 28 3 7 4 42
Black 27 1 10 0 38
55 4 17 4 80
Pearson’s Chi-squared test: .
Test statistic df P value
1.548 2 0.4613

Q1의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 1.548, 자유도는 2 , p-value 는 0.4613이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

소득불평등과 건강 및 사회문제 지표 (%)

소득불평등이 심한 나라에서 건강 및 사회문제지수가 나쁘게 나온다. 소득이 많은 나라에서 건강 및 사회문제지수가 나쁘게 나온다. 소득불평등이 심하면 건강 및 사회문제지수가 나빠진다. 소득이 많아지면 건강 및 사회문제지수가 나빠진다.
68.8 5.0 21.2 5.0 100.0

정답률은 Red, Black 을 합하여 계산하는데, 68.8(%) 입니다.

Q2. 소득 상위1%의 몫과 시대적 사건들

대공황. 대번영, 대침체

  대공황, 대침체, 대번영 대침체, 대공황, 대번영 대번영, 대공황, 대침체 대공황, 대번영, 대침체
Red 7 3 5 27 42
Black 5 6 11 16 38
12 9 16 43 80
Pearson’s Chi-squared test: .
Test statistic df P value
6.213 3 0.1017

Q2의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 6.213, 자유도는 3, p-value 는 0.1017이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

대공황. 대번영, 대침체(%)

대공황, 대침체, 대번영 대침체, 대공황, 대번영 대번영, 대공황, 대침체 대공황, 대번영, 대침체
15.0 11.2 20.0 53.8 100.0

정답률은 Red, Black 을 합하여 계산하는데, 53.8(%) 입니다.

Q3. Piketty의 21세기 자본

상위10%의 총소득 점유율

  25% 35% 50% 60%
Red 7 3 23 9 42
Black 3 5 21 9 38
10 8 44 18 80
Pearson’s Chi-squared test: .
Test statistic df P value
1.996 3 0.5733

Q3의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 1.996, 자유도는 3, p-value 는 0.5733이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

상위10%의 총소득 점유율 (%)

25% 35% 50% 60%
12.5 10.0 55.0 22.5 100.0

정답률은 Red, Black 을 합하여 계산하는데, 55.0(%) 입니다.

Q4. World Top Income Database

우리나라 상위10%의 소득점유율

  25% 35% 45% 60%
Red 3 7 26 6 42
Black 4 3 29 2 38
7 10 55 8 80
Pearson’s Chi-squared test: .
Test statistic df P value
3.716 3 0.2938

Q4의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 3.716, 자유도는 3, p-value 는 0.2938이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

우리나라 상위10%의 소득점유율(%)

25% 35% 45% 60%
8.8 12.5 68.8 10.0 100.0

정답률은 Red, Black 을 합하여 계산하는데, 68.8(%) 입니다.

Q5. 황금기와 신자유주의 시기

5분위별 소득증가율 비교

  황금기에 소득이 가장 많이 늘어난 계층은 하위 20%(1분위)이다. 황금기에 소득증가율이 가장 높은 계층은 하위 20%(1분위)이다. 신자유주의시기에 소득이 가장 많이 늘어난 계층은 하위 20%(1분위)이다. 신자유주의시기에 소득증가율이 가장 높은 계층은 하위 20%(1분위)이다.
Red 8 29 2 3 42
Black 7 22 6 3 38
15 51 8 6 80
Pearson’s Chi-squared test: .
Test statistic df P value
2.835 3 0.4178

Q5의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 2.835, 자유도는 3, p-value 는 0.4178이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

5분위별 소득증가율 비교 (%)

황금기에 소득이 가장 많이 늘어난 계층은 하위 20%(1분위)이다. 황금기에 소득증가율이 가장 높은 계층은 하위 20%(1분위)이다. 신자유주의시기에 소득이 가장 많이 늘어난 계층은 하위 20%(1분위)이다. 신자유주의시기에 소득증가율이 가장 높은 계층은 하위 20%(1분위)이다.
18.8 63.7 10.0 7.5 100.0

정답률은 Red, Black 을 합하여 계산하는데, 63.7(%) 입니다.

Q6. 주역

천지비

  지천태 천지비 풍뢰익 산택손
Red 10 20 6 6 42
Black 5 18 7 8 38
15 38 13 14 80
Pearson’s Chi-squared test: .
Test statistic df P value
1.939 3 0.5851

Q6의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 1.939, 자유도는 3, p-value 는 0.5851이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

천지비 (%)

지천태 천지비 풍뢰익 산택손
18.8 47.5 16.2 17.5 100.0

정답률은 Red, Black 을 합하여 계산하는데, 47.5(%) 입니다.

Q7. Prospect Theory : 이득과 손실

이득은 확고히 하고, 손실은 피하고자 하는 보통 사람들의 심리적 경향을 확인합니다.

기대값을 계산해 보면 어는 게임을 선택하더라도 상관이 없어야 하는 데 이득 게임인 Red에서는 조금 덜 받더라도이득을 확고히 하려는 게임(A)에, 손실 게임인 Black에서는 손실을 확률적으로 줄이려는 게임(B)을 많이 선택하여 Kahneman과 Tversky의 Prospect Theory 에 부합하는 결과를 보여줍니다.

집계

  확률 100% 확률 90%
이득 게임 29 13 42
손실 게임 7 31 38
36 44 80
Pearson’s Chi-squared test with Yates’ continuity correction: .
Test statistic df P value
18.66 1 1.558e-05 * * *

Q7의 Red 는 100%의 확률로 900달러를 따거나 90%의 확률로 1000달러를 따는 게임 중에서 많은 사람들이 900달러를 확고하게 갖는 것이 혹시라도 모를 10%의 확률로 아무 것도 안 생기는 것보다 선호한다는 것을 보여줍니다.

Black 은 100%의 확률로 900달러를 잃거나 90%의 확률로 1000달러를 잃는 게임 중에서는 손실을 확고히 하기 보다 10%의 확률이라도 1000달러의 손실을 회피하는 게임을 선호한다는 것을 보여줍니다.

이론적으로는 손실 게임이나 이득 게임이나 기대값이 같기 때문에 100% 게임이나 90% 게임을 비슷하게 선택할 것으로 생각되지만 우리의 실제 행동은 전혀 그렇지 않다는 것을 보여 줍니다.

여기서 수행하고 있는 카이제곱 테스트는 이득은 확고히 하고 손실은 운에 기대어 회피하려는 경향을 잘 보여 줍니다.

그 결과 카이제곱 통계량은 18.66, 자유도는 1, p-value 는 1.6e-05 합리적 행동을 한다는 가설로부터 어떤 선택도 비슷하게 나오리라는 기대와는 통계적으로 매우, 매우 유의하게 차이나는 결과를 보여줍니다.

% 비교

  확률 100% 확률 90%
이득 게임 69.0 31.0 100.0
손실 게임 18.4 81.6 100.0

이를 백분율로 살펴보면 이득 게임인 Red에서 100% 확률로 900달러를 따려는 사람들의 백분율, 69.0(%)은 90% 확률로 1000달러를 따려는 사람들의 백분율, 31.0(%) 보다 월등히 높습니다.반면 손실 게임인 Black에서 100% 확률로 900달러를 잃겠다는 사람들의 백분율, 18.4(%)은 90%의 확률로 1000달러를 잃겠다는 사람들의 백분율, 81.6(%) 보다 적습니다.

이득을 확고히 하려는 사람들의 백분율보다 손실을 운에 기대어 회피하려는 사람들의 백분울이 월등히 적은 것을 관찰할 수 있습니다.

Mosaic Plot

Mosaic Plot 은 이 집계결과를 시각적으로 잘 보여줍니다.

이득을 확고히 하려는 사람들의 백분율이 손실을 운에 기대어 회피하려는 사람들의 백분율보다 월등히 많은 것을 쉽게 파악할 수 있습니다.

마감 시간으로부터 제출 시간의 분포

분포표

일 단위
  14일 13일 12일 11일 10일 9일 8일 7일 6일 5일 4일 3일 2일 1일
Red 0 0 0 0 0 0 0 0 0 0 1 11 17 13 42
Black 0 0 0 0 0 0 0 0 0 0 0 9 18 11 38
0 0 0 0 0 0 0 0 0 0 1 20 35 24 80

분포표로부터 두 가지 문제를 살펴보겠습니다.

첫째, 날마다 고르게 제출하는가?

둘째, Red, Black 간에 통계적으로 유의한 차이가 있는가?

각 문제를 살펴보기 위해서는 분포표의 일부분을 대상으로 카이제곱 테스트를 수행합니다.

날마다 고르게 제출하는가?

4일 3일 2일 1일
1 20 35 24
Chi-squared test for given probabilities: .
Test statistic df P value
30.1 3 1.315e-06 * * *

날마다 고르게 제출하는지 알아 보았습니다.

분포표의 “계”행에서 ’계’열을 제외하고 카이제곱테스트를 수행합니다.

분포표 만으로도 쉽게 파악할 수 있지만 카이제곱테스트가 명확히 해 줍니다.

카이제곱 통계량은 30.100, 자유도는 3.00, p-value 는 1.3e-06 이므로 날짜별로 고르게 제출하지 않고 있음을 강력히 시사합니다.

막대그래프로 살펴 보겠습니다.

막대그래프

Red, Black 간에 닮았는가?

  4일 3일 2일 1일
Red 1 11 17 13
Black 0 9 18 11
Pearson’s Chi-squared test: .
Test statistic df P value
1.198 3 0.7534

제출시간의 분포가 Red, Black 간에 닮았는지 알아 보았습니다.

이번에는 분포표의 첫번째와 두번째 행, ’계’열을 제외한 나머지 열에 대해서 카이제곱테스트를 수행합니다.

카이제곱 통계량은 1.20, 자유도는 3, p-value 는 0.7534 이므로 제출 시간의 분포는 Red, Black 간에 통계적으로 유의한 차이가 관찰되지 않습니다.

이 사실을 Mosaic Plot 을 이용하여 시각적으로 살펴보겠습니다.

닮았다고 느껴지나요?

Mosaic Plot