11주차 데이터실험 집계

실험의 목적

11주차 구글 예습 설문지 집계결과를 분석합니다.

Q1~Q6에서는 랜덤화의 효과로 Red, Black 이 얼마나 닮았는지 알아봅니다.

Q7에서는 Anchor Effects 를 알아 보기 위하여 Red 에서는 대학 등록금이 무상인 나라들의 예를 들고 나서 우리나라 국공립 대학 등록금의 적정 수준에 대해서 묻고, Black 에서는 대학 등록금이 고액인 나라들의 예를 들고 나서 우리나라 국공립 대학 등록금의 적정 수준에 대해서 물어 보아 차이가 통계적으로 유의한지 살핍니다.

그리고, 제출시간의 분포가 날마다 고른지, Red, Black 간에는 닮았는지 알아봅니다.

Red, Black을 잘못 표시한 사람들

	Red(구글예습퀴즈)	Black(구글예습퀴즈)
Red(랜덤화출석부)	345	1
Black(랜덤화출석부)	1	355
계	346	356

응답인원의 Red, Black

Red 로 응답한 인원은 346명, Black 에 응답한 인원은 356명입니다.

전체 응답인원 702 명을 랜덤하게 둘로 나눌 때 어느 한 쪽의 기대인원은 전체 응답인원의 절반인 351명이고, 표준오차는 전체 응답인원의 제곱근에 1/2을 곱해 준 13.2 명입니다.

따라서 Red, Black 각 그룹에 관찰된 인원은 기대인원으로부터 표준오차 범위 안에 들어갑니다.

Q1. 1분위와 5분위의 평균소비성향 비교

집계

	1분위의 평균소비성향이 5분위의 평균소비성향보다 낮다	1분위의 평균소비성향이 5분위의 평균소비성향보다 높다	1분위의 평균소비성향이 5분위의 평균소비성향과 같다	1분위의 평균소비성향과 5분위의 평균소비성향은 비교할 수 없다	계
Red	23	257	52	14	346
Black	24	243	67	22	356
계	47	500	119	36	702

Pearson’s Chi-squared test: `.`
Test statistic	df	P value
3.94	3	0.268

Q1의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 3.940, 자유도는 3 , p-value 는 0.2680이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

1분위의 평균소비성향이 5분위의 평균소비성향보다 낮다	1분위의 평균소비성향이 5분위의 평균소비성향보다 높다	1분위의 평균소비성향이 5분위의 평균소비성향과 같다	1분위의 평균소비성향과 5분위의 평균소비성향은 비교할 수 없다	계
6.7	71.2	17.0	5.1	100.0

정답률은 Red, Black 을 합하여 계산하는데, 71.2(%) 입니다.

Q2. 낙수효과

집계

	낙수효과를 기대하기 어렵다	낙수효과를 잘 보여주고 있다	소비지출이 급격히 늘어나고 있다	고소득층의 평균소비성향이 급격히 늘어나고 있다	계
Red	219	75	31	21	346
Black	210	81	42	23	356
계	429	156	73	44	702

Pearson’s Chi-squared test: `.`
Test statistic	df	P value
2.026	3	0.567

Q2의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 2.026, 자유도는 3, p-value 는 0.5670이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

낙수효과를 기대하기 어렵다	낙수효과를 잘 보여주고 있다	소비지출이 급격히 늘어나고 있다	고소득층의 평균소비성향이 급격히 늘어나고 있다	계
61.1	22.2	10.4	6.3	100.0

정답률은 Red, Black 을 합하여 계산하는데, 61.1(%) 입니다.

Q3. 최고한계세율과 상위1% 소득점유율

집계

	최고한계세율이 높을 때 상위1%의 소득점유율도 높다.	최고한계세율이 낮을 때 상위1%의 소득점유율도 낮다.	최고한계세율이 높을 때 상위1%의 소득점유율은 낮다.	최고한계세율이 높아지면 상위1%의 소득점유율은 낮아진다.	계
Red	26	58	230	32	346
Black	28	62	213	53	356
계	54	120	443	85	702

Pearson’s Chi-squared test: `.`
Test statistic	df	P value
5.907	3	0.1162

Q3의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 5.907, 자유도는 3, p-value 는 0.1162이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

최고한계세율이 높을 때 상위1%의 소득점유율도 높다.	최고한계세율이 낮을 때 상위1%의 소득점유율도 낮다.	최고한계세율이 높을 때 상위1%의 소득점유율은 낮다.	최고한계세율이 높아지면 상위1%의 소득점유율은 낮아진다.	계
7.7	17.1	63.1	12.1	100.0

정답률은 Red, Black 을 합하여 계산하는데, 63.1(%) 입니다.

Q4. 최고한계세율과 상위1%, 하위99%의 소득증가

집계

	최고한계세율이 높았던 시기에 하위 99%의 소득증가율이 상위1%의 소득증가율 보다 높았다.	최고한계세율을 높이면 하위 99%의 소득증가율이 상위1%의 소득증가율보다 높아진다.	최고한계세율이 높았던 시기에 하위 99%의 소득이 상위1%의 소득보다 많았다.	최고한계세율을 높이면 하위 99%의 소득이 상위1%의 소득보다 많아진다.	계
Red	172	79	70	25	346
Black	175	76	71	34	356
계	347	155	141	59	702

Pearson’s Chi-squared test: `.`
Test statistic	df	P value
1.322	3	0.724

Q4의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 1.322, 자유도는 3, p-value 는 0.7240이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

최고한계세율이 높았던 시기에 하위 99%의 소득증가율이 상위1%의 소득증가율 보다 높았다.	최고한계세율을 높이면 하위 99%의 소득증가율이 상위1%의 소득증가율보다 높아진다.	최고한계세율이 높았던 시기에 하위 99%의 소득이 상위1%의 소득보다 많았다.	최고한계세율을 높이면 하위 99%의 소득이 상위1%의 소득보다 많아진다.	계
49.4	22.1	20.1	8.4	100.0

정답률은 Red, Black 을 합하여 계산하는데, 20.1(%) 입니다.

Q5. 생산성과 급료의 격차

집계

	1948년부터 1979년까지는 생산성과 급료가 함께 상승하였다.	1979년 이후 생산성과 급료가 함께 상승하였다.	1979년 이후 생산성은 62.5%의 상승을 보였다.	1979년 이후 급료는 15.9% 의 상승을 보였다.	계
Red	36	238	46	26	346
Black	40	224	70	22	356
계	76	462	116	48	702

Pearson’s Chi-squared test: `.`
Test statistic	df	P value
5.792	3	0.1222

Q5의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 5.792, 자유도는 3, p-value 는 0.1222이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

1948년부터 1979년까지는 생산성과 급료가 함께 상승하였다.	1979년 이후 생산성과 급료가 함께 상승하였다.	1979년 이후 생산성은 62.5%의 상승을 보였다.	1979년 이후 급료는 15.9% 의 상승을 보였다.	계
10.8	65.8	16.5	6.8	100.0

정답률은 Red, Black 을 합하여 계산하는데, 65.8(%) 입니다.

Q6. LM3

집계

	10억원	20억원	25억원	30억원	계
Red	13	249	56	28	346
Black	22	234	74	26	356
계	35	483	130	54	702

Pearson’s Chi-squared test: `.`
Test statistic	df	P value
5.205	3	0.1574

Q6의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 5.205, 자유도는 3, p-value 는 0.1574이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

%

10억원	20억원	25억원	30억원	계
5.0	68.8	18.5	7.7	100.0

정답률은 Red, Black 을 합하여 계산하는데, 68.8(%) 입니다.

Q7. 국공립대 등록금 국제 비교

이 질문은 기준점이 어디에 있느냐에 따라서 응답이 달라진다는 Anchor Effects 를 보여줍니다.

국공립대학의 등록금이 무상인 나라들을 소개한 Red 에서는 적정 수준이 “무상” 또는 100만원이라고 응답한 비율이 국공립대학의 등록금이 우리나라보다 높거나 대등한 나라들의 예를 먼저 들고 적정 수준을 물어본 경우(Black)에 “무상” 또는 100만원이라고 응답한 비율보다 월등히 높은 것을 알 수 있습니다.

500만원 이상을 적정하다고 응답한 비율의 비교도 흥미롭습니다.

국공립대 등록금의 적정 수준 (집계)

	무상	100만원	200만원	500만원	1,000만원	계
Red(등록금무상국가 소개)	66	125	120	29	6	346
Black(등록금고액국가 소개)	25	64	197	57	13	356
계	91	189	317	86	19	702

Pearson’s Chi-squared test: `.`
Test statistic	df	P value
68.43	4	4.867e-14 * * *

Q7의 Red에는 스웨덴, 노르웨이, 아일랜드, 아이슬랜드, 핀란드, 체코 등 국공립대의 등록금이 전혀 없는 나라들의 예를 들고 나서 우리나라 국공립대 등록금의 적정 수준을 묻고, Black에는 미국, 일본, 오스트레일리아, 캐나다 등 국공립대학의 등록금이 높은 수준인 나라들의 예를 들고 나서 우리나라 국공립대 등록금의 적정 수준을 물었습니다.

Daniel Kahneman 의 Think, Fast and Slow 에서 소개한 바와 같이 이와 설정하였을 때 소개한 나라들의 등록금 수준이 마치 닻을 내린 것과 같은 역할을 하여 등록금이 무상인 나라들을 소개한 Red 에서는 우리나라 국공립대 등록금의 적정 수준을 낮게 잡고, 대학 등록금 수준이 높은 나라들을 소개한 Black 에서는 우리나라 국공립대 등록금의 적정 수준을 높게 잡는 것을 관찰할 수 있습니다.

그 결과 적정 등록금 수준을 다섯 단계로 나누어 차이를 분석하기 위한 카이제곱 통계량은 68.430, 자유도는 4, p-value 는 4.9e-14 으로 등록금의 적정 수준의 차이가 통계적으로 유의함을 보여 줍니다.

즉, Anchor 효과가 있는 것으로 파악됩니다.

국공립대 등록금의 적정 수준 (%)

	무상	100만원	200만원	500만원	1,000만원	계
Red(등록금무상국가 소개)	19.1	36.1	34.7	8.4	1.7	100.0
Black(등록금고액국가 소개)	7.0	18.0	55.3	16.0	3.7	100.0

이를 백분율로 살펴보면 대학 등록금 무상 국가들을 소개한 Red에서 국공립대 적정 등록금 수준을 무상이라고 답한 백분율은 19.1(%), 100만원이라고 답한 백분율은 36.1(%) 입니다.

반면 대학 등록금이 고액인 국가들을 소개한 Black에서 국공립대 적정 등록금 수준을 무상이라고 답한 백분율은 7.0(%), 100만원이라고 답한 백분율은 18.0(%) 입니다.

Red에서 국공립대 적정 등록금 수준을 500만원이라고 답한 백분율은 8.4(%), 1,000만원이라고 답한 백분율은 1.7(%) 입니다.

반면 Black에서 국공립대 적정 등록금 수준을 500만원이라고 답한 백분율은 16.0(%), 1,000만원이라고 답한 백분율은 3.7(%) 입니다.

국공립대 등록금의 적정 수준 (2단계) (%)

무상, 100만원을 100만원 이하, 200만원, 500만원, 1,000만원을 200만원 이상으로 나눠 보겠습니다.

	100만원 이하	200만원 이상	계
Red(등록금무상국가 소개)	55.2	44.8	100.0
Black(등록금고액국가 소개)	25.0	75.0	100.0

이를 백분율로 살펴보면 Red 에서 100만원 이하를 적정 수준이라고 답한 백분율, 55.2(%)은 200만원 이상을 적정 수준이라고 답한 백분율, 36.1(%) 보다 월등히 높습니다. 반면 Black에서 100만원 이하를 적정 수준이라고 답한 백분율, 7.0(%)은 200만원 이상을 적정 수준이라고 답한 백분율, 18.0(%) 보다 낮습니다.

Anchor Effects 를 확인할 수 있는 것입니다.

Mosaic Plot

Mosaic Plot 은 이 집계결과를 시각적으로 잘 보여줍니다.

대학 등록금의 적정 수준을 예로 들은 나라들의 수준에 맞춰 설정하는 것을 시각적으로 파악할 수 있습니다.

마감 시간으로부터 제출 시간의 분포

분포표

일 단위
	[0,1]	(1,2]	(2,3]	(3,4]	(4,5]	(5,6]	(6,7]	(7,8]	(8,9]	(9,10]	(10,11]	(11,12]	(12,13]	(13,14]	계
Red	117	20	14	8	9	10	10	35	12	19	24	17	19	32	346
Black	126	25	9	6	4	11	6	38	24	13	25	18	24	27	356
계	243	45	23	14	13	21	16	73	36	32	49	35	43	59	702

분포표로부터 두 가지 문제를 살펴보겠습니다.

첫째, 날마다 고르게 제출하는가?

둘쨰, Red, Black 간에 통게적으로 유의한 차이가 있는가?

각 문제를 살펴보기 위해서는 분포표의 일부분을 대상으로 카이제곱 테스트를 수행합니다.

날마다 고르게 제출하는가?

[0,1]	(1,2]	(2,3]	(3,4]	(4,5]	(5,6]	(6,7]	(7,8]	(8,9]	(9,10]	(10,11]	(11,12]	(12,13]	(13,14]
243	45	23	14	13	21	16	73	36	32	49	35	43	59

Chi-squared test for given probabilities: `.`
Test statistic	df	P value
878.9	13	1.718e-179 * * *

날마다 고르게 제출하는지 알아 보았습니다.

분포표의 “계”행에서 ’계’열을 제외하고 카이제곱테스트를 수행합니다.

분포표 만으로도 쉽게 파악할 수 있지만 카이제곱테스트가 명확히 해 줍니다.

카이제곱 통계량은 878.883, 자유도는 13.00, p-value 는 1.7e-179 이므로 날짜별로 제출이 고르지 않다는 점을 강력히 시사합니다.

막대그래프로 살펴 보겠습니다.

막대그래프

Red, Black 간에 닮았는가?

	[0,1]	(1,2]	(2,3]	(3,4]	(4,5]	(5,6]	(6,7]	(7,8]	(8,9]	(9,10]	(10,11]	(11,12]	(12,13]	(13,14]
Red	117	20	14	8	9	10	10	35	12	19	24	17	19	32
Black	126	25	9	6	4	11	6	38	24	13	25	18	24	27

Pearson’s Chi-squared test: `.`
Test statistic	df	P value
11.39	13	0.5778

제출시간의 분포가 Red, Black 간에 닮았는지 알아 보았습니다.

이번에는 분포표의 첫번쨰와 두번쨰 행, ’계’열을 제외한 나머지 열에 대해서 카이제곱테스트를 수행합니다.

카이제곱 통계량은 11.39, 자유도는 13, p-value 는 0.5778 이므로 제출 시간의 분포는 Red, Black 간에 통계적으로 유의한 차이가 관찰되지 않습니다.

이 사실을 Mosaic Plot을 이용하여 시각적으로 살펴보겠습니다.

닮았다고 느껴지나요?

Quiz 241111 (Anchor Effects)

coop711

2024-11-11

11주차 데이터실험 집계

실험의 목적

Red, Black을 잘못 표시한 사람들

응답인원의 Red, Black

Q1. 1분위와 5분위의 평균소비성향 비교

집계

%

Q2. 낙수효과

집계

%

Q3. 최고한계세율과 상위1% 소득점유율

집계

%

Q4. 최고한계세율과 상위1%, 하위99%의 소득증가

집계

%

Q5. 생산성과 급료의 격차

집계

%

Q6. LM3

집계

%

Q7. 국공립대 등록금 국제 비교

국공립대 등록금의 적정 수준 (집계)

국공립대 등록금의 적정 수준 (%)

국공립대 등록금의 적정 수준 (2단계) (%)

Mosaic Plot

마감 시간으로부터 제출 시간의 분포

분포표

날마다 고르게 제출하는가?

막대그래프

Red, Black 간에 닮았는가?

Mosaic Plot