1주차 데이터 실험 집계

실험의 목적

1주차 구글 예습 설문지 집계결과를 분석합니다.

Q1~Q3에서는 랜덤화의 효과로 Red, Black 이 얼마나 닮았는지 알아봅니다.

Q4에서는 같은 내용의 질문지인데 “바람직한 논의이다”라는 선택지에 부연설명을 붙이거나(Red), “부적절한 논의이다”라는 선택지에 부연설명을 붙였을 때(Black), 부연설명의 여부에 따라 응답이 달라지는 지 살펴봅니다.

끝으로 제출시간의 분포가 날마다 고른지, Red, Black 간에는 닮았는지 알아봅니다.

Red, Black을 잘못 표시한 사람들

랜덤화출석부(2월 25일 기준)에 있는 Red, Black 과 실제 구글예습설문지에 올린 Red, Black 이 다른 사람들의 분포를 파악해 보았습니다.

제출시간 학번 이름 랜덤화출석부 구글예습퀴즈
2025-03-03 20:38:52 20226422 정혜인 Black Red
2025-03-04 06:26:06 20242587 함동주 Red Black
2025-03-09 02:37:55 20254146 황보연 Red Black
2025-03-09 11:28:17 20241216 안효빈 Black Red
2025-03-10 03:05:07 20243510 박근아 Red Black
2025-03-11 06:17:27 20231618 오민선 Black Red
2025-03-12 05:27:21 20246401 강유진 Red Black
2025-03-12 07:19:44 20222962 배은성 Black Red
2025-03-13 04:18:54 20242754 최지용 Black Red
  Red(구글예습퀴즈) Black(구글예습퀴즈)
Red(랜덤화출석부) 227 4
Black(랜덤화출석부) 5 232
232 236

랜덤화출석부에 있는 Red, Black 과 실제 구글설문에 올린 Red, Black 이 다른 사람들의 수효는 9명입니다.

Red를 Black 이라고 한 사람이 4명, Black 을 Red 라고 한 사람이 5명입니다.

두 가지 방법으로 분석합니다.

우선 Red, Black 을 잘못 선택한 9명을 랜덤하게 둘로 나누면 어느 한 쪽 집단에 들어갈 기대인원은 9명을 둘로 나눈 4.5(명)이고, 표준오차는 9의 제곱근에 1/2을 곱해 준 1.5명이 됩니다.

실제로 Red를 Black 이라고 한 사람수, 4명이나 Black 을 Red 라고 한 사람수, 5명은 기대인원으로부터 표준오차 범위 안에 아주 잘 들어갑니다.

두 번째 분석 방법은 확률을 계산해 보는 것입니다.

Red, Black 을 잘못 선택한 9명을 랜덤하게 둘로 나눌 때, 실제로 관찰된 5명 이상이나 4명이하로 잘못 선택한 사람수가 나올 가능성은 얼마나 되는가 입니다.

이 경우 공평한 동전던지기를 확률 법칙으로 표현한 이항분포로부터 계산할 수 있습니다.

시행횟수가 9이고 한 번 시행에서 성공확률이 1/2 인 이항분포에서 성공갯수가4이하이거나 5이상을 관찰할 확률은 1입니다.

공평한 동전 던지기에서 앞면이 4개 이하 나오는 확률은 5개 이상 나오는 확률과 같기 때문에 사실상 한쪽만 계산해서 2배 해 주면 됩니다.

이 값을 p-value 라고 하는데, p-value가 0.05보다 작을 때 통계적으로 유의한 차이를 관찰하였다고 말합니다.

즉, 공평한 동전을 던지는 것과 같은 과정이라고 가정하였을 때 실제로 관찰된 값들이 가정으로부터 얼마나 떨어져 있는지를 표현한 것입니다.

0.05는 이런 실험을 스무 번 정도 반복하면 1번 나올 정도로 드문 사건을 의미합니다.

즉 가정이 잘못되었다는 것입니다.

그런데 Red, Black 을 잘못 표시한 사람들의 분포에서 관찰된 p-value 는 0.05와는 비교도 안될 정도로 큰 값입니다.

따라서 두 집단이 랜덤화 효과가 작동하여 통계적으로 유의한 차이를 보이지 않는다고 할 수 있습니다.

응답인원의 Red, Black

Red 로 응답한 인원은 232명, Black 에 응답한 인원은 236명입니다.

전체 응답인원 468 명을 랜덤하게 둘로 나눌 때 어느 한 쪽의 기대인원은 전체 응답인원의 절반인 234명이고, 표준오차는 전체 응답인원의 제곱근에 1/2을 곱해 준 10.8 명입니다.

따라서 Red, Black 각 그룹에 관찰된 인원은 기대인원으로부터 표준오차 범위 안에 들어갑니다.

간혹 이 범위를 살짝 벗어나는 경우들이 가끔 나오지만 두배의 표준오차 범위 안에는 거의 다 들어갑니다.

Q1. Dewey as good as elected, statistics convince Roper

Roper(Counts)

  통계학 통계 자료 통계청 정보
Red 20 181 22 5 4 232
Black 11 201 12 7 5 236
31 382 34 12 9 468
Pearson’s Chi-squared test: .
Test statistic df P value
7.012 4 0.1353

Q1의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 7.01, 자유도는 4, p-value 는 0.1353이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

Roper(%)

통계학 통계 자료 통계청 정보
6.6 81.6 7.3 2.6 1.9 100.0

정답률은 Red, Black 을 합하여 계산하는데, 81.6(%) 입니다.

Q2. Statistics is the science of learning from data, …

ASA(Counts)

  통계학 통계 자료 통계청 정보
Red 205 20 3 3 1 232
Black 219 11 3 1 2 236
424 31 6 4 3 468
Pearson’s Chi-squared test: .
Test statistic df P value
4.375 4 0.3577

Q2의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 4.375, 자유도는 4, p-value 는 0.3577이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

ASA(%)

통계학 통계 자료 통계청 정보
90.60 6.62 1.28 0.85 0.64 100.00

정답률은 Red, Black 을 합하여 계산하는데, 90.6(%) 입니다.

Q3. How to lie with statistics

D.Huff(Counts)

  통계학 통계 자료 통계청 정보
Red 11 163 31 10 17 232
Black 13 180 22 5 16 236
24 343 53 15 33 468
Pearson’s Chi-squared test: .
Test statistic df P value
4.201 4 0.3795

Q3의 집계 결과가 Red, Black 간에 통계적으로 유의한 차이가 있는지 알아보기 위하여 카이제곱 테스트를 수행하였습니다.

그 결과 카이제곱 통계량은 4.201, 자유도는 4, p-value 는 0.3795이므로 Red, Black 간에 통계적으로 유의한 차이를 보이지 않습니다.

실제로 닮은 게 느껴집니까?

D.Huff(%)

통계학 통계 자료 통계청 정보
5.1 73.3 11.3 3.2 7.1 100.0

정답률은 Red, Black 을 합하여 계산하는데, 73.3(%) 입니다.

Q4. 종부세

“바람직한 논의이다”라는 선택지에 부연설명을 붙이거나(Red), “부적절한 논의이다”라는 선택지에 부연설명을 붙였을 때(Black), 부연설명의 여부에 따라 응답이 달라지는 지 살펴본 결과 기대한 바와 같이 양 집단에 통계적으로 유의한 수준의 차이가 났습니다.

전체적으로 “부적절한 논의”라는 응답이 주류를 이루는 가운데에도 부적절한 논의의 근거를 추가한 Black 집단에서 훨씬 높은 비율로 부적절한 논의라는 응답이 나왔습니다.

앞에서 본 바와 같이 Red, Black 두 집단은 출석부의 다섯 변수에 대하여 랜덤화 과정을 거쳐서 가장 닮은 구성을 찾은 것이기에 Q1, Q2, Q3의 응답 결과도 매우 닮게 나오는데 만약 부연설명이 효과가 없다면 Q4에서의 응답도 닮게 나왔을 것입니다.

실제 결과가 그러지 못한 이유를 따져보면 바로 부연설명을 붙였다는 데서 차이가 난다고 결론을 내릴 수 있는 것입니다.

질문지 선택지에 부연설명

집계

  바람직한 논의이다 부적절한 논의이다 모름/무응답
Red(바람직한 논의에 부연설명) 72 100 60 232
Black(부적절한 논의에 부연설명) 61 110 65 236
133 210 125 468
Pearson’s Chi-squared test: .
Test statistic df P value
1.552 2 0.4603

Q4의 Red에는 종합부동산세 부담을 완화해야 한다는 주장에 대하여 바람직한 논의라는 쪽에 긍정적인 부연설명을 붙였는데, 232명이 응답한 가운데 72명이 “바람직한 논의이다”라는 반응을 보이고, 100명이 “부적절한 논의이다”라는 반응을 보입니다.

Black에는 같은 주장에 대하여 부적절한 논의라는 쪽에 부정적인 부연설명을 붙였는데, 236명이 응답한 가운데 61명이 “바람직한 논의이다”라는 반응을 보이고, 110명이 “부적절한 논의이다”라는 반응을 보입니다.

그리고 “모름/무응답”에 답한 인원은 Red에 60명, Black 에 65명이 응답하였습니다. 카이제곱 테스트는 이와 같은 상황에서 부연설명의 유무가 응답에 미치는 영향이 통계적으로 유의하다는 것을 보여 줍니다.

카이제곱 통계량은 1.552, 자유도는 2, p-value 는 0.4603으로 부연설명을 어떻게 붙이느냐에 따라 반응이 다르게 나온다는 것을 보여줍니다.

여기서 부연설명이 응답에 영향을 끼치지 않는다고 가정해 봅시다.

그렇다면 Red, Black 의 응답은 Q1~Q3 애서와 같이 랜덤화 효과에 의하여 통계적으로 유의한 차이를 보이지 않을 것입니다.

그런데 실제로 관찰된 카이제곱 통계값은 통계적으로 매우 유의한 차이를 보여 줍니다.

따라서 부연설명이 영향을 끼치지 않는다는 가정이 잘못되었다는 것을 논리적으로 입증할 수 있습니다.

% 비교.

  바람직한 논의이다 부적절한 논의이다 모름/무응답
Red(바람직한 논의에 부연설명) 31.0 43.1 25.9 100.0
Black(부적절한 논의에 부연설명) 25.8 46.6 27.5 100.0

“바람직한 논의이다”에 부연설명을 붙인 Red에서 “바람직한 논의이다”라고 응답하는 사람들의 백분율, 31.0(%)은 “부적절한 논의이다”에 부연설명을 붙인 Black 에서 “바람직한 논의이다”라고 응답하는 사람들의 백분율, 25.8(%) 보다 높습니다.

반면 “부적절한 논의이다”에 부연설명을 붙인 Black 에서 “부적절한 논의이다”라고 응답하는 사람들의 백분율, 46.6(%)은 Red 에서 “부적절한 논의이다”라고 응답하는 사람들의 백분율, 43.1(%) 보다 높습니다.

부연설명을 어디에 붙이느냐에 따라 반응이 달라진다는 것을 잘 알 수 있습니다.

Mosaic Plot

Mosaic Plot 은 이 집계결과를 시각적으로 잘 보여줍니다.

“바람직한 논의이다”에 부연설명을 붙인 Red 에서 “바람직힌 논의이다”라고 응답한 백분율이 “부적절한 논의이다”에 부연설명을 붙인 Black 에서 “바람직한 논의이다”라고 응답한 백분율보다 높고, Black 에서 “부적절한 논의이다”라고 응답한 백분율은 Red 에서 “부적절한 논의이다”라고 응답한 백분율보다 월등히 높습니다.

마감 시간으로부터 제출 시간의 분포

분포표

일 단위
  [0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] (11,12] (12,13] (13,14]
Red 0 0 0 11 6 14 10 42 23 20 15 30 35 26 232
Black 0 0 1 7 5 12 12 35 22 18 26 37 29 32 236
0 0 1 18 11 26 22 77 45 38 41 67 64 58 468

분포표로부터 두 가지 문제를 살펴보겠습니다.

첫째, 날마다 고르게 제출하는가?

둘쨰, Red, Black 간에 통게적으로 유의한 차이가 있는가?

각 문제를 살펴보기 위해서는 분포표의 일부분을 대상으로 카이제곱 테스트를 수행합니다.

날마다 고르게 제출하는가?

(2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] (11,12] (12,13] (13,14]
1 18 11 26 22 77 45 38 41 67 64 58
Chi-squared test for given probabilities: .
Test statistic df P value
163.6 11 2.394e-29 * * *

날마다 고르게 제출하는지 알아 보았습니다.

분포표의 “계”행에서 ’계’열을 제외하고 카이제곱테스트를 수행합니다.

분포표 만으로도 쉽게 파악할 수 있지만 카이제곱테스트가 명확히 해 줍니다.

카이제곱 통계량은 163.641, 자유도는 11, p-value 는 2.4e-29 이므로 결코 고르게 제출한다고 말할 수 없겠습니다.

막대그래프로 살펴 보겠습니다.

막대그래프

막대그래프는 총 제출인원 468(명) 중에 0(명), 0(%)가 마감일에 몰리는 것을 보여주고 있습니다.

Red, Black 간에 닮았는가?

  (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11] (11,12] (12,13] (13,14]
Red 0 11 6 14 10 42 23 20 15 30 35 26
Black 1 7 5 12 12 35 22 18 26 37 29 32
Pearson’s Chi-squared test: .
Test statistic df P value
7.911 11 0.7212

제출시간의 분포가 Red, Black 간에 닮았는지 알아 보았습니다.

이번에는 분포표의 첫번쨰와 두번쨰 행, ’계’열을 제외한 나머지 열에 대해서 카이제곱테스트를 수행합니다.

카이제곱 통계량은 7.911, 자유도는 11, p-value 는 0.7212 이므로 제출 시간의 분포는 Red, Black 간에 통계적으로 유의한 차이가 관찰되지 않습니다.

이 사실을 Mosaic Plot 을 이용하여 시각적으로 살펴보겠습니다.

닮았다고 느껴지나요?

Mosaic Plot