1종 오류, 2종 오류

Summary

주의: 본 게시물은 학습차원에서 작성된 것이며, 틀린 내용이 포함될 수 있습니다. 출처가 없는 예제는 임의의 가상의 예제입니다.

가설검정에서 1종 오류와 2종 오류에 대해 알아보고, 예제를 통해 학습한다.

참고 자료:

Head First Statistics

학습 내용

테스트

a 오류 = 1종 오류: H0 가설이 참일 경우, H0 가설이 틀렸다라고 잘못 판단할 가능성 (확률)인데, 미리 정해 놓는다.

b 오류 = 2종 오류: H0 가설이 잘못된 경우, H0 가설이 옳다고 잘못 판단할 가능성(확률)

b 오류 구하는 절차

H0 가설을 정의할 때, a 오류는 미리 정해진다.

P(1종 오류) = a = 0.05

H0 가설에서 a = 0.05 되는 기각역의 범위를 찾는다.

위의 그래프에서 (A) 되는 부분.
P(X < A) = a / 2

H1 가설에서 (A) 에 해당하는 확률을 찾는다.

b 오류 = P(X >= A) = ?

실습

예제 1:

출처: 사회조사분석사 2009년도 16회 문제에서

평균이 mu 이고 분산이 16인 정규모집단에서 크기가 100인 랜덤표본에서 표본평균을 X_bar 라 한다. H0의 mu0 = 8, H1의 mu1 = 6.416이고 X_bar < 7.2 를 기각역이라고 할 경우 a, b는?

H0: X_bar ~ N(8, 16/100)
H1: X_bar ~ N(6.416, 16/100)

mu0 <- 8 # H0의 평균값
mu1 <- 6.416
n <- 100 # 샘플의 숫자
sd0 <- sqrt(16/n) # H0의 표준편차
sd1 <- sqrt(16/n)

# A위치, H0에서 a를 구한다.
# 즉, H0에서 7.2 보다 작을 확률은?
A <- 7.2
a <- pnorm(A, mean = mu0, sd = sd0, lower.tail = TRUE)
a # a = 0.023

## [1] 0.02275013

# A위치, H1에서 b를 구한다.
# 즉, H1에서 7.2 보다 클 경우의 확률은?
b <- pnorm(A, mean = mu1, sd = sd0, lower.tail = FALSE)
b

## [1] 0.0249979

예제 2:

어떤 매장의 매출이 정규분포 X ~ N(1000만원, 100만원)을 따른다고 알려져 있다. 10일치의 평균매출이 990만원일 경우, 평균매출은 1000만원이라고 주장하는 것이 옳을까? 아니면 1000만원이 아니라고 주장하는 것이 옳을까?

H0: 매장의 평균 매출은 1000만원이다.
H1: 매장의 평균 매출은 1000만원이 아니다.

유의 수준 5%로 양측검정을 해보자.

mu0 <- 1000
n <- 10
sd0 <- sqrt(100 / n)

p_value <- pnorm(990, mean = mu0, sd = sd0, lower.tail = TRUE)

p_value

## [1] 0.0007827011

p_value는 0.0007 로 유의수준 a/2 = 0.025보다 작다. 즉, 990만원이 나올 가능성이 굉장히 희박한 수준인데, 샘플의 결과가 이렇게 나왔다는 것은 가설 H0의 주장인 매출 1000만원이라는 주장을 믿을 수 없다는 것이다. 따라서 귀무가설 H0를 기각한다.

1종 오류, 2종 오류

Kong, Seok-kyu

2017년 12월 23일

Summary

학습 내용

실습