주의: 본 게시물은 학습차원에서 작성된 것이며, 틀린 내용이 포함될 수 있습니다. 출처가 없는 예제는 임의의 가상의 예제입니다.
가설검정에서 1종 오류와 2종 오류에 대해 알아보고, 예제를 통해 학습한다.
참고 자료:
테스트
a 오류 = 1종 오류: H0 가설이 참일 경우, H0 가설이 틀렸다라고 잘못 판단할 가능성 (확률)인데, 미리 정해 놓는다.
b 오류 = 2종 오류: H0 가설이 잘못된 경우, H0 가설이 옳다고 잘못 판단할 가능성(확률)
b 오류 구하는 절차
예제 1:
출처: 사회조사분석사 2009년도 16회 문제에서
평균이 mu 이고 분산이 16인 정규모집단에서 크기가 100인 랜덤표본에서 표본평균을 X_bar 라 한다. H0의 mu0 = 8, H1의 mu1 = 6.416이고 X_bar < 7.2 를 기각역이라고 할 경우 a, b는?
mu0 <- 8 # H0의 평균값
mu1 <- 6.416
n <- 100 # 샘플의 숫자
sd0 <- sqrt(16/n) # H0의 표준편차
sd1 <- sqrt(16/n)
# A위치, H0에서 a를 구한다.
# 즉, H0에서 7.2 보다 작을 확률은?
A <- 7.2
a <- pnorm(A, mean = mu0, sd = sd0, lower.tail = TRUE)
a # a = 0.023
## [1] 0.02275013
# A위치, H1에서 b를 구한다.
# 즉, H1에서 7.2 보다 클 경우의 확률은?
b <- pnorm(A, mean = mu1, sd = sd0, lower.tail = FALSE)
b
## [1] 0.0249979
예제 2:
어떤 매장의 매출이 정규분포 X ~ N(1000만원, 100만원)을 따른다고 알려져 있다. 10일치의 평균매출이 990만원일 경우, 평균매출은 1000만원이라고 주장하는 것이 옳을까? 아니면 1000만원이 아니라고 주장하는 것이 옳을까?
유의 수준 5%로 양측검정을 해보자.
mu0 <- 1000
n <- 10
sd0 <- sqrt(100 / n)
p_value <- pnorm(990, mean = mu0, sd = sd0, lower.tail = TRUE)
p_value
## [1] 0.0007827011
p_value는 0.0007 로 유의수준 a/2 = 0.025보다 작다. 즉, 990만원이 나올 가능성이 굉장히 희박한 수준인데, 샘플의 결과가 이렇게 나왔다는 것은 가설 H0의 주장인 매출 1000만원이라는 주장을 믿을 수 없다는 것이다. 따라서 귀무가설 H0를 기각한다.