Q1. 데이터를 불러온 뒤 데이터 살펴보기 (Hint: head, str, summary 등 함수 사용)
data("ToothGrowth")
head(ToothGrowth)
## len supp dose
## 1 4.2 VC 0.5
## 2 11.5 VC 0.5
## 3 7.3 VC 0.5
## 4 5.8 VC 0.5
## 5 6.4 VC 0.5
## 6 10.0 VC 0.5
str(ToothGrowth)
## 'data.frame': 60 obs. of 3 variables:
## $ len : num 4.2 11.5 7.3 5.8 6.4 10 11.2 11.2 5.2 7 ...
## $ supp: Factor w/ 2 levels "OJ","VC": 2 2 2 2 2 2 2 2 2 2 ...
## $ dose: num 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 ...
summary(ToothGrowth)
## len supp dose
## Min. : 4.20 OJ:30 Min. :0.500
## 1st Qu.:13.07 VC:30 1st Qu.:0.500
## Median :19.25 Median :1.000
## Mean :18.81 Mean :1.167
## 3rd Qu.:25.27 3rd Qu.:2.000
## Max. :33.90 Max. :2.000
Q2. len에 대한 boxplot과 histogram 그려서 눈으로 확인하기
boxplot(ToothGrowth$len ~ ToothGrowth$supp,
main = "보충제 유형에 따른 치아 길이",
xlab = "보충제 유형",
ylab = "치아 길이",
col = "orange")
hist(ToothGrowth$len,
main = "Histogram of Tooth Length",
xlab = "치아 길이",
col = "skyblue")
Q3. 귀무가설과 대립가설은 무엇인가? (H0: ?, H1: ?) H0: 기니피그의 이빨의 평균이 17보다 작다. (µ < 17) H1: 기니피그의 이빨의 평균이 177보다 크거나 같다. (µ ≥ 17)
Q4. 단측검정을 해야 하는가? 양측검정을 해야 하는가? (이유도 함께) 단측검정을 해야 한다. 왜나하면 설정한 대립가설이 한방향 뿐이기 때문이다.
Q5. Z-value를 구해야 하는가? 아니면 t-value를 구해야 하는가? (이유도 함께) t-value를 구해야 한다. 왜냐하면 ToothGrowth 표본의 표준 편차를 알지 모르기 때분이다.
Q6. 이빨 길이의 표본평균, 표본 표준편차, 모집단 평균, 표본 크기를 각각 sample_mean, sample_sd, pop_mean, sample_size이라는 객체에 담으시오.
sample_mean <- mean(ToothGrowth$len)
sample_sd <- sd(ToothGrowth$len)
pop_mean <- 17
sample_size <- length(ToothGrowth$len)
Q7. pt() 함수를 사용하여 p-value를 구하시오.
t_value <- (sample_mean - pop_mean) / (sample_sd / sqrt(sample_size))
p_value <- 1 - pt(t_value, df = sample_size - 1)
p_value
## [1] 0.0356806
Q8. 귀무가설을 기각할 수 있는가? 이빨 길이에 대해 어떠한 결론을 내릴 수 있는가? 일반적으로 신뢰수준을 결정할때 95%로 설정하고 이때의 유의수준은 0.05다. 문제 7번에서 구한 p-value는 0.036이다. 이는 유의수준 0.05보다 작은 수치이고, 유의수준보다 구한 p-value가 작을때 귀무가설을 기각할 수 있다. 따라서 기니피그의 이빨 길이는 17 이상이다라고 판단할 수 있다.