####單因子變異數分析 one-way ANOVA####
#配合教科書文字框8-2、8-3、8-6
#比較三組以上的樣本
#問題意識:不同小麥品種的產量是否有顯著差異?
#自變數:小麥品種
#依變數:產量
#準備資料:檢視變數型態
load(file = "example8_2.RData")
str(example8_2$品種)#必須是factor型態
## Factor w/ 4 levels "地塊編號","品種1",..: 2 2 2 2 2 2 2 2 2 2 ...
str(example8_2$產量)#必須是數值型態
## int [1:30] 81 82 79 81 78 89 92 87 85 86 ...
#先畫盒狀圖比較兩組樣本
#方法一:
boxplot(產量~品種,data=example8_2,col="gold",main="",ylab="產量", xlab="品種")
#方法二:
library(ggplot2)

ggplot(data=example8_2, aes(x=品種, y=產量, fill = 品種))+
geom_boxplot()

# 撰寫分析步驟
# Step1:分析樣本平均數或建立交叉表
#先分組,再計算
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
str(example8_2)
## 'data.frame': 30 obs. of 3 variables:
## $ 地塊: Factor w/ 10 levels "1","2","3","4",..: 1 2 3 4 5 6 7 8 9 10 ...
## $ 品種: Factor w/ 4 levels "地塊編號","品種1",..: 2 2 2 2 2 2 2 2 2 2 ...
## $ 產量: int 81 82 79 81 78 89 92 87 85 86 ...
mytable <- example8_2 %>%
group_by(品種) %>%
summarise(次數= n(), 平均數 = mean(產量), 標準差 = sd(產量))
mytable
## # A tibble: 3 x 4
## 品種 次數 平均數 標準差
## <fct> <int> <dbl> <dbl>
## 1 品種1 10 84 4.55
## 2 品種2 10 74 4.45
## 3 品種3 10 82 5.27
# 品種 人數 平均數 標準差
# 1 品種1 10 84 4.55
# 2 品種2 10 74 4.45
# 3 品種3 10 82 5.27
# Step2:決定顯著水準( 0.1, 0.05, 0.01, 0.001)
# p<0.05
# Step3:寫出虛無假設與對立假設
# H0:不同小麥品種的產量"沒有顯著差異"。
# H1:不同小麥品種的產量"有顯著差異"。
# Step4:決定檢定方法
# 單因子變異數分析 one-way ANOVA
# Step5:計算檢定值。
model_1w<-aov(example8_2$產量~example8_2$品種)
summary(model_1w)
## Df Sum Sq Mean Sq F value Pr(>F)
## example8_2$品種 2 560 280.00 12.31 0.000158 ***
## Residuals 27 614 22.74
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#檢定值F = 12.31
# Step6:計算p值
#p-value = 0.000158
# Step7:下決策
#因為(p-value = 0.000158)<0.05,所以拒絕虛無假設,對立假設成立:不同小麥品種的產量"有顯著差異"。
# Step8:事後比較
TukeyHSD(model_1w)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = example8_2$產量 ~ example8_2$品種)
##
## $`example8_2$品種`
## diff lwr upr p adj
## 品種2-品種1 -10 -15.287702 -4.712298 0.0002017
## 品種3-品種1 -2 -7.287702 3.287702 0.6215828
## 品種3-品種2 8 2.712298 13.287702 0.0023770
# diff lwr upr p adj
# 品種2-品種1 -10 -15.287702 -4.712298 0.0002017
# 品種3-品種1 -2 -7.287702 3.287702 0.6215828
# 品種3-品種2 8 2.712298 13.287702 0.0023770
##結論:品種2的產量明顯較低