####單因子變異數分析  one-way ANOVA####
#配合教科書文字框8-2、8-3、8-6
#比較三組以上的樣本


#問題意識:不同小麥品種的產量是否有顯著差異?
#自變數:小麥品種
#依變數:產量

#準備資料:檢視變數型態
load(file = "example8_2.RData")
str(example8_2$品種)#必須是factor型態
##  Factor w/ 4 levels "地塊編號","品種1",..: 2 2 2 2 2 2 2 2 2 2 ...
str(example8_2$產量)#必須是數值型態
##  int [1:30] 81 82 79 81 78 89 92 87 85 86 ...
#先畫盒狀圖比較兩組樣本
#方法一:
boxplot(產量~品種,data=example8_2,col="gold",main="",ylab="產量", xlab="品種")
#方法二:
library(ggplot2)

ggplot(data=example8_2, aes(x=品種, y=產量, fill = 品種))+
    geom_boxplot()

# 撰寫分析步驟
# Step1:分析樣本平均數或建立交叉表
#先分組,再計算
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
str(example8_2)
## 'data.frame':    30 obs. of  3 variables:
##  $ 地塊: Factor w/ 10 levels "1","2","3","4",..: 1 2 3 4 5 6 7 8 9 10 ...
##  $ 品種: Factor w/ 4 levels "地塊編號","品種1",..: 2 2 2 2 2 2 2 2 2 2 ...
##  $ 產量: int  81 82 79 81 78 89 92 87 85 86 ...
mytable <- example8_2 %>% 
    group_by(品種) %>% 
    summarise(次數= n(), 平均數 = mean(產量), 標準差 = sd(產量))
mytable
## # A tibble: 3 x 4
##   品種   次數 平均數 標準差
##   <fct> <int>  <dbl>  <dbl>
## 1 品種1    10     84   4.55
## 2 品種2    10     74   4.45
## 3 品種3    10     82   5.27
# 品種   人數 平均數 標準差
# 1 品種1    10     84   4.55
# 2 品種2    10     74   4.45
# 3 品種3    10     82   5.27

# Step2:決定顯著水準( 0.1, 0.05, 0.01, 0.001)
# p<0.05
# Step3:寫出虛無假設與對立假設
# H0:不同小麥品種的產量"沒有顯著差異"。
# H1:不同小麥品種的產量"有顯著差異"。
# Step4:決定檢定方法
# 單因子變異數分析  one-way ANOVA
# Step5:計算檢定值。
model_1w<-aov(example8_2$產量~example8_2$品種)
summary(model_1w)
##                 Df Sum Sq Mean Sq F value   Pr(>F)    
## example8_2$品種  2    560  280.00   12.31 0.000158 ***
## Residuals       27    614   22.74                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#檢定值F = 12.31
# Step6:計算p值
#p-value = 0.000158
# Step7:下決策
#因為(p-value = 0.000158)<0.05,所以拒絕虛無假設,對立假設成立:不同小麥品種的產量"有顯著差異"。
# Step8:事後比較
TukeyHSD(model_1w)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = example8_2$產量 ~ example8_2$品種)
## 
## $`example8_2$品種`
##             diff        lwr       upr     p adj
## 品種2-品種1  -10 -15.287702 -4.712298 0.0002017
## 品種3-品種1   -2  -7.287702  3.287702 0.6215828
## 品種3-品種2    8   2.712298 13.287702 0.0023770
# diff        lwr       upr     p adj
# 品種2-品種1  -10 -15.287702 -4.712298 0.0002017
# 品種3-品種1   -2  -7.287702  3.287702 0.6215828
# 品種3-品種2    8   2.712298 13.287702 0.0023770

##結論:品種2的產量明顯較低