数据分析应该注意的几个问题

黄利东

2023-12-15

农业人的使命

数据收集与处理

认识鸢尾花数据集

英国统计学家罗纳德·费希尔在1936年的论文《分类学问题中可使用的多种测量方法》中使用了《安德森鸢尾花卉数据集》收录的三种鸢尾变种,作为线性判别分析的案例.

数据处理的网站

点击进入

科学处理数据的几个层面




–过 程 严 谨



–方 法 可 靠



–结 果 准 确

过程合规性

方差分析的数据要符合正态分布

library(rstatix)
iris %>%
  group_by(Species)%>%
shapiro_test(Sepal.Length)
## # A tibble: 3 × 4
##   Species    variable     statistic     p
##   <fct>      <chr>            <dbl> <dbl>
## 1 setosa     Sepal.Length     0.978 0.460
## 2 versicolor Sepal.Length     0.978 0.465
## 3 virginica  Sepal.Length     0.971 0.258

非常严格,不通过的话,需要转换或非参数方差分析

方差分析的数据要符合方差齐性



```r
library(rstatix)
iris %>%
  # group_by(Species)%>%
levene_test(Sepal.Length ~ Species,center = median)
```

```
## # A tibble: 1 × 4
##     df1   df2 statistic       p
##            
## 1     2   147      6.35 0.00226
```

```r
iris %>%
  # group_by(Species)%>%
levene_test(Sepal.Length ~ Species,center = mean)
```

```
## # A tibble: 1 × 4
##     df1   df2 statistic        p
##             
## 1     2   147      7.38 0.000882
```

要求不严,不通过的话,可以进行方差不齐的方差分析

By default, median, provides a more robust test.

其他注意事项

异常值要按规定进行处理

重复次数至少要达到3次

方法的选择



t检验适合两组数据比较

ANOVA适合3组以上比较

方差分析与事后比较

In a scientific study, post hoc analysis (from Latin post hoc, “after this”) consists of statistical analyses that were specified after the data were seen. They are usually used to uncover specific differences between three or more group means when an analysis of variance (ANOVA) test is significant–FROM Wikipedia

永远先做方差分析,然后再做事后比较。

事后比较方法选择

SPSS多重比较方法

LSD法: 最小显著性差异法(Least Significance Difference),它实质是t检验,并未对检验水准做出任何校正,所以它对差异最为敏感,但当你比较的次数非常多的时候,比如超过三组之间的比较,我们是不太建议使用LSD方法,因为没有对检验水准α进行校准,所以当比较次数过多时会增大I类错误的概率。为解决该问题,便出现了Sidak法和Bonferroni法。

Sidak法和Bonferroni法: 都为LSD的修正,其灵敏度为LSD法>Sidak法>Bonferroni法。所以Bonferroni法建议在比较组别数量较少时使用,当比较的次数较多,比如10次以上,不太建议使用该方法,会出现较多的假阴性结果。

Tukey法: 又叫HSD “Honest Significant Difference”其思想和LSD法类似,但比LSD方法保守,即灵敏度不如LSD。Tukey法要求比较的样本容量相差不大,一般用于样本容量相同的组之间均数的比较。

Scheffe法: 当各组数不相等,或者想进行复杂比较时,用此法比较稳妥。它检验的是各个均数的线性组合,而不是只检验某一对均数间的差异,方法相对比较保守,检验效能高,适用多种情况。

官方说明

多重比较与齐性子集

The relevant literature seems to support the conclusion that the tests available in the multiple comparisons table generally have better properties than the homogenous subset tests and are the preferred focus for post hoc analysis.

结果表达

别光拿P值说话

P值是比试验所对应的事件发生更极端的概率

p值示意图

p值示意图

交互作用对结果呈现的影响

区组试验要去除区组的影响



```r
block   <- factor(rep(1:6, times = 3))
variety <- rep(c("Golden.rain", "Marvellous", "Victory"), each = 6)
yield   <- c(133.25, 113.25, 86.75, 108, 95.5, 90.25, 
             129.75, 121.25, 118.5, 95, 85.25, 109, 
             143, 87.25,  82.5, 91.5, 92, 89.5)
oat <- data.frame(block, variety, yield)
aov.model1 <- aov(yield ~ block + variety)
summary(aov.model1)
```

```
##             Df Sum Sq Mean Sq F value Pr(>F)  
## block        5   3969   793.8   5.280 0.0124 *
## variety      2    447   223.3   1.485 0.2724  
## Residuals   10   1503   150.3                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
```

有时间序列的数据方差分析要小心!

  • 直接方差分析,有可能违反独立性要求

  • 时间>5个时要首先进行趋势分析

  • 时间<5个时要进行趋势分析或线性混合模型分析


Thanks