1 資料介紹

鳶尾花資料集取自美國加州大學歐文分校的機械學習資料庫,共有150筆觀測值,每筆觀測值皆有5個變數欄位,各變數分別為:

  • Sepal length: 萼片長度
  • Sepal Width: 萼片寬度
  • Petal Length: 花瓣長度
  • Petal Width: 花瓣寬度
  • Species: 鳶尾植物類別,共分為三種:Setosa、Versicolor與Virginica

前四個變數欄位為數值型態,單位皆為公分;第五個欄位為類別型態。
將資料集展示如下:

2 敘述統計

針對各變數之敘述統計報表如下:

iris 

 5  Variables      150  Observations
---------------------------------------------------------------------------
Sepal.Length 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
     150        0       35    0.998    5.843   0.9462    4.600    4.800 
     .25      .50      .75      .90      .95 
   5.100    5.800    6.400    6.900    7.255 

lowest : 4.3 4.4 4.5 4.6 4.7, highest: 7.3 7.4 7.6 7.7 7.9
---------------------------------------------------------------------------
Sepal.Width 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
     150        0       23    0.992    3.057   0.4872    2.345    2.500 
     .25      .50      .75      .90      .95 
   2.800    3.000    3.300    3.610    3.800 

lowest : 2.0 2.2 2.3 2.4 2.5, highest: 3.9 4.0 4.1 4.2 4.4
---------------------------------------------------------------------------
Petal.Length 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
     150        0       43    0.998    3.758    1.979     1.30     1.40 
     .25      .50      .75      .90      .95 
    1.60     4.35     5.10     5.80     6.10 

lowest : 1.0 1.1 1.2 1.3 1.4, highest: 6.3 6.4 6.6 6.7 6.9
---------------------------------------------------------------------------
Petal.Width 
       n  missing distinct     Info     Mean      Gmd      .05      .10 
     150        0       22     0.99    1.199   0.8676      0.2      0.2 
     .25      .50      .75      .90      .95 
     0.3      1.3      1.8      2.2      2.3 

lowest : 0.1 0.2 0.3 0.4 0.5, highest: 2.1 2.2 2.3 2.4 2.5
---------------------------------------------------------------------------
Species 
       n  missing distinct 
     150        0        3 
                                           
Value          setosa versicolor  virginica
Frequency          50         50         50
Proportion      0.333      0.333      0.333
---------------------------------------------------------------------------
針對各個鳶尾花物種中,計算其長度、寬度的平均測量值:

3 視覺化圖形

針對鳶尾花的各個種類,其花瓣花萼的長寬度分布圖使用箱型圖呈現。其中,虛線代表平均測量值。

4 相關檢定

  1. 常態性檢定: 檢查鳶尾花之花瓣與花萼,其長度和寬度是否符合常態分配。
  • 常態機率圖
  • Shapiro test
    虛無假設: 該變數服從常態分配。
    對立假設: 該變數並非服從常態分配。
    由檢定結果得知,僅有花萼寬度測量值不拒絕虛無假設,因此使用花萼寬度來判斷種類。
  1. ANOVA 變異數分析: 檢查三種種類的鳶尾花,其花萼寬度的平均數是否有差異。
    虛無假設: 三種種類的鳶尾花,其平均花萼寬度相同。
    對立假設: 至少有一種種類的鳶尾花的平均花萼寬度與其它種類不相等。
    由檢定結果得知,至少有一種種類的鳶尾花的平均花萼寬度與其它種類不相等。