Bộ dữ liệu Iris được tạo ra khi nhà sinh vật học người Anh Ronald Fisher xuất bản bài báo năm 1936 của ông “Việc sử dụng nhiều phép đo trong các vấn đề phân loại” như một ví dụ về phân tích phân biệt tuyến tính. Đôi khi nó cũng được gọi là tập dữ liệu Anderson’s Iris vì Edgar Anderson là người đã thu thập dữ liệu để định lượng sự biến đổi hình thái của hoa Iris theo ba loài có liên quan. Về cơ bản, hai nhà khoa học lâu đời này đã khai sinh ra tập dữ liệu, tập dữ liệu vẫn được sử dụng cho đến ngày nay để học các kiến thức cơ bản về RStudio.

Bộ dữ liệu iris đưa ra các phép đo tính bằng cm của các biến chiều dài và chiều rộng của lá đài “Sepal” và chiều dài và chiều rộng của cánh hoa “Petal”, tương ứng, đối với 50 bông hoa từ mỗi trong số 3 loài iris. Các loài là Iris setosa, versicolor, và virginica.

#Install package
install.packages('dplyr')
install.packages('ggplot2')
install.packages('GGally')
install.packages('cluster')
install.packages('fpc')
library(dplyr)
library(reshape2)
library(ggplot2)
library(GGally)
library(cluster)
library(fpc)
#Explore Iris Dataset
iris
data(iris)

Bước 1: Khám phá dữ liệu Iris

Ở bước đầu tiên chúng ta sẽ tìm hiểu các công thức trong R giúp có thể xem và khám phá dữ liệu một cách tổng quan. Những tính năng này cho phép chúng ta nhìn được dữ liệu hoặc cung cấp các thống kê tổng quan về dữ liệu như những chỉ số cơ bản về Mean, Median, Min, Max, Std, Variance, … Đồng thời chúng ta cũng có thể xem và xác nhận cấu trúc dữ liệu và cả định dạng của dữ liệu trước khi phân tích.

#STEP 1: EXPLORE DATA ----
#1.1 Function summary to review data
summary(iris)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500                  
#1.2 Function names to show columns name
names(iris)
[1] "Sepal.Length" "Sepal.Width"  "Petal.Length" "Petal.Width"  "Species"     
names(iris) <- tolower(names(iris))
#1.3 Function dim to show row and column counts
dim(iris)
[1] 150   5
#1.4 Function class to show data structure
class(iris)
[1] "data.frame"
#1.5 Function typeof and str to show data type
typeof(iris$sepal.length)
[1] "double"
str(iris$sepal.length)
 num [1:150] 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
typeof(iris$species)
[1] "integer"
class(iris$species)
[1] "factor"
str(iris$species)
 Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

Bước 2: Chỉnh sửa và thay đổi cấu trúc dữ liệu

Ở bước tiếp theo, chúng ta sẽ cùng sử dụng những câu lệnh để chỉnh sửa cấu trúc dữ liệu Iris theo yêu cầu. Điều này bao gồm việc bóc tách dữ liệu thành những bảng nhỏ hơn như phân thành các bảng theo từng loài hoa. Hoặc chúng mong muốn thêm các cột, sort bảng theo một tiêu chí nào đó.

Và một yếu tố quan trọng không kém là chuyển đổi cấu trúc giống với tính năng Unpivot trong PowerBI thì chúng ta sẽ chuyển đổi dữ liệu từ dạng Wide (cấu trúc giống Pivot Table) sang dạng Long (cấu trúc giống Tabular). Điều này yêu cầu chúng ta sẽ phải cài đặt thêm Package dplyr là một bộ ngôn ngữ lập trình trong R giúp thay đổi cấu trúc và chỉnh sửa dữ liệu. Chúng ta sẽ thêm ở bên trên phần Install Package nội dung câu lệnh để cài đặt package dplyr và sử dụng chúng trong môi trường hiện tại.

#2.1 Split data into subset
virginica <- iris[iris$species == 'virginica',]
virginica2 <- iris[iris$species == 'virginica' & iris$sepal.length > 6,]
head(virginica)
#2.2 Function select to select columns
selected <- select(iris, sepal.length, sepal.width)
head(selected)
#2.3 Function mutate to add column
newcol <- mutate(iris, longer = sepal.length / sepal.width )
newcol <- mutate(newcol, longer.2x = sepal.length > 2*sepal.width )
tail(newcol)
#2.4 Function arrange to sort data
newcol <- arrange(newcol, sepal.width)
newcol <- arrange(newcol, desc(sepal.width))
head(newcol)
#2.5 Function melt to unpivot table (wide -> long)
iris.melt <- melt(iris, id = 'species', variable.name = 'size')
head(iris.melt)

Bước 3: Trực quan hóa dữ liệu và tạo biểu đồ

Sau khi đã có các bảng dữ liệu theo dạng cần thiết, chúng ta có thể sử dụng các package và code xây dựng các biểu đồ giúp trực quan hóa thông tin. Ở bước này chúng ta sẽ tạo những biểu đồ có ý nghĩa về mặt thống kê với dữ liệu để hiểu về tập đối tượng đang phân tích. Chúng bao gồm biểu đồ Histogram để xem sự phân bổ về các chiều dài của hoa, sử dụng Box Plot giúp trực quan các con số thống kê. Sử dụng Scatter Plot để xem phân bổ của dữ liệu theo 2 chiều cụ thể.

Để tạo ra các biểu đồ này, chúng ta có thể sử dụng các câu lệnh có sẵn trong RStudio hoặc cài đặt thêm Package GGPlot & Ggally để có thể tạo các biểu đồ tương tự nhưng có nhiều khả năng thay đổi điều chỉnh cũng như dễ dàng tạo hơn.

#STEP 3: VISUALIZE DATA ----

#3.1 Function hist to show histogram
hist(iris$sepal.length)


hist(iris$sepal.length,
     col='light blue',
     main='Histogram',
     xlab='Sepal.Length',
     ylab='Frequency')


hist(iris$sepal.length, col='red', breaks=20, main='Histogram', xlab='Size')

hist(iris$petal.length, col='green',breaks=30, add=TRUE)

legend('topright',
       c('Sepal Length', 'Petal Length'),
       fill=c('red', 'green'))

#3.2 Use ggplot to create charts
ggplot(iris.melt, aes(x=value, fill=size)) +
  geom_histogram(color ='#e9ecef', alpha = 0.6, position = 'identity')


ggplot(iris.melt, aes(x=value, fill=size)) +
  geom_histogram(color ='#e9ecef', alpha = 0.6, position = 'identity') +
  facet_wrap(~size)

#3.3 Function boxplot to create boxplot
boxplot(sepal.length ~ species,
        data = iris,
        main = 'Sepal Length by Species',
        xlab = 'Species',
        ylab = 'Sepal Length',
        col = 'light blue',
        border = 'black')

#boxplot with melt data
boxplot(value ~ size,
        data = iris.melt,
        main = 'Compare different size',
        xlab = 'Size',
        ylab = 'Value',
        col = 'light blue',
        border = 'black')

#Advanced boxplot with ggplot
ggplot(iris.melt, aes(x=size, y=value, fill=size)) +
  geom_boxplot()+
  geom_jitter(color = 'black', size = 0.4, alpha = 0.9)

#3.4 Function plot to create scatter plot
plot(iris)

plot(iris[,1:4])


plot(iris$sepal.width, iris$sepal.length,
     col = iris[,5],
     main = 'Scatterplot',
     xlab = 'Sepal Width',
     ylab = 'Sepal Length',
     pch = 19)

pairs(iris[,1:4],col=iris[,5],oma=c(4,4,6,12))
par(xpd=TRUE)

ggplot(iris, aes(x=sepal.length, y=sepal.width, color=species)) +
  geom_point(size=5)

ggpairs(iris,
        columns = 1:4,
        aes(color = species, alpha = 0.5))

Bước 4: Kiểm chứng giả định với T-test

Ở buổi trước chúng ta đã học cách sử dụng T-test để xác định giả thuyết có chính xác hay không. Tương tự với RStudio, chúng ta có thể dễ dàng sử dụng nhiều loại T-test, ở phần thực hành này chúng ta sẽ sử dụng loại T-test để xác định giả thuyết cơ bản về các loại hoa như sau. Câu hỏi: liệu loài setosa và versicolor có chiều dài cánh hoa khác nhau hay không?

Giả định:

#STEP 4: HYPOTHESIS TESTING WITH T-test ----

setosa <- iris[iris$species == 'setosa',]
versicolor <- iris[iris$species == 'versicolor',]

t.test(x= setosa$petal.length, y = versicolor$petal.length)

    Welch Two Sample t-test

data:  setosa$petal.length and versicolor$petal.length
t = -39.493, df = 62.14, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.939618 -2.656382
sample estimates:
mean of x mean of y 
    1.462     4.260 

Bước 5: Phân tích phương sai ANOVA

Tương tự chúng ta cũng có thể chạy các mô hình phân tích ANOVA trong RStudio. Trong phần thực hành này, chúng ta sẽ cùng phân tích ANOVA để xác định giả thuyết so sánh về chiều dài cánh hoa giữa cả 3 loài hoa.

Câu hỏi: liệu 3 loài hoa khác nhau có chiều dài cánh hoa khác nhau hay không? Giả định:

#STEP 5: ANALYSIS WITH ANOVA ----

petal.length.aov <- aov(formula = petal.length ~ species, data = iris)

summary(object = petal.length.aov)
             Df Sum Sq Mean Sq F value Pr(>F)    
species       2  437.1  218.55    1180 <2e-16 ***
Residuals   147   27.2    0.19                   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
TukeyHSD(petal.length.aov)
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = petal.length ~ species, data = iris)

$species
                      diff     lwr     upr p adj
versicolor-setosa    2.798 2.59422 3.00178     0
virginica-setosa     4.090 3.88622 4.29378     0
virginica-versicolor 1.292 1.08822 1.49578     0

Bước 6: Thực hành phân tích phương sai ANOVA

Giả sử như bạn chỉ có các thông số về chiều dài và chiều rộng của cánh hoa thì có thể từ chúng xác nhận loài hoa hay không? Nếu với 2 phương pháp trước bên trên chúng ta đã chỉ định được rằng kích thước cánh hoa của 3 loài là khác biệt (tương tự với nhụy hoa) thì chúng ta có thể tự tin xây dựng mô hình để dự đoán tên loài hoa với các số liệu về kích thước cánh hoa và nhụy hoa.

Chúng ta sẽ sử dụng mô hình K-mean Clustering để giúp phân loại các nhóm loài hoa từ các chỉ số trên và từ chúng ta có thể nhận biết được hoa nào là thuộc loài gì. Để làm được điều này, chúng ta sẽ chuẩn bị một vài bước xử lý dữ liệu để có dữ liệu để thử nghiệm.

Đầu tiên, ta sẽ tạo ra một bộ dữ liệu iris.test gồm chỉ có 4 cột thông số về kích thước chứ không có tên của loài hoa. Sau đó ở đây, chúng ta sẽ cùng sử dụng mô hình K-mean Clustering để phân loại chúng và biết được giống hoa nào dựa trên các chỉ số về độ dài đó.

K-mean Clustering là một trong những phương pháp học không giám sát phổ biến nhất trong học máy. Thuật toán này giúp xác định “k” nhóm (cụm) có thể có từ “n” phần tử dựa trên khoảng cách giữa các phần tử.

Giải thích chi tiết hơn sẽ là: thuật toán tìm ra khoảng cách giữa mỗi phần tử trong dữ liệu của bạn, sau đó tìm số lượng tâm, phân bổ phần tử cho các trung tâm gần nhất để tạo thành các cụm và mục tiêu cuối cùng là giữ nguyên kích thước của mỗi cụm càng nhỏ càng tốt.

Một trong những câu hỏi phổ biến liên quan đến thuật toán K-mean là liệu nó có thể xử lý dữ liệu không phải là số hay không. Câu trả lời ngắn gọn là KHÔNG vì thuật toán đang sử dụng khoảng cách giữa các lần quan sát. Tuy nhiên, có rất nhiều thuật toán có thể giúp chuyển đổi các tính năng không phải số thành các tính năng số, điều này sẽ cho phép bạn áp dụng thuật toán K-mean cho dữ liệu của mình.

iris.test <- iris
iris.test$species <- NULL
head(iris.test)
NA
kmeans.result <- kmeans(iris.test, 3)
table(iris$species, kmeans.result$cluster)
            
              1  2  3
  setosa     50  0  0
  versicolor  0  2 48
  virginica   0 36 14
plot(iris.test[c('sepal.length', 'sepal.width')], col = kmeans.result$cluster)

plotcluster(iris.test, kmeans.result$cluster)

clusplot(iris.test, kmeans.result$cluster, color = TRUE, shade = TRUE)

