Bộ dữ liệu Iris được tạo ra khi nhà sinh vật học người Anh Ronald
Fisher xuất bản bài báo năm 1936 của ông “Việc sử dụng nhiều phép đo
trong các vấn đề phân loại” như một ví dụ về phân tích phân biệt tuyến
tính. Đôi khi nó cũng được gọi là tập dữ liệu Anderson’s Iris vì Edgar
Anderson là người đã thu thập dữ liệu để định lượng sự biến đổi hình
thái của hoa Iris theo ba loài có liên quan. Về cơ bản, hai nhà khoa học
lâu đời này đã khai sinh ra tập dữ liệu, tập dữ liệu vẫn được sử dụng
cho đến ngày nay để học các kiến thức cơ bản về RStudio.
Bộ dữ liệu iris đưa ra các phép đo tính bằng cm của các biến
chiều dài và chiều rộng của lá đài “Sepal” và chiều dài và chiều rộng
của cánh hoa “Petal”, tương ứng, đối với 50 bông hoa từ mỗi trong số 3
loài iris. Các loài là Iris setosa, versicolor, và
virginica.
#Install package
install.packages('dplyr')
install.packages('ggplot2')
install.packages('GGally')
install.packages('cluster')
install.packages('fpc')
library(dplyr)
library(reshape2)
library(ggplot2)
library(GGally)
library(cluster)
library(fpc)
#Explore Iris Dataset
iris
data(iris)
Bước 1: Khám phá dữ liệu Iris
Ở bước đầu tiên chúng ta sẽ tìm hiểu các công thức trong R giúp có
thể xem và khám phá dữ liệu một cách tổng quan. Những tính năng này cho
phép chúng ta nhìn được dữ liệu hoặc cung cấp các thống kê tổng quan về
dữ liệu như những chỉ số cơ bản về Mean, Median, Min, Max, Std,
Variance, … Đồng thời chúng ta cũng có thể xem và xác nhận cấu trúc dữ
liệu và cả định dạng của dữ liệu trước khi phân tích.
#STEP 1: EXPLORE DATA ----
#1.1 Function summary to review data
summary(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50
Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
#1.2 Function names to show columns name
names(iris)
[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"
names(iris) <- tolower(names(iris))
#1.3 Function dim to show row and column counts
dim(iris)
[1] 150 5
#1.4 Function class to show data structure
class(iris)
[1] "data.frame"
#1.5 Function typeof and str to show data type
typeof(iris$sepal.length)
[1] "double"
str(iris$sepal.length)
num [1:150] 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
typeof(iris$species)
[1] "integer"
class(iris$species)
[1] "factor"
str(iris$species)
Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
Bước 2: Chỉnh sửa và thay đổi cấu trúc dữ liệu
Ở bước tiếp theo, chúng ta sẽ cùng sử dụng những câu lệnh để chỉnh
sửa cấu trúc dữ liệu Iris theo yêu cầu. Điều này bao gồm việc bóc tách
dữ liệu thành những bảng nhỏ hơn như phân thành các bảng theo từng loài
hoa. Hoặc chúng mong muốn thêm các cột, sort bảng theo một tiêu chí nào
đó.
Và một yếu tố quan trọng không kém là chuyển đổi cấu trúc giống với
tính năng Unpivot trong PowerBI thì chúng ta sẽ chuyển đổi dữ liệu từ
dạng Wide (cấu trúc giống Pivot Table) sang dạng Long (cấu trúc giống
Tabular). Điều này yêu cầu chúng ta sẽ phải cài đặt thêm Package dplyr
là một bộ ngôn ngữ lập trình trong R giúp thay đổi cấu trúc và chỉnh sửa
dữ liệu. Chúng ta sẽ thêm ở bên trên phần Install Package nội dung câu
lệnh để cài đặt package dplyr và sử dụng chúng trong môi trường hiện
tại.
#2.1 Split data into subset
virginica <- iris[iris$species == 'virginica',]
virginica2 <- iris[iris$species == 'virginica' & iris$sepal.length > 6,]
head(virginica)
#2.2 Function select to select columns
selected <- select(iris, sepal.length, sepal.width)
head(selected)
#2.3 Function mutate to add column
newcol <- mutate(iris, longer = sepal.length / sepal.width )
newcol <- mutate(newcol, longer.2x = sepal.length > 2*sepal.width )
tail(newcol)
#2.4 Function arrange to sort data
newcol <- arrange(newcol, sepal.width)
newcol <- arrange(newcol, desc(sepal.width))
head(newcol)
#2.5 Function melt to unpivot table (wide -> long)
iris.melt <- melt(iris, id = 'species', variable.name = 'size')
head(iris.melt)
Bước 3: Trực quan hóa dữ liệu và tạo biểu đồ
Sau khi đã có các bảng dữ liệu theo dạng cần thiết, chúng ta có thể
sử dụng các package và code xây dựng các biểu đồ giúp trực quan hóa
thông tin. Ở bước này chúng ta sẽ tạo những biểu đồ có ý nghĩa về mặt
thống kê với dữ liệu để hiểu về tập đối tượng đang phân tích. Chúng bao
gồm biểu đồ Histogram để xem sự phân bổ về các chiều dài của hoa, sử
dụng Box Plot giúp trực quan các con số thống kê. Sử dụng Scatter Plot
để xem phân bổ của dữ liệu theo 2 chiều cụ thể.
Để tạo ra các biểu đồ này, chúng ta có thể sử dụng các câu lệnh có
sẵn trong RStudio hoặc cài đặt thêm Package GGPlot & Ggally để có
thể tạo các biểu đồ tương tự nhưng có nhiều khả năng thay đổi điều chỉnh
cũng như dễ dàng tạo hơn.
#STEP 3: VISUALIZE DATA ----
#3.1 Function hist to show histogram
hist(iris$sepal.length)

hist(iris$sepal.length,
col='light blue',
main='Histogram',
xlab='Sepal.Length',
ylab='Frequency')

hist(iris$sepal.length, col='red', breaks=20, main='Histogram', xlab='Size')
hist(iris$petal.length, col='green',breaks=30, add=TRUE)
legend('topright',
c('Sepal Length', 'Petal Length'),
fill=c('red', 'green'))

#3.2 Use ggplot to create charts
ggplot(iris.melt, aes(x=value, fill=size)) +
geom_histogram(color ='#e9ecef', alpha = 0.6, position = 'identity')

ggplot(iris.melt, aes(x=value, fill=size)) +
geom_histogram(color ='#e9ecef', alpha = 0.6, position = 'identity') +
facet_wrap(~size)

#3.3 Function boxplot to create boxplot
boxplot(sepal.length ~ species,
data = iris,
main = 'Sepal Length by Species',
xlab = 'Species',
ylab = 'Sepal Length',
col = 'light blue',
border = 'black')

#boxplot with melt data
boxplot(value ~ size,
data = iris.melt,
main = 'Compare different size',
xlab = 'Size',
ylab = 'Value',
col = 'light blue',
border = 'black')

#Advanced boxplot with ggplot
ggplot(iris.melt, aes(x=size, y=value, fill=size)) +
geom_boxplot()+
geom_jitter(color = 'black', size = 0.4, alpha = 0.9)

#3.4 Function plot to create scatter plot
plot(iris)

plot(iris[,1:4])

plot(iris$sepal.width, iris$sepal.length,
col = iris[,5],
main = 'Scatterplot',
xlab = 'Sepal Width',
ylab = 'Sepal Length',
pch = 19)

pairs(iris[,1:4],col=iris[,5],oma=c(4,4,6,12))
par(xpd=TRUE)

ggplot(iris, aes(x=sepal.length, y=sepal.width, color=species)) +
geom_point(size=5)

ggpairs(iris,
columns = 1:4,
aes(color = species, alpha = 0.5))

Bước 4: Kiểm chứng giả định với T-test
Ở buổi trước chúng ta đã học cách sử dụng T-test để xác định giả
thuyết có chính xác hay không. Tương tự với RStudio, chúng ta có thể dễ
dàng sử dụng nhiều loại T-test, ở phần thực hành này chúng ta sẽ sử dụng
loại T-test để xác định giả thuyết cơ bản về các loại hoa như sau.
Câu hỏi: liệu loài setosa và versicolor có chiều dài
cánh hoa khác nhau hay không?
Giả định:
#STEP 4: HYPOTHESIS TESTING WITH T-test ----
setosa <- iris[iris$species == 'setosa',]
versicolor <- iris[iris$species == 'versicolor',]
t.test(x= setosa$petal.length, y = versicolor$petal.length)
Welch Two Sample t-test
data: setosa$petal.length and versicolor$petal.length
t = -39.493, df = 62.14, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.939618 -2.656382
sample estimates:
mean of x mean of y
1.462 4.260
Bước 5: Phân tích phương sai ANOVA
Tương tự chúng ta cũng có thể chạy các mô hình phân tích ANOVA trong
RStudio. Trong phần thực hành này, chúng ta sẽ cùng phân tích ANOVA để
xác định giả thuyết so sánh về chiều dài cánh hoa giữa cả 3 loài
hoa.
Câu hỏi: liệu 3 loài hoa khác nhau có chiều dài cánh
hoa khác nhau hay không? Giả định:
#STEP 5: ANALYSIS WITH ANOVA ----
petal.length.aov <- aov(formula = petal.length ~ species, data = iris)
summary(object = petal.length.aov)
Df Sum Sq Mean Sq F value Pr(>F)
species 2 437.1 218.55 1180 <2e-16 ***
Residuals 147 27.2 0.19
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
TukeyHSD(petal.length.aov)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = petal.length ~ species, data = iris)
$species
diff lwr upr p adj
versicolor-setosa 2.798 2.59422 3.00178 0
virginica-setosa 4.090 3.88622 4.29378 0
virginica-versicolor 1.292 1.08822 1.49578 0
Bước 6: Thực hành phân tích phương sai ANOVA
Giả sử như bạn chỉ có các thông số về chiều dài và chiều rộng của
cánh hoa thì có thể từ chúng xác nhận loài hoa hay không? Nếu với 2
phương pháp trước bên trên chúng ta đã chỉ định được rằng kích thước
cánh hoa của 3 loài là khác biệt (tương tự với nhụy hoa) thì chúng ta có
thể tự tin xây dựng mô hình để dự đoán tên loài hoa với các số liệu về
kích thước cánh hoa và nhụy hoa.
Chúng ta sẽ sử dụng mô hình K-mean Clustering để giúp phân loại các
nhóm loài hoa từ các chỉ số trên và từ chúng ta có thể nhận biết được
hoa nào là thuộc loài gì. Để làm được điều này, chúng ta sẽ chuẩn bị một
vài bước xử lý dữ liệu để có dữ liệu để thử nghiệm.
Đầu tiên, ta sẽ tạo ra một bộ dữ liệu iris.test gồm chỉ có 4 cột
thông số về kích thước chứ không có tên của loài hoa. Sau đó ở đây,
chúng ta sẽ cùng sử dụng mô hình K-mean Clustering để phân loại chúng và
biết được giống hoa nào dựa trên các chỉ số về độ dài đó.
K-mean Clustering là một trong những phương pháp học không giám sát
phổ biến nhất trong học máy. Thuật toán này giúp xác định “k” nhóm (cụm)
có thể có từ “n” phần tử dựa trên khoảng cách giữa các phần tử.
Giải thích chi tiết hơn sẽ là: thuật toán tìm ra khoảng cách giữa mỗi
phần tử trong dữ liệu của bạn, sau đó tìm số lượng tâm, phân bổ phần tử
cho các trung tâm gần nhất để tạo thành các cụm và mục tiêu cuối cùng là
giữ nguyên kích thước của mỗi cụm càng nhỏ càng tốt.
Một trong những câu hỏi phổ biến liên quan đến thuật toán K-mean là
liệu nó có thể xử lý dữ liệu không phải là số hay không. Câu trả lời
ngắn gọn là KHÔNG vì thuật toán đang sử dụng khoảng cách giữa các lần
quan sát. Tuy nhiên, có rất nhiều thuật toán có thể giúp chuyển đổi các
tính năng không phải số thành các tính năng số, điều này sẽ cho phép bạn
áp dụng thuật toán K-mean cho dữ liệu của mình.
iris.test <- iris
iris.test$species <- NULL
head(iris.test)
NA
kmeans.result <- kmeans(iris.test, 3)
table(iris$species, kmeans.result$cluster)
1 2 3
setosa 50 0 0
versicolor 0 2 48
virginica 0 36 14
plot(iris.test[c('sepal.length', 'sepal.width')], col = kmeans.result$cluster)

plotcluster(iris.test, kmeans.result$cluster)

clusplot(iris.test, kmeans.result$cluster, color = TRUE, shade = TRUE)

