When you save the notebook, an HTML file containing the code and
output will be saved alongside it (click the Preview button or
press Ctrl+Shift+K to preview the HTML file).
The preview shows you a rendered HTML copy of the contents of the
editor. Consequently, unlike Knit, Preview does not
run any R code chunks. Instead, the output of the chunk when it was last
run in the editor is displayed.
Install Package
#Install package
install.packages('dplyr')
Installing package into ‘/cloud/lib/x86_64-pc-linux-gnu-library/4.2’
(as ‘lib’ is unspecified)
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/dplyr_1.1.0.tar.gz'
Content type 'application/x-gzip' length 1447085 bytes (1.4 MB)
==================================================
downloaded 1.4 MB
* installing *binary* package ‘dplyr’ ...
* DONE (dplyr)
The downloaded source packages are in
‘/tmp/RtmppEGSWX/downloaded_packages’
install.packages('reshape2')
Installing package into ‘/cloud/lib/x86_64-pc-linux-gnu-library/4.2’
(as ‘lib’ is unspecified)
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/reshape2_1.4.4.tar.gz'
Content type 'application/x-gzip' length 116930 bytes (114 KB)
==================================================
downloaded 114 KB
* installing *binary* package ‘reshape2’ ...
* DONE (reshape2)
The downloaded source packages are in
‘/tmp/RtmppEGSWX/downloaded_packages’
library(dplyr)
Attaching package: ‘dplyr’
The following objects are masked from ‘package:stats’:
filter, lag
The following objects are masked from ‘package:base’:
intersect, setdiff, setequal, union
library(reshape2)
library(stats)
#Explore Iris Dataset
iris
data(iris)
#Use head to show top rows from data
head(iris)
head(iris,10)
Bước 1: Thực hành khám phá dữ liệu IRIS
Ở bước đầu tiên chúng ta sẽ tìm hiểu các công thức trong R giúp có
thể xem và khám phá dữ liệu một cách tổng quan. Những tính năng này cho
phép chúng ta nhìn được dữ liệu hoặc cung cấp các thống kê tổng quan về
dữ liệu như những chỉ số cơ bản về Mean, Median, Min, Max, Std,
Variance, … Đồng thời chúng ta cũng có thể xem và xác nhận cấu trúc dữ
liệu và cả định dạng của dữ liệu trước khi phân tích. Chúng ta sẽ cùng
thực hành viết các câu lệnh và đoạn code như dưới đây:
#STEP 1: EXPLORE DATA ----------------------------
#1.1 Function summary to review data
summary(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50
Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
#1.2 Function names to show columns name
names(iris)
[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"
names(iris) <- tolower(names(iris))
#1.3 Function dim to show row and column counts
dim(iris)
[1] 150 5
#1.4 Function class to show data structure
class(iris)
[1] "data.frame"
#1.5 Function typeof and str to show data type
typeof(iris$sepal.length)
[1] "double"
str(iris$sepal.length)
num [1:150] 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
typeof(iris$species)
[1] "integer"
class(iris$species)
[1] "factor"
str(iris$species)
Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
Bước 2: Thực hành chỉnh sửa và thay đổi cấu trúc dữ liệu Ở bước tiếp
theo, chúng ta sẽ cùng sử dụng những câu lệnh để chỉnh sửa cấu trúc dữ
liệu Iris theo yêu cầu. Điều này bao gồm việc bóc tách dữ liệu thành
những bảng nhỏ hơn như phân thành các bảng theo từng loài hoa. Hoặc
chúng mong muốn thêm các cột, sort bảng theo một tiêu chí nào đó. Và một
yếu tố quan trọng không kém là chuyển đổi cấu trúc giống với tính năng
Unpivot trong PowerBI thì chúng ta sẽ chuyển đổi dữ liệu từ dạng Wide
(cấu trúc giống Pivot Table) sang dạng Long (cấu trúc giống Tabular).
Điều này yêu cầu chúng ta sẽ phải cài đặt thêm Package dplyr là một bộ
ngôn ngữ lập trình trong R giúp thay đổi cấu trúc và chỉnh sửa dữ liệu.
Chúng ta sẽ thêm ở bên trên phần Install Package nội dung câu lệnh để
cài đặt package dplyr và sử dụng chúng trong môi trường hiện tại.
#STEP 2: TRANSFORM DATA --------------------------
#2.1 Split data into subset
virginica <- iris[iris$species == 'virginica',]
virginica2 <- iris[iris$species == 'virginica' & iris$sepal.length > 6,]
head(virginica)
#2.2 Function select to select columns
selected <- select(iris, sepal.length, sepal.width)
head(selected)
#2.3 Function mutate to add column
newcol <- mutate(iris, longer = sepal.length / sepal.width )
newcol <- mutate(newcol, longer.2x = sepal.length > 2*sepal.width )
tail(newcol)
#2.4 Function arrange to sort data
newcol <- arrange(newcol, sepal.width)
newcol <- arrange(newcol, desc(sepal.width))
#2.5 Function melt to unpivot table (wide -> long)
iris.melt <- melt(iris, id = 'species', variable.name = 'size')
head(iris.melt)
Bước 3: Thực hành trực quan hóa dữ liệu và tạo biểu đồ
Sau khi đã có các bảng dữ liệu theo dạng cần thiết, chúng ta có thể
sử dụng các package và code xây dựng các biểu đồ giúp trực quan hóa
thông tin. Ở bước này chúng ta sẽ tạo những biểu đồ có ý nghĩa về mặt
thống kê với dữ liệu để hiểu về tập đối tượng đang phân tích. Chúng bao
gồm biểu đồ Histogram để xem sự phân bổ về các chiều dài của hoa, sử
dụng Box Plot giúp trực quan các con số thống kê. Sử dụng Scatter Plot
để xem phân bổ của dữ liệu theo 2 chiều cụ thể. Để tạo ra các biểu đồ
này, chúng ta có thể sử dụng các câu lệnh có sẵn trong RStudio hoặc cài
đặt thêm Package GGPlot & Ggally để có thể tạo các biểu đồ tương tự
nhưng có nhiều khả năng thay đổi điều chỉnh cũng như dễ dàng tạo
hơn.
#STEP 3: VISUALIZE DATA -----------------------
#3.1 Function hist to show histogram
hist(iris$sepal.length)

hist(iris$sepal.length,
col='light blue',
main='Histogram',
xlab='Sepal.Length',
ylab='Frequency')

hist(iris$sepal.length, col='red', breaks=20, main='Histogram', xlab='Size')
hist(iris$petal.length, col='green',breaks=30, add=TRUE)
legend('topright',
c('Sepal Length', 'Petal Length'),
fill=c('red', 'green'))

#3.2 Use ggplot to create charts
ggplot(iris.melt, aes(x=value, fill=size)) +
geom_histogram(color ='#e9ecef', alpha = 0.6, position = 'identity')
Error in ggplot(iris.melt, aes(x = value, fill = size)) :
could not find function "ggplot"
Bước 4: Kiểm chứng giả định với T-test
Ở buổi trước chúng ta đã học cách sử dụng T-test để xác định giả
thuyết có chính xác hay không. Tương tự với RStudio, chúng ta có thể dễ
dàng sử dụng nhiều loại T-test, ở phần thực hành này chúng ta sẽ sử dụng
loại T-test để xác định giả thuyết cơ bản về các loại hoa như sau. Câu
hỏi: liệu loài setosa và versicolor có chiều dài cánh hoa khác nhau hay
không? Giả định: • Null Hypothesis (Ho): Trung bình chiều dài cánh hoa 2
loài giống nhau (khác biệt mean các loài = 0) • Alternative Hypothesis
(Ha): Trung bình chiều dài cánh hoa 2 loài khác nhau
#STEP 4: HYPOTHESIS TESTING WITH T-test ---------------
setosa <- iris[iris$species == 'setosa',]
versicolor <- iris[iris$species == 'versicolor',]
t.test(x= setosa$petal.length, y = versicolor$petal.length)
Welch Two Sample t-test
data: setosa$petal.length and versicolor$petal.length
t = -39.493, df = 62.14, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.939618 -2.656382
sample estimates:
mean of x mean of y
1.462 4.260
Bước 5: Thực hành phân tích phương sai ANOVA
Tương tự chúng ta cũng có thể chạy các mô hình phân tích ANOVA trong
RStudio. Trong phần thực hành này, chúng ta sẽ cùng phân tích ANOVA để
xác định giả thuyết so sánh về chiều dài cánh hoa giữa cả 3 loài hoa.
Câu hỏi: liệu 3 loài hoa khác nhau có chiều dài cánh hoa khác nhau hay
không? Giả định: • Null Hypothesis (Ho): Trung bình chiều dài cánh hoa 3
loài giống nhau (khác biệt mean các loài = 0) • Alternative Hypothesis
(Ha): Trung bình chiều dài cánh hoa 3 loài khác nhau
#STEP 5: ANALYSIS WITH ANOVA -----------------------------
petal.length.aov <- aov(formula = petal.length ~ species, data = iris)
summary(object = petal.length.aov)
Df Sum Sq Mean Sq F value Pr(>F)
species 2 437.1 218.55 1180 <2e-16 ***
Residuals 147 27.2 0.19
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
TukeyHSD(petal.length.aov)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = petal.length ~ species, data = iris)
$species
diff lwr upr p adj
versicolor-setosa 2.798 2.59422 3.00178 0
virginica-setosa 4.090 3.88622 4.29378 0
virginica-versicolor 1.292 1.08822 1.49578 0
Bước 6:
#STEP 6: CATEGORIZE SPECIES WITH K-MEAN CLUSTERING -------------
iris.test <- iris
iris.test$species <- NULL
head(iris.test)
kmeans.result <- kmeans(iris.test, 3)
table(iris$species, kmeans.result$cluster)
1 2 3
setosa 33 17 0
versicolor 0 4 46
virginica 0 0 50
plot(iris.test[c('sepal.length', 'sepal.width')], col = kmeans.result$cluster)

plotcluster(iris.test, kmeans.result$cluster)
Error in plotcluster(iris.test, kmeans.result$cluster) :
could not find function "plotcluster"
