This is an R Markdown Notebook. When you execute code within the notebook, the results appear beneath the code.

Try executing this chunk by clicking the Run button within the chunk or by placing your cursor inside it and pressing Ctrl+Shift+Enter.

plot(cars)

Add a new chunk by clicking the Insert Chunk button on the toolbar or by pressing Ctrl+Alt+I.

When you save the notebook, an HTML file containing the code and output will be saved alongside it (click the Preview button or press Ctrl+Shift+K to preview the HTML file).

The preview shows you a rendered HTML copy of the contents of the editor. Consequently, unlike Knit, Preview does not run any R code chunks. Instead, the output of the chunk when it was last run in the editor is displayed.

CASE STUDY

Dữ liệu mẫu IRIS Trong phần thực hành buổi 10, chúng ta sẽ sử dụng ngay dữ liệu mẫu tích hợp sẵn trong RStudio đó là dữ liệu Iris. Đây là tập dữ liệu nhỏ và đơn giản giúp dễ hình dung về cách sử dụng RStudio cũng như cách áp dụng các mô hình thống kê cho người bắt đầu. Bộ dữ liệu này được tạo ra khi nhà sinh vật học người Anh Ronald Fisher xuất bản bài báo năm 1936 của ông "Việc sử dụng nhiều phép đo trong các vấn đề phân loại" như một ví dụ về phân tích phân biệt tuyến tính. Đôi khi nó cũng được gọi là tập dữ liệu Anderson's Iris vì Edgar Anderson là người đã thu thập dữ liệu để định lượng sự biến đổi hình thái của hoa Iris theo ba loài có liên quan. Về cơ bản, hai nhà khoa học lâu đời này đã khai sinh ra tập dữ liệu, tập dữ liệu vẫn được sử dụng cho đến ngày nay để học các kiến thức cơ bản về RStudio. Bộ dữ liệu iris đưa ra các phép đo tính bằng cm của các biến chiều dài và chiều rộng của lá đài "Sepal" và chiều dài và chiều rộng của cánh hoa "Petal", tương ứng, đối với 50 bông hoa từ mỗi trong số 3 loài iris. Các loài là Iris setosa, versicolor, và virginica. Trong hình này, bạn có thể thấy chúng ta đang xử lý những gì và hình dạng chính xác của các biến (chiều dài và chiều rộng của đài hoa "Sepal" và chiều dài và chiều rộng của cánh hoa "Petal") mà chúng ta đang đo và bản thân đối tượng:

Ảnh loài hoa

Install Package

#Install package
install.packages('dplyr')
Installing package into ‘/cloud/lib/x86_64-pc-linux-gnu-library/4.2’
(as ‘lib’ is unspecified)
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/dplyr_1.1.0.tar.gz'
Content type 'application/x-gzip' length 1447085 bytes (1.4 MB)
==================================================
downloaded 1.4 MB

* installing *binary* package ‘dplyr’ ...
* DONE (dplyr)

The downloaded source packages are in
    ‘/tmp/RtmppEGSWX/downloaded_packages’
install.packages('reshape2')
Installing package into ‘/cloud/lib/x86_64-pc-linux-gnu-library/4.2’
(as ‘lib’ is unspecified)
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/reshape2_1.4.4.tar.gz'
Content type 'application/x-gzip' length 116930 bytes (114 KB)
==================================================
downloaded 114 KB

* installing *binary* package ‘reshape2’ ...
* DONE (reshape2)

The downloaded source packages are in
    ‘/tmp/RtmppEGSWX/downloaded_packages’
library(dplyr)

Attaching package: ‘dplyr’

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union
library(reshape2)
library(stats)
#Explore Iris Dataset
iris
data(iris) 
#Use head to show top rows from data
head(iris)
head(iris,10)

Bước 1: Thực hành khám phá dữ liệu IRIS

Ở bước đầu tiên chúng ta sẽ tìm hiểu các công thức trong R giúp có thể xem và khám phá dữ liệu một cách tổng quan. Những tính năng này cho phép chúng ta nhìn được dữ liệu hoặc cung cấp các thống kê tổng quan về dữ liệu như những chỉ số cơ bản về Mean, Median, Min, Max, Std, Variance, … Đồng thời chúng ta cũng có thể xem và xác nhận cấu trúc dữ liệu và cả định dạng của dữ liệu trước khi phân tích. Chúng ta sẽ cùng thực hành viết các câu lệnh và đoạn code như dưới đây:


#STEP 1: EXPLORE DATA ----------------------------
#1.1 Function summary to review data
summary(iris)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500                  
#1.2 Function names to show columns name
names(iris)
[1] "Sepal.Length" "Sepal.Width"  "Petal.Length" "Petal.Width"  "Species"     
names(iris) <- tolower(names(iris))

#1.3 Function dim to show row and column counts
dim(iris)
[1] 150   5
#1.4 Function class to show data structure
class(iris)
[1] "data.frame"
#1.5 Function typeof and str to show data type
typeof(iris$sepal.length)
[1] "double"
str(iris$sepal.length)
 num [1:150] 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
typeof(iris$species)
[1] "integer"
class(iris$species)
[1] "factor"
str(iris$species)
 Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

Bước 2: Thực hành chỉnh sửa và thay đổi cấu trúc dữ liệu Ở bước tiếp theo, chúng ta sẽ cùng sử dụng những câu lệnh để chỉnh sửa cấu trúc dữ liệu Iris theo yêu cầu. Điều này bao gồm việc bóc tách dữ liệu thành những bảng nhỏ hơn như phân thành các bảng theo từng loài hoa. Hoặc chúng mong muốn thêm các cột, sort bảng theo một tiêu chí nào đó. Và một yếu tố quan trọng không kém là chuyển đổi cấu trúc giống với tính năng Unpivot trong PowerBI thì chúng ta sẽ chuyển đổi dữ liệu từ dạng Wide (cấu trúc giống Pivot Table) sang dạng Long (cấu trúc giống Tabular). Điều này yêu cầu chúng ta sẽ phải cài đặt thêm Package dplyr là một bộ ngôn ngữ lập trình trong R giúp thay đổi cấu trúc và chỉnh sửa dữ liệu. Chúng ta sẽ thêm ở bên trên phần Install Package nội dung câu lệnh để cài đặt package dplyr và sử dụng chúng trong môi trường hiện tại.

#STEP 2: TRANSFORM DATA  --------------------------
#2.1 Split data into subset
virginica <- iris[iris$species == 'virginica',]
virginica2 <- iris[iris$species == 'virginica' & iris$sepal.length > 6,]
head(virginica)

#2.2 Function select to select columns
selected <- select(iris, sepal.length, sepal.width)
head(selected)

#2.3 Function mutate to add column
newcol <- mutate(iris, longer = sepal.length / sepal.width )
newcol <- mutate(newcol, longer.2x = sepal.length > 2*sepal.width )
tail(newcol)

#2.4 Function arrange to sort data
newcol <- arrange(newcol, sepal.width)
newcol <- arrange(newcol, desc(sepal.width))


#2.5 Function melt to unpivot table (wide -> long)
iris.melt <- melt(iris, id = 'species', variable.name = 'size')
head(iris.melt)

Bước 3: Thực hành trực quan hóa dữ liệu và tạo biểu đồ

Sau khi đã có các bảng dữ liệu theo dạng cần thiết, chúng ta có thể sử dụng các package và code xây dựng các biểu đồ giúp trực quan hóa thông tin. Ở bước này chúng ta sẽ tạo những biểu đồ có ý nghĩa về mặt thống kê với dữ liệu để hiểu về tập đối tượng đang phân tích. Chúng bao gồm biểu đồ Histogram để xem sự phân bổ về các chiều dài của hoa, sử dụng Box Plot giúp trực quan các con số thống kê. Sử dụng Scatter Plot để xem phân bổ của dữ liệu theo 2 chiều cụ thể. Để tạo ra các biểu đồ này, chúng ta có thể sử dụng các câu lệnh có sẵn trong RStudio hoặc cài đặt thêm Package GGPlot & Ggally để có thể tạo các biểu đồ tương tự nhưng có nhiều khả năng thay đổi điều chỉnh cũng như dễ dàng tạo hơn.

#STEP 3: VISUALIZE DATA -----------------------
#3.1 Function hist to show histogram
hist(iris$sepal.length)


hist(iris$sepal.length,
     col='light blue',
     main='Histogram',
     xlab='Sepal.Length',
     ylab='Frequency')


hist(iris$sepal.length, col='red', breaks=20, main='Histogram', xlab='Size')
hist(iris$petal.length, col='green',breaks=30, add=TRUE)
legend('topright', 
       c('Sepal Length', 'Petal Length'), 
       fill=c('red', 'green'))


#3.2 Use ggplot to create charts
ggplot(iris.melt, aes(x=value, fill=size)) +
  geom_histogram(color ='#e9ecef', alpha = 0.6, position = 'identity')
Error in ggplot(iris.melt, aes(x = value, fill = size)) : 
  could not find function "ggplot"

Bước 4: Kiểm chứng giả định với T-test

Ở buổi trước chúng ta đã học cách sử dụng T-test để xác định giả thuyết có chính xác hay không. Tương tự với RStudio, chúng ta có thể dễ dàng sử dụng nhiều loại T-test, ở phần thực hành này chúng ta sẽ sử dụng loại T-test để xác định giả thuyết cơ bản về các loại hoa như sau. Câu hỏi: liệu loài setosa và versicolor có chiều dài cánh hoa khác nhau hay không? Giả định: • Null Hypothesis (Ho): Trung bình chiều dài cánh hoa 2 loài giống nhau (khác biệt mean các loài = 0) • Alternative Hypothesis (Ha): Trung bình chiều dài cánh hoa 2 loài khác nhau

#STEP 4: HYPOTHESIS TESTING WITH T-test ---------------
setosa <- iris[iris$species == 'setosa',]
versicolor <- iris[iris$species == 'versicolor',]

t.test(x= setosa$petal.length, y = versicolor$petal.length)

    Welch Two Sample t-test

data:  setosa$petal.length and versicolor$petal.length
t = -39.493, df = 62.14, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.939618 -2.656382
sample estimates:
mean of x mean of y 
    1.462     4.260 

Bước 5: Thực hành phân tích phương sai ANOVA

Tương tự chúng ta cũng có thể chạy các mô hình phân tích ANOVA trong RStudio. Trong phần thực hành này, chúng ta sẽ cùng phân tích ANOVA để xác định giả thuyết so sánh về chiều dài cánh hoa giữa cả 3 loài hoa. Câu hỏi: liệu 3 loài hoa khác nhau có chiều dài cánh hoa khác nhau hay không? Giả định: • Null Hypothesis (Ho): Trung bình chiều dài cánh hoa 3 loài giống nhau (khác biệt mean các loài = 0) • Alternative Hypothesis (Ha): Trung bình chiều dài cánh hoa 3 loài khác nhau

#STEP 5: ANALYSIS WITH ANOVA -----------------------------

petal.length.aov <- aov(formula = petal.length ~ species, data = iris)

summary(object = petal.length.aov)
             Df Sum Sq Mean Sq F value Pr(>F)    
species       2  437.1  218.55    1180 <2e-16 ***
Residuals   147   27.2    0.19                   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
TukeyHSD(petal.length.aov)
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = petal.length ~ species, data = iris)

$species
                      diff     lwr     upr p adj
versicolor-setosa    2.798 2.59422 3.00178     0
virginica-setosa     4.090 3.88622 4.29378     0
virginica-versicolor 1.292 1.08822 1.49578     0

Bước 6:

#STEP 6: CATEGORIZE SPECIES WITH K-MEAN CLUSTERING -------------
iris.test <- iris

iris.test$species <- NULL

head(iris.test)

kmeans.result <- kmeans(iris.test, 3)

table(iris$species, kmeans.result$cluster)
            
              1  2  3
  setosa     33 17  0
  versicolor  0  4 46
  virginica   0  0 50
plot(iris.test[c('sepal.length', 'sepal.width')], col = kmeans.result$cluster)


plotcluster(iris.test, kmeans.result$cluster)
Error in plotcluster(iris.test, kmeans.result$cluster) : 
  could not find function "plotcluster"
