When you save the notebook, an HTML file containing the code and
output will be saved alongside it (click the Preview button or
press Ctrl+Shift+K to preview the HTML file).
The preview shows you a rendered HTML copy of the contents of the
editor. Consequently, unlike Knit, Preview does not
run any R code chunks. Instead, the output of the chunk when it was last
run in the editor is displayed.
Install Package
#Install package
install.packages('dplyr')
Installing package into ‘/cloud/lib/x86_64-pc-linux-gnu-library/4.2’
(as ‘lib’ is unspecified)
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/dplyr_1.1.0.tar.gz'
Content type 'application/x-gzip' length 1447085 bytes (1.4 MB)
==================================================
downloaded 1.4 MB
* installing *binary* package ‘dplyr’ ...
* DONE (dplyr)
The downloaded source packages are in
‘/tmp/RtmppEGSWX/downloaded_packages’
install.packages('reshape2')
Installing package into ‘/cloud/lib/x86_64-pc-linux-gnu-library/4.2’
(as ‘lib’ is unspecified)
trying URL 'http://rspm/default/__linux__/focal/latest/src/contrib/reshape2_1.4.4.tar.gz'
Content type 'application/x-gzip' length 116930 bytes (114 KB)
==================================================
downloaded 114 KB
* installing *binary* package ‘reshape2’ ...
* DONE (reshape2)
The downloaded source packages are in
‘/tmp/RtmppEGSWX/downloaded_packages’
library(dplyr)
Attaching package: ‘dplyr’
The following objects are masked from ‘package:stats’:
filter, lag
The following objects are masked from ‘package:base’:
intersect, setdiff, setequal, union
library(reshape2)
library(stats)
#Explore Iris Dataset
iris
data(iris)
#Use head to show top rows from data
head(iris)
head(iris,10)
Bước 1: Thực hành khám phá dữ liệu IRIS
Ở bước đầu tiên chúng ta sẽ tìm hiểu các công thức trong R giúp có
thể xem và khám phá dữ liệu một cách tổng quan. Những tính năng này cho
phép chúng ta nhìn được dữ liệu hoặc cung cấp các thống kê tổng quan về
dữ liệu như những chỉ số cơ bản về Mean, Median, Min, Max, Std,
Variance, … Đồng thời chúng ta cũng có thể xem và xác nhận cấu trúc dữ
liệu và cả định dạng của dữ liệu trước khi phân tích. Chúng ta sẽ cùng
thực hành viết các câu lệnh và đoạn code như dưới đây:
#STEP 1: EXPLORE DATA ----------------------------
#1.1 Function summary to review data
summary(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50
Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
#1.2 Function names to show columns name
names(iris)
[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"
names(iris) <- tolower(names(iris))
#1.3 Function dim to show row and column counts
dim(iris)
[1] 150 5
#1.4 Function class to show data structure
class(iris)
[1] "data.frame"
#1.5 Function typeof and str to show data type
typeof(iris$sepal.length)
[1] "double"
str(iris$sepal.length)
num [1:150] 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
typeof(iris$species)
[1] "integer"
class(iris$species)
[1] "factor"
str(iris$species)
Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
Bước 2: Thực hành chỉnh sửa và thay đổi cấu trúc dữ liệu Ở bước tiếp
theo, chúng ta sẽ cùng sử dụng những câu lệnh để chỉnh sửa cấu trúc dữ
liệu Iris theo yêu cầu. Điều này bao gồm việc bóc tách dữ liệu thành
những bảng nhỏ hơn như phân thành các bảng theo từng loài hoa. Hoặc
chúng mong muốn thêm các cột, sort bảng theo một tiêu chí nào đó. Và một
yếu tố quan trọng không kém là chuyển đổi cấu trúc giống với tính năng
Unpivot trong PowerBI thì chúng ta sẽ chuyển đổi dữ liệu từ dạng Wide
(cấu trúc giống Pivot Table) sang dạng Long (cấu trúc giống Tabular).
Điều này yêu cầu chúng ta sẽ phải cài đặt thêm Package dplyr là một bộ
ngôn ngữ lập trình trong R giúp thay đổi cấu trúc và chỉnh sửa dữ liệu.
Chúng ta sẽ thêm ở bên trên phần Install Package nội dung câu lệnh để
cài đặt package dplyr và sử dụng chúng trong môi trường hiện tại.
#STEP 2: TRANSFORM DATA --------------------------
#2.1 Split data into subset
virginica <- iris[iris$species == 'virginica',]
virginica2 <- iris[iris$species == 'virginica' & iris$sepal.length > 6,]
head(virginica)
#2.2 Function select to select columns
selected <- select(iris, sepal.length, sepal.width)
head(selected)
#2.3 Function mutate to add column
newcol <- mutate(iris, longer = sepal.length / sepal.width )
newcol <- mutate(newcol, longer.2x = sepal.length > 2*sepal.width )
tail(newcol)
#2.4 Function arrange to sort data
newcol <- arrange(newcol, sepal.width)
newcol <- arrange(newcol, desc(sepal.width))
#2.5 Function melt to unpivot table (wide -> long)
iris.melt <- melt(iris, id = 'species', variable.name = 'size')
head(iris.melt)
Bước 3: Thực hành trực quan hóa dữ liệu và tạo biểu đồ
Sau khi đã có các bảng dữ liệu theo dạng cần thiết, chúng ta có thể
sử dụng các package và code xây dựng các biểu đồ giúp trực quan hóa
thông tin. Ở bước này chúng ta sẽ tạo những biểu đồ có ý nghĩa về mặt
thống kê với dữ liệu để hiểu về tập đối tượng đang phân tích. Chúng bao
gồm biểu đồ Histogram để xem sự phân bổ về các chiều dài của hoa, sử
dụng Box Plot giúp trực quan các con số thống kê. Sử dụng Scatter Plot
để xem phân bổ của dữ liệu theo 2 chiều cụ thể. Để tạo ra các biểu đồ
này, chúng ta có thể sử dụng các câu lệnh có sẵn trong RStudio hoặc cài
đặt thêm Package GGPlot & Ggally để có thể tạo các biểu đồ tương tự
nhưng có nhiều khả năng thay đổi điều chỉnh cũng như dễ dàng tạo
hơn.
#STEP 3: VISUALIZE DATA -----------------------
#3.1 Function hist to show histogram
hist(iris$sepal.length)

hist(iris$sepal.length,
col='light blue',
main='Histogram',
xlab='Sepal.Length',
ylab='Frequency')

hist(iris$sepal.length, col='red', breaks=20, main='Histogram', xlab='Size')
hist(iris$petal.length, col='green',breaks=30, add=TRUE)
legend('topright',
c('Sepal Length', 'Petal Length'),
fill=c('red', 'green'))

#3.2 Use ggplot to create charts
ggplot(iris.melt, aes(x=value, fill=size)) +
geom_histogram(color ='#e9ecef', alpha = 0.6, position = 'identity')
Error in ggplot(iris.melt, aes(x = value, fill = size)) :
could not find function "ggplot"
Bước 4: Kiểm chứng giả định với T-test
Ở buổi trước chúng ta đã học cách sử dụng T-test để xác định giả
thuyết có chính xác hay không. Tương tự với RStudio, chúng ta có thể dễ
dàng sử dụng nhiều loại T-test, ở phần thực hành này chúng ta sẽ sử dụng
loại T-test để xác định giả thuyết cơ bản về các loại hoa như sau. Câu
hỏi: liệu loài setosa và versicolor có chiều dài cánh hoa khác nhau hay
không? Giả định: • Null Hypothesis (Ho): Trung bình chiều dài cánh hoa 2
loài giống nhau (khác biệt mean các loài = 0) • Alternative Hypothesis
(Ha): Trung bình chiều dài cánh hoa 2 loài khác nhau
#STEP 4: HYPOTHESIS TESTING WITH T-test ---------------
setosa <- iris[iris$species == 'setosa',]
versicolor <- iris[iris$species == 'versicolor',]
t.test(x= setosa$petal.length, y = versicolor$petal.length)
Welch Two Sample t-test
data: setosa$petal.length and versicolor$petal.length
t = -39.493, df = 62.14, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.939618 -2.656382
sample estimates:
mean of x mean of y
1.462 4.260
Bước 5: Thực hành phân tích phương sai ANOVA
Tương tự chúng ta cũng có thể chạy các mô hình phân tích ANOVA trong
RStudio. Trong phần thực hành này, chúng ta sẽ cùng phân tích ANOVA để
xác định giả thuyết so sánh về chiều dài cánh hoa giữa cả 3 loài hoa.
Câu hỏi: liệu 3 loài hoa khác nhau có chiều dài cánh hoa khác nhau hay
không? Giả định: • Null Hypothesis (Ho): Trung bình chiều dài cánh hoa 3
loài giống nhau (khác biệt mean các loài = 0) • Alternative Hypothesis
(Ha): Trung bình chiều dài cánh hoa 3 loài khác nhau
#STEP 5: ANALYSIS WITH ANOVA -----------------------------
petal.length.aov <- aov(formula = petal.length ~ species, data = iris)
summary(object = petal.length.aov)
Df Sum Sq Mean Sq F value Pr(>F)
species 2 437.1 218.55 1180 <2e-16 ***
Residuals 147 27.2 0.19
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
TukeyHSD(petal.length.aov)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = petal.length ~ species, data = iris)
$species
diff lwr upr p adj
versicolor-setosa 2.798 2.59422 3.00178 0
virginica-setosa 4.090 3.88622 4.29378 0
virginica-versicolor 1.292 1.08822 1.49578 0
Bước 6:
#STEP 6: CATEGORIZE SPECIES WITH K-MEAN CLUSTERING -------------
iris.test <- iris
iris.test$species <- NULL
head(iris.test)
kmeans.result <- kmeans(iris.test, 3)
table(iris$species, kmeans.result$cluster)
1 2 3
setosa 33 17 0
versicolor 0 4 46
virginica 0 0 50
plot(iris.test[c('sepal.length', 'sepal.width')], col = kmeans.result$cluster)

plotcluster(iris.test, kmeans.result$cluster)
Error in plotcluster(iris.test, kmeans.result$cluster) :
could not find function "plotcluster"
---
title: "R Notebook"
output: html_notebook
---

This is an [R Markdown](http://rmarkdown.rstudio.com) Notebook. When you execute code within the notebook, the results appear beneath the code.

Try executing this chunk by clicking the *Run* button within the chunk or by placing your cursor inside it and pressing *Ctrl+Shift+Enter*.

```{r}
plot(cars)
```

Add a new chunk by clicking the *Insert Chunk* button on the toolbar or by pressing *Ctrl+Alt+I*.

When you save the notebook, an HTML file containing the code and output will be saved alongside it (click the *Preview* button or press *Ctrl+Shift+K* to preview the HTML file).

The preview shows you a rendered HTML copy of the contents of the editor. Consequently, unlike *Knit*, *Preview* does not run any R code chunks. Instead, the output of the chunk when it was last run in the editor is displayed.

# CASE STUDY

Dữ liệu mẫu IRIS
Trong phần thực hành buổi 10, chúng ta sẽ sử dụng ngay dữ liệu mẫu tích hợp sẵn trong RStudio đó là dữ liệu Iris. Đây là tập dữ liệu nhỏ và đơn
giản giúp dễ hình dung về cách sử dụng RStudio cũng như cách áp dụng các mô hình thống kê cho người bắt đầu.
Bộ dữ liệu này được tạo ra khi nhà sinh vật học người Anh Ronald Fisher xuất bản bài báo năm 1936 của ông \"Việc sử dụng nhiều phép đo trong
các vấn đề phân loại\" như một ví dụ về phân tích phân biệt tuyến tính. Đôi khi nó cũng được gọi là tập dữ liệu Anderson\'s Iris vì Edgar Anderson
là người đã thu thập dữ liệu để định lượng sự biến đổi hình thái của hoa Iris theo ba loài có liên quan. Về cơ bản, hai nhà khoa học lâu đời này đã
khai sinh ra tập dữ liệu, tập dữ liệu vẫn được sử dụng cho đến ngày nay để học các kiến thức cơ bản về RStudio.
Bộ dữ liệu iris đưa ra các phép đo tính bằng cm của các biến chiều dài và chiều rộng của lá đài \"Sepal\" và chiều dài và chiều rộng của cánh hoa
\"Petal\", tương ứng, đối với 50 bông hoa từ mỗi trong số 3 loài iris. Các loài là Iris setosa, versicolor, và virginica. Trong hình này, bạn có thể
thấy chúng ta đang xử lý những gì và hình dạng chính xác của các biến (chiều dài và chiều rộng của đài hoa \"Sepal\" và chiều dài và chiều rộng của
cánh hoa \"Petal\") mà chúng ta đang đo và bản thân đối tượng:

![Ảnh loài hoa](1_nfK3vGZkTa4GrO7yWpcS-Q.png)

# Install Package 

```{r}
#Install package
install.packages('dplyr')
install.packages('reshape2')


library(dplyr)
library(reshape2)
library(stats)

```

```{r}
#Explore Iris Dataset
iris
data(iris) 
#Use head to show top rows from data
head(iris)
head(iris,10)
```

## 
Bước 1: Thực hành khám phá dữ liệu IRIS 

Ở bước đầu tiên chúng ta sẽ tìm hiểu các công thức trong R giúp có thể xem và khám phá dữ liệu một cách tổng quan. Những tính năng này cho
phép chúng ta nhìn được dữ liệu hoặc cung cấp các thống kê tổng quan về dữ liệu như những chỉ số cơ bản về Mean, Median, Min, Max, Std,
Variance, ... Đồng thời chúng ta cũng có thể xem và xác nhận cấu trúc dữ liệu và cả định dạng của dữ liệu trước khi phân tích.
Chúng ta sẽ cùng thực hành viết các câu lệnh và đoạn code như dưới đây:

```{r}

#STEP 1: EXPLORE DATA ----------------------------
#1.1 Function summary to review data
summary(iris)
```

```{r}
#1.2 Function names to show columns name
names(iris)
names(iris) <- tolower(names(iris))
```

```{r}

#1.3 Function dim to show row and column counts
dim(iris)
```

```{r}
#1.4 Function class to show data structure
class(iris)
```

```{r}
#1.5 Function typeof and str to show data type
typeof(iris$sepal.length)
str(iris$sepal.length)
typeof(iris$species)
class(iris$species)
str(iris$species)

```

Bước 2: Thực hành chỉnh sửa và thay đổi cấu trúc dữ liệu
Ở bước tiếp theo, chúng ta sẽ cùng sử dụng những câu lệnh để chỉnh sửa cấu trúc dữ liệu Iris theo yêu cầu. Điều này bao gồm việc bóc tách dữ
liệu thành những bảng nhỏ hơn như phân thành các bảng theo từng loài hoa. Hoặc chúng mong muốn thêm các cột, sort bảng theo một tiêu chí
nào đó. Và một yếu tố quan trọng không kém là chuyển đổi cấu trúc giống với tính năng Unpivot trong PowerBI thì chúng ta sẽ chuyển đổi dữ
liệu từ dạng Wide (cấu trúc giống Pivot Table) sang dạng Long (cấu trúc giống Tabular).
Điều này yêu cầu chúng ta sẽ phải cài đặt thêm Package dplyr là một bộ ngôn ngữ lập trình trong R giúp thay đổi cấu trúc và chỉnh sửa dữ liệu.
Chúng ta sẽ thêm ở bên trên phần Install Package nội dung câu lệnh để cài đặt package dplyr và sử dụng chúng trong môi trường hiện tại.

```{r}
#STEP 2: TRANSFORM DATA  --------------------------
#2.1 Split data into subset
virginica <- iris[iris$species == 'virginica',]
virginica2 <- iris[iris$species == 'virginica' & iris$sepal.length > 6,]
head(virginica)

#2.2 Function select to select columns
selected <- select(iris, sepal.length, sepal.width)
head(selected)

#2.3 Function mutate to add column
newcol <- mutate(iris, longer = sepal.length / sepal.width )
newcol <- mutate(newcol, longer.2x = sepal.length > 2*sepal.width )
tail(newcol)

#2.4 Function arrange to sort data
newcol <- arrange(newcol, sepal.width)
newcol <- arrange(newcol, desc(sepal.width))


#2.5 Function melt to unpivot table (wide -> long)
iris.melt <- melt(iris, id = 'species', variable.name = 'size')
head(iris.melt)
```

## 


Bước 3: Thực hành trực quan hóa dữ liệu và tạo biểu đồ

Sau khi đã có các bảng dữ liệu theo dạng cần thiết, chúng ta có thể sử dụng các package và code xây dựng các biểu đồ giúp trực quan hóa thông
tin. Ở bước này chúng ta sẽ tạo những biểu đồ có ý nghĩa về mặt thống kê với dữ liệu để hiểu về tập đối tượng đang phân tích. Chúng bao gồm
biểu đồ Histogram để xem sự phân bổ về các chiều dài của hoa, sử dụng Box Plot giúp trực quan các con số thống kê. Sử dụng Scatter Plot để
xem phân bổ của dữ liệu theo 2 chiều cụ thể.
Để tạo ra các biểu đồ này, chúng ta có thể sử dụng các câu lệnh có sẵn trong RStudio hoặc cài đặt thêm Package GGPlot & Ggally để có thể tạo
các biểu đồ tương tự nhưng có nhiều khả năng thay đổi điều chỉnh cũng như dễ dàng tạo hơn.

```{r}
#STEP 3: VISUALIZE DATA -----------------------
#3.1 Function hist to show histogram
hist(iris$sepal.length)

hist(iris$sepal.length,
     col='light blue',
     main='Histogram',
     xlab='Sepal.Length',
     ylab='Frequency')

hist(iris$sepal.length, col='red', breaks=20, main='Histogram', xlab='Size')
hist(iris$petal.length, col='green',breaks=30, add=TRUE)
legend('topright', 
       c('Sepal Length', 'Petal Length'), 
       fill=c('red', 'green'))

#3.2 Use ggplot to create charts
ggplot(iris.melt, aes(x=value, fill=size)) +
  geom_histogram(color ='#e9ecef', alpha = 0.6, position = 'identity')

ggplot(iris.melt, aes(x=value, fill=size)) +
  geom_histogram(color ='#e9ecef', alpha = 0.6, position = 'identity') +
  facet_wrap(~size)


#3.3 Function boxplot to create boxplot
boxplot(sepal.length ~ species,
        data = iris,
        main = 'Sepal Length by Species',
        xlab = 'Species',
        ylab = 'Sepal Length',
        col = 'light blue',
        border = 'black')

boxplot(value ~ size,
        data = iris.melt,
        main = 'Compare different size',
        xlab = 'Size',
        ylab = 'Value',
        col = 'light blue',
        border = 'black')


ggplot(iris.melt, aes(x=size, y=value, fill=size)) +
  geom_boxplot()+
  geom_jitter(color = 'black', size = 0.4, alpha = 0.9)

#3.4 Function plot to create scatter plot
plot(iris)

plot(iris[,1:4])

plot(iris$sepal.width, iris$sepal.length,
     col = 'steelblue',
     main = 'Scatterplot',
     xlab = 'Sepal Width',
     ylab = 'Sepal Length',
     pch = 19)

pairs(iris[,1:4],col=iris[,5],oma=c(4,4,6,12))
par(xpd=TRUE)

ggplot(iris, aes(x=sepal.length, y=sepal.width, color=species)) + 
  geom_point(size=5) 

ggpairs(iris,
        columns = 1:4,
        aes(color = species, alpha = 0.5))

```

## 


Bước 4: Kiểm chứng giả định với T-test

Ở buổi trước chúng ta đã học cách sử dụng T-test để xác định giả thuyết có chính xác hay không. Tương tự với RStudio, chúng ta có thể dễ dàng
sử dụng nhiều loại T-test, ở phần thực hành này chúng ta sẽ sử dụng loại T-test để xác định giả thuyết cơ bản về các loại hoa như sau.
Câu hỏi: liệu loài setosa và versicolor có chiều dài cánh hoa khác nhau hay không?
Giả định:
• Null Hypothesis (Ho): Trung bình chiều dài cánh hoa 2 loài giống nhau (khác biệt mean các loài = 0)
• Alternative Hypothesis (Ha): Trung bình chiều dài cánh hoa 2 loài khác nhau

```{r}
#STEP 4: HYPOTHESIS TESTING WITH T-test ---------------
setosa <- iris[iris$species == 'setosa',]
versicolor <- iris[iris$species == 'versicolor',]

t.test(x= setosa$petal.length, y = versicolor$petal.length)
```

## 

Bước 5: Thực hành phân tích phương sai ANOVA

Tương tự chúng ta cũng có thể chạy các mô hình phân tích ANOVA trong RStudio. Trong phần thực hành này, chúng ta sẽ cùng phân tích ANOVA
để xác định giả thuyết so sánh về chiều dài cánh hoa giữa cả 3 loài hoa.
Câu hỏi: liệu 3 loài hoa khác nhau có chiều dài cánh hoa khác nhau hay không?
Giả định:
• Null Hypothesis (Ho): Trung bình chiều dài cánh hoa 3 loài giống nhau (khác biệt mean các loài = 0)
• Alternative Hypothesis (Ha): Trung bình chiều dài cánh hoa 3 loài khác nhau

```{r}
#STEP 5: ANALYSIS WITH ANOVA -----------------------------

petal.length.aov <- aov(formula = petal.length ~ species, data = iris)

summary(object = petal.length.aov)

TukeyHSD(petal.length.aov)
```

## Bước 6:

```{r}
#STEP 6: CATEGORIZE SPECIES WITH K-MEAN CLUSTERING -------------
iris.test <- iris

iris.test$species <- NULL

head(iris.test)

kmeans.result <- kmeans(iris.test, 3)

table(iris$species, kmeans.result$cluster)

plot(iris.test[c('sepal.length', 'sepal.width')], col = kmeans.result$cluster)

plotcluster(iris.test, kmeans.result$cluster)

clusplot(iris.test, kmeans.result$cluster, color = TRUE, shade = TRUE)
```
