1) GIới thiệu ggplot2-Point graph

#Cài đặt và load ggplot2 
#install.packages('ggplot2')
library(ggplot2)
#x=1:100: trục x tạo ngẫu nhiên từ 1 đến 100
#y=rnorm (200,0,1) tạo dãy ngẫu nhiên gồm 200 số với giá trị trung bình là 0 và độ lệch chuẩn là 1
df <- data.frame(x=1:100,y = rnorm(200,0,1))
#Nếu chỉ dùng ggplot sẽ không có kết quả hiện ra
ggplot(df)

#Qui định kiểu đồ thị là các điểm point được khởi tạo trong df
ggplot(df) + geom_point(aes(x,y))

theme(): qui định theme cho đồ thị trong đó có nhiều kiểu theme khác nhau như:

. theme() hoặc theme_gray() là theme mặc định có phông nhạt và gridlines trắng.

. theme_bw() là kiểu đồ thị phông trắng có gridlines trắng.

. theme_classic() phông trắng không có gridlines.

. theme_minimal() phông tối giản không có trục tọa độ,.

. theme_dark() phông nền tối có gridlines.

. theme_void() phông nền empty.

. them_light() phông nền trắng với gridlines đen.

. theme_lightdraw() phông nền trắng với gridlines và axis xám.

Trong theme lại bao gồm 2 arguments đó là: base_size qui định font size của tiêu đề, base_family qui định kiểu chữ của các tiêu đề.

#Phông tối giản không có trục tọa độ
library(ggplot2)
df <- data.frame(x=1:100,y = rnorm(200,0,1))
ggplot(df) + geom_point(aes(x,y)) + theme_minimal()

#labs(): qui định các thành phần về title, subtitle, tên trục x, y
ggplot(df) + geom_point(aes(x,y)) + theme_minimal()+labs(title="First plot", subtitle = "Point Graph",x="x axis",y="y axis")

Scale theo gradient:

scale_*_gradient tạo thành 2 màu gradient (low-high),

scale_*_gradient2 tạo thành màu sắc phân tán thành (low- mid-high)

scale_*_gradientn tạo thành n-colour gradient.

Có thể tạo hệ màu sắc theo hàm terrain. Khi đó các mã hex của màu sắc sẽ được tạo ra tự động.

Lưu ý mã hex của màu sắc luôn bắt đầu bởi dấu # và gồm 6-8 kí tự. Các kí tự là chữ số phải nằm trong khoảng từ 0-9 hoặc chữ cái từ A-F.

#Tạo 5 màu tự động
terrain.colors(5,alpha = 0.2)
[1] "#00A60033" "#E6E60033" "#EAB64E33" "#EEB99F33" "#F2F2F233"
# Chọn màu sắc theo scale của cty
ggplot(mpg) +
geom_point(aes(hwy,displ, colour = cty)) +
scale_colour_gradientn(colours = terrain.colors(10))

Scale theo alpha

Các hàm có dạng:

  • scale_alpha(…, range = c(0.1, 1)): scale cho các biến liên tục
  • scale_alpha_continuous(…, range = c(0.1, 1)): scale cho các biến liên tục
  • scale_alpha_discrete(…, range = c(0.1, 1)): scale cho các biến phân loại
#Scale theo biến liên tục (year)
?geom_point
ggplot(mpg, aes(displ,hwy))+
  geom_point(aes(alpha = year)) + 
  scale_alpha(range = c(0.2,1))

#Scale theo biến phân loại (class)
ggplot(mpg, aes(displ,hwy))+
geom_point(aes(alpha = class)) +
scale_alpha_discrete(range=c(0.2,1))
Using alpha for a discrete variable is not advised.

Scale theo colour

scale_colour_brewer(…, type = “seq”, palette = 1, direction = 1)

scale_fill_brewer(…, type = “seq”, palette = 1, direction = 1)

scale_colour_distiller(…, type = “seq”, palette = 1, direction = -1, values = NULL, space = “Lab”, na.value = “grey50”, guide = “colourbar”)

scale_fill_distiller(…, type = “seq”, palette = 1, direction = -1, values = NULL, space = “Lab”, na.value = “grey50”, guide = “colourbar”)

Đối với các biểu đồ dạng rectangle ta sẽ như barchart hay heatmap ta phải dùng scale_fill, còn các biểu đồ của point ta sẽ dùng scale_colour.

Trong đó :

…: là các argument khác để định nghĩa names, limits, breaks, labels.

type: là 3 kiểu lựa chọn sequential, diverging, qualitative.

palette: tên của bảng màu, có thể là string hoặc index.

direction: thứ tự các màu trong bảng màu, 1 là thứ tự tăng dần, -1 là ngược chiều.

values: Đánh số thứ tự trong vector gradient, hầu hết để NULL

space: Không gian màu sắc để từ đó tính toán gradient, nên chọn là “Lab” vì những space khác đã depreciated.

na.value: màu sử dụng cho missing value.

guide: Kiểu đánh màu gồm “colourbar” cho các màu liên tục, “legend” cho các màu phân loại.

#màu sắc mặc định theo class
(p <- ggplot(mpg, aes(displ, hwy)) +
geom_point(aes(colour = class)))

#scale theo color brewer
p + scale_colour_brewer("Class of ܹn cars")

#scale sử dụng palettes Accent của Qualitative
p + scale_color_brewer(palette = "Accent")

#scale sử dụng palettes Set1 của sequential 
p + scale_color_brewer(palette = "Set1")

#Scale trong biểu đồ histogram
(h <- ggplot(diamonds, aes(x=price, fill=cut))+
    geom_histogram(position = "dodge", binwidth = 1500))

#Lưu ý đối với biểu đồ barchart ta phải dùng scale_fill thay cho scale_colour
h + scale_fill_brewer()

#Đảo ngược vị trí màu sắc
h + scale_fill_brewer(direction = -1)

#Sử dụng scale_fill trong heatmap
(v <- ggplot(faithfuld) + geom_tile(aes(waiting, eruptions, fill
= density)))

#Scale theo màu sắc bằng nhóm màu phân tán Spectral của palatte Diverging.
v + scale_fill_distiller(palette = "Spectral")

#Scale theo biến phân loại class
ggplot(mpg, aes(displ, hwy)) + 
  geom_point(aes(colour = class))

Scale theo thời gian

scale_*_date: scale time cho các kiểu thời gian thuộc class Date

scale_*_datetime: dành cho các class POSIXct

scale_*_time: dành có các kiểu thời gian thuộc class hms

Cú pháp chung:

scale_y_datetime(name = waiver(), breaks = waiver(), date_breaks = waiver(), labels = waiver(), date_labels = waiver(), minor_breaks = waiver(), date_minor_breaks = waiver(), timezone = NULL, limits = NULL, expand = waiver(), position = “left”)

Trong đó:

break: Khoảng break là bao nhiêu, có thể nhận các giá trị NULL (không break), waiver() theo mặc định package tính toán, một numeric vector của position, một hàm số trả về các khoảng breaks.

date_break: Xác định khoảng thời gian giữa các bước liên tiếp là bao nhiêu như “2 weeks”, “10 years”,…

labels: Là một trong những giá trị NULL (không có labels), waiver() là default label của package tính ra, một character vector gán nhãn cho labels(phải có độ dài = breaks), hoặc một function trả về labels.

date_labels: Là kí tự định dạng format thời gian cho labels. VD “%Y %b”, code này phải tuân theo kiểu strftime. Nếu labels được định dạng cùng với date_labels thì date_labels thắng.

limits: là vector cung cấp độ dài của scale gồm 2 điểm đầu và cuối. Chẳng hạn như c(as.Date(“2018-04-21”)-7,NA), c(as.Date(“2018-04-21”),as.Date(“2019-04-21”))

# Chứa giá trị date time 29 ngày trước
last_month <- Sys.Date() - 0:29
#runif tạo ra 30 giá trị độ lệch chuẩn random
df <- data.frame( date = last_month, price = runif(30) )
#Vẽ biểu đồ với định dạng time là yyyy-mm-dd
#scale time cho các kiểu thời gian thuộc class Date
ggplot(df,aes(date,price))+ geom_line() +
scale_x_date(date_labels = "%Y-%m-%d")

#Khai báo khoảng thời gian của các bước liên tiếp (date_breaks) là 1 tuần
# date_labels dạng format là tuần
ggplot(df,aes(date,price))+
  geom_line() + 
  scale_x_date(date_breaks = "1 week",date_labels = "%W")

#Chuyển sang date break = 1 ngày
#date_labels theo format là ngày
ggplot(df,aes(date,price))+ geom_line() +
scale_x_date(date_breaks = "1 day",date_labels = "%d")

#Datebreak = 1 ngày, date limit là bắt đầu từ 7 ngày trước cho tới nay
ggplot(df,aes(date,price))+ geom_line() +scale_x_date(date_breaks = "1 day",date_labels = "%Y-%b-
%d",limits = c(Sys.Date()-7,NA))

Chia đồ thị thành nhiều facet

2 hàm facet_wrap() và facet_grid() sử dụng để phân chia 1 đồ thị thành nhiều facet khác nhau. Trong đó:

facet_wrap(): phân chia 1 mảnh đồ thị thành nhiều mảnh facet khác nhau. Nó được sử dụng phổ biến hơn so với facet_grid() vì các hiểu thị đều đưa ra kết quả hình chữ nhật. Cú pháp:

facet_wrap(facets, nrow = NULL, ncol = NULL, scales = “fixed”, shrink = TRUE, labeller = “label_value”, as.table = TRUE, drop = TRUE, dir = “h”, strip.position = “top”)

Trong đó một số argument chính:

  • facets: là công thức hoặc vector. Khi là công thức thì chỉ có 1 side chẳng hạn ~a+b, khi là vector sẽ có dạng c(“a”,“b”) qui định chiều sử dụng để phân loại dữ liệu thành các nhóm và mỗi nhóm sẽ được vẽ trên 1 facet.

  • nrow, ncol: qui định số dòng, số cột để sắp xếp các facets.

labeller: xác định label được hiển thị cho mỗi facet. Thông thường sẽ dùng “label_both”

  • scales: scales ở các trục x,y được fixed, free hoặc free 1 trong 2 trục với free_x hoặc free_y

  • strip.position: thay đổi vị trí các label. Có các option (“top”,“bottom”,“left”,“right”)

  • dir: thay đổi chiều biểu diễn các facets là dọc hay ngang dựa trên lựa chọn “v” hoặc “h”.

#Tạo mọt facet với các nhóm phân loại dựa trên class
ggplot(mpg) + geom_point(aes(hwy, displ)) +
facet_wrap(c("class"))

#Xác định label  hiển thị mỗi facet
ggplot(mpg) + geom_point(aes(hwy, displ)) +
facet_wrap(c("class"), labeller = "label_both")

#Thay đổi vị trí của các label xuống dưới
ggplot(mpg) + geom_point(aes(hwy, displ)) +
facet_wrap(c("class"), labeller = "label_both",
strip.position = "bottom")

#Thay đổi chiều hiển thị facets từ ngang sang dọc sử dụng dir="v"
ggplot(mpg) + 
  geom_point(aes(hwy, displ)) + 
  facet_wrap(c("class"), dir = "v", strip.position = "bottom")

#Các facet đang có scale fixed(cố định), chúng ta muốn cho trục y free tức là mỗi một facet sẽ có một scale riêng 
ggplot(mpg) + geom_point(aes(hwy, displ)) +
facet_wrap(c("class"), dir = "v", strip.position = "bottom",
scales = "free_y")

#Nếu muốn các đồ thị lặp lại dữ liệu và chỉ hightlight các category thuộc facet đó thì phải tạo một facet không chứa facet variable
#sử dụng hàm transform để tạo một facet mà có class= Null tức là không chứa các category thuộc facet.
ggplot(mpg,aes(displ, hwy)) + geom_point(data = transform(mpg, class
= NULL), colour = "grey") + geom_point() + facet_wrap(c("class"),
dir = "v", strip.position = "bottom", scales = "free_y")

#Bản chất đồ thị trên gồm 2 lớp, lớp đầu tiên là tô cho toàn bộ đồ thịmàu grey, bước thứ 2 là ở geom_point() bên dưới, chỉ những điểm có category thuộc facet mới được tô màu đè lên lớp 1. 
#Tô màu theo scale thật sặc sỡ
# Sử dụng scale theo gradient và tạo 10 màu tự động bằng hàm terrain
ggplot(mpg,aes(displ, hwy)) + geom_point(aes(colour = hwy)) +
facet_wrap(c("class"), strip.position = "bottom") +
scale_color_gradientn(colours = terrain.colors(10,alpha = 0.4))

#Điều chỉnh thêm theme theo màu tối bằng theme_dark() cho dễ nhìn
ggplot(mpg,aes(displ, hwy)) + geom_point(aes(colour = hwy)) +
theme_dark() + facet_wrap(c("class"), strip.position = "bottom") +
scale_color_gradientn(colours = terrain.colors(10,alpha = 0.4))

Thiết lập giới hạn cho Scale

lims(): thiết lập giới hạn cho các category xlim(): Thiết lập giới hạn cho trục x ylim(): Thiết lập giới hạn cho trục y

#Đồ thị gốc
ggplot(mpg) +
  geom_point(aes(hwy, displ))

#Thiết lập giới hạn cho x từ 15-20 sử dụng xlim(15,20)
ggplot(mpg) + geom_point(aes(hwy, displ)) + xlim(15,20)

#Thiết lập giới hạn cho y từ 3-7
ggplot(mpg) +
  geom_point(aes(hwy, displ)) + 
  ylim(3,7)

#Thiết lập giới hạn cho class thuộc các nhóm c("compact","midsize","suv","minivan")
# Giới hạn 4 class
ggplot(mpg) + geom_point(aes(hwy, displ, colour = class)) +
lims(colour = c("compact","midsize","suv","minivan"))

2) GIới thiệu ggplot2-Line graph

# Sử dụng dataset pressure
df <- pressure
head(df)
# Tạo line graph sử dụng hàm ggplot()
library(ggplot2)
ggplot(df, aes(x=temperature, y=pressure)) + geom_line()

# giới hạn vùng cho trục tọa độ sử sụng xlim và ylim
# Ở đây giới hạn y trong khoảng từ 200 cho tới y max
ggplot(df, aes(x=temperature, y=pressure)) + geom_line() +
ylim(200, max(pressure))

# Sử dụng xlim giới hạn x trong khoảng 100 tới 500
ggplot(df, aes(x=temperature, y=pressure)) + geom_line() +
xlim(100, 500)

# Thêm points nằm trên line graph bằng geom_point()
ggplot(df, aes(x=temperature, y=pressure)) +
geom_line() + geom_point()

# Với log y-axis, y được biểu diễn theo dạng y=log10(x)
ggplot(df, aes(x=temperature, y=pressure)) +
geom_line() + geom_point() + scale_y_log10()

Tạo line graph với multiple lines

# Tạo data frames
nmonths = 24
#Tạo ra 1 mảng tăng dần bắt đầu từ tháng 1/2015 và tăng dần theo tháng với số lượng phần từ của mảng là 24.
x = seq(as.Date("2015/1/1"), by = "month", length.out = nmonths)
# rnorm(mean= ,nmonths) tạo ra 1 vector gồm 24 giá trị random với giá trị trung bình tương ứng
df1 <- data.frame(dates = x,Variable = rnorm(mean = 0.75,nmonths))
df2 <- data.frame(dates = x,Variable = rnorm(mean = -0.75,nmonths))
df3 <- data.frame(dates = x,Variable = rnorm(mean = 0.3,nmonths))
#Hiển thị datafram 1, df1 có kích thước 24x2
head(df1)
##df3 cũng có kích thước 24x2, với giá trị random trung bình =0.3
head(df3)
# Tạo biểu đồ đường với nhiều dòng có màu khác nhau tương ứng với 3 data fram được tạo ở trên
library(ggplot2)
p <- ggplot() + geom_line(data = df1, aes(x = dates, y = Variable),
color = "blue") + geom_line(data = df2, aes(x = dates, y = Variable),
color = "red") + geom_line(data = df3, aes(x = dates, y = Variable),
color = "green")
print(p)

#Cài đặt và sử dụng dplyr
install.packages("dplyr")
library(dplyr)
# Tạo category cho 3 data frames và gộp chúng lại sử dụng dplyr
# %>% dùng để truyền dataframe  vào 1 hàm, bind_rows dùng để gộp cái dataframe với nhau, mutate dùng để tạo thêm 1 cột trong mỗi data frame và sử dụng những chữ cái A,B,C để giúp phân biệt df1,df2,df3 
library(dplyr)
df <- df1 %>% mutate(cat = "A") %>% bind_rows(df2 %>%
mutate(cat = "B")) %>% bind_rows(df3 %>% mutate(cat =
"C"))
head(df)
# Tạo multiple lines graphs mỗi màu sắc tương ứng với thuộc tính cat vừa được tạo ở trên, 3 màu tương ứng với mỗi dataframe
ggplot(df, aes(x = dates, y = Variable, color =
cat)) + geom_line()

Thay đổi hình dạng của line

#Thay đổi hình dạng của line với màu xanh và đứt quãng 
ggplot(df1, aes(x = dates, y = Variable)) +  geom_line(linetype="dashed", size=1, colour="blue")

Thay đổi hình dạng của points

#Thêm những điểm màu hồng có kích thước =4 và hình dạng 22
ggplot(df1, aes(x = dates, y = Variable)) +  
  geom_line() +
  geom_point(size=4, shape=22, colour="darkred", fill="pink")

Tạo Graph with a Shaded Area

#Tạo bóng lên 1 vùng phủ bằng geom_area()
ggplot(df1, aes(x = dates, y = Variable)) +  
  geom_line() +
  geom_area()

ggplot(df1, aes(x = dates, y = Variable)) + geom_line() +
# Tạo 80% trong suốt với thiết lập alpha bằng 0.2
# Việc này giúp cho chúng ta vẫn thấy những đường lưới hiển thị phía sau lớp phủ xanh
geom_area(colour="black", fill="green", alpha=.2)

# Thử với alpha = 0.8
# Độ trong suốt chỉ với 20% nên những đừng kẻ mờ hoàn toàn bị vùng phủ che khuất
ggplot(df1, aes(x = dates, y = Variable)) + geom_line() +
geom_area(colour="black", fill="green", alpha=.8)

Tạo những vùng phủ xếp chồng lên nhau

#Hình hiển thị cho thấy 3 data frame A,B,C xếp chồng lên nhau bằng 3 màu phủ khác nhau 
ggplot(df, aes(x = dates, y = Variable, fill = cat)) +
  geom_area()

# Thiết lập độ trong suốt =0.6 với alpha=0.4 với khu vực phủ theo màu tối
#scale theo bảng màu pallete màu xanh, với khoảng cách giữa 2 bước liên tiếp tương ứng việc chuyển đổi dataframe này sang dataframe khác theo loại cat.
ggplot(df, aes(x = dates, y = Variable, fill = cat)) +
geom_area(colour="black", size=.2, alpha=.4) +
scale_fill_brewer(palette="Blues", breaks=rev(levels(cat)))

?rev

Thêm confidence region

# Tính 95% confidence interval cho variable
# Viết hàm tính CI
confidence_interval <- function(vector, interval) {
  # Độ lệch chuẩn của sample
  vec_sd <- sd(vector)
  # Sample size
  n <- length(vector)
  # Giá trị trung bình của sample
  vec_mean <- mean(vector)
  # Lỗi dựa vào sự phân bố t tính bằng cách sử dụng hàm qt
  error <- qt((interval + 1)/2, df = n - 1) * vec_sd / sqrt(n)
  # Confidence interval as a vector
  # result <- data.frame("lower" = vec_mean - error, "upper" = vec_mean + error)
  # Tuy nhiên để tạo ra hai cột lower và upper cho vector variable tôi làm như sau:
  result <- data.frame("lower" = vector - error, "upper" = vector + error)
  return(result)
}
#Ví dụ
vector <- c(12, 17, 24, 35, 23, 34, 56)
confidence_interval(vector, 0.90)
# Tính confidence region với tham số vector truyền vào là thuộc Variable của df1 
#Kết hợp df1 với confidence region vừa tính xong và thành 1 bảng df mới với 2 thuộc tính mới lower và upper được thêm vào
library(magrittr)
range <- confidence_interval(df1$Variable, 0.95)
df1 <- cbind(df1, range)
head(df1)
#Sử dụng geom_ribbon() để nối những giá trị cho ymin and ymax tương ứng với confidence region được tính ở trên, đồng thời để tạo vùng phủ với ymax ymin tương ứng.

ggplot(df1, aes(x = dates, y= Variable)) +
geom_ribbon(aes(ymin = lower, ymax = upper), alpha=0.2) +
geom_line()

?geom_ribbon
# Sử dụng đường chấm đốm dể tạo ra ranh giới cho upper và lower
ggplot(df1, aes(x=dates, y=Variable)) +
  geom_line(aes(y=lower), colour="grey50", linetype="dotted") +
  geom_line(aes(y=upper), colour="grey50", linetype="dotted") +
  geom_line()

Dữ liệu chuỗi thời gian

library(ggplot2)
# Dữ liệu demo: economics trong gói ggplot2
head(economics)

Tạo line plots cơ bản:

# Plot một tập con của data
# Tập con này bao gồm những dòng trong economics mà có date > 2006-1-1 
ss <- subset(economics, date > as.Date("2006-1-1"))
ggplot(data = ss, aes(x = date, y = pop)) +
geom_line(color = "#FC4E07", size = 2)

#Điều chỉnh kích thước line với việc chỉnh size= thương 2 thuộc tính
ggplot(data = economics, aes(x = date, y = pop)) +
geom_line(aes(size = unemploy/pop), color = "#FC4E07")

Tạo multiple time series plots

#Cài đặt tidyr và sử dụng
install.packages("tidyr")
library(tidyr)
# Để tạo multiple plot bởi 2 biến psavert và uempmed theo dates. Đầu tiên cần định hình lại data sửu dụng tidyr package
library(tidyr)
library(dplyr)
# chọn ra thuộc tính date,psavert, uempmed trong economics tương ứng với kiểu thuộc tính variable, value, date
df <- economics %>%
  select(date, psavert, uempmed) %>%
  gather(key = "variable", value = "value", -date)
head(df, 3)
# Multiple line plot
# Plot 2 thuộc tính psavert và uempmed theo 2 màu khác nhau tuỳ chọn trong theme tối thiểu không có trục toạ độ
ggplot(df, aes(x = date, y = value)) +
geom_line(aes(color = variable), size = 1) +
scale_color_manual(values = c("#00AFBB", "#E7B800")) +
theme_minimal()

# plot những vùng phủ
# Plot nhiều vùng chồng chéo lên, do đây biểu đồ dạng heatmap nên ta sử dụng scale_fill_manual, plot 2 vùng chồng chéo theo 2 máu khác nhau
ggplot(df, aes(x = date, y = value)) +
geom_area(aes(color = variable, fill = variable),
alpha = 0.5, position = position_dodge(0.8)) +
scale_color_manual(values = c("#00AFBB", "#E7B800")) +
scale_fill_manual(values = c("#00AFBB", "#E7B800"))

?geom_area()

Set date axis limits

# Base plot with date axis
#Biểu đồ xu hướng  theo ngày
p <- ggplot(data = economics, aes(x = date, y = psavert)) + 
     geom_line(color = "#00AFBB", size = 1)
p

# Set axis limits c(min, max)
#Thiết lập biểu đồ cột x xuất pháp từ ngày nhỏ nhất nhất là 2002-1-1 và lớn nhất là cho tới hiện tại
min <- as.Date("2002-1-1")
max <- NA
p+ scale_x_date(limits = c(min, max))

Định dạngt date axis labels

# Thiết lập theo định dạng tháng/năm cho thuộc tính datetime
p + scale_x_date(date_labels = "%b/%Y")

Add trend smoothed line

# Thêm 1 dòng biểu diễn xu hướng của biểu đồ với phương thức loess
p + stat_smooth(
  color = "#FC4E07", fill = "#FC4E07",
  method = "loess"
  )

ggfortify- ggpmisc

  • ggfortify là package mở rộng của ggplot2

ggfortify vẽ biểu đồ chuỗi thời gian (plot time series objects) zoo::zooreg(), xts::xts(), timeSeries::timSeries(), tseries::irts(), forecast::forecast(), vars:vars().

  • ggpmisc package: cung cấp 2 phương pháp cho time series object:

stat_peaks() finds at which x positions local y maxima are located,and

stat_valleys() finds at which x positions local y minima are located.

#Cài đặt
install.packages( c("ggfortify", "changepoint", "strucchange",
"ggpmisc") )
# Load thư viện
library(ggfortify)
library(magrittr) # for piping %>%
# Sử dụng hàm  auplot để khắc hoạ đối tượng chuỗi thời gian 
autoplot(AirPassengers)

# Phát hiện ra những điểm thay đổi dựa trên trung bình và phương sai trong df AirPassengers
AirPassengers %>%
  changepoint:: cpt.meanvar() %>%  # Identify change points
  autoplot()

# Phát hiện ra những bước nhảy trong data
strucchange::breakpoints(Nile ~ 1) %>% autoplot()

# Phát hiện những điểm cao nhất theo y(peaks) và thấp nhất theo y(valleys)
#Những điểm cao nhất tương ứng màu đỏ và thấp nhất tương ứng màu xanh
#Cột x theo thuộc tính datetime là năm, và y theo thuộc tính lynx, những điểm thấp nhất sẽ tạo thành 1 góc 45 độ
library(ggpmisc)
ggplot(lynx, as.numeric = FALSE) + geom_line() +
stat_peaks(colour = "red") +
stat_peaks(geom = "text", colour = "red", vjust = -0.5,
x.label.fmt = "%Y") +
stat_valleys(colour = "blue") +
stat_valleys(geom = "text", colour = "blue", angle = 45,
vjust = 1.5, hjust = 1, x.label.fmt = "%Y")+
ylim(-500, 7300)

---
title: "Bài tập tuần 2_Giới thiệu ggplot2"
author: 08_Mai Huy_43.01.104.065
date: 22/4/2020
output: html_notebook

---



# 1) GIới thiệu ggplot2-Point graph

```{r}
#Cài đặt và load ggplot2 
#install.packages('ggplot2')
library(ggplot2)
```
```{r}
#x=1:100: trục x tạo ngẫu nhiên từ 1 đến 100
#y=rnorm (200,0,1) tạo dãy ngẫu nhiên gồm 200 số với giá trị trung bình là 0 và độ lệch chuẩn là 1
df <- data.frame(x=1:100,y = rnorm(200,0,1))
#Nếu chỉ dùng ggplot sẽ không có kết quả hiện ra
ggplot(df)
#Qui định kiểu đồ thị là các điểm point được khởi tạo trong df
ggplot(df) + geom_point(aes(x,y))
```

theme(): qui định theme cho đồ thị trong đó có nhiều kiểu theme khác nhau như:

. theme() hoặc theme_gray() là theme mặc định có phông nhạt và gridlines trắng.

. theme_bw() là kiểu đồ thị phông trắng có gridlines trắng.

. theme_classic() phông trắng không có gridlines.

. theme_minimal() phông tối giản không có trục tọa độ,.

. theme_dark() phông nền tối có gridlines.

. theme_void() phông nền empty.

. them_light() phông nền trắng với gridlines đen.

. theme_lightdraw() phông nền trắng với gridlines và axis xám.

Trong theme lại bao gồm 2 arguments đó là: base_size qui định font size của tiêu đề, base_family qui định kiểu chữ của các tiêu đề.


```{r}
#Phông tối giản không có trục tọa độ
library(ggplot2)
df <- data.frame(x=1:100,y = rnorm(200,0,1))
ggplot(df) + geom_point(aes(x,y)) + theme_minimal()
```

```{r}
#labs(): qui định các thành phần về title, subtitle, tên trục x, y
ggplot(df) + geom_point(aes(x,y)) + theme_minimal()+labs(title="First plot", subtitle = "Point Graph",x="x axis",y="y axis")
```

## Scale theo gradient:

scale_*_gradient tạo thành 2 màu gradient (low-high),

scale_*_gradient2 tạo thành màu sắc phân tán thành (low-
mid-high)

scale_*_gradientn tạo thành n-colour gradient.

Có thể tạo hệ màu sắc theo hàm terrain. Khi đó các mã hex
của màu sắc sẽ được tạo ra tự động.

Lưu ý mã hex của màu sắc luôn bắt đầu bởi dấu # và gồm 6-8
kí tự. Các kí tự là chữ số phải nằm trong khoảng từ 0-9 hoặc
chữ cái từ A-F.
```{r}
#Tạo 5 màu tự động
terrain.colors(5,alpha = 0.2)
```

```{r}
# Chọn màu sắc theo scale của cty
ggplot(mpg) +
geom_point(aes(hwy,displ, colour = cty)) +
scale_colour_gradientn(colours = terrain.colors(10))
```

## Scale theo alpha

Các hàm có dạng:

 - scale_alpha(..., range = c(0.1, 1)): scale cho các biến liên tục
 - scale_alpha_continuous(..., range = c(0.1, 1)): scale cho các biến liên tục
 - scale_alpha_discrete(..., range = c(0.1, 1)): scale cho các biến phân loại
 
```{r}
#Scale theo biến liên tục (year)
?geom_point
ggplot(mpg, aes(displ,hwy))+
  geom_point(aes(alpha = year)) + 
  scale_alpha(range = c(0.2,1))
```

```{r}
#Scale theo biến phân loại (class)
ggplot(mpg, aes(displ,hwy))+
geom_point(aes(alpha = class)) +
scale_alpha_discrete(range=c(0.2,1))
```

## Scale theo colour
scale_colour_brewer(..., type = "seq", palette = 1, direction = 1)

scale_fill_brewer(..., type = "seq", palette = 1, direction = 1)

scale_colour_distiller(..., type = "seq", palette = 1, direction = -1,
  values = NULL, space = "Lab", na.value = "grey50",
  guide = "colourbar")

scale_fill_distiller(..., type = "seq", palette = 1, direction = -1,
  values = NULL, space = "Lab", na.value = "grey50",
  guide = "colourbar")
  
Đối với các biểu đồ dạng rectangle ta sẽ như barchart hay heatmap ta phải dùng scale_fill, còn các biểu đồ của point ta sẽ dùng scale_colour.

Trong đó :

…: là các argument khác để định nghĩa names, limits, breaks, labels.

type: là 3 kiểu lựa chọn sequential, diverging, qualitative.

palette: tên của bảng màu, có thể là string hoặc index.

direction: thứ tự các màu trong bảng màu, 1 là thứ tự tăng dần, -1 là ngược chiều.

values: Đánh số thứ tự trong vector gradient, hầu hết để NULL

space: Không gian màu sắc để từ đó tính toán gradient, nên chọn là “Lab” vì những space khác đã depreciated.

na.value: màu sử dụng cho missing value.

guide: Kiểu đánh màu gồm “colourbar” cho các màu liên tục, “legend” cho các màu phân loại.


```{r}
#màu sắc mặc định theo class
(p <- ggplot(mpg, aes(displ, hwy)) +
geom_point(aes(colour = class)))
```

```{r}
#scale theo color brewer
p + scale_colour_brewer("Class of ܹn cars")
```

```{r}
#scale sử dụng palettes Accent của Qualitative
p + scale_color_brewer(palette = "Accent")
```

```{r}
#scale sử dụng palettes Set1 của sequential 
p + scale_color_brewer(palette = "Set1")
```
```{r}
#Scale trong biểu đồ histogram
(h <- ggplot(diamonds, aes(x=price, fill=cut))+
    geom_histogram(position = "dodge", binwidth = 1500))
```

```{r}
#Lưu ý đối với biểu đồ barchart ta phải dùng scale_fill thay cho scale_colour
h + scale_fill_brewer()
```

```{r}
#Đảo ngược vị trí màu sắc
h + scale_fill_brewer(direction = -1)
```

```{r}
#Sử dụng scale_fill trong heatmap
(v <- ggplot(faithfuld) + geom_tile(aes(waiting, eruptions, fill
= density)))
```

```{r}
#Scale theo màu sắc bằng nhóm màu phân tán Spectral của palatte Diverging.
v + scale_fill_distiller(palette = "Spectral")
```

```{r}
#Scale theo biến phân loại class
ggplot(mpg, aes(displ, hwy)) + 
  geom_point(aes(colour = class))
```

## Scale theo thời gian
scale_*_date: scale time cho các kiểu thời gian thuộc class Date

scale_*_datetime: dành cho các class POSIXct

scale_*_time: dành có các kiểu thời gian thuộc class hms

Cú pháp chung:

scale_y_datetime(name = waiver(), breaks = waiver(),
date_breaks = waiver(), labels = waiver(), date_labels = waiver(),
minor_breaks = waiver(), date_minor_breaks = waiver(), timezone = NULL,
limits = NULL, expand = waiver(), position = "left")

Trong đó:

break: Khoảng break là bao nhiêu, có thể nhận các giá trị NULL (không break), waiver() theo mặc định package tính toán, một numeric vector của position, một hàm số trả về các khoảng breaks.

date_break: Xác định khoảng thời gian giữa các bước liên tiếp là bao nhiêu như “2 weeks”, “10 years”,…

labels: Là một trong những giá trị NULL (không có labels), waiver() là default label của package tính ra, một character vector gán nhãn cho labels(phải có độ dài = breaks), hoặc một function trả về labels.

date_labels: Là kí tự định dạng format thời gian cho labels. VD “%Y %b”, code này phải tuân theo kiểu strftime. Nếu labels được định dạng cùng với date_labels thì date_labels thắng.

limits: là vector cung cấp độ dài của scale gồm 2 điểm đầu và cuối. Chẳng hạn như c(as.Date(“2018-04-21”)-7,NA), c(as.Date(“2018-04-21”),as.Date(“2019-04-21”))




```{r}
# Chứa giá trị date time 29 ngày trước
last_month <- Sys.Date() - 0:29
#runif tạo ra 30 giá trị độ lệch chuẩn random
df <- data.frame( date = last_month, price = runif(30) )
#Vẽ biểu đồ với định dạng time là yyyy-mm-dd
#scale time cho các kiểu thời gian thuộc class Date
ggplot(df,aes(date,price))+ geom_line() +
scale_x_date(date_labels = "%Y-%m-%d")
```

```{r}
#Khai báo khoảng thời gian của các bước liên tiếp (date_breaks) là 1 tuần
# date_labels dạng format là tuần
ggplot(df,aes(date,price))+
  geom_line() + 
  scale_x_date(date_breaks = "1 week",date_labels = "%W")
```

```{r}
#Chuyển sang date break = 1 ngày
#date_labels theo format là ngày
ggplot(df,aes(date,price))+ geom_line() +
scale_x_date(date_breaks = "1 day",date_labels = "%d")
```

```{r}
#Datebreak = 1 ngày, date limit là bắt đầu từ 7 ngày trước cho tới nay
ggplot(df,aes(date,price))+ geom_line() +scale_x_date(date_breaks = "1 day",date_labels = "%Y-%b-
%d",limits = c(Sys.Date()-7,NA))
```

## Chia đồ thị thành nhiều facet

2 hàm facet_wrap() và facet_grid() sử dụng để phân chia 1 đồ thị thành nhiều facet khác nhau. Trong đó:

facet_wrap(): phân chia 1 mảnh đồ thị thành nhiều mảnh facet khác nhau. Nó được sử dụng phổ biến hơn so với facet_grid() vì các hiểu thị đều đưa ra kết quả hình chữ nhật. Cú pháp:

facet_wrap(facets, nrow = NULL, ncol = NULL, scales = "fixed",
  shrink = TRUE, labeller = "label_value", as.table = TRUE,
  drop = TRUE, dir = "h", strip.position = "top")
  
Trong đó một số argument chính:

* facets: là công thức hoặc vector. Khi là công thức thì chỉ có 1 side chẳng hạn ~a+b, khi là vector sẽ có dạng c(“a”,“b”) qui định chiều sử dụng để phân loại dữ liệu thành các nhóm và mỗi nhóm sẽ được vẽ trên 1 facet.

* nrow, ncol: qui định số dòng, số cột để sắp xếp các facets.

labeller: xác định label được hiển thị cho mỗi facet. Thông thường sẽ dùng “label_both”

* scales: scales ở các trục x,y được fixed, free hoặc free 1 trong 2 trục với free_x hoặc free_y

* strip.position: thay đổi vị trí các label. Có các option (“top”,“bottom”,“left”,“right”)

* dir: thay đổi chiều biểu diễn các facets là dọc hay ngang dựa trên lựa chọn “v” hoặc “h”.

```{r}
#Tạo mọt facet với các nhóm phân loại dựa trên class
ggplot(mpg) + geom_point(aes(hwy, displ)) +
facet_wrap(c("class"))
```

```{r}
#Xác định label  hiển thị mỗi facet
ggplot(mpg) + geom_point(aes(hwy, displ)) +
facet_wrap(c("class"), labeller = "label_both")
```

```{r}
#Thay đổi vị trí của các label xuống dưới
ggplot(mpg) + geom_point(aes(hwy, displ)) +
facet_wrap(c("class"), labeller = "label_both",
strip.position = "bottom")
```

```{r}
#Thay đổi chiều hiển thị facets từ ngang sang dọc sử dụng dir="v"
ggplot(mpg) + 
  geom_point(aes(hwy, displ)) + 
  facet_wrap(c("class"), dir = "v", strip.position = "bottom")
```

```{r}
#Các facet đang có scale fixed(cố định), chúng ta muốn cho trục y free tức là mỗi một facet sẽ có một scale riêng 
ggplot(mpg) + geom_point(aes(hwy, displ)) +
facet_wrap(c("class"), dir = "v", strip.position = "bottom",
scales = "free_y")
```

```{r}
#Nếu muốn các đồ thị lặp lại dữ liệu và chỉ hightlight các category thuộc facet đó thì phải tạo một facet không chứa facet variable
#sử dụng hàm transform để tạo một facet mà có class= Null tức là không chứa các category thuộc facet.
ggplot(mpg,aes(displ, hwy)) + geom_point(data = transform(mpg, class
= NULL), colour = "grey") + geom_point() + facet_wrap(c("class"),
dir = "v", strip.position = "bottom", scales = "free_y")
```

```{r}
#Bản chất đồ thị trên gồm 2 lớp, lớp đầu tiên là tô cho toàn bộ đồ thịmàu grey, bước thứ 2 là ở geom_point() bên dưới, chỉ những điểm có category thuộc facet mới được tô màu đè lên lớp 1. 
#Tô màu theo scale thật sặc sỡ
# Sử dụng scale theo gradient và tạo 10 màu tự động bằng hàm terrain
ggplot(mpg,aes(displ, hwy)) + geom_point(aes(colour = hwy)) +
facet_wrap(c("class"), strip.position = "bottom") +
scale_color_gradientn(colours = terrain.colors(10,alpha = 0.4))
```

```{r}
#Điều chỉnh thêm theme theo màu tối bằng theme_dark() cho dễ nhìn
ggplot(mpg,aes(displ, hwy)) + geom_point(aes(colour = hwy)) +
theme_dark() + facet_wrap(c("class"), strip.position = "bottom") +
scale_color_gradientn(colours = terrain.colors(10,alpha = 0.4))
```

## Thiết lập giới hạn cho Scale

lims(): thiết lập giới hạn cho các category
xlim(): Thiết lập giới hạn cho trục x
ylim(): Thiết lập giới hạn cho trục y


```{r}
#Đồ thị gốc
ggplot(mpg) +
  geom_point(aes(hwy, displ))
```

```{r}
#Thiết lập giới hạn cho x từ 15-20 sử dụng xlim(15,20)
ggplot(mpg) + geom_point(aes(hwy, displ)) + xlim(15,20)
```

```{r}
#Thiết lập giới hạn cho y từ 3-7
ggplot(mpg) +
  geom_point(aes(hwy, displ)) + 
  ylim(3,7)
```

```{r}
#Thiết lập giới hạn cho class thuộc các nhóm c("compact","midsize","suv","minivan")
# Giới hạn 4 class
ggplot(mpg) + geom_point(aes(hwy, displ, colour = class)) +
lims(colour = c("compact","midsize","suv","minivan"))
```

# 2) GIới thiệu ggplot2-Line graph

```{r}
# Sử dụng dataset pressure
df <- pressure
head(df)
```

```{r}
# Tạo line graph sử dụng hàm ggplot()
library(ggplot2)
ggplot(df, aes(x=temperature, y=pressure)) + geom_line()
```

```{r}
# giới hạn vùng cho trục tọa độ sử sụng xlim và ylim
# Ở đây giới hạn y trong khoảng từ 200 cho tới y max
ggplot(df, aes(x=temperature, y=pressure)) + geom_line() +
ylim(200, max(pressure))
```


```{r}
# Sử dụng xlim giới hạn x trong khoảng 100 tới 500
ggplot(df, aes(x=temperature, y=pressure)) + geom_line() +
xlim(100, 500)
```

```{r}
# Thêm points nằm trên line graph bằng geom_point()
ggplot(df, aes(x=temperature, y=pressure)) +
geom_line() + geom_point()
```

```{r}
# Với log y-axis, y được biểu diễn theo dạng y=log10(x)
ggplot(df, aes(x=temperature, y=pressure)) +
geom_line() + geom_point() + scale_y_log10()
```

## Tạo line graph với multiple lines

```{r}
# Tạo data frames
nmonths = 24
#Tạo ra 1 mảng tăng dần bắt đầu từ tháng 1/2015 và tăng dần theo tháng với số lượng phần từ của mảng là 24.
x = seq(as.Date("2015/1/1"), by = "month", length.out = nmonths)
# rnorm(mean= ,nmonths) tạo ra 1 vector gồm 24 giá trị random với giá trị trung bình tương ứng
df1 <- data.frame(dates = x,Variable = rnorm(mean = 0.75,nmonths))
df2 <- data.frame(dates = x,Variable = rnorm(mean = -0.75,nmonths))
df3 <- data.frame(dates = x,Variable = rnorm(mean = 0.3,nmonths))
#Hiển thị datafram 1, df1 có kích thước 24x2
head(df1)
```
```{r}
#df2 cũng có kích thước 24x2, với giá trị random trung bình =-0.75
head(df2)
```
```{r}
##df3 cũng có kích thước 24x2, với giá trị random trung bình =0.3
head(df3)
```

```{r}
# Tạo biểu đồ đường với nhiều dòng có màu khác nhau tương ứng với 3 data fram được tạo ở trên
library(ggplot2)
p <- ggplot() + geom_line(data = df1, aes(x = dates, y = Variable),
color = "blue") + geom_line(data = df2, aes(x = dates, y = Variable),
color = "red") + geom_line(data = df3, aes(x = dates, y = Variable),
color = "green")
print(p)
```

```{r}
#Cài đặt và sử dụng dplyr
install.packages("dplyr")
library(dplyr)
```

```{r}
# Tạo category cho 3 data frames và gộp chúng lại sử dụng dplyr
# %>% dùng để truyền dataframe  vào 1 hàm, bind_rows dùng để gộp cái dataframe với nhau, mutate dùng để tạo thêm 1 cột trong mỗi data frame và sử dụng những chữ cái A,B,C để giúp phân biệt df1,df2,df3 
library(dplyr)
df <- df1 %>% mutate(cat = "A") %>% bind_rows(df2 %>%
mutate(cat = "B")) %>% bind_rows(df3 %>% mutate(cat =
"C"))
head(df)
```
```{r}
# Tạo multiple lines graphs mỗi màu sắc tương ứng với thuộc tính cat vừa được tạo ở trên, 3 màu tương ứng với mỗi dataframe
ggplot(df, aes(x = dates, y = Variable, color =
cat)) + geom_line()
```

## Thay đổi hình dạng của line 

```{r}
#Thay đổi hình dạng của line với màu xanh và đứt quãng 
ggplot(df1, aes(x = dates, y = Variable)) +  geom_line(linetype="dashed", size=1, colour="blue")
```
## Thay đổi hình dạng của points

```{r}
#Thêm những điểm màu hồng có kích thước =4 và hình dạng 22
ggplot(df1, aes(x = dates, y = Variable)) +  
  geom_line() +
  geom_point(size=4, shape=22, colour="darkred", fill="pink")

```

## Tạo Graph with a Shaded Area

```{r}
#Tạo bóng lên 1 vùng phủ bằng geom_area()
ggplot(df1, aes(x = dates, y = Variable)) +  
  geom_line() +
  geom_area()
```

```{r}
ggplot(df1, aes(x = dates, y = Variable)) + geom_line() +
# Tạo 80% trong suốt với thiết lập alpha bằng 0.2
# Việc này giúp cho chúng ta vẫn thấy những đường lưới hiển thị phía sau lớp phủ xanh
geom_area(colour="black", fill="green", alpha=.2)
```

```{r}
# Thử với alpha = 0.8
# Độ trong suốt chỉ với 20% nên những đừng kẻ mờ hoàn toàn bị vùng phủ che khuất
ggplot(df1, aes(x = dates, y = Variable)) + geom_line() +
geom_area(colour="black", fill="green", alpha=.8)
```

## Tạo những vùng phủ xếp chồng lên nhau 

```{r}
#Hình hiển thị cho thấy 3 data frame A,B,C xếp chồng lên nhau bằng 3 màu phủ khác nhau 
ggplot(df, aes(x = dates, y = Variable, fill = cat)) +
  geom_area()
```

```{r}
# Thiết lập độ trong suốt =0.6 với alpha=0.4 với khu vực phủ theo màu tối
#scale theo bảng màu pallete màu xanh, với khoảng cách giữa 2 bước liên tiếp tương ứng việc chuyển đổi dataframe này sang dataframe khác theo loại cat.
ggplot(df, aes(x = dates, y = Variable, fill = cat)) +
geom_area(colour="black", size=.2, alpha=.4) +
scale_fill_brewer(palette="Blues", breaks=rev(levels(cat)))
?rev
```

## Thêm confidence region

```{r}
# Tính 95% confidence interval cho variable
# Viết hàm tính CI
confidence_interval <- function(vector, interval) {
  # Độ lệch chuẩn của sample
  vec_sd <- sd(vector)
  # Sample size
  n <- length(vector)
  # Giá trị trung bình của sample
  vec_mean <- mean(vector)
  # Lỗi dựa vào sự phân bố t tính bằng cách sử dụng hàm qt
  error <- qt((interval + 1)/2, df = n - 1) * vec_sd / sqrt(n)
  # Confidence interval as a vector
  # result <- data.frame("lower" = vec_mean - error, "upper" = vec_mean + error)
  # Tuy nhiên để tạo ra hai cột lower và upper cho vector variable tôi làm như sau:
  result <- data.frame("lower" = vector - error, "upper" = vector + error)
  return(result)
}
#Ví dụ
vector <- c(12, 17, 24, 35, 23, 34, 56)
confidence_interval(vector, 0.90)
```

```{r}
# Tính confidence region với tham số vector truyền vào là thuộc Variable của df1 
#Kết hợp df1 với confidence region vừa tính xong và thành 1 bảng df mới với 2 thuộc tính mới lower và upper được thêm vào
library(magrittr)
range <- confidence_interval(df1$Variable, 0.95)
df1 <- cbind(df1, range)
head(df1)
```

```{r}
#Sử dụng geom_ribbon() để nối những giá trị cho ymin and ymax tương ứng với confidence region được tính ở trên, đồng thời để tạo vùng phủ với ymax ymin tương ứng.

ggplot(df1, aes(x = dates, y= Variable)) +
geom_ribbon(aes(ymin = lower, ymax = upper), alpha=0.2) +
geom_line()
?geom_ribbon
```

```{r}
# Sử dụng đường chấm đốm dể tạo ra ranh giới cho upper và lower
ggplot(df1, aes(x=dates, y=Variable)) +
  geom_line(aes(y=lower), colour="grey50", linetype="dotted") +
  geom_line(aes(y=upper), colour="grey50", linetype="dotted") +
  geom_line()
```

## Dữ liệu chuỗi thời gian

```{r}
library(ggplot2)
# Dữ liệu demo: economics trong gói ggplot2
head(economics)
```

## Tạo line plots cơ bản:

```{r}
# Basic line plot với hệ màu xanh và độ dày =2
ggplot(data = economics, aes(x = date, y = pop))+
  geom_line(color = "#00AFBB", size = 2)
```

```{r}
# Plot một tập con của data
# Tập con này bao gồm những dòng trong economics mà có date > 2006-1-1 
ss <- subset(economics, date > as.Date("2006-1-1"))
ggplot(data = ss, aes(x = date, y = pop)) +
geom_line(color = "#FC4E07", size = 2)
```

```{r}
#Điều chỉnh kích thước line với việc chỉnh size= thương 2 thuộc tính
ggplot(data = economics, aes(x = date, y = pop)) +
geom_line(aes(size = unemploy/pop), color = "#FC4E07")
```


## Tạo multiple time series plots 

```{r}
#Cài đặt tidyr và sử dụng
install.packages("tidyr")
library(tidyr)
```

```{r}
# Để tạo multiple plot bởi 2 biến psavert và uempmed theo dates. Đầu tiên cần định hình lại data sửu dụng tidyr package
library(tidyr)
library(dplyr)
# chọn ra thuộc tính date,psavert, uempmed trong economics tương ứng với kiểu thuộc tính variable, value, date
df <- economics %>%
  select(date, psavert, uempmed) %>%
  gather(key = "variable", value = "value", -date)
head(df, 3)
```

```{r}
# Multiple line plot
# Plot 2 thuộc tính psavert và uempmed theo 2 màu khác nhau tuỳ chọn trong theme tối thiểu không có trục toạ độ
ggplot(df, aes(x = date, y = value)) +
geom_line(aes(color = variable), size = 1) +
scale_color_manual(values = c("#00AFBB", "#E7B800")) +
theme_minimal()

```

```{r}
# plot những vùng phủ
# Plot nhiều vùng chồng chéo lên, do đây biểu đồ dạng heatmap nên ta sử dụng scale_fill_manual, plot 2 vùng chồng chéo theo 2 máu khác nhau
ggplot(df, aes(x = date, y = value)) +
geom_area(aes(color = variable, fill = variable),
alpha = 0.5, position = position_dodge(0.8)) +
scale_color_manual(values = c("#00AFBB", "#E7B800")) +
scale_fill_manual(values = c("#00AFBB", "#E7B800"))

```

 
## Set date axis limits

```{r}
# Base plot with date axis
#Biểu đồ xu hướng  theo ngày
p <- ggplot(data = economics, aes(x = date, y = psavert)) + 
     geom_line(color = "#00AFBB", size = 1)
p
```

```{r}
# Set axis limits c(min, max)
#Thiết lập biểu đồ cột x xuất pháp từ ngày nhỏ nhất nhất là 2002-1-1 và lớn nhất là cho tới hiện tại
min <- as.Date("2002-1-1")
max <- NA
p+ scale_x_date(limits = c(min, max))
```

## Định dạngt date axis labels

```{r}
# Thiết lập theo định dạng tháng/năm cho thuộc tính datetime
p + scale_x_date(date_labels = "%b/%Y")
```

## Add trend smoothed line

```{r}
# Thêm 1 dòng biểu diễn xu hướng của biểu đồ với phương thức loess
p + stat_smooth(
  color = "#FC4E07", fill = "#FC4E07",
  method = "loess"
  )
```

## ggfortify- ggpmisc

- ggfortify là package mở rộng của ggplot2

ggfortify vẽ biểu đồ chuỗi thời gian (plot time series objects)
zoo::zooreg(), xts::xts(), timeSeries::timSeries(), tseries::irts(),
forecast::forecast(), vars:vars().

- ggpmisc package: cung cấp 2 phương pháp cho time series object:

stat_peaks() finds at which x positions local y maxima are located,and

stat_valleys() finds at which x positions local y minima are located.

```{r}
#Cài đặt
install.packages( c("ggfortify", "changepoint", "strucchange",
"ggpmisc") )
```

```{r}
# Load thư viện
library(ggfortify)
library(magrittr) # for piping %>%
# Sử dụng hàm  auplot để khắc hoạ đối tượng chuỗi thời gian 
autoplot(AirPassengers)
```

```{r}
# Phát hiện ra những điểm thay đổi dựa trên trung bình và phương sai trong df AirPassengers
AirPassengers %>%
  changepoint:: cpt.meanvar() %>%  # Identify change points
  autoplot()
```

```{r}
# Phát hiện ra những bước nhảy trong data
strucchange::breakpoints(Nile ~ 1) %>% autoplot()
```

```{r}
# Phát hiện những điểm cao nhất theo y(peaks) và thấp nhất theo y(valleys)
#Những điểm cao nhất tương ứng màu đỏ và thấp nhất tương ứng màu xanh
#Cột x theo thuộc tính datetime là năm, và y theo thuộc tính lynx, những điểm thấp nhất sẽ tạo thành 1 góc 45 độ
library(ggpmisc)
ggplot(lynx, as.numeric = FALSE) + geom_line() +
stat_peaks(colour = "red") +
stat_peaks(geom = "text", colour = "red", vjust = -0.5,
x.label.fmt = "%Y") +
stat_valleys(colour = "blue") +
stat_valleys(geom = "text", colour = "blue", angle = 45,
vjust = 1.5, hjust = 1, x.label.fmt = "%Y")+
ylim(-500, 7300)
```

