“21:32:25, 10 - 03 - 2024”
***

1 Giới thiệu bộ dữ liệu.

1.1 Giới thiệu về tập dữ liệu:

Dữ liệu Amazon 2_Raw là Doanh số bán sản phẩm của Amazon từ đầu năm 2011 đến cuối năm 2014. Bộ dữ liệu về bán hàng trên Amazon này chứa 3204 hàng và 9 cột.

Mô tả cột:

  • Order ID - Mã đơn hàng.

  • Order Date - Ngày đặt hàng.

  • Ship Date - Ngày vận chuyển.

  • Email_ID - Email_ID của người dùng

  • Geography - Vị trí đặt hàng của người dùng.

  • Category - Danh mục sản phẩm

  • Product Name – Tên sản phẩm của Amazon

  • Sales - Doanh số bán sản phẩm Amazon

  • Quantily - có bao nhiêu đơn vị của một sản phẩm cụ thể có sẵn.

  • Profit - Lợi nhuận bán hàng trên Amazon

Gán tên e cho bộ dữ liệu Amazon 2_Raw.

library(DT)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(xlsx)
e <- read.xlsx("F:/R/data1/Amazon 2_Raw.xlsx", sheetIndex= 1, header= T)

names(e) <- c('OrderID','OrderDate','ShipDate','EmailID','Geography','Category','ProductName','Sales','Quantily','Profit')
datatable(e)
  • Bảng trên là bộ dữ liệu e, được chia thành 321 bảng để dễ quan sát hơn, mỗi bảng 10 quan sát, bảng 321 chứa 3 quan sát.

    • Mỗi một quan sát trong bộ dữ liệu là một sản phẩm được bán ra của Amazon trong giai đoạn đầu 2011 đến cuối 2014.

1.2 Quan sát bộ dữ liệu.

Sử dụng câu lệnh skim thuộc package skimr quan sát tổng quan bộ dữ liệu trên:

library(skimr)
skim(e)
Data summary
Name e
Number of rows 3203
Number of columns 10
_______________________
Column type frequency:
character 5
Date 2
numeric 3
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
OrderID 0 1 14 14 0 1611 0
EmailID 0 1 16 31 0 686 0
Geography 0 1 23 41 0 170 0
Category 0 1 3 11 0 17 0
ProductName 0 1 5 109 0 1494 0

Variable type: Date

skim_variable n_missing complete_rate min max median n_unique
OrderDate 0 1 2011-01-07 2014-12-31 2013-07-22 845
ShipDate 0 1 2011-01-09 2015-01-06 2013-07-25 911

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Sales 0 1 226.49 524.88 0.99 19.44 60.84 215.81 13999.96 ▇▁▁▁▁
Quantily 0 1 3.83 2.26 1.00 2.00 3.00 5.00 14.00 ▇▅▁▁▁
Profit 0 1 33.85 174.11 -3399.98 3.85 11.17 33.00 6719.98 ▁▇▁▁▁

Nhận xét:

  • Mã đơn hàng (Order ID) là một chuỗi số, ký tự hoặc kết hợp cả hai, được tạo ra để định danh và theo dõi một đơn hàng cụ thể trong hệ thống đặt hàng của một công ty. Mỗi đơn hàng được gán một mã đơn hàng duy nhất để nó có thể được dễ dàng xác định và quản lý.

    • Amazon không công bố thông tin chi tiết về cách họ tạo và quản lý mã đơn hàng (Order ID). Công ty giữ thông tin này là bí mật và không chia sẻ công khai vì nhiều lý do liên quan đến bảo mật và quyền riêng tư. Thế nên rất để xác định chính xác thành phần trong mã order ID trong bộ dữ liệu.

    • Tuy nhiên, ta có thể phân biệt hai thành phần sau cùng của order ID. Thành phần thứ hai là năm của đơn hàng và thứ ba có thể đại diện cho một số duy nhất hoặc định danh cụ thể của đơn hàng đó trong hệ thống quản lý của Amazon. Số này thường được tạo ra để đảm bảo tính duy nhất của mỗi đơn hàng và giúp quản lý chúng hiệu quả.

  • Nhìn vào order dateship date, ta thấy bộ dữ liệu này thu thập vào giai đoạn năm 2011-2014.

  • Tiếp theo là tứ phân vị; trung bình, lớn nhất và nhỏ nhất của Sales, Quantily, Profit.

  • Đối với Sales:

    • Giá trị trung bình của Sales (mean)226.49, trung tâm dữ liệu (điểm chính giữa) của Sales.

    • Giá trị nhỏ nhất của Sales (p0)0.99, có nghĩa là không còn đơn hàng nào có doanh số bán hàng nhỏ hơn 0.99.

    • Giá trị lớn nhất của Sales (p100)13999.9, có nghĩa là không còn đơn hàng nào có doanh số bán hàng lớn hơn 13999.9.

    • Phân vị p25 : có 25% số quan sát có doanh số bán hàng nhỏ hơn 19.44.

    • Phân vị p50 :Có nghĩa là có 50% số quan sát có doanh số bán hàng nhỏ hơn 60.84 và 50% còn lại lớn hơn.

    • Phân vị p75 : có 75% quan sát có doanh số bán hàng nhỏ hơn 215.81, 25% còn lại thì lớn hơn con số này.

2 Nghiên cứu doanh số bán hàng của Amazon trong giai đoạn 2011 - 2014.

2.1 Biểu đồ mô tả Sales.

library(tidyverse)
## Warning: package 'ggplot2' was built under R version 4.3.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats   1.0.0     ✔ readr     2.1.5
## ✔ ggplot2   3.5.0     ✔ stringr   1.5.1
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(dplyr)
e %>% ggplot(aes(x = Sales)) +
  geom_histogram(binwidth = 500, fill = 'blue', color = 'red')

  • Nhận xét:

    • Mức doanh số bán hàng thấp từ 1500 trở xuống chiếm số lượng lớn. Có thể nói mức doanh số thấp chiếm đa phần.

    • Đồng nghĩa với việc giá trị Sales càng lớn thì số lượng bán ra càng nhỏ.

    • Nhìn chung, Doanh nghiệp nên chú trọng các mặt hàng giá thấp được mua với số lượng nhiều, bên cạnh đó đẩy nhanh quá trình thu hút khách hàng giành cho mặt hàng cao cấp.

2.2 Biểu đồ theo Sales và Category.

e %>% ggplot(aes(x = Sales, fill = Category)) +
  geom_histogram(binwidth = 500)

  • Nhận xét:

    • Trục x của biểu đồ hiển thị các giá trị của biến Sales.

    • Chiều cao của mỗi thanh biểu thị tần suất xuất hiện của các giá trị Sales trong một khoảng giá trị nhất định (được xác định bởi binwidth).

    • Màu sắc của các thanh biểu thị các danh mục khác nhau trong biến Category.

    • So sánh độ cao của các thanh trong cùng một danh mục cho phép bạn xem tần suất xuất hiện của các giá trị Sales trong các danh mục khác nhau.

    • Biểu đồ trên thể hiện mức bán ra của các doanh mục sản phẩm, mỗi một danh mục đều tương ứng với giá trị Sales.

    • Có tất cả 17 danh mục, được chú thích theo thứ tự chữ cái bên cạnh bản đồ.

    +Nhìn vào biểu đồ trên ta thấy được danh mục Accessories được bán chạy nhất, đạt mốc 2500 trên biểu đồ.

2.3 Biểu đồ quan sát Profit.

e$p1 <- case_when(e$Profit <= 50 ~'rất nhỏ', e$Profit >= 50 & e$Profit <= 100 ~ 'vừa', e$Profit >= 100 ~ 'lớn')
e %>% ggplot(aes(x = p1)) +
  geom_bar(fill='purple') + labs(x='Lợi nhuận bán hàng', y= 'số lượng') 

  • Để có thể xem xét dữ liệu trực quan hơn, ta chia nhỏ biến Profit thành 3 nhóm ** rất nhỏ, vừa, lớn** bằng lên case_when và gán tên p1

  • Nhận xét:

    +Ở biến lợi nhuận bán hàng này, nhóm rất nhỏ chiếm phần lớn.

    • Trước đó chúng ta đã có thể dự đoán được lợi nhận bán hàng thuốc nhóm rất nhỏ sẽ chiếm phần lớn. Phần lớn các đơn đặt hàng được bán ra đều có giá trị thấp, thế nên lợi nhận cũng thấp theo.

    • Tuy nhiên, nếu xét tổng thể thì mức doanh thu và lợi nhuận đều rất cao, bởi vì mặc dù giá trị thấp nhưng lại có rất nhiều đơn hàng. Lấy số lượng bù chất lượng.

2.4 Biểu đồ quan sát Profit và Sales.

e %>% ggplot(aes(x= Profit, y= Sales)) + geom_point() +
 xlab('Lợi nhuận') +
ylab('Doanh số')

  • Nhận xét:

    • Nhìn qua biểu đồ, ta thấy sự tăng trưởng của Sales và Profit có sự quan hệ mặt thiết với nhau.

    • Mối tương quan: Biểu đồ cho thấy mối tương quan giữa Lợi nhuận và Doanh số.

    • Mối tương quan dương: Nếu các điểm có xu hướng di chuyển từ dưới lên trên và từ trái sang phải, có thể cho thấy mối tương quan dương giữa hai biến. Điều này có nghĩa là khi Lợi nhuận tăng, Doanh số cũng có xu hướng tăng.

    • Mối tương quan âm: Nếu các điểm có xu hướng di chuyển từ trên xuống dưới và từ trái sang phải, có thể cho thấy mối tương quan âm giữa hai biến. Điều này có nghĩa là khi Lợi nhuận tăng, Doanh số có xu hướng giảm.

    • Không có mối tương quan: Nếu các điểm phân bố ngẫu nhiên trên biểu đồ, có thể cho thấy không có mối tương quan rõ ràng giữa hai biến.

    +Mức độ tập trung:

    +Mật độ cao: Nếu các điểm tập trung dày đặc trong một khu vực, có thể cho thấy mối liên hệ mạnh mẽ giữa hai biến.

    +Mật độ thấp: Nếu các điểm phân bố rải rác trên biểu đồ, có thể cho thấy mối liên hệ yếu hoặc không có mối liên hệ giữa hai biến

2.5 Biểu đồ quan sát lợi nhận bán hàng theo từng năm.

library(ggplot2)
e$s <- year(e$OrderDate)
table (e$s)
## 
## 2011 2012 2013 2014 
##  661  642  801 1099
e %>% group_by(Profit,s) %>% summarise(n=n()) %>% 
  ggplot(aes(x=s,y=n)) + geom_col(fill='pink') +
  geom_text(aes(label=round(n,2)),vjust=2, color='black')
## `summarise()` has grouped output by 'Profit'. You can override using the
## `.groups` argument.

  • Nhận xét:

    • library(ggplot2): Dòng code này tải thư viện ggplot2 cần thiết để tạo biểu đồ. e\(s <- year(e\)OrderDate): Dòng này tạo một cột mới tên s trong dữ liệu e bằng cách trích xuất năm từ cột OrderDate.

    • Bảng tần suất theo năm

    • table(e$s): Dòng này in ra bảng tần suất của các giá trị trong cột s, cho biết số lần xuất hiện của mỗi năm trong dữ liệu. Bảng này hữu ích để kiểm tra sự phân bố dữ liệu theo năm.

    • Nhóm dữ liệu theo Lợi nhuận và Năm

    • e %>% group_by(Profit, s) %>% summarise(n = n()): Dòng này sử dụng dplyr để nhóm dữ liệu theo các cặp Profit (lợi nhuận) và s (năm). Hàm summarise tính tổng số lần xuất hiện (số lượng) của mỗi nhóm, lưu trữ trong biến n. 

    • Tạo biểu đồ

    • ggplot(aes(x = s, y = n)): Dòng này thiết lập nền tảng cho biểu đồ bằng cách xác định trục hoành (x) là năm (s) và trục tung (y) là số lượng (n).

    • geom_col(fill=‘pink’): Dòng này tạo biểu đồ hình cột, với màu sắc được tô là hồng (fill=‘pink’).

    • geom_text(aes(label = round(n, 2)), vjust = 2, color = ‘black’): Dòng này thêm nhãn cho các cột, hiển thị giá trị n được làm tròn đến hai chữ số thập phân (round(n, 2)). Vị trí của nhãn được điều chỉnh theo trục tung (vjust = 2) và màu sắc nhãn là đen (color = ‘black’).

    • Giải thích biểu đồ

    • Biểu đồ này thể hiện số lượng theo năm (n) được phân nhóm theo lợi nhuận (Profit). Mỗi cột đại diện cho một cặp lợi nhuận-năm, với chiều cao của cột biểu thị số lượng đơn vị dữ liệu có mức lợi nhuận đó trong năm tương ứng. Nhãn trên mỗi cột hiển thị giá trị số lượng đã được làm tròn.

    • Nhận xét biểu đồ

    • Biểu đồ giúp bạn:

    • Phân tích sự phân bố của lợi nhuận theo năm: Bạn có thể quan sát xem lợi nhuận có phân bố đồng đều theo các năm hay tập trung chủ yếu vào một số năm nhất định. So sánh chiều cao của các cột cùng một lợi nhuận giữa các năm khác nhau.

    • Xác định các năm có hoạt động nổi bật: Những năm có các cột cao bất thường cho một mức lợi nhuận cụ thể có thể là những năm có hoạt động kinh doanh đáng chú ý.

    • Kiểm tra sự tương quan giữa lợi nhuận và năm: Nếu có sự phụ thuộc rõ ràng giữa lợi nhuận và năm (ví dụ: lợi nhuận luôn cao nhất vào một năm cụ thể), biểu đồ này có thể giúp bạn xác định điều đó.

2.6 Biểu đồ quan sát doanh số bán hàng theo tháng.

e$q <- month(e$OrderDate)
table(e$q)
## 
##   1   2   3   4   5   6   7   8   9  10  11  12 
## 108  99 202 192 210 203 224 254 445 299 442 525
e %>% group_by(Sales,q) %>% summarise(n=n()) %>%
  ggplot(aes(x=q,y=n)) + geom_col(fill='lightgreen') +geom_text(aes(label=round(n,2) , vjust=2, color='black')) + labs(x='tháng',y ='Doanh số bán hàng')
## `summarise()` has grouped output by 'Sales'. You can override using the
## `.groups` argument.

  • Dòng code e\(q <- month(e\)OrderDate) tạo ra một cột mới tên q trong dữ liệu e. Cột này lưu trữ số tháng (1-12) được trích xuất từ cột OrderDate.

    • Bảng tần suất theo tháng:

    • Dòng code table(e$q) in ra bảng tần suất cho thấy số lần xuất hiện của mỗi tháng (1-12) trong dữ liệu.

    • Bảng này giúp bạn hiểu doanh số bán hàng phân bố như thế nào trong năm.

    • Nhóm dữ liệu theo Doanh số và Tháng:

    • Dòng code e %>% group_by(Sales, q) %>% summarise(n = n()) sử dụng dplyr để nhóm dữ liệu theo cặp Sales (doanh số) và q (tháng). Hàm summarise sau đó tính số lần xuất hiện (số lượng) cho mỗi nhóm, lưu trữ số lượng trong biến n. 

    • Tạo biểu đồ:

    • Dòng code ggplot(aes(x = q, y = n)) thiết lập nền tảng cho biểu đồ bằng cách xác định trục hoành (x) là tháng (q) và trục tung (y) là số lượng (n).

    • Dòng code geom_col(fill=‘lightgreen’) tạo biểu đồ dạng hình cột với màu tô là xanh lá nhạt (fill=‘lightgreen’).

    • Dòng code geom_text(aes(label = round(n, 2), vjust = 2, color = ‘black’)) thêm nhãn cho các cột, hiển thị giá trị n được làm tròn đến hai chữ số thập phân (round(n, 2)). Vị trí của nhãn được điều chỉnh theo trục tung (vjust = 2) và màu sắc nhãn là đen (color = ‘black’).

    • Nhận xét biểu đồ:

    • Biểu đồ này thể hiện sự phân bố doanh số bán hàng theo tháng. Mỗi cột đại diện cho một tháng, với chiều cao của cột biểu thị số lượng đơn vị dữ liệu (doanh số bán hàng) trong tháng tương ứng. Nhãn trên mỗi cột hiển thị giá trị số lượng đã được làm tròn.

    • Từ biểu đồ này, bạn có thể:

    • Phân tích sự phân bố doanh số theo tháng: Quan sát xem doanh số có phân bố đồng đều theo các tháng hay tập trung chủ yếu vào một số tháng nhất định. So sánh chiều cao của các cột cùng một mức doanh số giữa các tháng khác nhau.

    • Xác định các tháng có hoạt động nổi bật: Những tháng có các cột cao bất thường cho một mức doanh số cụ thể có thể là những tháng có hoạt động kinh doanh đáng chú ý.

    • Kiểm tra sự tương quan giữa doanh số và tháng: Nếu có sự phụ thuộc rõ ràng giữa doanh số và tháng (ví dụ: doanh số luôn cao nhất vào một tháng cụ thể), biểu đồ này có thể giúp bạn xác định điều đó.

2.7 Biểu đồ quan sát lượng sản phẩm sẵng sàn cung ứng.

e %>% ggplot(aes(x=Quantily))+ geom_bar(fill='lightblue') 

2.8 Quan sát Sales, Profit, Quantily.

e %>% ggplot(aes(x=Sales, y= Quantily, color=Profit)) +geom_point()

Biểu đồ này được tạo bởi đoạn mã R sử dụng gói ggplot2 để thể hiện mối quan hệ giữa doanh số (Sales), phân vị (Quantily) và lợi nhuận (Profit).

Phân tích các yếu tố:

  • Trục hoành (x): Thể hiện doanh số (Sales).

  • Trục tung (y): Thể hiện phân vị (Quantily).

  • Điểm (geom_point()): Biểu thị từng cặp dữ liệu (doanh số, phân vị) với màu sắc được mã hóa theo lợi nhuận (Profit).

  • Màu sắc (color=Profit): Các điểm được tô màu theo mức độ lợi nhuận.

Nhận xét:

  • Biểu đồ giúp so sánh mức độ lợi nhuận giữa các phân vị ở cùng một mức doanh số.

  • Biểu đồ có thể giúp xác định phân vị nào có lợi nhuận cao nhất/thấp nhất cho một mức doanh số cụ thể.

2.9 Quan sát biểu đồ động.

library(gganimate)
## Warning: package 'gganimate' was built under R version 4.3.3
library(magick)
## Warning: package 'magick' was built under R version 4.3.3
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
e %>% ggplot(aes(x = Sales, y = Profit, color = Quantily)) +
  geom_line() +
  geom_point(size=2) +
  transition_reveal(Sales, keep_last = F)

Biểu đồ động này được tạo bởi đoạn mã R sử dụng gói ggplot2 và hiệu ứng chuyển tiếp transition_reveal để thể hiện mối quan hệ giữa doanh số (Sales), lợi nhuận (Profit) và phân vị (Quantily).

Các yếu tố:

+,Trục hoành (x): Thể hiện doanh số (Sales).

  • Trục tung (y): Thể hiện lợi nhuận (Profit).

  • Đường kẻ (geom_line()): Thể hiện xu hướng thay đổi lợi nhuận theo doanh số, được phân biệt theo phân vị (màu sắc).

  • Điểm (geom_point(size=2)): Biểu thị từng cặp dữ liệu (doanh số, lợi nhuận) với kích thước 2.

  • Màu sắc (color = Quantily): Các đường kẻ và điểm được tô màu theo phân vị (có thể là tứ phân vị hoặc phân vị khác).

  • Hiệu ứng chuyển tiếp (transition_reveal(Sales, keep_last = F)): Dữ liệu được tiết lộ dần dần theo thứ tự tăng dần của doanh số.

Nhận xét:

  • Biểu đồ giúp phân tích mối quan hệ giữa doanh số và lợi nhuận theo các phân vị khác nhau.

  • Hiệu ứng chuyển tiếp giúp tập trung vào các điểm dữ liệu và đường kẻ có doanh số cao hơn.

  • Bạn có thể phân tích xu hướng của lợi nhuận theo doanh số, so sánh lợi nhuận giữa các phân vị, và xác định phân vị có lợi nhuận cao nhất/thấp nhất.

2.10 VẼ biểu đồ động bằng tứ phân vị của Sales.

e %>% group_by(Quantily) %>% summarise(d=cut(e$Quantily,3,label= c('nhỏ','vừa','lớn'))) %>% 
  ggplot(aes(x=Quantily,y=d)) +
  geom_col() +
   labs(x='Quantily',y='.')
## Warning: Returning more (or less) than 1 row per `summarise()` group was deprecated in
## dplyr 1.1.0.
## ℹ Please use `reframe()` instead.
## ℹ When switching from `summarise()` to `reframe()`, remember that `reframe()`
##   always returns an ungrouped data frame and adjust accordingly.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## `summarise()` has grouped output by 'Quantily'. You can override using the
## `.groups` argument.

2.11 Vẽ biểu đồ về OrderID.

e %>%
  ggplot(aes(x=OrderID)) + geom_bar(fill='violet') + labs(x= 'ID đơn hàng',y='số lượng')

Biểu đồ được tạo bởi đoạn mã R này sử dụng gói ggplot2 để tạo biểu đồ thanh (bar chart) thể hiện số lượng đơn hàng (số lượng) theo mã đơn hàng (OrderID).

Phân tích các yếu tố:

  • Trục hoành (x): Thể hiện mã đơn hàng (OrderID).

  • Trục tung (y): Thể hiện số lượng đơn hàng (số lượng).

  • Thanh (geom_bar()): Mỗi thanh thể hiện số lượng đơn hàng cho một mã đơn hàng cụ thể.

  • Màu sắc (fill=‘violet’): Tô màu tím cho tất cả các thanh.

Nhận xét:

  • Biểu đồ này cung cấp thông tin về số lượng đơn hàng cho từng mã đơn hàng.

  • Biểu đồ thanh là lựa chọn phù hợp để thể hiện dữ liệu phân loại như mã đơn hàng.

  • Việc sử dụng màu tím cho tất cả các thanh có thể giảm khả năng phân biệt giữa các thanh.

2.12 mối quan hệ giữa địa chỉ email (EmailID) và mã đơn hàng (OrderID).

e %>% ggplot(aes(x=EmailID, y= OrderID)) + geom_point()

Biểu đồ được tạo bởi đoạn mã R này sử dụng gói ggplot2 để tạo biểu đồ điểm (scatter plot) thể hiện mối quan hệ giữa địa chỉ email (EmailID) và mã đơn hàng (OrderID).

Phân tích các yếu tố:

  • Trục hoành (x): Thể hiện địa chỉ email (EmailID).

  • Trục tung (y): Thể hiện mã đơn hàng (OrderID).

  • Các điểm (geom_point()): Mỗi điểm đại diện cho một kết hợp giữa địa chỉ email và mã đơn hàng.

2.13 ** Biểu đồ thể hiện mối quan hệ giữa vùng địa lý (Geography) và mã đơn hàng (OrderID).**

e %>% ggplot(aes(x=Geography, y= OrderID)) + geom_point()

Biểu đồ được tạo bởi đoạn mã R này sử dụng gói ggplot2 để tạo biểu đồ điểm (scatter plot). Biểu đồ thể hiện Biểu đồ được tạo bởi đoạn mã R này sử dụng gói ggplot2 để tạo biểu đồ điểm (scatter plot). Biểu đồ thể hiện mối quan hệ giữa vùng địa lý (Geography) và mã đơn hàng (OrderID).

Phân tích các yếu tố:

  • Trục hoành (x): Thể hiện các vùng địa lý (Geography).

  • Trục tung (y): Thể hiện mã đơn hàng (OrderID).

  • Các điểm (geom_point()): Mỗi điểm đại diện cho một kết hợp giữa vùng địa lý và mã đơn hàng..

2.14

e %>% ggplot(aes(x=Geography, y= Category)) + geom_point()

Biểu đồ hiển thị các điểm dữ liệu được phân bố trên mặt phẳng với hai trục:

  • Trục hoành (x): Thể hiện vùng địa lý.

  • Trục tung (y): Thể hiện loại hàng hóa.

  • Vị trí của mỗi điểm dữ liệu thể hiện sự kết hợp của vùng địa lý và loại hàng hóa.

  • Kích thước và màu sắc của các điểm dữ liệu có thể được sử dụng để biểu thị thêm thông tin (như doanh số bán hàng, số lượng khách hàng, v.v.).

2.15

e %>% group_by(Category) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = Category)) +
    geom_col(Category = 'black') +
    coord_polar('y') +
    geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
    theme_void()
## Warning in geom_col(Category = "black"): Ignoring unknown parameters:
## `Category`

Phân tích các yếu tố:

  • Trục hoành (góc): Không hiển thị nhãn (x = ’’), do dữ liệu được phân bố theo các nhóm Category.

  • Trục tung (độ dài): Thể hiện số lượng quan sát (n) cho mỗi nhóm Category.

  • Màu sắc: Tô theo biến Category (fill = Category).

  • Đường kẻ: Tất cả các đường kẻ có màu đen (geom_col(Category = ‘black’)).

  • Hệ thống tọa độ cực: Biểu đồ sử dụng hệ tọa độ cực (coord_polar(‘y’)).

  • Nhãn dữ liệu: Hiển thị số lượng quan sát (n) bên ngoài biểu đồ (geom_text).

  • Chủ đề nền trống: Loại bỏ các yếu tố mặc định của biểu đồ (theme_void()).

Nhận xét:

  • Biểu đồ này hữu ích để so sánh tương đối số lượng quan sát giữa các nhóm Category khác nhau.

  • Các nhóm Category có số lượng quan sát cao sẽ tạo thành các hình tam giác lớn hơn trên biểu đồ.

  • Màu sắc của mỗi hình tam giác giúp phân biệt các nhóm Category.

  • Nhãn dữ liệu cung cấp thông tin chi tiết về số lượng quan sát cho từng nhóm.

2.16 Biểu đồ Geography.

e %>% group_by(Geography) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = Geography)) +
    geom_col(Geography = 'black') +
    coord_polar('y') +
    geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
    theme_void()
## Warning in geom_col(Geography = "black"): Ignoring unknown parameters:
## `Geography`

Phân tích và nhận xét biểu đồ

  • Biểu đồ bạn tạo ra sử dụng gói ggplot2 để thể hiện số lượng quan sát theo khu vực địa lý (Geography) trong tập dữ liệu e. Biểu đồ dạng đa giác cực (radar chart) với các trục sau:

  • Trục hoành (góc): Không hiển thị nhãn (x = ’’), do dữ liệu được phân bố theo các nhóm khu vực địa lý.

  • Trục tung (độ dài): Thể hiện số lượng quan sát (n) cho mỗi khu vực địa lý.

  • Màu sắc: Tô theo biến Geography (fill = Geography).

  • Đường kẻ: Tất cả các đường kẻ có màu đen (geom_col(Geography = ‘black’)).

Các yếu tố khác:

  • Hệ thống tọa độ cực (coord_polar(‘y’)): Biểu đồ sử dụng hệ tọa độ cực, với các trục tỏa ra từ tâm.

  • Nhãn dữ liệu (geom_text): Thêm nhãn dữ liệu hiển thị số lượng quan sát (n) bên ngoài biểu đồ, được căn chỉnh theo vị trí chồng chất (position_stack(vjust = .5)).

  • Chủ đề nền trống (theme_void()): Loại bỏ các yếu tố mặc định của biểu đồ, chỉ giữ lại các thành phần cần thiết.

Nhận xét:

  • Biểu đồ này hữu ích để so sánh tương đối số lượng quan sát giữa các khu vực địa lý khác nhau.

  • Các khu vực có số lượng quan sát cao sẽ tạo thành các hình tam giác lớn hơn trên biểu đồ.

  • Màu sắc của mỗi hình tam giác giúp phân biệt các khu vực địa lý.

  • Nhãn dữ liệu hiển thị bên ngoài biểu đồ cung cấp thông tin chi tiết về số lượng quan sát cho từng khu vực.

2.17 Vẽ biểu đồ dạng density kết hợp 2 biến Sales và Profit.**

ggplot(data = e) +
  geom_density(aes(x = Sales, fill = "Doanh số"), color = "lightblue") +
  geom_density(aes(x = Profit, fill = "Lợi nhuận"), color = "lightgreen") +
  labs(x = "Giá trị", y = "Mật độ")

  1. Hình dạng phân bố:

+Phân bố của Sales có thể là đối xứng hoặc léch (tùy thuộc vào dữ liệu cụ thể).

+Phân bố của Profit cũng có thể là đối xứng hoặc lệch, và có thể khác với phân bố của Sales.

  1. Mức độ tập trung:

+Mức độ tập trung của Sales và Profit được thể hiện qua độ cao của đường cong mật độ.

+Biểu đồ mật độ cao cho thấy dữ liệu tập trung quanh một giá trị nhất định.

+Biểu đồ mật độ thấp cho thấy dữ liệu phân tán rộng hơn.

  1. So sánh hai biến:

+So sánh vị trí đỉnh của hai đường cong mật độ để xem biến nào có giá trị trung bình cao hơn.

+So sánh độ rộng của hai đường cong mật độ để xem biến nào có độ biến thiên cao hơn.

  1. Mối quan hệ giữa hai biến:

+Biểu đồ mật độ có thể giúp bạn xác định mối quan hệ giữa Sales và Profit.

+Nếu hai đường cong mật độ chồng lên nhau, có thể có mối tương quan cao giữa hai biến.

+Nếu hai đường cong mật độ tách biệt, có thể có ít hoặc không có mối tương quan giữa hai biến.

2.18

e %>% ggplot(aes(x = OrderDate, y = ShipDate, color = Category)) +
  geom_line() +
  geom_point(size=2) +
  transition_reveal(Sales, keep_last = F)

  • Biểu đồ động được tạo ra bởi đoạn mã R sử dụng gói ggplot2 và hiệu ứng chuyển tiếp transition_reveal để thể hiện mối quan hệ giữa ngày đặt hàng (OrderDate), ngày giao hàng (ShipDate), loại hàng hóa (Category) và doanh số bán hàng (Sales). Biểu đồ này cung cấp nhiều thông tin hữu ích:
  1. Xu hướng:
  • Biểu đồ thể hiện xu hướng chung của thời gian giao hàng (ShipDate) tăng dần theo thời gian đặt hàng (OrderDate).

  • Xu hướng này có thể khác nhau cho từng loại hàng hóa (Category), được phân biệt bởi màu sắc của các đường kẻ và điểm.

  1. So sánh:
  • Biểu đồ cho phép so sánh thời gian giao hàng giữa các loại hàng hóa khác nhau.

  • Bạn có thể dễ dàng xác định loại hàng hóa nào có thời gian giao hàng trung bình cao nhất hoặc thấp nhất.

  1. Biến động:
  • Biểu đồ thể hiện biến động của thời gian giao hàng trong từng loại hàng hóa.

  • Biến động này có thể được đánh giá bằng cách quan sát độ dốc của các đường kẻ và vị trí của các điểm dữ liệu.

  1. Hiệu ứng chuyển tiếp:
  • Hiệu ứng transition_reveal giúp tập trung vào các điểm dữ liệu và đường kẻ có doanh số bán hàng cao hơn.

  • Điều này giúp người xem dễ dàng nhận diện những sản phẩm có hiệu quả kinh doanh tốt nhất. Nhận xét chung:

  • Biểu đồ động này là một công cụ hữu ích để phân tích mối quan hệ giữa các biến OrderDate, ShipDate, Category và Sales.

  • Biểu đồ cung cấp thông tin về xu hướng, so sánh, biến động và doanh số bán hàng.

  • Hiệu ứng chuyển tiếp giúp tăng cường khả năng trực quan và tập trung vào thông tin quan trọng.

2.19

e %>% ggplot(aes(x = OrderDate, y = Profit, color = Category)) +
  geom_line() +
  geom_point(size=2) +
  transition_reveal(Sales, keep_last = F)

  • Nhận xét:

    1 Biểu đồ theo thời gian:

    • Trục X thể hiện thời gian (OrderDate).

    • Trục Y thể hiện lợi nhuận (Profit) hoặc doanh số (Sales) tùy theo trường hợp.

    1. Phân loại theo nhóm:
    • Biểu đồ sử dụng màu sắc để phân biệt dữ liệu theo nhóm (Category).

    • Cho phép so sánh hiệu suất của các nhóm khác nhau theo thời gian.

    1. Hiển thị chi tiết:
    • Các điểm dữ liệu (geom_point) thể hiện biến động chi tiết của lợi nhuận/doanh số tại từng thời điểm.

    • Giúp quan sát các biến động đột biến hoặc giảm mạnh.

    1. Hiệu ứng hoạt ảnh (tùy chọn):
    • Tùy chọn transition_reveal (nếu được kích hoạt) tạo hiệu ứng hoạt ảnh hiển thị dữ liệu theo thời gian.

    • Giúp theo dõi các mẫu và xu hướng dễ dàng hơn.

2.20

e %>% ggplot(aes(x = OrderDate, y = Sales, color = Category)) +
  geom_line() +
  geom_point(size=2) +
  transition_reveal(Sales, keep_last = F)

  • Nhận xét:

    • Biểu đồ này có thể giúp bạn phân tích xu hướng theo thời gian của doanh số bán hàng theo các phân loại (Category) khác nhau.

    • Xu hướng: Biểu đồ đường (geom_line) cho thấy xu hướng tổng thể của doanh số bán hàng theo thời gian (OrderDate) cho mỗi phân loại. Bạn có thể quan sát xem doanh số tăng, giảm hay ổn định theo thời gian.

    • Sự khác biệt giữa các phân loại: Màu sắc khác nhau giúp phân biệt doanh số theo từng phân loại. Do đó, bạn có thể dễ dàng so sánh xem hiệu suất bán hàng của các phân loại khác nhau như thế nào theo thời gian.

    • Biến động chi tiết: Các điểm dữ liệu (geom_point) cho phép bạn xem xét các biến động chi tiết của doanh số tại từng thời điểm cụ thể. Bạn có thể thấy có những thời điểm doanh số tăng đột biến hoặc giảm mạnh đối với một hoặc nhiều phân loại.

    • Hiệu ứng hoạt ảnh (tùy chọn): Tùy chọn transition_reveal (nếu được bật) sẽ tạo hiệu ứng hoạt ảnh để hiển thị dữ liệu theo thời gian. Điều này có thể hữu ích để trực quan hóa thứ tự xuất hiện của dữ liệu và theo dõi các mẫu theo thời gian

