1 Giới thiệu bộ dữ liệu supermarket_sales-sheet1.csv:

1.1 Mô tả bộ dữ liệu :

Sự phát triển của các siêu thị trong các thành phố đông dân đang tăng lên và cạnh tranh thị trường cũng cao. Tập dữ liệu này là một phần của lịch sử bán hàng của một công ty siêu thị đã được ghi lại trong 3 chi nhánh khác nhau trong suốt 3 tháng. Các phương pháp phân tích dữ liệu dự đoán dễ dàng áp dụng với tập dữ liệu này.

1.2 Thông tin cơ bản

  • Số lượng dữ liệu: Bộ dữ liệu thường chứa khoảng 1000 dòng (bản ghi) và 17 cột (biến).

  • Thuộc tính (biến):

    • Invoice.ID: Số hóa đơn được tạo bởi máy tính để nhận dạng hóa đơn bán hàng

    • Branch: Chi nhánh của siêu thị (có 3 chi nhánh được xác định bằng A, B và C).

    • City: Vị trí của các siêu thị

    • Customer.type: Loại khách hàng, ghi lại bởi “Members” cho khách hàng sử dụng thẻ thành viên và “Normal” cho khách hàng không có thẻ thành viên.

    • Gender: Loại giới tính của khách hàng

    • Product.line: Nhóm phân loại các mặt hàng chung - Phụ kiện điện tử, Phụ kiện thời trang, Thực phẩm và đồ uống, Sức khỏe và sắc đẹp, Đời sống gia đình, Thể thao và du lịch

    • Unit.price: Giá của mỗi sản phẩm tính bằng $

    • Quantity: Số lượng sản phẩm mà khách hàng đã mua

    • Tax.5: Phí thuế 5% cho khách hàng mua hàng

    • Total: Tổng giá bao gồm thuế

    • Date: Ngày mua hàng (Ghi chú từ tháng 1 năm 2019 đến tháng 3 năm 2019)

    • Time: Thời gian mua hàng (từ 10 giờ sáng đến 9 giờ tối)

    • Payment: Phương thức thanh toán được sử dụng bởi khách hàng (có 3 phương pháp có sẵn - Tiền mặt, Thẻ tín dụng và Ví điện tử)

    • COGS: Chi phí hàng hóa bán ra

    • Gross.margin.percentage: Tỷ lệ lợi nhuận gộp

    • Gross.income: Thu nhập gộp

    • Rating: Đánh giá phân loại khách hàng về trải nghiệm mua sắm tổng thể của họ (trên thang điểm từ 1 đến 10)

1.3 Cài và Load bộ dữ liệu vào R

library(csv)
## Warning: package 'csv' was built under R version 4.3.3
a <- read.csv("D:/Hà/supermarket_sales - Sheet1.csv", header= T) 

2 Vẽ Đồ Thị Dạng Bar Chart

2.1 Biểu đồ 1: biểu đồ mật độ của điểm đánh giá (Rating) dựa trên các chi nhánh khác nhau

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
a %>% ggplot(aes(x = Rating, fill = Branch)) +
  geom_density()

Giải thích câu lệnh:

  • %>%: Toán tử ống được sử dụng để chuyển kết quả từ a sang hàm ggplot().

  • ggplot(aes(x = Rating, fill = Branch)): Đây là phần cơ bản của biểu đồ ggplot. Nó thiết lập dữ liệu và ánh xạ các biến vào các thuộc tính của biểu đồ. Trong trường hợp này, x = Rating ánh xạ điểm đánh giá vào trục x, và fill = Branch ánh xạ các chi nhánh vào màu sắc của biểu đồ.

  • geom_density(): Hàm này thêm một layer để vẽ biểu đồ mật độ. Trong trường hợp này, mỗi chi nhánh sẽ có một đường mật độ riêng biểu diễn phân phối của điểm đánh giá cho mỗi chi nhánh.

Kết quả:

Biểu đồ hiển thị hai đường cong mật độ, một cho mỗi chi nhánh (Branch). Đường cong mật độ cho thấy phân bố của các giá trị Rating cho từng chi nhánh.

2.2 Biểu đồ 2: biểu đồ mật độ của điểm đánh giá (Rating) dựa trên các chi nhánh khác nhau, với mỗi chi nhánh được hiển thị trong các đồ thị con riêng biệt.

a %>% ggplot(aes(x = Rating)) +
  geom_density(fill = 'skyblue') +
  facet_wrap(~Branch)

Giải thích câu lệnh:

  • ggplot(aes(x = Rating)): Đây là phần cơ bản của biểu đồ ggplot. Nó thiết lập dữ liệu và ánh xạ các biến vào các thuộc tính của biểu đồ. Trong trường hợp này, x = Rating ánh xạ điểm đánh giá vào trục x.

  • geom_density(fill = ‘skyblue’): Hàm này thêm một layer để vẽ biểu đồ mật độ. Trong trường hợp này, màu nền của đường mật độ được thiết lập thành ‘skyblue’.

  • facet_wrap(~Branch): Hàm này tạo ra các đồ thị con dựa trên biến Branch. Cụ thể, nó tạo ra một biểu đồ mật độ cho mỗi giá trị duy nhất của biến Branch, với mỗi biểu đồ được hiển thị trong các ô riêng biệt.

Kết quả:

  • Biểu đồ bao gồm:

    • Một biểu đồ mật độ cho mỗi giá trị của biến Branch.

    • Trục hoành hiển thị giá trị của biến Rating.

    • Trục tung hiển thị mật độ xác suất.

    • Biểu đồ được tô màu bằng màu ‘skyblue’.

2.3 Biểu đồ 3: biểu đồ cột thể hiện số lượng này cho mỗi thành phố, cùng với số lượng được hiển thị trên mỗi cột.

a %>% group_by(City) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = City)) +
    geom_col() +
    geom_text(aes(label = n),position = position_stack(vjust = 1))

Giải thích câu lệnh:

  • group_by(City) %>% summarise(n = n()): Trước tiên, dữ liệu được nhóm lại theo thành phố (City) và sau đó tính tổng số lượng các mẫu trong mỗi nhóm (số lượng thành phố). Kết quả là một bảng dữ liệu mới với hai cột: thành phố (City) và số lượng (n).

  • **ggplot(aes(x = ’‘, y = n, fill = City)):** Đây là phần cơ bản của biểu đồ ggplot. Nó thiết lập dữ liệu và ánh xạ các biến vào các thuộc tính của biểu đồ. Trong trường hợp này, xác định một trục x trống (’’) để tạo ra các cột độc lập nhau, y là số lượng (n) và fill là thành phố (City).

  • geom_col(): Hàm này thêm một layer để vẽ biểu đồ cột.

  • geom_text(aes(label = n), position = position_stack(vjust = 1)): Hàm này thêm văn bản vào mỗi cột, với label là số lượng (n) và vị trí được điều chỉnh để đặt văn bản trên cột.

Kết quả:

  • Biểu đồ bao gồm:

    • Một cột cho mỗi giá trị của biến City.

    • Chiều cao của mỗi cột biểu thị số lượng bản ghi trong nhóm tương ứng.

    • Biểu đồ được tô màu theo biến City.

    • Giá trị n được hiển thị trên đỉnh của mỗi cột.

2.4 Biểu đồ 4: biểu đồ cột tròn dựa trên số lượng thành phố, trong đó mỗi cột biểu diễn một thành phố, và chiều cao của cột được xác định bởi số lượng (n).

a %>% group_by(City) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = City)) +
    geom_col() +
    coord_polar('y')

Giải thích câu lệnh:

  • group_by(City) %>% summarise(n = n()): Tính tổng số lượng các thành phố (City) trong tập dữ liệu và lưu kết quả vào một bảng dữ liệu mới với hai cột: thành phố (City) và số lượng (n).

  • **ggplot(aes(x = ’‘, y = n, fill = City)):** Thiết lập dữ liệu và ánh xạ các biến vào các thuộc tính của biểu đồ. Trong trường hợp này, xác định trục x trống (’’) để tạo ra các cột độc lập nhau, y là số lượng (n), và fill là thành phố (City).

  • geom_col(): Thêm một layer để vẽ biểu đồ cột.

  • coord_polar(‘y’): Chuyển đổi biểu đồ thành dạng cột tròn, với chiều cao của cột được xác định bởi giá trị trên trục y (n).

Kết quả:

  • Biểu đồ bao gồm:

    • Một vòng tròn cho mỗi giá trị của biến City.

    • Diện tích của mỗi vòng tròn biểu thị số lượng bản ghi trong nhóm tương ứng.

    • Biểu đồ được tô màu theo biến City.

2.5 Biểu đồ 5: biểu đồ cột tròn, biểu diễn số lượng các thành phố (City) khác nhau. Các cột được tô màu theo từng thành phố, và có chữ số đếm của mỗi thành phố được hiển thị trên biểu đồ.

a %>% group_by(City) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = City)) +
    geom_col(color = 'black') +
    coord_polar('y') +
    geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
    theme_void()

Giải thích câu lệnh:

  • **ggplot(aes(x = ’‘, y = n, fill = City)):** Thiết lập dữ liệu và ánh xạ các biến vào các thuộc tính của biểu đồ. Trong trường hợp này, xác định trục x trống (’’) để tạo ra các cột độc lập nhau, y là số lượng (n), và fill là thành phố (City).

  • geom_col(color = ‘black’): Thêm một layer để vẽ biểu đồ cột và tô màu cột bằng fill, với màu viền đen (color = ‘black’).

  • coord_polar(‘y’): Chuyển đổi biểu đồ thành dạng cột tròn, với chiều cao của cột được xác định bởi giá trị trên trục y (n).

  • geom_text(aes(x = 1.3, label = n), position = position_stack(vjust = .5)): Thêm văn bản vào biểu đồ với giá trị label là số lượng (n), và vị trí xác định bằng x = 1.3. position_stack(vjust = .5) giúp điều chỉnh vị trí của văn bản trên cột.

  • theme_void(): Loại bỏ các phần bên ngoài biểu đồ để tạo ra một biểu đồ trắng đơn giản.

Kết quả:

  • Biểu đồ bao gồm:

    • Ba vòng tròn (hoặc số lượng theo nhóm trong dữ liệu a) được tô màu theo City.

    • Mỗi vòng tròn có viền màu đen.

    • Giá trị n (số lượng bản ghi) được hiển thị bên ngoài mỗi vòng tròn với màu đen, cách trục hoành 1.3 đơn vị.

    • Biểu đồ nền trong suốt (không có khung nền hoặc trục chú thích).

2.6 Biểu đồ 6: biểu đồ scatter plot biểu diễn mối quan hệ giữa giá của sản phẩm đơn vị và dòng sản phẩm

a %>% ggplot(aes(x = Unit.price, y = Product.line)) +
  geom_point() +
  xlab('Giá của sản phẩm') + 
  ylab('Dòng sản phẩm')

Giải thích câu lệnh:

  • ggplot(aes(x = Unit.price, y = Product.line)): Đây là phần cơ bản của biểu đồ ggplot. Nó thiết lập dữ liệu và ánh xạ các biến vào các thuộc tính của biểu đồ. Trong trường hợp này, x = Unit.price ánh xạ giá của sản phẩm đơn vị vào trục x, và y = Product.line ánh xạ dòng sản phẩm vào trục y.

  • geom_point(): Thêm một layer để vẽ biểu đồ scatter plot với các điểm dữ liệu.

  • xlab(‘Giá của sản phẩm’)ylab(‘Dòng sản phẩm’): Thiết lập nhãn cho trục x và trục y tương ứng với “Giá của sản phẩm” và “Dòng sản phẩm”.

Kết quả:

  • Biểu đồ bao gồm:

    • Một tập hợp các điểm, mỗi điểm đại diện cho một sản phẩm.

    • Trục hoành hiển thị giá của sản phẩm.

    • Trục tung hiển thị dòng sản phẩm.

    • Nhãn cho trục hoành và trục tung.

2.7 Biểu đồ 7: biểu đồ scatter plot biểu diễn mối quan hệ giữa giá của sản phẩm đơn vị và dòng sản phẩm, với màu sắc của từng điểm dữ liệu được phân biệt theo chi nhánh (Branch).

a %>% ggplot(aes(x = Unit.price, y = Product.line, color = Branch)) +
  geom_point()

Giải thích câu lệnh:

  • ggplot(aes(x = Unit.price, y = Product.line, color = Branch)): Đây là phần cơ bản của biểu đồ ggplot. Nó thiết lập dữ liệu và ánh xạ các biến vào các thuộc tính của biểu đồ. Trong trường hợp này, x = Unit.price ánh xạ giá của sản phẩm đơn vị vào trục x, y = Product.line ánh xạ dòng sản phẩm vào trục y, và color = Branch ánh xạ chi nhánh vào màu sắc của các điểm dữ liệu.

  • geom_point(): Thêm một layer để vẽ biểu đồ scatter plot với các điểm dữ liệu. Các điểm sẽ có màu sắc khác nhau tương ứng với từng chi nhánh.

Kết quả:

  • Biểu đồ bao gồm:

    • Một tập hợp các điểm, mỗi điểm đại diện cho một sản phẩm.

    • Trục hoành hiển thị giá của sản phẩm.

    • Trục tung hiển thị dòng sản phẩm.

    • Các điểm được tô màu theo biến Branch.

2.8 Biểu đồ 8: biểu đồ scatter plot biểu diễn mối quan hệ giữa giá của sản phẩm đơn vị và dòng sản phẩm, với các điểm dữ liệu được phân biệt theo hình dạng (shape) tương ứng với từng chi nhánh

a %>% ggplot(aes(x = Unit.price, y = Product.line, shape = Branch)) +
  geom_point()

Giải thích câu lệnh:

  • ggplot(aes(x = Unit.price, y = Product.line, shape = Branch)): Đây là phần cơ bản của biểu đồ ggplot. Nó thiết lập dữ liệu và ánh xạ các biến vào các thuộc tính của biểu đồ. Trong trường hợp này, x = Unit.price ánh xạ giá của sản phẩm đơn vị vào trục x, y = Product.line ánh xạ dòng sản phẩm vào trục y, và shape = Branch ánh xạ chi nhánh vào hình dạng (shape) của các điểm dữ liệu.

  • geom_point(): Thêm một layer để vẽ biểu đồ scatter plot với các điểm dữ liệu. Các điểm sẽ có hình dạng (shape) khác nhau tương ứng với từng chi nhánh.

Kết quả:

  • Biểu đồ bao gồm:

    • Một tập hợp các điểm, mỗi điểm đại diện cho một sản phẩm.

    • Trục hoành hiển thị giá của sản phẩm.

    • Trục tung hiển thị dòng sản phẩm.

    • Các điểm được định dạng hình dạng theo biến Branch.

2.9 Biểu đồ 9: biểu đồ scatter plot biểu diễn mối quan hệ giữa điểm đánh giá và dòng sản phẩm, với kích thước của các điểm dữ liệu được phân biệt theo giới tính

a %>% ggplot(aes(x = Rating, y = Product.line, size = Gender)) +
  geom_point()
## Warning: Using size for a discrete variable is not advised.

Giải thích câu lệnh:

  • ggplot(aes(x = Rating, y = Product.line, size = Gender)): Đây là phần cơ bản của biểu đồ ggplot. Nó thiết lập dữ liệu và ánh xạ các biến vào các thuộc tính của biểu đồ. Trong trường hợp này, x = Rating ánh xạ điểm đánh giá vào trục x, y = Product.line ánh xạ dòng sản phẩm vào trục y, và size = Gender ánh xạ giới tính vào kích thước của các điểm dữ liệu.

  • geom_point(): Thêm một layer để vẽ biểu đồ scatter plot với các điểm dữ liệu. Các điểm sẽ có kích thước khác nhau tương ứng với từng giới tính.

Kết quả:

  • Biểu đồ bao gồm:

    • Một tập hợp các điểm, mỗi điểm đại diện cho một sản phẩm.

    • Trục hoành hiển thị xếp hạng của sản phẩm.

    • Trục tung hiển thị dòng sản phẩm.

    • Kích thước của các điểm thay đổi theo biến Gender.

2.10 Biểu đồ 10: biểu đồ scatter plot biểu diễn mối quan hệ giữa giá của sản phẩm đơn vị và dòng sản phẩm, với độ trong suốt của các điểm dữ liệu được phân biệt theo chi nhánh

a %>% ggplot(aes(x = Unit.price, y = Product.line, alpha = Branch)) +
  geom_point()
## Warning: Using alpha for a discrete variable is not advised.

Giải thích câu lệnh:

  • ggplot(aes(x = Unit.price, y = Product.line, alpha = Branch)): Đây là phần cơ bản của biểu đồ ggplot. Nó thiết lập dữ liệu và ánh xạ các biến vào các thuộc tính của biểu đồ. Trong trường hợp này, x = Unit.price ánh xạ giá của sản phẩm đơn vị vào trục x, y = Product.line ánh xạ dòng sản phẩm vào trục y, và alpha = Branch ánh xạ chi nhánh vào độ trong suốt (alpha) của các điểm dữ liệu.

  • geom_point(): Thêm một layer để vẽ biểu đồ scatter plot với các điểm dữ liệu. Các điểm sẽ có độ trong suốt khác nhau tương ứng với từng chi nhánh.

Kết quả:

  • Biểu đồ bao gồm:

    • Một tập hợp các điểm, mỗi điểm đại diện cho một sản phẩm.

    • Trục hoành hiển thị giá của sản phẩm.

    • Trục tung hiển thị dòng sản phẩm.

    • Độ mờ của các điểm thay đổi theo biến Branch.

2.11 Biểu đồ 11: biểu đồ phân tán với đánh giá (Rating) trên trục x và chi nhánh (Branch) trên trục y

a %>% ggplot(aes(x = Rating, y = Branch)) +
  geom_point(color = 'red') +
  geom_smooth(method = 'lm', color = 'yellow')
## `geom_smooth()` using formula = 'y ~ x'

Giải thích câu lệnh:

  • ggplot(aes(x = Rating, y = Branch)): Bắt đầu với một biểu đồ ggplot với dữ liệu được ánh xạ vào trục x là điểm đánh giá (Rating) và trục y là chi nhánh (Branch).

  • geom_point(color = ‘red’): Thêm một layer với điểm dữ liệu, trong đó màu của các điểm được đặt là đỏ

  • geom_smooth(method = ‘lm’, color = ‘yellow’): Thêm một layer với đường cong hồi quy tuyến tính (linear regression) được fit vào dữ liệu. Trong đó, method = ‘lm’ chỉ ra rằng phương pháp sử dụng để fit dữ liệu là phương pháp hồi quy tuyến tính (linear regression), và màu của đường cong được đặt là màu vàng

Kết quả:

  • Biểu đồ bao gồm:

    • Một tập hợp các điểm màu đỏ, mỗi điểm đại diện cho một sản phẩm.

    • Trục hoành hiển thị xếp hạng của sản phẩm.

    • Trục tung hiển thị chi nhánh của sản phẩm.

    • Một đường cong màu vàng thể hiện mối quan hệ xu hướng giữa xếp hạng và chi nhánh.

2.12 Biểu đồ 12:

a %>% ggplot(aes(x = Unit.price, y = Product.line)) +
  geom_point(color = 'red') +
  geom_smooth(method = 'lm', color = 'yellow') +
  facet_wrap(~Branch)
## `geom_smooth()` using formula = 'y ~ x'

Kết quả:

Biểu đồ bao gồm:

  • Nhiều phân đoạn, mỗi phân đoạn tương ứng với một chi nhánh (Branch).

  • Trong mỗi phân đoạn:

    • Các điểm màu đỏ đại diện cho sản phẩm thuộc chi nhánh đó.

    • Đường cong màu vàng thể hiện xu hướng mối quan hệ giữa giá và dòng sản phẩm cho chi nhánh đó.

2.13 Biểu đồ 13: biểu đồ cột sử dụng gói ggplot2 và dữ liệu từ tệp CSV “supermarket_sales - Sheet1.csv”

library(ggplot2)       
data <- read.csv("D:/Hà/supermarket_sales - Sheet1.csv")
ggplot(data, aes(x = Product.line, y = Rating, fill = Product.line)) +
  geom_bar(stat = "identity") +
  scale_y_continuous("Rating")

Giải thích câu lệnh:

  • data <- read.csv(“D:/Hà/supermarket_sales - Sheet1.csv”): Dòng này đọc dữ liệu từ tệp CSV “supermarket_sales - Sheet1.csv” và lưu trữ nó vào biến data. Dữ liệu sẽ được đọc dưới dạng data frame.

  • ggplot(data, aes(x = Product.line, y = Rating, fill = Product.line)): Hàm ggplot() được sử dụng để khởi tạo một biểu đồ mới. Đối số data chỉ định dữ liệu được sử dụng. Trong aes(), chúng ta chỉ định các mapping aesthetics (tương ứng với các biến) cho trục x (x = Product.line), trục y (y = Rating), và fill color (fill = Product.line). Điều này có nghĩa là chúng ta sẽ vẽ cột dựa trên cột “Product.line”, chiều cao của các cột sẽ được xác định bởi cột “Rating”, và màu sắc của các cột sẽ tương ứng với giá trị của “Product.line”.

  • geom_bar(stat = “identity”): Hàm geom_bar() được sử dụng để tạo ra biểu đồ cột. Tham số stat = “identity” cho biết rằng chiều cao của các cột sẽ được xác định trực tiếp từ dữ liệu.

  • scale_y_continuous(“Rating”): Hàm scale_y_continuous() được sử dụng để đặt nhãn cho trục y của biểu đồ, với nhãn là “Rating”.

Kết quả: Mã này sẽ tạo biểu đồ thanh thể hiện trực quan xếp hạng trung bình của các dòng sản phẩm khác nhau trong dữ liệu bán hàng siêu thị.

  • Trục X: Trục này sẽ hiển thị các danh mục duy nhất từ cột Product.line, đại diện cho các dòng sản phẩm khác nhau trong dữ liệu

  • Trục Y: Trục này sẽ được dán nhãn “Rating” và sẽ hiển thị phạm vi xếp hạng số trong dữ liệu

  • Thanh: Biểu đồ sẽ có một thanh dọc cho mỗi danh mục dòng sản phẩm. Chiều cao của mỗi thanh sẽ tương ứng với xếp hạng trung bình cho dòng sản phẩm đó (giả sử stat = “identity” tính toán giá trị trung bình).

  • Màu sắc: Mỗi thanh sẽ được tô bằng một màu khác nhau và các màu sẽ được gán dựa trên danh mục dòng sản phẩm (được xác định bởi yếu tố thẩm mỹ fill = Product.line).

2.14 Biểu đồ 14: tạo một loạt các histogram, mỗi histogram biểu diễn phân phối của biến “Rating” (xếp hạng) trong dữ liệu.

qplot(Rating, data = read.csv("D:/Hà/supermarket_sales - Sheet1.csv"), facets = . ~ Product.line, geom = "histogram", binwidth = 1)
## Warning: `qplot()` was deprecated in ggplot2 3.4.0.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Giải thích câu lệnh:

  • Rating: biến số được sử dụng để vẽ histogram, đại diện cho xếp hạng của các sản phẩm.

  • data = read.csv(“D:/Hà/supermarket_sales - Sheet1.csv”): Đây là dữ liệu bạn sử dụng để vẽ histogram. Hàm read.csv() được sử dụng để đọc dữ liệu từ tệp CSV “supermarket_sales - Sheet1.csv”.

  • facets = . ~ Product.line: Tham số này xác định cách dữ liệu được phân chia thành các mặt hàng (facets) trên biểu đồ. Trong trường hợp này, . ~ Product.line chỉ ra rằng mỗi mặt hàng (facet) sẽ tương ứng với một loại sản phẩm được xác định bởi biến “Product.line”.

  • geom = “histogram”: Loại hình học bạn muốn sử dụng để vẽ biểu đồ. Trong trường hợp này, bạn đang sử dụng histogram để biểu diễn phân phối của dữ liệu.

  • binwidth = 1: Độ rộng của các bin (ngăn) trong histogram. Trong trường hợp này, độ rộng của mỗi bin được thiết lập là 1, có nghĩa là mỗi bin sẽ bao gồm các giá trị xếp hạng trong khoảng có độ rộng là 1.

Kết quả: Biểu đồ tạo ra sẽ hiển thị phân phối xếp hạng (Rating) cho từng dòng sản phẩm (Product.line) riêng biệt. Biểu đồ bao gồm:

  • Nhiều phân đoạn: Mỗi phân đoạn đại diện cho một dòng sản phẩm.

  • Trục Y: Hiển thị xếp hạng sản phẩm.

  • Trục X: Hiển thị số lượng sản phẩm cho mỗi xếp hạng.

  • Cột: Mỗi cột thể hiện số lượng sản phẩm có xếp hạng cụ thể trong một dòng sản phẩm.

2.15 Biểu đồ 15:

qplot( Rating, Unit.price, data = read.csv("D:/Hà/supermarket_sales - Sheet1.csv"), color = Branch)

Giải thích câu lệnh:

  • Rating, Unit.price: Đây là các biến bạn muốn vẽ trên trục x và trục y, tương ứng là “Rating” và “Unit.price”.

  • data = read.csv(“D:/Hà/supermarket_sales - Sheet1.csv”): Đây là dữ liệu bạn sử dụng để vẽ biểu đồ. Hàm read.csv() được sử dụng để đọc dữ liệu từ tệp CSV “supermarket_sales - Sheet1.csv”.

  • color = Branch: Tham số này chỉ định cách biểu đồ phân tán sẽ được màu sắc hóa dựa trên giá trị của biến “Branch”. Cụ thể, mỗi điểm dữ liệu sẽ được màu sắc khác nhau tương ứng với giá trị của biến “Branch”.

Kết quả: Biểu đồ tạo ra sẽ hiển thị mối quan hệ giữa xếp hạng (Rating) và giá bán (Unit.price) của các sản phẩm. Biểu đồ bao gồm:

  • Trục Y: Hiển thị xếp hạng sản phẩm.

  • Trục X: Hiển thị giá bán sản phẩm.

  • Điểm dữ liệu: Mỗi điểm đại diện cho một sản phẩm, được tô màu theo chi nhánh (Branch) của sản phẩm đó.

2.16 Biểu đồ 16:

qplot(Rating, data = read.csv("D:/Hà/supermarket_sales - Sheet1.csv"), geom = "histogram", binwidth = 0.05)

Kết quả: Biểu đồ tạo ra sẽ hiển thị phân phối xếp hạng (Rating) của sản phẩm. Biểu đồ bao gồm:

  • Trục Y: Hiển thị xếp hạng sản phẩm.

  • Trục X: Hiển thị số lượng sản phẩm cho mỗi xếp hạng.

  • Cột: Mỗi cột thể hiện số lượng sản phẩm có xếp hạng nằm trong khoảng cụ thể.

2.17 Biểu đồ 17:

qplot(Quantity, data = read.csv("D:/Hà/supermarket_sales - Sheet1.csv"), geom = "density")

Kết quả: Biểu đồ tạo ra sẽ hiển thị mật độ phân phối của số lượng sản phẩm (Quantity) được bán. Biểu đồ bao gồm:

  • Trục X: Hiển thị số lượng sản phẩm.

  • Trục Y: Hiển thị mật độ, thể hiện số lượng dữ liệu tập trung tại mỗi giá trị của Quantity.

  • Đường cong: Đường cong mượt mà thể hiện mật độ phân phối của dữ liệu.

2.18 Biểu đồ 18:

ggplot() +
  geom_histogram(data = filter(a, Branch == 'A'), aes(x = Unit.price), binwidth = 5, fill = 'pink') +
  geom_histogram(data = filter(a, Branch == 'C'), aes(x = Unit.price), binwidth = 5, fill = 'skyblue')

Giải thích câu lệnh:

  • ggplot(): Bắt đầu một đối tượng ggplot2 mới mà không cần kết nối với dữ liệu cụ thể.

  • geom_histogram(): chúng ta thêm hai lớp dữ liệu histogram, mỗi lớp tương ứng với một chi nhánh khác nhau.

  • data = filter(a, Branch == ‘A’) và data = filter(a, Branch == ‘C’): Lọc dữ liệu từ a (giả sử là data frame chứa dữ liệu) để chỉ lấy các quan sát có giá trị “Branch” tương ứng (“A” và “C” lần lượt). Điều này giúp chúng ta chỉ vẽ histogram cho các quan sát thuộc các chi nhánh này.

  • aes(x = Unit.price): Tạo mapping cho biến Unit.price trên trục x của histogram.

  • binwidth = 5: Xác định độ rộng của các bin (ngăn) trong histogram. Trong trường hợp này, độ rộng của mỗi bin được đặt là 5.

  • fill: Xác định màu sắc cho histogram của mỗi chi nhánh. Histogram cho chi nhánh “A” sẽ có màu hồng (“pink”) và histogram cho chi nhánh “C” sẽ có màu xanh da trời (“skyblue”).

Kết quả: Biểu đồ tạo ra sẽ hiển thị hai biểu đồ hình cột chồng lên nhau, so sánh phân phối giá bán (Unit.price) của hai chi nhánh A và C. Biểu đồ bao gồm:

  • Trục X: Hiển thị giá bán sản phẩm.

  • Trục Y: Hiển thị số lượng sản phẩm cho mỗi giá bán.

  • Cột: Hai nhóm cột, một màu hồng (chi nhánh A) và một màu xanh da trời (chi nhánh C), thể hiện số lượng sản phẩm cho mỗi giá bán của từng chi nhánh.

2.19 Biểu đồ 19:

a %>% ggplot(aes(x = Unit.price)) +
  geom_histogram(binwidth = 3, fill = 'green', color = 'red') +
  facet_wrap(~Branch)

Kết quả: Biểu đồ tạo ra sẽ hiển thị một loạt các biểu đồ hình cột, mỗi biểu đồ thể hiện phân phối giá bán (Unit.price) cho từng chi nhánh (Branch). Biểu đồ bao gồm:

  • Nhiều phân đoạn: Mỗi phân đoạn đại diện cho một chi nhánh.

  • Trục X: Hiển thị giá bán sản phẩm.

  • Trục Y: Hiển thị số lượng sản phẩm cho mỗi giá bán.

  • Cột: Các cột trong mỗi phân đoạn thể hiện số lượng sản phẩm cho mỗi giá bán của từng chi nhánh.

2.20 Biểu đồ 20:

a %>% ggplot(aes(x = Unit.price, fill = Product.line)) +
  geom_histogram(binwidth = 5)

Kết quả: Biểu đồ tạo ra sẽ hiển thị một biểu đồ hình cột với các cột được tô màu theo dòng sản phẩm (Product.line). Biểu đồ bao gồm:

  • Trục X: Hiển thị giá bán sản phẩm.

  • Trục Y: Hiển thị số lượng sản phẩm cho mỗi giá bán.

  • Cột: Các cột được tô màu theo dòng sản phẩm, thể hiện số lượng sản phẩm cho mỗi giá bán của từng dòng sản phẩm.

