1. Giới thiệu về bộ dữ liệu Smartphones Sales

1.1 Bộ dữ liệu Smartphones Sales

Bộ dữ liệu bao gồm thông tin về điện thoại thông minh, ghi lại các thuộc tính khác nhau như thương hiệu, màu sắc, bộ nhớ, lưu trữ, đánh giá của người dùng, giá bán, giá gốc và chiết khấu. Nó cung cấp một cái nhìn toàn diện về thị trường điện thoại thông minh, cho phép phân tích các chiến lược định giá, sở thích của người tiêu dùng và xu hướng thị trường. Với thông số kỹ thuật chi tiết và dữ liệu về giá cả, bộ dữ liệu này là một nguồn tài nguyên quý giá cho các nhà bán lẻ, nhà sản xuất và nhà phân tích tìm kiếm thông tin về cảnh quan cạnh tranh và hành vi của người tiêu dùng trong ngành công nghiệp điện thoại thông minh.

  1. Brands: Các thương hiệu điện thoại thông minh được bao gồm trong tập dữ liệu.
  2. Colors: Các màu sắc có sẵn cho các điện thoại thông minh.
  3. Memory: Khả năng lưu trữ của các điện thoại thông thường được đo bằng gigabyte (GB) hoặc megabyte (MB).
  4. Storage: Khả năng lưu trữ nội bộ của các điện thoại thông thường được đo bằng gigabyte (GB) hoặc megabyte (MB).
  5. Rating: Điểm đánh giá hoặc điểm số được gán cho các điện thoại thông minh, phản ánh sự hài lòng hoặc hiệu suất của người dùng.
  6. Selling Price: Giá bán cho người tiêu dùng của các điện thoại thông minh.
  7. Original Price: Giá gốc hoặc giá niêm yết của các điện thoại thông minh trước bất kỳ chiết khấu hoặc khuyến mãi nào.
  8. Mobile: Chỉ ra liệu thiết bị có phải là điện thoại di động hay không.
  9. Discount: Chiết khấu được áp dụng vào giá gốc để tính toán giá bán.
  10. Discount percentage: Tỷ lệ phần trăm chiết khấu được áp dụng vào giá gốc để tính toán giá bán.

1.2 Đọc dữ liệu từ file Excel và gán dữ liệu vào object

library(xlsx) 
## Warning: package 'xlsx' was built under R version 4.3.3
s <- read.xlsx("D:/lamtamnhu/Sales.xlsx", sheetIndex = 1, header = T) 
  • Bộ dữ liệu có cấu trúc bao gồm: 3114 hàng tương ứng với 3114 quan sát và 12 cột tương ứng với 12 biến.
dim(s)
## [1] 3114   12

2. Phân tích bộ dữ liệu

2.1 Biểu đồ 1 - Biểu đồ thể hiện % tỷ lệ hãng điện thoại

library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.3.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.0     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.0
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(ggplot2)
library(dplyr)
library(scales)
## 
## Attaching package: 'scales'
## 
## The following object is masked from 'package:purrr':
## 
##     discard
## 
## The following object is masked from 'package:readr':
## 
##     col_factor

Câu lệnh trên tạo ra một biểu đồ cột thể hiện tỷ lệ phần trăm của các hãng điện thoại. Dựa trên dữ liệu đầu vào d, biểu đồ sẽ có trục x là “Hãng điện thoại” và trục y là “Số lượng”.

Các bước để tạo biểu đồ và phân tích kết quả như sau:

  1. Dữ liệu được nhóm theo “Brands”, tức là các hãng điện thoại được nhóm lại.
  2. Với mỗi nhóm, số lượng phần tử trong nhóm được tính toán bằng hàm n().
  3. Biểu đồ cột được tạo ra bằng geom_col, mỗi cột biểu thị số lượng phần tử của từng nhóm. Màu sắc cột được đặt là màu xanh lá cây.
  4. Tiêu đề của biểu đồ được đặt là “Biểu đồ thể hiện % tỷ lệ hãng điện thoại”.
  5. Giao diện của biểu đồ được thiết lập thành giao diện classic bằng theme_classic().
  6. Với mỗi cột, một nhãn số được thêm vào biểu đồ bằng geom_text. Nhãn số này là phần trăm của số lượng phần tử trong nhóm so với tổng số phần tử của toàn bộ dữ liệu. Màu sắc của nhãn số được đặt là màu đỏ.
  7. Nhãn cho trục x được đặt là “Hãng điện thoại” và nhãn cho trục y được đặt là “Số lượng”.

Kết quả là một biểu đồ cột thể hiện số lượng phần tử và phần trăm của các hãng điện thoại. Nhãn số trên mỗi cột cho biết tỷ lệ phần trăm của số lượng phần tử trong hãng điện thoại đó so với tổng số phần tử của toàn bộ dữ liệu. Màu sắc xanh lá cây của các cột tạo nên sự tương phản và thu hút sự chú ý của người đọc, trong khi nhãn số màu đỏ giúp nhấn mạnh giá trị phần trăm.

library(scales)
s %>% group_by(Brands) %>% summarise(n = n()) %>%
  ggplot(aes(Brands,n)) +
    geom_col(fill='green') +
    labs(title = "Biểu đồ thể hiện % tỷ lệ hãng điện thoại") +
    theme_classic() +
    geom_text(aes(label = percent(n/length(s$Brands))),vjust = 1, color = 'red') +
    labs(x = 'Hãng điện thoại', y = 'Số lượng')

2.2 Biểu đồ 2 - Biểu đồ thể hiện nhóm theo sự hài lòng khách hàng

  • Ta tiến hành phân chia biến Rating thành 5 phần: Không hài lòng, Tạm chấp nhận, Bình thường, Hài lòng, Rất hài lòng.
table(cut(s$Rating,5))
## 
##  (2.3,2.84] (2.84,3.38] (3.38,3.92] (3.92,4.46]    (4.46,5] 
##           7          19         371        1992         581

Dựa vào biểu đồ thể hiện nhóm theo sự hài lòng của khách hàng, chúng ta có thể phân tích kết quả như sau:

  1. Phân bố sự hài lòng: Biểu đồ cho thấy phân bố sự hài lòng của khách hàng được chia thành 5 nhóm: “không hài lòng”, “Tạm chấp nhận”, “Bình thường”, “Hài lòng” và “Rất hài lòng”. Mỗi nhóm được biểu diễn bằng một cột trên biểu đồ. Ngoài ra còn cột “NA” là cột “Không có ý kiến”.

  2. Số lượng khách hàng trong mỗi nhóm: Chiều cao của các cột thể hiện số lượng khách hàng trong mỗi nhóm sự hài lòng. Nhìn vào biểu đồ, chúng ta có thể so sánh số lượng khách hàng giữa các nhóm và nhận ra nhóm có số lượng khách hàng cao nhất là nhóm “Hài lòng”.

  3. Nhận xét về sự hài lòng: Dựa vào biểu đồ, chúng ta có thể đưa ra nhận xét về mức độ sự hài lòng của khách hàng. Nhóm “Hài lòng” có số lượng khách hàng nhiều nhất, chúng ta có thể kết luận rằng hầu hết khách hàng đánh giá sản phẩm hoặc dịch vụ khá cao. Ngoài ra, nhóm “không hài lòng” chiếm tỷ lệ thấp nhất, điều này có thể cho thấy sản phẩm hoặc dịch vụ đáp ứng được sự hài lòng của khách hàng.

s <- s
s1 <- s %>% mutate(HL = cut(Rating,5, label = c('không hài lòng', 'Tạm chấp nhận','Bình thường','Hài lòng','Rất hài lòng')))
s1 %>% group_by(HL) %>% summarise(n = n()) %>%
  ggplot(aes(HL,n)) +
    geom_col(fill='blue') +
    labs(title = " Biểu đồ thể hiện nhóm theo sự hài lòng khách hàng") +
    geom_text(aes(label = n),vjust = 0, color = 'black') +
    labs(x = 'Sự hài lòng', y = 'Số lượng')

2.3 Biểu đồ 3 - Biểu đồ thể hiện số lượng điện thoại được chiết khấu

Câu lệnh trên thêm một cột mới vào dữ liệu d được gọi là “group” dựa trên giá trị của cột “Discount”. Nếu giá trị trong cột “Discount” lớn hơn 0, thì giá trị trong cột “group” sẽ là “Có chiết khấu”, ngược lại, giá trị trong cột “group” sẽ là “Không chiết khấu”.

Sau đó, câu lệnh table(d$group) được sử dụng để tạo một bảng tần số, hiển thị số lượng quan sát trong mỗi nhóm của cột “group”.

Kết quả là một bảng tần số, trong đó các nhóm “Có chiết khấu” và “Không chiết khấu” được hiển thị và số lượng quan sát trong mỗi nhóm được đếm lần lượt là 1193 và 1921.

s$group <- ifelse(s$Discount > 0, "Có chiết khấu", "Không chiết khấu")
table(s$group)
## 
##    Có chiết khấu Không chiết khấu 
##             1193             1921

Dựa vào biểu đồ thể hiện nhóm theo chiết khấu, chúng ta có thể phân tích kết quả như sau:

  1. Phân bố chiết khấu: Biểu đồ cho thấy phân bố các nhóm dựa trên chiết khấu của sản phẩm. Các nhóm được chia thành “Có chiết khấu” và “Không chiết khấu”. Mỗi nhóm được biểu diễn bằng một cột trên biểu đồ.

  2. Số lượng sản phẩm trong mỗi nhóm: Nhóm “Không chiết khấu” có số lượng 1921 nhiều hơn nhóm “Có chiết khấu” là 1193.

  3. Nhận xét về chiết khấu: Dựa vào biểu đồ, chúng ta có thể đưa ra nhận xét về mức độ chiết khấu của sản phẩm. Ta thấy nhóm “Không chiết khấu” chiếm tỷ lệ cao, điều này có thể cho thấy chiết khấu không phổ biến hoặc không ảnh hưởng đáng kể đến số lượng sản phẩm.

s %>% group_by(group) %>% summarise(n = n()) %>%
  ggplot(aes(group,n)) +
    geom_col(fill='gray') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(title = " Biểu đồ thể hiện nhóm theo chiết khấu ",x = 'Độ sâu', y = 'Số lượng') 

2.4 Biểu đồ 4 - Biểu đồ thể hiện giá bán của các loại điện thoại

Biểu đồ thể hiện giá bán của điện thoại dựa trên dữ liệu từ tập dữ liệu. Dưới đây là phân tích kết quả của biểu đồ:

  1. Phân bố giá bán: Biểu đồ histogram cho thấy phân bố giá bán của điện thoại. Trục x trên biểu đồ biểu diễn giá bán của điện thoại, trong khi trục y biểu diễn số lượng điện thoại. Mỗi cột trên biểu đồ đại diện cho một khoảng giá bán, và chiều cao của cột thể hiện số lượng điện thoại trong khoảng đó.

  2. Binwidth: Thông qua đoạn mã geom_histogram(binwidth = 5000), binwidth được thiết lập là 5000. Điều này có nghĩa là giá bán của điện thoại được chia thành các khoảng có độ rộng 5000. Số lượng cột trên biểu đồ sẽ phụ thuộc vào khoảng giá và binwidth này.

  3. Màu sắc: Các cột trên biểu đồ được tô màu xanh lam (fill = ‘blue’) và có viền màu đỏ (color = ‘red’), tạo nên sự tương phản trực quan.

  4. Tiêu đề và nhãn trục: Biểu đồ có tiêu đề “Biểu đồ thể hiện giá bán của điện thoại”, trục x được ghi là “Giá bán” và trục y được ghi là “Số lượng”.

Biểu đồ này giúp chúng ta nhìn thấy phân phối giá bán của điện thoại và tập trung giá trong các khoảng giá cụ thể. Chúng ta có thể sử dụng biểu đồ này để hiểu thị trường và cung cầu của điện thoại, nhận biết các khoảng giá phổ biến và đánh giá tập trung giá trong các khoảng đó.

s %>% ggplot(aes(x = Selling.Price)) +
  geom_histogram(binwidth = 5000, fill = 'blue', color = 'red') +
  labs(title = " Biểu đồ thể hiện giá bán của điện thoại ",x = 'Giá bán', y = 'Số lượng') 

2.5 Biểu đồ 5 - Biểu đồ thể hiện mật đồ giá bán của điện thoại

Dưới đây là phân tích kết quả của biểu đồ:

  1. Mật độ giá bán: Biểu đồ mật độ (density plot) thể hiện mật độ phân bố của giá bán điện thoại. Trục x biểu diễn giá bán, trong khi trục y biểu diễn mật độ, hay tỷ lệ giữa số lượng điện thoại và diện tích dưới đường cong.

  2. Màu sắc: Đường cong mật độ được tô màu hồng (“fill = ‘pink’”), tạo nên sự tương phản trực quan.

  3. Tiêu đề và nhãn trục: Biểu đồ có tiêu đề “Biểu đồ thể hiện mật độ giá bán của điện thoại”, trục x được ghi là “Giá bán” và trục y được ghi là “Mật độ”.

Biểu đồ mật độ giúp chúng ta nhìn thấy sự phân bố mật độ của giá bán điện thoại. Đường cong mật độ càng cao tại một giá trị cụ thể, càng cho thấy mật độ lớn hơn của giá bán ở đó. Điều này giúp chúng ta hiểu rõ hơn về mức độ tập trung và biểu diễn phân phối giá bán của điện thoại trong tập dữ liệu.

Lưu ý rằng để phân tích kết quả chi tiết hơn, cần xem xét thông tin cụ thể về dữ liệu và ngữ cảnh của nghiên cứu.

s %>% ggplot(aes(x = Selling.Price)) +
  geom_density(fill = 'pink') +
  labs(title = " Biểu đồ thể hiện mật độ giá bán của điện thoại ",x = 'Giá bán', y = 'Mật độ') 

2.6 Biểu đồ 6 - Biểu đồ thể hiện tỷ lệ có camera của điện thoại

Tạo ra một biểu đồ cột (bar chart) thể hiện số lượng điện thoại có Camera dựa trên dữ liệu từ tập dữ liệu d. Dưới đây là phân tích kết quả của biểu đồ:

  1. Nhóm và tổng hợp dữ liệu: Đầu tiên, dữ liệu được nhóm theo biến Camera bằng cách sử dụng group_by(Camera) và sau đó đếm số lượng điện thoại trong mỗi nhóm bằng cách sử dụng summarise(n = n()). Kết quả là một bảng dữ liệu với hai cột: Camera (biến nhóm) và n (số lượng điện thoại có Camera).

  2. Biểu đồ cột: Dữ liệu sau khi được tổng hợp được sử dụng để tạo biểu đồ cột. Trục x trên biểu đồ biểu diễn các giá trị trong biến Camera, trong khi trục y biểu diễn số lượng điện thoại tương ứng. Mỗi cột trên biểu đồ đại diện cho một giá trị trong biến Camera, và chiều cao của cột thể hiện số lượng điện thoại.

  3. Màu sắc: Các cột trên biểu đồ được tô màu đen (fill='black'), tạo nên sự tương phản trực quan.

  4. Chú thích số lượng: Số lượng điện thoại được hiển thị trên mỗi cột sử dụng geom_text và được đặt nhãn (label = n). Chú thích này có màu đỏ (color = 'red') và được đặt vị trí dọc (vjust = 2) để nằm trên cột tương ứng.

  5. Tiêu đề và nhãn trục: Biểu đồ có tiêu đề “Biểu đồ thể hiện số lượng điện thoại có Camera”, trục x được ghi là “Điện thoại có Camera” và trục y được ghi là “Số lượng”.

Biểu đồ này giúp chúng ta nhìn thấy số lượng điện thoại có Camera trong tập dữ liệu là 3114 và nó chiếm 100% số lượng điện thoại. Vậy có lượng điện thoại không có camera là 0. Suy ra, hiện nay có thể nói đa số điện thoại được sản xuất ra đều có Camera.

s %>% group_by(Camera) %>% summarise(n = n()) %>%
  ggplot(aes(Camera,n)) +
    geom_col(fill='black') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(title = " Biểu đồ thể hiện Số lượng điện thoại có Camera ",x = 'Điện thoại có Camera', y = 'Số lượng') 

2.7 Biểu đồ 7 - Biểu đồ thể hiện mật độ chiết khấu của điện thoại dựa trên giá gốc

Chúng ta có một biểu đồ mật độ (density plot) mới dựa trên giá gốc (Original.Price) của dữ liệu. Biểu đồ này cũng được phân chia thành các nhóm sử dụng facet_wrap(~group). Dưới đây là phân tích kết quả của biểu đồ:

  1. Mật độ giá gốc: Biểu đồ mật độ thể hiện mật độ phân bố của giá gốc của điện thoại. Trục x biểu diễn giá gốc, trong khi trục y biểu diễn mật độ, hay tỷ lệ giữa số lượng điện thoại và diện tích dưới đường cong.

  2. Màu sắc: Đường cong mật độ được tô màu xanh lá cây (“fill = ‘green’”), tạo nên sự tương phản trực quan.

  3. Phân nhóm: Biểu đồ được phân chia thành các nhóm bằng facet_wrap(~group). Mỗi nhóm có thể hiển thị trên một panel riêng biệt, giúp so sánh mật độ giá gốc giữa hai nhóm “Có chiết khấu” và “Không chiết khấu”.

Biểu đồ mật độ giúp chúng ta nhìn thấy sự phân bố mật độ của giá gốc trong từng nhóm khác nhau của dữ liệu. Điều này giúp chúng ta so sánh mật độ giá gốc giữa hai nhóm “Có chiết khấu” và “Không chiết khấu” là tương đương nhau.

s %>% ggplot(aes(x = Original.Price)) +
  geom_density(fill = 'green') +
  facet_wrap(~group) +
  labs(title = "Biểu đồ thể hiện mật độ chiết khấu của điện thoại dựa trên giá gốc")

2.8 Biểu đồ 8 - Biểu đồ cột (bar chart) thể hiện số lượng điện thoại theo từng nhãn hiệu (Brands)

Biểu đồ cột (bar chart) thể hiện số lượng điện thoại theo từng nhãn hiệu (Brands) dựa trên dữ liệu từ tập dữ liệu d. Dưới đây là phân tích kết quả của biểu đồ:

  1. Nhóm và tổng hợp dữ liệu: Đầu tiên, dữ liệu được nhóm theo biến Brands bằng cách sử dụng group_by(Brands) và sau đó đếm số lượng điện thoại trong mỗi nhóm bằng cách sử dụng summarise(n = n()). Kết quả là một bảng dữ liệu với hai cột: Brands (nhãn hiệu) và n (số lượng điện thoại của từng nhãn hiệu).

  2. Biểu đồ cột: Dữ liệu sau khi được tổng hợp được sử dụng để tạo biểu đồ cột. Trục x trên biểu đồ biểu diễn các giá trị trong biến Brands, trong khi trục y biểu diễn số lượng điện thoại tương ứng. Mỗi cột trên biểu đồ đại diện cho một nhãn hiệu, và chiều cao của cột thể hiện số lượng điện thoại.

  3. Chú thích số lượng: Số lượng điện thoại được hiển thị trên mỗi cột sử dụng geom_text và được đặt nhãn (label = n). Vị trí của chú thích được đặt bằng position_stack(vjust = 1), giúp chú thích nằm trên cột tương ứng.

s %>% group_by(Brands) %>% summarise(n = n()) %>%
  ggplot(aes(Brands,n)) +
    geom_col() +
    geom_text(aes(label = n),position = position_stack(vjust = 1)) +
   labs(title = "Biểu đồ thể hiện số lượng của điện thoại dựa trên thương hiệu")

  1. Phân phối nhãn hiệu: Biểu đồ cột cho thấy phân phối số lượng điện thoại theo từng nhãn hiệu có sự chênh lệch rõ ràng.

  2. So sánh giữa các nhãn hiệu: Biểu đồ cột giúp chúng ta so sánh số lượng điện thoại giữa các nhãn hiệu. Chúng ta có thể xác định được nhãn hiệu nổi bật với số lượng điện thoại cao hơn so với những nhãn hiệu khác là thương hiệu SAMSUNG với số lượng 719, thấp nhất là thương hiệu IQOO với số lượng là 5.

2.9 Biểu đồ 9 - Biểu đồ histogram thể hiện phân phối giá gốc (Original.Price) của điện thoại từ hai nhãn hiệu ‘Apple’ và ‘SAMSUNG’

Biểu đồ histogram thể hiện phân phối giá gốc (Original.Price) của điện thoại từ hai nhãn hiệu ‘Apple’ và ‘SAMSUNG’ trong tập dữ liệu d. Dưới đây là phân tích kết quả của biểu đồ:

  1. Xác định biến và dữ liệu: Biến x trên trục x của biểu đồ được xác định là giá gốc (Original.Price). Dữ liệu được sử dụng để tạo biểu đồ là tập dữ liệu d.

  2. Biểu đồ histogram: Để hiển thị phân phối giá gốc của điện thoại từ nhãn hiệu ‘Apple’, bạn sử dụng geom_histogram và lọc dữ liệu bằng filter(Brands == 'Apple'). Kết quả là một histogram với các cột biểu thị tần suất của các khoảng giá gốc. Tương tự, bạn tạo một histogram khác cho nhãn hiệu ‘SAMSUNG’.

  3. Cấu hình binwidth và màu sắc: Thông qua đối số binwidth = 2000, bạn chỉ định rằng mỗi khoảng trên biểu đồ histogram có chiều rộng là 2000. Điều này ảnh hưởng đến số lượng và kích thước của các cột trên biểu đồ. Bạn sử dụng fill để thiết lập màu sắc của các cột, ví dụ: ‘red’ cho ‘Apple’ và ‘lightgreen’ cho ‘SAMSUNG’.

s %>% ggplot(aes(x = Original.Price)) +
  geom_histogram(data = s %>% filter(Brands == 'Apple'), binwidth = 2000, fill = 'red') +
  geom_histogram(data = s %>% filter(Brands == 'SAMSUNG'), binwidth = 2000, fill = 'lightgreen') +
  labs(title = "Biểu đồ histogram thể hiện phân phối giá gốc của điện thoại")

2.10 Biểu đồ 10 - Biểu đồ cột đồng tâm thể hiện số lượng điện thoại từng nhãn hiệu từ bộ dữ liệu

Câu lệnh trên sử dụng ống dẫn (%>%) và gói ggplot2 để vẽ một biểu đồ cột đồng tâm thể hiện số lượng điện thoại từng nhãn hiệu từ bộ dữ liệu “Smartphones Sales” trong R Markdown. Dưới đây là phân tích kết quả của câu lệnh:

  1. Nhóm dữ liệu: Câu lệnh sử dụng hàm group_by() để nhóm dữ liệu theo nhãn hiệu (Brands).
  2. Tính tổng số lượng: Hàm summarise() được sử dụng để tính số lượng (n) cho mỗi nhãn hiệu.
  3. Vẽ biểu đồ cột đồng tâm: Hàm ggplot() được sử dụng để tạo một khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định giá trị x (rỗng) và giá trị y (số lượng) của từng nhãn hiệu, và sử dụng màu sắc khác nhau cho từng nhãn hiệu (fill = Brands).
  4. Hàm geom_col() được sử dụng để vẽ các cột.
  5. Hàm coord_polar('y') được sử dụng để chuyển đổi biểu đồ sang dạng đồng tâm.
  6. Hàm geom_text() được sử dụng để thêm chú thích số liệu lên các cột. Thông qua tham số label = n, chú thích sẽ hiển thị giá trị số lượng (n), và thông qua tham số position_stack(vjust = .5), chú thích được căn chỉnh theo chiều dọc.
  7. Hàm theme_void() được sử dụng để loại bỏ nền và các thành phần trang trí khác của biểu đồ.

Kết quả là một biểu đồ cột đồng tâm, trong đó mỗi cột biểu thị số lượng điện thoại từng nhãn hiệu. Các cột được sắp xếp xung quanh một trục tròn và có thể so sánh sự khác biệt về số lượng giữa các nhãn hiệu.

s %>% group_by(Brands) %>% summarise(n = n()) %>%
  ggplot(aes(x ='', y = n,fill = Brands)) +
    geom_col(color = 'black') +
    coord_polar('y') +
    geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
    theme_void()

Số lượng điện thoại theo nhãn hiệu: Chúng ta có thể xác định được nhãn hiệu nổi bật với số lượng điện thoại cao hơn so với những nhãn hiệu khác là thương hiệu SAMSUNG với số lượng 719, thấp nhất là thương hiệu IQOO với số lượng là 5.

2.11 Biểu đồ 11 - Biểu đồ cột đồng tâm thể hiện số lượng điện thoại SAMSUNG theo chiết khấu

Câu lệnh trên sử dụng ống dẫn (%>%) và gói ggplot2 để vẽ một biểu đồ cột đồng tâm thể hiện số lượng điện thoại Samsung theo từng nhóm từ bộ dữ liệu “Smartphones Sales” trong R Markdown. Sau đây là phân tích kết quả của câu lệnh:

  1. Lọc dữ liệu: Câu lệnh filter(Brands == 'SAMSUNG') sử dụng hàm filter() để chỉ lấy dữ liệu của điện thoại Samsung (Brands == 'SAMSUNG'), và gán kết quả cho biến s2.
  2. Nhóm dữ liệu: Câu lệnh group_by(group) sử dụng hàm group_by() để nhóm dữ liệu theo nhóm (group).
  3. Tính tổng số lượng: Hàm summarise() được sử dụng để tính số lượng (n) cho mỗi nhóm.
  4. Vẽ biểu đồ cột đồng tâm: Hàm ggplot() được sử dụng để tạo một khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định giá trị x (rỗng) và giá trị y (số lượng) của từng nhóm, và sử dụng màu sắc khác nhau cho từng nhóm (fill = group).
  5. Hàm geom_col() được sử dụng để vẽ các cột. Tham số width = 1 được sử dụng để đặt chiều rộng của các cột.
  6. Hàm coord_polar('y') được sử dụng để chuyển đổi biểu đồ sang dạng đồng tâm.
  7. Hàm geom_text() được sử dụng để thêm chú thích số liệu lên các cột. Thông qua tham số label = n, chú thích sẽ hiển thị giá trị số lượng (n), và thông qua tham số position_stack(vjust = .5), chú thích được căn chỉnh theo chiều dọc.
  8. Hàm theme_void() được sử dụng để loại bỏ nền và các thành phần trang trí khác của biểu đồ.

Kết quả là một biểu đồ cột đồng tâm, trong đó mỗi cột biểu thị số lượng điện thoại Samsung theo từng nhóm. Các cột được sắp xếp xung quanh một trục tròn và có thể so sánh sự khác biệt về số lượng giữa các nhóm.

s2 <- s %>% filter(Brands == 'SAMSUNG' )
s2 %>% group_by(group) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = group)) +
    geom_col(color = 'black', width = 1) +
    coord_polar('y') +
    geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
    theme_void()

2.12 Biểu đồ 12 - Biểu đồ điểm thể hiện mối quan hệ giữa giá bán khách hàng và giá niêm yết

Câu lệnh trên sử dụng ống dẫn (%>%) và gói ggplot2 để vẽ một biểu đồ điểm thể hiện mối quan hệ giữa giá bán khách hàng và giá niêm yết của điện thoại từ bộ dữ liệu “Smartphones Sales” trong R Markdown. Dưới đây là phân tích kết quả của câu lệnh:

  1. Vẽ biểu đồ điểm: Hàm ggplot() được sử dụng để tạo một khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định giá trị x (giá bán khách hàng) và giá trị y (giá niêm yết) của từng điểm.
  2. Hàm geom_point() được sử dụng để vẽ các điểm trên biểu đồ, biểu thị mỗi điểm dữ liệu.
  3. Hàm xlab()ylab() được sử dụng để đặt nhãn cho trục x và trục y tương ứng, giúp diễn giải ý nghĩa của các trục.

Kết quả là một biểu đồ điểm, trong đó mỗi điểm biểu thị mối quan hệ giữa giá bán khách hàng (trục x) và giá niêm yết (trục y) của từng điện thoại. Biểu đồ này giúp hiển thị phân phối và mối liên hệ giữa hai biến giá trị.

s %>% ggplot(aes(x = Selling.Price, y = Original.Price)) +
  geom_point() +
  xlab('Giá bán khách hàng') + 
  ylab('Giá niêm yết')

2.13 Biểu đồ 13 - Biểu đồ điểm thể hiện mối quan hệ giữa khả năng lưu trữ thông thường và khả năng lưu trữ nội bộ của điện thoại

Câu lệnh trên sử dụng ống dẫn (%>%) và gói ggplot2 để vẽ một biểu đồ điểm thể hiện mối quan hệ giữa khả năng lưu trữ thông thường và khả năng lưu trữ nội bộ của điện thoại từ bộ dữ liệu “Smartphones Sales” trong R Markdown. Dưới đây là phân tích kết quả của câu lệnh:

  1. Vẽ biểu đồ điểm: Hàm ggplot() được sử dụng để tạo một khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định giá trị x (khả năng lưu trữ thông thường) và giá trị y (khả năng lưu trữ nội bộ) của từng điểm.
  2. Hàm geom_point() được sử dụng để vẽ các điểm trên biểu đồ, biểu thị mỗi điểm dữ liệu. Tham số color = 'lightblue' được sử dụng để đặt màu sắc của các điểm là màu xanh nhạt.
  3. Hàm geom_smooth() được sử dụng để vẽ đường hồi quy tuyến tính dựa trên dữ liệu. Tham số method = 'lm' chỉ định sử dụng phương pháp hồi quy tuyến tính, và color = 'green' đặt màu sắc của đường hồi quy là màu xanh lá cây.
  4. Hàm xlab()ylab() được sử dụng để đặt nhãn cho trục x và trục y tương ứng, giúp diễn giải ý nghĩa của các trục.

Kết quả là một biểu đồ điểm, trong đó mỗi điểm biểu thị mối quan hệ giữa khả năng lưu trữ thông thường (trục x) và khả năng lưu trữ nội bộ (trục y) của từng điện thoại. Các điểm được hiển thị với màu sắc xanh nhạt, và đường hồi quy tuyến tính được vẽ để biểu thị xu hướng tổng quát của dữ liệu. Biểu đồ này giúp phân tích mối liên hệ giữa hai biến khả năng lưu trữ và xác định xu hướng chung.

s %>% ggplot(aes(x = Memory, y = Storage)) +
  geom_point(color ='lightblue') +
  geom_smooth(method = 'lm', color = 'green') +
  xlab('Khả năng lưu trữ thông thường') + 
  ylab('Khả năng lưu trữ nội bộ')
## `geom_smooth()` using formula = 'y ~ x'

2.14 Biểu đồ 14 - Biểu đồ histogram thể hiện phân bố giá bán khách hàng của điện thoại theo khả năng lưu trữ

Câu lệnh trên sử dụng ống dẫn (%>%) và gói ggplot2 để vẽ một biểu đồ histogram thể hiện phân bố giá bán khách hàng của điện thoại theo khả năng lưu trữ từ bộ dữ liệu “Smartphones Sales” trong R Markdown. Dưới đây là phân tích kết quả của câu lệnh:

  1. Vẽ biểu đồ histogram: Hàm ggplot() được sử dụng để tạo một khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định giá trị x (giá bán khách hàng) và sử dụng màu sắc khác nhau cho từng khoảng giá dựa trên khả năng lưu trữ (fill = Memory).
  2. Hàm geom_histogram() được sử dụng để vẽ histogram. Tham số binwidth = 6000 xác định độ rộng của các khoảng giá, trong trường hợp này là 6000.

Kết quả là một biểu đồ histogram, trong đó trục x biểu thị giá bán khách hàng và trục y biểu thị số lượng điện thoại trong từng khoảng giá. Các khoảng giá có màu sắc khác nhau dựa trên khả năng lưu trữ của điện thoại. Biểu đồ này giúp phân tích phân phối giá bán khách hàng và mối liên hệ với khả năng lưu trữ.

s %>% ggplot(aes(x = Selling.Price, fill = Memory)) +
 geom_histogram(binwidth = 6000)

2.15 Biểu đồ 15 - Biểu đồ mật độ (density plot) thể hiện phân phối giá bán của các điện thoại từ hai thương hiệu SAMSUNG và OPPO

Câu lệnh trên sử dụng ống dẫn (%>%) và gói ggplot2 để vẽ một biểu đồ mật độ (density plot) thể hiện phân phối giá bán của các điện thoại từ hai thương hiệu SAMSUNG và OPPO từ bộ dữ liệu “Smartphones Sales” trong R Markdown. Dưới đây là phân tích kết quả của câu lệnh:

  1. Lọc dữ liệu: Hàm filter() được sử dụng để lọc các dòng dữ liệu chỉ từ thương hiệu SAMSUNG hoặc OPPO (Brands == 'SAMSUNG' | Brands == 'OPPO').
  2. Vẽ biểu đồ mật độ: Hàm ggplot() được sử dụng để tạo một khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định giá trị x (giá bán) và sử dụng màu sắc khác nhau cho từng thương hiệu (fill = Brands).
  3. Hàm geom_density() được sử dụng để vẽ biểu đồ mật độ dựa trên dữ liệu. Biểu đồ mật độ thể hiện phân phối xác suất của giá bán cho từng thương hiệu.
  4. Hàm labs() được sử dụng để đặt tiêu đề cho biểu đồ (title = "Biểu đồ thể hiện giá bán của SAMSUNG và OPPO") và nhãn cho trục x và trục y (x = 'Giá bán', y = 'Tỷ trọng').

Kết quả là một biểu đồ mật độ, trong đó trục x biểu thị giá bán và trục y biểu thị tỷ trọng (xác suất) của giá bán. Các đường mật độ khác nhau tương ứng với hai thương hiệu SAMSUNG và OPPO. Biểu đồ này giúp so sánh phân phối giá bán giữa hai thương hiệu và phân tích sự khác biệt trong giá cả.

s %>% filter(Brands== 'SAMSUNG' | Brands== 'OPPO') %>%
  ggplot(aes(x=Selling.Price, fill = Brands)) +
  geom_density() +
  labs(title = "Biểu đồ thể hiện giá bán của SAMSUNG và OPPO") +
  labs(x = 'Giá bán', y = 'Tỷ trọng')

2.16 Biểu đồ 16 - Biểu đồ tần số (frequency plot) thể hiện số lần xuất hiện của các mức giá gốc của các điện thoại từ hai thương hiệu Apple và OPPO

Câu lệnh trên sử dụng ống dẫn (%>%) và gói ggplot2 để vẽ một biểu đồ tần số (frequency plot) thể hiện số lần xuất hiện của các mức giá gốc của các điện thoại từ hai thương hiệu Apple và OPPO từ bộ dữ liệu “Smartphones Sales” trong R Markdown. Dưới đây là phân tích kết quả của câu lệnh:

  1. Lọc dữ liệu: Hàm filter() được sử dụng để lọc các dòng dữ liệu chỉ từ thương hiệu Apple hoặc OPPO (Brands == 'Apple' | Brands == 'OPPO').

  2. Vẽ biểu đồ tần số: Hàm ggplot() được sử dụng để tạo một khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định giá trị x (giá gốc) và sử dụng màu sắc khác nhau cho từng thương hiệu (color = Brands).

  3. Hàm geom_freqpoly() được sử dụng để vẽ đường tần số dựa trên dữ liệu. Đường tần số thể hiện số lần xuất hiện của từng mức giá gốc.

  4. Hàm `labs()` được sử dụng để đặt tiêu đề cho biểu đồ (`title = “Biểu đồ tần số giá gốc của Apple và OPPO”`) và nhãn cho trục x và trục y (`x = ‘Giá gốc’, y = ‘Tần số xuất hiện’`).

Kết quả là một biểu đồ tần số, trong đó trục x biểu thị giá gốc và trục y biểu thị số lần xuất hiện của mỗi mức giá. Các đường tần số khác nhau tương ứng với hai thương hiệu Apple và OPPO. Biểu đồ này giúp phân tích phân phối giá gốc của các điện thoại từ hai thương hiệu và so sánh tần số xuất hiện giữa chúng.
s %>% filter(Brands== 'Apple' | Brands== 'OPPO') %>%
  ggplot(aes(x=Original.Price, color=Brands)) + 
  geom_freqpoly(linewidth = 1) +
  labs(title = "Biểu đồ tần số giá gốc của Apple và OPPO") +
  labs(x = 'Giá gốc', y = 'Tần số xuất hiện')
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

2.17 Biểu đồ 17 - Biểu đồ cột (column chart) thể hiện số lượng điện thoại của hai thương hiệu vivo và realme

Câu lệnh trên sử dụng ống dẫn (%>%) và gói ggplot2 để vẽ một biểu đồ cột (column chart) thể hiện số lượng điện thoại của hai thương hiệu vivo và realme từ bộ dữ liệu “Smartphones Sales” trong R Markdown. Dưới đây là phân tích kết quả của câu lệnh:

  1. Vẽ biểu đồ cột: Hàm ggplot() được sử dụng để tạo một khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định trục x (hãng điện thoại) và không có thông tin y (y = '').
  2. Hàm geom_col() được sử dụng để vẽ các cột thể hiện số lượng điện thoại. Cụ thể, hai lệnh geom_col() được sử dụng, mỗi lệnh tương ứng với một thương hiệu. Biểu đồ sử dụng dữ liệu đã được lọc thông qua hàm filter() để chỉ hiển thị số lượng điện thoại của vivo và realme. Tham số fill được sử dụng để định nghĩa màu sắc cho cột của từng thương hiệu.
  3. Hàm labs() được sử dụng để đặt tiêu đề cho biểu đồ (title = "Biểu đồ thể hiện số lượng điện thoại của vivo và realme") và nhãn cho trục x và trục y (x = 'Hãng điện thoại', y = 'Số lượng').

Kết quả là một biểu đồ cột, trong đó trục x biểu thị các thương hiệu điện thoại và trục y biểu thị số lượng điện thoại tương ứng. Cột màu đỏ tương ứng với thương hiệu vivo và cột màu vàng tương ứng với thương hiệu realme. Biểu đồ này giúp so sánh số lượng điện thoại giữa hai thương hiệu và phân tích sự khác biệt trong số lượng.

s %>% ggplot(aes(x= Brands, y= '')) +
  geom_col(data = s %>% filter(Brands == 'vivo'), fill = 'red') +
  geom_col(data = s %>% filter(Brands == 'realme'), fill = 'yellow') +
  labs(title = " Biểu đồ thể hiện số lượng điện thoại của vivo và realme") +
  labs(x = 'Hãng điện thoại', y = 'Số lượng')

2.18 Biểu đồ 18 - Biểu đồ điểm (scatter plot) thể hiện số lượng điện thoại của mỗi hãng với điểm số Rating lớn hơn 4

Câu lệnh trên sử dụng ống dẫn (%>%) và gói ggplot2 để vẽ một biểu đồ điểm (scatter plot) thể hiện số lượng điện thoại của mỗi hãng với điểm số Rating lớn hơn 4 từ bộ dữ liệu “Smartphones Sales” trong R Markdown. Dưới đây là phân tích kết quả của câu lệnh:

  1. Lọc dữ liệu: Hàm filter() được sử dụng để lọc các dòng dữ liệu chỉ có Rating lớn hơn 4 (Rating > 4).
  2. Vẽ biểu đồ điểm: Hàm ggplot() được sử dụng để tạo một khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định trục x (hãng) và trục y (Rating).
  3. Hàm geom_point() được sử dụng để vẽ các điểm trên biểu đồ, mỗi điểm tương ứng với một hãng điện thoại. Các điểm được màu đỏ (color = 'red').
  4. Hàm labs() được sử dụng để đặt tiêu đề cho biểu đồ (title = "Biểu đồ số lượng điện thoại của hãng Rating trên 4") và nhãn cho trục x (x = 'Hãng') và trục y (y = 'Rating').

Kết quả là một biểu đồ điểm, trong đó trục x biểu thị các hãng điện thoại và trục y biểu thị điểm số Rating tương ứng. Mỗi điểm trên biểu đồ tương ứng với một hãng điện thoại và màu đỏ. Biểu đồ này giúp hiển thị số lượng điện thoại của mỗi hãng có Rating lớn hơn 4 và phân tích mức độ đánh giá của từng hãng.

s %>% filter(Rating>4) %>%
  ggplot(aes(x=Brands, y=Rating)) +
  geom_point(color = 'red') +
  labs(title = "Biểu đồ số lượng điện thoại của hãng Rating trên 4") +
  labs(x = 'Hãng', 'Rating')

2.19 Biểu đồ 19 - Biểu đồ tần số (frequency plot) thể hiện số lần xuất hiện của các mức giá gốc của các điện thoại có màu đen và trắng

Câu lệnh trên sử dụng ống dẫn (%>%) và gói ggplot2 để vẽ một biểu đồ tần số (frequency plot) thể hiện số lần xuất hiện của các mức giá gốc của các điện thoại có màu đen và trắng từ bộ dữ liệu “Smartphones Sales” trong R Markdown. Dưới đây là phân tích kết quả của câu lệnh:

  1. Lọc dữ liệu: Hàm filter() được sử dụng để lọc các dòng dữ liệu chỉ từ các điện thoại có màu đen hoặc trắng (Colors == 'White' | Colors == 'Black').
  2. Vẽ biểu đồ tần số: Hàm ggplot() được sử dụng để tạo một khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định giá trị x (giá gốc) và sử dụng màu sắc khác nhau cho từng màu (color = Colors).
  3. Hàm geom_freqpoly() được sử dụng để vẽ đường tần số dựa trên dữ liệu. Đường tần số thể hiện số lần xuất hiện của từng mức giá gốc.
  4. Hàm labs() được sử dụng để đặt tiêu đề cho biểu đồ (title = "Biểu đồ tần số giá gốc theo màu đen và trắng") và nhãn cho trục x và trục y (x = 'Giá gốc', y = 'Tần số xuất hiện').

Kết quả là một biểu đồ tần số, trong đó trục x biểu thị giá gốc và trục y biểu thị số lần xuất hiện của mỗi mức giá. Các đường tần số khác nhau tương ứng với hai màu đen và trắng. Biểu đồ này giúp phân tích phân phối giá gốc của các điện thoại có màu đen và trắng và so sánh tần số xuất hiện giữa chúng.

s %>% filter(Colors== 'White' | Colors== 'Black') %>%
  ggplot(aes(x=Original.Price, color=Colors)) + 
  geom_freqpoly(linewidth = 1) +
  labs(title = "Biểu đồ tần số giá gốc theo màu đen và trắng") +
  labs(x = 'Giá gốc', y = 'Tần số xuất hiện')
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

2.20 Biểu đồ 20 - Biểu đồ tần số (frequency plot) thể hiện số lần xuất hiện của các mức đánh giá sự hài lòng của các điện thoại có bộ nhớ RAM là 8 GB và 6 GB

Câu lệnh trên sử dụng ống dẫn (%>%) và gói ggplot2 để vẽ một biểu đồ tần số (frequency plot) thể hiện số lần xuất hiện của các mức đánh giá sự hài lòng của các điện thoại có bộ nhớ RAM là 8 GB và 6 GB từ bộ dữ liệu “Smartphones Sales” trong R Markdown. Dưới đây là phân tích kết quả của câu lệnh:

  1. Lọc dữ liệu: Hàm filter() được sử dụng để lọc các dòng dữ liệu chỉ từ các điện thoại có bộ nhớ RAM là 8 GB hoặc 6 GB (Memory == '8 GB' | Memory == '6 GB').
  2. Vẽ biểu đồ tần số: Hàm ggplot() được sử dụng để tạo một khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định giá trị x (đánh giá sự hài lòng) và sử dụng màu sắc khác nhau cho từng bộ nhớ RAM (color = Memory).
  3. Hàm geom_freqpoly() được sử dụng để vẽ đường tần số dựa trên dữ liệu. Đường tần số thể hiện số lần xuất hiện của từng mức đánh giá sự hài lòng.
  4. Hàm labs() được sử dụng để đặt tiêu đề cho biểu đồ (title = "Biểu đồ tần số giá gốc theo màu đen và trắng") và nhãn cho trục x và trục y (x = 'Sự hài lòng', y = 'Tần số xuất hiện').

Kết quả là một biểu đồ tần số, trong đó trục x biểu thị đánh giá sự hài lòng và trục y biểu thị số lần xuất hiện của mỗi mức đánh giá. Các đường tần số khác nhau tương ứng với hai bộ nhớ RAM là 8 GB và 6 GB. Biểu đồ này giúp phân tích phân phối đánh giá sự hài lòng của các điện thoại có bộ nhớ RAM khác nhau và so sánh tần số xuất hiện giữa chúng.

s %>% filter(Memory== '8 GB' | Memory== '6 GB') %>%
  ggplot(aes(x=Rating, color=Memory)) + 
  geom_freqpoly(linewidth = 1) +
  labs(title = "Biểu đồ tần số giá gốc theo màu đen và trắng") +
  labs(x = 'Sự hài lòng', y = 'Tần số xuất hiện')
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning: Removed 62 rows containing non-finite outside the scale range
## (`stat_bin()`).

