2. Phân tích bộ dữ liệu
2.1 Biểu đồ 1 - Biểu đồ thể hiện % tỷ lệ hãng điện
thoại
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.3.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.0 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.0
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(ggplot2)
library(dplyr)
library(scales)
##
## Attaching package: 'scales'
##
## The following object is masked from 'package:purrr':
##
## discard
##
## The following object is masked from 'package:readr':
##
## col_factor
Câu lệnh trên tạo ra một biểu đồ cột thể hiện tỷ lệ phần trăm của các
hãng điện thoại. Dựa trên dữ liệu đầu vào d, biểu đồ sẽ có
trục x là “Hãng điện thoại” và trục y là “Số lượng”.
Các bước để tạo biểu đồ và phân tích kết quả như sau:
- Dữ liệu được nhóm theo “Brands”, tức là các hãng điện thoại được
nhóm lại.
- Với mỗi nhóm, số lượng phần tử trong nhóm được tính toán bằng hàm
n().
- Biểu đồ cột được tạo ra bằng
geom_col, mỗi cột biểu thị
số lượng phần tử của từng nhóm. Màu sắc cột được đặt là màu xanh lá
cây.
- Tiêu đề của biểu đồ được đặt là “Biểu đồ thể hiện % tỷ lệ hãng điện
thoại”.
- Giao diện của biểu đồ được thiết lập thành giao diện classic bằng
theme_classic().
- Với mỗi cột, một nhãn số được thêm vào biểu đồ bằng
geom_text. Nhãn số này là phần trăm của số lượng phần tử
trong nhóm so với tổng số phần tử của toàn bộ dữ liệu. Màu sắc của nhãn
số được đặt là màu đỏ.
- Nhãn cho trục x được đặt là “Hãng điện thoại” và nhãn cho trục y
được đặt là “Số lượng”.
Kết quả là một biểu đồ cột thể hiện số lượng phần tử và phần trăm của
các hãng điện thoại. Nhãn số trên mỗi cột cho biết tỷ lệ phần trăm của
số lượng phần tử trong hãng điện thoại đó so với tổng số phần tử của
toàn bộ dữ liệu. Màu sắc xanh lá cây của các cột tạo nên sự tương phản
và thu hút sự chú ý của người đọc, trong khi nhãn số màu đỏ giúp nhấn
mạnh giá trị phần trăm.
library(scales)
s %>% group_by(Brands) %>% summarise(n = n()) %>%
ggplot(aes(Brands,n)) +
geom_col(fill='green') +
labs(title = "Biểu đồ thể hiện % tỷ lệ hãng điện thoại") +
theme_classic() +
geom_text(aes(label = percent(n/length(s$Brands))),vjust = 1, color = 'red') +
labs(x = 'Hãng điện thoại', y = 'Số lượng')

2.2 Biểu đồ 2 - Biểu đồ thể hiện nhóm theo sự hài lòng khách
hàng
- Ta tiến hành phân chia biến Rating thành 5 phần: Không hài lòng, Tạm
chấp nhận, Bình thường, Hài lòng, Rất hài lòng.
table(cut(s$Rating,5))
##
## (2.3,2.84] (2.84,3.38] (3.38,3.92] (3.92,4.46] (4.46,5]
## 7 19 371 1992 581
Dựa vào biểu đồ thể hiện nhóm theo sự hài lòng của khách hàng, chúng
ta có thể phân tích kết quả như sau:
Phân bố sự hài lòng: Biểu đồ cho thấy phân bố sự hài lòng của
khách hàng được chia thành 5 nhóm: “không hài lòng”, “Tạm chấp nhận”,
“Bình thường”, “Hài lòng” và “Rất hài lòng”. Mỗi nhóm được biểu diễn
bằng một cột trên biểu đồ. Ngoài ra còn cột “NA” là cột “Không có ý
kiến”.
Số lượng khách hàng trong mỗi nhóm: Chiều cao của các cột thể
hiện số lượng khách hàng trong mỗi nhóm sự hài lòng. Nhìn vào biểu đồ,
chúng ta có thể so sánh số lượng khách hàng giữa các nhóm và nhận ra
nhóm có số lượng khách hàng cao nhất là nhóm “Hài lòng”.
Nhận xét về sự hài lòng: Dựa vào biểu đồ, chúng ta có thể đưa ra
nhận xét về mức độ sự hài lòng của khách hàng. Nhóm “Hài lòng” có số
lượng khách hàng nhiều nhất, chúng ta có thể kết luận rằng hầu hết khách
hàng đánh giá sản phẩm hoặc dịch vụ khá cao. Ngoài ra, nhóm “không hài
lòng” chiếm tỷ lệ thấp nhất, điều này có thể cho thấy sản phẩm hoặc dịch
vụ đáp ứng được sự hài lòng của khách hàng.
s <- s
s1 <- s %>% mutate(HL = cut(Rating,5, label = c('không hài lòng', 'Tạm chấp nhận','Bình thường','Hài lòng','Rất hài lòng')))
s1 %>% group_by(HL) %>% summarise(n = n()) %>%
ggplot(aes(HL,n)) +
geom_col(fill='blue') +
labs(title = " Biểu đồ thể hiện nhóm theo sự hài lòng khách hàng") +
geom_text(aes(label = n),vjust = 0, color = 'black') +
labs(x = 'Sự hài lòng', y = 'Số lượng')

2.3 Biểu đồ 3 - Biểu đồ thể hiện số lượng điện thoại được
chiết khấu
Câu lệnh trên thêm một cột mới vào dữ liệu d được gọi là “group” dựa
trên giá trị của cột “Discount”. Nếu giá trị trong cột “Discount” lớn
hơn 0, thì giá trị trong cột “group” sẽ là “Có chiết khấu”, ngược lại,
giá trị trong cột “group” sẽ là “Không chiết khấu”.
Sau đó, câu lệnh table(d$group) được sử dụng để tạo một bảng tần số,
hiển thị số lượng quan sát trong mỗi nhóm của cột “group”.
Kết quả là một bảng tần số, trong đó các nhóm “Có chiết khấu” và
“Không chiết khấu” được hiển thị và số lượng quan sát trong mỗi nhóm
được đếm lần lượt là 1193 và 1921.
s$group <- ifelse(s$Discount > 0, "Có chiết khấu", "Không chiết khấu")
table(s$group)
##
## Có chiết khấu Không chiết khấu
## 1193 1921
Dựa vào biểu đồ thể hiện nhóm theo chiết khấu, chúng ta có thể phân
tích kết quả như sau:
Phân bố chiết khấu: Biểu đồ cho thấy phân bố các nhóm dựa trên
chiết khấu của sản phẩm. Các nhóm được chia thành “Có chiết khấu” và
“Không chiết khấu”. Mỗi nhóm được biểu diễn bằng một cột trên biểu
đồ.
Số lượng sản phẩm trong mỗi nhóm: Nhóm “Không chiết khấu” có số
lượng 1921 nhiều hơn nhóm “Có chiết khấu” là 1193.
Nhận xét về chiết khấu: Dựa vào biểu đồ, chúng ta có thể đưa ra
nhận xét về mức độ chiết khấu của sản phẩm. Ta thấy nhóm “Không chiết
khấu” chiếm tỷ lệ cao, điều này có thể cho thấy chiết khấu không phổ
biến hoặc không ảnh hưởng đáng kể đến số lượng sản phẩm.
s %>% group_by(group) %>% summarise(n = n()) %>%
ggplot(aes(group,n)) +
geom_col(fill='gray') +
geom_text(aes(label = n),vjust = 2, color = 'red') +
labs(title = " Biểu đồ thể hiện nhóm theo chiết khấu ",x = 'Độ sâu', y = 'Số lượng')

2.4 Biểu đồ 4 - Biểu đồ thể hiện giá bán của các loại điện
thoại
Biểu đồ thể hiện giá bán của điện thoại dựa trên dữ liệu từ tập dữ
liệu. Dưới đây là phân tích kết quả của biểu đồ:
Phân bố giá bán: Biểu đồ histogram cho thấy phân bố giá bán của
điện thoại. Trục x trên biểu đồ biểu diễn giá bán của điện thoại, trong
khi trục y biểu diễn số lượng điện thoại. Mỗi cột trên biểu đồ đại diện
cho một khoảng giá bán, và chiều cao của cột thể hiện số lượng điện
thoại trong khoảng đó.
Binwidth: Thông qua đoạn mã geom_histogram(binwidth = 5000),
binwidth được thiết lập là 5000. Điều này có nghĩa là giá bán của điện
thoại được chia thành các khoảng có độ rộng 5000. Số lượng cột trên biểu
đồ sẽ phụ thuộc vào khoảng giá và binwidth này.
Màu sắc: Các cột trên biểu đồ được tô màu xanh lam (fill =
‘blue’) và có viền màu đỏ (color = ‘red’), tạo nên sự tương phản trực
quan.
Tiêu đề và nhãn trục: Biểu đồ có tiêu đề “Biểu đồ thể hiện giá
bán của điện thoại”, trục x được ghi là “Giá bán” và trục y được ghi là
“Số lượng”.
Biểu đồ này giúp chúng ta nhìn thấy phân phối giá bán của điện thoại
và tập trung giá trong các khoảng giá cụ thể. Chúng ta có thể sử dụng
biểu đồ này để hiểu thị trường và cung cầu của điện thoại, nhận biết các
khoảng giá phổ biến và đánh giá tập trung giá trong các khoảng đó.
s %>% ggplot(aes(x = Selling.Price)) +
geom_histogram(binwidth = 5000, fill = 'blue', color = 'red') +
labs(title = " Biểu đồ thể hiện giá bán của điện thoại ",x = 'Giá bán', y = 'Số lượng')

2.5 Biểu đồ 5 - Biểu đồ thể hiện mật đồ giá bán của điện
thoại
Dưới đây là phân tích kết quả của biểu đồ:
Mật độ giá bán: Biểu đồ mật độ (density plot) thể hiện mật độ
phân bố của giá bán điện thoại. Trục x biểu diễn giá bán, trong khi trục
y biểu diễn mật độ, hay tỷ lệ giữa số lượng điện thoại và diện tích dưới
đường cong.
Màu sắc: Đường cong mật độ được tô màu hồng (“fill = ‘pink’”),
tạo nên sự tương phản trực quan.
Tiêu đề và nhãn trục: Biểu đồ có tiêu đề “Biểu đồ thể hiện mật độ
giá bán của điện thoại”, trục x được ghi là “Giá bán” và trục y được ghi
là “Mật độ”.
Biểu đồ mật độ giúp chúng ta nhìn thấy sự phân bố mật độ của giá bán
điện thoại. Đường cong mật độ càng cao tại một giá trị cụ thể, càng cho
thấy mật độ lớn hơn của giá bán ở đó. Điều này giúp chúng ta hiểu rõ hơn
về mức độ tập trung và biểu diễn phân phối giá bán của điện thoại trong
tập dữ liệu.
Lưu ý rằng để phân tích kết quả chi tiết hơn, cần xem xét thông tin
cụ thể về dữ liệu và ngữ cảnh của nghiên cứu.
s %>% ggplot(aes(x = Selling.Price)) +
geom_density(fill = 'pink') +
labs(title = " Biểu đồ thể hiện mật độ giá bán của điện thoại ",x = 'Giá bán', y = 'Mật độ')

2.6 Biểu đồ 6 - Biểu đồ thể hiện tỷ lệ có camera của điện
thoại
Tạo ra một biểu đồ cột (bar chart) thể hiện số lượng điện thoại có
Camera dựa trên dữ liệu từ tập dữ liệu d. Dưới đây là phân
tích kết quả của biểu đồ:
Nhóm và tổng hợp dữ liệu: Đầu tiên, dữ liệu được nhóm theo biến
Camera bằng cách sử dụng group_by(Camera) và sau đó đếm số lượng điện
thoại trong mỗi nhóm bằng cách sử dụng summarise(n = n()). Kết quả là
một bảng dữ liệu với hai cột: Camera (biến nhóm) và n (số lượng điện
thoại có Camera).
Biểu đồ cột: Dữ liệu sau khi được tổng hợp được sử dụng để tạo
biểu đồ cột. Trục x trên biểu đồ biểu diễn các giá trị trong biến
Camera, trong khi trục y biểu diễn số lượng điện thoại
tương ứng. Mỗi cột trên biểu đồ đại diện cho một giá trị trong biến
Camera, và chiều cao của cột thể hiện số lượng điện
thoại.
Màu sắc: Các cột trên biểu đồ được tô màu đen
(fill='black'), tạo nên sự tương phản trực quan.
Chú thích số lượng: Số lượng điện thoại được hiển thị trên mỗi
cột sử dụng geom_text và được đặt nhãn
(label = n). Chú thích này có màu đỏ
(color = 'red') và được đặt vị trí dọc
(vjust = 2) để nằm trên cột tương ứng.
Tiêu đề và nhãn trục: Biểu đồ có tiêu đề “Biểu đồ thể hiện số
lượng điện thoại có Camera”, trục x được ghi là “Điện thoại có Camera”
và trục y được ghi là “Số lượng”.
Biểu đồ này giúp chúng ta nhìn thấy số lượng điện thoại có Camera
trong tập dữ liệu là 3114 và nó chiếm 100% số lượng điện thoại. Vậy có
lượng điện thoại không có camera là 0. Suy ra, hiện nay có thể nói đa số
điện thoại được sản xuất ra đều có Camera.
s %>% group_by(Camera) %>% summarise(n = n()) %>%
ggplot(aes(Camera,n)) +
geom_col(fill='black') +
geom_text(aes(label = n),vjust = 2, color = 'red') +
labs(title = " Biểu đồ thể hiện Số lượng điện thoại có Camera ",x = 'Điện thoại có Camera', y = 'Số lượng')

2.7 Biểu đồ 7 - Biểu đồ thể hiện mật độ chiết khấu của điện
thoại dựa trên giá gốc
Chúng ta có một biểu đồ mật độ (density plot) mới dựa trên giá gốc
(Original.Price) của dữ liệu. Biểu đồ này cũng được phân chia thành các
nhóm sử dụng facet_wrap(~group). Dưới đây là phân tích kết
quả của biểu đồ:
Mật độ giá gốc: Biểu đồ mật độ thể hiện mật độ phân bố của giá
gốc của điện thoại. Trục x biểu diễn giá gốc, trong khi trục y biểu diễn
mật độ, hay tỷ lệ giữa số lượng điện thoại và diện tích dưới đường
cong.
Màu sắc: Đường cong mật độ được tô màu xanh lá cây (“fill =
‘green’”), tạo nên sự tương phản trực quan.
Phân nhóm: Biểu đồ được phân chia thành các nhóm bằng
facet_wrap(~group). Mỗi nhóm có thể hiển thị trên một panel
riêng biệt, giúp so sánh mật độ giá gốc giữa hai nhóm “Có chiết khấu” và
“Không chiết khấu”.
Biểu đồ mật độ giúp chúng ta nhìn thấy sự phân bố mật độ của giá gốc
trong từng nhóm khác nhau của dữ liệu. Điều này giúp chúng ta so sánh
mật độ giá gốc giữa hai nhóm “Có chiết khấu” và “Không chiết khấu” là
tương đương nhau.
s %>% ggplot(aes(x = Original.Price)) +
geom_density(fill = 'green') +
facet_wrap(~group) +
labs(title = "Biểu đồ thể hiện mật độ chiết khấu của điện thoại dựa trên giá gốc")

2.8 Biểu đồ 8 - Biểu đồ cột (bar chart) thể hiện số lượng
điện thoại theo từng nhãn hiệu (Brands)
Biểu đồ cột (bar chart) thể hiện số lượng điện thoại theo từng nhãn
hiệu (Brands) dựa trên dữ liệu từ tập dữ liệu d. Dưới đây
là phân tích kết quả của biểu đồ:
Nhóm và tổng hợp dữ liệu: Đầu tiên, dữ liệu được nhóm theo biến
Brands bằng cách sử dụng group_by(Brands) và
sau đó đếm số lượng điện thoại trong mỗi nhóm bằng cách sử dụng
summarise(n = n()). Kết quả là một bảng dữ liệu với hai
cột: Brands (nhãn hiệu) và n (số lượng điện
thoại của từng nhãn hiệu).
Biểu đồ cột: Dữ liệu sau khi được tổng hợp được sử dụng để tạo
biểu đồ cột. Trục x trên biểu đồ biểu diễn các giá trị trong biến
Brands, trong khi trục y biểu diễn số lượng điện thoại
tương ứng. Mỗi cột trên biểu đồ đại diện cho một nhãn hiệu, và chiều cao
của cột thể hiện số lượng điện thoại.
Chú thích số lượng: Số lượng điện thoại được hiển thị trên mỗi
cột sử dụng geom_text và được đặt nhãn
(label = n). Vị trí của chú thích được đặt bằng
position_stack(vjust = 1), giúp chú thích nằm trên cột
tương ứng.
s %>% group_by(Brands) %>% summarise(n = n()) %>%
ggplot(aes(Brands,n)) +
geom_col() +
geom_text(aes(label = n),position = position_stack(vjust = 1)) +
labs(title = "Biểu đồ thể hiện số lượng của điện thoại dựa trên thương hiệu")

Phân phối nhãn hiệu: Biểu đồ cột cho thấy phân phối số lượng điện
thoại theo từng nhãn hiệu có sự chênh lệch rõ ràng.
So sánh giữa các nhãn hiệu: Biểu đồ cột giúp chúng ta so sánh số
lượng điện thoại giữa các nhãn hiệu. Chúng ta có thể xác định được nhãn
hiệu nổi bật với số lượng điện thoại cao hơn so với những nhãn hiệu khác
là thương hiệu SAMSUNG với số lượng 719, thấp nhất là thương hiệu IQOO
với số lượng là 5.
2.9 Biểu đồ 9 - Biểu đồ histogram thể hiện phân phối giá gốc
(Original.Price) của điện thoại từ hai nhãn hiệu ‘Apple’ và
‘SAMSUNG’
Biểu đồ histogram thể hiện phân phối giá gốc (Original.Price) của
điện thoại từ hai nhãn hiệu ‘Apple’ và ‘SAMSUNG’ trong tập dữ liệu
d. Dưới đây là phân tích kết quả của biểu đồ:
Xác định biến và dữ liệu: Biến x trên trục x của
biểu đồ được xác định là giá gốc (Original.Price). Dữ liệu được sử dụng
để tạo biểu đồ là tập dữ liệu d.
Biểu đồ histogram: Để hiển thị phân phối giá gốc của điện thoại
từ nhãn hiệu ‘Apple’, bạn sử dụng geom_histogram và lọc dữ
liệu bằng filter(Brands == 'Apple'). Kết quả là một
histogram với các cột biểu thị tần suất của các khoảng giá gốc. Tương
tự, bạn tạo một histogram khác cho nhãn hiệu ‘SAMSUNG’.
Cấu hình binwidth và màu sắc: Thông qua đối số
binwidth = 2000, bạn chỉ định rằng mỗi khoảng trên biểu đồ
histogram có chiều rộng là 2000. Điều này ảnh hưởng đến số lượng và kích
thước của các cột trên biểu đồ. Bạn sử dụng fill để thiết
lập màu sắc của các cột, ví dụ: ‘red’ cho ‘Apple’ và ‘lightgreen’ cho
‘SAMSUNG’.
s %>% ggplot(aes(x = Original.Price)) +
geom_histogram(data = s %>% filter(Brands == 'Apple'), binwidth = 2000, fill = 'red') +
geom_histogram(data = s %>% filter(Brands == 'SAMSUNG'), binwidth = 2000, fill = 'lightgreen') +
labs(title = "Biểu đồ histogram thể hiện phân phối giá gốc của điện thoại")

2.10 Biểu đồ 10 - Biểu đồ cột đồng tâm thể hiện số lượng
điện thoại từng nhãn hiệu từ bộ dữ liệu
Câu lệnh trên sử dụng ống dẫn (%>%) và gói
ggplot2 để vẽ một biểu đồ cột đồng tâm thể hiện số lượng
điện thoại từng nhãn hiệu từ bộ dữ liệu “Smartphones Sales” trong R
Markdown. Dưới đây là phân tích kết quả của câu lệnh:
- Nhóm dữ liệu: Câu lệnh sử dụng hàm
group_by() để nhóm
dữ liệu theo nhãn hiệu (Brands).
- Tính tổng số lượng: Hàm
summarise() được sử dụng để
tính số lượng (n) cho mỗi nhãn hiệu.
- Vẽ biểu đồ cột đồng tâm: Hàm
ggplot() được sử dụng để
tạo một khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ
định giá trị x (rỗng) và giá trị y (số lượng) của từng nhãn hiệu, và sử
dụng màu sắc khác nhau cho từng nhãn hiệu
(fill = Brands).
- Hàm
geom_col() được sử dụng để vẽ các cột.
- Hàm
coord_polar('y') được sử dụng để chuyển đổi biểu đồ
sang dạng đồng tâm.
- Hàm
geom_text() được sử dụng để thêm chú thích số liệu
lên các cột. Thông qua tham số label = n, chú thích sẽ hiển
thị giá trị số lượng (n), và thông qua tham số
position_stack(vjust = .5), chú thích được căn chỉnh theo
chiều dọc.
- Hàm
theme_void() được sử dụng để loại bỏ nền và các
thành phần trang trí khác của biểu đồ.
Kết quả là một biểu đồ cột đồng tâm, trong đó mỗi cột biểu thị số
lượng điện thoại từng nhãn hiệu. Các cột được sắp xếp xung quanh một
trục tròn và có thể so sánh sự khác biệt về số lượng giữa các nhãn
hiệu.
s %>% group_by(Brands) %>% summarise(n = n()) %>%
ggplot(aes(x ='', y = n,fill = Brands)) +
geom_col(color = 'black') +
coord_polar('y') +
geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
theme_void()

Số lượng điện thoại theo nhãn hiệu: Chúng ta có thể xác định được
nhãn hiệu nổi bật với số lượng điện thoại cao hơn so với những nhãn hiệu
khác là thương hiệu SAMSUNG với số lượng 719, thấp nhất là thương hiệu
IQOO với số lượng là 5.
2.11 Biểu đồ 11 - Biểu đồ cột đồng tâm thể hiện số lượng
điện thoại SAMSUNG theo chiết khấu
Câu lệnh trên sử dụng ống dẫn (%>%) và gói
ggplot2 để vẽ một biểu đồ cột đồng tâm thể hiện số lượng
điện thoại Samsung theo từng nhóm từ bộ dữ liệu “Smartphones Sales”
trong R Markdown. Sau đây là phân tích kết quả của câu lệnh:
- Lọc dữ liệu: Câu lệnh
filter(Brands == 'SAMSUNG') sử
dụng hàm filter() để chỉ lấy dữ liệu của điện thoại Samsung
(Brands == 'SAMSUNG'), và gán kết quả cho biến
s2.
- Nhóm dữ liệu: Câu lệnh
group_by(group) sử dụng hàm
group_by() để nhóm dữ liệu theo nhóm
(group).
- Tính tổng số lượng: Hàm
summarise() được sử dụng để
tính số lượng (n) cho mỗi nhóm.
- Vẽ biểu đồ cột đồng tâm: Hàm
ggplot() được sử dụng để
tạo một khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ
định giá trị x (rỗng) và giá trị y (số lượng) của từng nhóm, và sử dụng
màu sắc khác nhau cho từng nhóm (fill = group).
- Hàm
geom_col() được sử dụng để vẽ các cột. Tham số
width = 1 được sử dụng để đặt chiều rộng của các cột.
- Hàm
coord_polar('y') được sử dụng để chuyển đổi biểu đồ
sang dạng đồng tâm.
- Hàm
geom_text() được sử dụng để thêm chú thích số liệu
lên các cột. Thông qua tham số label = n, chú thích sẽ hiển
thị giá trị số lượng (n), và thông qua tham số
position_stack(vjust = .5), chú thích được căn chỉnh theo
chiều dọc.
- Hàm
theme_void() được sử dụng để loại bỏ nền và các
thành phần trang trí khác của biểu đồ.
Kết quả là một biểu đồ cột đồng tâm, trong đó mỗi cột biểu thị số
lượng điện thoại Samsung theo từng nhóm. Các cột được sắp xếp xung quanh
một trục tròn và có thể so sánh sự khác biệt về số lượng giữa các
nhóm.
s2 <- s %>% filter(Brands == 'SAMSUNG' )
s2 %>% group_by(group) %>% summarise(n = n()) %>%
ggplot(aes(x = '', y = n,fill = group)) +
geom_col(color = 'black', width = 1) +
coord_polar('y') +
geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
theme_void()

2.12 Biểu đồ 12 - Biểu đồ điểm thể hiện mối quan hệ giữa giá
bán khách hàng và giá niêm yết
Câu lệnh trên sử dụng ống dẫn (%>%) và gói
ggplot2 để vẽ một biểu đồ điểm thể hiện mối quan hệ giữa
giá bán khách hàng và giá niêm yết của điện thoại từ bộ dữ liệu
“Smartphones Sales” trong R Markdown. Dưới đây là phân tích kết quả của
câu lệnh:
- Vẽ biểu đồ điểm: Hàm
ggplot() được sử dụng để tạo một
khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định
giá trị x (giá bán khách hàng) và giá trị y (giá niêm yết) của từng
điểm.
- Hàm
geom_point() được sử dụng để vẽ các điểm trên biểu
đồ, biểu thị mỗi điểm dữ liệu.
- Hàm
xlab() và ylab() được sử dụng để đặt
nhãn cho trục x và trục y tương ứng, giúp diễn giải ý nghĩa của các
trục.
Kết quả là một biểu đồ điểm, trong đó mỗi điểm biểu thị mối quan hệ
giữa giá bán khách hàng (trục x) và giá niêm yết (trục y) của từng điện
thoại. Biểu đồ này giúp hiển thị phân phối và mối liên hệ giữa hai biến
giá trị.
s %>% ggplot(aes(x = Selling.Price, y = Original.Price)) +
geom_point() +
xlab('Giá bán khách hàng') +
ylab('Giá niêm yết')

2.13 Biểu đồ 13 - Biểu đồ điểm thể hiện mối quan hệ giữa khả
năng lưu trữ thông thường và khả năng lưu trữ nội bộ của điện
thoại
Câu lệnh trên sử dụng ống dẫn (%>%) và gói
ggplot2 để vẽ một biểu đồ điểm thể hiện mối quan hệ giữa
khả năng lưu trữ thông thường và khả năng lưu trữ nội bộ của điện thoại
từ bộ dữ liệu “Smartphones Sales” trong R Markdown. Dưới đây là phân
tích kết quả của câu lệnh:
- Vẽ biểu đồ điểm: Hàm
ggplot() được sử dụng để tạo một
khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định
giá trị x (khả năng lưu trữ thông thường) và giá trị y (khả năng lưu trữ
nội bộ) của từng điểm.
- Hàm
geom_point() được sử dụng để vẽ các điểm trên biểu
đồ, biểu thị mỗi điểm dữ liệu. Tham số color = 'lightblue'
được sử dụng để đặt màu sắc của các điểm là màu xanh nhạt.
- Hàm
geom_smooth() được sử dụng để vẽ đường hồi quy
tuyến tính dựa trên dữ liệu. Tham số method = 'lm' chỉ định
sử dụng phương pháp hồi quy tuyến tính, và color = 'green'
đặt màu sắc của đường hồi quy là màu xanh lá cây.
- Hàm
xlab() và ylab() được sử dụng để đặt
nhãn cho trục x và trục y tương ứng, giúp diễn giải ý nghĩa của các
trục.
Kết quả là một biểu đồ điểm, trong đó mỗi điểm biểu thị mối quan hệ
giữa khả năng lưu trữ thông thường (trục x) và khả năng lưu trữ nội bộ
(trục y) của từng điện thoại. Các điểm được hiển thị với màu sắc xanh
nhạt, và đường hồi quy tuyến tính được vẽ để biểu thị xu hướng tổng quát
của dữ liệu. Biểu đồ này giúp phân tích mối liên hệ giữa hai biến khả
năng lưu trữ và xác định xu hướng chung.
s %>% ggplot(aes(x = Memory, y = Storage)) +
geom_point(color ='lightblue') +
geom_smooth(method = 'lm', color = 'green') +
xlab('Khả năng lưu trữ thông thường') +
ylab('Khả năng lưu trữ nội bộ')
## `geom_smooth()` using formula = 'y ~ x'

2.14 Biểu đồ 14 - Biểu đồ histogram thể hiện phân bố giá bán
khách hàng của điện thoại theo khả năng lưu trữ
Câu lệnh trên sử dụng ống dẫn (%>%) và gói
ggplot2 để vẽ một biểu đồ histogram thể hiện phân bố giá
bán khách hàng của điện thoại theo khả năng lưu trữ từ bộ dữ liệu
“Smartphones Sales” trong R Markdown. Dưới đây là phân tích kết quả của
câu lệnh:
- Vẽ biểu đồ histogram: Hàm
ggplot() được sử dụng để tạo
một khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ
định giá trị x (giá bán khách hàng) và sử dụng màu sắc khác nhau cho
từng khoảng giá dựa trên khả năng lưu trữ
(fill = Memory).
- Hàm
geom_histogram() được sử dụng để vẽ histogram. Tham
số binwidth = 6000 xác định độ rộng của các khoảng giá,
trong trường hợp này là 6000.
Kết quả là một biểu đồ histogram, trong đó trục x biểu thị giá bán
khách hàng và trục y biểu thị số lượng điện thoại trong từng khoảng giá.
Các khoảng giá có màu sắc khác nhau dựa trên khả năng lưu trữ của điện
thoại. Biểu đồ này giúp phân tích phân phối giá bán khách hàng và mối
liên hệ với khả năng lưu trữ.
s %>% ggplot(aes(x = Selling.Price, fill = Memory)) +
geom_histogram(binwidth = 6000)

2.15 Biểu đồ 15 - Biểu đồ mật độ (density plot) thể hiện
phân phối giá bán của các điện thoại từ hai thương hiệu SAMSUNG và
OPPO
Câu lệnh trên sử dụng ống dẫn (%>%) và gói
ggplot2 để vẽ một biểu đồ mật độ (density plot) thể hiện
phân phối giá bán của các điện thoại từ hai thương hiệu SAMSUNG và OPPO
từ bộ dữ liệu “Smartphones Sales” trong R Markdown. Dưới đây là phân
tích kết quả của câu lệnh:
- Lọc dữ liệu: Hàm
filter() được sử dụng để lọc các dòng
dữ liệu chỉ từ thương hiệu SAMSUNG hoặc OPPO
(Brands == 'SAMSUNG' | Brands == 'OPPO').
- Vẽ biểu đồ mật độ: Hàm
ggplot() được sử dụng để tạo một
khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định
giá trị x (giá bán) và sử dụng màu sắc khác nhau cho từng thương hiệu
(fill = Brands).
- Hàm
geom_density() được sử dụng để vẽ biểu đồ mật độ
dựa trên dữ liệu. Biểu đồ mật độ thể hiện phân phối xác suất của giá bán
cho từng thương hiệu.
- Hàm
labs() được sử dụng để đặt tiêu đề cho biểu đồ
(title = "Biểu đồ thể hiện giá bán của SAMSUNG và OPPO") và
nhãn cho trục x và trục y
(x = 'Giá bán', y = 'Tỷ trọng').
Kết quả là một biểu đồ mật độ, trong đó trục x biểu thị giá bán và
trục y biểu thị tỷ trọng (xác suất) của giá bán. Các đường mật độ khác
nhau tương ứng với hai thương hiệu SAMSUNG và OPPO. Biểu đồ này giúp so
sánh phân phối giá bán giữa hai thương hiệu và phân tích sự khác biệt
trong giá cả.
s %>% filter(Brands== 'SAMSUNG' | Brands== 'OPPO') %>%
ggplot(aes(x=Selling.Price, fill = Brands)) +
geom_density() +
labs(title = "Biểu đồ thể hiện giá bán của SAMSUNG và OPPO") +
labs(x = 'Giá bán', y = 'Tỷ trọng')

2.16 Biểu đồ 16 - Biểu đồ tần số (frequency plot) thể hiện
số lần xuất hiện của các mức giá gốc của các điện thoại từ hai thương
hiệu Apple và OPPO
Câu lệnh trên sử dụng ống dẫn (%>%) và gói
ggplot2 để vẽ một biểu đồ tần số (frequency plot) thể hiện
số lần xuất hiện của các mức giá gốc của các điện thoại từ hai thương
hiệu Apple và OPPO từ bộ dữ liệu “Smartphones Sales” trong R Markdown.
Dưới đây là phân tích kết quả của câu lệnh:
Lọc dữ liệu: Hàm filter() được sử dụng để lọc các
dòng dữ liệu chỉ từ thương hiệu Apple hoặc OPPO
(Brands == 'Apple' | Brands == 'OPPO').
Vẽ biểu đồ tần số: Hàm ggplot() được sử dụng để tạo
một khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ
định giá trị x (giá gốc) và sử dụng màu sắc khác nhau cho từng thương
hiệu (color = Brands).
Hàm geom_freqpoly() được sử dụng để vẽ đường tần số
dựa trên dữ liệu. Đường tần số thể hiện số lần xuất hiện của từng mức
giá gốc.
Hàm `labs()` được sử dụng để đặt tiêu đề cho biểu đồ (`title =
“Biểu đồ tần số giá gốc của Apple và OPPO”`) và nhãn cho trục x và trục
y (`x = ‘Giá gốc’, y = ‘Tần số xuất hiện’`).
Kết quả là một biểu đồ tần số, trong đó trục x biểu thị giá gốc và trục y biểu thị số lần xuất hiện của mỗi mức giá. Các đường tần số khác nhau tương ứng với hai thương hiệu Apple và OPPO. Biểu đồ này giúp phân tích phân phối giá gốc của các điện thoại từ hai thương hiệu và so sánh tần số xuất hiện giữa chúng.
s %>% filter(Brands== 'Apple' | Brands== 'OPPO') %>%
ggplot(aes(x=Original.Price, color=Brands)) +
geom_freqpoly(linewidth = 1) +
labs(title = "Biểu đồ tần số giá gốc của Apple và OPPO") +
labs(x = 'Giá gốc', y = 'Tần số xuất hiện')
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

2.17 Biểu đồ 17 - Biểu đồ cột (column chart) thể hiện số
lượng điện thoại của hai thương hiệu vivo và realme
Câu lệnh trên sử dụng ống dẫn (%>%) và gói
ggplot2 để vẽ một biểu đồ cột (column chart) thể hiện số
lượng điện thoại của hai thương hiệu vivo và realme từ bộ dữ liệu
“Smartphones Sales” trong R Markdown. Dưới đây là phân tích kết quả của
câu lệnh:
- Vẽ biểu đồ cột: Hàm
ggplot() được sử dụng để tạo một
khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định
trục x (hãng điện thoại) và không có thông tin y
(y = '').
- Hàm
geom_col() được sử dụng để vẽ các cột thể hiện số
lượng điện thoại. Cụ thể, hai lệnh geom_col() được sử dụng,
mỗi lệnh tương ứng với một thương hiệu. Biểu đồ sử dụng dữ liệu đã được
lọc thông qua hàm filter() để chỉ hiển thị số lượng điện
thoại của vivo và realme. Tham số fill được sử dụng để định
nghĩa màu sắc cho cột của từng thương hiệu.
- Hàm
labs() được sử dụng để đặt tiêu đề cho biểu đồ
(title = "Biểu đồ thể hiện số lượng điện thoại của vivo và realme")
và nhãn cho trục x và trục y
(x = 'Hãng điện thoại', y = 'Số lượng').
Kết quả là một biểu đồ cột, trong đó trục x biểu thị các thương hiệu
điện thoại và trục y biểu thị số lượng điện thoại tương ứng. Cột màu đỏ
tương ứng với thương hiệu vivo và cột màu vàng tương ứng với thương hiệu
realme. Biểu đồ này giúp so sánh số lượng điện thoại giữa hai thương
hiệu và phân tích sự khác biệt trong số lượng.
s %>% ggplot(aes(x= Brands, y= '')) +
geom_col(data = s %>% filter(Brands == 'vivo'), fill = 'red') +
geom_col(data = s %>% filter(Brands == 'realme'), fill = 'yellow') +
labs(title = " Biểu đồ thể hiện số lượng điện thoại của vivo và realme") +
labs(x = 'Hãng điện thoại', y = 'Số lượng')

2.18 Biểu đồ 18 - Biểu đồ điểm (scatter plot) thể hiện số
lượng điện thoại của mỗi hãng với điểm số Rating lớn hơn 4
Câu lệnh trên sử dụng ống dẫn (%>%) và gói
ggplot2 để vẽ một biểu đồ điểm (scatter plot) thể hiện số
lượng điện thoại của mỗi hãng với điểm số Rating lớn hơn 4 từ bộ dữ liệu
“Smartphones Sales” trong R Markdown. Dưới đây là phân tích kết quả của
câu lệnh:
- Lọc dữ liệu: Hàm
filter() được sử dụng để lọc các dòng
dữ liệu chỉ có Rating lớn hơn 4 (Rating > 4).
- Vẽ biểu đồ điểm: Hàm
ggplot() được sử dụng để tạo một
khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định
trục x (hãng) và trục y (Rating).
- Hàm
geom_point() được sử dụng để vẽ các điểm trên biểu
đồ, mỗi điểm tương ứng với một hãng điện thoại. Các điểm được màu đỏ
(color = 'red').
- Hàm
labs() được sử dụng để đặt tiêu đề cho biểu đồ
(title = "Biểu đồ số lượng điện thoại của hãng Rating trên 4")
và nhãn cho trục x (x = 'Hãng') và trục y
(y = 'Rating').
Kết quả là một biểu đồ điểm, trong đó trục x biểu thị các hãng điện
thoại và trục y biểu thị điểm số Rating tương ứng. Mỗi điểm trên biểu đồ
tương ứng với một hãng điện thoại và màu đỏ. Biểu đồ này giúp hiển thị
số lượng điện thoại của mỗi hãng có Rating lớn hơn 4 và phân tích mức độ
đánh giá của từng hãng.
s %>% filter(Rating>4) %>%
ggplot(aes(x=Brands, y=Rating)) +
geom_point(color = 'red') +
labs(title = "Biểu đồ số lượng điện thoại của hãng Rating trên 4") +
labs(x = 'Hãng', 'Rating')

2.19 Biểu đồ 19 - Biểu đồ tần số (frequency plot) thể hiện
số lần xuất hiện của các mức giá gốc của các điện thoại có màu đen và
trắng
Câu lệnh trên sử dụng ống dẫn (%>%) và gói
ggplot2 để vẽ một biểu đồ tần số (frequency plot) thể hiện
số lần xuất hiện của các mức giá gốc của các điện thoại có màu đen và
trắng từ bộ dữ liệu “Smartphones Sales” trong R Markdown. Dưới đây là
phân tích kết quả của câu lệnh:
- Lọc dữ liệu: Hàm
filter() được sử dụng để lọc các dòng
dữ liệu chỉ từ các điện thoại có màu đen hoặc trắng
(Colors == 'White' | Colors == 'Black').
- Vẽ biểu đồ tần số: Hàm
ggplot() được sử dụng để tạo một
khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định
giá trị x (giá gốc) và sử dụng màu sắc khác nhau cho từng màu
(color = Colors).
- Hàm
geom_freqpoly() được sử dụng để vẽ đường tần số dựa
trên dữ liệu. Đường tần số thể hiện số lần xuất hiện của từng mức giá
gốc.
- Hàm
labs() được sử dụng để đặt tiêu đề cho biểu đồ
(title = "Biểu đồ tần số giá gốc theo màu đen và trắng") và
nhãn cho trục x và trục y
(x = 'Giá gốc', y = 'Tần số xuất hiện').
Kết quả là một biểu đồ tần số, trong đó trục x biểu thị giá gốc và
trục y biểu thị số lần xuất hiện của mỗi mức giá. Các đường tần số khác
nhau tương ứng với hai màu đen và trắng. Biểu đồ này giúp phân tích phân
phối giá gốc của các điện thoại có màu đen và trắng và so sánh tần số
xuất hiện giữa chúng.
s %>% filter(Colors== 'White' | Colors== 'Black') %>%
ggplot(aes(x=Original.Price, color=Colors)) +
geom_freqpoly(linewidth = 1) +
labs(title = "Biểu đồ tần số giá gốc theo màu đen và trắng") +
labs(x = 'Giá gốc', y = 'Tần số xuất hiện')
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

2.20 Biểu đồ 20 - Biểu đồ tần số (frequency plot) thể hiện
số lần xuất hiện của các mức đánh giá sự hài lòng của các điện thoại có
bộ nhớ RAM là 8 GB và 6 GB
Câu lệnh trên sử dụng ống dẫn (%>%) và gói
ggplot2 để vẽ một biểu đồ tần số (frequency plot) thể hiện
số lần xuất hiện của các mức đánh giá sự hài lòng của các điện thoại có
bộ nhớ RAM là 8 GB và 6 GB từ bộ dữ liệu “Smartphones Sales” trong R
Markdown. Dưới đây là phân tích kết quả của câu lệnh:
- Lọc dữ liệu: Hàm
filter() được sử dụng để lọc các dòng
dữ liệu chỉ từ các điện thoại có bộ nhớ RAM là 8 GB hoặc 6 GB
(Memory == '8 GB' | Memory == '6 GB').
- Vẽ biểu đồ tần số: Hàm
ggplot() được sử dụng để tạo một
khung biểu đồ. Thông qua tham số aes(), biểu đồ chỉ định
giá trị x (đánh giá sự hài lòng) và sử dụng màu sắc khác nhau cho từng
bộ nhớ RAM (color = Memory).
- Hàm
geom_freqpoly() được sử dụng để vẽ đường tần số dựa
trên dữ liệu. Đường tần số thể hiện số lần xuất hiện của từng mức đánh
giá sự hài lòng.
- Hàm
labs() được sử dụng để đặt tiêu đề cho biểu đồ
(title = "Biểu đồ tần số giá gốc theo màu đen và trắng") và
nhãn cho trục x và trục y
(x = 'Sự hài lòng', y = 'Tần số xuất hiện').
Kết quả là một biểu đồ tần số, trong đó trục x biểu thị đánh giá sự
hài lòng và trục y biểu thị số lần xuất hiện của mỗi mức đánh giá. Các
đường tần số khác nhau tương ứng với hai bộ nhớ RAM là 8 GB và 6 GB.
Biểu đồ này giúp phân tích phân phối đánh giá sự hài lòng của các điện
thoại có bộ nhớ RAM khác nhau và so sánh tần số xuất hiện giữa
chúng.
s %>% filter(Memory== '8 GB' | Memory== '6 GB') %>%
ggplot(aes(x=Rating, color=Memory)) +
geom_freqpoly(linewidth = 1) +
labs(title = "Biểu đồ tần số giá gốc theo màu đen và trắng") +
labs(x = 'Sự hài lòng', y = 'Tần số xuất hiện')
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning: Removed 62 rows containing non-finite outside the scale range
## (`stat_bin()`).

