Tiến hành phân
tích bộ dữ liệu:insurance
Biểu đồ phân bố tuổi
tác:
library(ggplot2)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
ggplot(a) +
geom_bar(aes(x = age, fill = sex)) +
labs(title = "Phân bố tuổi tác", x = "Tuổi", y = "Số lượng", fill = "Giới tính") +
scale_fill_brewer(palette = "Set1") +
theme(legend.position = "bottom")

- Giải thích ý nghĩa câu lệnh:
ggplot(a): Khởi tạo một ggplot object từ dữ liệu được lưu trữ
trong biến a.
geom_bar(aes(x = age, fill = sex)): Thêm layer biểu đồ dạng thanh
vào ggplot object.
- aes(x = age, fill = sex): Xác định các biến được sử dụng để tạo biểu
đồ:
- x = age: Trục hoành biểu thị “Tuổi”.
- fill = sex: Màu sắc thanh biểu đồ thể hiện “Giới tính”.
labs(title = “Phân bố tuổi tác”, x = “Tuổi”, y = “Số lượng”, fill
= “Giới tính”): Thêm tiêu đề và chú thích cho các trục và phần tô
màu.
- title = “Phân bố tuổi tác”: Tiêu đề cho biểu đồ.
- x = “Tuổi”: Chú thích cho trục hoành.
- y = “Số lượng”: Chú thích cho trục tung.
- fill = “Giới tính”: Chú thích cho phần tô màu.
scale_fill_brewer(palette = “Set1”): Chọn bảng màu “Set1” từ bộ
màu Brewer để tô màu cho các thanh biểu đồ.
theme(legend.position = “bottom”): Di chuyển vị trí legenda xuống
dưới cùng của biểu đồ.
Biểu đồ phân bố giới
tính:
a %>% group_by(sex) %>% summarise(k = n()) %>%
ggplot(aes(sex,k)) +
geom_col(fill='brown') +
geom_text(aes(label = k),vjust = 2, color = 'white') +
labs(title = "Phân bố giới tính", x = "Giới tính", y = "Số lượng")

- Giải thích ý nghĩa câu lệnh:
a %>% group_by(sex): Nhóm dữ liệu trong biến a theo biến
sex.
%>% summarise(k = n()): Tính tổng số lượng bản ghi trong mỗi
nhóm giới tính và lưu trữ kết quả trong biến k.
ggplot(aes(sex,k)): Khởi tạo một ggplot object từ dữ liệu được
lưu trữ trong biến k với các biến sex và k được sử dụng để tạo biểu
đồ.
geom_col(fill=‘brown’): Thêm layer biểu đồ dạng cột vào ggplot
object với màu nâu.
geom_text(aes(label = k),vjust = 2, color = ‘white’): Thêm layer
văn bản hiển thị giá trị k bên trên mỗi cột với màu trắng và vị trí được
điều chỉnh lên cao một chút.
labs(title = “Phân bố giới tính”, x = “Giới tính”, y = “Số
lượng”): Thêm tiêu đề và chú thích cho các trục.
Biểu đồ mật độ phân
bố BMI:
ggplot(a) +
geom_density(aes(x = bmi), fill= 'navy') +
labs(title = "Phân bố BMI", x = "BMI", y = "Mật độ")

- Giải thích ý nghĩa câu lệnh:
ggplot(a): Khởi tạo một ggplot object từ dữ liệu được lưu trữ
trong biến a.
geom_density(aes(x = bmi), fill= ‘navy’): Thêm layer biểu đồ mật
độ vào ggplot object.
- aes(x = bmi): Xác định biến bmi được sử dụng để tạo biểu đồ mật
độ.
- fill= ‘navy’:: Tô màu cho biểu đồ mật độ bằng màu xanh navy.
labs(title = “Phân bố BMI”, x = “BMI”, y = “Mật độ”): Thêm tiêu
đề và chú thích cho các trục.
- title = “Phân bố BMI”: Tiêu đề cho biểu đồ.
- x = “BMI”: Chú thích cho trục hoành.
- y = “Mật độ”: Chú thích cho trục tung.
Biểu đồ boxplot cho
chi phí y tế theo giới tính:
ggplot(a) +
geom_boxplot(aes(x = sex, y = charges)) +
labs(title = "Chi phí y tế theo giới tính", x = "Giới tính", y = "Chi phí y tế (USD)")

##Biểu đồ phân bố khu vực:
a %>% group_by(region) %>% summarise(k = n()) %>%
ggplot(aes(region,k)) +
geom_col(fill='skyblue') +
geom_text(aes(label = k),vjust = 2, color = 'white') +
labs(title = "Phân bố khu vực", x = 'Khu vực', y = 'Số lượng')

Biểu đồ mật độ tuổi
tác:
ggplot(a) +
geom_density(aes(x = age), fill= 'pink') +
labs(title = "Phân bố mật độ tuổi tác", x = "Tuổi", y = "Mật độ")

Biểu đồ mật độ chi
phí y tế theo giới tính:
ggplot(a) +
geom_density(aes(x = charges, fill = sex)) +
labs(title = "Phân bố chi phí y tế theo giới tính", x = "Chi phí y tế (USD)", y = "Mật độ", fill = "Giới tính") +
scale_fill_brewer(palette = "Set3") +
theme(legend.position = "bottom")

- Giải thích ý nghĩa câu lệnh:
ggplot(a): Khởi tạo một ggplot object từ dữ liệu được lưu trữ
trong biến a.
geom_density(aes(x = charges, fill = sex)): Thêm layer biểu đồ
mật độ vào ggplot object.
- aes(x = charges, fill = sex): Xác định biến charges và sex được sử
dụng để tạo biểu đồ mật độ.
- x = charges: Trục hoành thể hiện “Chi phí y tế (USD)”.
- fill = sex: Màu sắc biểu đồ mật độ thể hiện “Giới tính”.
labs(title = “Phân bố chi phí y tế theo giới tính”, x = “Chi phí
y tế (USD)”, y = “Mật độ”, fill = “Giới tính”): Thêm tiêu đề, chú thích
cho các trục và phần tô màu.
- title = “Phân bố chi phí y tế theo giới tính”: Tiêu đề cho biểu
đồ.
- x = “Chi phí y tế (USD)”: Chú thích cho trục hoành.
- y = “Mật độ”: Chú thích cho trục tung.
- fill = “Giới tính”: Chú thích cho phần tô màu.
scale_fill_brewer(palette = “Set3”): Chọn bảng màu “Set3” từ bộ
màu Brewer để tô màu cho các khu vực mật độ theo giới tính.
theme(legend.position = “bottom”): Di chuyển vị trí legenda xuống
dưới cùng của biểu đồ.
Biểu đồ mật độ chi
phí y tế theo khu vực:
ggplot(a) +
geom_density(aes(x = charges, fill = region)) +
labs(title = "Phân bố chi phí y tế theo khu vực", x = "Chi phí y tế (USD)", y = "Mật độ", fill = "Khu vực") +
scale_fill_brewer(palette = "Set3") +
theme(legend.position = "bottom")

- Giải thích ý nghĩa câu lệnh:
ggplot(a): Khởi tạo một ggplot object từ dữ liệu được lưu trữ
trong biến a.
geom_density(aes(x = charges, fill = region)): Thêm layer biểu đồ
mật độ vào ggplot object.
aes(x = charges, fill = region): Xác định biến charges và region được
sử dụng để tạo biểu đồ mật độ. x = charges: Trục hoành thể hiện “Chi phí
y tế (USD)”. fill = region: Màu sắc biểu đồ mật độ thể hiện “Khu vực”. -
labs(title = “Phân bố chi phí y tế theo khu vực”, x = “Chi phí y tế
(USD)”, y = “Mật độ”, fill = “Khu vực”): Thêm tiêu đề, chú thích cho các
trục và phần tô màu.
title = “Phân bố chi phí y tế theo khu vực”: Tiêu đề cho biểu đồ. x =
“Chi phí y tế (USD)”: Chú thích cho trục hoành. y = “Mật độ”: Chú thích
cho trục tung. fill = “Khu vực”: Chú thích cho phần tô màu. -
scale_fill_brewer(palette = “Set3”): Chọn bảng màu “Set3” từ bộ màu
Brewer để tô màu cho các khu vực mật độ theo khu vực.
- theme(legend.position = “bottom”): Di chuyển vị trí legenda xuống
dưới cùng của biểu đồ.
Biểu đồ histogram BMI
theo giới tính:
ggplot(a) +
geom_histogram(aes(x = bmi, fill = sex)) +
labs(title = "Phân bố BMI theo giới tính", x = "BMI", y = "Số lượng", fill = "Giới tính") +
scale_fill_brewer(palette = "Set2") +
theme(legend.position = "bottom")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Biểu đồ histogram chi
phí y tế theo tình trạng hút thuốc:
ggplot(a) +
geom_histogram(aes(x = charges, fill = smoker)) +
labs(title = "Phân bố chi phí y tế theo tình trạng hút thuốc", x = "Chi phí y tế (USD)", y = "Số lượng", fill = "Hút thuốc") +
scale_fill_brewer(palette = "Set2") +
theme(legend.position = "bottom")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Biểu đồ histogram
chi phí y tế theo trẻ em:
ggplot(a) +
geom_histogram(aes(x = charges, fill = factor(children))) +
labs(title = "Phân bố chi phí y tế theo trẻ em", x = "Chi phí y tế (USD)", y = "Số lượng", fill = "Trẻ em") +
scale_fill_brewer(palette = "Set2") +
theme(legend.position = "bottom")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

- Giải thích ý nghĩa câu lệnh:
ggplot(a): Khởi tạo một ggplot object từ dữ liệu được lưu trữ
trong biến a.
geom_histogram(aes(x = charges, fill = factor(children))): Thêm
layer biểu đồ histogram vào ggplot object.
- aes(x = charges, fill = factor(children)): Xác định biến charges và
children được sử dụng để tạo biểu đồ histogram.
- x = charges: Trục hoành thể hiện “Chi phí y tế (USD)”.
- fill = factor(children): Màu sắc của các cột histogram thể hiện “Số
con” (Có con, Không con).
- factor(children): Chuyển đổi biến children thành dạng factor để sử
dụng trong biểu đồ. Biến factor giúp phân biệt các nhóm riêng biệt (Có
con/Không con) thay vì chỉ là giá trị số.
labs(title = “Phân bố chi phí y tế theo trẻ em”, x = “Chi phí y
tế (USD)”, y = “Số lượng”, fill = “Trẻ em”): Thêm tiêu đề, chú thích cho
các trục và phần tô màu.
- title = “Phân bố chi phí y tế theo trẻ em”: Tiêu đề cho biểu
đồ.
- x = “Chi phí y tế (USD)”: Chú thích cho trục hoành.
- y = “Số lượng”: Chú thích cho trục tung.
- fill = “Trẻ em”: Chú thích cho phần tô màu (thực tế là thể hiện “Số
con”).
scale_fill_brewer(palette = “Set2”): Chọn bảng màu “Set2” từ bộ
màu Brewer để tô màu cho các cột histogram theo nhóm có con/không
con.
theme(legend.position = “bottom”): Di chuyển vị trí legenda xuống
dưới cùng của biểu đồ.
Biểu đồ histogram
chi phí y tế theo tuổi tác:
ggplot(a) +
geom_histogram(aes(x = charges, fill = factor(age))) +
labs(title = "Phân bố chi phí y tế theo tuổi tác", x = "Chi phí y tế (USD)", y = "Số lượng", fill = "Tuổi") +
scale_fill_brewer(palette = "Set1") +
theme(legend.position = "bottom")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning in RColorBrewer::brewer.pal(n, pal): n too large, allowed maximum for palette Set1 is 9
## Returning the palette you asked for with that many colors

- Giải thích ý nghĩa câu lệnh:
ggplot(a): Khởi tạo một ggplot object từ dữ liệu được lưu trữ
trong biến a.
geom_histogram(aes(x = charges, fill = factor(age))): Thêm layer
biểu đồ histogram vào ggplot object.
- aes(x = charges, fill = factor(age)): Xác định biến charges và age
được sử dụng để tạo biểu đồ histogram.
- x = charges: Trục hoành thể hiện “Chi phí y tế (USD)”.
- fill = factor(age): Màu sắc của các cột histogram thể hiện
“Tuổi”.
- factor(age): Chuyển đổi biến age thành dạng factor để sử dụng trong
biểu đồ. Biến factor giúp phân biệt các nhóm tuổi riêng biệt thay vì chỉ
là giá trị số.
labs(title = “Phân bố chi phí y tế theo tuổi tác”, x = “Chi phí y
tế (USD)”, y = “Số lượng”, fill = “Tuổi”): Thêm tiêu đề, chú thích cho
các trục và phần tô màu.
- title = “Phân bố chi phí y tế theo tuổi tác”: Tiêu đề cho biểu
đồ.
- x = “Chi phí y tế (USD)”: Chú thích cho trục hoành.
- y = “Số lượng”: Chú thích cho trục tung.
- fill = “Tuổi”: Chú thích cho phần tô màu.
scale_fill_brewer(palette = “Set1”): Chọn bảng màu “Set1” từ bộ
màu Brewer để tô màu cho các cột histogram theo nhóm tuổi.
theme(legend.position = “bottom”): Di chuyển vị trí legenda xuống
dưới cùng của biểu đồ.
Biểu đồ xu hướng chi
phí y tế theo tuổi tác:
a %>%
ggplot(aes(x = age, y = charges)) +
geom_line() +
labs(title = "Xu hướng chi phí y tế theo tuổi tác", x = "Tuổi", y = "Chi phí y tế (USD)")

- Giải thích ý nghĩa câu lệnh:
a %>%: Chọn dữ liệu từ biến a để sử dụng trong
ggplot.
ggplot(aes(x = age, y = charges)): Khởi tạo một ggplot object với
dữ liệu được chọn từ a.
- aes(x = age, y = charges): Xác định biến age và charges được sử dụng
để tạo biểu đồ.
- x = age: Trục hoành thể hiện “Tuổi”.
- y = charges: Trục tung thể hiện “Chi phí y tế (USD)”.
geom_line(): Thêm layer biểu đồ đường vào ggplot object.
labs(title = “Xu hướng chi phí y tế theo tuổi tác”, x = “Tuổi”, y
= “Chi phí y tế (USD)”): Thêm tiêu đề và chú thích cho các trục.
- title = “Xu hướng chi phí y tế theo tuổi tác”: Tiêu đề cho biểu
đồ.
- x = “Tuổi”: Chú thích cho trục hoành.
- y = “Chi phí y tế (USD)”: Chú thích cho trục tung.
Biểu đồ so sánh chi
phí y tế theo giới tính:
a %>%
ggplot(aes(x = age, y = charges, color = sex)) +
geom_line() +
labs(title = "So sánh chi phí y tế theo giới tính", x = "Tuổi", y = "Chi phí y tế (USD)", color = "Giới tính")

- Giải thích ý nghĩa câu lệnh:
a %>%: Chọn dữ liệu từ biến a để sử dụng trong
ggplot.
ggplot(aes(x = age, y = charges, color = sex)): Khởi tạo một
ggplot object với dữ liệu được chọn từ a.
- aes(x = age, y = charges, color = sex): Xác định biến age, charges
và sex được sử dụng để tạo biểu đồ.
- x = age: Trục hoành thể hiện “Tuổi”.
- y = charges: Trục tung thể hiện “Chi phí y tế (USD)”.
- color = sex: Màu sắc của các đường biểu thị “Giới tính”.
geom_line(): Thêm layer biểu đồ đường vào ggplot object.
labs(title = “So sánh chi phí y tế theo giới tính”, x = “Tuổi”, y
= “Chi phí y tế (USD)”, color = “Giới tính”): Thêm tiêu đề và chú thích
cho các trục và phần tô màu.
- title = “So sánh chi phí y tế theo giới tính”: Tiêu đề cho biểu
đồ.
- x = “Tuổi”: Chú thích cho trục hoành.
- y = “Chi phí y tế (USD)”: Chú thích cho trục tung.
- color = “Giới tính”: Chú thích cho phần tô màu (thực tế là thể hiện
“Giới tính”).
Biểu đồ so sánh chi
phí y tế theo khu vực:
a %>%
ggplot(aes(x = age, y = charges, color = region)) +
geom_line() +
labs(title = "So sánh chi phí y tế theo khu vực", x = "Tuổi", y = "Chi phí y tế (USD)", color = "Khu vực")

- Giải thích ý nghĩa câu lệnh:
a %>%: Chọn dữ liệu từ biến a để sử dụng trong
ggplot.
ggplot(aes(x = age, y = charges, color = region)): Khởi tạo một
ggplot object với dữ liệu được chọn từ a.
- aes(x = age, y = charges, color = region): Xác định biến age,
charges và region được sử dụng để tạo biểu đồ.
- x = age: Trục hoành thể hiện “Tuổi”.
- y = charges: Trục tung thể hiện “Chi phí y tế (USD)”.
- color = region: Màu sắc của các đường biểu thị “Khu vực”.
geom_line(): Thêm layer biểu đồ đường vào ggplot object.
labs(title = “So sánh chi phí y tế theo khu vực”, x = “Tuổi”, y =
“Chi phí y tế (USD)”, color = “Khu vực”): Thêm tiêu đề và chú thích cho
các trục và phần tô màu.
- title = “So sánh chi phí y tế theo khu vực”: Tiêu đề cho biểu
đồ.
- x = “Tuổi”: Chú thích cho trục hoành.
- y = “Chi phí y tế (USD)”: Chú thích cho trục tung. color = “Khu
vực”: Chú thích cho phần tô màu (thực tế là thể hiện “Khu vực”).
Biểu đồ ảnh hưởng
của BMI đến chi phí y tế:
a %>%
ggplot(aes(x = bmi, y = charges)) +
geom_point() +
geom_smooth(method = "lm") +
labs(title = "Ảnh hưởng của BMI đến chi phí y tế", x = "BMI", y = "Chi phí y tế (USD)")
## `geom_smooth()` using formula = 'y ~ x'

- Giải thích ý nghĩa câu lệnh:
a %>%: Chọn dữ liệu từ biến a để sử dụng trong
ggplot.
ggplot(aes(x = bmi, y = charges)): Khởi tạo một ggplot object với
dữ liệu được chọn từ a.
- aes(x = bmi, y = charges): Xác định biến bmi và charges được sử dụng
để tạo biểu đồ.
- x = bmi: Trục hoành thể hiện “Chỉ số khối cơ thể (BMI)”.
- y = charges: Trục tung thể hiện “Chi phí y tế (USD)”.
geom_point(): Thêm layer biểu đồ điểm vào ggplot object. Biểu đồ
điểm hiển thị mối liên hệ giữa từng điểm dữ liệu (BMI, chi phí y
tế)
geom_smooth(method = “lm”): Thêm layer đường hồi quy tuyến tính
vào ggplot object. Đường hồi quy giúp mô tả mối liên hệ tổng thể giữa
BMI và chi phí y tế.
- method = “lm”: Sử dụng phương pháp hồi quy tuyến tính.
labs(title = “Ảnh hưởng của BMI đến chi phí y tế”, x = “BMI”, y =
“Chi phí y tế (USD)”): Thêm tiêu đề và chú thích cho các trục.
- title = “Ảnh hưởng của BMI đến chi phí y tế”: Tiêu đề cho biểu
đồ.
- x = “BMI”: Chú thích cho trục hoành.
- y = “Chi phí y tế (USD)”: Chú thích cho trục tung.
Biểu đồ Density Plot
giữa Age và Charges (phân loại theo Smoker):
ggplot(a, aes(x = age, fill = smoker)) +
geom_density(alpha = 0.7) +
labs(title = "Density Plot of Age (colored by Smoker)", x = "Age", y = "Density") +
scale_fill_manual(values = c("yes" = "brown", "no" = "lightyellow"))

- Giải thích ý nghĩa câu lệnh:
ggplot(a, aes(x = age, fill = smoker)): Khởi tạo một ggplot
object từ dữ liệu được lưu trữ trong biến a.
- aes(x = age, fill = smoker): Xác định biến age và smoker được sử
dụng để tạo biểu đồ mật độ.
- x = age: Trục hoành thể hiện “Age” (giữ nguyên tên tiếng Anh).
- fill = smoker: Màu sắc của biểu đồ mật độ thể hiện “Smoker” (giữ
nguyên tên tiếng Anh).
geom_density(alpha = 0.7): Thêm layer biểu đồ mật độ vào ggplot
object.
- alpha = 0.7: Thiết lập độ mờ của biểu đồ mật độ thành 0.7 (70%
opacity).
labs(title = “Density Plot of Age (colored by Smoker)”, x =
“Age”, y = “Density”): Thêm tiêu đề, chú thích cho các trục và phần tô
màu (giữ nguyên tên tiếng Anh).
- title = “Density Plot of Age (colored by Smoker)”: Tiêu đề cho biểu
đồ (diễn đạt bằng tiếng Anh).
- x = “Age”: Chú thích cho trục hoành (giữ nguyên tên tiếng Anh).
- y = “Density”: Chú thích cho trục tung (giữ nguyên tên tiếng
Anh).
scale_fill_manual(values = c(“yes” = “brown”, “no” =
“lightyellow”)): Chọn cách tô màu thủ công cho biểu đồ mật độ.
- values = c(“yes” = “brown”, “no” = “lightyellow”): Xác định giá trị
của biến smoker và màu sắc tương ứng.
- “yes” được tô màu nâu (“brown”).
- “no” được tô màu vàng nhạt (“lightyellow”).
Biểu Đồ Scatter Plot
cho tương quan giữa BMI và Region:
ggplot(a, aes(x = bmi, y = as.factor(region), color = bmi)) +
geom_point() +
labs(title = "Scatter Plot of BMI by Region", x = "BMI", y = "Region") +
scale_color_viridis_c() +
theme(axis.text.y = element_text(angle = 0, hjust = 1))

- Giải thích ý nghĩa câu lệnh:
ggplot(a, aes(x = bmi, y = as.factor(region), color = bmi)): Khởi
tạo một ggplot object từ dữ liệu được lưu trữ trong biến a.
- aes(x = bmi, y = as.factor(region), color = bmi): Xác định các biến
được sử dụng để tạo biểu đồ.
- x = bmi: Trục hoành thể hiện “BMI”.
- y = as.factor(region): Trục tung thể hiện “Region” được chuyển đổi
thành dạng factor. Chuyển đổi này giúp phân biệt các vùng miền riêng
biệt thay vì chỉ là giá trị văn bản.
- color = bmi: Màu sắc của các điểm dữ liệu được xác định bởi giá trị
của biến “bmi”.
geom_point(): Thêm layer biểu đồ điểm vào ggplot object. Biểu đồ
điểm hiển thị mối liên hệ giữa từng điểm dữ liệu (BMI, vùng
miền).
labs(title = “Scatter Plot of BMI by Region”, x = “BMI”, y =
“Region”): Thêm tiêu đề và chú thích cho các trục.
- title = “Scatter Plot of BMI by Region”: Tiêu đề cho biểu đồ (diễn
đạt bằng tiếng Anh).
- x = “BMI”: Chú thích cho trục hoành.
- y = “Region”: Chú thích cho trục tung.
scale_color_viridis_c(): Chọn bảng màu “viridis” để tô màu cho
các điểm dữ liệu. Bảng màu viridis chuyển màu từ xanh lá cây sang vàng
rồi đến đỏ theo giá trị của biến bmi.
theme(axis.text.y = element_text(angle = 0, hjust = 1)): Tùy
chỉnh hiển thị nhãn cho trục tung.
- axis.text.y = element_text(angle = 0, hjust = 1): Xoay nhãn của trục
tung 0 độ (giữ thẳng đứng) và canh chỉnh sang phải.
Biểu đồ Bar Plot
giữa Sex và Number of Children:
ggplot(a, aes(x = sex, fill = as.factor(children))) +
geom_bar() +
labs(title = "Bar Plot of Number of Children by Sex", x = "Sex", y = "Count") +
scale_fill_brewer(palette = "Set3")

- Giải thích ý nghĩa câu lệnh:
ggplot(a, aes(x = sex, fill = as.factor(children))): Khởi tạo một
ggplot object từ dữ liệu được lưu trữ trong biến a.
- aes(x = sex, fill = as.factor(children)): Xác định các biến được sử
dụng để tạo biểu đồ thanh.
- x = sex: Trục hoành thể hiện “Sex” (giữ nguyên tên tiếng Anh).
- fill = as.factor(children): Màu sắc của các cột bar thể hiện “Số
con” (Children) được chuyển đổi thành dạng factor. Chuyển đổi này giúp
phân biệt nhóm có con/không con riêng biệt thay vì chỉ là giá trị
số.
geom_bar(): Thêm layer biểu đồ thanh vào ggplot object. Biểu đồ
thanh giúp hiển thị số lượng theo từng nhóm (nam/nữ) trên trục
hoành.
labs(title = “Bar Plot of Number of Children by Sex”, x = “Sex”,
y = “Count”): Thêm tiêu đề và chú thích cho các trục.
- title = “Bar Plot of Number of Children by Sex”: Tiêu đề cho biểu đồ
(diễn đạt bằng tiếng Anh).
- x = “Sex”: Chú thích cho trục hoành (giữ nguyên tên tiếng Anh).
- y = “Count”: Chú thích cho trục tung, mặc dù tên chính xác hơn có
thể là “Number of Children” (Số con).
scale_fill_brewer(palette = “Set3”): Chọn bảng màu “Set3” từ bộ
màu Brewer để tô màu cho các cột bar theo nhóm có con/không
con.
Biểu đồ bar plot
giữa giới tính và khu vực
ggplot(a, aes(x = sex, fill = region)) +
geom_bar(position = "dodge", stat = "count") +
geom_text(aes(label = stat(count)), stat = "count", position = position_dodge(width = 0.9))
## Warning: `stat(count)` was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

labs(title = "Bar Plot of Sex vs region",
x = "Sex",
y = "Count")
## $x
## [1] "Sex"
##
## $y
## [1] "Count"
##
## $title
## [1] "Bar Plot of Sex vs region"
##
## attr(,"class")
## [1] "labels"
- Giải thích ý nghĩa câu lệnh:
ggplot(a, aes(x = sex, fill = region)): Khởi tạo một ggplot
object từ dữ liệu được lưu trữ trong biến a.
- aes(x = sex, fill = region): Xác định các biến được sử dụng để tạo
biểu đồ thanh.
- x = sex: Trục hoành thể hiện “Sex” (giữ nguyên tên tiếng Anh). fill
= region: Màu sắc của các cột bar thể hiện “Vùng miền” (region).
geom_bar(position = “dodge”, stat = “count”): Thêm layer biểu đồ
thanh xếp chồng (dodge) vào ggplot object.
- position = “dodge”: Xếp chồng các cột bar theo nhóm giới tính
(nam/nữ) trên trục hoành để tránh chồng chéo lên nhau.
- stat = “count”: Sử dụng thống kê “count” để tính tổng số người cho
mỗi nhóm (giới tính + vùng miền).
geom_text(aes(label = stat(count)), stat = “count”, position =
position_dodge(width = 0.9)): Thêm layer text để hiển thị giá trị (số
lượng) trên mỗi cột bar.
- aes(label = stat(count)): Lấy giá trị trả về của thống kê “count”
(số lượng) để hiển thị trên mỗi cột bar.
- stat = “count”: Sử dụng thống kê “count” để tính toán giá trị hiển
thị (giống với geom_bar).
- position = position_dodge(width = 0.9): Vị trí đặt text cũng xếp
chồng theo nhóm giống với geom_bar, độ rộng text bằng 90% chiều rộng của
cột bar (để tránh text bị che khuất).
labs(title = “Bar Plot of Sex vs region”, x = “Sex”, y =
“Count”): Thêm tiêu đề và chú thích cho các trục.
- title = “Bar Plot of Sex vs region”: Tiêu đề cho biểu đồ (diễn đạt
bằng tiếng Anh).
- x = “Sex”: Chú thích cho trục hoành (giữ nguyên tên tiếng Anh).
- y = “Count”: Chú thích cho trục tung.
Biểu đồ cột hiển thị
số lượng người hút thuốc và không hút thuốc theo giới tính
ggplot(a, aes(x = sex, fill = smoker)) +
geom_bar(position = "dodge", stat = "count") +
geom_text(aes(label = stat(count)), stat = "count", position = position_dodge(width = 0.9))

labs(title = " Biểu đồ cột hiển thị số lượng người hút thuốc và không hút thuốc theo giới tính", y = "Count") +
scale_fill_manual(values = c("yes" = "skyblue", "no" = "pink"))
## NULL
- Giải thích ý nghĩa câu lệnh:
ggplot(a, aes(x = sex, fill = smoker))
- ggplot(a): Khởi tạo một biểu đồ ggplot dựa trên dữ liệu trong
dataframe a.
- aes(x = sex, fill = smoker):
- aes: Ánh xạ các biến trong dataframe vào các thuộc tính của biểu
đồ.
- x = sex: Gán biến sex (giới tính) cho trục x của biểu đồ.
- fill = smoker: Gán biến smoker (hút thuốc) cho màu sắc của các thanh
trong biểu đồ.
geom_bar(position = “dodge”, stat = “count”)
- geom_bar: Thêm hình dạng thanh vào biểu đồ.
- position = “dodge”: Xếp các thanh cạnh nhau theo nhóm (giới tính)
với khoảng cách nhất định.
- stat = “count”: Tính toán số lượng người cho mỗi nhóm (giới tính) và
hiển thị trên thanh.
geom_text(aes(label = stat(count)), stat = “count”, position =
position_dodge(width = 0.9))
- geom_text: Thêm chú thích số lượng vào mỗi thanh.
- aes(label = stat(count)): Gán giá trị số lượng (tính toán bởi -
stat(count)) cho nội dung chú thích. position = position_dodge(width =
0.9): Vị trí chú thích được căn chỉnh với vị trí của thanh và có độ rộng
0.9.
labs(title = “Biểu đồ cột hiển thị số lượng người hút thuốc và
không hút thuốc theo giới tính”, y = “Count”)
- labs: Thêm tiêu đề và chú thích cho các trục.
- title = “Biểu đồ cột hiển thị số lượng người hút thuốc và không hút
thuốc theo giới tính”: Tiêu đề cho biểu đồ.
- y = “Count”: Chú thích cho trục y.
scale_fill_manual(values = c(“yes” = “skyblue”, “no” =
“pink”))
- scale_fill_manual: Chọn màu sắc cho các nhóm (giới tính).
- values = c(“yes” = “skyblue”, “no” = “pink”): Gán màu xanh da trời
cho nhóm “yes” (hút thuốc) và màu hồng cho nhóm “no” (không hút
thuốc).
