1 Tổng quan về bộ dữ liệu:insurance

  • Bộ dữ liệu bảo hiểm được lấy từ cuốn sách “Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow” của Aurélien Géron. Dữ liệu bao gồm thông tin về các cá nhân được bảo hiểm và chi phí y tế của họ.
library(csv)
a <- read.csv('C:/Users/ASUS/Downloads/insurance.csv', header= T)
  • Ý nghĩa của các cột tên biến trong bộ dữ liệu:
names(a)
## [1] "age"      "sex"      "bmi"      "children" "smoker"   "region"   "charges"
- age: Tuổi của người thụ hưởng chính
- sex: Giới tính của người được bảo hiểm (nữ, nam)
- bmi: Chỉ số khối cơ thể (BMI)
- children: Số con được bảo hiểm / Số người phụ thuộc
- smoker: Người hút thuốc (Có, Không)
- region: Vùng nơi người được bảo hiểm sinh sống ( Đông Bắc, Tây Bắc, Trung Tây, Nam)
- charges: Chi phí y tế

2 Tiến hành phân tích bộ dữ liệu:insurance

2.1 Biểu đồ phân bố tuổi tác:

library(ggplot2)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
ggplot(a) +
  geom_bar(aes(x = age, fill = sex)) +
  labs(title = "Phân bố tuổi tác", x = "Tuổi", y = "Số lượng", fill = "Giới tính") +
  scale_fill_brewer(palette = "Set1") +
  theme(legend.position = "bottom")

  • Giải thích ý nghĩa câu lệnh:
    • ggplot(a): Khởi tạo một ggplot object từ dữ liệu được lưu trữ trong biến a.

    • geom_bar(aes(x = age, fill = sex)): Thêm layer biểu đồ dạng thanh vào ggplot object.

      • aes(x = age, fill = sex): Xác định các biến được sử dụng để tạo biểu đồ:
      • x = age: Trục hoành biểu thị “Tuổi”.
      • fill = sex: Màu sắc thanh biểu đồ thể hiện “Giới tính”.
    • labs(title = “Phân bố tuổi tác”, x = “Tuổi”, y = “Số lượng”, fill = “Giới tính”): Thêm tiêu đề và chú thích cho các trục và phần tô màu.

      • title = “Phân bố tuổi tác”: Tiêu đề cho biểu đồ.
      • x = “Tuổi”: Chú thích cho trục hoành.
      • y = “Số lượng”: Chú thích cho trục tung.
      • fill = “Giới tính”: Chú thích cho phần tô màu.
    • scale_fill_brewer(palette = “Set1”): Chọn bảng màu “Set1” từ bộ màu Brewer để tô màu cho các thanh biểu đồ.

    • theme(legend.position = “bottom”): Di chuyển vị trí legenda xuống dưới cùng của biểu đồ.

2.2 Biểu đồ phân bố giới tính:

a %>% group_by(sex) %>% summarise(k = n()) %>%
  ggplot(aes(sex,k)) +
    geom_col(fill='brown') +
    geom_text(aes(label = k),vjust = 2, color = 'white') +
    labs(title = "Phân bố giới tính", x = "Giới tính", y = "Số lượng")

  • Giải thích ý nghĩa câu lệnh:
    • a %>% group_by(sex): Nhóm dữ liệu trong biến a theo biến sex.

    • %>% summarise(k = n()): Tính tổng số lượng bản ghi trong mỗi nhóm giới tính và lưu trữ kết quả trong biến k.

    • ggplot(aes(sex,k)): Khởi tạo một ggplot object từ dữ liệu được lưu trữ trong biến k với các biến sex và k được sử dụng để tạo biểu đồ.

    • geom_col(fill=‘brown’): Thêm layer biểu đồ dạng cột vào ggplot object với màu nâu.

    • geom_text(aes(label = k),vjust = 2, color = ‘white’): Thêm layer văn bản hiển thị giá trị k bên trên mỗi cột với màu trắng và vị trí được điều chỉnh lên cao một chút.

    • labs(title = “Phân bố giới tính”, x = “Giới tính”, y = “Số lượng”): Thêm tiêu đề và chú thích cho các trục.

2.3 Biểu đồ mật độ phân bố BMI:

ggplot(a) +
  geom_density(aes(x = bmi), fill= 'navy') +
  
  labs(title = "Phân bố BMI", x = "BMI", y = "Mật độ")

  • Giải thích ý nghĩa câu lệnh:
    • ggplot(a): Khởi tạo một ggplot object từ dữ liệu được lưu trữ trong biến a.

    • geom_density(aes(x = bmi), fill= ‘navy’): Thêm layer biểu đồ mật độ vào ggplot object.

      • aes(x = bmi): Xác định biến bmi được sử dụng để tạo biểu đồ mật độ.
      • fill= ‘navy’:: Tô màu cho biểu đồ mật độ bằng màu xanh navy.
    • labs(title = “Phân bố BMI”, x = “BMI”, y = “Mật độ”): Thêm tiêu đề và chú thích cho các trục.

      • title = “Phân bố BMI”: Tiêu đề cho biểu đồ.
      • x = “BMI”: Chú thích cho trục hoành.
      • y = “Mật độ”: Chú thích cho trục tung.

2.4 Biểu đồ boxplot cho chi phí y tế theo giới tính:

ggplot(a) +
  geom_boxplot(aes(x = sex, y = charges)) +
  labs(title = "Chi phí y tế theo giới tính", x = "Giới tính", y = "Chi phí y tế (USD)")

  • Giải thích ý nghĩa câu lệnh:

    • ggplot(a): Khởi tạo một ggplot object từ dữ liệu được lưu trữ trong biến a.

    • geom_boxplot(aes(x = sex, y = charges)): Thêm layer biểu đồ hộp vào ggplot object.

      • aes(x = sex, y = charges): Xác định biến sex và charges được sử dụng để tạo biểu đồ hộp.
      • x = sex: Trục hoành thể hiện “Giới tính”.
      • y = charges: Trục tung thể hiện “Chi phí y tế (USD)”.
    • labs(title = “Chi phí y tế theo giới tính”, x = “Giới tính”, y = “Chi phí y tế (USD)”): Thêm tiêu đề và chú thích cho các trục.

      • title = “Chi phí y tế theo giới tính”: Tiêu đề cho biểu đồ.
      • x = “Giới tính”: Chú thích cho trục hoành.
      • y = “Chi phí y tế (USD)”: Chú thích cho trục tung.

##Biểu đồ phân bố khu vực:

a %>% group_by(region) %>% summarise(k = n()) %>%
  ggplot(aes(region,k)) +
    geom_col(fill='skyblue') +
    geom_text(aes(label = k),vjust = 2, color = 'white') +
    labs(title = "Phân bố khu vực", x = 'Khu vực', y = 'Số lượng')

  • Giải thích ý nghĩa câu lệnh:

    • a %>% group_by(region): Nhóm dữ liệu trong biến a theo biến region.

    • %>% summarise(k = n()): Tính tổng số lượng bản ghi trong mỗi nhóm khu vực và lưu trữ kết quả trong biến k.

    • ggplot(aes(region,k)): Khởi tạo một ggplot object từ dữ liệu được lưu trữ trong biến k với các biến region và k được sử dụng để tạo biểu đồ.

    • geom_col(fill=‘skyblue’): Thêm layer biểu đồ dạng cột vào ggplot object với màu xanh da trời.

    • geom_text(aes(label = k),vjust = 2, color = ‘white’): Thêm layer văn bản hiển thị giá trị k bên trên mỗi cột với màu trắng và vị trí được điều chỉnh lên cao một chút.

    • labs(title = “Phân bố khu vực”, x = ‘Khu vực’, y = ‘Số lượng’): Thêm tiêu đề và chú thích cho các trục.

2.5 Biểu đồ mật độ tuổi tác:

ggplot(a) +
  geom_density(aes(x = age), fill= 'pink') +
  labs(title = "Phân bố mật độ tuổi tác", x = "Tuổi", y = "Mật độ")

  • Giải thích ý nghĩa câu lệnh:

    • ggplot(a): Khởi tạo một ggplot object từ dữ liệu được lưu trữ trong biến a.

    • geom_density(aes(x = age), fill= ‘pink’): Thêm layer biểu đồ mật độ vào ggplot object.

      • aes(x = age): Xác định biến age được sử dụng để tạo biểu đồ mật độ.
      • fill= ‘pink’:: Tô màu cho biểu đồ mật độ bằng màu hồng.
    • labs(title = “Phân bố mật độ tuổi tác”, x = “Tuổi”, y = “Mật độ”): Thêm tiêu đề và chú thích cho các trục.

      • title = “Phân bố mật độ tuổi tác”: Tiêu đề cho biểu đồ.
      • x = “Tuổi”: Chú thích cho trục hoành.
      • y = “Mật độ”: Chú thích cho trục tung.

2.6 Biểu đồ mật độ chi phí y tế theo giới tính:

ggplot(a) +
  geom_density(aes(x = charges, fill = sex)) +
  labs(title = "Phân bố chi phí y tế theo giới tính", x = "Chi phí y tế (USD)", y = "Mật độ", fill = "Giới tính") +
  scale_fill_brewer(palette = "Set3") +
  theme(legend.position = "bottom")

  • Giải thích ý nghĩa câu lệnh:
    • ggplot(a): Khởi tạo một ggplot object từ dữ liệu được lưu trữ trong biến a.

    • geom_density(aes(x = charges, fill = sex)): Thêm layer biểu đồ mật độ vào ggplot object.

      • aes(x = charges, fill = sex): Xác định biến charges và sex được sử dụng để tạo biểu đồ mật độ.
      • x = charges: Trục hoành thể hiện “Chi phí y tế (USD)”.
      • fill = sex: Màu sắc biểu đồ mật độ thể hiện “Giới tính”.
    • labs(title = “Phân bố chi phí y tế theo giới tính”, x = “Chi phí y tế (USD)”, y = “Mật độ”, fill = “Giới tính”): Thêm tiêu đề, chú thích cho các trục và phần tô màu.

      • title = “Phân bố chi phí y tế theo giới tính”: Tiêu đề cho biểu đồ.
      • x = “Chi phí y tế (USD)”: Chú thích cho trục hoành.
      • y = “Mật độ”: Chú thích cho trục tung.
      • fill = “Giới tính”: Chú thích cho phần tô màu.
    • scale_fill_brewer(palette = “Set3”): Chọn bảng màu “Set3” từ bộ màu Brewer để tô màu cho các khu vực mật độ theo giới tính.

    • theme(legend.position = “bottom”): Di chuyển vị trí legenda xuống dưới cùng của biểu đồ.

2.7 Biểu đồ mật độ chi phí y tế theo khu vực:

ggplot(a) +
  geom_density(aes(x = charges, fill = region)) +
  labs(title = "Phân bố chi phí y tế theo khu vực", x = "Chi phí y tế (USD)", y = "Mật độ", fill = "Khu vực") +
  scale_fill_brewer(palette = "Set3") +
  theme(legend.position = "bottom")

  • Giải thích ý nghĩa câu lệnh:
    • ggplot(a): Khởi tạo một ggplot object từ dữ liệu được lưu trữ trong biến a.

    • geom_density(aes(x = charges, fill = region)): Thêm layer biểu đồ mật độ vào ggplot object.

aes(x = charges, fill = region): Xác định biến charges và region được sử dụng để tạo biểu đồ mật độ. x = charges: Trục hoành thể hiện “Chi phí y tế (USD)”. fill = region: Màu sắc biểu đồ mật độ thể hiện “Khu vực”. - labs(title = “Phân bố chi phí y tế theo khu vực”, x = “Chi phí y tế (USD)”, y = “Mật độ”, fill = “Khu vực”): Thêm tiêu đề, chú thích cho các trục và phần tô màu.

title = “Phân bố chi phí y tế theo khu vực”: Tiêu đề cho biểu đồ. x = “Chi phí y tế (USD)”: Chú thích cho trục hoành. y = “Mật độ”: Chú thích cho trục tung. fill = “Khu vực”: Chú thích cho phần tô màu. - scale_fill_brewer(palette = “Set3”): Chọn bảng màu “Set3” từ bộ màu Brewer để tô màu cho các khu vực mật độ theo khu vực.

  • theme(legend.position = “bottom”): Di chuyển vị trí legenda xuống dưới cùng của biểu đồ.

2.8 Biểu đồ histogram BMI theo giới tính:

ggplot(a) +
  geom_histogram(aes(x = bmi, fill = sex)) +
  labs(title = "Phân bố BMI theo giới tính", x = "BMI", y = "Số lượng", fill = "Giới tính") +
  scale_fill_brewer(palette = "Set2") +
  theme(legend.position = "bottom")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

  • Giải thích ý nghĩa câu lệnh:

    • ggplot(a): Khởi tạo một ggplot object từ dữ liệu được lưu trữ trong biến a.

    • geom_histogram(aes(x = bmi, fill = sex)): Thêm layer biểu đồ histogram vào ggplot object.

      • aes(x = bmi, fill = sex): Xác định biến bmi và sex được sử dụng để tạo biểu đồ histogram.
      • x = bmi: Trục hoành thể hiện “Chỉ số BMI”.
      • fill = sex: Màu sắc của các cột histogram thể hiện “Giới tính”.
    • labs(title = “Phân bố BMI theo giới tính”, x = “BMI”, y = “Số lượng”, - fill = “Giới tính”): Thêm tiêu đề, chú thích cho các trục và phần tô màu.

      • title = “Phân bố BMI theo giới tính”: Tiêu đề cho biểu đồ.
      • x = “BMI”: Chú thích cho trục hoành.
      • y = “Số lượng”: Chú thích cho trục tung.
      • fill = “Giới tính”: Chú thích cho phần tô màu.
    • scale_fill_brewer(palette = “Set2”): Chọn bảng màu “Set2” từ bộ màu Brewer để tô màu cho các cột histogram theo giới tính.

    • theme(legend.position = “bottom”): Di chuyển vị trí legenda xuống dưới cùng của biểu đồ.

2.9 Biểu đồ histogram chi phí y tế theo tình trạng hút thuốc:

ggplot(a) +
  geom_histogram(aes(x = charges, fill = smoker)) +
  labs(title = "Phân bố chi phí y tế theo tình trạng hút thuốc", x = "Chi phí y tế (USD)", y = "Số lượng", fill = "Hút thuốc") +
  scale_fill_brewer(palette = "Set2") +
  theme(legend.position = "bottom")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

  • Giải thích ý nghĩa câu lệnh:

    • ggplot(a): Khởi tạo một ggplot object từ dữ liệu được lưu trữ trong biến a.

    • geom_histogram(aes(x = charges, fill = smoker)): Thêm layer biểu đồ histogram vào ggplot object.

      • aes(x = charges, fill = smoker): Xác định biến charges và smoker được sử dụng để tạo biểu đồ histogram.
      • x = charges: Trục hoành thể hiện “Chi phí y tế (USD)”.
      • fill = smoker: Màu sắc của các cột histogram thể hiện “Tình trạng hút thuốc” (Hút thuốc, Không hút thuốc).
    • labs(title = “Phân bố chi phí y tế theo tình trạng hút thuốc”, x = “Chi phí y tế (USD)”, y = “Số lượng”, fill = “Hút thuốc”): Thêm tiêu đề, chú thích cho các trục và phần tô màu.

      • title = “Phân bố chi phí y tế theo tình trạng hút thuốc”: Tiêu đề cho biểu đồ.
      • x = “Chi phí y tế (USD)”: Chú thích cho trục hoành.
      • y = “Số lượng”: Chú thích cho trục tung.
      • fill = “Hút thuốc”: Chú thích cho phần tô màu.
    • scale_fill_brewer(palette = “Set2”): Chọn bảng màu “Set2” từ bộ màu Brewer để tô màu cho các cột histogram theo tình trạng hút thuốc.

    • theme(legend.position = “bottom”): Di chuyển vị trí legenda xuống dưới cùng của biểu đồ.

2.10 Biểu đồ histogram chi phí y tế theo trẻ em:

ggplot(a) +
  geom_histogram(aes(x = charges, fill = factor(children))) +
  labs(title = "Phân bố chi phí y tế theo trẻ em", x = "Chi phí y tế (USD)", y = "Số lượng", fill = "Trẻ em") +
  scale_fill_brewer(palette = "Set2") +
  theme(legend.position = "bottom")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

  • Giải thích ý nghĩa câu lệnh:
    • ggplot(a): Khởi tạo một ggplot object từ dữ liệu được lưu trữ trong biến a.

    • geom_histogram(aes(x = charges, fill = factor(children))): Thêm layer biểu đồ histogram vào ggplot object.

      • aes(x = charges, fill = factor(children)): Xác định biến charges và children được sử dụng để tạo biểu đồ histogram.
      • x = charges: Trục hoành thể hiện “Chi phí y tế (USD)”.
      • fill = factor(children): Màu sắc của các cột histogram thể hiện “Số con” (Có con, Không con).
      • factor(children): Chuyển đổi biến children thành dạng factor để sử dụng trong biểu đồ. Biến factor giúp phân biệt các nhóm riêng biệt (Có con/Không con) thay vì chỉ là giá trị số.
    • labs(title = “Phân bố chi phí y tế theo trẻ em”, x = “Chi phí y tế (USD)”, y = “Số lượng”, fill = “Trẻ em”): Thêm tiêu đề, chú thích cho các trục và phần tô màu.

      • title = “Phân bố chi phí y tế theo trẻ em”: Tiêu đề cho biểu đồ.
      • x = “Chi phí y tế (USD)”: Chú thích cho trục hoành.
      • y = “Số lượng”: Chú thích cho trục tung.
      • fill = “Trẻ em”: Chú thích cho phần tô màu (thực tế là thể hiện “Số con”).
    • scale_fill_brewer(palette = “Set2”): Chọn bảng màu “Set2” từ bộ màu Brewer để tô màu cho các cột histogram theo nhóm có con/không con.

    • theme(legend.position = “bottom”): Di chuyển vị trí legenda xuống dưới cùng của biểu đồ.

2.11 Biểu đồ histogram chi phí y tế theo tuổi tác:

ggplot(a) +
  geom_histogram(aes(x = charges, fill = factor(age))) +
  labs(title = "Phân bố chi phí y tế theo tuổi tác", x = "Chi phí y tế (USD)", y = "Số lượng", fill = "Tuổi") +
  scale_fill_brewer(palette = "Set1") +
  theme(legend.position = "bottom")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning in RColorBrewer::brewer.pal(n, pal): n too large, allowed maximum for palette Set1 is 9
## Returning the palette you asked for with that many colors

  • Giải thích ý nghĩa câu lệnh:
    • ggplot(a): Khởi tạo một ggplot object từ dữ liệu được lưu trữ trong biến a.

    • geom_histogram(aes(x = charges, fill = factor(age))): Thêm layer biểu đồ histogram vào ggplot object.

      • aes(x = charges, fill = factor(age)): Xác định biến charges và age được sử dụng để tạo biểu đồ histogram.
      • x = charges: Trục hoành thể hiện “Chi phí y tế (USD)”.
      • fill = factor(age): Màu sắc của các cột histogram thể hiện “Tuổi”.
      • factor(age): Chuyển đổi biến age thành dạng factor để sử dụng trong biểu đồ. Biến factor giúp phân biệt các nhóm tuổi riêng biệt thay vì chỉ là giá trị số.
    • labs(title = “Phân bố chi phí y tế theo tuổi tác”, x = “Chi phí y tế (USD)”, y = “Số lượng”, fill = “Tuổi”): Thêm tiêu đề, chú thích cho các trục và phần tô màu.

      • title = “Phân bố chi phí y tế theo tuổi tác”: Tiêu đề cho biểu đồ.
      • x = “Chi phí y tế (USD)”: Chú thích cho trục hoành.
      • y = “Số lượng”: Chú thích cho trục tung.
      • fill = “Tuổi”: Chú thích cho phần tô màu.
    • scale_fill_brewer(palette = “Set1”): Chọn bảng màu “Set1” từ bộ màu Brewer để tô màu cho các cột histogram theo nhóm tuổi.

    • theme(legend.position = “bottom”): Di chuyển vị trí legenda xuống dưới cùng của biểu đồ.

2.12 Biểu đồ xu hướng chi phí y tế theo tuổi tác:

a %>%
  ggplot(aes(x = age, y = charges)) +
  geom_line() +
  labs(title = "Xu hướng chi phí y tế theo tuổi tác", x = "Tuổi", y = "Chi phí y tế (USD)")

  • Giải thích ý nghĩa câu lệnh:
    • a %>%: Chọn dữ liệu từ biến a để sử dụng trong ggplot.

    • ggplot(aes(x = age, y = charges)): Khởi tạo một ggplot object với dữ liệu được chọn từ a.

      • aes(x = age, y = charges): Xác định biến age và charges được sử dụng để tạo biểu đồ.
      • x = age: Trục hoành thể hiện “Tuổi”.
      • y = charges: Trục tung thể hiện “Chi phí y tế (USD)”.
    • geom_line(): Thêm layer biểu đồ đường vào ggplot object.

    • labs(title = “Xu hướng chi phí y tế theo tuổi tác”, x = “Tuổi”, y = “Chi phí y tế (USD)”): Thêm tiêu đề và chú thích cho các trục.

      • title = “Xu hướng chi phí y tế theo tuổi tác”: Tiêu đề cho biểu đồ.
      • x = “Tuổi”: Chú thích cho trục hoành.
      • y = “Chi phí y tế (USD)”: Chú thích cho trục tung.

2.13 Biểu đồ so sánh chi phí y tế theo giới tính:

a %>%
  ggplot(aes(x = age, y = charges, color = sex)) +
  geom_line() +
  labs(title = "So sánh chi phí y tế theo giới tính", x = "Tuổi", y = "Chi phí y tế (USD)", color = "Giới tính")

  • Giải thích ý nghĩa câu lệnh:
    • a %>%: Chọn dữ liệu từ biến a để sử dụng trong ggplot.

    • ggplot(aes(x = age, y = charges, color = sex)): Khởi tạo một ggplot object với dữ liệu được chọn từ a.

      • aes(x = age, y = charges, color = sex): Xác định biến age, charges và sex được sử dụng để tạo biểu đồ.
      • x = age: Trục hoành thể hiện “Tuổi”.
      • y = charges: Trục tung thể hiện “Chi phí y tế (USD)”.
      • color = sex: Màu sắc của các đường biểu thị “Giới tính”.
    • geom_line(): Thêm layer biểu đồ đường vào ggplot object.

    • labs(title = “So sánh chi phí y tế theo giới tính”, x = “Tuổi”, y = “Chi phí y tế (USD)”, color = “Giới tính”): Thêm tiêu đề và chú thích cho các trục và phần tô màu.

      • title = “So sánh chi phí y tế theo giới tính”: Tiêu đề cho biểu đồ.
      • x = “Tuổi”: Chú thích cho trục hoành.
      • y = “Chi phí y tế (USD)”: Chú thích cho trục tung.
      • color = “Giới tính”: Chú thích cho phần tô màu (thực tế là thể hiện “Giới tính”).

2.14 Biểu đồ so sánh chi phí y tế theo khu vực:

a %>%
  ggplot(aes(x = age, y = charges, color = region)) +
  geom_line() +
  labs(title = "So sánh chi phí y tế theo khu vực", x = "Tuổi", y = "Chi phí y tế (USD)", color = "Khu vực")

  • Giải thích ý nghĩa câu lệnh:
    • a %>%: Chọn dữ liệu từ biến a để sử dụng trong ggplot.

    • ggplot(aes(x = age, y = charges, color = region)): Khởi tạo một ggplot object với dữ liệu được chọn từ a.

      • aes(x = age, y = charges, color = region): Xác định biến age, charges và region được sử dụng để tạo biểu đồ.
      • x = age: Trục hoành thể hiện “Tuổi”.
      • y = charges: Trục tung thể hiện “Chi phí y tế (USD)”.
      • color = region: Màu sắc của các đường biểu thị “Khu vực”.
    • geom_line(): Thêm layer biểu đồ đường vào ggplot object.

    • labs(title = “So sánh chi phí y tế theo khu vực”, x = “Tuổi”, y = “Chi phí y tế (USD)”, color = “Khu vực”): Thêm tiêu đề và chú thích cho các trục và phần tô màu.

      • title = “So sánh chi phí y tế theo khu vực”: Tiêu đề cho biểu đồ.
      • x = “Tuổi”: Chú thích cho trục hoành.
      • y = “Chi phí y tế (USD)”: Chú thích cho trục tung. color = “Khu vực”: Chú thích cho phần tô màu (thực tế là thể hiện “Khu vực”).

2.15 Biểu đồ ảnh hưởng của BMI đến chi phí y tế:

a %>%
  ggplot(aes(x = bmi, y = charges)) +
  geom_point() +
  geom_smooth(method = "lm") +
  labs(title = "Ảnh hưởng của BMI đến chi phí y tế", x = "BMI", y = "Chi phí y tế (USD)")
## `geom_smooth()` using formula = 'y ~ x'

  • Giải thích ý nghĩa câu lệnh:
    • a %>%: Chọn dữ liệu từ biến a để sử dụng trong ggplot.

    • ggplot(aes(x = bmi, y = charges)): Khởi tạo một ggplot object với dữ liệu được chọn từ a.

      • aes(x = bmi, y = charges): Xác định biến bmi và charges được sử dụng để tạo biểu đồ.
      • x = bmi: Trục hoành thể hiện “Chỉ số khối cơ thể (BMI)”.
      • y = charges: Trục tung thể hiện “Chi phí y tế (USD)”.
    • geom_point(): Thêm layer biểu đồ điểm vào ggplot object. Biểu đồ điểm hiển thị mối liên hệ giữa từng điểm dữ liệu (BMI, chi phí y tế)

    • geom_smooth(method = “lm”): Thêm layer đường hồi quy tuyến tính vào ggplot object. Đường hồi quy giúp mô tả mối liên hệ tổng thể giữa BMI và chi phí y tế.

      • method = “lm”: Sử dụng phương pháp hồi quy tuyến tính.
    • labs(title = “Ảnh hưởng của BMI đến chi phí y tế”, x = “BMI”, y = “Chi phí y tế (USD)”): Thêm tiêu đề và chú thích cho các trục.

      • title = “Ảnh hưởng của BMI đến chi phí y tế”: Tiêu đề cho biểu đồ.
      • x = “BMI”: Chú thích cho trục hoành.
      • y = “Chi phí y tế (USD)”: Chú thích cho trục tung.

2.16 Biểu đồ Density Plot giữa Age và Charges (phân loại theo Smoker):

ggplot(a, aes(x = age, fill = smoker)) +
  geom_density(alpha = 0.7) +
  labs(title = "Density Plot of Age (colored by Smoker)", x = "Age", y = "Density") +
  scale_fill_manual(values = c("yes" = "brown", "no" = "lightyellow"))

  • Giải thích ý nghĩa câu lệnh:
    • ggplot(a, aes(x = age, fill = smoker)): Khởi tạo một ggplot object từ dữ liệu được lưu trữ trong biến a.

      • aes(x = age, fill = smoker): Xác định biến age và smoker được sử dụng để tạo biểu đồ mật độ.
      • x = age: Trục hoành thể hiện “Age” (giữ nguyên tên tiếng Anh).
      • fill = smoker: Màu sắc của biểu đồ mật độ thể hiện “Smoker” (giữ nguyên tên tiếng Anh).
    • geom_density(alpha = 0.7): Thêm layer biểu đồ mật độ vào ggplot object.

      • alpha = 0.7: Thiết lập độ mờ của biểu đồ mật độ thành 0.7 (70% opacity).
    • labs(title = “Density Plot of Age (colored by Smoker)”, x = “Age”, y = “Density”): Thêm tiêu đề, chú thích cho các trục và phần tô màu (giữ nguyên tên tiếng Anh).

      • title = “Density Plot of Age (colored by Smoker)”: Tiêu đề cho biểu đồ (diễn đạt bằng tiếng Anh).
      • x = “Age”: Chú thích cho trục hoành (giữ nguyên tên tiếng Anh).
      • y = “Density”: Chú thích cho trục tung (giữ nguyên tên tiếng Anh).
    • scale_fill_manual(values = c(“yes” = “brown”, “no” = “lightyellow”)): Chọn cách tô màu thủ công cho biểu đồ mật độ.

      • values = c(“yes” = “brown”, “no” = “lightyellow”): Xác định giá trị của biến smoker và màu sắc tương ứng.
      • “yes” được tô màu nâu (“brown”).
      • “no” được tô màu vàng nhạt (“lightyellow”).

2.17 Biểu Đồ Scatter Plot cho tương quan giữa BMI và Region:

ggplot(a, aes(x = bmi, y = as.factor(region), color = bmi)) +
  geom_point() +
  labs(title = "Scatter Plot of BMI by Region", x = "BMI", y = "Region") +
  scale_color_viridis_c() +
  theme(axis.text.y = element_text(angle = 0, hjust = 1))

  • Giải thích ý nghĩa câu lệnh:
    • ggplot(a, aes(x = bmi, y = as.factor(region), color = bmi)): Khởi tạo một ggplot object từ dữ liệu được lưu trữ trong biến a.

      • aes(x = bmi, y = as.factor(region), color = bmi): Xác định các biến được sử dụng để tạo biểu đồ.
      • x = bmi: Trục hoành thể hiện “BMI”.
      • y = as.factor(region): Trục tung thể hiện “Region” được chuyển đổi thành dạng factor. Chuyển đổi này giúp phân biệt các vùng miền riêng biệt thay vì chỉ là giá trị văn bản.
      • color = bmi: Màu sắc của các điểm dữ liệu được xác định bởi giá trị của biến “bmi”.
    • geom_point(): Thêm layer biểu đồ điểm vào ggplot object. Biểu đồ điểm hiển thị mối liên hệ giữa từng điểm dữ liệu (BMI, vùng miền).

    • labs(title = “Scatter Plot of BMI by Region”, x = “BMI”, y = “Region”): Thêm tiêu đề và chú thích cho các trục.

      • title = “Scatter Plot of BMI by Region”: Tiêu đề cho biểu đồ (diễn đạt bằng tiếng Anh).
      • x = “BMI”: Chú thích cho trục hoành.
      • y = “Region”: Chú thích cho trục tung.
    • scale_color_viridis_c(): Chọn bảng màu “viridis” để tô màu cho các điểm dữ liệu. Bảng màu viridis chuyển màu từ xanh lá cây sang vàng rồi đến đỏ theo giá trị của biến bmi.

    • theme(axis.text.y = element_text(angle = 0, hjust = 1)): Tùy chỉnh hiển thị nhãn cho trục tung.

      • axis.text.y = element_text(angle = 0, hjust = 1): Xoay nhãn của trục tung 0 độ (giữ thẳng đứng) và canh chỉnh sang phải.

2.18 Biểu đồ Bar Plot giữa Sex và Number of Children:

ggplot(a, aes(x = sex, fill = as.factor(children))) +
  geom_bar() +
  labs(title = "Bar Plot of Number of Children by Sex", x = "Sex", y = "Count") +
  scale_fill_brewer(palette = "Set3")

  • Giải thích ý nghĩa câu lệnh:
    • ggplot(a, aes(x = sex, fill = as.factor(children))): Khởi tạo một ggplot object từ dữ liệu được lưu trữ trong biến a.

      • aes(x = sex, fill = as.factor(children)): Xác định các biến được sử dụng để tạo biểu đồ thanh.
      • x = sex: Trục hoành thể hiện “Sex” (giữ nguyên tên tiếng Anh).
      • fill = as.factor(children): Màu sắc của các cột bar thể hiện “Số con” (Children) được chuyển đổi thành dạng factor. Chuyển đổi này giúp phân biệt nhóm có con/không con riêng biệt thay vì chỉ là giá trị số.
    • geom_bar(): Thêm layer biểu đồ thanh vào ggplot object. Biểu đồ thanh giúp hiển thị số lượng theo từng nhóm (nam/nữ) trên trục hoành.

    • labs(title = “Bar Plot of Number of Children by Sex”, x = “Sex”, y = “Count”): Thêm tiêu đề và chú thích cho các trục.

      • title = “Bar Plot of Number of Children by Sex”: Tiêu đề cho biểu đồ (diễn đạt bằng tiếng Anh).
      • x = “Sex”: Chú thích cho trục hoành (giữ nguyên tên tiếng Anh).
      • y = “Count”: Chú thích cho trục tung, mặc dù tên chính xác hơn có thể là “Number of Children” (Số con).
    • scale_fill_brewer(palette = “Set3”): Chọn bảng màu “Set3” từ bộ màu Brewer để tô màu cho các cột bar theo nhóm có con/không con.

2.19 Biểu đồ bar plot giữa giới tính và khu vực

ggplot(a, aes(x = sex, fill = region)) +
  geom_bar(position = "dodge", stat = "count") +
  geom_text(aes(label = stat(count)), stat = "count", position = position_dodge(width = 0.9))
## Warning: `stat(count)` was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

  labs(title = "Bar Plot of Sex vs region",
       x = "Sex",
       y = "Count") 
## $x
## [1] "Sex"
## 
## $y
## [1] "Count"
## 
## $title
## [1] "Bar Plot of Sex vs region"
## 
## attr(,"class")
## [1] "labels"
  • Giải thích ý nghĩa câu lệnh:
    • ggplot(a, aes(x = sex, fill = region)): Khởi tạo một ggplot object từ dữ liệu được lưu trữ trong biến a.

      • aes(x = sex, fill = region): Xác định các biến được sử dụng để tạo biểu đồ thanh.
      • x = sex: Trục hoành thể hiện “Sex” (giữ nguyên tên tiếng Anh). fill = region: Màu sắc của các cột bar thể hiện “Vùng miền” (region).
    • geom_bar(position = “dodge”, stat = “count”): Thêm layer biểu đồ thanh xếp chồng (dodge) vào ggplot object.

      • position = “dodge”: Xếp chồng các cột bar theo nhóm giới tính (nam/nữ) trên trục hoành để tránh chồng chéo lên nhau.
      • stat = “count”: Sử dụng thống kê “count” để tính tổng số người cho mỗi nhóm (giới tính + vùng miền).
    • geom_text(aes(label = stat(count)), stat = “count”, position = position_dodge(width = 0.9)): Thêm layer text để hiển thị giá trị (số lượng) trên mỗi cột bar.

      • aes(label = stat(count)): Lấy giá trị trả về của thống kê “count” (số lượng) để hiển thị trên mỗi cột bar.
      • stat = “count”: Sử dụng thống kê “count” để tính toán giá trị hiển thị (giống với geom_bar).
      • position = position_dodge(width = 0.9): Vị trí đặt text cũng xếp chồng theo nhóm giống với geom_bar, độ rộng text bằng 90% chiều rộng của cột bar (để tránh text bị che khuất).
    • labs(title = “Bar Plot of Sex vs region”, x = “Sex”, y = “Count”): Thêm tiêu đề và chú thích cho các trục.

      • title = “Bar Plot of Sex vs region”: Tiêu đề cho biểu đồ (diễn đạt bằng tiếng Anh).
      • x = “Sex”: Chú thích cho trục hoành (giữ nguyên tên tiếng Anh).
      • y = “Count”: Chú thích cho trục tung.

2.20 Biểu đồ cột hiển thị số lượng người hút thuốc và không hút thuốc theo giới tính

ggplot(a, aes(x = sex, fill = smoker)) +
  geom_bar(position = "dodge", stat = "count") +
  geom_text(aes(label = stat(count)), stat = "count", position = position_dodge(width = 0.9))

  labs(title = " Biểu đồ cột hiển thị số lượng người hút thuốc và không hút thuốc theo giới tính", y = "Count") +
  scale_fill_manual(values = c("yes" = "skyblue", "no" = "pink"))
## NULL
  • Giải thích ý nghĩa câu lệnh:
    • ggplot(a, aes(x = sex, fill = smoker))

      • ggplot(a): Khởi tạo một biểu đồ ggplot dựa trên dữ liệu trong dataframe a.
      • aes(x = sex, fill = smoker):
      • aes: Ánh xạ các biến trong dataframe vào các thuộc tính của biểu đồ.
      • x = sex: Gán biến sex (giới tính) cho trục x của biểu đồ.
      • fill = smoker: Gán biến smoker (hút thuốc) cho màu sắc của các thanh trong biểu đồ.
    • geom_bar(position = “dodge”, stat = “count”)

      • geom_bar: Thêm hình dạng thanh vào biểu đồ.
      • position = “dodge”: Xếp các thanh cạnh nhau theo nhóm (giới tính) với khoảng cách nhất định.
      • stat = “count”: Tính toán số lượng người cho mỗi nhóm (giới tính) và hiển thị trên thanh.
    • geom_text(aes(label = stat(count)), stat = “count”, position = position_dodge(width = 0.9))

      • geom_text: Thêm chú thích số lượng vào mỗi thanh.
      • aes(label = stat(count)): Gán giá trị số lượng (tính toán bởi - stat(count)) cho nội dung chú thích. position = position_dodge(width = 0.9): Vị trí chú thích được căn chỉnh với vị trí của thanh và có độ rộng 0.9.
    • labs(title = “Biểu đồ cột hiển thị số lượng người hút thuốc và không hút thuốc theo giới tính”, y = “Count”)

      • labs: Thêm tiêu đề và chú thích cho các trục.
      • title = “Biểu đồ cột hiển thị số lượng người hút thuốc và không hút thuốc theo giới tính”: Tiêu đề cho biểu đồ.
      • y = “Count”: Chú thích cho trục y.
    • scale_fill_manual(values = c(“yes” = “skyblue”, “no” = “pink”))

      • scale_fill_manual: Chọn màu sắc cho các nhóm (giới tính).
      • values = c(“yes” = “skyblue”, “no” = “pink”): Gán màu xanh da trời cho nhóm “yes” (hút thuốc) và màu hồng cho nhóm “no” (không hút thuốc).
