1 Giới thiệu bộ dữ liệu

Bộ dữ liệu iris là một tập hợp các dữ liệu về các loài hoa iris thu thập bởi nhà thực vật học Ronald Fisher vào những năm 1930. Bộ dữ liệu này chứa thông tin về các đặc điểm morfôlogi của các mẫu hoa iris thuộc ba loài khác nhau: Iris setosa, Iris versicolor và Iris virginica. Cụ thể, các đặc điểm này bao gồm:

  • Sepal Length (Chiều dài lá đài): Độ dài của lá đài trong đơn vị centimet.
  • Sepal Width (Chiều rộng lá đài): Độ rộng của lá đài trong đơn vị centimet.
  • Petal Length (Chiều dài cánh hoa): Độ dài của cánh hoa trong đơn vị centimet.
  • Petal Width (Chiều rộng cánh hoa): Độ rộng của cánh hoa trong đơn vị centimet. Mỗi mẫu hoa iris được ghi lại thông qua bốn thuộc tính trên và được gắn nhãn với loài tương ứng của nó.

Bộ dữ liệu iris gồm tổng cộng 150 mẫu, với mỗi loài hoa iris có 50 mẫu. Bộ dữ liệu này đã trở thành một bộ dữ liệu kinh điển trong lĩnh vực học máy và thống kê, được sử dụng rộng rãi để minh họa các kỹ thuật phân loại, phân tích phân biệt và khám phá dữ liệu.

Với các thông tin về kích thước và hình dạng của lá đài và cánh hoa, bộ dữ liệu iris cung cấp một nền tảng lý tưởng để nghiên cứu và áp dụng các phương pháp phân loại và nhận dạng mẫu, cũng như hiểu rõ hơn về sự đa dạng của loài hoa iris.

1.1 Biểu đồ 1

library(tidyverse)
data("iris")
hoa <- iris
library(dplyr)
library(ggplot2)

# Tính toán chiều dài lá trung bình của mỗi loài hoa iris
iris_avg_sepal_length <- iris %>%
  group_by(Species) %>%
  summarise(avg_sepal_length = mean(Sepal.Length))

# Vẽ biểu đồ cột
ggplot(iris_avg_sepal_length, aes(x = Species, y = avg_sepal_length, fill = Species)) +
  geom_bar(stat = "identity", color = "black") +
  labs(title = "Độ dài lá trung bình của mỗi loài",
       x = "Loài",
       y = "Độ dài lá trung bình")

Giải thích biểu đồ 1 - group_by(Species): Hàm group_by() của gói dplyr được sử dụng để nhóm dữ liệu theo một biến cụ thể, trong trường hợp này là cột Species.

  • summarise(avg_sepal_length = mean(Sepal.Length)): Hàm summarise() của dplyr được sử dụng để tóm tắt dữ liệu. Trong trường hợp này, chúng ta tính giá trị trung bình của cột Sepal.Length cho mỗi nhóm loài hoa Species, và lưu kết quả vào cột mới avg_sepal_length. Kết quả sẽ được lưu vào một data frame mới có tên là iris_avg_sepal_length.

  • ggplot(): Hàm này khởi tạo một đối tượng ggplot. Trong trường hợp này, chúng ta cung cấp dữ liệu iris_avg_sepal_length làm dữ liệu đầu vào.

  • aes(): Hàm này được sử dụng để xác định các aesthetics (mỹ thuật) cho biểu đồ. Trong trường hợp này, chúng ta gán cột Species cho trục x và cột avg_sepal_length cho trục y, và tô màu theo Species.

-geom_bar(): Hàm này được sử dụng để vẽ biểu đồ cột. Tham số stat = “identity” đảm bảo rằng chiều cao của các cột được lấy trực tiếp từ dữ liệu (không thực hiện tính toán lại).

-labs(): Hàm này được sử dụng để gán nhãn cho các trục và biểu đồ.

  • biểu đồ này sẽ tính toán chiều dài lá trung bình của mỗi loài hoa iris và sau đó vẽ biểu đồ cột để so sánh giữa các loài. Biểu đồ cột sẽ có trục x là tên loài hoa iris và trục y là chiều dài lá trung bình, được tô màu khác nhau cho mỗi loài hoa để dễ nhận biết.

1.2 Biểu đồ 2

library(ggplot2)
# Tính số lượng của mỗi loài hoa iris
species_count <- table(iris$Species)
# Tạo biểu đồ pie chart
pie_chart <- ggplot(data = NULL, aes(x = "", y = species_count, fill = names(species_count))) +
  geom_bar(stat = "identity") +
  coord_polar("y", start = 0) +
  labs(title = "Phân bố của các loài hoa",
       fill = "Loài") +
  theme_void()
# Hiển thị biểu đồ
print(pie_chart)
## Don't know how to automatically pick scale for object of type <table>.
## Defaulting to continuous.

Giải thích biểu đồ 2

  • ggplot(data = NULL, aes(x = ““, y = species_count, fill = names(species_count))): Đây là câu lệnh để khởi tạo một đối tượng ggplot. Chúng ta cung cấp NULL cho dữ liệu vì chúng ta đã tính toán số lượng trước đó. Trong aesthetics, chúng ta sử dụng y để đại diện cho số lượng của mỗi loài hoa iris, và fill để tô màu theo tên của các loài hoa.

  • geom_bar(stat = “identity”): Chúng ta sử dụng geom_bar() để tạo ra biểu đồ cột, với tham số stat = “identity” để đảm bảo rằng chiều cao của cột được lấy trực tiếp từ dữ liệu (không thực hiện tính toán lại).

  • coord_polar(“y”, start = 0): Hàm này thiết lập loại biểu đồ là biểu đồ pie chart.

  • labs(): Hàm này được sử dụng để đặt tiêu đề và nhãn cho biểu đồ.

  • theme_void(): Hàm này thiết lập giao diện cho biểu đồ là không có gì (void), nghĩa là không có bất kỳ lưới hoặc trục nào.

1.3 Biểu đồ 3

library(ggplot2)
# Tính số lượng của mỗi loài hoa iris
species_count <- table(iris$Species)
# Tạo biểu đồ pie chart
pie_chart <- ggplot(data = NULL, aes(x = "", y = species_count, fill = names(species_count))) +
  geom_bar(stat = "identity") +
  coord_polar("y", start = 0) +
  labs(title = "phân bố của 3 loài hoa",
       fill = "loài") +
  theme_minimal()
# Hiển thị biểu đồ
print(pie_chart)
## Don't know how to automatically pick scale for object of type <table>.
## Defaulting to continuous.

Giả thích biểu đồ 3

  • table(iris$Species) tính số lượng hoa của mỗi loại.

  • ggplot() khởi tạo biểu đồ pie chart.

  • geom_bar(stat = “identity”) tạo ra biểu đồ cột với chiều dài tương ứng với số lượng từng loại hoa.

  • coord_polar(“y”, start = 0) chuyển biểu đồ thành dạng pie chart với trục số quanh đường tròn.

  • theme_minimal() thiết lập giao diện cho biểu đồ.

  • Sau khi chạy mã này, bạn sẽ có một biểu đồ pie chart thể hiện số lượng hoa từng loại có trục số quanh đường tròn.

1.4 BIểu đồ 4

library(ggplot2)
# Tạo biểu đồ density plot
density_plot <- ggplot(iris, aes(x = Sepal.Length, fill = Species)) +
  geom_density(alpha = 0.5) +
  labs(title = "Density Plot of Sepal Length by Species",
       x = "Sepal Length",
       y = "Density",
       fill = "Species") +
  theme_minimal()
# Hiển thị biểu đồ
print(density_plot)

Giải thích biểu đồ 4

  • ggplot(iris, aes(x = Sepal.Length, fill = Species)) khởi tạo biểu đồ density plot, với dữ liệu từ dataframe iris, chiều dài lá đài (Sepal.Length) làm trục x và màu sắc theo loài hoa (Species).

  • geom_density(alpha = 0.5) thêm layer density plot vào biểu đồ với độ mờ (alpha) là 0.5 để giảm độ trong suốt của đường density.

  • labs() được sử dụng để đặt tiêu đề và nhãn cho các trục và biểu đồ.

  • theme_minimal() thiết lập giao diện cho biểu đồ là giao diện tối giản.

  • Sau khi chạy mã này, bạn sẽ có một biểu đồ density plot thể hiện phân phối của chiều dài lá đài theo từng loài hoa iris.

1.5 Biểu đồ 5

library(ggplot2)

# Tạo biểu đồ histogram
histogram_plot <- ggplot(iris, aes(x = Sepal.Width, fill = Species)) +
  geom_histogram(binwidth = 0.2, position = "dodge", alpha = 0.5) +
  labs(title = "Histogram of Sepal Width by Species",
       x = "Sepal Width",
       y = "Frequency",
       fill = "Species") +
  theme_minimal()

# Hiển thị biểu đồ
print(histogram_plot)

