Giới thiệu bộ
dữ liệu
Bộ dữ liệu iris là một tập hợp các dữ liệu về các loài hoa iris thu
thập bởi nhà thực vật học Ronald Fisher vào những năm 1930. Bộ dữ liệu
này chứa thông tin về các đặc điểm morfôlogi của các mẫu hoa iris thuộc
ba loài khác nhau: Iris setosa, Iris versicolor và Iris virginica. Cụ
thể, các đặc điểm này bao gồm:
- Sepal Length (Chiều dài lá đài): Độ dài của lá đài trong đơn vị
centimet.
- Sepal Width (Chiều rộng lá đài): Độ rộng của lá đài trong đơn vị
centimet.
- Petal Length (Chiều dài cánh hoa): Độ dài của cánh hoa trong đơn vị
centimet.
- Petal Width (Chiều rộng cánh hoa): Độ rộng của cánh hoa trong đơn vị
centimet. Mỗi mẫu hoa iris được ghi lại thông qua bốn thuộc tính trên và
được gắn nhãn với loài tương ứng của nó.
Bộ dữ liệu iris gồm tổng cộng 150 mẫu, với mỗi loài hoa iris có 50
mẫu. Bộ dữ liệu này đã trở thành một bộ dữ liệu kinh điển trong lĩnh vực
học máy và thống kê, được sử dụng rộng rãi để minh họa các kỹ thuật phân
loại, phân tích phân biệt và khám phá dữ liệu.
Với các thông tin về kích thước và hình dạng của lá đài và cánh hoa,
bộ dữ liệu iris cung cấp một nền tảng lý tưởng để nghiên cứu và áp dụng
các phương pháp phân loại và nhận dạng mẫu, cũng như hiểu rõ hơn về sự
đa dạng của loài hoa iris.
Biểu đồ
1
library(tidyverse)
data("iris")
hoa <- iris
library(dplyr)
library(ggplot2)
# Tính toán chiều dài lá trung bình của mỗi loài hoa iris
iris_avg_sepal_length <- iris %>%
group_by(Species) %>%
summarise(avg_sepal_length = mean(Sepal.Length))
# Vẽ biểu đồ cột
ggplot(iris_avg_sepal_length, aes(x = Species, y = avg_sepal_length, fill = Species)) +
geom_bar(stat = "identity", color = "black") +
labs(title = "Độ dài lá trung bình của mỗi loài",
x = "Loài",
y = "Độ dài lá trung bình")

Giải thích biểu đồ 1 - group_by(Species): Hàm
group_by() của gói dplyr được sử dụng để nhóm dữ liệu theo một biến cụ
thể, trong trường hợp này là cột Species.
summarise(avg_sepal_length = mean(Sepal.Length)): Hàm summarise()
của dplyr được sử dụng để tóm tắt dữ liệu. Trong trường hợp này, chúng
ta tính giá trị trung bình của cột Sepal.Length cho mỗi nhóm loài hoa
Species, và lưu kết quả vào cột mới avg_sepal_length. Kết quả sẽ được
lưu vào một data frame mới có tên là iris_avg_sepal_length.
ggplot(): Hàm này khởi tạo một đối tượng ggplot. Trong trường hợp
này, chúng ta cung cấp dữ liệu iris_avg_sepal_length làm dữ liệu đầu
vào.
aes(): Hàm này được sử dụng để xác định các aesthetics (mỹ thuật)
cho biểu đồ. Trong trường hợp này, chúng ta gán cột Species cho trục x
và cột avg_sepal_length cho trục y, và tô màu theo Species.
-geom_bar(): Hàm này được sử dụng để vẽ biểu đồ cột. Tham số stat =
“identity” đảm bảo rằng chiều cao của các cột được lấy trực tiếp từ dữ
liệu (không thực hiện tính toán lại).
-labs(): Hàm này được sử dụng để gán nhãn cho các trục và biểu
đồ.
- biểu đồ này sẽ tính toán chiều dài lá trung bình của mỗi loài hoa
iris và sau đó vẽ biểu đồ cột để so sánh giữa các loài. Biểu đồ cột sẽ
có trục x là tên loài hoa iris và trục y là chiều dài lá trung bình,
được tô màu khác nhau cho mỗi loài hoa để dễ nhận biết.
Biểu đồ
2
library(ggplot2)
# Tính số lượng của mỗi loài hoa iris
species_count <- table(iris$Species)
# Tạo biểu đồ pie chart
pie_chart <- ggplot(data = NULL, aes(x = "", y = species_count, fill = names(species_count))) +
geom_bar(stat = "identity") +
coord_polar("y", start = 0) +
labs(title = "Phân bố của các loài hoa",
fill = "Loài") +
theme_void()
# Hiển thị biểu đồ
print(pie_chart)
## Don't know how to automatically pick scale for object of type <table>.
## Defaulting to continuous.

Giải thích biểu đồ 2
ggplot(data = NULL, aes(x = ““, y = species_count, fill =
names(species_count))): Đây là câu lệnh để khởi tạo một đối tượng
ggplot. Chúng ta cung cấp NULL cho dữ liệu vì chúng ta đã tính toán số
lượng trước đó. Trong aesthetics, chúng ta sử dụng y để đại diện cho số
lượng của mỗi loài hoa iris, và fill để tô màu theo tên của các loài
hoa.
geom_bar(stat = “identity”): Chúng ta sử dụng geom_bar() để tạo
ra biểu đồ cột, với tham số stat = “identity” để đảm bảo rằng chiều cao
của cột được lấy trực tiếp từ dữ liệu (không thực hiện tính toán
lại).
coord_polar(“y”, start = 0): Hàm này thiết lập loại biểu đồ là
biểu đồ pie chart.
labs(): Hàm này được sử dụng để đặt tiêu đề và nhãn cho biểu
đồ.
theme_void(): Hàm này thiết lập giao diện cho biểu đồ là không có
gì (void), nghĩa là không có bất kỳ lưới hoặc trục nào.
Biểu đồ
3
library(ggplot2)
# Tính số lượng của mỗi loài hoa iris
species_count <- table(iris$Species)
# Tạo biểu đồ pie chart
pie_chart <- ggplot(data = NULL, aes(x = "", y = species_count, fill = names(species_count))) +
geom_bar(stat = "identity") +
coord_polar("y", start = 0) +
labs(title = "phân bố của 3 loài hoa",
fill = "loài") +
theme_minimal()
# Hiển thị biểu đồ
print(pie_chart)
## Don't know how to automatically pick scale for object of type <table>.
## Defaulting to continuous.

Giả thích biểu đồ 3
table(iris$Species) tính số lượng hoa của mỗi loại.
ggplot() khởi tạo biểu đồ pie chart.
geom_bar(stat = “identity”) tạo ra biểu đồ cột với chiều dài
tương ứng với số lượng từng loại hoa.
coord_polar(“y”, start = 0) chuyển biểu đồ thành dạng pie chart
với trục số quanh đường tròn.
theme_minimal() thiết lập giao diện cho biểu đồ.
Sau khi chạy mã này, bạn sẽ có một biểu đồ pie chart thể hiện số
lượng hoa từng loại có trục số quanh đường tròn.
BIểu đồ
4
library(ggplot2)
# Tạo biểu đồ density plot
density_plot <- ggplot(iris, aes(x = Sepal.Length, fill = Species)) +
geom_density(alpha = 0.5) +
labs(title = "Density Plot of Sepal Length by Species",
x = "Sepal Length",
y = "Density",
fill = "Species") +
theme_minimal()
# Hiển thị biểu đồ
print(density_plot)
Giải thích biểu đồ 4
ggplot(iris, aes(x = Sepal.Length, fill = Species)) khởi tạo biểu
đồ density plot, với dữ liệu từ dataframe iris, chiều dài lá đài
(Sepal.Length) làm trục x và màu sắc theo loài hoa (Species).
geom_density(alpha = 0.5) thêm layer density plot vào biểu đồ với
độ mờ (alpha) là 0.5 để giảm độ trong suốt của đường density.
labs() được sử dụng để đặt tiêu đề và nhãn cho các trục và biểu
đồ.
theme_minimal() thiết lập giao diện cho biểu đồ là giao diện tối
giản.
Sau khi chạy mã này, bạn sẽ có một biểu đồ density plot thể hiện
phân phối của chiều dài lá đài theo từng loài hoa iris.
Biểu đồ
5
library(ggplot2)
# Tạo biểu đồ histogram
histogram_plot <- ggplot(iris, aes(x = Sepal.Width, fill = Species)) +
geom_histogram(binwidth = 0.2, position = "dodge", alpha = 0.5) +
labs(title = "Histogram of Sepal Width by Species",
x = "Sepal Width",
y = "Frequency",
fill = "Species") +
theme_minimal()
# Hiển thị biểu đồ
print(histogram_plot)

