GIỚI THIỆU VỀ BỘ DỮ LIỆU APPLE QUALITY
Apple Quality là bộ dữ liệu chứa các về các thuộc tính khác nhau của
một bộ trái cây,cụ thể hơn là táo và cung cấp thông tin chi tiết về đặc
điểm của chúng. Bộ dữ liệu bao gồm các chi tiết như ID trái cây, kích
thước, trọng lượng, độ ngọt, độ giòn, độ ngon ngọt, độ chín, độ chua và
chất lượng.
Bộ dữ liệu được cung cấp rộng rãi bởi một công ty nông nghiệp Mỹ và
đã được thu nhỏ và làm sạch để dễ sử dụng.
Bộ dữ liệu bao gồm các thuộc tính sau:
A_id: Id của trái táo.
Size: kích thước của trái táo.
Weight: trọng lượng của trái táo.
Sweetness: Độ ngọt của trái táo.
Crunchiness: độ giòn của trái táo.
Juiciness: độ mọng nước của trái táo.
Ripeness: độ chín của trái táo.
Acidity: độ chua của trái táo.
Quality: chất lượng của trái táo.
str(d)
## 'data.frame': 4001 obs. of 9 variables:
## $ A_id : int 0 1 2 3 4 5 6 7 8 9 ...
## $ Size : num -3.97 -1.195 -0.292 -0.657 1.364 ...
## $ Weight : num -2.51 -2.84 -1.35 -2.27 -1.3 ...
## $ Sweetness : num 5.346 3.664 -1.738 1.325 -0.385 ...
## $ Crunchiness: num -1.012 1.5882 -0.3426 -0.0979 -0.553 ...
## $ Juiciness : num 1.845 0.853 2.839 3.638 3.031 ...
## $ Ripeness : num 0.33 0.868 -0.038 -3.414 -1.304 ...
## $ Acidity : chr "-0.491590483" "-0.722809367" "2.621636473" "0.790723217" ...
## $ Quality : chr "good" "good" "bad" "good" ...
BIỂU ĐỒ
Biến “quality” là một biến phân loại (categorical) trong bộ dữ liệu
“Apple Qualty” và được sử dụng để đánh giá mức độ chất lượng của trái
táo.
Biến này có 2 mước đánh giá khác nhau được mô tả như sau:
table(d$Quality)
##
## bad good
## 1 1996 2004
Biểu đồ cột cho biến “quality”:
d %>% group_by(Quality) %>% summarise(n = n()) %>%
ggplot(aes(Quality,n)) +
geom_col(fill='dark blue') +
labs(title = " BIỂU ĐỒ THỂ HIỆN NHÓM THEO QUALITY ") +
geom_text(aes(label = n),vjust = 2, color = 'white') +
labs(x = 'Thang đo Quality', y = 'Số lượng')

Nhận xét
Có thể thấy rằng số lương táo kém chất lượng (bad) và chất
lượng(good) đồng đều nhau lần lượt là 1996 trái và 2004 trái.
Biểu đồ cột theo phân trăm của biến quality
library(dplyr)
library(scales)
library(tidyverse)
d %>% group_by(Quality) %>% summarise(n = n()) %>%
ggplot(aes(Quality,n)) +
geom_col(fill='dark blue') +
geom_text(aes(label = percent(n/length(d$Quality))),vjust = 2, color = 'white') +
labs(x = 'Loại', y = 'Số lượng')

Nhận xét
Tương tự như biểu đồ ở trên không có sự chênh lệch quá mực mà khá
đồng đều của trái táo theo 2 cách đánh giá khác nhau.
Biểu đồ Histogram cho biến Crunchiness
d %>% ggplot(aes(x = Crunchiness)) +
geom_histogram(binwidth = 0.1, fill = 'Pink', color = 'red')
Nhận xét
Trong phân khúc trên độ
giòn của táo từ 0.4 đến 1.5 là đạt đỉnh vì chiếm số lượng táo có độ giòn
đó hơn 100 trái cho từ độ giòn được nêu trước đó.
Biểu đồ Histogram tương quan giữa Juiciness và
Quality
d %>% ggplot(aes(x = Juiciness, fill = Quality)) +
geom_histogram(binwidth = 0.5)
Nhận xét
Nơn 400 trái .
Trong
khi ngược lại số lượng táo chất lượng có độ mọng nước từ 1.6 đến 2 thì
đạt đỉnh hơn 200 trái.
Biểu đồ Histogram tương quan giữa Sweetness và
Quality
d %>% ggplot(aes(x = Sweetness)) +
geom_histogram(binwidth = 0.5, fill = 'pink', color = 'red') +
facet_wrap(~Quality)
Nhận xét
Ta có 2 biểu đồ chia làm
hai : táo kém chất lượng và táo chất lượng.
Táo kém chất lượng
nhưng có độ ngọt từ 1 đến 1.5 thì chiếm rất nhiều hơn 260 trái trong khi
táo chất lượng có độ ngọt từ 0.6 đến 1 chiếm đa số gần 250 trái.
Biểu đồ density của biến Weight
d %>% ggplot(aes(x = Weight)) +
geom_density(fill = 'dark blue')
Nhận xét
Trong phân khúc mật độ từ
0.2 đến 0.27 có sự biến động khá lớn khi ta thấy được đỉnh nhon của biến
Weight.
Biểu đồ density của biến Size
d %>% ggplot(aes(x = Size, fill = Quality)) +
geom_density()

Biểu đồ density của biến Juiciness
d %>% ggplot(aes(x = Juiciness)) +
geom_density(fill = 'dark blue') +
facet_wrap(~Quality)

Biểu đồ cột của biến QUality
d %>% group_by(Quality) %>% summarise(n = n()) %>%
ggplot(aes(x = '', y = n,fill = Quality)) +
geom_col() +
geom_text(aes(label = n),position = position_stack(vjust = 1))
Nhận xét
Biểu đồ cho thấy sô lượng
của táo good và táo bad dưới dạng trồng lên nhau.
Biểu đồ tròn biến Quality
d %>% group_by(Quality) %>% summarise(n = n()) %>%
ggplot(aes(x = '', y = n,fill = Quality)) +
geom_col() +
coord_polar('y')
Nhận xét
BIểu đồ tròn của biến
QUality cho thấy sô lượng xêm xêm nhau của hai loại táo good và bad.
Biểu đồ phân tán của biến Weight và Juiciness
d %>% ggplot(aes(x = Weight, y = Juiciness)) +
geom_point(color = 'red') +
geom_smooth(method = 'lm', color = 'dark blue')
Nhận xét
Các điểm trên biểu đồ màu
đỏ và biểu thị các cặp giá trị (Weight, Juiciness) trong tập dữ liệu và
có thể thấy rằng các cặp giá trị từ -2 đến 2 tập trung nhiều điểm đỏ
cũng là chiếm nhiều số lượng táo.
đường thẳng màu xanh cho thấy xu
hướng chung của nó trong trường hợp này là giảm ta có thể lí giải rằng
trọng lượng táo càng lớn thì độ mọng nước càng giảm.
Biểu đồ phân tán của giữa biến Crunchiness , Sweetness và
Quality
d %>% ggplot(aes(x = Crunchiness, y = Sweetness, alpha = Quality)) +
geom_point()
Nhận xét
Biểu đồ này có hai đối
tuongj của Quality và được quy định theo màu sắc khác nhau . Tương tự
như ở trên có thể thấy rằng các cặp giá trị từ -2 đến 2 tập trung nhiều
điểm đỏ cũng là chiếm nhiều số lượng táo bất kể loại nào.
Biểu đồ phân tán của biến Weight và Quality
d %>% ggplot(aes(x = Ripeness, y = Weight)) +
geom_point(color = 'dark blue') +
geom_smooth(method = 'lm', color = 'pink') +
facet_wrap(~Quality)
Nhận xét
Như biểu đồ 12 lúc này được
chia thành hai biểu đồ nhỏ tượng trưng cho 2 loại táo bad và good . Nhìn
chung chúng có cùng xu hướng giảm chức tỏ trọng lượng càng ít đi thì
trái đó chín mùi hơn.
Biểu đồ tròn của biến Quality
d %>% group_by(Quality) %>% summarise(n = n()) %>%
ggplot(aes(x = '', y = n,fill = Quality)) +
geom_col(color = 'black') +
coord_polar('y') +
geom_text(aes(x = 1.0, label = n),position = position_stack(vjust = .5)) +
theme_void()
Nhận xét
Biểu đò này cho thấy rõ hơn
sô lượng mà cả hai loại táo bad và good sở hữu lần lượt là 1996 trái và
2004 trái trên mặt phẳng tròn và màu sắc được quy định.
Biểu đồ Histogram củ biến Weight và Quality
d %>% ggplot(aes(x = Ripeness)) +
geom_histogram(data = d %>% filter(Quality == 'bad'), binwidth = 1, fill = 'darkblue') +
geom_histogram(data = d %>% filter(Quality == 'good'), binwidth = 1, fill = 'brown')
Nhận xét
Nhìn trên biểu đò ta có thể
thấy được rằng sô táo chất lượng có độ chín từ 0.1 đến 1 chiếm nhiều
nhất là hơn 400 trái .
Trong khi ngược lại số lượng táo kém chất
lượng đã bị che bởi số táo chất lượng có thể tháy trên biểu đồ nên ta
không thể kết luận chính xác được.
Biểu đồ nhóm thể hiện theo Weight
dweight <- d %>% mutate(Weight = cut(Weight,5, label = c('too light', 'light','Fine','Heavy','Extreme Heavy')))
ta chia trọng lượng thành 5 nhóm : too light , light, Fine,
Heavy và Extreme Heavy.
dweight %>% group_by(Weight) %>% summarise(n = n()) %>%
ggplot(aes(Weight,n)) +
geom_col(fill='dark blue') +
labs(title = " Biểu đồ thể hiện nhóm theo Weight ") +
geom_text(aes(label = n),vjust = 0, color = 'brown') +
labs(x = 'Trọng Lượng', y = 'Số lượng')
Nhận xét Ta nhận được kết quả như trên cụ
thể hơn là số lượng táo mà các nhóm sở hữu. Nhiều nhất là Fine 2369 trái
và ít nhất là Extreme Heavy 27 trái.
Biểu đồ tròn biến Weight
dweight <- d %>% mutate(Weight = cut(Weight,5, label = c('too light', 'light','Fine','Heavy','Extreme Heavy')))
dweight %>% group_by(Weight) %>% summarise(n = n()) %>%
ggplot(aes(x = '', y = n,fill = Weight)) +
geom_col(color = 'black') +
coord_polar('y') +
geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
theme_void()
Nhận xét
Thay vì biểu đồ cột như
biểu đồ 16 thì các đối tượng của biến Weight được biểu diễn trên biểu đồ
tròn với giá trị tương ứng.
