Phân tích dữ
liệu
Gọi bộ dữ liệu ggplot2 để dùng hiệu quả hơn cho các phép
tính
options(repos = c(CRAN = "http://cran.rstudio.com/"))
install.packages("ggplot2")
## Installing package into 'C:/Users/a/AppData/Local/R/win-library/4.3'
## (as 'lib' is unspecified)
## package 'ggplot2' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\a\AppData\Local\Temp\Rtmp21MBeg\downloaded_packages
library(ggplot2)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(scales)
library(DT)
Trước hết tôi sẽ gán bộ dữ liệu cho biến cụ thể
ck <- ChickWeight
Biểu đồ thể hiện số
lượng gà theo Diet
ck %>% group_by(Diet) %>% summarise(n = n()) %>%
ggplot( aes( x = as.factor(Diet), y = n)) +
geom_col(fill = 'skyblue') +
geom_text(aes(label = n), vjust = 1, color = 'red') +
xlab('Số thứ tự Chick') +
ylab('Số lượng gà') +
labs(title = 'Biểu đồ số lượng gà theo loại khẩu phần của gà con')

- Nhìn vào ta thấy biểu đồ thể hiện số lượng gà con trên mỗi chế độ
dinh dưỡng
- Loại dinh dưỡng 1 nhiều nhất có 220 con, loại 2 có 120 con, loại 3
có 120 con, loại 4 có 118 con là ít nhất nhưng không đáng kể
Biểu đồ thể hiện
Trọng lượng gà trung bình theo Diet
ck %>% group_by(Diet) %>% summarise(avg = mean(weight)) %>%
ggplot(aes(x = as.factor(Diet), y = avg)) +
geom_col(fill = 'yellow') +
geom_text(aes(label = round(avg,2)), vjust = 1, color = 'red') +
labs( x = 'loại Diet', y = 'Trọng lượng gà con trung bình (gram)', title = 'trọng lượng gà con trung bình theo Diet') +
coord_flip()

- Biểu đồ thể hiện trọng lượng gà trung bình theo từng loại Diet
- Loại 1 thấp nhất với trọng lượng trung bình xấp xỉ 102.65, tiếp đó
là loại 2 là 122.52, loại 4 là 135.26 và cao nhất là loại 4 với trọng
lượng trung bình đạt 142.95
Biểu độ phân tích
trung tâm cân nặng ( theo từng Diet)
ck %>% group_by(Diet) %>% summarise(m= median(weight)) %>%
ggplot(aes(x = Diet,y = m)) +
geom_col(position = 'dodge', fill = 'pink', color = 'black') +
geom_text(aes(label = round(m,2)), vjust = 2, color = 'red') +
labs(x = 'Loại dinh dưỡng', y = 'Trung vị', title ='Trung vị theo cân nặng từng loại dinh dưỡng')

- Biểu độ cho ta thấy được trung vị, từng có 50% phần tử bên trong nhỏ
hơn và số còn lại lớn hơn. Tức với mỗi từng loại dinh dưỡng, trung vị
theo cân nặng sẽ khác nhau.
- với loại dinh dưỡng 1, có khoảng 50% số kg được ghi nhận là nhỏ hơn
88, 50% số kg được ghi nhân là lớn hơn 88, theo đó thi loại 2 là 104.5,
loại 3 là 125.5 và loại dinh dưỡng 4 là 129.5
Biểu đồ thể hiện
tương quan giữa weight và Diet
ck %>% ggplot(aes(x = weight, y = Time, color = Diet)) +
geom_point() +
labs( x = 'cân nặng gà con', y = 'Thời gian quan sát', title = 'Tương quan giữa gà con và cân nặng theo loại dinh dưỡng')

- Biểu độ cho ta thấy tượng quan giữa cân nặng gà con theo thời gian
quan sát chúng theo từng loại dinh dưỡng
- Ta thấy được cân nặng gà con càng lớn thì thòi gian quan sát cũng
phải lâu, tùy theo loại dinh dưỡng có ảnh hưởng tới cân nặng của gà
con
- Mật độ dinh dưỡng của loại 4, 1 phân bổ rất dày với gà con trong
khoảng 0 đến 200 gam.
Biểu đồ thể hiện số
lượng Diet theo Pie chart
ck %>% group_by(Diet) %>% summarise(n=n()) %>%
ggplot(aes(x= '', y=n, fill = Diet))+
geom_col(color = 'black', width = 1) +
coord_polar('y') +
geom_text(aes(x = 1.4, label = n), position = position_stack(vjust = .5)) +
labs( title = 'Số lượng Diet') +
theme_void()

- Biểu đồ cho ta thấy số lượng gà con của từng loại dinh dưỡng nhưng ở
dạng Pie chart
- với loại 1 là 220 con là lớn nhất và loại 4 là ít nhất với 118
con
Biểu đồ density thể
hiện weight và Diet theo số lượng
ck %>% ggplot( aes(x = weight, fill = as.factor(Diet))) +
geom_density(alpha = 0.5) +
labs(title = "Density plot của trọng lượng gà con theo loại khẩu phần", x = "Trọng lượng (grams)", y = "Mật độ") +
scale_fill_discrete(name = "Loại khẩu phần")

- Biểu đồ cho ta thấy sự phân bố trọng lượng trong mỗi nhóm với từng
loại khẩu phần dinh dưỡng cho gà con riêng biệt
- Mật độ loại một chiếm rất cao và dày trong khoảng từ 100 đến nửa
200g rồi làm giảm một cách rõ rệt, tiếp đó là loại 2 và xuống lần tới
loại 3,4
- Khoang có sự chênh lệnh quá lớn từ khoảng nửa 100 đến 200g trở đi
của khẩu phần 1, 2, 3, Loại dinh dưỡng 4 ảnh hưởng lớn đến cân nặng từ
100 đến 200g của gà con
Biểu đồ thể hiện mật
độ trọng trọng lượng gà con (Density plot)
ck %>% ggplot( aes(x = weight, fill = as.factor(Diet))) +
geom_density(alpha = 0.5) +
facet_wrap(~Diet) +
labs(title = "Density plot của trọng lượng gà con theo loại khẩu phần", x = "Trọng lượng (grams)", y = "Mật độ") +
scale_fill_discrete(name = "Loại khẩu phần")

- Tương tự như biểu đồ trên, mỗi phần nhỏ chỉ ra mật độ trọng lượng
khi cho các loại khẩu phần riêng biệt đối với gà con
- Loại khẩu phần 1 với trọng lượng gà con 100g đổ lại rất nhiều
Biểu đồ thể hiện số
lượng gà theo Diet
ck %>% group_by(Diet) %>% summarise(n = n()) %>%
ggplot(aes(x = '', y = n,fill = Diet)) +
geom_col( color = 'black' ) +
geom_text(aes(label = n),position = position_stack(vjust = 1)) +
labs( y = 'số lượng', title = 'số lượng gà con cho mỗi chế độ dinh dưỡng')

- Biểu đồ thể hiện cho ta thấy số lượng gà con theo từng loại dinh
dưỡng, các số liệu được chồng theo một cột và tùy theo số lượng mà độ
dày khác nhau
- Loại dinh dưỡng 1 có độ dày chiếm ưu thế, số lượng nhiều nhất, 3
loại kia không chênh lệch đáng kể
Biểu đồ thể hiện
tương quan giữa cân nặng gà con và loại dinh dưỡng theo Diet
ck %>% ggplot(aes(x = weight, y = Time, color = Diet)) +
geom_point() +
labs( x = 'cân nặng gà con', y = 'Thời gian quan sát', title = 'Tương quan giữa gà con và cân nặng theo loại dinh dưỡng') +
geom_smooth(method = 'lm', color = 'black')
## `geom_smooth()` using formula = 'y ~ x'

- Đường trend line có xu hướng lên trên, mối tương quan dương giữa các
dữ liệu
- Với cân nặng gà con lớn, phải bổ sung dinh dưỡng theo đó mà thời
gian quan sát cũng sẽ phải tăng lên
Biểu đồ thể hiện tỷ
lệ dinh dưỡng theo Diet
ck %>% group_by(Diet) %>% summarise(n = n()) %>%
ggplot(aes(Diet,n)) +
geom_col(fill='green') +
geom_text(aes(label = percent(n/length(ck$Diet))),vjust = 2, color = 'red') +
labs(x = 'Loại dinh dưỡng', y = 'Số lượng', title = 'Tỷ lệ loại dinh dưỡng')

- Biểu đồ cho ta thấy phần trăm số lượng gà con trong mỗi loại dinh
dưỡng được nuôi
- Loại dinh dưỡng số 1 có số lượng gà con chiếm 38.6%, loại dinh dưỡng
số 2,3 có 20.76% tổng số lượng gà con, còn lại là loại dinh dưỡng số 4
số lượng gà con chiếm 20.42%.
Biểu đồ thể hiện
Tương quan giữa cân nặng gà con và thời gian quan sát theo loại
Diet
ck %>% ggplot(aes(x = weight, y = Time, color = Diet)) +
geom_point() +
labs( x = 'cân nặng gà con', y = 'Thời gian quan sát', title = 'Tương quan giữa gà con và cân nặng theo loại dinh dưỡng') +
geom_smooth(method = 'lm', color = 'green') +
facet_wrap(~Diet)
## `geom_smooth()` using formula = 'y ~ x'

- Cân nặng gà con tùy theo từng loại dinh dưỡng có xu hướng tăng theo
thời gian quan sát
Biểu đồ thể hiện
lượng cân nặng trung bình theo Diet ( Dạng Pie )
ck %>% group_by(Diet) %>% summarise(n=mean(weight)) %>%
ggplot(aes(x= '', y=n, fill = Diet))+
geom_col(color = 'black', width = 1) +
coord_polar('y') +
geom_text(aes(x = 1.3, label = round(n,2)), position = position_stack(vjust = .5)) +
labs( title = 'Trọng lượng trung bình') +
theme_void()

- Biểu đồ thể hiện trọng lượng gà con trung bình theo từng loại dinh
dưỡng
- Loại 1 có trọng lượng trung bình là 102.65, loại 2 là 122.62, loại 3
là 142.95, loại 4 là 135.26
Biểu đồ thể hiện
thời gian trung bình theo Diet ( dạng Pie )
ck %>% group_by(Diet) %>% summarise(n=mean(Time)) %>%
ggplot(aes(x= '', y=n, fill = Diet))+
geom_col(color = 'black', width = 1) +
coord_polar('y') +
geom_text(aes(x = 1.3, label = round(n,2)), position = position_stack(vjust = .5)) +
labs( title = 'Thời gian trung bình') +
theme_bw()

- Thời gian quan sát trung bình của gà con theo từng loại dinh
dưỡng
- Loại dinh dưỡng 1 có thời gian quan sát trung bình là 10.48, loại 2
là 10.92, loại 3 là 10.92 còn loại 4 là 10.75
Biểu đồ thể hiện tần
suất xuất hiện trọng lượng gà con
ck %>% ggplot(aes(x = weight)) +
geom_histogram(binwidth = 50, fill = "skyblue", color = "black", aes(y=..count..)) +
labs(x = "Trọng lượng (g)", y = "Tần suất") +
ggtitle("Phân phối của trọng lượng gà con") +
theme_bw()

- Biểu đồ cho thấy tần suất suất hiện các chỉ số trọng lượng gà
con
- tần suất xuất hiện của trọng lượng dưới 100g xuất hiện nhiều nhất
hơn 200 lần và giảm dần
Biểu đồ phân phối
trong lượng gà con với tần suất (theo Diet)
ck %>% ggplot(aes(x = weight)) +
geom_histogram(binwidth = 50, fill = "skyblue", color = "black", aes(y=..count..)) +
labs(x = "Trọng lượng (g)", y = "Tần suất") +
facet_wrap(~Diet) +
ggtitle("Phân phối của trọng lượng gà con")

- Biểu đồ cho ra thấy chỉ số xuất hiện của các chỉ số trọng lượng gà
con được phân ra theo loại dinh dưỡng
Biểu đồ thể hiện tần
suất xuất hiện các mốc thời gian quan sát
ck %>% ggplot(aes(x = Time)) +
geom_histogram(binwidth = 3, fill = "red", color = "black", aes(y=..count..)) +
labs(x = "Thời gian (h)", y = "Tần suất") +
ggtitle("Phân phối của thời gian theo dõi gà con") +
theme_bw()

- Biểu đố cho ta thấy các tần suất các khoảng thời gian xuất hiện
- Khoảng thời gian xuất hiện nhiều nhất từ 0 đến 5 và giảm dần về
20
Biểu đồ thể hiện
trọng lượng gà con theo thời gian (line)
ggplot(ChickWeight, aes(x = Time, y = weight, color = Chick)) +
geom_line() +
labs(x = "Thời gian (ngày)", y = "Trọng lượng (g)", color = "Gà") +
ggtitle("Biểu đồ đường của trọng lượng gà theo thời gian") +
theme_bw()

Biểu đồ thể hiện mật
độ của trọng lượng gà ( violin plot)
ck %>% ggplot(aes(x = as.factor(Diet), y = weight, fill = as.factor(Diet))) +
geom_violin() +
labs(x = "chế độ dinh dưỡng", y = "Trọng lượng (g)") +
ggtitle("Biểu đồ violin plot của trọng lượng gà") +
theme_bw()

- Biểu đồ cho ta thấy mật độ phân phối của trọng lượng các gà con theo
từng chế độ dinh dưỡng
- ở chế độ dinh dưỡng 1 thì có mật độ phân phối trọng lượng dưới 100g
nhiều nhất, cả 4 loại đều có xu hướng giảm dần, trọng lượng các lớn thì
càng ít, lớn nhất có thể đạt được ở khẩu phần dinh dưỡng số 3
Biểu đồ thể hiện mật
độ trọng lượng qua các mốc
ck %>%
ggplot(aes(x = Time, y = weight)) +
geom_violin(fill = "skyblue", color = "black") +
labs(x = "Thời gian", y = "Trọng lượng (g)",
title = "Sự phát triển của trọng lượng gà con theo thời gian") +
theme_bw()

- Biểu đồ cho ta thấy mật độ phân phối của trọng lượng, trọng lượng
càng lớn và ít
Biểu đồ phân phối
trọng lượng dạng Boxplot
ck %>% ggplot(aes(x = factor(Diet), y = weight, fill = factor(Diet))) +
geom_boxplot() +
labs(x = "Loại khẩu phần", y = "Trọng lượng gà con", fill = "Loại khẩu phần") +
ggtitle("Biểu đồ Boxplot của trọng lượng gà con theo loại khẩu phần")

- Biểu đồ cho thấy các giá trị như trung vị, tứ phân vị và các giá trị
ngoại vi có thể xuất hiện
