Phân tích dữ
liệu
Gọi bộ dữ liệu ggplot2 để dùng hiệu quả hơn cho các phép
tính
options(repos = c(CRAN = "http://cran.rstudio.com/"))
install.packages("ggplot2")
## Installing package into 'C:/Users/PC_Dell/AppData/Local/R/win-library/4.3'
## (as 'lib' is unspecified)
## package 'ggplot2' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\PC_Dell\AppData\Local\Temp\RtmpQDV5zX\downloaded_packages
library(ggplot2)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(scales)
library(DT)
Trước hết tôi sẽ gán bộ dữ liệu cho biến cụ thể
ck <- ChickWeight
datatable(ck)
Biểu đồ thể hiện số
lượng gà theo Diet
ck %>% group_by(Diet) %>% summarise(n = n()) %>% #Tạo một bảng dữ liệu mới bằng cột Diet và tổng các phần tử
ggplot( aes( x = as.factor(Diet), y = n)) + #Bắt đầu một biểu đồ sử dụng gói ggplot với trục x là Diet, trục y là các phần tử n
geom_col(fill = 'skyblue') + #Thêm các cột vào biểu đồ, các cột được thiết lập màu là skyblue
geom_text(aes(label = n), vjust = 1, color = 'red') + #thêm nhãn số lượng gà vào mỗi cột, căn chỉnh độ dọc của nhãn cũng như đặt màu là đỏ
xlab('Số thứ tự Chick') + #Đặt nhãn trục x
ylab('Số lượng gà') + #Đặt nhãn trục y
labs(title = 'Biểu đồ số lượng gà theo loại khẩu phần của gà con') #Đặt tên cho tiêu đề của bảng vẽ

- Nhìn vào ta thấy biểu đồ thể hiện số lượng gà con trên mỗi chế độ
dinh dưỡng
- Loại dinh dưỡng 1 nhiều nhất có 220 con, loại 2 có 120 con, loại 3
có 120 con, loại 4 có 118 con là ít nhất nhưng không đáng kể
Biểu đồ thể hiện
Trọng lượng gà trung bình theo Diet
ck %>% group_by(Diet) %>% summarise(avg = mean(weight)) %>% #Sử dụng dữ liệu từ ck nhóm cột Diet cũng nhưng tính cân nặng trung bình của cột weight
ggplot(aes(x = as.factor(Diet), y = avg)) + #Bắt đầu một biểu đồ sử dụng gói ggplot với trục x là Diet, trục y là lượng trung bình
geom_col(fill = 'yellow') + #Thêm các cột vào biểu đồ, thiết lập màu các cột là yellow
geom_text(aes(label = round(avg,2)), vjust = 1, color = 'red') + #Thêm nhãn về lượng trung bình vào mỗi cột, thiết lập sau dấu phẩy chỉ lấy 2 chữ số, căn chỉnh độ dọc của của nhãn cũng như màu sắc là đỏ
labs( x = 'loại Diet', y = 'Trọng lượng gà con trung bình (gram)', title = 'trọng lượng gà con trung bình theo Diet') + #Đặt nhãn cho trục x, y cũng như tiêu đề của vùng dữ liệu được vẽ
coord_flip() #Đảo ngược trục của biểu đồ, từ dọc thành ngang và ngược lại

- Biểu đồ thể hiện trọng lượng gà trung bình theo từng loại Diet
- Loại 1 thấp nhất với trọng lượng trung bình xấp xỉ 102.65, tiếp đó
là loại 2 là 122.52, loại 4 là 135.26 và cao nhất là loại 4 với trọng
lượng trung bình đạt 142.95
Biểu độ phân tích
trung tâm cân nặng ( theo từng Diet)
ck %>% group_by(Diet) %>% summarise(m= median(weight)) %>% #Sử dụng dữ liệu từ ck tạo một bảng dữ liệu mới, nhóm cột Diet lại và chọn dự liệu là trung vị của weight đưa vào
ggplot(aes(x = Diet,y = m)) + #Chọn chỉ định trục x sẽ lấy từ Diet, trục y là trung vị của weight
geom_col(position = 'dodge', fill = 'pink', color = 'black') + #sắp xếp cột dữ liệu, đổ màu nền, màu viền
geom_text(aes(label = round(m,2)), vjust = 2, color = 'red') + #Chỉ định ký tự cột dữ liệu có giá trị, giá trị sau dấu phẩu có 2, khoảng cách chỉ định chiều dọc là 2, màu đỏ
labs(x = 'Loại dinh dưỡng', y = 'Trung vị', title ='Trung vị theo cân nặng từng loại dinh dưỡng') #gán nhãn cho trục x, y và tiêu đề cho biểu đồ

- Biểu độ cho ta thấy được trung vị, từng có 50% phần tử bên trong nhỏ
hơn và số còn lại lớn hơn. Tức với mỗi từng loại dinh dưỡng, trung vị
theo cân nặng sẽ khác nhau.
- với loại dinh dưỡng 1, có khoảng 50% số kg được ghi nhận là nhỏ hơn
88, 50% số kg được ghi nhân là lớn hơn 88, theo đó thi loại 2 là 104.5,
loại 3 là 125.5 và loại dinh dưỡng 4 là 129.5
Biểu đồ thể hiện
tương quan giữa weight và Diet
ck %>% ggplot(aes(x = weight, y = Time, color = Diet)) + #Sử dụng dữ liệu từ ck tạo một bảng dữ liệu mới trong gói ggplot, thiết lập trục x, y, phân loại các điểm theo từng loại dinh dưỡng và phân bố màu cho chúng
geom_point() + #Thêm các điểm vào biểu đồ, mỗi điểm là một quan sát được đối chiếu theo trục x và y
labs( x = 'cân nặng gà con', y = 'Thời gian quan sát', title = 'Tương quan giữa gà con và cân nặng theo loại dinh dưỡng') #Đặt nhãn cho trục x và y, thiết lập lại tên tiêu đề mới cho vùng dữ liêụ

- Biểu độ cho ta thấy tượng quan giữa cân nặng gà con theo thời gian
quan sát chúng theo từng loại dinh dưỡng
- Ta thấy được cân nặng gà con càng lớn thì thòi gian quan sát cũng
phải lâu, tùy theo loại dinh dưỡng có ảnh hưởng tới cân nặng của gà
con
- Mật độ dinh dưỡng của loại 4, 1 phân bổ rất dày với gà con trong
khoảng 0 đến 200 gam.
Biểu đồ thể hiện số
lượng Diet theo Pie chart
ck %>% group_by(Diet) %>% summarise(n=n()) %>% #Tạo bảng dữ liệu mới các các cộng Diet và tổng n
ggplot(aes(x= '', y=n, fill = Diet))+ #Bắt đầu một biểu đồ sử dụng gói ggplot với trục x không có dữ liệu, trục y là các phần tử n, và màu sắc được thêm vào phân biệt các loại Diet
geom_col(color = 'black', width = 1) + #Thêm các cột vào biểu đồ, mỗi cột là một loại dinh dưỡng cũng như độ rộng là 1
coord_polar('y') + #Chuyển đổi biểu đồ thành hệ tọa độ cực, biểu thị các phần tương đối trong một vòng tròn
geom_text(aes(x = 1.4, label = n), position = position_stack(vjust = .5)) + #Các nhãn sẽ đật ở vị trí 1.3 trên trục x, trục y hiển thị số lượng và các nhãn được chồng với nhau lên căn chỉnh ở vị trí .5
labs( title = 'Số lượng Diet') + #Thêm phần tiêu đề vào vùng vẽ biểu đồ
theme_void() #Loại bỏ các phần mặc định của giao diện của biểu đồ, chỉ hiển thị dữ liệu và các yếu tố trực tiếp liên quan đến nó.

- Biểu đồ cho ta thấy số lượng gà con của từng loại dinh dưỡng nhưng ở
dạng Pie chart
- với loại 1 là 220 con là lớn nhất và loại 4 là ít nhất với 118
con
Biểu đồ density thể
hiện weight và Diet theo số lượng
ck %>% ggplot( aes(x = weight, fill = as.factor(Diet))) +
geom_density(alpha = 0.5) + # Thiết lập độ mờ của các đường density
labs(title = "Density plot của trọng lượng gà con theo loại khẩu phần", x = "Trọng lượng (grams)", y = "Mật độ") +
scale_fill_discrete(name = "Loại khẩu phần") + # Thêm chú thích cho fill
theme_minimal()# Chọn theme cho biểu đồ

- Biểu đồ cho ta thấy sự phân bố trọng lượng trong mỗi nhóm với từng
loại khẩu phần dinh dưỡng cho gà con riêng biệt
- Mật độ loại một chiếm rất cao và dày trong khoảng từ 100 đến nửa
200g rồi làm giảm một cách rõ rệt, tiếp đó là loại 2 và xuống lần tới
loại 3,4
- Khoang có sự chênh lệnh quá lớn từ khoảng nửa 100 đến 200g trở đi
của khẩu phần 1, 2, 3, Loại dinh dưỡng 4 ảnh hưởng lớn đến cân nặng từ
100 đến 200g của gà con
Biểu đồ thể hiện mật
độ trọng trọng lượng gà con (Density plot)
ck %>% ggplot( aes(x = weight, fill = as.factor(Diet))) +
geom_density(alpha = 0.5) + # Thiết lập độ mờ của các đường density
facet_wrap(~Diet) + #Phân tổ các biểu đồ nhỏ hơn theo Diet
labs(title = "Density plot của trọng lượng gà con theo loại khẩu phần", x = "Trọng lượng (grams)", y = "Mật độ") +
scale_fill_discrete(name = "Loại khẩu phần") # Thêm chú thích cho fill

- Tương tự như biểu đồ trên, mỗi phần nhỏ chỉ ra mật độ trọng lượng
khi cho các loại khẩu phần riêng biệt đối với gà con
- Loại khẩu phần 1 với trọng lượng gà con 100g đổ lại rất nhiều
Biểu đồ thể hiện số
lượng gà theo Diet
ck %>% group_by(Diet) %>% summarise(n = n()) %>% #Nhóm các dòng dữ liệu của ck theo cột Diet, sau đó tính tổng số lượng cho mỗi nhóm
ggplot(aes(x = '', y = n,fill = Diet)) + #Sử dụng dữ liệu từ bước trước thiết lập biểu đồ với trục x là không có dữ liệu, y là n, màu sắc đc ánh xạ vào Diet
geom_col( color = 'black' ) + #Thêm các cột vào biểu đồ, với màu được thiết lập là màu đen
geom_text(aes(label = n),position = position_stack(vjust = 1)) + #Thêm nhãn vào biểu đồ, hiển thị số lượng gà con trên mỗi cột, căn chỉnh vị trí dọc các nhãn, đặt trên cùng mỗi cột
labs( y = 'số lượng', title = 'số lượng gà con cho mỗi chế độ dinh dưỡng') #Thiết lập nhãn cho trụ y, tiêu đề của vùng dữ liệu được vẽ

- Biểu đồ thể hiện cho ta thấy số lượng gà con theo từng loại dinh
dưỡng, các số liệu được chồng theo một cột và tùy theo số lượng mà độ
dày khác nhau
- Loại dinh dưỡng 1 có độ dày chiếm ưu thế, số lượng nhiều nhất, 3
loại kia không chênh lệch đáng kể
Biểu đồ thể hiện
tương quan giữa cân nặng gà con và loại dinh dưỡng theo Diet
ck %>% ggplot(aes(x = weight, y = Time, color = Diet)) + #Sử dụng dữ liệu từ ck tạo một bảng dữ liệu mới trong gói ggplot, thiết lập trục x, y, phân loại các điểm theo từng loại dinh dưỡng và phân bố màu cho chúng
geom_point() + #Thêm các điểm vào biểu đồ, mỗi điểm là một quan sát được đối chiếu theo trục x và y
labs( x = 'cân nặng gà con', y = 'Thời gian quan sát', title = 'Tương quan giữa gà con và cân nặng theo loại dinh dưỡng') + #Đặt nhãn cho trục x và y, thiết lập lại tên tiêu đề mới cho vùng dữ liêụ
geom_smooth(method = 'lm', color = 'black')
## `geom_smooth()` using formula = 'y ~ x'

- Đường trend line có xu hướng lên trên, mối tương quan dương giữa các
dữ liệu
- Với cân nặng gà con lớn, phải bổ sung dinh dưỡng theo đó mà thời
gian quan sát cũng sẽ phải tăng lên
Biểu đồ thể hiện tỷ
lệ dinh dưỡng theo Diet
ck %>% group_by(Diet) %>% summarise(n = n()) %>% #Nhóm các cột dữ liệu theo giá trị trong cột Diet
ggplot(aes(Diet,n)) + #Sử dụng dữ liệu trước đó, ánh xạ trụng x là cột Diet, trục y là cột n
geom_col(fill='green') + #Thêm các cột vào biểu đồ, màu của các cột xanh lá cây
geom_text(aes(label = percent(n/length(ck$Diet))),vjust = 2, color = 'red') + #thêm nhãn cho các cột của biểu đồ, ở đây là phần trăm số lượng mỗi loại Diet trên tổng, căn chỉnh chiều dọc và màu đỏ cho nhãn
labs(x = 'Loại dinh dưỡng', y = 'Số lượng', title = 'Tỷ lệ loại dinh dưỡng') #Thêm nhãn cho trục x, trục y và tiêu đề

- Biểu đồ cho ta thấy phần trăm số lượng gà con trong mỗi loại dinh
dưỡng được nuôi
- Loại dinh dưỡng số 1 có số lượng gà con chiếm 38.6%, loại dinh dưỡng
số 2,3 có 20.76% tổng số lượng gà con, còn lại là loại dinh dưỡng số 4
số lượng gà con chiếm 20.42%.
Biểu đồ thể hiện
Tương quan giữa cân nặng gà con và thời gian quan sát theo loại
Diet
ck %>% ggplot(aes(x = weight, y = Time, color = Diet)) + #Sử dụng dữ liệu từ ck tạo một bảng dữ liệu mới trong gói ggplot, thiết lập trục x, y, phân loại các điểm theo từng loại dinh dưỡng và phân bố màu cho chúng
geom_point() + #Thêm các điểm vào biểu đồ, mỗi điểm là một quan sát được đối chiếu theo trục x và y
labs( x = 'cân nặng gà con', y = 'Thời gian quan sát', title = 'Tương quan giữa gà con và cân nặng theo loại dinh dưỡng') + #Đặt nhãn cho trục x và y, thiết lập lại tên tiêu đề mới cho vùng dữ liêụ
geom_smooth(method = 'lm', color = 'green') + #Thêm đường phù hợp tuyến tính, bằng phương pháp hồi quy tuyến tính
facet_wrap(~Diet) #Phân loại các bảng nhỏ hơn theo loại Diet
## `geom_smooth()` using formula = 'y ~ x'

- Cân nặng gà con tùy theo từng loại dinh dưỡng có xu hướng tăng theo
thời gian quan sát
Biểu đồ thể hiện
lượng cân nặng trung bình theo Diet ( Dạng Pie )
ck %>% group_by(Diet) %>% summarise(n=mean(weight)) %>% #Tạo bảng dữ liệu mới các các cộng Diet và tính lượng trung bình
ggplot(aes(x= '', y=n, fill = Diet))+ #Bắt đầu một biểu đồ sử dụng gói ggplot với trục x không có dữ liệu, trục y là các phần tử n, và màu sắc được thêm vào phân biệt các loại Diet
geom_col(color = 'black', width = 1) + #Thêm các cột vào biểu đồ, mỗi cột là một loại dinh dưỡng cũng như độ rộng là 1
coord_polar('y') + #Chuyển đổi biểu đồ thành hệ tọa độ cực, biểu thị các phần tương đối trong một vòng tròn
geom_text(aes(x = 1.3, label = round(n,2)), position = position_stack(vjust = .5)) + #Các nhãn sẽ đật ở vị trí 1.3 trên trục x, trục y, tính giá trị trung bình và lấy hai giá trị sau đó, hiển thị số lượng và các nhãn được chồng với nhau lên căn chỉnh ở vị trí .5
labs( title = 'Trọng lượng trung bình') + #Thêm phần tiêu đề vào vùng vẽ biểu đồ
theme_void() #Loại bỏ các phần mặc định của giao diện của biểu đồ, chỉ hiển thị dữ liệu và các yếu tố trực tiếp liên quan đến nó.

- Biểu đồ thể hiện trọng lượng gà con trung bình theo từng loại dinh
dưỡng
- Loại 1 có trọng lượng trung bình là 102.65, loại 2 là 122.62, loại 3
là 142.95, loại 4 là 135.26
Biểu đồ thể hiện
thời gian trung bình theo Diet ( dạng Pie )
ck %>% group_by(Diet) %>% summarise(n=mean(Time)) %>% #Tạo bảng dữ liệu mới các các cộng Diet và tính thời gian trung bình
ggplot(aes(x= '', y=n, fill = Diet))+ #Bắt đầu một biểu đồ sử dụng gói ggplot với trục x không có dữ liệu, trục y là các phần tử n, và màu sắc được thêm vào phân biệt các loại Diet
geom_col(color = 'black', width = 1) + #Thêm các cột vào biểu đồ, mỗi cột là một loại dinh dưỡng cũng như độ rộng là 1
coord_polar('y') + #Chuyển đổi biểu đồ thành hệ tọa độ cực, biểu thị các phần tương đối trong một vòng tròn
geom_text(aes(x = 1.3, label = round(n,2)), position = position_stack(vjust = .5)) + #Các nhãn sẽ đật ở vị trí 1.3 trên trục x, trục y, tính giá trị trung bình và lấy hai giá trị sau đó, hiển thị số lượng và các nhãn được chồng với nhau lên căn chỉnh ở vị trí .5
labs( title = 'Thời gian trung bình') + #Thêm phần tiêu đề vào vùng vẽ biểu đồ
theme_void() #Loại bỏ các phần mặc định của giao diện của biểu đồ, chỉ hiển thị dữ liệu và các yếu tố trực tiếp liên quan đến nó.

- Thời gian quan sát trung bình của gà con theo từng loại dinh
dưỡng
- Loại dinh dưỡng 1 có thời gian quan sát trung bình là 10.48, loại 2
là 10.92, loại 3 là 10.92 còn loại 4 là 10.75
Biểu đồ thể hiện tần
suất xuất hiện trọng lượng gà con
ck %>% ggplot(aes(x = weight)) + #Bắt đầu một biểu đồ ggplot với trục x được thiết lập là cột "weight"
geom_histogram(binwidth = 50, fill = "skyblue", color = "black", aes(y=..count..)) + #Thiết lập dữ liệu hiển thị dưới dạng histogram, đặt chiều rộng bin, màu nền và viền, sử dụng tần suất tuyệt đối
labs(x = "Trọng lượng (g)", y = "Tần suất") + #Thiết lập nhãn cho trục x và trục y
ggtitle("Phân phối của trọng lượng gà con") + #Thiết lập tiêu đề cho biểu đồ
theme_minimal() #Chọn giao diện đơn giản, đường lưới cho biểu đồ

- Biểu đồ cho thấy tần suất suất hiện các chỉ số trọng lượng gà
con
- tần suất xuất hiện của trọng lượng dưới 100g xuất hiện nhiều nhất
hơn 200 lần và giảm dần
Biểu đồ phân phối
trong lượng gà con với tần suất (theo Diet)
ck %>% ggplot(aes(x = weight)) + #Bắt đầu một biểu đồ ggplot với trục x được thiết lập là cột "weight"
geom_histogram(binwidth = 50, fill = "skyblue", color = "black", aes(y=..count..)) + #Thiết lập dữ liệu hiển thị dưới dạng histogram, đặt chiều rộng bin, màu nền và viền, sử dụng tần suất tuyệt đối
labs(x = "Trọng lượng (g)", y = "Tần suất") + #Thiết lập nhãn cho trục x và trục y
facet_wrap(~Diet) + #Phân loại các bảng nhỏ theo loại Diet
ggtitle("Phân phối của trọng lượng gà con") #Thiết lập tiêu đề cho biểu đồ

- Biểu đồ cho ra thấy chỉ số xuất hiện của các chỉ số trọng lượng gà
con được phân ra theo loại dinh dưỡng
Biểu đồ thể hiện tần
suất xuất hiện các mốc thời gian quan sát
ck %>% ggplot(aes(x = Time)) + #Bắt đầu một biểu đồ ggplot với trục x được thiết lập là cột "Time"
geom_histogram(binwidth = 3, fill = "red", color = "black", aes(y=..count..)) + #Thiết lập dữ liệu hiển thị dưới dạng histogram, đặt chiều rộng bin là 5, màu nền và màu viền
labs(x = "Thời gian (h)", y = "Tần suất") + #Thiết lập nhãn cho trục x và y
ggtitle("Phân phối của thời gian theo dõi gà con") + #Thiết lập tiêu đề cho biểu đồ
theme_minimal() #Giao diện dạng lưới

- Biểu đố cho ta thấy các tần suất các khoảng thời gian xuất hiện
- Khoảng thời gian xuất hiện nhiều nhất từ 0 đến 5 và giảm dần về
20
Biểu đồ thể hiện
trọng lượng gà con theo thời gian (line)
ggplot(ChickWeight, aes(x = Time, y = weight, color = Chick)) +
geom_line() +
labs(x = "Thời gian (ngày)", y = "Trọng lượng (g)", color = "Gà") +
ggtitle("Biểu đồ đường của trọng lượng gà theo thời gian") +
theme_minimal()

Biểu đồ thể hiện mật
độ của trọng lượng gà ( violin plot)
ck %>% ggplot(aes(x = as.factor(Diet), y = weight, fill = as.factor(Diet))) + #Lấy dữ liệu từ ck, thiết lập trục x, y, màu fill được dựa trên chế độ dinh dưỡng
geom_violin() + #Thiết lập biểu đồ violin plot vào biểu đồ
labs(x = "chế độ dinh dưỡng", y = "Trọng lượng (g)") +
ggtitle("Biểu đồ violin plot của trọng lượng gà") + #Thiết lập tiêu đề cho biểu đồ
theme_minimal() #lấy giao diện dạng lưới

- Biểu đồ cho ta thấy mật độ phân phối của trọng lượng các gà con theo
từng chế độ dinh dưỡng
- ở chế độ dinh dưỡng 1 thì có mật độ phân phối trọng lượng dưới 100g
nhiều nhất, cả 4 loại đều có xu hướng giảm dần, trọng lượng các lớn thì
càng ít, lớn nhất có thể đạt được ở khẩu phần dinh dưỡng số 3
Biểu đồ thể hiện mật
độ trọng lượng qua các mốc
ck %>%
ggplot(aes(x = Time, y = weight)) + #Bắt đầu một chuỗi dữ liệu mới với việc thiết lập trục x, y
geom_violin(fill = "skyblue", color = "black") + #Thiết lập dạng violin cho biểu độ, màu và màu viền
labs(x = "Thời gian", y = "Trọng lượng (g)",
title = "Sự phát triển của trọng lượng gà con theo thời gian") + #gán nhãn cho từng trục x, y và tiêu đề
theme_minimal() #giao diện dạng lưới

- Biểu đồ cho ta thấy mật độ phân phối của trọng lượng, trọng lượng
càng lớn và ít
Biểu đồ phân phối
trọng lượng dạng Boxplot
ck %>% ggplot(aes(x = factor(Diet), y = weight, fill = factor(Diet))) + #Bắt đầu tạo một đối tượng ggplot, thiết lập trục x, y và màu sắc được xác định bằng diet
geom_boxplot() + #Thêm lớp bloxpot và biến động của trọng lượng gà con theo từng loại khẩu phần
labs(x = "Loại khẩu phần", y = "Trọng lượng gà con", fill = "Loại khẩu phần") + #Đặt nhãn cho trục x, y và màu sắc
ggtitle("Biểu đồ Boxplot của trọng lượng gà con theo loại khẩu phần") #Thêm tiêu đề cho biểu đồ

- Biểu đồ cho thấy các giá trị như trung vị, tứ phân vị và các giá trị
ngoại vi có thể xuất hiện
