1 Tổng quan về bộ dữ liệu

  • Bộ dự liệu ChickenWeight bao gồm các cột sau:

    • Weight (Trọng lượng): Biến này đo lường trọng lượng của gà con và được ghi lại bằng đơn vị grams. Trọng lượng của gà con được theo dõi qua thời gian để đo lường sự phát triển và tăng trưởng của chúng.

    • Time (Thời gian): Biến này thể hiện thời gian quan sát, thường được đo bằng đơn vị ngày. Nó cho biết khoảng thời gian mà mỗi quan sát trọng lượng được thực hiện.

    • Chick (Con gà): Đây là số thứ tự của từng con gà trong bộ dữ liệu. Mỗi con gà có một số thứ tự duy nhất để phân biệt chúng.

    • Diet (Chế độ dinh dưỡng): Biến này chỉ ra loại chế độ dinh dưỡng mà mỗi con gà được cung cấp. Có bốn loại chế độ dinh dưỡng được sử dụng trong bộ dữ liệu, thường được đánh số từ 1 đến 4.

2 Phân tích dữ liệu

Gọi bộ dữ liệu ggplot2 để dùng hiệu quả hơn cho các phép tính

options(repos = c(CRAN = "http://cran.rstudio.com/"))
install.packages("ggplot2")
## Installing package into 'C:/Users/a/AppData/Local/R/win-library/4.3'
## (as 'lib' is unspecified)
## package 'ggplot2' successfully unpacked and MD5 sums checked
## 
## The downloaded binary packages are in
##  C:\Users\a\AppData\Local\Temp\Rtmp21MBeg\downloaded_packages
library(ggplot2)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(scales)
library(DT)

Trước hết tôi sẽ gán bộ dữ liệu cho biến cụ thể

ck <- ChickWeight

2.1 Biểu đồ thể hiện số lượng gà theo Diet

ck  %>% group_by(Diet) %>% summarise(n = n()) %>% 
 ggplot( aes( x = as.factor(Diet), y = n)) + 
  geom_col(fill = 'skyblue') + 
  geom_text(aes(label = n), vjust = 1, color = 'red') + 
  xlab('Số thứ tự Chick') + 
  ylab('Số lượng gà') + 
  labs(title = 'Biểu đồ số lượng gà theo loại khẩu phần của gà con') 

  • Nhìn vào ta thấy biểu đồ thể hiện số lượng gà con trên mỗi chế độ dinh dưỡng
  • Loại dinh dưỡng 1 nhiều nhất có 220 con, loại 2 có 120 con, loại 3 có 120 con, loại 4 có 118 con là ít nhất nhưng không đáng kể

2.2 Biểu đồ thể hiện Trọng lượng gà trung bình theo Diet

ck %>% group_by(Diet) %>% summarise(avg = mean(weight)) %>% 
   ggplot(aes(x = as.factor(Diet), y = avg)) + 
  geom_col(fill = 'yellow') + 
  geom_text(aes(label = round(avg,2)), vjust = 1, color = 'red') + 
  labs( x = 'loại Diet', y = 'Trọng lượng gà con trung bình  (gram)', title = 'trọng lượng gà con trung bình theo Diet') + 
  coord_flip() 

  • Biểu đồ thể hiện trọng lượng gà trung bình theo từng loại Diet
  • Loại 1 thấp nhất với trọng lượng trung bình xấp xỉ 102.65, tiếp đó là loại 2 là 122.52, loại 4 là 135.26 và cao nhất là loại 4 với trọng lượng trung bình đạt 142.95

2.3 Biểu độ phân tích trung tâm cân nặng ( theo từng Diet)

ck %>% group_by(Diet) %>% summarise(m= median(weight)) %>% 
  ggplot(aes(x = Diet,y = m)) + 
  geom_col(position = 'dodge', fill = 'pink', color = 'black') +
  geom_text(aes(label = round(m,2)), vjust = 2, color = 'red') + 
  labs(x = 'Loại dinh dưỡng', y = 'Trung vị', title ='Trung vị theo cân nặng từng loại dinh dưỡng')

  • Biểu độ cho ta thấy được trung vị, từng có 50% phần tử bên trong nhỏ hơn và số còn lại lớn hơn. Tức với mỗi từng loại dinh dưỡng, trung vị theo cân nặng sẽ khác nhau.
  • với loại dinh dưỡng 1, có khoảng 50% số kg được ghi nhận là nhỏ hơn 88, 50% số kg được ghi nhân là lớn hơn 88, theo đó thi loại 2 là 104.5, loại 3 là 125.5 và loại dinh dưỡng 4 là 129.5

2.4 Biểu đồ thể hiện tương quan giữa weight và Diet

ck %>% ggplot(aes(x = weight, y = Time, color = Diet)) + 
  geom_point() +
  labs( x = 'cân nặng gà con', y = 'Thời gian quan sát', title = 'Tương quan giữa gà con và cân nặng theo loại dinh dưỡng') 

  • Biểu độ cho ta thấy tượng quan giữa cân nặng gà con theo thời gian quan sát chúng theo từng loại dinh dưỡng
  • Ta thấy được cân nặng gà con càng lớn thì thòi gian quan sát cũng phải lâu, tùy theo loại dinh dưỡng có ảnh hưởng tới cân nặng của gà con
  • Mật độ dinh dưỡng của loại 4, 1 phân bổ rất dày với gà con trong khoảng 0 đến 200 gam.

2.5 Biểu đồ thể hiện số lượng Diet theo Pie chart

ck %>% group_by(Diet) %>% summarise(n=n()) %>% 
  ggplot(aes(x= '', y=n, fill = Diet))+ 
  geom_col(color = 'black', width = 1) + 
  coord_polar('y') +
  geom_text(aes(x = 1.4, label = n), position = position_stack(vjust = .5)) + 
  labs( title = 'Số lượng Diet') +
  theme_void() 

  • Biểu đồ cho ta thấy số lượng gà con của từng loại dinh dưỡng nhưng ở dạng Pie chart
  • với loại 1 là 220 con là lớn nhất và loại 4 là ít nhất với 118 con

2.6 Biểu đồ density thể hiện weight và Diet theo số lượng

ck %>% ggplot( aes(x = weight, fill = as.factor(Diet))) +
  geom_density(alpha = 0.5) +  
  labs(title = "Density plot của trọng lượng gà con theo loại khẩu phần", x = "Trọng lượng (grams)", y = "Mật độ") +
  scale_fill_discrete(name = "Loại khẩu phần") 

  • Biểu đồ cho ta thấy sự phân bố trọng lượng trong mỗi nhóm với từng loại khẩu phần dinh dưỡng cho gà con riêng biệt
  • Mật độ loại một chiếm rất cao và dày trong khoảng từ 100 đến nửa 200g rồi làm giảm một cách rõ rệt, tiếp đó là loại 2 và xuống lần tới loại 3,4
  • Khoang có sự chênh lệnh quá lớn từ khoảng nửa 100 đến 200g trở đi của khẩu phần 1, 2, 3, Loại dinh dưỡng 4 ảnh hưởng lớn đến cân nặng từ 100 đến 200g của gà con

2.7 Biểu đồ thể hiện mật độ trọng trọng lượng gà con (Density plot)

ck %>% ggplot( aes(x = weight, fill = as.factor(Diet))) +
  geom_density(alpha = 0.5) +  
  facet_wrap(~Diet) + 
  labs(title = "Density plot của trọng lượng gà con theo loại khẩu phần", x = "Trọng lượng (grams)", y = "Mật độ") +
  scale_fill_discrete(name = "Loại khẩu phần") 

  • Tương tự như biểu đồ trên, mỗi phần nhỏ chỉ ra mật độ trọng lượng khi cho các loại khẩu phần riêng biệt đối với gà con
  • Loại khẩu phần 1 với trọng lượng gà con 100g đổ lại rất nhiều

2.8 Biểu đồ thể hiện số lượng gà theo Diet

ck %>% group_by(Diet) %>% summarise(n = n()) %>% 
  ggplot(aes(x = '', y = n,fill = Diet)) + 
  geom_col( color = 'black' ) + 
  geom_text(aes(label = n),position = position_stack(vjust = 1)) +
  labs( y = 'số lượng', title = 'số lượng gà con cho mỗi chế độ dinh dưỡng') 

  • Biểu đồ thể hiện cho ta thấy số lượng gà con theo từng loại dinh dưỡng, các số liệu được chồng theo một cột và tùy theo số lượng mà độ dày khác nhau
  • Loại dinh dưỡng 1 có độ dày chiếm ưu thế, số lượng nhiều nhất, 3 loại kia không chênh lệch đáng kể

2.9 Biểu đồ thể hiện tương quan giữa cân nặng gà con và loại dinh dưỡng theo Diet

ck %>% ggplot(aes(x = weight, y = Time, color = Diet)) +
  geom_point() + 
  labs( x = 'cân nặng gà con', y = 'Thời gian quan sát', title = 'Tương quan giữa gà con và cân nặng theo loại dinh dưỡng') + 
geom_smooth(method = 'lm', color = 'black')
## `geom_smooth()` using formula = 'y ~ x'

  • Đường trend line có xu hướng lên trên, mối tương quan dương giữa các dữ liệu
  • Với cân nặng gà con lớn, phải bổ sung dinh dưỡng theo đó mà thời gian quan sát cũng sẽ phải tăng lên

2.10 Biểu đồ thể hiện tỷ lệ dinh dưỡng theo Diet

ck %>% group_by(Diet) %>% summarise(n = n()) %>%  
  ggplot(aes(Diet,n)) + 
  geom_col(fill='green') + 
  geom_text(aes(label = percent(n/length(ck$Diet))),vjust = 2, color = 'red') + 
  labs(x = 'Loại dinh dưỡng', y = 'Số lượng', title = 'Tỷ lệ loại dinh dưỡng') 

  • Biểu đồ cho ta thấy phần trăm số lượng gà con trong mỗi loại dinh dưỡng được nuôi
  • Loại dinh dưỡng số 1 có số lượng gà con chiếm 38.6%, loại dinh dưỡng số 2,3 có 20.76% tổng số lượng gà con, còn lại là loại dinh dưỡng số 4 số lượng gà con chiếm 20.42%.

2.11 Biểu đồ thể hiện Tương quan giữa cân nặng gà con và thời gian quan sát theo loại Diet

ck %>% ggplot(aes(x = weight, y = Time, color = Diet)) + 
  geom_point() + 
  labs( x = 'cân nặng gà con', y = 'Thời gian quan sát', title = 'Tương quan giữa gà con và cân nặng theo loại dinh dưỡng') +  
geom_smooth(method = 'lm', color = 'green') +
  facet_wrap(~Diet) 
## `geom_smooth()` using formula = 'y ~ x'

  • Cân nặng gà con tùy theo từng loại dinh dưỡng có xu hướng tăng theo thời gian quan sát

2.12 Biểu đồ thể hiện lượng cân nặng trung bình theo Diet ( Dạng Pie )

ck %>% group_by(Diet) %>% summarise(n=mean(weight)) %>% 
  ggplot(aes(x= '', y=n, fill = Diet))+ 
  geom_col(color = 'black', width = 1) + 
  coord_polar('y') + 
  geom_text(aes(x = 1.3, label = round(n,2)), position = position_stack(vjust = .5)) + 
  labs( title = 'Trọng lượng trung bình') + 
  theme_void() 

  • Biểu đồ thể hiện trọng lượng gà con trung bình theo từng loại dinh dưỡng
  • Loại 1 có trọng lượng trung bình là 102.65, loại 2 là 122.62, loại 3 là 142.95, loại 4 là 135.26

2.13 Biểu đồ thể hiện thời gian trung bình theo Diet ( dạng Pie )

ck %>% group_by(Diet) %>% summarise(n=mean(Time)) %>% 
  ggplot(aes(x= '', y=n, fill = Diet))+ 
  geom_col(color = 'black', width = 1) + 
  coord_polar('y') + 
  geom_text(aes(x = 1.3, label = round(n,2)), position = position_stack(vjust = .5)) +
  labs( title = 'Thời gian trung bình') + 
  theme_bw()  

  • Thời gian quan sát trung bình của gà con theo từng loại dinh dưỡng
  • Loại dinh dưỡng 1 có thời gian quan sát trung bình là 10.48, loại 2 là 10.92, loại 3 là 10.92 còn loại 4 là 10.75

2.14 Biểu đồ thể hiện tần suất xuất hiện trọng lượng gà con

ck %>% ggplot(aes(x = weight)) + 
  geom_histogram(binwidth = 50, fill = "skyblue", color = "black", aes(y=..count..)) +
  labs(x = "Trọng lượng (g)", y = "Tần suất") + 
  ggtitle("Phân phối của trọng lượng gà con") +
  theme_bw() 

  • Biểu đồ cho thấy tần suất suất hiện các chỉ số trọng lượng gà con
  • tần suất xuất hiện của trọng lượng dưới 100g xuất hiện nhiều nhất hơn 200 lần và giảm dần

2.15 Biểu đồ phân phối trong lượng gà con với tần suất (theo Diet)

ck %>% ggplot(aes(x = weight)) + 
  geom_histogram(binwidth = 50, fill = "skyblue", color = "black", aes(y=..count..)) + 
  labs(x = "Trọng lượng (g)", y = "Tần suất") + 
  facet_wrap(~Diet) + 
  ggtitle("Phân phối của trọng lượng gà con") 

  • Biểu đồ cho ra thấy chỉ số xuất hiện của các chỉ số trọng lượng gà con được phân ra theo loại dinh dưỡng

2.16 Biểu đồ thể hiện tần suất xuất hiện các mốc thời gian quan sát

ck %>% ggplot(aes(x = Time)) + 
  geom_histogram(binwidth = 3, fill = "red", color = "black", aes(y=..count..)) + 
  labs(x = "Thời gian (h)", y = "Tần suất") +
  ggtitle("Phân phối của thời gian theo dõi gà con") + 
  theme_bw() 

  • Biểu đố cho ta thấy các tần suất các khoảng thời gian xuất hiện
  • Khoảng thời gian xuất hiện nhiều nhất từ 0 đến 5 và giảm dần về 20

2.17 Biểu đồ thể hiện trọng lượng gà con theo thời gian (line)

ggplot(ChickWeight, aes(x = Time, y = weight, color = Chick)) +
  geom_line() +
  labs(x = "Thời gian (ngày)", y = "Trọng lượng (g)", color = "Gà") +
  ggtitle("Biểu đồ đường của trọng lượng gà theo thời gian") +
  theme_bw()

2.18 Biểu đồ thể hiện mật độ của trọng lượng gà ( violin plot)

ck %>% ggplot(aes(x = as.factor(Diet), y = weight, fill = as.factor(Diet))) + 
  geom_violin() + 
  labs(x = "chế độ dinh dưỡng", y = "Trọng lượng (g)") +
  ggtitle("Biểu đồ violin plot của trọng lượng gà") + 
  theme_bw()

  • Biểu đồ cho ta thấy mật độ phân phối của trọng lượng các gà con theo từng chế độ dinh dưỡng
  • ở chế độ dinh dưỡng 1 thì có mật độ phân phối trọng lượng dưới 100g nhiều nhất, cả 4 loại đều có xu hướng giảm dần, trọng lượng các lớn thì càng ít, lớn nhất có thể đạt được ở khẩu phần dinh dưỡng số 3

2.19 Biểu đồ thể hiện mật độ trọng lượng qua các mốc

ck %>% 
  ggplot(aes(x = Time, y = weight)) +
  geom_violin(fill = "skyblue", color = "black") +
  labs(x = "Thời gian", y = "Trọng lượng (g)",
       title = "Sự phát triển của trọng lượng gà con  theo thời gian") + 
  theme_bw()

  • Biểu đồ cho ta thấy mật độ phân phối của trọng lượng, trọng lượng càng lớn và ít

2.20 Biểu đồ phân phối trọng lượng dạng Boxplot

ck %>% ggplot(aes(x = factor(Diet), y = weight, fill = factor(Diet))) +
  geom_boxplot() +
  labs(x = "Loại khẩu phần", y = "Trọng lượng gà con", fill = "Loại khẩu phần") + 
  ggtitle("Biểu đồ Boxplot của trọng lượng gà con theo loại khẩu phần") 

  • Biểu đồ cho thấy các giá trị như trung vị, tứ phân vị và các giá trị ngoại vi có thể xuất hiện
