1 Giới thiệu bộ dữ liệu

Bộ dữ liệu này bao gồm các cột sau:

  • weight: Cân nặng của gà con, được đo trong các đơn vị không xác định (thường là đồ chơi hoặc gram).

  • Time: Thời gian theo ngày hoặc tuần trong thí nghiệm. Đây là thời gian khi mẫu gà con được đo cân nặng.

  • Chick: Mã số của gà con. Mỗi con gà trong thí nghiệm được gán một mã số duy nhất để theo dõi.

  • Diet: Loại thức ăn được cung cấp cho gà con. Đây có thể là biến phân loại mô tả các loại thức ăn khác nhau được sử dụng trong thí nghiệm.

  • Mục tiêu của bộ dữ liệu này có thể là để nghiên cứu sự ảnh hưởng của chế độ ăn uống (các loại thức ăn khác nhau) đến tăng trưởng và phát triển của gà con. Các nhà nghiên cứu có thể sử dụng bộ dữ liệu này để thực hiện các phân tích thống kê hoặc mô hình hóa dữ liệu để hiểu rõ hơn về cách chế độ ăn uống ảnh hưởng đến sự phát triển của gà con.

2 Các biểu đồ

2.1 Biểu đồ 1

library(datasets)
data("ChickWeight")
ga <- ChickWeight
diet_counts <- table(ga$Diet)
pie(diet_counts, labels = paste(names(diet_counts), " (", diet_counts, ")", sep = ""), 
    main = "Số lượng gà con theo Diet")

giải thích biểu đồ 1

  • Biểu đồ cho ta thấy số lượng gà con của từng loại dinh dưỡng nhưng ở dạng Pie chart

  • với loại 1 là 220 con là lớn nhất và loại 4 là ít nhất với 118 con

2.2 Biểu đồ 2

library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ggplot(ga, aes(x = weight, fill = factor(Diet))) +
  geom_density(alpha = 0.5) +
  labs(x = "Weight", y = "Density", fill = "Diet") +
  ggtitle("Density plot của trọng lượng gà con theo loại khẩu phần")

giải thích biểu đồ 2

  • Biểu đồ cho ta thấy sự phân bố trọng lượng trong mỗi nhóm với từng loại khẩu phần dinh dưỡng cho gà con riêng biệt

  • Mật độ loại một chiếm rất cao và dày trong khoảng từ 100 đến nửa 200g rồi làm giảm một cách rõ rệt, tiếp đó là loại 2 và xuống lần tới loại 3,4

  • Khoang có sự chênh lệnh quá lớn từ khoảng nửa 100 đến 200g trở đi của khẩu phần 1, 2, 3, Loại dinh dưỡng 4 ảnh hưởng lớn đến cân nặng từ 100 đến 200g của gà con

2.3 Biểu đồ 3

library(datasets)
data("ChickWeight")
ga <- ChickWeight
diet_proportions <- prop.table(table(ga$Diet)) * 100

pie(diet_proportions, labels = paste0(names(diet_proportions), ": ", round(diet_proportions, 2), "%"), 
    main = "Tỉ lệ dinh dưỡng theo Diet")

Giải thích biểu đồ 3

prop.table(table(chickweight$Diet)) * 100: Đầu tiên, chúng ta sử dụng hàm table() để đếm số lượng mẫu trong từng loại thức ăn (Diet). Sau đó, prop.table() được sử dụng để tính toán tỷ lệ phần trăm của mỗi loại thức ăn. Cuối cùng, chúng ta nhân với 100 để chuyển đổi sang tỷ lệ phần trăm.

labels = paste0(names(diet_proportions), “:”, round(diet_proportions, 2), “%”): Chúng ta sử dụng hàm paste0() để kết hợp tên của các loại thức ăn với tỷ lệ phần trăm tương ứng, và định dạng số liệu với hai chữ số thập phân. Điều này giúp hiển thị nhãn cho các phần trong biểu đồ pie chart.

main = “Tỉ lệ dinh dưỡng theo Diet”: Đây là tiêu đề cho biểu đồ pie chart, cho biết rằng biểu đồ này thể hiện tỷ lệ dinh dưỡng theo từng loại thức ăn.

2.4 Biểu đồ 4

diet_proportions <- prop.table(table(ga$Diet)) * 100
barplot(diet_proportions, 
        main = "Tỉ lệ dinh dưỡng theo Diet",
        xlab = "Diet",
        ylab = "Tỷ lệ phần trăm")

Giải thích đồ thị 4

prop.table(table(ga$Diet)) * 100: Chúng ta sử dụng hàm table() để đếm số lượng mẫu trong từng loại thức ăn (Diet). Sau đó, prop.table() được sử dụng để tính toán tỷ lệ phần trăm của mỗi loại thức ăn. Cuối cùng, chúng ta nhân với 100 để chuyển đổi sang tỷ lệ phần trăm.

barplot(diet_proportions, main = “Tỉ lệ dinh dưỡng theo Diet”, xlab = “Diet”, ylab = “Tỷ lệ phần trăm”): Hàm barplot() được sử dụng để tạo biểu đồ bar chart. Đối số đầu tiên là vector chứa tỷ lệ phần trăm của từng loại thức ăn. Các đối số tiếp theo được sử dụng để đặt tiêu đề cho biểu đồ (main), nhãn trục x (xlab) và nhãn trục y (ylab).

2.5 Biểu đồ 5

library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ggplot(ga, aes(x = Time, y = weight, color = factor(Diet))) +
  geom_point() +
  labs(x = "Thời gian quan sát", y = "Cân nặng", color = "Diet") +
  ggtitle("Tương quan giữa cân nặng và thời gian quan sát theo Diet")

Giải thích biểu đồ 5 Biểu đồ scatterplot mà chúng ta vừa tạo thể hiện mối quan hệ giữa cân nặng của gà con và thời gian quan sát, với sự phân biệt được thực hiện theo từng loại Diet khác nhau. Dưới đây là giải thích ý nghĩa của biểu đồ này:

Trục X (Thời gian quan sát): Trục này biểu diễn thời gian quan sát gà con. Mỗi điểm trên trục này đại diện cho một thời điểm cụ thể trong quá trình quan sát.

Trục Y (Cân nặng): Trục này biểu diễn cân nặng của gà con tại thời điểm tương ứng. Mỗi điểm trên trục này thể hiện cân nặng của một con gà tại một thời điểm cụ thể.

Màu sắc (Diet): Biểu đồ sử dụng màu sắc để phân biệt các nhóm Diet khác nhau. Mỗi màu đại diện cho một loại Diet. Điều này giúp chúng ta nhận biết mối quan hệ giữa cân nặng và thời gian quan sát được phân loại theo từng loại Diet.

Điểm (scatter points): Mỗi điểm trên biểu đồ đại diện cho một con gà và vị trí của nó trên trục x và trục y thể hiện thời gian quan sát và cân nặng của gà con tương ứng. Bằng cách này, chúng ta có thể quan sát mối quan hệ giữa cân nặng và thời gian quan sát của gà con, và xem xét liệu có sự khác biệt nào giữa các nhóm Diet hay không.

Biểu đồ scatterplot này giúp chúng ta nhận ra mối quan hệ giữa cân nặng của gà con và thời gian quan sát, và liệu mối quan hệ này có sự khác biệt giữa các nhóm Diet hay không.

2.6 Biểu đồ 6

library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% ggplot(aes(x = weight, y = Time, color = Diet)) + #Sử dụng dữ liệu từ ck tạo một bảng dữ liệu mới trong gói ggplot, thiết lập trục x, y, phân loại các điểm theo từng loại dinh dưỡng và phân bố màu cho chúng
  geom_point() + #Thêm các điểm vào biểu đồ, mỗi điểm là một quan sát được đối chiếu theo trục x và y
  labs( x = 'cân nặng gà con', y = 'Thời gian quan sát', title = 'Tương quan giữa gà con và cân nặng theo loại dinh dưỡng') +  #Đặt nhãn cho trục x và y, thiết lập lại tên tiêu đề mới cho vùng dữ liêụ
geom_smooth(method = 'lm', color = 'red') + #Thêm đường phù hợp tuyến tính, bằng phương pháp hồi quy tuyến tính
  facet_wrap(~Diet) #Phân loại các bảng nhỏ hơn theo loại Diet
## `geom_smooth()` using formula = 'y ~ x'

Giải thích đồ thị 6

Cân nặng gà con tùy theo từng loại dinh dưỡng có xu hướng tăng theo thời gian quan sát

2.7 Biểu đồ 7

library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% group_by(Diet) %>% summarise(n=mean(weight)) %>% 
  ggplot(aes(x= '', y=n, fill = Diet))+ 
  geom_col(color = 'green', width = 1) + 
  coord_polar('y') + 
  geom_text(aes(x = 1.3, label = round(n,2)), position = position_stack(vjust = .5)) + 
  labs( title = 'Trọng lượng trung bình') + 
  theme_void() 

Giải thích biểu đồ 6

ga %>% group_by(Diet) %>% summarise(n=mean(weight)) %>% #Tạo bảng dữ liệu mới các các cộng Diet và tính lượng trung bình ggplot(aes(x= ’‘, y=n, fill = Diet))+ #Bắt đầu một biểu đồ sử dụng gói ggplot với trục x không có dữ liệu, trục y là các phần tử n, và màu sắc được thêm vào phân biệt các loại Diet geom_col(color = ’green’, width = 1) + #Thêm các cột vào biểu đồ, mỗi cột là một loại dinh dưỡng cũng như độ rộng là 1 coord_polar(‘y’) + #Chuyển đổi biểu đồ thành hệ tọa độ cực, biểu thị các phần tương đối trong một vòng tròn geom_text(aes(x = 1.3, label = round(n,2)), position = position_stack(vjust = .5)) + #Các nhãn sẽ đật ở vị trí 1.3 trên trục x, trục y, tính giá trị trung bình và lấy hai giá trị sau đó, hiển thị số lượng và các nhãn được chồng với nhau lên căn chỉnh ở vị trí .5 labs( title = ‘Trọng lượng trung bình’) + #Thêm phần tiêu đề vào vùng vẽ biểu đồ theme_void() #Loại bỏ các phần mặc định của giao diện của biểu đồ, chỉ hiển thị dữ liệu và các yếu tố trực tiếp liên quan đến nó.

Biểu đồ thể hiện trọng lượng gà con trung bình theo từng loại dinh dưỡng Loại 1 có trọng lượng trung bình là 102.65, loại 2 là 122.62, loại 3 là 142.95, loại 4 là 135.26

2.8 Biểu đồ 8

library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% ggplot(aes(x = weight, y = Time, color = Diet)) +
  geom_point() + 
  labs( x = 'cân nặng gà con', y = 'Thời gian quan sát', title = 'Tương quan giữa gà con và cân nặng theo loại dinh dưỡng') + 
geom_smooth(method = 'lm', color = 'red')
## `geom_smooth()` using formula = 'y ~ x'

Giải thích đồ thị 8

ck %>% ggplot(aes(x = weight, y = Time, color = Diet)) + #Sử dụng dữ liệu từ ck tạo một bảng dữ liệu mới trong gói ggplot, thiết lập trục x, y, phân loại các điểm theo từng loại dinh dưỡng và phân bố màu cho chúng geom_point() + #Thêm các điểm vào biểu đồ, mỗi điểm là một quan sát được đối chiếu theo trục x và y labs( x = ‘cân nặng gà con’, y = ‘Thời gian quan sát’, title = ‘Tương quan giữa gà con và cân nặng theo loại dinh dưỡng’) + #Đặt nhãn cho trục x và y, thiết lập lại tên tiêu đề mới cho vùng dữ liêụ geom_smooth(method = ‘lm’, color = ‘black’)

Đường trend line có xu hướng lên trên, mối tương quan dương giữa các dữ liệu Với cân nặng gà con lớn, phải bổ sung dinh dưỡng theo đó mà thời gian quan sát cũng sẽ phải tăng lên

2.9 Biểu đồ 9

library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% group_by(Diet) %>% summarise(n = n()) %>% 
  ggplot(aes(x = '', y = n,fill = Diet)) + #
  geom_col( color = 'black' ) +
  geom_text(aes(label = n),position = position_stack(vjust = 1)) + 
  labs( y = 'số lượng', title = 'số lượng gà con cho mỗi chế độ dinh dưỡng') 

Giải thích biểu đồ 9

ck %>% group_by(Diet) %>% summarise(n = n()) %>% #Nhóm các dòng dữ liệu của ck theo cột Diet, sau đó tính tổng số lượng cho mỗi nhóm ggplot(aes(x = ’‘, y = n,fill = Diet)) + #Sử dụng dữ liệu từ bước trước thiết lập biểu đồ với trục x là không có dữ liệu, y là n, màu sắc đc ánh xạ vào Diet geom_col( color = ’black’ ) + #Thêm các cột vào biểu đồ, với màu được thiết lập là màu đen geom_text(aes(label = n),position = position_stack(vjust = 1)) + #Thêm nhãn vào biểu đồ, hiển thị số lượng gà con trên mỗi cột, căn chỉnh vị trí dọc các nhãn, đặt trên cùng mỗi cột labs( y = ‘số lượng’, title = ‘số lượng gà con cho mỗi chế độ dinh dưỡng’) #Thiết lập nhãn cho trụ y, tiêu đề của vùng dữ liệu được vẽ

Biểu đồ thể hiện cho ta thấy số lượng gà con theo từng loại dinh dưỡng, các số liệu được chồng theo một cột và tùy theo số lượng mà độ dày khác nhau Loại dinh dưỡng 1 có độ dày chiếm ưu thế, số lượng nhiều nhất, 3 loại kia không chênh lệch đáng kể

2.10 Biểu đồ 10

library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% ggplot( aes(x = weight, fill = as.factor(Diet))) +
  geom_density(alpha = 0.5) +  
  facet_wrap(~Diet) + 
  labs(title = "Density plot của trọng lượng gà con theo loại khẩu phần", x = "Trọng lượng (grams)", y = "Mật độ") +
  scale_fill_discrete(name = "Loại khẩu phần")  

Giải thích biểu đồ 10

ga %>% ggplot( aes(x = weight, fill = as.factor(Diet))) + geom_density(alpha = 0.5) + # Thiết lập độ mờ của các đường density facet_wrap(~Diet) + #Phân tổ các biểu đồ nhỏ hơn theo Diet labs(title = “Density plot của trọng lượng gà con theo loại khẩu phần”, x = “Trọng lượng (grams)”, y = “Mật độ”) + scale_fill_discrete(name = “Loại khẩu phần”) # Thêm chú thích cho fill

Tương tự như biểu đồ trên, mỗi phần nhỏ chỉ ra mật độ trọng lượng khi cho các loại khẩu phần riêng biệt đối với gà con Loại khẩu phần 1 với trọng lượng gà con 100g đổ lại rất nhiều

2.11 Biểu đồ 11

library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% group_by(Diet) %>% summarise(avg = mean(weight)) %>%  
   ggplot(aes(x = as.factor(Diet), y = avg)) +  
  geom_col(fill = 'orange') + 
  geom_text(aes(label = round(avg,2)), vjust = 1, color = 'red') +  
  labs( x = 'loại Diet', y = 'Trọng lượng gà con trung bình  (gram)', title = 'trọng lượng gà con trung bình theo Diet') + 
  coord_flip() 

Giải thích biểu đồ 11 ga %>% group_by(Diet) %>% summarise(avg = mean(weight)) %>% #Sử dụng dữ liệu từ ck nhóm cột Diet cũng nhưng tính cân nặng trung bình của cột weight ggplot(aes(x = as.factor(Diet), y = avg)) + #Bắt đầu một biểu đồ sử dụng gói ggplot với trục x là Diet, trục y là lượng trung bình geom_col(fill = ‘orange’) + #Thêm các cột vào biểu đồ, thiết lập màu các cột là orange geom_text(aes(label = round(avg,2)), vjust = 1, color = ‘red’) + #Thêm nhãn về lượng trung bình vào mỗi cột, thiết lập sau dấu phẩy chỉ lấy 2 chữ số, căn chỉnh độ dọc của của nhãn cũng như màu sắc là đỏ labs( x = ‘loại Diet’, y = ‘Trọng lượng gà con trung bình (gram)’, title = ‘trọng lượng gà con trung bình theo Diet’) + #Đặt nhãn cho trục x, y cũng như tiêu đề của vùng dữ liệu được vẽ coord_flip() #Đảo ngược trục của biểu đồ, từ dọc thành ngang và ngược lại

## Biểu đồ 12

library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ggplot(ga, aes(x = Time, y = weight, color = factor(Diet))) +
  geom_line() +
  labs(x = "Thời gian", y = "Cân nặng", color = "Diet") +
  ggtitle("Biểu đồ liên quan giữa thời gian và Diet")

Giải thích biểu đồ 12

Trục X (Thời gian): Trục này biểu diễn các đơn vị thời gian (ngày, tuần, vv.) của quá trình quan sát gà con. Mỗi điểm trên trục này tương ứng với một thời điểm cụ thể trong quá trình quan sát.

Trục Y (Cân nặng): Trục này biểu diễn cân nặng của gà con tại từng thời điểm được quan sát. Mỗi điểm trên trục này thể hiện giá trị cân nặng tại thời điểm tương ứng.

Màu sắc (Diet): Biểu đồ sử dụng màu sắc để phân biệt các nhóm Diet khác nhau. Mỗi màu đại diện cho một loại Diet. Điều này giúp chúng ta nhìn nhận mối quan hệ giữa thời gian và cân nặng được phân loại theo từng nhóm Diet.

Đường (Lines): Mỗi đường trên biểu đồ thể hiện sự biến đổi của cân nặng theo thời gian cho mỗi nhóm Diet. Điều này giúp chúng ta quan sát xu hướng tăng/giảm của cân nặng trong từng nhóm Diet theo thời gian.

Biểu đồ này giúp chúng ta hiểu được mối quan hệ giữa thời gian và cân nặng của gà con, đồng thời cho phép so sánh sự biến đổi của cân nặng giữa các nhóm Diet khác nhau.

2.12 Biểu đồ 13

library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% ggplot(aes(x = weight)) + 
  geom_histogram(binwidth = 50, fill = "blue", color = "black", aes(y=..count..)) + 
  labs(x = "Trọng lượng (g)", y = "Tần suất") + 
  ggtitle("Phân phối của trọng lượng gà con") + 
  theme_minimal() 
## Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

giải thích biểu đồ 13

ck %>% ggplot(aes(x = weight)) + #Bắt đầu một biểu đồ ggplot với trục x được thiết lập là cột “weight” geom_histogram(binwidth = 50, fill = “skyblue”, color = “black”, aes(y=..count..)) + #Thiết lập dữ liệu hiển thị dưới dạng histogram, đặt chiều rộng bin, màu nền và viền, sử dụng tần suất tuyệt đối labs(x = “Trọng lượng (g)”, y = “Tần suất”) + #Thiết lập nhãn cho trục x và trục y ggtitle(“Phân phối của trọng lượng gà con”) + #Thiết lập tiêu đề cho biểu đồ theme_minimal() #Chọn giao diện đơn giản, đường lưới cho biểu đồ

Biểu đồ cho thấy tần suất suất hiện các chỉ số trọng lượng gà con tần suất xuất hiện của trọng lượng dưới 100g xuất hiện nhiều nhất hơn 200 lần và giảm dần

2.13 Biểu đồ 14

library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% ggplot(aes(x = weight)) + 
  geom_histogram(binwidth = 50, fill = "green", color = "black", aes(y=..count..)) + 
  labs(x = "Trọng lượng (g)", y = "Tần suất") + 
  facet_wrap(~Diet) + 
  ggtitle("Phân phối của trọng lượng gà con")  

Giiar thích đồ thị 14

ck %>% ggplot(aes(x = weight)) + #Bắt đầu một biểu đồ ggplot với trục x được thiết lập là cột “weight” geom_histogram(binwidth = 50, fill = “skyblue”, color = “black”, aes(y=..count..)) + #Thiết lập dữ liệu hiển thị dưới dạng histogram, đặt chiều rộng bin, màu nền và viền, sử dụng tần suất tuyệt đối labs(x = “Trọng lượng (g)”, y = “Tần suất”) + #Thiết lập nhãn cho trục x và trục y facet_wrap(~Diet) + #Phân loại các bảng nhỏ theo loại Diet ggtitle(“Phân phối của trọng lượng gà con”) #Thiết lập tiêu đề cho biểu đồ

Biểu đồ cho ra thấy chỉ số xuất hiện của các chỉ số trọng lượng gà con được phân ra theo loại dinh dưỡng

2.14 Biểu đồ 15

library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% ggplot(aes(x = Time)) + 
  geom_histogram(binwidth = 3, fill = "pink", color = "black", aes(y=..count..)) + 
  labs(x = "Thời gian (h)", y = "Tần suất") + 
  ggtitle("Phân phối của thời gian theo dõi gà con") +
  theme_minimal() 

Giải thích biểu đồ 15 ga %>% ggplot(aes(x = Time)) + #Bắt đầu một biểu đồ ggplot với trục x được thiết lập là cột “Time” geom_histogram(binwidth = 3, fill = “pink”, color = “black”, aes(y=..count..)) + #Thiết lập dữ liệu hiển thị dưới dạng histogram, đặt chiều rộng bin là 5, màu nền và màu viền labs(x = “Thời gian (h)”, y = “Tần suất”) + #Thiết lập nhãn cho trục x và y ggtitle(“Phân phối của thời gian theo dõi gà con”) + #Thiết lập tiêu đề cho biểu đồ theme_minimal() #Giao diện dạng lưới

Biểu đố cho ta thấy các tần suất các khoảng thời gian xuất hiện Khoảng thời gian xuất hiện nhiều nhất từ 0 đến 5 và giảm dần về 20

2.15 Biểu đồ 16

library(ggplot2)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
average_weight <- aggregate(weight ~ Time,ga, FUN = mean)
ggplot(average_weight, aes(x = Time, y = weight)) +
  geom_line() +
  labs(x = "Thời gian", y = "Trọng lượng tb") +
  ggtitle("Biểu đồ trọng lượng tb qua các mốc thời gian")

Giải thích biểu đò 16

aggregate(weight ~ Time, data = chickweight, FUN = mean): Chúng ta sử dụng hàm aggregate() để tính trọng lượng trung bình theo các mốc thời gian. Đối số weight ~ Time chỉ định rằng chúng ta muốn tính trung bình của trọng lượng theo thời gian. data = chickweight chỉ ra bộ dữ liệu, và FUN = mean chỉ định rằng chúng ta muốn tính trung bình.

ggplot(average_weight, aes(x = Time, y = weight)): Đây là bước khởi tạo biểu đồ sử dụng gói ggplot2. Chúng ta sử dụng bộ dữ liệu average_weight (đã tính toán trước đó) và định nghĩa các mối quan hệ aesthetics (mỹ phẩm) cho biểu đồ. Trục x là thời gian và trục y là trọng lượng trung bình.

geom_line(): geom_line() được sử dụng để thêm các đường vào biểu đồ, tạo thành biểu đồ line plot.

labs(x = “Thời gian”, y = “Trọng lượng trung bình”): Hàm labs() được sử dụng để đặt tên cho các trục của biểu đồ. Trục x được gán là “Thời gian”, và trục y được gán là “Trọng lượng trung bình”.

ggtitle(“Biểu đồ trọng lượng trung bình qua các mốc thời gian”): Hàm ggtitle() được sử dụng để đặt tiêu đề cho biểu đồ. Trong trường hợp này, tiêu đề được đặt là “Biểu đồ trọng lượng trung bình qua các mốc thời gian”.

2.16 Biểu đồ 17

library(dplyr)
library(ggplot2)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
max_weight_by_diet <- ga %>%
  group_by(Diet) %>%
  summarise(max_weight = max(weight))
ggplot(max_weight_by_diet, aes(x = factor(Diet), y = max_weight, fill = factor(Diet))) +
  geom_bar(stat = "identity") +
  labs(x = "Diet", y = "Trọng lượng lớn nhất", fill = "Diet") +
  ggtitle("Trọng lượng lớn nhất ở các loại dinh dưỡng")

Giải thích biểu đồ 17

Chúng ta sử dụng gói dplyr để tính toán trọng lượng lớn nhất theo mỗi loại dinh dưỡng. Hàm group_by() được sử dụng để nhóm dữ liệu theo loại dinh dưỡng, sau đó hàm summarise() tính toán trọng lượng lớn nhất cho mỗi nhóm. Sau đó, chúng ta tạo biểu đồ cột sử dụng ggplot2. Trục x là loại dinh dưỡng, trục y là trọng lượng lớn nhất, và màu sắc được sử dụng để phân biệt các loại dinh dưỡng.

2.17 Biểu đồ 18

library(dplyr)
library(ggplot2)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
chickweight_time_20 <- ga %>%
  filter(Time == 20)
average_weight_by_diet <- chickweight_time_20 %>%
  group_by(Diet) %>%
  summarise(average_weight = mean(weight))
ggplot(average_weight_by_diet, aes(x = factor(Diet), y = average_weight, fill = factor(Diet))) +
  geom_bar(stat = "identity") +
  labs(x = "Diet", y = "Trọng lượng trung bình", fill = "Diet") +
  ggtitle("Trọng lượng trung bình ở thời điểm 20 của các loại dinh dưỡng")

giải thích biểu đồ 18

Đầu tiên, chúng ta lọc dữ liệu để chỉ giữ lại các quan sát tại thời điểm 20 bằng cách sử dụng hàm filter() của gói dplyr. Tiếp theo, chúng ta tính trọng lượng trung bình cho mỗi loại dinh dưỡng bằng cách sử dụng hàm summarise() để tính toán giá trị trung bình cho từng nhóm. Cuối cùng, chúng ta tạo biểu đồ cột sử dụng ggplot2, trong đó trục x là loại dinh dưỡng, trục y là trọng lượng trung bình, và màu sắc được sử dụng để phân biệt các loại dinh dưỡng

trọng lượng trung bình của dinh dưỡng loại 3 trong 20 ngày là tốt nhất

2.18 Đồ thị 19

library(dplyr)
library(ggplot2)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
chickweight_weight_100 <- ga %>%
  filter(weight == 100)
average_time_by_diet <- chickweight_weight_100 %>%
  group_by(Diet) %>%
  summarise(average_time = mean(Time))

# Tạo biểu đồ đường
ggplot(average_time_by_diet, aes(x = factor(Diet), y = average_time, group = 1)) +
  geom_line() +
  geom_point() +
  labs(x = "Diet", y = "Thời gian trung bình (đạt trọng lượng 100)") +
  ggtitle("Thời gian trung bình để đạt trọng lượng 100 theo loại dinh dưỡng")

Giải thích đồ thị 19

Chúng ta sử dụng gói dplyr để lọc dữ liệu và tính toán trung bình. Đầu tiên, chúng ta lọc dữ liệu để chỉ giữ lại các quan sát có trọng lượng bằng 100. Sau đó, chúng ta tính trung bình thời gian cho mỗi loại dinh dưỡng bằng cách sử dụng hàm group_by() và summarise(). Tiếp theo, chúng ta tạo biểu đồ đường sử dụng ggplot2. Trục x là loại dinh dưỡng, trục y là thời gian trung bình (để đạt được trọng lượng 100), và chúng ta sử dụng geom_line() và geom_point() để vẽ đường và điểm trên biểu đồ.

2.19 Biểu đồ 20

library(dplyr)
library(ggplot2)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
chick_counts_by_diet <- ga %>%
  group_by(Diet) %>%
  summarise(Count = n_distinct(Chick))

ggplot(chick_counts_by_diet, aes(x = factor(Diet), y = Count, fill = factor(Diet))) +
  geom_bar(stat = "identity") +
  labs(x = "Diet", y = "Số lượng Chick", fill = "Diet") +
  ggtitle("Số lượng Chick theo Diet") +
  theme_minimal()

Giải thích biểu đồ 20

Chúng ta sử dụng group_by() và summarise() từ gói dplyr để tính số lượng chick cho mỗi diet. Sau đó, chúng ta vẽ biểu đồ cột (bar chart) bằng ggplot2, với trục x là loại diet, trục y là số lượng chick, và màu sắc được sử dụng để phân biệt các diet.

---
title: "Nhiệm vụ 5"
author: "Nhhao"
date: "`r format(Sys.time(), '%H:%M:%S, %d - %m - %Y')`"
output:
  html_document: 
    code_download: true
    code_folding: hide
    toc_float: true
    toc: true
    number_sections: true
---


```{r setup, include=FALSE}
library(tidyverse)
library(scales)
library(dplyr)
library(ggplot2)
library(datasets)
```
 

# **Giới thiệu bộ dữ liệu**

Bộ dữ liệu này bao gồm các cột sau:

- weight: Cân nặng của gà con, được đo trong các đơn vị không xác định (thường là đồ chơi hoặc gram).

- Time: Thời gian theo ngày hoặc tuần trong thí nghiệm. Đây là thời gian khi mẫu gà con được đo cân nặng.

- Chick: Mã số của gà con. Mỗi con gà trong thí nghiệm được gán một mã số duy nhất để theo dõi.

- Diet: Loại thức ăn được cung cấp cho gà con. Đây có thể là biến phân loại mô tả các loại thức ăn khác nhau được sử dụng trong thí nghiệm.

- Mục tiêu của bộ dữ liệu này có thể là để nghiên cứu sự ảnh hưởng của chế độ ăn uống (các loại thức ăn khác nhau) đến tăng trưởng và phát triển của gà con. Các nhà nghiên cứu có thể sử dụng bộ dữ liệu này để thực hiện các phân tích thống kê hoặc mô hình hóa dữ liệu để hiểu rõ hơn về cách chế độ ăn uống ảnh hưởng đến sự phát triển của gà con.

# **Các biểu đồ**

## **Biểu đồ 1**

```{r}
library(datasets)
data("ChickWeight")
ga <- ChickWeight
diet_counts <- table(ga$Diet)
pie(diet_counts, labels = paste(names(diet_counts), " (", diet_counts, ")", sep = ""), 
    main = "Số lượng gà con theo Diet")

```

**giải thích biểu đồ 1**

- Biểu đồ cho ta thấy số lượng gà con của từng loại dinh dưỡng nhưng ở dạng Pie chart

- với loại 1 là 220 con là lớn nhất và loại 4 là ít nhất với 118 con

## **Biểu đồ 2**

```{r}
library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ggplot(ga, aes(x = weight, fill = factor(Diet))) +
  geom_density(alpha = 0.5) +
  labs(x = "Weight", y = "Density", fill = "Diet") +
  ggtitle("Density plot của trọng lượng gà con theo loại khẩu phần")

```
**giải thích biểu đồ 2**

- Biểu đồ cho ta thấy sự phân bố trọng lượng trong mỗi nhóm với từng loại khẩu phần dinh dưỡng cho gà con riêng biệt

- Mật độ loại một chiếm rất cao và dày trong khoảng từ 100 đến nửa 200g rồi làm giảm một cách rõ rệt, tiếp đó là loại 2 và xuống lần tới loại 3,4

- Khoang có sự chênh lệnh quá lớn từ khoảng nửa 100 đến 200g trở đi của khẩu phần 1, 2, 3, Loại dinh dưỡng 4 ảnh hưởng lớn đến cân nặng từ 100 đến 200g của gà con

## **Biểu đồ 3**

```{r}
library(datasets)
data("ChickWeight")
ga <- ChickWeight
diet_proportions <- prop.table(table(ga$Diet)) * 100

pie(diet_proportions, labels = paste0(names(diet_proportions), ": ", round(diet_proportions, 2), "%"), 
    main = "Tỉ lệ dinh dưỡng theo Diet")
```

**Giải thích biểu đồ 3**

prop.table(table(chickweight$Diet)) * 100: Đầu tiên, chúng ta sử dụng hàm table() để đếm số lượng mẫu trong từng loại thức ăn (Diet). Sau đó, prop.table() được sử dụng để tính toán tỷ lệ phần trăm của mỗi loại thức ăn. Cuối cùng, chúng ta nhân với 100 để chuyển đổi sang tỷ lệ phần trăm.

labels = paste0(names(diet_proportions), ": ", round(diet_proportions, 2), "%"): Chúng ta sử dụng hàm paste0() để kết hợp tên của các loại thức ăn với tỷ lệ phần trăm tương ứng, và định dạng số liệu với hai chữ số thập phân. Điều này giúp hiển thị nhãn cho các phần trong biểu đồ pie chart.

main = "Tỉ lệ dinh dưỡng theo Diet": Đây là tiêu đề cho biểu đồ pie chart, cho biết rằng biểu đồ này thể hiện tỷ lệ dinh dưỡng theo từng loại thức ăn.


## **Biểu đồ 4**

```{r}
diet_proportions <- prop.table(table(ga$Diet)) * 100
barplot(diet_proportions, 
        main = "Tỉ lệ dinh dưỡng theo Diet",
        xlab = "Diet",
        ylab = "Tỷ lệ phần trăm")
```
**Giải thích đồ thị 4**

prop.table(table(ga$Diet)) * 100: Chúng ta sử dụng hàm table() để đếm số lượng mẫu trong từng loại thức ăn (Diet). Sau đó, prop.table() được sử dụng để tính toán tỷ lệ phần trăm của mỗi loại thức ăn. Cuối cùng, chúng ta nhân với 100 để chuyển đổi sang tỷ lệ phần trăm.

barplot(diet_proportions, main = "Tỉ lệ dinh dưỡng theo Diet", xlab = "Diet", ylab = "Tỷ lệ phần trăm"): Hàm barplot() được sử dụng để tạo biểu đồ bar chart. Đối số đầu tiên là vector chứa tỷ lệ phần trăm của từng loại thức ăn. Các đối số tiếp theo được sử dụng để đặt tiêu đề cho biểu đồ (main), nhãn trục x (xlab) và nhãn trục y (ylab).

## **Biểu đồ 5**

```{r}
library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ggplot(ga, aes(x = Time, y = weight, color = factor(Diet))) +
  geom_point() +
  labs(x = "Thời gian quan sát", y = "Cân nặng", color = "Diet") +
  ggtitle("Tương quan giữa cân nặng và thời gian quan sát theo Diet")

```
**Giải thích biểu đồ 5**
Biểu đồ scatterplot mà chúng ta vừa tạo thể hiện mối quan hệ giữa cân nặng của gà con và thời gian quan sát, với sự phân biệt được thực hiện theo từng loại Diet khác nhau. Dưới đây là giải thích ý nghĩa của biểu đồ này:

Trục X (Thời gian quan sát): Trục này biểu diễn thời gian quan sát gà con. Mỗi điểm trên trục này đại diện cho một thời điểm cụ thể trong quá trình quan sát.

Trục Y (Cân nặng): Trục này biểu diễn cân nặng của gà con tại thời điểm tương ứng. Mỗi điểm trên trục này thể hiện cân nặng của một con gà tại một thời điểm cụ thể.

Màu sắc (Diet): Biểu đồ sử dụng màu sắc để phân biệt các nhóm Diet khác nhau. Mỗi màu đại diện cho một loại Diet. Điều này giúp chúng ta nhận biết mối quan hệ giữa cân nặng và thời gian quan sát được phân loại theo từng loại Diet.

Điểm (scatter points): Mỗi điểm trên biểu đồ đại diện cho một con gà và vị trí của nó trên trục x và trục y thể hiện thời gian quan sát và cân nặng của gà con tương ứng. Bằng cách này, chúng ta có thể quan sát mối quan hệ giữa cân nặng và thời gian quan sát của gà con, và xem xét liệu có sự khác biệt nào giữa các nhóm Diet hay không.

Biểu đồ scatterplot này giúp chúng ta nhận ra mối quan hệ giữa cân nặng của gà con và thời gian quan sát, và liệu mối quan hệ này có sự khác biệt giữa các nhóm Diet hay không.

## **Biểu đồ 6**

```{r}
library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% ggplot(aes(x = weight, y = Time, color = Diet)) + #Sử dụng dữ liệu từ ck tạo một bảng dữ liệu mới trong gói ggplot, thiết lập trục x, y, phân loại các điểm theo từng loại dinh dưỡng và phân bố màu cho chúng
  geom_point() + #Thêm các điểm vào biểu đồ, mỗi điểm là một quan sát được đối chiếu theo trục x và y
  labs( x = 'cân nặng gà con', y = 'Thời gian quan sát', title = 'Tương quan giữa gà con và cân nặng theo loại dinh dưỡng') +  #Đặt nhãn cho trục x và y, thiết lập lại tên tiêu đề mới cho vùng dữ liêụ
geom_smooth(method = 'lm', color = 'red') + #Thêm đường phù hợp tuyến tính, bằng phương pháp hồi quy tuyến tính
  facet_wrap(~Diet) #Phân loại các bảng nhỏ hơn theo loại Diet
```

**Giải thích đồ thị 6**

Cân nặng gà con tùy theo từng loại dinh dưỡng có xu hướng tăng theo thời gian quan sát

## **Biểu đồ 7**

```{r}
library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% group_by(Diet) %>% summarise(n=mean(weight)) %>% 
  ggplot(aes(x= '', y=n, fill = Diet))+ 
  geom_col(color = 'green', width = 1) + 
  coord_polar('y') + 
  geom_text(aes(x = 1.3, label = round(n,2)), position = position_stack(vjust = .5)) + 
  labs( title = 'Trọng lượng trung bình') + 
  theme_void() 
```
**Giải thích biểu đồ 6**

ga %>% group_by(Diet) %>% summarise(n=mean(weight)) %>% #Tạo bảng dữ liệu mới các các cộng Diet và tính lượng trung bình 
  ggplot(aes(x= '', y=n, fill = Diet))+ #Bắt đầu một biểu đồ sử dụng gói ggplot với trục x không có dữ liệu, trục y là các phần tử n, và màu sắc được thêm vào phân biệt các loại Diet
  geom_col(color = 'green', width = 1) + #Thêm các cột vào biểu đồ, mỗi cột là một loại dinh dưỡng cũng như độ rộng là 1
  coord_polar('y') + #Chuyển đổi biểu đồ thành hệ tọa độ cực, biểu thị các phần tương đối trong một vòng tròn
  geom_text(aes(x = 1.3, label = round(n,2)), position = position_stack(vjust = .5)) + #Các nhãn sẽ đật ở vị trí 1.3 trên trục x, trục y, tính giá trị trung bình và lấy hai giá trị sau đó, hiển thị số lượng và  các nhãn được chồng với nhau lên căn chỉnh ở vị trí .5
  labs( title = 'Trọng lượng trung bình') + #Thêm phần tiêu đề vào vùng vẽ biểu đồ
  theme_void() #Loại bỏ các phần mặc định của giao diện của biểu đồ, chỉ hiển thị dữ liệu và các yếu tố trực tiếp liên quan đến nó. 

Biểu đồ thể hiện trọng lượng gà con trung bình theo từng loại dinh dưỡng
Loại 1 có trọng lượng trung bình là 102.65, loại 2 là 122.62, loại 3 là 142.95, loại 4 là 135.26

## **Biểu đồ 8**

```{r}
library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% ggplot(aes(x = weight, y = Time, color = Diet)) +
  geom_point() + 
  labs( x = 'cân nặng gà con', y = 'Thời gian quan sát', title = 'Tương quan giữa gà con và cân nặng theo loại dinh dưỡng') + 
geom_smooth(method = 'lm', color = 'red')
```
**Giải thích đồ thị 8**

ck %>% ggplot(aes(x = weight, y = Time, color = Diet)) + #Sử dụng dữ liệu từ ck tạo một bảng dữ liệu mới trong gói ggplot, thiết lập trục x, y, phân loại các điểm theo từng loại dinh dưỡng và phân bố màu cho chúng
  geom_point() + #Thêm các điểm vào biểu đồ, mỗi điểm là một quan sát được đối chiếu theo trục x và y
  labs( x = 'cân nặng gà con', y = 'Thời gian quan sát', title = 'Tương quan giữa gà con và cân nặng theo loại dinh dưỡng') +  #Đặt nhãn cho trục x và y, thiết lập lại tên tiêu đề mới cho vùng dữ liêụ
geom_smooth(method = 'lm', color = 'black')

Đường trend line có xu hướng lên trên, mối tương quan dương giữa các dữ liệu
Với cân nặng gà con lớn, phải bổ sung dinh dưỡng theo đó mà thời gian quan sát cũng sẽ phải tăng lên

## **Biểu đồ 9**

```{r}
library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% group_by(Diet) %>% summarise(n = n()) %>% 
  ggplot(aes(x = '', y = n,fill = Diet)) + #
  geom_col( color = 'black' ) +
  geom_text(aes(label = n),position = position_stack(vjust = 1)) + 
  labs( y = 'số lượng', title = 'số lượng gà con cho mỗi chế độ dinh dưỡng') 
```

**Giải thích biểu đồ 9**

ck %>% group_by(Diet) %>% summarise(n = n()) %>% #Nhóm các dòng dữ liệu của ck theo cột Diet, sau đó tính tổng số lượng cho mỗi nhóm
  ggplot(aes(x = '', y = n,fill = Diet)) + #Sử dụng dữ liệu từ bước trước thiết lập biểu đồ với trục x là không có dữ liệu, y là n, màu sắc đc ánh xạ vào Diet
  geom_col( color = 'black' ) + #Thêm các cột vào biểu đồ, với màu được thiết lập là màu đen
  geom_text(aes(label = n),position = position_stack(vjust = 1)) + #Thêm nhãn vào biểu đồ, hiển thị số lượng gà con trên mỗi cột, căn chỉnh vị trí dọc các nhãn, đặt trên cùng mỗi cột
  labs( y = 'số lượng', title = 'số lượng gà con cho mỗi chế độ dinh dưỡng') #Thiết lập nhãn cho trụ y, tiêu đề của vùng dữ liệu được vẽ

Biểu đồ thể hiện cho ta thấy số lượng gà con theo từng loại dinh dưỡng, các số liệu được chồng theo một cột và tùy theo số lượng mà độ dày khác nhau
Loại dinh dưỡng 1 có độ dày chiếm ưu thế, số lượng nhiều nhất, 3 loại kia không chênh lệch đáng kể

## **Biểu đồ 10**

```{r}
library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% ggplot( aes(x = weight, fill = as.factor(Diet))) +
  geom_density(alpha = 0.5) +  
  facet_wrap(~Diet) + 
  labs(title = "Density plot của trọng lượng gà con theo loại khẩu phần", x = "Trọng lượng (grams)", y = "Mật độ") +
  scale_fill_discrete(name = "Loại khẩu phần")  
```

**Giải thích biểu đồ 10**

ga %>% ggplot( aes(x = weight, fill = as.factor(Diet))) +
  geom_density(alpha = 0.5) +  # Thiết lập độ mờ của các đường density
  facet_wrap(~Diet) + #Phân tổ các biểu đồ nhỏ hơn theo Diet
  labs(title = "Density plot của trọng lượng gà con theo loại khẩu phần", x = "Trọng lượng (grams)", y = "Mật độ") +
  scale_fill_discrete(name = "Loại khẩu phần")  # Thêm chú thích cho fill
  
  Tương tự như biểu đồ trên, mỗi phần nhỏ chỉ ra mật độ trọng lượng khi cho các loại khẩu phần riêng biệt đối với gà con
Loại khẩu phần 1 với trọng lượng gà con 100g đổ lại rất nhiều

## **Biểu đồ 11**

```{r}
library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% group_by(Diet) %>% summarise(avg = mean(weight)) %>%  
   ggplot(aes(x = as.factor(Diet), y = avg)) +  
  geom_col(fill = 'orange') + 
  geom_text(aes(label = round(avg,2)), vjust = 1, color = 'red') +  
  labs( x = 'loại Diet', y = 'Trọng lượng gà con trung bình  (gram)', title = 'trọng lượng gà con trung bình theo Diet') + 
  coord_flip() 
```


**Giải thích biểu đồ 11**
ga %>% group_by(Diet) %>% summarise(avg = mean(weight)) %>% #Sử dụng dữ liệu từ ck nhóm cột Diet cũng nhưng tính cân nặng trung bình của cột weight
   ggplot(aes(x = as.factor(Diet), y = avg)) + #Bắt đầu một biểu đồ sử dụng gói ggplot với trục x là Diet, trục y là lượng trung bình 
  geom_col(fill = 'orange') + #Thêm các cột vào biểu đồ, thiết lập màu các cột là orange
  geom_text(aes(label = round(avg,2)), vjust = 1, color = 'red') + #Thêm nhãn về lượng trung bình vào mỗi cột, thiết lập sau dấu phẩy chỉ lấy 2 chữ số, căn chỉnh độ dọc của của nhãn cũng như màu sắc là đỏ
  labs( x = 'loại Diet', y = 'Trọng lượng gà con trung bình  (gram)', title = 'trọng lượng gà con trung bình theo Diet') + #Đặt nhãn cho trục x, y cũng như tiêu đề của vùng dữ liệu được vẽ
  coord_flip() #Đảo ngược trục của biểu đồ, từ dọc thành ngang và ngược lại
  
  ## **Biểu đồ 12**
  
```{r}
library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ggplot(ga, aes(x = Time, y = weight, color = factor(Diet))) +
  geom_line() +
  labs(x = "Thời gian", y = "Cân nặng", color = "Diet") +
  ggtitle("Biểu đồ liên quan giữa thời gian và Diet")
```
**Giải thích biểu đồ 12**

Trục X (Thời gian): Trục này biểu diễn các đơn vị thời gian (ngày, tuần, vv.) của quá trình quan sát gà con. Mỗi điểm trên trục này tương ứng với một thời điểm cụ thể trong quá trình quan sát.

Trục Y (Cân nặng): Trục này biểu diễn cân nặng của gà con tại từng thời điểm được quan sát. Mỗi điểm trên trục này thể hiện giá trị cân nặng tại thời điểm tương ứng.

Màu sắc (Diet): Biểu đồ sử dụng màu sắc để phân biệt các nhóm Diet khác nhau. Mỗi màu đại diện cho một loại Diet. Điều này giúp chúng ta nhìn nhận mối quan hệ giữa thời gian và cân nặng được phân loại theo từng nhóm Diet.

Đường (Lines): Mỗi đường trên biểu đồ thể hiện sự biến đổi của cân nặng theo thời gian cho mỗi nhóm Diet. Điều này giúp chúng ta quan sát xu hướng tăng/giảm của cân nặng trong từng nhóm Diet theo thời gian.

Biểu đồ này giúp chúng ta hiểu được mối quan hệ giữa thời gian và cân nặng của gà con, đồng thời cho phép so sánh sự biến đổi của cân nặng giữa các nhóm Diet khác nhau.


## **Biểu đồ 13**

```{r}
library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% ggplot(aes(x = weight)) + 
  geom_histogram(binwidth = 50, fill = "blue", color = "black", aes(y=..count..)) + 
  labs(x = "Trọng lượng (g)", y = "Tần suất") + 
  ggtitle("Phân phối của trọng lượng gà con") + 
  theme_minimal() 
```

**giải thích biểu đồ 13**

ck %>% ggplot(aes(x = weight)) + #Bắt đầu một biểu đồ ggplot với trục x được thiết lập là cột "weight"
  geom_histogram(binwidth = 50, fill = "skyblue", color = "black", aes(y=..count..)) + #Thiết lập dữ liệu hiển thị dưới dạng histogram, đặt chiều rộng bin, màu nền và viền, sử dụng tần suất tuyệt đối
  labs(x = "Trọng lượng (g)", y = "Tần suất") + #Thiết lập nhãn cho trục x và trục y
  ggtitle("Phân phối của trọng lượng gà con") + #Thiết lập tiêu đề cho biểu đồ
  theme_minimal() #Chọn giao diện đơn giản, đường lưới cho biểu đồ
  
  Biểu đồ cho thấy tần suất suất hiện các chỉ số trọng lượng gà con
tần suất xuất hiện của trọng lượng dưới 100g xuất hiện nhiều nhất hơn 200 lần và giảm dần

## **Biểu đồ 14**

```{r}
library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% ggplot(aes(x = weight)) + 
  geom_histogram(binwidth = 50, fill = "green", color = "black", aes(y=..count..)) + 
  labs(x = "Trọng lượng (g)", y = "Tần suất") + 
  facet_wrap(~Diet) + 
  ggtitle("Phân phối của trọng lượng gà con")  
```

**Giiar thích đồ thị 14**

ck %>% ggplot(aes(x = weight)) + #Bắt đầu một biểu đồ ggplot với trục x được thiết lập là cột "weight"
  geom_histogram(binwidth = 50, fill = "skyblue", color = "black", aes(y=..count..)) + #Thiết lập dữ liệu hiển thị dưới dạng histogram, đặt chiều rộng bin, màu nền và viền, sử dụng tần suất tuyệt đối
  labs(x = "Trọng lượng (g)", y = "Tần suất") + #Thiết lập nhãn cho trục x và trục y
  facet_wrap(~Diet) + #Phân loại các bảng nhỏ theo loại Diet
  ggtitle("Phân phối của trọng lượng gà con")  #Thiết lập tiêu đề cho biểu đồ

Biểu đồ cho ra thấy chỉ số xuất hiện của các chỉ số trọng lượng gà con được phân ra theo loại dinh dưỡng

## **Biểu đồ 15**

```{r}
library(tidyverse)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
ga %>% ggplot(aes(x = Time)) + 
  geom_histogram(binwidth = 3, fill = "pink", color = "black", aes(y=..count..)) + 
  labs(x = "Thời gian (h)", y = "Tần suất") + 
  ggtitle("Phân phối của thời gian theo dõi gà con") +
  theme_minimal() 
```


**Giải thích biểu đồ 15**
ga %>% ggplot(aes(x = Time)) + #Bắt đầu một biểu đồ ggplot với trục x được thiết lập là cột "Time"
  geom_histogram(binwidth = 3, fill = "pink", color = "black", aes(y=..count..)) + #Thiết lập dữ liệu hiển thị dưới dạng histogram, đặt chiều rộng bin là 5, màu nền và màu viền
  labs(x = "Thời gian (h)", y = "Tần suất") + #Thiết lập nhãn cho trục x và y
  ggtitle("Phân phối của thời gian theo dõi gà con") + #Thiết lập tiêu đề cho biểu đồ
  theme_minimal() #Giao diện dạng lưới

Biểu đố cho ta thấy các tần suất các khoảng thời gian xuất hiện
Khoảng thời gian xuất hiện nhiều nhất từ 0 đến 5 và giảm dần về 20

## **Biểu đồ 16**
```{r}
library(ggplot2)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
average_weight <- aggregate(weight ~ Time,ga, FUN = mean)
ggplot(average_weight, aes(x = Time, y = weight)) +
  geom_line() +
  labs(x = "Thời gian", y = "Trọng lượng tb") +
  ggtitle("Biểu đồ trọng lượng tb qua các mốc thời gian")

```

**Giải thích biểu đò 16**

aggregate(weight ~ Time, data = chickweight, FUN = mean): Chúng ta sử dụng hàm aggregate() để tính trọng lượng trung bình theo các mốc thời gian. Đối số weight ~ Time chỉ định rằng chúng ta muốn tính trung bình của trọng lượng theo thời gian. data = chickweight chỉ ra bộ dữ liệu, và FUN = mean chỉ định rằng chúng ta muốn tính trung bình.

ggplot(average_weight, aes(x = Time, y = weight)): Đây là bước khởi tạo biểu đồ sử dụng gói ggplot2. Chúng ta sử dụng bộ dữ liệu average_weight (đã tính toán trước đó) và định nghĩa các mối quan hệ aesthetics (mỹ phẩm) cho biểu đồ. Trục x là thời gian và trục y là trọng lượng trung bình.

geom_line(): geom_line() được sử dụng để thêm các đường vào biểu đồ, tạo thành biểu đồ line plot.

labs(x = "Thời gian", y = "Trọng lượng trung bình"): Hàm labs() được sử dụng để đặt tên cho các trục của biểu đồ. Trục x được gán là "Thời gian", và trục y được gán là "Trọng lượng trung bình".

ggtitle("Biểu đồ trọng lượng trung bình qua các mốc thời gian"): Hàm ggtitle() được sử dụng để đặt tiêu đề cho biểu đồ. Trong trường hợp này, tiêu đề được đặt là "Biểu đồ trọng lượng trung bình qua các mốc thời gian".

## **Biểu đồ 17**

```{r}
library(dplyr)
library(ggplot2)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
max_weight_by_diet <- ga %>%
  group_by(Diet) %>%
  summarise(max_weight = max(weight))
ggplot(max_weight_by_diet, aes(x = factor(Diet), y = max_weight, fill = factor(Diet))) +
  geom_bar(stat = "identity") +
  labs(x = "Diet", y = "Trọng lượng lớn nhất", fill = "Diet") +
  ggtitle("Trọng lượng lớn nhất ở các loại dinh dưỡng")
```

**Giải thích biểu đồ 17**

Chúng ta sử dụng gói dplyr để tính toán trọng lượng lớn nhất theo mỗi loại dinh dưỡng. Hàm group_by() được sử dụng để nhóm dữ liệu theo loại dinh dưỡng, sau đó hàm summarise() tính toán trọng lượng lớn nhất cho mỗi nhóm.
Sau đó, chúng ta tạo biểu đồ cột sử dụng ggplot2. Trục x là loại dinh dưỡng, trục y là trọng lượng lớn nhất, và màu sắc được sử dụng để phân biệt các loại dinh dưỡng.

## **Biểu đồ 18**

```{r}
library(dplyr)
library(ggplot2)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
chickweight_time_20 <- ga %>%
  filter(Time == 20)
average_weight_by_diet <- chickweight_time_20 %>%
  group_by(Diet) %>%
  summarise(average_weight = mean(weight))
ggplot(average_weight_by_diet, aes(x = factor(Diet), y = average_weight, fill = factor(Diet))) +
  geom_bar(stat = "identity") +
  labs(x = "Diet", y = "Trọng lượng trung bình", fill = "Diet") +
  ggtitle("Trọng lượng trung bình ở thời điểm 20 của các loại dinh dưỡng")
```
**giải thích biểu đồ 18**

Đầu tiên, chúng ta lọc dữ liệu để chỉ giữ lại các quan sát tại thời điểm 20 bằng cách sử dụng hàm filter() của gói dplyr.
Tiếp theo, chúng ta tính trọng lượng trung bình cho mỗi loại dinh dưỡng bằng cách sử dụng hàm summarise() để tính toán giá trị trung bình cho từng nhóm.
Cuối cùng, chúng ta tạo biểu đồ cột sử dụng ggplot2, trong đó trục x là loại dinh dưỡng, trục y là trọng lượng trung bình, và màu sắc được sử dụng để phân biệt các loại dinh dưỡng

trọng lượng trung bình của dinh dưỡng loại 3 trong 20 ngày là tốt nhất

## **Đồ thị 19**

```{r}
library(dplyr)
library(ggplot2)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
chickweight_weight_100 <- ga %>%
  filter(weight == 100)
average_time_by_diet <- chickweight_weight_100 %>%
  group_by(Diet) %>%
  summarise(average_time = mean(Time))

# Tạo biểu đồ đường
ggplot(average_time_by_diet, aes(x = factor(Diet), y = average_time, group = 1)) +
  geom_line() +
  geom_point() +
  labs(x = "Diet", y = "Thời gian trung bình (đạt trọng lượng 100)") +
  ggtitle("Thời gian trung bình để đạt trọng lượng 100 theo loại dinh dưỡng")

```
**Giải thích đồ thị 19**

Chúng ta sử dụng gói dplyr để lọc dữ liệu và tính toán trung bình. Đầu tiên, chúng ta lọc dữ liệu để chỉ giữ lại các quan sát có trọng lượng bằng 100. Sau đó, chúng ta tính trung bình thời gian cho mỗi loại dinh dưỡng bằng cách sử dụng hàm group_by() và summarise().
Tiếp theo, chúng ta tạo biểu đồ đường sử dụng ggplot2. Trục x là loại dinh dưỡng, trục y là thời gian trung bình (để đạt được trọng lượng 100), và chúng ta sử dụng geom_line() và geom_point() để vẽ đường và điểm trên biểu đồ.

## **Biểu đồ 20**

```{r}
library(dplyr)
library(ggplot2)
library(datasets)
data("ChickWeight")
ga <- ChickWeight
chick_counts_by_diet <- ga %>%
  group_by(Diet) %>%
  summarise(Count = n_distinct(Chick))

ggplot(chick_counts_by_diet, aes(x = factor(Diet), y = Count, fill = factor(Diet))) +
  geom_bar(stat = "identity") +
  labs(x = "Diet", y = "Số lượng Chick", fill = "Diet") +
  ggtitle("Số lượng Chick theo Diet") +
  theme_minimal()

```

**Giải thích biểu đồ 20**

Chúng ta sử dụng group_by() và summarise() từ gói dplyr để tính số lượng chick cho mỗi diet.
Sau đó, chúng ta vẽ biểu đồ cột (bar chart) bằng ggplot2, với trục x là loại diet, trục y là số lượng chick, và màu sắc được sử dụng để phân biệt các diet.







