Giới thiệu về bộ dữ liệu diamonds

  • Bộ dữ liệu có 10 cột tương ứng với 10 biến
  • carat: Trọng lượng của viên kim cương (carat)
  • cut: Chất lượng đường cắt (Fair, Good, Very Good, Ideal, Premium) color: Màu sắc của viên kim cương (từ D (tốt nhất) đến J (kém nhất))
  • price: Giá trị của viên kim cương (đơn vị USD)
  • clarity: Độ trong suốt của viên kim cương (từ IF (tốt nhất) đến I1 (kém nhất))
  • depth: Tỷ lệ phần trăm độ sâu (tính theo z / x)
  • table: Chiều rộng của mặt bàn (tính theo % của đường kính)
  • x: Chiều dài của viên kim cương (mm) = y: Chiều rộng của viên kim cương (mm)
  • z: Độ sâu của viên kim cương (mm)
names(tcd)
##  [1] "carat"   "cut"     "color"   "clarity" "depth"   "table"   "price"  
##  [8] "x"       "y"       "z"
  • Bảng dữ liệu của bộ dataset diamonds
tcd
## # A tibble: 53,940 × 10
##    carat cut       color clarity depth table price     x     y     z
##    <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
##  1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
##  2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
##  3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
##  4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
##  5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
##  6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48
##  7  0.24 Very Good I     VVS1     62.3    57   336  3.95  3.98  2.47
##  8  0.26 Very Good H     SI1      61.9    55   337  4.07  4.11  2.53
##  9  0.22 Fair      E     VS2      65.1    61   337  3.87  3.78  2.49
## 10  0.23 Very Good H     VS1      59.4    61   338  4     4.05  2.39
## # ℹ 53,930 more rows

Phân tích bộ dữ liệu với biểu đồ bar chart

1. Biểu đồ thể hiện mặt cắt của các loại kim cương

tcd %>% ggplot(aes(x = cut)) + 
  geom_bar() + 
  labs(X = 'loại', y = 'số lượng')

  • Biểu đồ biểu diễn theo dạng dọc

2. Biểu đồ thể hiện mặt cắt của các loại kim cương

tcd %>% ggplot(aes(x = cut)) +
  geom_bar() +
  labs(x = 'Loại','Số lượng') +
coord_flip()

  • Biểu đồ thể hiện theo dạng ngang

3. Biểu đồ thể hiện số lượng kim cương thuộc các loại khác nhau

tcd %>% group_by(cut) %>% summarise(freq= n()) %>% 
  ggplot(aes(x = cut, y = freq)) +
  geom_col(fill= 'lightblue') +
  geom_text(aes(label =freq), vjust =2, color = 'white') +
  labs(x= 'Loại', y= 'Số lượng')

  • Số lượng kim cương thuộc loại Fair là 1610
  • Số lượng kim cương thuộc loại Good là 4906
  • Số lượng kim cương thuộc loại Very Good là 12082
  • Số lượng kim cương thuộc loại Premium là 13791
  • Số lượng kim cương thuộc loại Ideal là 21551

Nhận xét: Số lượng kim cương thuộc loại Ideal là cao nhất gấp gần 13.4 lần loại Fair, 4.4 lần loại Good, 1,8 lần loại Very Good, 1,5 lần loại Premium

4. Biểu đồ thể hiện tỉ lệ phần trăm về số lượng của các loại kim cương

tcd %>% group_by(cut) %>% summarise(n = n()) %>%
  ggplot(aes(cut,n)) +
    geom_col(fill='pink') +
    geom_text(aes(label = percent(n/length(tcd$carat))),vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Số lượng')

  • Số lượng kim cương loại Fair chiếm 3.0%
  • Số lượng kim cương loại Good chiếm 9.1%
  • Số lượng kim cương loại Very Good chiếm 22.4%
  • Số lượng kim cương loại Premium chiếm 25.6%
  • Số lượng kim cương loại Ideal chiếm 40.0%

Nhận xét: Kim cương loại Ideal chiếm % số lượng cao nhất, kim cương loại Fair chiếm % số lượng thấp nhất

5. Biểu đồ thể hiện số lượng kim cương theo loại color với màu sắc đường viền cắt

tcd %>% group_by(cut,color) %>% summarise(n=n()) %>%
  ggplot(aes(x = cut,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~color) +
    labs(x = 'Loại', y = 'Số lượng')

6. Biểu đồ này thể hiện số lượng kim cương trong mỗi phân loại này (color)

ggplot(diamonds, aes(x = color)) +
  geom_bar()

Nhận xét: Nhìn vào biểu đồ trên ta thấy:

  • Kim cương có màu G chiếm số lượng cao nhất
  • Kim cương có màu J chiếm số lượng thấp nhất
  • Kim cương có các màu D,E,F,H,I chiếm số lượng gần tương tự nhưng vẫn có sự chênh lệch giữa các màu với nhau

7. Biểu đồ thể hiện số lượng kim cương trong mỗi phân loại độ trong suốt (clarity)

ggplot(diamonds, aes(x = clarity)) +
  geom_bar()

Nhận xét: Từ biểu đồ trên ta thấy:

  • Số lượng kim cương phân loại theo độ trong suốt >10000 bao gồm : SI1,VS2
  • Số lượng kim cương phân loại theo độ trong suốt >=5000&<10000 bao gồm : SI2,VS1,WS2
  • Số lượng kim cương phân loại theo độ trong suốt <5000 bao gồm : WS1,IF,I1
  • Số lượng kim cương phân loại theo độ trong suốt SI1 là cao nhất, I1 là thấp nhất

8. Biểu đồ này thể hiện trung bình giá kim cương theo từng loại cắt và màu sắc

tcd %>% ggplot() +
  stat_summary(mapping = aes(x = cut, y = price, fill = color), fun.y = "mean", geom = "bar", position = "dodge") +
  coord_flip() +
  scale_fill_brewer(palette = "Set3") +
  labs(title = "Trung bình giá kim cương theo từng loại cắt và màu sắc",x = "Loại cắt", y = "Giá trung bình")

9. Biểu đồ này thể hiện số lượng các loại kim cương được phân loại theo màu sắc

tcd %>% ggplot(mapping = aes(x = cut, fill = color)) +
  geom_bar() +
  scale_fill_manual(values = sort(unique(diamonds$color)))+
   labs(title = "Biểu đồ số lượng kim cương chia theo màu sắc",x = 'Loại', y = 'Số lượng')

Nhận xét: Từ biểu đồ trên ta thấy ( dựa vào tiêu chí là số lượng và loại ):

  • Kim cương loại Fair có các loại màu tương tự nhau chiếm tỉ lệ về màu sắc khá đồng đều
  • Kim cương loại Good có các loại màu tương tự nhau chiếm tỉ lệ về màu sắc khá đồng đều
  • Kim cương loại Very Good và Premium có số lương màu E,F,G,H cao hơn so với màu D,I,J
  • Kim cương loại Ideal có số lượng màu E,F,G cao hơn nhiều so với các màu còn lại, màu G chiếm đa số

10. Biểu đồ thể hiện giá trị kim cương lớn nhất theo độ trong

ggplot(diamonds, aes(x = clarity, y = price)) +
  geom_bar(stat = "summary", fun = max)

11. Biểu đồ thể hiện giá trị kim cương nhỏ nhất theo màu sắc:

ggplot(diamonds, aes(x = color, y = price)) +
  geom_bar(stat = "summary", fun = min)

12. Biểu đồ thể hiện tổng giá trị kim cương theo loại cắt và màu sắc:

ggplot(diamonds, aes(x = cut, fill = color, y = price)) +
  geom_bar(position = "stack", stat = "summary", fun = "sum")

Nhận xét: Từ biểu đồ trên ta thấy ( dựa vào tiêu chí price và cut ) :

  • Kim cương loại Fair có các loại màu tương tự nhau chiếm tỉ lệ về màu sắc khá đồng đều
  • Kim cương loại Good có các loại màu tương tự nhau chiếm tỉ lệ về màu sắc khá đồng đều
  • Kim cương loại Very Good và Premium có số lương màu E,F,G,H cao hơn so với màu D,I,J
  • Kim cương loại Ideal có số lượng màu E,F,G cao hơn nhiều so với các màu còn lại, màu G chiếm đa số

13. Biểu đồ thể hiện giá trị trung bình kim cương theo loại cắt và độ trong:

ggplot(diamonds, aes(x = cut, fill = clarity, y = price)) +
  geom_bar(position = "stack", stat = "summary", fun = "mean")

14. Biểu đồ thể hiện số lượng kim cương theo kích thước và màu sắc:

ggplot(diamonds, aes(x = carat, fill = color)) +
  geom_bar(binwidth = 0.5)

Nhận xét: Từ iểu đồ trên cho thấy số lượng kim cương theo kích thước và màu sắc, với các cột được nhóm lại theo khoảng kích thước 0.5 và màu sắc tương ứng.

15. Biểu đồ thể hiện số lượng kim cương theo kích thước và loại cắt:

ggplot(diamonds, aes(x = carat, fill = cut)) +
  geom_bar(binwidth = 0.5)

Nhận xét: Từ biểu đồ trên cho thấy số lượng kim cương theo kích thước và loại cắt, với các cột được nhóm lại theo khoảng kích thước 0.5 và loại cắt tương ứng.

16. Biểu đồ thể hiện giá trị trung bình kim cương theo loại cắt và màu sắc:

ggplot(diamonds, aes(x = cut, fill = color, y = price)) +
  stat_summary(fun = "mean", geom = "bar")

Nhận xét: Từ biểu đồ trên cho ta thấy:

  • Màu J chiếm đa số tất cả các loại cắt, bên cạnh đó còn có một vài loại cắt có màu I và H như là: Fair, Good, Very Good

17. Biểu đồ thể hiện giá trị trung bình kim cương theo màu sắc và độ trong:

ggplot(diamonds, aes(x = color, fill = clarity, y = price)) +
  geom_bar(position = "stack", stat = "summary", fun = "mean")

Nhận xét: Từ biểu đồ trên cho thấy giá trị trung bình của kim cương theo từng màu sắc và độ trong, với các cột được xếp chồng lên nhau.

18. Biểu đồ thể hiện trung bình giá trị các loại cắt kim cương với màu sắc

tcd %>% group_by(cut,color) %>% summarise(m = mean(price)) %>% ggplot(aes(x = cut,y = m, fill = color)) + geom_col(position = 'dodge') + labs(x = 'Loại', y = 'Số lượng')

Nhận xét:

19. Biểu đồ thể hiện trung bình giá kim cương theo màu sắc

diamonds %>%
  group_by(color) %>%
  summarise(mean_price = mean(price)) %>%
  ggplot(aes(x = color, y = mean_price)) +
  geom_bar(stat = "identity") +
  xlab("Color") +
  ylab("Price") +
  ggtitle("Giá kim cương theo màu sắc")

20. Biểu đồ thể hiện tỷ lệ kim cương theo độ trong suốt

diamonds %>%
  count(clarity) %>%
  mutate(proportion = n / sum(n)) %>%
  ggplot(aes(x = clarity, y = proportion)) +
  geom_bar(stat = "identity") +
  xlab("Clarity") +
  ylab("Proportion") +
  ggtitle("Tỷ lệ kim cương theo độ trong suốt")

21. Biểu đồ thể hiện phân phối kích thước carat của kim cương

ggplot(diamonds, aes(x = carat)) +
  geom_histogram(binwidth = 0.5) +
  xlab("Carat") +
  ylab("Frequency") +
  ggtitle("Phân phối kích thước carat của kim cương")

22. Biểu đồ thể hiện Tần suất các loại kim cương theo giá trị

tcd %>% ggplot(aes(x = cut, y = price, fill = clarity)) +
  geom_bar(stat = "summary", fun.y = "mean", position = "dodge") +
  facet_wrap(~color)+
  labs(title = "Tần suất các loại kim cương theo giá trị", x = "Loại", y = "Giá trị")

23. Biểu đồ thể hiện trung bình giá kim cương theo kiểu cắt

diamonds %>%
  group_by(cut) %>%
  summarise(mean_price = mean(price)) %>%
  ggplot(aes(x = cut, y = mean_price)) +
  geom_bar(stat = "identity") +
  xlab("Cut") +
  ylab("Price") +
  ggtitle("Trung bình giá kim cương theo kiểu cắt")

24. Biểu đồ thể hiện số lượng kim cương theo màu sắc và độ trong suốt

diamonds %>%
  group_by(color, clarity) %>%
  summarise(count = n()) %>%
  ggplot(aes(x = color, y = count, fill = clarity)) +
  geom_bar(stat = "identity", position = "dodge") +
  xlab("Color") +
  ylab("Count") +
  ggtitle("Số lượng kim cương theo màu sắc và độ trong suốt
") +
  scale_fill_discrete(name = "Clarity")

25. Biểu đồ thể hiện trung bình giá kim cương theo kiểu cắt và độ trong suốt

diamonds %>%
  group_by(cut, clarity) %>%
  summarise(mean_price = mean(price)) %>%
  ggplot(aes(x = cut, y = mean_price, fill = clarity)) +
  geom_bar(stat = "identity", position = "dodge") +
  xlab("Cut") +
  ylab("Price") +
  ggtitle("Trung bình giá kim cương theo kiểu cắt và độ trong suốt") +
  scale_fill_discrete(name = "Clarity")

26. Biểu đồ thể hiện số lượng kim cương theo kiểu cắt và độ trong suốt

diamonds %>%
  group_by(cut, clarity) %>%
  summarise(count = n()) %>%
  ggplot(aes(x = cut, y = count, fill = clarity)) +
  geom_bar(stat = "identity", position = "dodge") +
  xlab("Cut") +
  ylab("Count") +
  ggtitle("Số lượng kim cương theo kiểu cắt và độ trong suốt") +
  scale_fill_discrete(name = "Clarity")

27. Biểu đồ thể hiện trung bình giá kim cương theo màu sắc, kiểu cắt và độ trong suốt

diamonds %>%
  group_by(color, cut, clarity) %>%
  summarise(mean_price = mean(price)) %>%
  ggplot(aes(x = color, y = mean_price, fill = interaction(cut, clarity))) +
  geom_bar(stat = "identity", position = "dodge") +
  xlab("Color") +
  ylab("Average Price") +
  ggtitle("Trung bình giá kim cương theo màu sắc, kiểu cắt và độ trong suốt") +
  scale_fill_discrete(name = "Cut & Clarity")

28. Biểu đồ thể hiện số lượng kim cương theo màu sắc, kiểu cắt và độ trong suốt

diamonds %>%
  group_by(color, cut, clarity) %>%
  summarise(count = n()) %>%
  ggplot(aes(x = color, y = count, fill = interaction(cut, clarity))) +
  geom_bar(stat = "identity", position = "dodge") +
  xlab("Color") +
  ylab("Count") +
  ggtitle("Số lượng kim cương theo màu sắc, kiểu cắt và độ trong suốt") +
  scale_fill_discrete(name = "Cut & Clarity")

29. Biểu đồ thể hiện trung bình giá trị của các loại cắt kim cương với màu sắc và độ trong suốt

tcd %>%group_by(cut, color, clarity) %>%summarise(mean_price = mean(price)) %>% arrange(desc(mean_price)) %>%
  ggplot(aes(x = cut, y = mean_price, fill = color, color = clarity)) +
  geom_bar(stat = "identity", position = "dodge")+
   labs(title = "Trung bình giá trị của các loại cắt kim cương với màu sắc và độ trong suốt", x = "Loại", y = "Trung bình giá trị")

30. Biểu đồ thể hiện Độ sâu trung bình’,title=’Giá trị trung bình của depth theo cut và clarity

tcd %>% group_by(cut, clarity)%>%summarise(m=mean(depth))%>%ggplot(aes(x=cut, y= m))+
  geom_col(position='dodge')+
  facet_wrap(~clarity)+
  geom_text(aes(label= round(m)), vjust=2, color='white')+ 
  labs(x= 'Loại', y= 'Độ sâu trung bình',title='Giá trị trung bình của depth theo cut và clarity ')

