GIỚI THIỆU VỀ BỘ DỮ LIỆU APPLE QUALITY

Apple Quality là bộ dữ liệu chứa các về các thuộc tính khác nhau của một bộ trái cây,cụ thể hơn là táo và cung cấp thông tin chi tiết về đặc điểm của chúng. Bộ dữ liệu bao gồm các chi tiết như ID trái cây, kích thước, trọng lượng, độ ngọt, độ giòn, độ ngon ngọt, độ chín, độ chua và chất lượng.

Bộ dữ liệu được cung cấp rộng rãi bởi một công ty nông nghiệp Mỹ và đã được thu nhỏ và làm sạch để dễ sử dụng.

  • Bộ dữ liệu bao gồm các thuộc tính sau:

  • A_id: Id của trái táo.

  • Size: kích thước của trái táo.

  • Weight: trọng lượng của trái táo.

  • Sweetness: Độ ngọt của trái táo.

  • Crunchiness: độ giòn của trái táo.

  • Juiciness: độ mọng nước của trái táo.

  • Ripeness: độ chín của trái táo.

  • Acidity: độ chua của trái táo.

  • Quality: chất lượng của trái táo.

str(d)
## 'data.frame':    4001 obs. of  9 variables:
##  $ A_id       : int  0 1 2 3 4 5 6 7 8 9 ...
##  $ Size       : num  -3.97 -1.195 -0.292 -0.657 1.364 ...
##  $ Weight     : num  -2.51 -2.84 -1.35 -2.27 -1.3 ...
##  $ Sweetness  : num  5.346 3.664 -1.738 1.325 -0.385 ...
##  $ Crunchiness: num  -1.012 1.5882 -0.3426 -0.0979 -0.553 ...
##  $ Juiciness  : num  1.845 0.853 2.839 3.638 3.031 ...
##  $ Ripeness   : num  0.33 0.868 -0.038 -3.414 -1.304 ...
##  $ Acidity    : chr  "-0.491590483" "-0.722809367" "2.621636473" "0.790723217" ...
##  $ Quality    : chr  "good" "good" "bad" "good" ...

BIỂU ĐỒ

Biến “quality” là một biến phân loại (categorical) trong bộ dữ liệu “Apple Qualty” và được sử dụng để đánh giá mức độ chất lượng của trái táo.

Biến này có 2 mước đánh giá khác nhau được mô tả như sau:

table(d$Quality)
## 
##       bad good 
##    1 1996 2004
  • bad: những trái táo được đánh giá bad thì là những trái kém chất lượng có 1996 trái.

  • good: ngược lại khi trái táo đạt chất lượng đầu ra sẽ được đánh giá là good có 2004 trái.

Biểu đồ cột cho biến “quality”:

d %>% group_by(Quality) %>% summarise(n = n()) %>% 
  ggplot(aes(Quality,n)) + 
  geom_col(fill='dark blue') +
    labs(title = " BIỂU ĐỒ THỂ HIỆN NHÓM THEO QUALITY ") +
    geom_text(aes(label = n),vjust = 2, color = 'white') +
    labs(x = 'Thang đo Quality', y = 'Số lượng')

Nhận xét

Có thể thấy rằng số lương táo kém chất lượng (bad) và chất lượng(good) đồng đều nhau lần lượt là 1996 trái và 2004 trái.

Biểu đồ cột theo phân trăm của biến quality

library(dplyr)
library(scales)
library(tidyverse)
d %>% group_by(Quality) %>% summarise(n = n()) %>%
  ggplot(aes(Quality,n)) +
    geom_col(fill='dark blue') +
    geom_text(aes(label = percent(n/length(d$Quality))),vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Số lượng')

Nhận xét

Tương tự như biểu đồ ở trên không có sự chênh lệch quá mực mà khá đồng đều của trái táo theo 2 cách đánh giá khác nhau.

Biểu đồ Histogram cho biến Crunchiness

d %>% ggplot(aes(x = Crunchiness)) +
  geom_histogram(binwidth = 0.1, fill = 'Pink', color = 'red')


Nhận xét
Trong phân khúc trên độ giòn của táo từ 0.4 đến 1.5 là đạt đỉnh vì chiếm số lượng táo có độ giòn đó hơn 100 trái cho từ độ giòn được nêu trước đó.

Biểu đồ Histogram tương quan giữa Juiciness và Quality

d %>% ggplot(aes(x = Juiciness, fill = Quality)) +
  geom_histogram(binwidth = 0.5)


Nhận xét
Nơn 400 trái .
Trong khi ngược lại số lượng táo chất lượng có độ mọng nước từ 1.6 đến 2 thì đạt đỉnh hơn 200 trái.

Biểu đồ Histogram tương quan giữa Sweetness và Quality

d %>% ggplot(aes(x = Sweetness)) +
  geom_histogram(binwidth = 0.5, fill = 'pink', color = 'red') +
  facet_wrap(~Quality)


Nhận xét
Ta có 2 biểu đồ chia làm hai : táo kém chất lượng và táo chất lượng.
Táo kém chất lượng nhưng có độ ngọt từ 1 đến 1.5 thì chiếm rất nhiều hơn 260 trái trong khi táo chất lượng có độ ngọt từ 0.6 đến 1 chiếm đa số gần 250 trái.

Biểu đồ density của biến Weight

d %>% ggplot(aes(x = Weight)) +
  geom_density(fill = 'dark blue')


Nhận xét
Trong phân khúc mật độ từ 0.2 đến 0.27 có sự biến động khá lớn khi ta thấy được đỉnh nhon của biến Weight.

Biểu đồ density của biến Size

d %>% ggplot(aes(x = Size, fill = Quality)) +
  geom_density()

Biểu đồ density của biến Juiciness

d %>% ggplot(aes(x = Juiciness)) +
  geom_density(fill = 'dark blue') +
  facet_wrap(~Quality)

Biểu đồ cột của biến QUality

d %>% group_by(Quality) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = Quality)) +
    geom_col() +
    geom_text(aes(label = n),position = position_stack(vjust = 1))


Nhận xét
Biểu đồ cho thấy sô lượng của táo good và táo bad dưới dạng trồng lên nhau.

Biểu đồ tròn biến Quality

d %>% group_by(Quality) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = Quality)) +
    geom_col() +
    coord_polar('y')


Nhận xét
BIểu đồ tròn của biến QUality cho thấy sô lượng xêm xêm nhau của hai loại táo good và bad.

Biểu đồ phân tán của biến Weight và Juiciness

d %>% ggplot(aes(x = Weight, y = Juiciness)) +
  geom_point(color = 'red') +
  geom_smooth(method = 'lm', color = 'dark blue')


Nhận xét
Các điểm trên biểu đồ màu đỏ và biểu thị các cặp giá trị (Weight, Juiciness) trong tập dữ liệu và có thể thấy rằng các cặp giá trị từ -2 đến 2 tập trung nhiều điểm đỏ cũng là chiếm nhiều số lượng táo.
đường thẳng màu xanh cho thấy xu hướng chung của nó trong trường hợp này là giảm ta có thể lí giải rằng trọng lượng táo càng lớn thì độ mọng nước càng giảm.

Biểu đồ phân tán của giữa biến Crunchiness , Sweetness và Quality

d %>% ggplot(aes(x = Crunchiness, y = Sweetness, alpha = Quality)) +
  geom_point()


Nhận xét
Biểu đồ này có hai đối tuongj của Quality và được quy định theo màu sắc khác nhau . Tương tự như ở trên có thể thấy rằng các cặp giá trị từ -2 đến 2 tập trung nhiều điểm đỏ cũng là chiếm nhiều số lượng táo bất kể loại nào.

Biểu đồ phân tán của biến Weight và Quality

d %>% ggplot(aes(x = Ripeness, y = Weight)) +
  geom_point(color = 'dark blue') +
  geom_smooth(method = 'lm', color = 'pink') +
  facet_wrap(~Quality)


Nhận xét
Như biểu đồ 12 lúc này được chia thành hai biểu đồ nhỏ tượng trưng cho 2 loại táo bad và good . Nhìn chung chúng có cùng xu hướng giảm chức tỏ trọng lượng càng ít đi thì trái đó chín mùi hơn.

Biểu đồ tròn của biến Quality

d %>% group_by(Quality) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = Quality)) +
    geom_col(color = 'black') +
    coord_polar('y') +
    geom_text(aes(x = 1.0, label = n),position = position_stack(vjust = .5)) +
    theme_void()


Nhận xét
Biểu đò này cho thấy rõ hơn sô lượng mà cả hai loại táo bad và good sở hữu lần lượt là 1996 trái và 2004 trái trên mặt phẳng tròn và màu sắc được quy định.

Biểu đồ Histogram củ biến Weight và Quality

d %>% ggplot(aes(x = Ripeness)) +
  geom_histogram(data = d %>% filter(Quality == 'bad'), binwidth = 1, fill = 'darkblue') +
  geom_histogram(data = d %>% filter(Quality == 'good'), binwidth = 1, fill = 'brown')


Nhận xét
Nhìn trên biểu đò ta có thể thấy được rằng sô táo chất lượng có độ chín từ 0.1 đến 1 chiếm nhiều nhất là hơn 400 trái .
Trong khi ngược lại số lượng táo kém chất lượng đã bị che bởi số táo chất lượng có thể tháy trên biểu đồ nên ta không thể kết luận chính xác được.

Biểu đồ nhóm thể hiện theo Weight

dweight <- d %>% mutate(Weight = cut(Weight,5, label = c('too light', 'light','Fine','Heavy','Extreme Heavy')))


ta chia trọng lượng thành 5 nhóm : too light , light, Fine, Heavy và Extreme Heavy.

dweight %>% group_by(Weight) %>% summarise(n = n()) %>%
  ggplot(aes(Weight,n)) +
    geom_col(fill='dark blue') +
    labs(title = " Biểu đồ thể hiện nhóm theo Weight ") +
    geom_text(aes(label = n),vjust = 0, color = 'brown') +
    labs(x = 'Trọng Lượng', y = 'Số lượng')


Nhận xét Ta nhận được kết quả như trên cụ thể hơn là số lượng táo mà các nhóm sở hữu. Nhiều nhất là Fine 2369 trái và ít nhất là Extreme Heavy 27 trái.

Biểu đồ tròn biến Weight

dweight <- d %>% mutate(Weight = cut(Weight,5, label = c('too light', 'light','Fine','Heavy','Extreme Heavy')))

dweight %>% group_by(Weight) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = Weight)) +
    geom_col(color = 'black') +
    coord_polar('y') +
    geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
    theme_void()


Nhận xét
Thay vì biểu đồ cột như biểu đồ 16 thì các đối tượng của biến Weight được biểu diễn trên biểu đồ tròn với giá trị tương ứng.

---
title: "Nhiệm Vụ 5"
author: "VoHieu"
date: "`r format(Sys.time(), '%H:%M:%S, %d - %m - %Y')`"
output: 
 html_document: 
   code_download: true
   code_folding: hide
   toc_float: true
   toc: true
---
```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE)
d <- read.csv("C:/Users/HP/Documents/apple_quality.csv" , header = T )
library(tidyverse)
library(skimr)
skim(d)
```

## GIỚI THIỆU VỀ BỘ DỮ LIỆU APPLE QUALITY

Apple Quality là bộ dữ liệu chứa các về các thuộc tính khác nhau của một bộ trái cây,cụ thể hơn là táo và cung cấp thông tin chi tiết về đặc điểm của chúng. Bộ dữ liệu bao gồm các chi tiết như ID trái cây, kích thước, trọng lượng, độ ngọt, độ giòn, độ ngon ngọt, độ chín, độ chua và chất lượng.

Bộ dữ liệu được cung cấp rộng rãi bởi một công ty nông nghiệp Mỹ và đã được thu nhỏ và làm sạch để dễ sử dụng.

* Bộ dữ liệu bao gồm các thuộc tính sau:

- A_id: Id của trái táo.
- Size: kích thước của trái táo.
- Weight: trọng lượng của trái táo.
- Sweetness: Độ ngọt của trái táo.
- Crunchiness: độ giòn của trái táo.
- Juiciness: độ mọng nước của trái táo.
- Ripeness: độ chín của trái táo.
- Acidity: độ chua của trái táo.
- Quality: chất lượng của trái táo.

```{r}
str(d)
```

## BIỂU ĐỒ

Biến “quality” là một biến phân loại (categorical) trong bộ dữ liệu “Apple Qualty” và được sử dụng để đánh giá mức độ chất lượng của trái táo.

Biến này có 2 mước đánh giá khác nhau được mô tả như sau:
```{r}
table(d$Quality)
```

* bad: những trái táo được đánh giá bad thì là những trái kém chất lượng có 1996 trái.

* good: ngược lại khi trái táo đạt chất lượng đầu ra sẽ được đánh giá là good có 2004 trái.

## Biểu đồ cột cho biến "quality":
```{r}
d %>% group_by(Quality) %>% summarise(n = n()) %>% 
  ggplot(aes(Quality,n)) + 
  geom_col(fill='dark blue') +
    labs(title = " BIỂU ĐỒ THỂ HIỆN NHÓM THEO QUALITY ") +
    geom_text(aes(label = n),vjust = 2, color = 'white') +
    labs(x = 'Thang đo Quality', y = 'Số lượng')
```

***Nhận xét***

Có thể thấy rằng số lương táo kém chất lượng (bad) và chất lượng(good) đồng đều nhau lần lượt là 1996 trái và 2004 trái.

## **Biểu đồ cột theo phân trăm của biến quality**
```{r}

library(dplyr)
library(scales)
library(tidyverse)
d %>% group_by(Quality) %>% summarise(n = n()) %>%
  ggplot(aes(Quality,n)) +
    geom_col(fill='dark blue') +
    geom_text(aes(label = percent(n/length(d$Quality))),vjust = 2, color = 'white') +
    labs(x = 'Loại', y = 'Số lượng')
```

***Nhận xét***

Tương tự như biểu đồ ở trên không có sự chênh lệch quá mực mà khá đồng đều của trái táo theo 2 cách đánh giá khác nhau. 

## Biểu đồ Histogram cho biến Crunchiness
```{r}

d %>% ggplot(aes(x = Crunchiness)) +
  geom_histogram(binwidth = 0.1, fill = 'Pink', color = 'red')
```
<br>
***Nhận xét***
<br>
Trong phân khúc trên độ giòn của táo từ 0.4 đến 1.5 là đạt đỉnh vì chiếm số lượng táo có độ giòn đó hơn 100 trái cho từ độ giòn được nêu trước đó.

## **Biểu đồ Histogram tương quan giữa Juiciness và Quality**
```{r}

d %>% ggplot(aes(x = Juiciness, fill = Quality)) +
  geom_histogram(binwidth = 0.5)
```
<br>
***Nhận xét***
<br>
Nơn 400 trái .
<br>
Trong khi ngược lại số lượng táo chất lượng có độ mọng nước từ 1.6 đến 2 thì đạt đỉnh hơn 200 trái.

## **Biểu đồ Histogram tương quan giữa Sweetness và Quality**
```{r}

d %>% ggplot(aes(x = Sweetness)) +
  geom_histogram(binwidth = 0.5, fill = 'pink', color = 'red') +
  facet_wrap(~Quality)
```
<br>
***Nhận xét***
<br>
Ta có 2 biểu đồ chia làm hai : táo kém chất lượng và táo chất lượng.
<br>
Táo kém chất lượng nhưng có độ ngọt từ 1 đến 1.5 thì chiếm rất nhiều hơn 260 trái trong khi táo chất lượng có độ ngọt từ 0.6 đến 1 chiếm đa số gần 250 trái.

## **Biểu đồ density của biến Weight**
```{r}

d %>% ggplot(aes(x = Weight)) +
  geom_density(fill = 'dark blue')
```
<br>
***Nhận xét***
<br>
Trong phân khúc mật độ từ 0.2 đến 0.27 có sự biến động khá lớn khi ta thấy được đỉnh nhon của biến Weight.

## **Biểu đồ density của biến Size**
```{r}

d %>% ggplot(aes(x = Size, fill = Quality)) +
  geom_density()
```

## **Biểu đồ density của biến Juiciness**
```{r}

d %>% ggplot(aes(x = Juiciness)) +
  geom_density(fill = 'dark blue') +
  facet_wrap(~Quality)
```

## **Biểu đồ cột của biến QUality**
```{r}

d %>% group_by(Quality) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = Quality)) +
    geom_col() +
    geom_text(aes(label = n),position = position_stack(vjust = 1))
```
<br>
***Nhận xét***
<br>
Biểu đồ cho thấy sô lượng của táo good và táo bad dưới dạng trồng lên nhau.

## **Biểu đồ tròn biến Quality**
```{r}

d %>% group_by(Quality) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = Quality)) +
    geom_col() +
    coord_polar('y')
```
<br>
***Nhận xét***
<br>
BIểu đồ tròn của biến QUality cho thấy sô lượng xêm xêm nhau của hai loại táo good và bad.

## **Biểu đồ phân tán của biến Weight và Juiciness**
```{r}


d %>% ggplot(aes(x = Weight, y = Juiciness)) +
  geom_point(color = 'red') +
  geom_smooth(method = 'lm', color = 'dark blue')
```
<br>
***Nhận xét***
<br>
Các điểm trên biểu đồ màu đỏ và biểu thị các cặp giá trị (Weight, Juiciness) trong tập dữ liệu và có thể thấy rằng các cặp giá trị từ -2 đến 2 tập trung nhiều điểm đỏ cũng là chiếm nhiều số lượng táo.
<br>
đường thẳng màu xanh cho thấy xu hướng chung của nó trong trường hợp này là giảm ta có thể lí giải rằng trọng lượng táo càng lớn thì độ mọng nước càng giảm.

## **Biểu đồ phân tán của giữa biến Crunchiness , Sweetness và Quality**
```{r}

d %>% ggplot(aes(x = Crunchiness, y = Sweetness, alpha = Quality)) +
  geom_point()
```
<br>
***Nhận xét***
<br>
Biểu đồ này có hai đối tuongj của Quality và được quy định theo màu sắc khác nhau . Tương tự như ở trên có thể thấy rằng các cặp giá trị từ -2 đến 2 tập trung nhiều điểm đỏ cũng là chiếm nhiều số lượng táo bất kể loại nào.

## **Biểu đồ phân tán của biến Weight và Quality**
```{r}

d %>% ggplot(aes(x = Ripeness, y = Weight)) +
  geom_point(color = 'dark blue') +
  geom_smooth(method = 'lm', color = 'pink') +
  facet_wrap(~Quality)
```
<br>
***Nhận xét***
<br>
Như biểu đồ 12 lúc này được chia thành hai biểu đồ nhỏ tượng trưng cho 2 loại táo bad và good . Nhìn chung chúng có cùng xu hướng giảm chức tỏ trọng lượng càng ít đi thì trái đó chín mùi hơn.

## **Biểu đồ tròn của biến Quality**
```{r}

d %>% group_by(Quality) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = Quality)) +
    geom_col(color = 'black') +
    coord_polar('y') +
    geom_text(aes(x = 1.0, label = n),position = position_stack(vjust = .5)) +
    theme_void()
```
<br>
***Nhận xét***
<br>
Biểu đò này cho thấy rõ hơn sô lượng mà cả hai loại táo bad và good sở hữu lần lượt là 1996 trái và 2004 trái trên mặt phẳng tròn và màu sắc được quy định.

## **Biểu đồ Histogram củ biến Weight và Quality**
```{r}
d %>% ggplot(aes(x = Ripeness)) +
  geom_histogram(data = d %>% filter(Quality == 'bad'), binwidth = 1, fill = 'darkblue') +
  geom_histogram(data = d %>% filter(Quality == 'good'), binwidth = 1, fill = 'brown')
```
<br>
***Nhận xét***
<br>
Nhìn trên biểu đò ta có thể thấy được rằng sô táo  chất lượng có độ chín từ 0.1 đến 1 chiếm nhiều nhất là hơn 400 trái .
<br>
Trong khi ngược lại số lượng táo kém chất lượng đã bị che bởi số táo chất lượng có thể tháy trên biểu đồ nên ta không thể kết luận chính xác được.

## **Biểu đồ nhóm thể hiện theo Weight**
```{r}

dweight <- d %>% mutate(Weight = cut(Weight,5, label = c('too light', 'light','Fine','Heavy','Extreme Heavy')))

```
<br>
ta chia trọng lượng thành 5 nhóm : too light , light, Fine, Heavy và Extreme Heavy.
<br>
```{r}
dweight %>% group_by(Weight) %>% summarise(n = n()) %>%
  ggplot(aes(Weight,n)) +
    geom_col(fill='dark blue') +
    labs(title = " Biểu đồ thể hiện nhóm theo Weight ") +
    geom_text(aes(label = n),vjust = 0, color = 'brown') +
    labs(x = 'Trọng Lượng', y = 'Số lượng')
```
<br>
***Nhận xét***
Ta nhận được kết quả như trên cụ thể hơn là số lượng táo mà các nhóm sở hữu. Nhiều nhất là Fine 2369 trái và ít nhất là Extreme Heavy 27 trái.


## **Biểu đồ tròn biến Weight**
```{r}
dweight <- d %>% mutate(Weight = cut(Weight,5, label = c('too light', 'light','Fine','Heavy','Extreme Heavy')))

dweight %>% group_by(Weight) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = Weight)) +
    geom_col(color = 'black') +
    coord_polar('y') +
    geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
    theme_void()
```
<br>
***Nhận xét***
<br>
Thay vì biểu đồ cột như biểu đồ 16 thì các đối tượng của biến Weight được biểu diễn trên biểu đồ tròn với giá trị tương ứng.





