GIỚI THIỆU
Bộ dữ liệu gồm 1199 quan sát và 12 biến, số liệu sau đây nói về tình
trạng ô tô đã qua sử dụng
- Year : Năm sản xuất của ô tô
- Make: Hãng sản xuất ô tô
- Model: Kiểu máy của ô tô
- Trim: Phiên bản của ô tô
- Body: Kiểu dáng xe (sedan, SUV, v.v.)
- Condition: Tình trạng của ô tô (mới, đã qua sử dụng, v.v.)
- Odometer: Số km đã đi của ô tô
- Color: Màu sắc của ô tô
- Interior: Màu sắc nội thất của ô tô
- Seller: Người bán ô tô
- Sellingprice: Giá bán của ô tô
library(readxl)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
p <- read_excel("C:/Users/Dell/Desktop/dữ liệu.xlsx")
library(tidyverse)
## Warning: package 'ggplot2' was built under R version 4.3.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats 1.0.0 ✔ readr 2.1.5
## ✔ ggplot2 3.5.0 ✔ stringr 1.5.1
## ✔ lubridate 1.9.3 ✔ tibble 3.2.1
## ✔ purrr 1.0.2 ✔ tidyr 1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(ggplot2)
library(scales)
##
## Attaching package: 'scales'
##
## The following object is masked from 'package:purrr':
##
## discard
##
## The following object is masked from 'package:readr':
##
## col_factor
library(gganimate)
## Warning: package 'gganimate' was built under R version 4.3.3
library(magick)
## Warning: package 'magick' was built under R version 4.3.3
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
library(DT)
## Warning: package 'DT' was built under R version 4.3.3
library(readr)
p <- read_csv("C:/Users/Dell/Desktop/dữ liệu.csv")
## Rows: 1199 Columns: 12
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (7): make, model, trim, body, color, interior, seller
## dbl (5): year, condition, odometer, mmr, sellingprice
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
datatable(p)
II.Đồ thị dạng Histogram
1.Hình 2.1
p %>% ggplot(aes(x = sellingprice)) +
geom_histogram(binwidth = 5000, fill = 'blue', color = 'red')

Hình 2.1 cho ta thấy giá bán của các loại ô tô
- cột cao nhất có giá bán khoảng 13000 với hơn 200 xe được bán
- Cột thấp nhất có giá 150000
- Cho thấy các loại xe đắt tiền ít được bán chạy hơn các loại xe khác
có giá tầm trung
2.Hình 2.2
p %>% ggplot(aes(x = sellingprice, fill = color)) +
geom_histogram(binwidth = 5000)

Hình 2.2 cho ta thấy giá bán của ô tô theo màu
- Màu black chiếm số lượng nhiều nhất ### 3.Hình
2.3
p %>% ggplot(aes(x = sellingprice)) +
geom_histogram(binwidth = 5000, fill = 'blue', color = 'red') +
facet_wrap(~color)

Hình 2.3 phân tích biểu đồ cột theo giá của từng màu
- Màu black và white chiếm số lượng nhiều nhất với giá bán dưới
50000
4.Hình 2.4
p %>% ggplot(aes(x = sellingprice)) +
geom_histogram(data = p %>% filter(color == 'black'), binwidth = 5000, fill = 'salmon') +
geom_histogram(data = p %>% filter(color == 'white'), binwidth = 5000, fill = 'yellow')

Hình 2.4 cho ta thấy các xe màu white chiếm số lượng mua nhiều hơn
các xe màu black với giá cao nhất khoảng 10000
- Số lượng ít nhất là xe màu black với giá hơn 75000
III. Đồ thị dạng Density
1. Hình 3.1
p %>% ggplot(aes(x =sellingprice)) +
geom_density(fill = 'red')

2. Hình 3.2
p %>% ggplot(aes(x = condition, fill = make )) +
geom_density()
## Warning: Removed 41 rows containing non-finite outside the scale range
## (`stat_density()`).
## Warning: Groups with fewer than two data points have been dropped.
## Groups with fewer than two data points have been dropped.
## Groups with fewer than two data points have been dropped.
## Warning in max(ids, na.rm = TRUE): no non-missing arguments to max; returning
## -Inf
## Warning in max(ids, na.rm = TRUE): no non-missing arguments to max; returning
## -Inf
## Warning in max(ids, na.rm = TRUE): no non-missing arguments to max; returning
## -Inf

Hình 3.2 cho thấy tình trạng của ô tô đã qua sử dụng, trong đó Honda
chiếm số lượng nhiều nhất, qua đó ta biết được
- Honda có tuổi đời khoảng 35 năm dài hơn các loại xe khác
- Thấp nhất là Volvo khoảng 5 năm
3. Hình 3.3
p %>% ggplot(aes(x = sellingprice)) +
geom_density(fill = 'green') +
facet_wrap(~color)
## Warning: Groups with fewer than two data points have been dropped.
## Groups with fewer than two data points have been dropped.
## Warning in max(ids, na.rm = TRUE): no non-missing arguments to max; returning
## -Inf
## Warning in max(ids, na.rm = TRUE): no non-missing arguments to max; returning
## -Inf

Hình 3.3 cho thấy giá bán của xe theo các màu
- Màu purple cao nhất
- Màu thấp nhất là gold
- Hầu như k có là màu yellow
IV. Đồ thị dạng Pie Chart
1. Hình 4.1
p <- p %>% filter(make == 'Audi' )
p %>% group_by(interior) %>% summarise(n = n()) %>%
ggplot(aes(x = '', y = n,fill = interior)) +
geom_col() +
geom_text(aes(label = n),position = position_stack(vjust = 0.75))

Hình 4.1 cho thấy xe hãng Audi có màu black chiếm sồ lương nhiều nhất
chiếm 21
- Còn lại là các màu beige, brown, gray có ít chỉ chiếm 1
2. Hình 4.2
p %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(x = '', y = n,fill = color)) +
geom_col() +
coord_polar('y')

Hình 4.2 cho ta thấy biểu đồ tròn thể hiện số lượng theo từng màu
- Chiếm phần lớn là màu black
3. Hình 4.3
p %>% group_by(color) %>% summarise(n = n()) %>%
ggplot(aes(x = '', y = n,fill = color )) +
geom_col(color = 'white') +
coord_polar('y') +
geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = 0.5)) +
theme_void()

- Cũng giống như hình 4.2 thì hình 4.3 thể hiện số liệu cụ thể
hơn
- Nhiều nhất là màu white và black
- Qua đó cho thấy đa số người mua sẽ chuộng màu white và black
hơn
V. Đồ thị dạng Scatter
1. Hình 5.1
p %>% ggplot(aes(x = year, y = interior)) +
geom_point() +
xlab('Năm') +
ylab('Màu sắc nội thất')

Hình 5.1 thể hiện màu sắc nội thất qua các năm
2. Hình 5.2
p %>% ggplot(aes(x = year, y = interior, color = make)) +
geom_point()

Hình 5.2 thể hiện màu nội thất của các hãng xe qua từng
năm
Màu gray, brown, black chiếm số lượng nhiều ở các hãng
xe
3. Hình 5.3
p %>% ggplot(aes(x = year , y = make , shape = color)) +
geom_point()

Hình 5.3 thể hiện các màu như white, silver, red, gray, brown, blue,
black, beige của các loại xe qua từng năm từ 2012-2015 bằng kí hiệu
4. Hình 5.4
p %>% ggplot(aes(x = year, y = color, size = sellingprice)) +
geom_point()

- Hình 5.4 cho ta thấy giá của các xe theo màu sắc qua từng năm
- Chấm càng lớn thì giá càng cao
- Và ngược lại chấm càng nhỏ thì giá càng thấp
- Năm 2012 giá cao nhất là màu gray
- Các năm còn lại giá tương đối ổn định
5. Hình 5.5
p %>% ggplot(aes(x = year, y = interior, alpha = sellingprice)) +
geom_point()

- Hình 5.5 cho ta biết được giá bán xe tưng năm theo màu bằng độ đậm
nhạt
- Chấm càng đậm thì giá càng cao
- Chấm càng nhạt thì giá càng thấp
6. Hình 5.6
p %>% ggplot(aes(x = year, y = condition)) +
geom_point(color = 'red') +
geom_smooth(method = 'lm', color = 'green')
## `geom_smooth()` using formula = 'y ~ x'

7. Hình 5.7
p %>% ggplot(aes(x = year, y = condition)) +
geom_point(color = 'red') +
geom_smooth(method = 'lm', color = 'green') +
facet_wrap(~color)
## `geom_smooth()` using formula = 'y ~ x'

---
title: "Nhiệm vụ 5"
author: "Lê Thị Thanh Phú"
date: "`r format(Sys.time(), '%H:%M:%S, %d - %m - %Y')`"
output:
    html_document: 
       code_download: true
       code_folding: hide
       toc_float: true
       toc: true
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

## **GIỚI THIỆU**

Bộ dữ liệu gồm 1199 quan sát và 12 biến, số liệu sau đây nói về tình trạng ô tô đã qua sử dụng

- Year : Năm sản xuất của ô tô
- Make: Hãng sản xuất ô tô
- Model: Kiểu máy của ô tô
- Trim: Phiên bản của ô tô
- Body: Kiểu dáng xe (sedan, SUV, v.v.)
- Condition: Tình trạng của ô tô (mới, đã qua sử dụng, v.v.)
- Odometer: Số km đã đi của ô tô
- Color: Màu sắc của ô tô
- Interior: Màu sắc nội thất của ô tô
- Seller: Người bán ô tô
- Sellingprice: Giá bán của ô tô

```{r}
library(readxl)
library(dplyr)
p <- read_excel("C:/Users/Dell/Desktop/dữ liệu.xlsx")
library(tidyverse)
library(ggplot2)
library(scales)
library(gganimate)
library(magick)
```

```{r}
library(DT)
library(readr)
p <- read_csv("C:/Users/Dell/Desktop/dữ liệu.csv") 
datatable(p)
```

## **I.Đồ thị dạng Bar Chart**
### **1.Hình 1.1**
```{r}
p %>% group_by(year) %>% summarise(n = n()) %>%
  ggplot(aes(year,n)) +
    geom_col(fill='green') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Năm', y = 'Số lượng')
```


Hình 1.1 cho ta thấy số lượng sản xuất ô tô qua các năm từ 2012-2015

+ Năm 2012 chiếm 457 số lượng
+ Năm 2013 chiếm 620 số lượng (nhiều nhất)
+ Năm 2014 chiếm 66 số lượng
+ Năm 2015 chiếm 56 số lượng (ít nhất)

### **2. Hình 1.2**
```{r}
p %>% ggplot(aes(x = interior)) +
    geom_bar() +
    labs(x = 'Màu nội thất', y = 'Số lượng') +
    coord_flip()
```

Hình 1.2 cho ta thấy màu black chiếm số lượng nhiều nhất gần 700 trên tổng số lượng

- Màu blue, burgundy, red, white chiếm số lượng ít

## **II.Đồ thị dạng Histogram**
### **1.Hình 2.1**
```{r}
p %>% ggplot(aes(x = sellingprice)) +
  geom_histogram(binwidth = 5000, fill = 'blue', color = 'red')
```

Hình 2.1 cho ta thấy giá bán của các loại ô tô

+ cột cao nhất có giá bán khoảng 13000 với hơn 200 xe được bán
+ Cột thấp nhất có giá 150000
+ Cho thấy các loại xe đắt tiền ít được bán chạy hơn các loại xe khác có giá tầm trung

### **2.Hình 2.2**
```{r}
p %>% ggplot(aes(x = sellingprice, fill = color)) +
  geom_histogram(binwidth = 5000)
```

Hình 2.2 cho ta thấy giá bán của ô tô theo màu

- Màu black chiếm số lượng nhiều nhất
### **3.Hình 2.3**
```{r}
p %>% ggplot(aes(x = sellingprice)) +
  geom_histogram(binwidth = 5000, fill = 'blue', color = 'red') +
  facet_wrap(~color)
```

Hình 2.3 phân tích biểu đồ cột theo giá của từng màu

- Màu black và white chiếm số lượng nhiều nhất với giá bán dưới 50000

### **4.Hình 2.4**
```{r}
p %>% ggplot(aes(x = sellingprice)) +
  geom_histogram(data = p %>% filter(color == 'black'), binwidth = 5000, fill = 'salmon') +
  geom_histogram(data = p %>% filter(color == 'white'), binwidth = 5000, fill = 'yellow')
```

Hình 2.4 cho ta thấy các xe màu white chiếm số lượng mua nhiều hơn các xe màu black với giá cao nhất khoảng 10000

- Số lượng ít nhất là xe màu black với giá hơn 75000

## **III. Đồ thị dạng Density**
### **1. Hình 3.1**
```{r}
p %>% ggplot(aes(x =sellingprice)) +
  geom_density(fill = 'red')
```



### **2. Hình 3.2**
```{r}
p %>% ggplot(aes(x = condition, fill = make )) +
  geom_density()
```

Hình 3.2 cho thấy tình trạng của ô tô đã qua sử dụng, trong đó Honda chiếm số lượng nhiều nhất, qua đó ta biết được

- Honda có tuổi đời khoảng 35 năm dài hơn các loại xe khác
- Thấp nhất là Volvo khoảng 5 năm

### **3. Hình 3.3**
```{r}
p %>% ggplot(aes(x = sellingprice)) +
  geom_density(fill = 'green') +
  facet_wrap(~color)
```

Hình 3.3 cho thấy giá bán của xe theo các màu 

- Màu purple cao nhất
- Màu thấp nhất là gold
- Hầu như k có là màu yellow

## **IV. Đồ thị dạng Pie Chart**
### **1. Hình 4.1**
```{r}
p <- p %>% filter(make == 'Audi' )
p %>% group_by(interior) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = interior)) +
    geom_col() +
    geom_text(aes(label = n),position = position_stack(vjust = 0.75))
```

Hình 4.1 cho thấy xe hãng Audi có màu black chiếm sồ lương nhiều nhất chiếm 21

- Còn lại là các màu beige, brown, gray có ít chỉ chiếm 1
     
### **2. Hình 4.2**
```{r}
p %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = color)) +
    geom_col() +
    coord_polar('y')
```

Hình 4.2 cho ta thấy biểu đồ tròn thể hiện số lượng theo từng màu

- Chiếm phần lớn là màu black

### **3. Hình 4.3**
```{r}
p %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = color )) +
    geom_col(color = 'white') +
    coord_polar('y') +
    geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = 0.5)) +
    theme_void()
```

- Cũng giống như hình 4.2 thì hình 4.3 thể hiện số liệu cụ thể hơn
- Nhiều nhất là màu white và black
- Qua đó cho thấy đa số người mua sẽ chuộng màu white và black hơn

## **V. Đồ thị dạng Scatter**
### **1. Hình 5.1**
```{r}
p %>% ggplot(aes(x = year, y = interior)) +
  geom_point() +
  xlab('Năm') + 
  ylab('Màu sắc nội thất')
```

Hình 5.1 thể hiện màu sắc nội thất qua các năm

### **2. Hình 5.2**
```{r}
p %>% ggplot(aes(x = year, y = interior, color = make)) +
  geom_point()
```

- Hình 5.2 thể hiện màu nội thất của các hãng xe qua từng năm 

- Màu gray, brown, black chiếm số lượng nhiều ở các hãng xe

### **3. Hình 5.3**
```{r}
p %>% ggplot(aes(x = year , y = make , shape = color)) +
  geom_point()
```

Hình 5.3 thể hiện các màu như white, silver, red, gray, brown, blue, black, beige của các loại xe qua từng năm từ 2012-2015 bằng kí hiệu

### **4. Hình 5.4**
```{r}
p %>% ggplot(aes(x = year, y = color, size = sellingprice)) +
  geom_point()
```

- Hình 5.4 cho ta thấy giá của các xe theo màu sắc qua từng năm 
- Chấm càng lớn thì giá càng cao
- Và ngược lại chấm càng nhỏ thì giá càng thấp
- Năm 2012 giá cao nhất là màu gray
- Các năm còn lại giá tương đối ổn định

### **5. Hình 5.5**
```{r}
p %>% ggplot(aes(x = year, y = interior, alpha = sellingprice)) +
  geom_point()
```

- Hình 5.5 cho ta biết được giá bán xe tưng năm theo màu bằng độ đậm nhạt
- Chấm càng đậm thì giá càng cao 
- Chấm càng nhạt thì giá càng thấp

### **6. Hình 5.6**
```{r}
p %>% ggplot(aes(x = year, y = condition)) +
  geom_point(color = 'red') +
  geom_smooth(method = 'lm', color = 'green')
```


### **7. Hình 5.7**
```{r}
p %>% ggplot(aes(x = year, y = condition)) +
  geom_point(color = 'red') +
  geom_smooth(method = 'lm', color = 'green') +
  facet_wrap(~color)
```









