GIỚI THIỆU

Bộ dữ liệu gồm 1199 quan sát và 12 biến, số liệu sau đây nói về tình trạng ô tô đã qua sử dụng

  • Year : Năm sản xuất của ô tô
  • Make: Hãng sản xuất ô tô
  • Model: Kiểu máy của ô tô
  • Trim: Phiên bản của ô tô
  • Body: Kiểu dáng xe (sedan, SUV, v.v.)
  • Condition: Tình trạng của ô tô (mới, đã qua sử dụng, v.v.)
  • Odometer: Số km đã đi của ô tô
  • Color: Màu sắc của ô tô
  • Interior: Màu sắc nội thất của ô tô
  • Seller: Người bán ô tô
  • Sellingprice: Giá bán của ô tô
library(readxl)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
p <- read_excel("C:/Users/Dell/Desktop/dữ liệu.xlsx")
library(tidyverse)
## Warning: package 'ggplot2' was built under R version 4.3.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats   1.0.0     ✔ readr     2.1.5
## ✔ ggplot2   3.5.0     ✔ stringr   1.5.1
## ✔ lubridate 1.9.3     ✔ tibble    3.2.1
## ✔ purrr     1.0.2     ✔ tidyr     1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(ggplot2)
library(scales)
## 
## Attaching package: 'scales'
## 
## The following object is masked from 'package:purrr':
## 
##     discard
## 
## The following object is masked from 'package:readr':
## 
##     col_factor
library(gganimate)
## Warning: package 'gganimate' was built under R version 4.3.3
library(magick)
## Warning: package 'magick' was built under R version 4.3.3
## Linking to ImageMagick 6.9.12.98
## Enabled features: cairo, freetype, fftw, ghostscript, heic, lcms, pango, raw, rsvg, webp
## Disabled features: fontconfig, x11
library(DT)
## Warning: package 'DT' was built under R version 4.3.3
library(readr)
p <- read_csv("C:/Users/Dell/Desktop/dữ liệu.csv") 
## Rows: 1199 Columns: 12
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (7): make, model, trim, body, color, interior, seller
## dbl (5): year, condition, odometer, mmr, sellingprice
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
datatable(p)

I.Đồ thị dạng Bar Chart

1.Hình 1.1

p %>% group_by(year) %>% summarise(n = n()) %>%
  ggplot(aes(year,n)) +
    geom_col(fill='green') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Năm', y = 'Số lượng')

Hình 1.1 cho ta thấy số lượng sản xuất ô tô qua các năm từ 2012-2015

  • Năm 2012 chiếm 457 số lượng
  • Năm 2013 chiếm 620 số lượng (nhiều nhất)
  • Năm 2014 chiếm 66 số lượng
  • Năm 2015 chiếm 56 số lượng (ít nhất)

2. Hình 1.2

p %>% ggplot(aes(x = interior)) +
    geom_bar() +
    labs(x = 'Màu nội thất', y = 'Số lượng') +
    coord_flip()

Hình 1.2 cho ta thấy màu black chiếm số lượng nhiều nhất gần 700 trên tổng số lượng

  • Màu blue, burgundy, red, white chiếm số lượng ít

II.Đồ thị dạng Histogram

1.Hình 2.1

p %>% ggplot(aes(x = sellingprice)) +
  geom_histogram(binwidth = 5000, fill = 'blue', color = 'red')

Hình 2.1 cho ta thấy giá bán của các loại ô tô

  • cột cao nhất có giá bán khoảng 13000 với hơn 200 xe được bán
  • Cột thấp nhất có giá 150000
  • Cho thấy các loại xe đắt tiền ít được bán chạy hơn các loại xe khác có giá tầm trung

2.Hình 2.2

p %>% ggplot(aes(x = sellingprice, fill = color)) +
  geom_histogram(binwidth = 5000)

Hình 2.2 cho ta thấy giá bán của ô tô theo màu

  • Màu black chiếm số lượng nhiều nhất ### 3.Hình 2.3
p %>% ggplot(aes(x = sellingprice)) +
  geom_histogram(binwidth = 5000, fill = 'blue', color = 'red') +
  facet_wrap(~color)

Hình 2.3 phân tích biểu đồ cột theo giá của từng màu

  • Màu black và white chiếm số lượng nhiều nhất với giá bán dưới 50000

4.Hình 2.4

p %>% ggplot(aes(x = sellingprice)) +
  geom_histogram(data = p %>% filter(color == 'black'), binwidth = 5000, fill = 'salmon') +
  geom_histogram(data = p %>% filter(color == 'white'), binwidth = 5000, fill = 'yellow')

Hình 2.4 cho ta thấy các xe màu white chiếm số lượng mua nhiều hơn các xe màu black với giá cao nhất khoảng 10000

  • Số lượng ít nhất là xe màu black với giá hơn 75000

III. Đồ thị dạng Density

1. Hình 3.1

p %>% ggplot(aes(x =sellingprice)) +
  geom_density(fill = 'red')

2. Hình 3.2

p %>% ggplot(aes(x = condition, fill = make )) +
  geom_density()
## Warning: Removed 41 rows containing non-finite outside the scale range
## (`stat_density()`).
## Warning: Groups with fewer than two data points have been dropped.
## Groups with fewer than two data points have been dropped.
## Groups with fewer than two data points have been dropped.
## Warning in max(ids, na.rm = TRUE): no non-missing arguments to max; returning
## -Inf

## Warning in max(ids, na.rm = TRUE): no non-missing arguments to max; returning
## -Inf

## Warning in max(ids, na.rm = TRUE): no non-missing arguments to max; returning
## -Inf

Hình 3.2 cho thấy tình trạng của ô tô đã qua sử dụng, trong đó Honda chiếm số lượng nhiều nhất, qua đó ta biết được

  • Honda có tuổi đời khoảng 35 năm dài hơn các loại xe khác
  • Thấp nhất là Volvo khoảng 5 năm

3. Hình 3.3

p %>% ggplot(aes(x = sellingprice)) +
  geom_density(fill = 'green') +
  facet_wrap(~color)
## Warning: Groups with fewer than two data points have been dropped.
## Groups with fewer than two data points have been dropped.
## Warning in max(ids, na.rm = TRUE): no non-missing arguments to max; returning
## -Inf

## Warning in max(ids, na.rm = TRUE): no non-missing arguments to max; returning
## -Inf

Hình 3.3 cho thấy giá bán của xe theo các màu

  • Màu purple cao nhất
  • Màu thấp nhất là gold
  • Hầu như k có là màu yellow

IV. Đồ thị dạng Pie Chart

1. Hình 4.1

p <- p %>% filter(make == 'Audi' )
p %>% group_by(interior) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = interior)) +
    geom_col() +
    geom_text(aes(label = n),position = position_stack(vjust = 0.75))

Hình 4.1 cho thấy xe hãng Audi có màu black chiếm sồ lương nhiều nhất chiếm 21

  • Còn lại là các màu beige, brown, gray có ít chỉ chiếm 1

2. Hình 4.2

p %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = color)) +
    geom_col() +
    coord_polar('y')

Hình 4.2 cho ta thấy biểu đồ tròn thể hiện số lượng theo từng màu

  • Chiếm phần lớn là màu black

3. Hình 4.3

p %>% group_by(color) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = color )) +
    geom_col(color = 'white') +
    coord_polar('y') +
    geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = 0.5)) +
    theme_void()

  • Cũng giống như hình 4.2 thì hình 4.3 thể hiện số liệu cụ thể hơn
  • Nhiều nhất là màu white và black
  • Qua đó cho thấy đa số người mua sẽ chuộng màu white và black hơn

V. Đồ thị dạng Scatter

1. Hình 5.1

p %>% ggplot(aes(x = year, y = interior)) +
  geom_point() +
  xlab('Năm') + 
  ylab('Màu sắc nội thất')

Hình 5.1 thể hiện màu sắc nội thất qua các năm

2. Hình 5.2

p %>% ggplot(aes(x = year, y = interior, color = make)) +
  geom_point()

  • Hình 5.2 thể hiện màu nội thất của các hãng xe qua từng năm

  • Màu gray, brown, black chiếm số lượng nhiều ở các hãng xe

3. Hình 5.3

p %>% ggplot(aes(x = year , y = make , shape = color)) +
  geom_point()

Hình 5.3 thể hiện các màu như white, silver, red, gray, brown, blue, black, beige của các loại xe qua từng năm từ 2012-2015 bằng kí hiệu

4. Hình 5.4

p %>% ggplot(aes(x = year, y = color, size = sellingprice)) +
  geom_point()

  • Hình 5.4 cho ta thấy giá của các xe theo màu sắc qua từng năm
  • Chấm càng lớn thì giá càng cao
  • Và ngược lại chấm càng nhỏ thì giá càng thấp
  • Năm 2012 giá cao nhất là màu gray
  • Các năm còn lại giá tương đối ổn định

5. Hình 5.5

p %>% ggplot(aes(x = year, y = interior, alpha = sellingprice)) +
  geom_point()

  • Hình 5.5 cho ta biết được giá bán xe tưng năm theo màu bằng độ đậm nhạt
  • Chấm càng đậm thì giá càng cao
  • Chấm càng nhạt thì giá càng thấp

6. Hình 5.6

p %>% ggplot(aes(x = year, y = condition)) +
  geom_point(color = 'red') +
  geom_smooth(method = 'lm', color = 'green')
## `geom_smooth()` using formula = 'y ~ x'

7. Hình 5.7

p %>% ggplot(aes(x = year, y = condition)) +
  geom_point(color = 'red') +
  geom_smooth(method = 'lm', color = 'green') +
  facet_wrap(~color)
## `geom_smooth()` using formula = 'y ~ x'

