Giới thệu sơ lược về bộ dữ liệu

trang<-  read.csv("C:/Users/Ngo Trang/Documents/student_spending-1.csv", header = T)
dim(trang)
## [1] 1000   18

Data “student_spending-1.csv” là data dạng csv bao gồm 1000 quan sát và 18 biến miêu tả về các tác động đến sinh viên .Cụ thể các biến là :

  • STT : số thứ tự
  • age : Độ tuổi của sinh viên
  • gender : Giới tính của sinh viên
  • year_in_school : Số năm theo học của sinh viên tại trường đại học
  • major : Nghành sinh viên theo học tại trường đại học
  • monthly_income : Thu nhập hằng tháng của sinh viên
  • financial_aid : Số tiền viện trợ của sinh viên nhận được
  • tuition : Số tiền học phí của sinh viên
  • housing : Tiền nhà ở của sinh viên
  • food : Tiền ăn của sinh viên
  • trasportation : Tiền di chuyển , đi lại của sinh viên
  • books_supplies : Tiền sách và vật tư của sinh viên
  • entertainment : Tiền dành cho việc giải trí của sinh viên
  • personal_care : Tiền dành cho việc chăm sóc cá nhân của sinh viên
  • technology : Tiền dành cho công nghệ của sinh viên
  • health_wellness : Tiền dùng để chăm sóc sức khỏe sinh viên
  • miscellaneous : các chi phí phát sinh
  • preferred_payment_method : Phương thức thanh toán yêu thích của sinh viên
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.4.4     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.0
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(scales)
## 
## Attaching package: 'scales'
## 
## The following object is masked from 'package:purrr':
## 
##     discard
## 
## The following object is masked from 'package:readr':
## 
##     col_factor

Các đồ thị cụ thể

Đồ thị dạng Bar-Chart

trang %>% group_by(gender) %>% summarise(n = n()) %>%
  ggplot(aes(gender,n)) +
    geom_col(fill='green') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Giới tính', y = 'Số lượng')

GIẢI THÍCH : Câu lệnh trên cho chúng ta một đồ thị dang Bar-chart có :

  • Trục hoành được chia theo biến “gender”(giới tính) bao gồm “Female”,“Male”,“Non-binary”
  • Trục tung là số lượng của sinh viên theo từng giới tính
  • Số lượng sinh viên theo giới tính lần lượt là :
  • Female(Nữ giới) : 323 sinh viên
  • Male(Nam giới) : 356 sinh viên
  • Non-binary(phi giới tính ) : 321 sinh viên

trang %>% group_by(major) %>% summarise(n = n()) %>%
  ggplot(aes(major,n)) +
    geom_col(fill='green') +
    geom_text(aes(label = percent(n/length(trang$food))),vjust = 2, color = 'red') +
    labs(x = 'Chuyên nghành', y = 'Số lượng')

GIẢI THÍCH : Câu lệnh trên cho chúng ta bốn đồ thị dang Bar-chart có :

  • Trục hoành được chia theo biến “major”( chuyên nghành) bao gồm “Psychology”,“Economics”,“Computer Science”,“Engineering”,“Biology”
  • Trục tung biểu diễn số lượng của sinh viên theo từng nghành học
  • phần trăm số sinh viên học theo từng nghành so với tổng số sinh viên được điều tra cụ thể như sau:
  • Biology : 22.8 %
  • Computer Science : 19.2 %
  • Economics : 20.4 %
  • Engineering : 19.2 %
  • Psychology : 18.4 %

trang %>% group_by(gender,year_in_school) %>% summarise(n=n()) %>%
  ggplot(aes(x = gender,y = n)) +
    geom_col(position = 'dodge') +
    facet_wrap(~year_in_school) +
    geom_text(aes(label = n),vjust = 2, color = 'green') +
    labs(x = 'Giới tính', y = 'Số lượng')
## `summarise()` has grouped output by 'gender'. You can override using the
## `.groups` argument.

GIẢI THÍCH : Câu lệnh trên cho chúng ta bốn đồ thị dang Bar-chart có :

  • 4 đồ thị tương ứng với số năm theo học của sinh viên tại trường đại học bao gồm “Freshman”,“Junior”,“Senior”,“Sophomore”
  • Trục hoành được chia theo biến gender(giới tính) bao gồm “Female”,“Male”,“Non-binary”
  • Trục tung là số lượng sinh viên
  • Số liệu cụ thể trên mỗi cột cho ta biết số lượng sinh viên được phân theo giới tính của từng năm học là bao nhiên sinh viên

trang %>% group_by(major) %>% summarise(m= median(tuition)) %>%
  ggplot(aes(x = major,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m,2)), vjust = 2, color = 'green') +
    labs(x = 'Chuyên nghành', y = 'Median(học phí)')

GIẢI THÍCH : Câu lệnh trên cho chúng ta một đồ thị dang Bar-chart có :

  • Trục hoành được chia theo biến “major”( chuyên nghành) bao gồm “Psychology”,“Economics”,“Computer Science”,“Engineering”,“Biology”
  • Trục tung là trung vị số tiền học phí của sinh viên
  • Từ đồ thị ta thấy được :
  • Tại nghành học Biology : Có 50 % số sinh viên sẽ đóng học phí trên mức 4585.5 và 50% số sinh viên còn lại đóng học phí dưới mức 4585.5
  • Tại nghành học Computer Science : Có 50 % số sinh viên sẽ đóng học phí trên mức 4639.5 và 50% số sinh viên còn lại đóng học phí dưới mức 4639.5
  • Tại nghành học Economics : Có 50 % số sinh viên sẽ đóng học phí trên mức 4527 và 50% số sinh viên còn lại đóng học phí dưới mức 4527
  • Tại nghành học Psychology : Có 50 % số sinh viên sẽ đóng học phí trên mức 4661.5 và 50% số sinh viên còn lại đóng học phí dưới mức 4661.5

trang %>% group_by(age,gender) %>% summarise(m = mean(housing)) %>%
  ggplot(aes(x = age,y = m)) +
    geom_col(position = 'dodge') +
    facet_wrap(~gender) +
    geom_text(aes(label = round(m))) +
    labs(x = 'Tuổi', y = 'Mean(Tiền nhà)')
## `summarise()` has grouped output by 'age'. You can override using the `.groups`
## argument.

GIẢI THÍCH : Câu lệnh trên cho chúng ta ba đồ thị dang Bar-chart có :

  • 3 đồ thị tương ứng với 3 trạng thái giới tính sinh viên của biến “gender”
  • Trục hoành được chia theo biến “age” bao gồm : 18,20,22,24
  • Trục tung là giá trị trung bình tiền nhà hằng tháng của sinh viên
  • Từ đồ thị ta có thể biết được ứng với từng loại giới tính và từng độ tuổi khác nhau thì số tiền nhà cụ thể sinh viên phải trả

trang <- trang  %>% group_by(year_in_school, gender) %>% summarise(n = n())
## `summarise()` has grouped output by 'year_in_school'. You can override using
## the `.groups` argument.
trang %>% ggplot(aes(x = year_in_school, y = n)) +
  geom_col(data = trang %>% filter(gender == 'Male'), fill = 'orange') +
  geom_col(data = trang %>% filter(gender == 'Non-binary'), fill = 'green')

GIẢI THÍCH : Câu lệnh trên cho chúng ta một đồ thị dạng Bar-chart có :

  • Đồ thị được vẽ nên dựa trên 2 biến” year_in_school,gender”
  • Trục hoành là số năm theo học của sinh viên tại trường đại học được chia theo biến “year_in_school” bao gồm “Freshman”,“Junior”,“Senior”,“Sophomore”
  • Trục tung là số lượng sinh viên
  • Đồ thị so sánh số lượng sinh viên theo giới tính Male(biểu diễn bởi màu cam) và Non-binary (biểu diễn bởi màu xanh) theo biến”year_in_school”(số năm sinh viên theo học tại trường)

Đồ thị dạng Histogrm

Đồ thị dạng Density

Đồ thị dạng Pie-Chart

trang %>% group_by(year_in_school) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = year_in_school)) +
    geom_col() +
    geom_text(aes(label = n),position = position_stack(vjust = 1))

GIẢI THÍCH : Câu lệnh trên cho chúng ta một đồ thị dạng Pie-chart được trải phẳng có :

  • Đồ thị được vẽ nên bởi biến “year_in_school” bao gồm các tiêu chí “Freshman”,“Junior”,“Senior”,“Sophomore” + Freshman được biểu diễn bởi màu đỏ gồm 256 sinh viên
  • Junior được biểu diễn bởi màu xanh dương gồm 247 sinh viên
  • Senior được biểu diễn bởi màu xanh da trời gồm 254 sinh viên
  • Sophomore được biểu diễn bởi màu tím gồm 246 sinh viên

trang %>% group_by(gender) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = gender)) +
    geom_col() +
    coord_polar('y')

GIẢI THÍCH : Câu lệnh trên cho chúng ta một đồ thị dạng Pie-chart có :

  • Đồ thị được vẽ nên bởi biến “gender”(giới tính”) bao gồm các tiêu chí :“Female”,“Male”,“Non-binary”
  • Female : được biểu diễn bởi màu đỏ
  • Male : được biểu diễn bởi màu xanh dương
  • Non-binary : được biểu diễn bởi màu xanh nước biển

