Làm quen với những package sau đây: lattice, ggplot2, gridExtra

Task 1: Biểu đồ phân bố với hist()

Đọc dữ liệu PISA Data Vietnam 2015.csv và gọi là đối tượng pisa. Thử nghiệm với hist()

Nếu muốn để dấu tiếng Việt trong các labels cần phải dùng mã Java theo đường link. Ví dụ:

Bảng mã màu của R có thể tải về theo link này

Thêm đường biểu diễn

Vẽ 2 phân bố cho nam và nữ

Bạn có nhận xét gì về biểu đồ?

Task 2: Biểu đồ phân bố với lattice()

Vẽ biểu đồ phân bố cho nhiều nhóm dùng hàm densityplot

Chia 3 cửa sổ (dùng package latticegridExtra)

Task 3: Biểu đồ hộp với boxplot

Task 4: Biểu đồ tương quan với plot

Tìm hiểu mối liên quan giữa MathScience

Phân tích biểu đồ chất lượng cao ggplot2

Task 5: Biểu đồ tương quan

Đọc dữ liệu obesity data vào R và gọi đối tượng là ob

##   id gender height weight  bmi age  bmc  bmd   fat  lean pcfat
## 1  1      F    150     49 21.8  53 1312 0.88 17802 28600  37.3
## 2  2      M    165     52 19.1  65 1309 0.84  8381 40229  16.8
## 3  3      F    157     57 23.1  64 1230 0.84 19221 36057  34.0
## 4  4      F    156     53 21.8  56 1171 0.80 17472 33094  33.8
## 5  5      M    160     51 19.9  54 1681 0.98  7336 40621  14.8
## 6  6      F    153     47 20.1  52 1358 0.91 14904 30068  32.2

Tạo ra biến mới gọi là OB dựa vào biến bmi: nếu bmi < 18.5 thì OB = "Underweight"; bmi từ 18.5 đến 24.9 thì OB = "Normal"; bmi từ 25.0 đến 29.9 thì OB = "Overweight"; bmi từ 30.0 trở lên, OB = "Obese"

## 
## Underweight      Normal  Overweight       Obese 
##         107         857         230          15

Tìm hiểu phân bố của OB

Task 6: Vẽ biểu đồ tương quan giữa weightpcfat dùng ggplot2

  • Biểu đồ đơn giản

  • Biểu đồ theo nhóm nam nữ

Có thể thử theme_tufte(), theme_few(), theme_wsj(), theme_clean(), theme_hc()

  • Biểu đồ tương quan + biểu đồ phân bố dùng package ggExtra

Có thể thử nghiệm thêm với type ("density", "violin", "boxplot")

  • Biểu đồ tương quan đa biến (package GGally) Chọn biến quan tâm

Thêm màu theo nhóm

so sánh với:

Task 7: Vẽ biểu đồ phân bố (histogram)

Đọc dữ liệu PISA Data Vietnam 2015.csv và gọi là đối tượng pisa

  • Vẽ biểu đồ phân bố điểm môn khoa học

  • Phân bố điểm môn khoa học theo vùng Area
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

  • Histogram và xác suất tích lũy

Task 8: Vẽ biểu đồ hộp (box plot)

  • Biểu đồ hộp theo vùng

  • Biểu đồ hộp theo kinh tế