1 Giới thiệu.

Biểu đồ là phương pháp tổng hợp các chỉ tiêu tính toán (measures) theo cái chiều thông tin cần theo dõi (dimensions) có sẵn. Hiện nay trên R đã tích hợp rất nhiều hàm để thiết kế và vẽ một biểu đồ một cách nhanh chóng và đẹp mặt. Bên cạnh những hàm có sẵn, R cũng có những gói package được phát triển để chuyên về biểu đồ và nổi bất trên cả là gói ggplot2. Trong bài viết này, tôi xin giới thiệu đến các bạn gói ggplot2 trong R và ứng dụng của nó trong ngân hàng.

2 GGPLOT2.

2.1 Lịch sử ra đời.

Hiện nay trên thế giới có rất nhiều tổ chức cũng như các trang thông tin nổi tiếng sử dụng ggplot2 trong việc visualization trong các bài báo cũng như báo cáo như trang báo The Economist, ….

Gói ggplot2 do các tác giả Hadley WickhamWinston Chang phát triển lần đầu tiên vào năm 2005. Hiện nay, gói ggplot2 đã được nâng gấp lên tới version 2.2.1 gồm nhiều tính năng để vẽ những biểu đồ thức tạp.

2.2 Những khái niệm cơ bản.

2.2.1 Ngữ pháp biểu đồ - Grammar Graphic.

Ngữ pháp biểu đồ là sự thể hiện thông tin trên một mặt phẳng, nó thể hiện bằng cách tổng hợp giữa các lớp này chồng lấn lên các lớp khác và được sắp xếp một cách có thứ tự để tạo thành một biểu đồ.

2.2.2 Các lớp của một biểu đồ.

2.2.2.1 Các lớp bắt buộc.

Để có thể cấu thành lên 1 biểu đồ, các lớp bắt buộc cần phải có bao gồm:

  1. Dữ liệu - Đây là lớp quan trọng nhất để cấu thành lên một biểu đồ.

  2. Biến trong biểu đồ (aesthetic attribute): Xác định các biến trong dữ liệu được sắp xếp như thế nào. VD: trục x, trục y,…

  3. Thuộc tính hình học của biểu đồ: Chúng ta cần xác định hình dạng của biểu đồ mà cần thể hiện (biểu đồ cột, biểu đồ điểm,…)

2.2.2.2 Các lớp không bắt buộc.

  1. Tính toán thống kê (statítical transformation): Sử dụng các tính toán trong biểu đồ. VD: Thêm các biểu đồ xu hướng dạng trơ (geom_smooth) , số lượng bin trong histogram… Lớp này có thể nằm lồng trong các lớp khác)

  2. Tỷ lệ (scale): Xác định tỷ lệ trong biểu đồ

  3. Trục tọa độ (Coordinate): Xác định hệ trục tọa độ vẽ biểu đồ. VD: Hệ tọa độ 3 trục trong không gian (hệ tọa đồ Descartes), hệ tọa độ cực

  4. Hệ thống Facet (tạm dịch: cách thức sắp xếp số liệu trên cùng 1 biểu đồ): Xác định cách thức sắp xếp vị trí của nhiều biểu đồ trên cùng một màn hình.

  5. Các yêu tố khác: Tên biểu đồ, tên trục, chú giải,

2.2.2.3 Ví dụ cơ bản.

ggplot(data = mtcars, # Lớp 1: Data đầu vào. - Lớp bắt buộc
       aes(wt,mpg,colour = factor(vs))) + # Lớp 2: Trục biểu đồ  - Lớp bắt buộc
geom_point() +        # Lớp 3: Thuộc tính hình học - Lớp bắt buộc
theme_bw() + # Lớp  
labs(title = "First plot with GGPLOT2") # Lớp 8: lớp không bắt buộc

2.3 Một số biểu đồ cơ bản.