1 Package dplyr

2 Văn phạm dplyr

Một số “động từ” chính của package dplyr bao gồm

2.0.1 Một số đặc điểm chức năng chung của dplyr()

  1. Đối số đầu tiên là data frame.
  2. Những đối số tiếp theo mô tả hành động thực hiện với data frame, và ta có thể truy xuất cột bằng tên mà không cần sử dụng toán tử $.
  3. Kết quả trả về là một data frame mới.
  4. Data frame phải được định dạng và ghi chú phù hợp. Cụ thể, bộ dữ liệu phải gọn gàng. Tức là một quan sát ở mỗi hàng, và mỗi cột nên là một đặc điểm của quan sát đó.

3 select()

Ở phần này, chúng ta sẽ sử dụng bộ dữ liệu về ô nhiễm không khí và nhiệt độ tại thành phố Chicago, Mỹ.

Ta tải package dplyr().

Hàm select() được sử dụng để lựa chọn cột trong data frame. Giả sử chúng ta chỉ muốn làm việc với 3 cột đầu.

Lưu ý rằng dấu : không thể sử dụng cho tên hoặc character. Tuy nhiên, trong hàm select() ta có thể dùng nó để xác định một chuỗi tên biến số.

Ta cũng có thể dấu - trong select() để loại biến số ta không muốn.

Trong R, nếu ta muốn sử dụng

Ta cũng có thể sử dụng cú pháp để xác định nhiều biến số có cùng quy tắc đặt tên. Ví dụ, nếu ta muốn giữ những biến số có tên kết thúc với 2

Hoặc nếu ta muốn giữ các biến số bắt đầu với “d”, ta có thể

4 filter()

Hàm filter() được sử dụng để trích xuất tập hợp con các hàng từ một data frame. Hàm này tương tự như subset() trong R nhưng nhanh hơn.

Giả sử ta muốn trích xuất các hàng của data frame chicago ở mức PM2.5 > 30, ta có thể

'data.frame':   194 obs. of  8 variables:
 $ city      : chr  "chic" "chic" "chic" "chic" ...
 $ tmpd      : num  23 28 55 59 57 57 75 61 73 78 ...
 $ dptp      : num  21.9 25.8 51.3 53.7 52 56 65.8 59 60.3 67.1 ...
 $ date      : Date, format: "1998-01-17" ...
 $ pm25tmean2: num  38.1 34 39.4 35.4 33.3 ...
 $ pm10tmean2: num  32.5 38.7 34 28.5 35 ...
 $ o3tmean2  : num  3.18 1.75 10.79 14.3 20.66 ...
 $ no2tmean2 : num  25.3 29.4 25.3 31.4 26.8 ...

Ta thấy rằng chỉ có 194 hàng trong data frame và phân bố của pm25.

Ta có thể truyền điều kiện vào filter().

5 arrange()

Hàm arrange() được sử dụng để sắp xếp lại hàng của data frame theo các biến số (cột). Theo thứ tự, hàng được xếp theo cột đầu tiên rồi lần lượt theo các cột sau.

Các cột có thể được sắp xếp theo thứ tự giảm dần với hàm desc().

6 rename()

7 mutate()

Hàm mutate() giúp tạo hoặc thay đổi biến số trong data frame.

Ví dụ, để biết liệu mức ô nhiễm cao hơn hay thấp hơn mức trung bình, ta trừ số liệu của các quan sát cho số trung bình.

Ta tạo một biến số mới là pm25new.

8 transmute()

transmute() hoạt động như mutate(), nhưng bỏ đi những biến số không được thay đổi.

9 group_by()

Hàm group_by() được sử dụng để tính số thống kê theo phân tầng. Ví dụ, ta có thể muốn biết số PM2.5 trung bình hàng năm. Do đó, dữ liệu được phân tầng theo năm, và đây là thông tin ta lấy được từ biến date. Kết hợp với group_by(), ta sử dụng hàm summarise().

Các thức hoạt động là ta phân tách data frame thành những phần riêng biệt theo một hay nhiều biến số (group_by()), và áp dụng hàm summarise() vào những phần riêng biệt này.

`summarise()` ungrouping output (override with `.groups` argument)

summarise() trả về data frame với year là cột đầu tiên, và sau đó là số trung bình hàng năm của pm25, o3, và no2.

10 %>%

Toán tử %>% rất hữu ích trong việc xâu chuỗi các hàm của dplyr.

Như ở ví dụ trên, chúng ta muốn tính trung bình o3, no2pm25 theo năm, ta phải:

  1. Tạo biến year
  2. Phân tách data frame theo year
  3. Tính toán trung bình o3, no2, và pm25 theo year.

Với %>%, ta có thể thực hiện trong một câu lệnh.

Lưu ý rằng, khi gọi hàm mutate() ta có truyền data frame chicago, nhưng ở những lần gọi hàm sau, ta không cần phải truyền data frame vào đối số đầu tiên nữa. Khi sử dụng %>%, đầu ra ở lần gọi trước đã được ngầm đưa vào đối số đầu tiên ở lần gọi tiếp theo.

