Package dplyr
- Tác giả: Hadley Wickham của RStudio.
- Phiên bản cải tiến của
plyr.
- Không cung cấp thêm chức năng cho R, nhưng làm đơn giản những chức năng hiện có.
- Cung cấp “văn phạm” để thao tác với data frame.
- Dễ hiểu.
- Chạy nhanh hơn, do được code qua C++.
Văn phạm dplyr
Một số “động từ” chính của package dplyr bao gồm
select: trả về một tập hợp con các cột trong data frame.
filter(): trích xuất một tập hợp con các hàng trong data frame dựa trên điều kiện logic.
arrange(): sắp xếp lại hàng trong data frame.
rename(): đổi tên biến số trong data frame.
mutate(): thêm biến/cột hoặc thay đổi biến hiện có.
summarise()/summarize(): tính toán số thống kê đại diện cho những biến số khác nhau trong data frame. Có thể làm theo dạng phân tầng.
%>%: Toán tử “pipe” được sử dụng để kết nối nhiều động từ thành một đường ống (pipeline).
Một số đặc điểm chức năng chung của dplyr()
- Đối số đầu tiên là data frame.
- Những đối số tiếp theo mô tả hành động thực hiện với data frame, và ta có thể truy xuất cột bằng tên mà không cần sử dụng toán tử
$.
- Kết quả trả về là một data frame mới.
- Data frame phải được định dạng và ghi chú phù hợp. Cụ thể, bộ dữ liệu phải gọn gàng. Tức là một quan sát ở mỗi hàng, và mỗi cột nên là một đặc điểm của quan sát đó.
select()
Ở phần này, chúng ta sẽ sử dụng bộ dữ liệu về ô nhiễm không khí và nhiệt độ tại thành phố Chicago, Mỹ.
Ta tải package dplyr().
Hàm select() được sử dụng để lựa chọn cột trong data frame. Giả sử chúng ta chỉ muốn làm việc với 3 cột đầu.
Lưu ý rằng dấu : không thể sử dụng cho tên hoặc character. Tuy nhiên, trong hàm select() ta có thể dùng nó để xác định một chuỗi tên biến số.
Ta cũng có thể dấu - trong select() để loại biến số ta không muốn.
Trong R, nếu ta muốn sử dụng
Ta cũng có thể sử dụng cú pháp để xác định nhiều biến số có cùng quy tắc đặt tên. Ví dụ, nếu ta muốn giữ những biến số có tên kết thúc với 2
Hoặc nếu ta muốn giữ các biến số bắt đầu với “d”, ta có thể
filter()
Hàm filter() được sử dụng để trích xuất tập hợp con các hàng từ một data frame. Hàm này tương tự như subset() trong R nhưng nhanh hơn.
Giả sử ta muốn trích xuất các hàng của data frame chicago ở mức PM2.5 > 30, ta có thể
'data.frame': 194 obs. of 8 variables:
$ city : chr "chic" "chic" "chic" "chic" ...
$ tmpd : num 23 28 55 59 57 57 75 61 73 78 ...
$ dptp : num 21.9 25.8 51.3 53.7 52 56 65.8 59 60.3 67.1 ...
$ date : Date, format: "1998-01-17" ...
$ pm25tmean2: num 38.1 34 39.4 35.4 33.3 ...
$ pm10tmean2: num 32.5 38.7 34 28.5 35 ...
$ o3tmean2 : num 3.18 1.75 10.79 14.3 20.66 ...
$ no2tmean2 : num 25.3 29.4 25.3 31.4 26.8 ...
Ta thấy rằng chỉ có 194 hàng trong data frame và phân bố của pm25.
Ta có thể truyền điều kiện vào filter().
arrange()
Hàm arrange() được sử dụng để sắp xếp lại hàng của data frame theo các biến số (cột). Theo thứ tự, hàng được xếp theo cột đầu tiên rồi lần lượt theo các cột sau.
Các cột có thể được sắp xếp theo thứ tự giảm dần với hàm desc().
mutate()
Hàm mutate() giúp tạo hoặc thay đổi biến số trong data frame.
Ví dụ, để biết liệu mức ô nhiễm cao hơn hay thấp hơn mức trung bình, ta trừ số liệu của các quan sát cho số trung bình.
Ta tạo một biến số mới là pm25new.
transmute()
transmute() hoạt động như mutate(), nhưng bỏ đi những biến số không được thay đổi.
group_by()
Hàm group_by() được sử dụng để tính số thống kê theo phân tầng. Ví dụ, ta có thể muốn biết số PM2.5 trung bình hàng năm. Do đó, dữ liệu được phân tầng theo năm, và đây là thông tin ta lấy được từ biến date. Kết hợp với group_by(), ta sử dụng hàm summarise().
Các thức hoạt động là ta phân tách data frame thành những phần riêng biệt theo một hay nhiều biến số (group_by()), và áp dụng hàm summarise() vào những phần riêng biệt này.
`summarise()` ungrouping output (override with `.groups` argument)
summarise() trả về data frame với year là cột đầu tiên, và sau đó là số trung bình hàng năm của pm25, o3, và no2.
%>%
Toán tử %>% rất hữu ích trong việc xâu chuỗi các hàm của dplyr.
Như ở ví dụ trên, chúng ta muốn tính trung bình o3, no2 và pm25 theo năm, ta phải:
- Tạo biến
year
- Phân tách data frame theo
year
- Tính toán trung bình
o3, no2, và pm25 theo year.
Với %>%, ta có thể thực hiện trong một câu lệnh.
Lưu ý rằng, khi gọi hàm mutate() ta có truyền data frame chicago, nhưng ở những lần gọi hàm sau, ta không cần phải truyền data frame vào đối số đầu tiên nữa. Khi sử dụng %>%, đầu ra ở lần gọi trước đã được ngầm đưa vào đối số đầu tiên ở lần gọi tiếp theo.
