Định nghĩa Factor

A factor is a vector object used to specify a discrete classification (grouping) of the components of other vectors of the same length. R provides both ordered and unordered factors. (định nghĩa của R, https://cran.r-project.org/doc/manuals/r-release/R-intro.html#Factors)

Các thành phần cơ bản của một Factor

Tạo factor

Ví dụ 1, khi thu thập dữ liệu vì để tiện lợi, người ghi dùng S, M, L lần lượt thay cho nhỏ, vừa, lớn.

sizes <- c("S","S", "M", "S", "M","L","S","M","L","S","M", "L","S", "M", "L")
length(sizes)
## [1] 15
unique(sizes)
## [1] "S" "M" "L"
sort(sizes)
##  [1] "L" "L" "L" "L" "M" "M" "M" "M" "M" "S" "S" "S" "S" "S" "S"

Ví dụ trên có 15 quan sát, mỗi quan sát nhận 1 trong 3 giá trị S, M, L. Khi sắp xếp, thứ tự là thứ tự bảng chữ cái. Tuy nhiên sizes vẫn chỉ là một vector character, chưa phải là một factor.

Ví dụ 2, để làm báo cáo cho một khách hàng ở Việt Nam, các ký hiểu S, M, L sẽ được ghi rõ là “nhỏ”, “vừa”, “lớn”. Thứ tự sắp xếp cũng là “nhỏ”, “vừa”, “lớn”.

Lệnh sử dụng: factor()

viet_sizes <- factor(
    sizes,
    levels = c("S", "M", "L"),
    labels = c("Nhỏ", "Vừa", "Lớn"),
    ordered = TRUE
)

sort(viet_sizes)
##  [1] Nhỏ Nhỏ Nhỏ Nhỏ Nhỏ Nhỏ Vừa Vừa Vừa Vừa Vừa Lớn Lớn Lớn Lớn
## Levels: Nhỏ < Vừa < Lớn