CSV là từ viết tắt của Comma Separated Values, tức là những giá trị trong tệp được phân tách bởi dấu phẩy. Tuy thế nhưng đôi khi những giá trị trong tệp cũng sẽ được cách nhau bởi dấu chấm phẩy. Đây là tệp chứa dữ liệu dưới dạng văn bản và thường được dùng để trao đổi dữ liệu giữa các ứng dụng khác nhau. Người dùng thường xuất dữ liệu phức tạp trên ứng dụng này thành file CSV và gửi sang một ứng dụng khác để nhập những dữ liệu này vào.
Cách 1:
data <- read.csv("file.csv")
Cách 2:
data <- read.csv(file.choose(), header =T)
TXT là tên viết tắt của Text File. Các file văn bản có phần mở rộng là .txt và chúng được sử dụng để lưu các ngôn ngữ viết. Nói một cách dễ hiểu, các file TXT được sử dụng để lưu trữ dữ liệu văn bản mà con người có thể đọc được trên máy tính. Dữ liệu văn bản bao gồm bảng chữ cái, chữ số và các ký hiệu đặc biệt.
Cách 1:
data <- read.table("path.txt", header = T, sep = "\t",)
Cách 2:
read_delim("path.txt", delim ="|")
Tệp .XLSX là tệp Bảng tính Định dạng Open XML của Microsoft Excel. Tệp này sử dụng phần mở rộng tên tệp là .XLSX. Không giống như các bảng tính khác, bạn cần Microsoft Excel để tạo tệp .XLSX. Ngày nay, tệp .XLSX thường được gọi là bảng tính Excel.
XLSX là viết tắt của Microsoft Excel Spreadsheet. Hai chữ cái đầu tiên ‘XL’ nghe giống như chương trình ‘Excel’ và ‘S’ là viết tắt của bảng tính. Sau năm 2007, Microsoft đã giới thiệu định dạng .xml để lưu trữ dữ liệu, do đó có thêm ‘X’ ở cuối .XLSX. Đây là định dạng tệp được sử dụng để lưu trữ bảng tính, thường được tạo trong Microsoft Excel. Chúng có thể được xuất sang các chương trình bảng tính khác, như OpenOffice Calc hoặc Apple Numbers.
Cách 1:
library(xlsx)
data <- read.excel("path.xlsx")
Cách 2:
library(xlsx)
data <- read.xlsx(file.choose(), sheetIndex = 1, header = TRUE)
| Operator | Operation | Example | Result |
|---|---|---|---|
| + | Cộng | 1 + 2 | 3 |
| - | Trừ | 2 - 1 | 1 |
| * | Nhân | 3 * 2 | 6 |
| / | Chia | 4 * 2 | 2 |
| ^ | Lũy thừa | 4 * 2 | 16 |
| %% | Chia lấy dư | 5 * 2 | 1 |
| %/% | Chia lấy nguyên | 5%/%2 | 2 |
tênhàm()
1. Hàm toán học cơ bản
| Hàm | Mô tả | Ví dụ |
|---|---|---|
abs(x) |
Trị tuyệt đối | abs(-5) → 5 |
sqrt(x) |
Căn bậc hai | sqrt(25) → 5 |
ceiling(x) |
Làm tròn lên | ceiling(2.3) → 3 |
floor(x) |
Làm tròn xuống | floor(2.8) → 2 |
round(x) |
Làm tròn gần nhất | round(3.1415, 2) → 3.14 |
2. Hàm xử lý chuỗi
| Hàm | Mô tả | Ví dụ |
|---|---|---|
nchar(x) |
Đếm số ký tự | nchar("Hello") → 5 |
toupper(x) |
Chuyển thành chữ hoa | toupper("hi") → "HI" |
tolower(x) |
Chuyển thành chữ thường | tolower("R") → "r" |
substr(x,a,b) |
Cắt chuỗi con từ a đến b | substr("hello",2,4) → "ell" |
paste(x,y) |
Nối chuỗi có khoảng trắng | paste("a","b") → "a b" |
3. Hàm xử lý vector/danh sách
| Hàm | Mô tả | Ví dụ |
|---|---|---|
length(x) |
Đếm phần tử | length(c(1,2,3)) → 3 |
sum(x) |
Tổng | sum(1:5) → 15 |
mean(x) |
Trung bình | mean(c(1,2,3)) → 2 |
sort(x) |
Sắp xếp tăng dần | sort(c(3,1,2)) → 1 2 3 |
rev(x) |
Đảo ngược thứ tự | rev(c(1,2,3)) → 3 2 1 |
4. Hàm thống kê cơ bản
| Hàm | Mô tả |
|---|---|
var(x) |
Phương sai |
sd(x) |
Độ lệch chuẩn |
cor(x,y) |
Tương quan Pearson |
summary(x) |
Tóm tắt nhanh |
quantile(x) |
Tính phần vị |
5. Hàm kiểm tra và logic
| Hàm | Mô tả |
|---|---|
is.numeric(x) |
Có phải kiểu số không |
is.character(x) |
Có phải chuỗi không |
is.na(x) |
Có bị thiếu không |
any(x) |
Có phần tử nào TRUE không |
all(x) |
Tất cả có đều TRUE không |
✅ Tên trong R chỉ được chứa:
Chữ cái hoa hoặc thường (A–Z, a–z)
Số (0–9) — nhưng không được đứng đầu
Dấu chấm (.) và gạch dưới (_)
Không được dùng ký tự đặc biệt như: #, +, -, @,…
⚠️ Những lỗi thường gặp:
| Ví dụ | Giải thích lỗi |
|---|---|
#_of_trials <- 15 |
Sai vì # là ký tự chú thích, không hợp lệ |
1st_trial <- 476.2 |
Sai vì tên bắt đầu bằng số |
TRUE <- 100 |
Sai vì TRUE là từ khóa đặc biệt, không thể gán lại |
My_Value vs my_value |
R phân biệt chữ hoa – chữ thường: đây là 2 biến hoàn toàn khác nhau |
❌ Những từ khóa không được đặt tên:
TRUE, FALSE, NA, NULL, Inf, NaN
if, else, for, while, function, return, next, break, repeat,…
Cách 1: Hàm “tibble()”
install.packages("tibble")
library(tibble)
tibble(
col_1 = c("a", "b", "c"),
col_2 = c(1, 2, 3)
)
Kết quả:
## # A tibble: 3 × 2
## col_1 col_2
## <chr> <dbl>
## 1 a 1
## 2 b 2
## 3 c 3
Cách 2: Hàm “tribble()”
tribble(
~teacher, ~class_size, ~grade, ~school,
"Gaines", 30, 6, "Grove MS",
"Johnson", 26, 7, "Grove MS",
"Hernandez", 28, 8, "Grove MS"
)
Kết quả:
## # A tibble: 3 × 4
## teacher class_size grade school
## <chr> <dbl> <dbl> <chr>
## 1 Gaines 30 6 Grove MS
## 2 Johnson 26 7 Grove MS
## 3 Hernandez 28 8 Grove MS