R ĐƠN GIẢN

Đọc file CSV

CSV là từ viết tắt của Comma Separated Values, tức là những giá trị trong tệp được phân tách bởi dấu phẩy. Tuy thế nhưng đôi khi những giá trị trong tệp cũng sẽ được cách nhau bởi dấu chấm phẩy. Đây là tệp chứa dữ liệu dưới dạng văn bản và thường được dùng để trao đổi dữ liệu giữa các ứng dụng khác nhau. Người dùng thường xuất dữ liệu phức tạp trên ứng dụng này thành file CSV và gửi sang một ứng dụng khác để nhập những dữ liệu này vào.

Cách 1:

data <- read.csv("file.csv")

Cách 2:

data <- read.csv(file.choose(), header =T)

Đọc file txt

TXT là tên viết tắt của Text File. Các file văn bản có phần mở rộng là .txt và chúng được sử dụng để lưu các ngôn ngữ viết. Nói một cách dễ hiểu, các file TXT được sử dụng để lưu trữ dữ liệu văn bản mà con người có thể đọc được trên máy tính. Dữ liệu văn bản bao gồm bảng chữ cái, chữ số và các ký hiệu đặc biệt.

Cách 1:

data <- read.table("path.txt", header = T, sep = "\t",)

Cách 2:

read_delim("path.txt", delim ="|")

Đọc file Excel

Tệp .XLSX là tệp Bảng tính Định dạng Open XML của Microsoft Excel. Tệp này sử dụng phần mở rộng tên tệp là .XLSX. Không giống như các bảng tính khác, bạn cần Microsoft Excel để tạo tệp .XLSX. Ngày nay, tệp .XLSX thường được gọi là bảng tính Excel.

XLSX là viết tắt của Microsoft Excel Spreadsheet. Hai chữ cái đầu tiên ‘XL’ nghe giống như chương trình ‘Excel’ và ‘S’ là viết tắt của bảng tính. Sau năm 2007, Microsoft đã giới thiệu định dạng .xml để lưu trữ dữ liệu, do đó có thêm ‘X’ ở cuối .XLSX. Đây là định dạng tệp được sử dụng để lưu trữ bảng tính, thường được tạo trong Microsoft Excel. Chúng có thể được xuất sang các chương trình bảng tính khác, như OpenOffice Calc hoặc Apple Numbers.

Cách 1:

library(xlsx)
data <- read.excel("path.xlsx")

Cách 2:

library(xlsx)
data <- read.xlsx(file.choose(), sheetIndex = 1, header = TRUE)

Các phép toán

Operator Operation Example Result
+ Cộng 1 + 2 3
- Trừ 2 - 1 1
* Nhân 3 * 2 6
/ Chia 4 * 2 2
^ Lũy thừa 4 * 2 16
%% Chia lấy dư 5 * 2 1
%/% Chia lấy nguyên 5%/%2 2

Gọi hàm với một số

tênhàm()

1. Hàm toán học cơ bản

Hàm Mô tả Ví dụ
abs(x) Trị tuyệt đối abs(-5)5
sqrt(x) Căn bậc hai sqrt(25)5
ceiling(x) Làm tròn lên ceiling(2.3)3
floor(x) Làm tròn xuống floor(2.8)2
round(x) Làm tròn gần nhất round(3.1415, 2)3.14

2. Hàm xử lý chuỗi

Hàm Mô tả Ví dụ
nchar(x) Đếm số ký tự nchar("Hello")5
toupper(x) Chuyển thành chữ hoa toupper("hi")"HI"
tolower(x) Chuyển thành chữ thường tolower("R")"r"
substr(x,a,b) Cắt chuỗi con từ a đến b substr("hello",2,4)"ell"
paste(x,y) Nối chuỗi có khoảng trắng paste("a","b")"a b"

3. Hàm xử lý vector/danh sách

Hàm Mô tả Ví dụ
length(x) Đếm phần tử length(c(1,2,3))3
sum(x) Tổng sum(1:5)15
mean(x) Trung bình mean(c(1,2,3))2
sort(x) Sắp xếp tăng dần sort(c(3,1,2))1 2 3
rev(x) Đảo ngược thứ tự rev(c(1,2,3))3 2 1

4. Hàm thống kê cơ bản

Hàm Mô tả
var(x) Phương sai
sd(x) Độ lệch chuẩn
cor(x,y) Tương quan Pearson
summary(x) Tóm tắt nhanh
quantile(x) Tính phần vị

5. Hàm kiểm tra và logic

Hàm Mô tả
is.numeric(x) Có phải kiểu số không
is.character(x) Có phải chuỗi không
is.na(x) Có bị thiếu không
any(x) Có phần tử nào TRUE không
all(x) Tất cả có đều TRUE không

Các quy tắt đặt tên

✅ Tên trong R chỉ được chứa:

  • Chữ cái hoa hoặc thường (A–Z, a–z)

  • Số (0–9) — nhưng không được đứng đầu

  • Dấu chấm (.) và gạch dưới (_)

  • Không được dùng ký tự đặc biệt như: #, +, -, @,…

⚠️ Những lỗi thường gặp:

Ví dụ Giải thích lỗi
#_of_trials <- 15 Sai vì # là ký tự chú thích, không hợp lệ
1st_trial <- 476.2 Sai vì tên bắt đầu bằng số
TRUE <- 100 Sai vì TRUE là từ khóa đặc biệt, không thể gán lại
My_Value vs my_value R phân biệt chữ hoa – chữ thường: đây là 2 biến hoàn toàn khác nhau

❌ Những từ khóa không được đặt tên:

  • TRUE, FALSE, NA, NULL, Inf, NaN

  • if, else, for, while, function, return, next, break, repeat,…

Tạo bảng thủ công

Cách 1: Hàm “tibble()”

  • Bước 1: Cài đặt và gọi gói “tibble”
 install.packages("tibble")
 library(tibble)
  • Bước 2: Đặt tên cột và nhập dữ liệu cho từng cột
 tibble(
  col_1 = c("a", "b", "c"),
  col_2 = c(1, 2, 3)
)

Kết quả:

## # A tibble: 3 × 2
##   col_1 col_2
##   <chr> <dbl>
## 1 a         1
## 2 b         2
## 3 c         3

Cách 2: Hàm “tribble()”

tribble(
   ~teacher, ~class_size, ~grade,    ~school,
   "Gaines",          30,      6, "Grove MS",
  "Johnson",          26,      7, "Grove MS",
"Hernandez",          28,      8, "Grove MS"
)

Kết quả:

## # A tibble: 3 × 4
##   teacher   class_size grade school  
##   <chr>          <dbl> <dbl> <chr>   
## 1 Gaines            30     6 Grove MS
## 2 Johnson           26     7 Grove MS
## 3 Hernandez         28     8 Grove MS