I. GIỚI THIỆU R

1.1 Tổng quan về R

R là gì?

- R là một môi trường thống kê và ngôn ngữ lập trình toàn diện để phân tích và trực quan dữ liệu một cách khoa học và chuyên nghiệp.

- R là sự kết hợp giữa ngôn ngữ lập trình và các gói lệnh thống kê

-R có nguồn gốc từ ngôn ngữ lập trình S được phát triển từ năm 1988

Tại sao dùng R

- Công cụ hoàn toàn miễn phí

- Chạy được trên hầu hết các hệ điều hành bao gồm Linux, MacOS, and Windows.

- Nó cung cấp một nền tảng mạnh mẽ để thực hiện các phân tích thống kê một cách đơn giản và chính xác

- Có các quy trình thống kê nâng cao chưa có trong các ứng dụng khác

- Nhiều packages chuyên dụng, thường xuyên cập nhật và bao quát hầu hết các lĩnh vực khoa học

- Biểu đồ trực quan có tính khoa học và thẩm mỹ

- Cộng đồng người dùng và phát triển packages đông đảo

Download và cài đặt R

- Truy cập trang chủ của R: http://www.r-project.org

- Chọn CRAN gần quốc gia mình nhất

- Chọn phiên bản phù hợp với hệ điều hành của máy tính

- Cài đặt R theo hướng dẫn

1.2. Môi trường làm việc trong R (Workspace)

Không gian làm việc là môi trường làm việc trong R hiện tại của người dùng và bao gồm mọi đối tượng do người dùng xác định (vectơ, ma trận, khung dữ liệu, danh sách, hàm). Khi kết thúc phiên R, người dùng có thể lưu hình ảnh của không gian làm việc hiện tại được tự động tải lại vào lần tiếp theo khi R được bắt đầu.

Hình 1: Giao diện làm việc trong R (phiên bản MacOS)

1.3. Các toán tử trong R

Hình 2: Các toán tử trong R

Các hàm toán học trong R

Hình 3: Các hàm toán học trong R

1.4 Packages

- Packages là các module (các gói lệnh) cho các phép phân tích cụ thể

- Hiện tại đã có khoảng gần 20000 packages đã được phát triển cho các lĩnh vực phân tích khác nhau

- Khi thực hiện phân tích và vẽ biểu đồ, cần packages nào chúng ta có thể install packages đó ngay trong R.

Một số packages quan trọng trọng R

Hình 4: Một số packages quan trọng

1.5 Một số thao tác cơ bản trong R

- Cài đặt các packages: install.packages("tên packages")

- Gọi các packages: library("tên packages")

- Gọi một tập dữ liệu (data set) trong R để sử dụng, VD: data(iris)

- Thiết lập thư mục làm việc (working directory): setwd("~/đường/dẫn/tới/thư/mục") Lưu ý: Nên sử dụng project trong R để đặt thư viện làm việc (xem hướng dẫn phần RStudio)

- Đọc và ghi dữ liệu:

Hình 5: Đọc và ghi dữ liệu

- Có thể đọc nhanh các file dữ liệu bằng lệnh

  • Nếu data dạng .txt thì dùng lệnh: my_data <- read.delim(file.choose())

  • Hoặc nếu data dạng .csv thì dùng lệnh my_data <- read.csv(file.choose())

- Các hàm phân tích thống kê cơ bản:

Hình 6: Các phân tích thống kê cơ bản

Tips: Dùng phím mũi tên Lên/Xuống để gọi lại các câu lệnh đã viết trước đó, phím mũi tên Trái/Phải để hiệu chỉnh câu lệnh. Có thể dùng phím TAB để hiển thị nhanh một câu lệnh đầy đủ

II. GIỚI THIỆU PHẦN MỀM RSTUDIO

1. RStudio là gì

RStudio là một IDE (Interface Development Environment) của R. Chúng ta có thể chạy R thông qua RStudio (mà ko cần phải chạy R), nó cung cấp các chức năng rất thuận tiện để chạy R.

2. Cách cài RStudio

  • Vào trang web: https://posit.co
  • Tải Phiên bản RStudio phù hợp với máy tính
  • Cài đặt theo hướng dẫn

3. Môi trường làm việc trong RStudio

Hình 7: Các cửa sổ làm việc trong RStudio

4. Tạo một dự án phân tích (project) với RStudio

- Chúng ta có thể bắt đầu thực hiện các phân tích trong RStudio bằng cách tạo các dự án (Project). Thực hiện theo các bước: Vào File -> New Directory -> New Project -> Đặt tên project -> chọn nơi lưu trên máy -> sau đó chúng ta có thể bắt đầu thực hiện các phân tích theo yêu cầu, tất cả các sản phẩm đầu ra của phân tích sẽ được lưu trong thư mục (project) đã tạo từ bước trước đó.

————————————-

Tham khảo

Hình 8: Cheatsheet R cơ bản

Hình 9: Cheatsheet packages ggplot2