Chào mừng các bạn đến với phần thực hành của Buổi 2. Trước khi bắt tay vào phân tích dữ liệu lâm sàng, chúng ta cần làm quen với “Người bạn” của mình: phần mềm RStudio.
Giao diện RStudio được chia thành 4 bảng (Panes) chính:
Trong nghiên cứu Y khoa chuẩn Q1, chúng ta không dùng Excel, mà dùng R Markdown để đảm bảo tính tái lập (Reproducibility). Một file Rmd kết hợp cả 2 yếu tố:
Cách định dạng văn bản (Format):
# trước dòng chữ để tạo Tiêu đề 1 (Cỡ chữ to
nhất).## để tạo Tiêu đề 2, ### cho Tiêu đề
3.*chữ nghiêng* để tạo chữ nghiêng, và
**chữ đậm** để nhấn mạnh.Dưới đây là ví dụ cách trình bày một phân tích trong Rmd để các bạn xem như một tài liệu tham khảo chuẩn mực.
Giả sử chúng ta muốn mô phỏng một phép tính huyết áp trung bình và vẽ biểu đồ. Các bạn sẽ chèn một khối lệnh (Code Chunk) như sau:
# Đây là phần gõ code (Các dòng có dấu # là dòng ghi chú, máy sẽ không đọc)
# Tạo ra 100 số đo huyết áp mô phỏng với trung bình 120, độ lệch chuẩn 10
huyet_ap <- rnorm(n = 100, mean = 120, sd = 10)
# Vẽ biểu đồ phân phối tần số (Histogram)
hist(
huyet_ap,
col = "lightblue",
main = "Biểu đồ phân phối Huyết áp",
xlab = "Huyết áp tâm thu (mmHg)"
)
Nhận xét lâm sàng: Biểu đồ trên cho thấy huyết áp phân bố chuẩn (hình quả chuông), tập trung nhiều nhất ở mức 120 mmHg.
Dữ liệu gồm 6 biến số: ID, Age,
Gender, Heart_Rate, Weight,
Income.
Yêu cầu chung: Các bạn hãy mở RStudio, tạo một file R Markdown mới. Copy các câu hỏi dưới đây vào và tiến hành giải quyết. Ở mỗi bước, BẮT BUỘC phải viết dòng suy nghĩ/cảm nghĩ của bạn ra văn bản.
Nhiệm vụ:
pacman,
rio, tidyverse.rio::import() để nạp file dữ liệu vào.summary() và glimpse() để kiểm
tra tổng quan.[CẢM NGHĨ VÀ TƯ DUY CỦA BẠN]
Câu hỏi: Từ kết quả
summary(), bạn phát hiện ra những điểm bất thường (Outliers) nào vô lí về mặt sinh học? Ở biếnGender, bạn thấy người nhập liệu đã gây ra thảm họa gì?
Trả lời: (Sinh viên tự gõ câu trả lời vào đây…)
Nhiệm vụ:
dplyr (mutate,
filter, ifelse, case_when) để dọn
dẹp.NA.Gender về một chuẩn duy nhất là
"Male" và "Female".df_clean.[CẢM NGHĨ VÀ TƯ DUY CỦA BẠN]
Câu hỏi: So sánh bảng dữ liệu trước và sau khi làm sạch, bạn cảm thấy thế nào về vai trò của việc mã hóa dữ liệu?
Trả lời: …………………………………………………..
Trong bộ dữ liệu của bạn, có rất nhiều ô trống (NA).
Trong dịch tễ học, chúng được chia làm 3 cơ chế:
[CẢM NGHĨ VÀ TƯ DUY CỦA BẠN]
Câu hỏi 3.1: Dựa vào lý thuyết Buổi 2, hãy áp định nghĩa và phân loại chính xác 3 cơ chế cho 3 cột biến số trên. Giải thích lí do.
Trả lời: …………………………………………………..
Batra, N. et al. (2021). The Epidemiologist R Handbook. Link: https://epirhandbook.com
Holmes, D. (2018). Reproducible Research: Write your Clinical Chemistry paper using R Markdown. DOI: https://doi.org/10.1373/clinchem.2017.272120
Wickham H., Grolemund G. (2017). R for Data Science. DOI: https://doi.org/10.1201/9781003116413 Link: https://r4ds.had.co.nz/