Chương 5: R cho nghiên cứu giáo dục

R Data Science Series

1. Sử dụng R cho phân tích dữ, xuất bản và công bố nghiên cứu

1.1 Giới thiệu về ngôn ngữ R

Ngôn ngữ R đã trở thành một trong những công cụ phân tích thống kê phổ biến và mạnh mẽ nhất trong cộng đồng nghiên cứu học thuật và ứng dụng. Được phát triển với mục tiêu hỗ trợ tính toán thống kê, R cung cấp một hệ sinh thái phong phú gồm hàng nghìn gói mở rộng (packages), cho phép thực hiện hầu hết các kỹ thuật phân tích hiện đại, từ phân tích hồi quy đơn giản đến mô hình hóa cấu trúc tuyến tính và học máy (Ihaka & Gentleman, 1996). Đồng thời, R cũng nổi bật với khả năng hình ảnh hóa dữ liệu linh hoạt và chất lượng cao, thông qua các gói như ggplot2, vốn cho phép người dùng tạo ra các biểu đồ khoa học trực quan, dễ tùy biến và có tính thẩm mỹ cao (Wickham, 2016).

Đặc biệt, R ngày càng được ứng dụng rộng rãi trong nghiên cứu giáo dục, nơi mà yêu cầu về phân tích dữ liệu định lượng, xử lý bảng hỏi, và đánh giá tác động can thiệp là rất phổ biến. Các tài liệu hướng dẫn như Getting Started with R for Education Research (Tikka et al., 2024) và A Guide to R for Social and Behavioral Science Statistics (Gillespie et al., 2020) đã giúp phổ biến R trong giới nghiên cứu giáo dục nhờ cách trình bày rõ ràng và ví dụ thực tiễn. Từ việc xử lý dữ liệu khảo sát, phân tích độ tin cậy đến mô hình hóa SEM, R mang lại giải pháp thống nhất, linh hoạt và tiết kiệm chi phí. Hơn nữa, các tài liệu như Data Management in R (Elff, 2020) cũng hỗ trợ nhà nghiên cứu xã hội trong việc tổ chức và chuẩn hóa dữ liệu học thuật một cách chuyên nghiệp.

Không chỉ là một công cụ phân tích, R còn đóng vai trò trung tâm cho nghiên cứu tái lập (reproducible research) nhờ sự tích hợp mạnh mẽ với ngôn ngữ LaTeX, hệ thống markdown, và đặc biệt là R Markdown. Người dùng có thể viết, phân tích, tạo hình, và xuất bản toàn bộ báo cáo nghiên cứu trong một môi trường duy nhất, từ đó đảm bảo tính toàn vẹn và tái hiện của quy trình phân tích (Xie, 2015). Các nền tảng như RStudio đã tối ưu hóa quy trình này, giúp R trở thành lựa chọn hàng đầu cho các nhà nghiên cứu trong giáo dục, xã hội học, kinh tế học và nghiều ngành khác trong việc xuất bản các công trình có chất lượng kỹ thuật cao (Baumer et al., 2014).

1.2 Cài đặt R

Để bắt đầu sử dụng R cho phân tích thống kê và nghiên cứu tái lập, người dùng cần cài đặt R và RStudio. R là ngôn ngữ lập trình và môi trường tính toán thống kê, trong khi RStudio là giao diện người dùng (IDE) mạnh mẽ, giúp việc viết mã, quản lý dự án và xuất báo cáo trở nên thuận tiện hơn. Cả hai phần mềm đều tương thích với Windows, macOS và Linux. Sau khi cài đặt, người dùng có thể mở RStudio và bắt đầu viết mã R, quản lý dữ liệu, và xây dựng báo cáo tái lập bằng R Markdown.

Đầu tiên, truy cập trang chính thức để tải R tại https://cran.r-project.org/. Sau đó, tải và cài đặt RStudio Desktop (bản miễn phí) tại https://posit.co/download/rstudio-desktop/. Bạn cũng có thể xem hướng dẫn chi tiết từ https://www.youtube.com/watch?v=TsnGd6p9oTk.

2. Mô tả về dữ liệu sử dụng

Trong cuốn sách này, chúng tôi sẽ sử dụng một bộ dữ liệu được thu thập như một phần của nghiên cứu về học sinh lớp 5 bậc tiểu học. Khi dữ liệu được thu thập, các em khoảng từ 10 đến 11 tuổi. Do có hiện tượng lưu ban, một số học sinh có thể lớn tuổi hơn. Mục tiêu của nghiên cứu là tìm hiểu mối quan hệ giữa thành tích học tập, nhận thức bản thân, và thái độ đối với trường học của học sinh. Dữ liệu về lai lịch cha mẹ, giới tính và một số biến liên quan đến nhà trường cũng được thu thập.

Dữ liệu được thu thập thông qua một bảng hỏi dành cho từng học sinh. Nhà nghiên cứu trực tiếp phát bảng hỏi trong tất cả các trường hợp, thường có sự hiện diện của giáo viên chủ nhiệm lớp.

Thông tin về thành tích học tập được giáo viên cung cấp cho hai môn học (Tiếng Anh và Toán), cũng như điểm trung bình chung (GPA), và được dựa trên kết quả các bài kiểm tra do giáo viên tự thiết kế.

Nhận thức bản thân được xây dựng dưới dạng phân cấp và đa chiều. Việc xây dựng các câu hỏi dựa trên mô hình bảy yếu tố của Shavelson (xem Chương 4). Bốn câu hỏi được thiết kế để đo lường mỗi yếu tố. Ngoài ra, một thang đo lòng tự trọng toàn diện gồm chín câu hỏi cũng được sử dụng. Thái độ đối với trường học được đo lường bằng sáu câu hỏi, tập trung vào cả thái độ của học sinh đối với nhà trường nói chung và đối với giáo viên. Học sinh cũng được yêu cầu chấm điểm cho ngôi trường của mình. Hai câu hỏi đo lường lai lịch cha mẹ. Một câu hỏi ghi nhận trình độ học vấn cao nhất của người chăm sóc chính. Biến thứ hai đo lường tình trạng kinh tế xã hội (SES) của họ dựa trên phân loại nghề nghiệp của Tổ chức Lao động Quốc tế (ISCO 88). Dữ liệu này được thu thập bằng cách yêu cầu học sinh đem bảng hỏi về nhà để phụ huynh điền thông tin. Một số dữ liệu liên quan đến nhà trường cũng được thu thập – cụ thể là loại hình trường học và chất lượng môi trường học đường (được đánh giá qua các chỉ số do người quan sát ghi nhận trong các đợt khảo sát thực tế).

Mẫu nghiên cứu được chọn ngẫu nhiên từ 50 trường tiểu học. Tại mỗi trường, toàn bộ học sinh của một lớp học lớp 5 đều được khảo sát. Bộ dữ liệu đã được rút gọn (vì ban đầu có nhiều biến hơn) và xử lý sạch để sử dụng trong cuốn sách này. Một vài nhãn biến đã được thay đổi nhằm bảo đảm tính ẩn danh của nhà trường và người tham gia khảo sát.

3. Làm sạch và tiền xử lí dữ liệu

Làm sạch dữ liệu (data cleaning) và tiền xử lý dữ liệu (data pre-processing) là những bước thiết yếu trong bất kỳ nghiên cứu định lượng nào, nhằm đảm bảo độ tin cậy và hợp lệ của kết quả phân tích. Dữ liệu thực nghiệm thường chứa lỗi như giá trị thiếu, sai định dạng, ngoại lệ thống kê hoặc biến đo không nhất quán. Những sai lệch này, nếu không được xử lý triệt để, có thể làm suy giảm chất lượng mô hình và dẫn đến kết luận sai lệch (Rahm & Do, 2000).

Trong nghiên cứu giáo dục, nơi dữ liệu thường được thu thập từ bảng hỏi, đánh giá học sinh hoặc hồ sơ nhà trường, việc xử lý dữ liệu trước phân tích là đặc biệt quan trọng. Việc lọc giá trị thiếu, phát hiện dữ liệu nhiễu và chuẩn hóa thang đo giúp đảm bảo rằng các kết luận về học tập, động lực hay can thiệp giáo dục phản ánh đúng thực tiễn (Pyle, 1999).

Theo Kelleher và Tierney (2018), quá trình tiền xử lý không chỉ là kỹ thuật hỗ trợ, mà là bước then chốt trong pipeline của khoa học dữ liệu học thuật. Việc chuẩn hóa và làm sạch dữ liệu còn góp phần nâng cao tính tái lập và tính minh bạch trong nghiên cứu – hai tiêu chí đang ngày càng được coi trọng trong khoa học giáo dục (Van den Broeck et al., 2005).

Thư viện dplyr gói được lựa chọn cho việc làm sạch và xử lí dữ liệu. Trước khi học các chương kế tiếp tôi khuyến nghị các bạn học cách làm quen với R thông qua việc sử dụng thư viện này từ khóa học Business Analytics R Programming Guide (tại https://uc-r.github.io/r_bootcamp) hoặc website của dplyr tại https://dplyr.tidyverse.org/index.html.

4. Tài liệu tham khảo

Baumer, B., Cetinkaya-Rundel, M., Bray, A., Loi, L. & Horton, N.J., 2014. R Markdown: Integrating A Reproducible Analysis Tool into Introductory Statistics. Technology Innovations in Statistics Education, 8(1).

Elff, M., 2020. Data Management in R: A Guide for Social Scientists. Cham: Springer Nature.

Gillespie, B.J., Hibbert, K.C. & Wagner-Huang, W.E., 2020. A Guide to R for Social and Behavioral Science Statistics. Thousand Oaks, CA: SAGE Publications.

Ihaka, R. & Gentleman, R., 1996. R: A Language for Data Analysis and Graphics. Journal of Computational and Graphical Statistics, 5(3), pp.299–314.

Kelleher, J.D. & Tierney, B., 2018. Data Science. MIT Press.

Pyle, D., 1999. Data Preparation for Data Mining. Morgan Kaufmann.

Rahm, E. & Do, H.H., 2000. Data cleaning: Problems and current approaches. IEEE Data Engineering Bulletin, 23(4), pp.3–13.

Tikka, S., Kopra, J., Heinäniemi, M., López-Pernas, S. & Saqr, M., 2024. Getting started with R for education research. In: M. Saqr, S. López-Pernas and D. Ifenthaler, eds. Learning Analytics Methods and Tutorials: A Practical Guide Using R. Cham: Springer Nature Switzerland, pp.67–94.

Van den Broeck, J., Cunningham, S.A., Eeckels, R. & Herbst, K., 2005. Data cleaning: detecting, diagnosing, and editing data abnormalities. PLOS Medicine, 2(10), pp.e267.

Wickham, H., 2016. ggplot2: Elegant Graphics for Data Analysis. Springer.

Xie, Y., 2015. Dynamic Documents with R and knitr. 2nd ed. Chapman and Hall/CRC.