Đề tài: GIỚI THIỆU VÀ SỬ DỤNG PACKAGE FORCATS TRONG XỬ LÝ DỮ LIỆU

1 Chương 1: Giới thiệu chung

1.1 Đặt vấn đề

Trong quá trình phân tích dữ liệu, chúng ta phải thường xuyên làm việc với các biến định tính. Để phục vụ cho các mục đích khác nhau trong việc phân tích và nghiên cứu, ta đòi hỏi các dữ liệu của các biến định tính này cần phải được sắp xếp và phân chia theo các nhóm, các cấp bậc, và thứ tự nhất định. Việc xử lý các dữ liệu định tính phù hợp với nhu cầu giúp ích rất nhiều trong trực quan hóa và phân tích chúng. Tuy nhiên những dữ liệu mà ta có được trong quá trình thu thập lại thường không đáp ứng được các mục đích cụ thể của bài phân tích, nghiên cứu. Vì vậy, việc cần có một công cụ để giải quyết vấn đề này sẽ là vô cùng thiết thực và quan trọng.

Để giải quyết vấn để này, chương trình RStudio đã cung cấp cho người dùng một số công cụ hiệu quả. Trong bài viết này, chúng tôi sẽ trình bày về gói Forcats, một bộ công cụ giải quyết các vấn đề phổ biến với các dữ liệu biến định tính, bao gồm thay đổi thứ tự cấp độ hoặc giá trị.

1.2 Lý do chọn chủ đề

Lý do tôi chọn tìm hiểu về Forcats là vì tính linh hoạt và hữu dụng của nó trong cách sử dụng. Trong quá trình học tập và tìm hiểu về phân tích dữ liệu ở môn học này, cũng như ở những môn học khác, chúng tôi thường xuyên tiếp xúc và làm việc với rất nhiều dữ liệu đa dạng chứa đồng thời những biến định lượng và định tính. Tương ứng với điều đó, Forcats cho phép người sử dụng tiếp cận nhiều phương pháp để tiến hành xử lý dữ liệu phục vụ cho quá trình trực quan hóa và phân tích. Chẳng hạn như, chuyển đổi và lưu trữ các dữ liệu của các biến định tính nhanh chóng, linh hoạt và thuận tiện hơn. Nhờ vậy mà trang bị được các công cụ trong Forcats sẽ giúp ích trong nhiều khía cạnh của dựng án, tiền xử lý dữ liệu và phân tích đa biến.

1.3 Mục tiêu

Mục tiêu chung: Nắm được các thông tin về gói Forcats và chức năng của các hàm phổ biến trong gói cũng cũng như là các sử dụng các chức năng đó.

Mục tiêu cụ thể:

  • Sử dụng một số chức năng của gói Forcats để xử lý các dữ liệu của biến định tính của dataset đã có sẵn là GSS_cat, nhằm mục đích minh họa rõ ràng và cụ thể các hàm và chức năng của gói.
  • Ứng dụng chức năng của Forcats vào việc xử lý dữ liệu, hỗ trợ cho việc trực quan hoá và phân tích bộ dữ liệu thực tế.

1.4 Đối tượng và phạm vi nghiên cứu nghiên cứu

Đối tượng nghiên cứu: trong phạm vi bài viết này, đối tượng nghiên cứu của chúng tôi là các chức năng tương ứng với các hàm phổ biến của gói Forcats trong việc xử lý các dữ liệu của các biến định tính.

Phạm vi nghiên cứu: trong phạm vị bài viết này, chúng tôi sẽ tiến hành hành nghiên cứu, thực hành các hàm của gói Forcats trong chương trình Rtudio.

1.5 Phương pháp nghiên cứu

Để nghiên tìm hiểu về gói Forcats và các chức năng của gói, chúng tôi sẽ sử dụng một số phương pháp nghiên cứu như sau:

  • Phương pháp thu thập dữ liệu thứ cấp: ở phương pháp này, chúng tôi sẽ tìm hiểu gói Forcats thông qua việc thu thập các dữ liệu có sẵn và phù hợp từ nguồn thư viện dữ liệu trong nền tảng RStudio, và một số nguồn có sẵn khác để làm cơ sở nghiên cứu và thực hành gói Forcats.
  • Phương pháp phân tích tổng hợp lý thuyết: ở phương pháp này, chúng tôi sẽ thực hiện phân tích những lý thuyết và dữ liệu đã thu thập được để tìm ra các đặc điểm, ý nghĩa và hiểu rõ về các thức sử dụng của các hàm trong gói Forcats.
  • Phương pháp phân loại và hệ thống hóa lý thuyết: từ những lý thuyết mà chúng tôi đã thu thập và tổng hợp được, thông qua phương pháp này, chúng tôi sẽ sắp xếp thành một hệ thống chặt chẽ để có thể phân loại các chức năng tương ứng các hàm trong gói Forcat. Từ đó tạo ra cái nhìn trực quan và tổng thể về hàm trong gói này.

2 Chương 2: Giới thiệu về gói Forcats

2.1 Khái quát về gói Forcats

Forcats là một trong những gói phổ biến và quan trong ngôn ngữ lập trình R, được xây và phát triển bởi Hadley Wickham, một nhà thống kê, phân tích dữ liệu nổi tiếng người New Zealand và cộng sự của ông là Lionel Henry tại công ty RStudio. Đây chính là đơn vị nắm giữ bản quyền và tài trợ. Ngoài ra Forcats được phát hành theo giấy phép MIT, cho phép người dùng được tự do sử dụng gói này.

Gói Forcats là một phần của “tidyverse”, một bộ sưu tập các gói (package) được phát triển bởi Hadley Wickham, nhằm giúp người dùng làm việc với dữ liệu dễ dàng và hiệu quả hơn. Đặc biệt là trong việc xử lý dữ liệu dành cho biến định tính, Forcats cho phép người dùng sử dụng các hàm với chức năng như chuyển đổi, sắp xếp, xử lý và phân loại dữ liệu một các hiệu quả, hỗ trợ cho việc phân tích và trực quan hóa dữ liệu.

2.2 Một số khái niệm trong phân tích dữ liệu với Forcats

Trong quá trình xử lý dữ liệu của các biến định tính với gói Forcats, chúng tôi nhận thấy chúng ta thường xuyên tiếp xúc với hai khái niệm factor và level, để thuận tiện cho việc tìm hiểu gói, chúng tôi sẽ giải thích hai khái niệm này như sau:

factor: trong bài viết này chúng tôi tạm dịch là phạm trù, đây là những giá trị của các biến định tính. Ví dụ như, giới tính được phân chia thành hai nhóm nam và nữ, Vậy trong quá trình phân, giới tính là một biến định tính thì nam và nữ chính là các phạm trù của nó.

level: trong bài viết này, chúng tôi tạm dịch là thứ tự: nó cũng tương ứng với một phạm trù của biến định tính. Tuy nghiên điểm khác biệt ở đây đó nó có cấp bậc, thứ tự. Chúng ta cần phải quan tâm đến thứ tự phạm trù của biến bởi vì, trong một số hoạt động phân tích dữ liệu định tính, ngôn ngữ lập trình R sẽ mặc định làm việc với phạm trù có thứ tự thứ nhất hoặc thứ hai… Ví dụ như, trong mô hình hồi quy cho dữ liệu nhị phân, hàm hồi logistic trong R sẽ mặc định hồi quy cho phạm trù thứ 2 của biến định tính.

2.3 Tổng quát các chức năng của Forcats

Để xử lý dữ liệu của các biến định tính phục vụ cho quá trình phân tích và trực quan hóa dữ liệu, Forcats cung cấp bốn nhóm chức năng chính sau:

Sắp xếp thứ các phạm trù: Chức năng này dùng để thay đổi thứ tự các phạm trù của biến định tính khi trực quan hóa (vẽ biểu đồ) hoặc bảng biểu dữ liệu theo một thứ tự ứng với nhu cầu phân tích.

Thay đổi giá trị trong thứ tự các phạm trù: Đối với chức năng này, người dùng có thể tạo ra các phạm trù mới cho biến định tính thông qua việc kết hợp các yếu tố trong biến đã có sẵn, hoặc gộp các phạm trù không phổ biến thành biểu hiện “khác”,…

Thêm hoặc loại bỏ bớt các phạm trù: Đối với chức năng này, ta vẫn sẽ giữa nguyên những thứ tự các phạm trù trong biến định tính, song song đó, để đáp ứng mục đích phân tích, ta có thể thêm hoặc xóa đi một hoặc một số số các phạm trù và thứ tự của phạm trù đó.

Kết hợp nhiều phạm trù: bên cạnh việc cho phép người dùng thay đổi phạm trù trong cùng một biến, với chức năng này, người sử dụng còn có thể kết hợp các phạm trù từ những biến định tính khác nhau, để tạo ra một biến mới.

Ngoài ra Forcats còn cung cấp một số chức năng khác để xử lí dữ liệu như: chuyển đổi dữ liệu đầu vào thành dạng dữ liệu định, đếm số phạm trù, lập bảng tần số cho các phạm trù…

3 Chương 3: Thực hành, cụ thể hóa các chức năng của gói Forcats thông qua các hàm

4 TÀI LIỆU THAM KHẢO