1 CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1 Đặt vấn đề nghiên cứu

Hiện nay, nhiều lĩnh vực đã áp dụng phân tích dữ liệu vào trong quá trình nghiên cứu để có thể đạt được kết quả tốt hơn và độ chính xác cao hơn. Tuy nhiên, dữ liệu được thu thập thường rất lớn, phức tạp, cấu trúc không phù hợp hoặc có thể bị thiếu dữ liệu cho nên không thể nào đưa vào mô hình phân tích ngay lập tức. Do đó, các nhà nghiên cứu cần phải xử lí và biến đổi cấu trúc dữ liệu sao cho phù hợp với mục tiêu nghiên cứu, có thể nói đây chính là một phần khá phức tạp và mất nhiều thời gian trong một công trình nghiên cứu bởi vì bộ dữ liệu quá lớn và chứa nhiều biến khác nhau chưa đáp ứng được nhu cầu của người sử dụng. Chính vì thế, họ luôn tìm kiếm cho mình một công cụ tối ưu để dễ dàng chuẩn hóa và làm sạch dữ liệu đồng thời tiết kiệm thời gian, công sức mà vẫn đạt hiệu quả cao.

Nhận thấy vấn đề được nói trên chúng em thực hiện nghiên cứu về gói “Tidyr”, đây là một công cụ mãnh mẽ hỗ trợ mọi người có thể chuẩn hóa, biến đổi cấu trúc dữ liệu dựa vào định dạng tidy data, trong đó thì mỗi cột dữ liệu đại diện cho một biến, mỗi hàng đại diện cho một quan sát và mỗi ô thì chứa một giá trị cụ thể điều này sẽ giúp việc phân tích và trực quan hóa dữ liệu trở nên dễ dàng hơn. Hơn thế, nó cũng có thể hỗ trợ tách, ghép và hoàn chỉnh dữ liệu còn thiếu bằng những cú pháp đơn giản, rõ ràng từ đó mọi người có thể tiến hành phân tích các mô hình. Gói Tidyr là một công cụ tối ưu, đa năng, cú pháp đơn giản và nhận được sử hỗ trợ phát triển từ cộng đồng R, vì thế nó có thể giải quyết nhiều vấn đề trong quá trình xử lý dữ liệu trong nhiều lĩnh vực. Chẳng hạn như trong tài chính gói tidyr có thể giúp chúng ta tổ chức và sắp xếp lại dữ liệu về cổ phiểu của một ngành để đánh giá tình hình hoạt động và xây dựng mô hình dự báo. Trong lĩnh vực kinh tế thì nó giúp biến đổi dữ liệu về GDP, thương mại, sản xuất và một số chỉ số kinh tế khác của các quốc gia theo năm để đánh giá tốc độ phát triển và tổng quan về mối quan hệ kinh tế giữa các quốc gia. Qua đó, ta thấy rằng lợi ích mà gói Tidyr mang lại trong giai đoạn chuẩn hóa dữ liệu là vô cùng to lớn, tiết kiệm được rất nhiều thời gian và cung cấp kết quả phân tích có độ chính xác cao hơn.

1.2 Lý do chọn đề tài

Trong quá trình thực hành với nhiều dữ liệu phức tạp nhóm em nhận thấy việc xử lý dữ liệu gặp nhiều khó khăn, ảnh hưởng đến kết quả cũng như là thời gian thực hiện. Nghiên cứu về gói Tidyr sẽ giúp việc chuẩn hóa và biến đổi cấu trúc dữ liệu trở nên dễ dàng hơn, các cú pháp tương đối đơn giản và rõ ràng không đòi hỏi kiến thức chuyên sâu. Ngoài ra, Tidyr cung cấp cho người sử dụng rất nhiều chức năng khác nhau, nó giúp người dùng dễ dàng xử lý dữ liệu không đồng nhất, không cấu trúc hoặc thiếu dữ liệu, tạo điều kiện thuận lợi cho việc phân tích và trực quan hóa dữ liệu. Cộng đồng R là một cộng đồng lớn về ngôn ngữ lập trình, họ thường xuyên cập nhập, phát triển gói Tidyr ngày càng tối ưu hơn, điều này khiến cho nhóm em học tập thêm nhiều kiến thức về phân tích dữ liệu và sử dụng gói này một cách hiệu quả nhất trong công việc trong tương lai. Hơn thế, Tidyr được thiết kế dùng để giải quyết các vấn đề phổ biến và thực tế ở nhiều lĩnh vực khác nhau, mặc dù dữ liệu nghiên cứu kích thước lớn thì nó vẫn xử lý hiệu quả và tiết kiệm được nhiều thời gian. Vì thế, nhóm em tin rằng tìm hiểu về gói Tidyr là chủ đề hữu ích có thể hỗ trợ mọi người đang gặp khó khăn trong việc xử lý dữ liệu.

1.3 Giới thiệu về gói Tidyr

1.3.1 Nguồn gốc

Gói tidyr là một phần của Tidyverse, một bộ sưu tập các gói R được thiết kế cho việc xử lý và phân tích dữ liệu. Gói tidyr tập trung chủ yếu vào các hoạt động làm gọn gàng và cấu trúc lại dữ liệu, giúp dễ dàng chuyển đổi tập dữ liệu thành định dạng tidy (gọn gàng) thuận tiện hơn cho phân tích và trực quan hóa.

Gói tidyr được phát triển bởi Hadley Wickham, một nhà thống kê và nhà khoa học dữ liệu nổi tiếng với đóng góp cho ngôn ngữ lập trình R và khái niệm dữ liệu tidy. Hadley Wickham cũng là người sáng tạo ra các gói phổ biến khác như ggplot2 và dplyr. Ông đã phát triển tidyr như một phần của nỗ lực của mình để thúc đẩy nguyên tắc của dữ liệu tidy, nhấn mạnh việc tổ chức và sắp xếp dữ liệu theo một cấu trúc nhất quán để tạo thuận lợi cho phân tích và truyền tải thông tin.

1.3.2 Chức năng

Gói tidyr cung cấp một loạt các hàm hỗ trợ chúng ta trong việc làm gọn và tái cấu trúc dữ liệu. Các hàm này có thể được nhóm thành một số danh mục chính, mỗi danh mục phục vụ cho một mục đích cụ thể trong việc chỉnh sửa và tổ chức dữ liệu.

1.3.2.1 Tách dữ liệu

Trong gói tidyr hỗ trợ người dùng tách dữ liệu một cột thành nhiều cột dựa trên những ký tự phân tách hoặc các mẫu bằng hàm separate, điều này thực sự hữu ích khi bạn có một cột chứa các giá trị kết hợp với nhau làm cho việc phân tích gặp nhiều khó khăn và bạn muốn phân tách nó ra thành những cột riêng biệt. Chẳng hạn, một cột chứa thông tin về ngày tháng năm sinh để biết chi tiết hơn ta có thể sử dụng hàm separate để tách riêng làm ba cột ngày, tháng, năm để phục vụ cho mục đích công việc cụ thể. Ngoài ra, chức năng này không làm thay đổi dữ liệu gốc mà chỉ tạo ra các cột mới từ dữ liệu ban đầu, điều này cho phép chúng ta biến đổi về dữ liệu gốc dễ dàng hơn nếu muốn.

1.3.2.2 Kết hợp cột

Trái ngược với chức năng tách cột, gói Tidyr sẽ giúp chúng ta kết hợp các cột lại thành một cột bằng cách ghép các giá trị của chúng lại với nhau. Giả sử ta có một cột chứa họ và một cột chứa tên thì có thể ghép hai cột này thành một cột họ và tên hoàn chỉnh bằng hàm unite, điều này sẽ giúp dữ liệu trở nên gọn gàng và phù hợp để sử dụng. Đây là một chức năng dễ dàng sử dụng tuy nhiên tạo ra cột mới có độ linh hoạt cao, thuận tiện trong quá trình xử lý.

1.3.2.3 Pivoting(Biến đổi)

  • “Pivoting” (Chuyển đổi): chuyển đổi giữa các dạng dữ liệu rộng và dài. tidyr giới thiệu pivot_longer() và pivot_wider(), thay thế các hàm spread() và gather(). Quá trình biến đổi này đặc biệt hữu ích khi bạn cần thay đổi cấu trúc dữ liệu để phù hợp hơn với mục đích phân tích hoặc trực quan hóa.

  • Biến đổi từ dạng Dài sang Rộng: Khi dữ liệu ở định dạng dài, mỗi quan sát được biểu diễn bằng nhiều hàng và có các cột xác định riêng biệt liên kết những hàng này lại với nhau. Do đó, hàm pivot_wider() sẽ giúp ta chuyển đổi dữ liệu từ định dạng dài sang định dạng rộng bằng cách phân rải giá trị, điều này phụ thuộc vào mục tiêu phân tích bộ dữ liệu của người sử dụng.

  • Biến đổi từ dạng Rộng sang Dài: Ngược lại, khi dữ liệu ở định dạng rộng, mỗi quan sát được biểu diễn bằng một hàng đơn và các biến khác nhau được lưu trữ trong các cột riêng biệt. Hàm pivot_longer() sẽ giúp Chuyển đổi dữ liệu từ định dạng rộng sang định dạng dài bằng cách gom lại các cột để có thể phù hợp với nhu cầu của người thực hiện.

1.3.2.4 Xử lí giá trị thiếu

Việc phân tích dữ liệu sẽ không đạt được kết quả chính xác nếu dữ liệu gặp phải những giá trị bị thiếu sót, để khắc phục tình trạng như vậy thì gói này giúp người sử dụng xử lý những dòng bị thiếu giá trị bằng hàm complete, hàm này sẽ kết hợp các giá trị không bị thiếu trong các cột chỉ định từ đó điền vào những dòng bị thiếu. Hơn nữa, ta có thể loại bỏ các giá trị thiếu bằng hàm drop_na hoặc thay thế các giá trị bị thiếu bằng hàm fill, replace_na.

1.3.2.5 Nesting(Gộp) và Unnesting(khôi phục)

Nest() được sử dụng để tạo một khung dữ liệu lồng nhau bằng cách nhóm dữ liệu dựa trên các biến cụ thể. Nó cho phép bạn nhóm các quan sát liên quan với nhau trong một cột duy nhất.

Unnest() được sử dụng để mở rộng một khung dữ liệu lồng nhau thành một khung dữ liệu thông thường, trong đó mỗi quan sát lồng nhau trở thành một dòng riêng. Nó trích xuất dữ liệu lồng nhau và mở rộng chúng thành nhiều dòng.

1.3.3 Mục tiêu

Mục tiêu chính của tidyr là cung cấp một bộ công cụ với các chức năng đơn giản hóa quá trình cấu trúc lại và làm gọn dữ liệu. Gói này cung cấp các chức năng như gather(), spread(), separate(), unite(), pivot_longer() và pivot_wider(), cho phép người dùng chuyển đổi dữ liệu giữa các định dạng rộng và dài, phân tách và kết hợp cột, và chuyển đổi dữ liệu để tạo bảng tóm tắt. Các hoạt động này là cần thiết để tổ chức và xử lý dữ liệu một cách dễ dàng và trích xuất thông tin.

Gói tidyr đã thu hút sự quan tâm đáng kể trong cộng đồng R nhờ cú pháp dễ hiểu và nhất quán, phù hợp với nguyên tắc của Tidyverse. Nó đã trở thành một công cụ được sử dụng rộng rãi để làm sạch dữ liệu, tiền xử lý và cấu trúc lại trong quy trình phân tích dữ liệu bằng R.

1.3.4 Lợi ích

Các lợi ích của việc sử dụng gói tidyr bao gồm:

  • Dễ dàng làm sạch dữ liệu: Gói tidyr cung cấp các hàm đơn giản và dễ hiểu để cấu trúc lại và làm gọn dữ liệu. Nó cung cấp các chức năng như gather(), spread(), separate(), unite(), pivot_longer(), và pivot_wider() cho phép người dùng dễ dàng chuyển đổi dữ liệu giữa các định dạng rộng và dài, phân tách và kết hợp cột, và biến đổi dữ liệu để tạo bảng tóm tắt. Những thao tác này là cần thiết để tổ chức và xử lý dữ liệu một cách hiệu quả.

  • Tích hợp với tidyverse: Gói tidyr là một phần của hệ sinh thái tidyverse, là một bộ sưu tập các gói R được thiết kế cho việc làm sạch và phân tích dữ liệu. Nó tích hợp một cách mượt mà với các gói tidyverse khác như dplyr và ggplot2, cho phép quy trình làm việc mượt mà và cú pháp nhất quán. Tích hợp này cho phép người dùng thực hiện các thao tác phức tạp trên dữ liệu và tạo biểu đồ một cách nhất quán và hiệu quả.

  • Tương thích với nguyên tắc dữ liệu tidy: Gói tidyr tuân thủ nguyên tắc của dữ liệu tidy, nhấn mạnh việc tổ chức dữ liệu theo một cấu trúc nhất quán. Bằng cách tuân thủ nguyên tắc dữ liệu tidy, người dùng có được dữ liệu rõ ràng hơn, dễ khám phá hơn và kết quả phân tích đáng tin cậy hơn. Dữ liệu tidy đảm bảo mỗi biến có một cột riêng, mỗi quan sát có một hàng riêng và mỗi ô chứa một giá trị duy nhất.

  • Hỗ trợ phân tích và trực quan hóa dữ liệu: Dữ liệu tidy đơn giản hóa quá trình phân tích và trực quan hóa dữ liệu. Bằng cách chuyển đổi dữ liệu thành định dạng tidy, việc thực hiện các tác vụ phân tích dữ liệu thông thường, áp dụng phân tích thống kê và tạo biểu đồ thông tin trở nên dễ dàng hơn. Dữ liệu tidy giảm thiểu việc phải làm việc phức tạp với dữ liệu, cho phép các nhà phân tích tập trung nhiều hơn vào việc trích xuất thông tin và đưa ra quyết định dựa trên dữ liệu.

Tóm lại, mục tiêu chính của gói tidyr là cung cấp các công cụ để làm sạch và cấu trúc lại dữ liệu, với lợi ích là giúp người dùng dễ dàng chuyển đổi dữ liệu thành định dạng tidy. Điều này hỗ trợ phân tích dữ liệu, tích hợp với các gói tidyverse khác và hỗ trợ nguyên tắc dữ liệu tidy để hiểu dữ liệu tốt hơn và tạo quy trình làm việc hiệu quả

1.3.5 Ưu và nhược điểm của gói tidyr

1.3.5.1 Ưu điểm của gói tidyr

Đơn giản hóa việc xử lý dữ liệu: tidyr cung cấp một bộ công cụ với các hàm dễ hiểu giúp đơn giản hóa công việc cấu trúc lại và làm sạch dữ liệu. Nó cung cấp các hàm như gather(), spread(), separate(), unite(), pivot_longer() và pivot_wider() cho phép người dùng dễ dàng chuyển đổi dữ liệu giữa các định dạng rộng và dài, phân tách và kết hợp cột, và biến đổi dữ liệu để tạo bảng tóm tắt. Những hoạt động này là cần thiết để tổ chức và xử lý dữ liệu một cách hiệu quả.

Tích hợp với tidyverse: tidyr là một phần của hệ sinh thái tidyverse, một bộ sưu tập các gói R được thiết kế để làm sạch và phân tích dữ liệu. Nó tích hợp một cách mượt mà với các gói tidyverse khác như dplyr và ggplot2, cho phép quy trình làm việc trơn tru và có cú pháp nhất quán. Tích hợp này cho phép người dùng thực hiện các phép toán phức tạp trên dữ liệu và tạo biểu đồ một cách nhất quán và hiệu quả.

Tuân thủ nguyên tắc dữ liệu tidy: tidyr tuân thủ các nguyên tắc của dữ liệu tidy, nhấn mạnh việc tổ chức dữ liệu thành một cấu trúc nhất quán. Bằng việc tuân thủ nguyên tắc dữ liệu tidy, người dùng có dữ liệu rõ ràng hơn, khám phá dữ liệu hiệu quả hơn và kết quả phân tích đáng tin cậy hơn. Dữ liệu tidy đảm bảo rằng mỗi biến có một cột riêng, mỗi quan sát có một hàng riêng, và mỗi ô chứa một giá trị duy nhất.

1.3.5.2 Nhược điểm của gói tidyr

Giới hạn chức năng: Mặc dù tidyr cung cấp một tập hợp hữu ích các hàm để cấu trúc lại và làm sạch dữ liệu, nhưng nó có thể không đáp ứng được tất cả các tình huống xử lý dữ liệu khác nhau. Có thể có những trường hợp yêu cầu các phép toán phức tạp hoặc đặc thù hơn và tidyr có thể không có các hàm dành riêng cho những nhiệm vụ đó.

Khó khăn trong quá trình học tập: Giống như bất kỳ gói hay công cụ mới nào, việc sử dụng tidyr một cách hiệu quả cũng có thể gặp khó khăn ban đầu. Người dùng cần làm quen với cú pháp và các hàm cụ thể của tidyr để tận dụng tối đa khả năng của nó. Quá trình học này có thể yêu cầu một khoảng thời gian và nỗ lực nhất định.

Phụ thuộc vào tidyverse: Mặc dù việc là một phần của tidyverse mang lại nhiều lợi ích, nhưng đồng thời cũng có thể là một hạn chế đối với những người dùng ưa thích hoặc phụ thuộc vào các gói xử lý dữ liệu khác nằm ngoài hệ sinh thái tidyverse. Sử dụng tidyr trong quy trình làm việc dựa trên tidyverse có thể yêu cầu sự chuyển đổi sang các gói tidyverse khác, điều này có thể không phù hợp với mọi người.

1.4 Đóng góp của đề tài

Bài tiểu luận của nhóm em đóng góp cho cộng đồng sử dụng R trong việc áp dụng gói Tidyr vào việc phân tích dữ liệu ở một số khía cạnh quan trọng.

Đầu tiên, chúng em đã giới thiệu chi tiết về gói Tidyr, bao gồm các chức năng, lợi ích, phương pháp và cách thức thực hiện các hàm quan trọng trong gói Tidyr, điều này giúp cho mọi người có cái nhìn tổng quan nhất về nó.

Thứ hai, chúng em áp dụng vào việc phân tích dữ liệu tài chính qua đó làm nổi bật tính ứng dụng của Tidyr trong các lĩnh vực, cũng như nhấn mạnh sự tiện ích và hiệu quả của nó trong việc giúp người dùng tiết kiệm thời gian và nỗ lực trong công việc xử lý dữ liệu.

Cuối cùng, nhóm phân tích được tiềm năng và hạn chế của Tidyr, qua đó giúp cho những người phân tích dữ liệu sử dụng hiệu quả nhất gói này vào trong công việc của họ.

1.5 Kết cấu

Chương 1: Giới thiệu đề tài

Giới thiệu tổng quan về tầm quan trọng của việc thực hiện đề tài nghiên cứu gói tidyr trong R, đưa ra những lý do để chọn chủ đề này và nêu những nội dung quan trọng của gói tidyr.

Chương 2: Thực hành các hàm trong tidyr

Chương hai sẽ trình bày cụ thể chức năng các hàm trong gói tidyr và đưa ra những ví dụ cụ thể để hướng dẫn thực hành.

Chương 3: Ứng dụng của tidyr

Dựa vào các chức năng của các hàm được trình bày trong chương 2 sau đó được áp dụng lên những dữ liệu lớn hơn và có cấu trúc khó hơn bằng cách kết hợp thêm một số gói khác như dplyr. Sau khi chuẩn hóa dữ liệu thì thực hiện tính thóa và trực quan hóa dữ liệu

Chương 4: Kết luận

Chương cuối sẽ kết luận những kết quả thu được trong bài này, đưa ra những hạn chế trong quá trình nghiên cứu và đề xuất phương hướng làm tiếp theo.

2 CHƯƠNG 2: THỰC HÀNH CÁC HÀM TRONG TIDYR

Trong chương hai nhóm chúng tôi thực hiện các lệnh trong gói Tidyr để giúp người đọc có thể hiểu rõ các chức năng trong gói này. Từ đó, những người quan tâm đến gói Tidyr áp dụng các hàm vào công việc xử lí bộ dữ liệu của họ nhanh chóng hơn. Việc giới thiệu chi tiết về sử dụng gói Tidyr thông qua việc thực hành trên dữ liệu mẫu là nền tảng quan trọng để nhóm chúng tôi có thể ứng dụng Tidyr ở các phần sau

2.1 Biến đổi dữ liệu (Pivoting)

2.1.1 Chuyển dữ liệu sang dạng dài

Hàm pivot_longer hỗ trợ chúng ta chuyển đổi dữ liệu từ dạng rộng (wide format) sang dạng dài (long format). Việc biến đổi cấu trúc dữ liệu có ý nghĩa khi người phân tích muốn xử lý trên dữ liệu dạng dài để có thể thao tác dễ dàng và đạt nhiều hiệu quả hơn dạng rộng.

Chức năng pivot_longer() có một số tham số quan trọng như sau:

  • data: Tham số này yêu cầu dữ liệu mà chúng ta muốn chuyển đổi từ dạng rộng sang dạng dài.

  • cols: tham số này là danh sách các cột mà ta muốn chuyển đổi. Ta có thể chỉ định tên cột cụ thể trong data hoặc sử dụng các hàm để lựa chọn các cột theo những tiêu chí mà chúng ta muốn

  • names_to: Tên của cột mới sẽ lưu trữ các tên biến sau khi chuyển đổi sang dạng dữ liệu dài.

  • values_to: Tên của cột mới mà sẽ chứa các giá trị biến sau khi chuyển đổi.

Trước khi thực hành hàm pivot_longer tôi sẽ gọi một dữ liệu mẫu trong gói Tidyr đó chính là table4b, dữ liệu này gồm dân số của 3 quốc gia Afghanistan, Brazil, China trong hai năm 1999,2000.

library(tidyr)
library(tidyverse)
table4b
## # A tibble: 3 × 3
##   country         `1999`     `2000`
##   <chr>            <dbl>      <dbl>
## 1 Afghanistan   19987071   20595360
## 2 Brazil       172006362  174504898
## 3 China       1272915272 1280428583

Từ table4b với mục đích biến đổi các năm về cùng một cột và giá trị về một cột chung với nhau, ta có thể thực hiện lệnh pivot_longer với dữ liệu ban đầu muốn chuyển đổi sang dạng dài là table4b, tham số ‘cols’ chỉ định các cột muốn chuyển đổi là cột từ “1999” đến “2000”, tham số names_to được sử dụng để đặt tên cột mới chứa các biến với là “year” và tham số values_to đặt tên cho cột chứa các giá trị biến tương ứng là values.

pivot_longer(table4b,cols= '1999':'2000',
                         names_to = "year",
                         values_to = "values")
## # A tibble: 6 × 3
##   country     year      values
##   <chr>       <chr>      <dbl>
## 1 Afghanistan 1999    19987071
## 2 Afghanistan 2000    20595360
## 3 Brazil      1999   172006362
## 4 Brazil      2000   174504898
## 5 China       1999  1272915272
## 6 China       2000  1280428583

Như kết quả sau khi chuyển đổi bên trên ta sẽ có được một dữ liệu dạng dài với mỗi dòng cho biết về tên quốc gia, năm khảo sát và dân số tương ứng.

2.1.2 Chuyển dữ liệu sang dạng rộng

Hàm pivot_wider có chức năng biến đổi dạng dữ liệu dài sang dữ liệu rộng sao cho phù hợp với mục tiêu của người sử dụng. Hàm này có thao tác khá đơn giản tuy nhiên mang lại rất nhiều lợi ích trong quá trình làm việc của mọi người. Pivot_wider có các tham số chính như sau:

  • data: Dữ liệu dùng để chuyển sang dữ liệu dạng rộng

  • names_from: Tên cột hoặc biến mà ta muốn biến đổi thành các cột mới.

  • values_from: Tên cột hoặc biến chứa các giá trị tương ứng với các cột mới.

Dữ liệu được sử dụng để thực hiện hàm pivot_wider là table2, đây là dữ liệu mẫu trong gói Tidyr chứa thông tin về quốc gia, năm, loại số liệu về dân số, trường hợp mắc bệnh và số người tương ứng.

table2
## # A tibble: 12 × 4
##    country      year type            count
##    <chr>       <dbl> <chr>           <dbl>
##  1 Afghanistan  1999 cases             745
##  2 Afghanistan  1999 population   19987071
##  3 Afghanistan  2000 cases            2666
##  4 Afghanistan  2000 population   20595360
##  5 Brazil       1999 cases           37737
##  6 Brazil       1999 population  172006362
##  7 Brazil       2000 cases           80488
##  8 Brazil       2000 population  174504898
##  9 China        1999 cases          212258
## 10 China        1999 population 1272915272
## 11 China        2000 cases          213766
## 12 China        2000 population 1280428583

Đầu tiên, ta cần khai báo dữ liệu dùng để chuyển đổi là table2, phép toán tử giúp truyền kết quả của table2 phía trước thành đối tượng đầu vào của hàm pivot_wider. Tham số names_from trong trường hợp này được khai báo là type để chỉ ra tên cột dùng để biến đổi thành các cột mới trong dữ liệu rộng, mỗi giá trị trong biến type sẽ là một cột mới. values_from được chỉ định là biến count để chỉ ra các giá trị tương ứng với các cột mới

table2 %>% pivot_wider(names_from = type, values_from = count)
## # A tibble: 6 × 4
##   country      year  cases population
##   <chr>       <dbl>  <dbl>      <dbl>
## 1 Afghanistan  1999    745   19987071
## 2 Afghanistan  2000   2666   20595360
## 3 Brazil       1999  37737  172006362
## 4 Brazil       2000  80488  174504898
## 5 China        1999 212258 1272915272
## 6 China        2000 213766 1280428583

Chuyển đổi cấu trúc dữ liệu table2 sang dạng dữ liệu rộng giúp ta dễ dàng đánh giá các trường hợp mắc bệnh và dân số của các quốc gia qua từng năm. Ngoài ra, việc chuyển đổi cấu trúc cũng giúp thực hiện phân tích theo từng biến và trực quan hóa dữ liệu tốt hơn.

2.2 Tách cột

Chức năng tách một cột thành nhiều cột dựa trên những ký tự phân tách sẽ là một công cụ tốt để chúng ta có thể xử lý dữ liệu của mình khi mà một cột chứa nhiều giá trị kết hợp với nhau. Việc phân tách cột không yêu cầu nhiều thao tác nhưng vẫn đảm bảo được độ chính xác so với dữ liệu ban đầu, thao tác này có thể được coi là một trong những bước xử lý chuỗi phức tạp. Dữ liệu sau khi được tách cột sẽ đem lại thông tin chi tiết hơn để có thể phân tích, so sánh, trực quan hóa dữ liệu. Trong Tidyr để tách cột thì ta dùng hàm separate() với những tham số chính cần phải lưu ý như

  • data: Dữ liệu ban đầu.

  • col: Tên cột cần tách.

  • into: Tên các cột mới được tạo ra sau khi tách.

  • sep: Ký tự phân tách hoặc mẫu được sử dụng để tách cột.

  • remove: Xác định xem cột ban đầu cần được loại bỏ sau khi tách hay không, mặc định là TRUE.

  • convert: Xác định xem các cột mới cần được chuyển đổi thành kiểu dữ liệu phù hợp hay không, mặc định là FALSE.

Dữ liệu đầu vào dùng để tách cột là table3, dữ liệu này có cột rate dùng ký tự / để tính tỷ lệ người mắc bệnh trên dân số của một quốc gia. Ta có thể dùng hàm separate() để tách cột rate thành một cột chứa số liệu về số người mắc bệnh và một cột chứa số liệu về dân số.

table3
## # A tibble: 6 × 3
##   country      year rate             
##   <chr>       <dbl> <chr>            
## 1 Afghanistan  1999 745/19987071     
## 2 Afghanistan  2000 2666/20595360    
## 3 Brazil       1999 37737/172006362  
## 4 Brazil       2000 80488/174504898  
## 5 China        1999 212258/1272915272
## 6 China        2000 213766/1280428583

Để thực hiện việc tách cột trước tiên chúng ta cần khai báo dữ liệu đầu vào là table3, chọn cột cần tách trong tham số col là cột rate, ở tham số into ta có thể đặt tên cho các cột mới là “case” và “population”, tiếp theo sep chỉ ra ký tự dùng để phân tách trong dữ liệu của chúng ta đó là “/”.

separate(data = table3, col= rate, into= c("case","population"),sep = "/")
## # A tibble: 6 × 4
##   country      year case   population
##   <chr>       <dbl> <chr>  <chr>     
## 1 Afghanistan  1999 745    19987071  
## 2 Afghanistan  2000 2666   20595360  
## 3 Brazil       1999 37737  172006362 
## 4 Brazil       2000 80488  174504898 
## 5 China        1999 212258 1272915272
## 6 China        2000 213766 1280428583

Kết quả từ câu lệnh trên sẽ tạo ra hai cột mới là case và population dựa vào cột rate ban đầu. Điều này sẽ giúp ta quan sát được số trường hợp mắc bệnh và dân số của một quốc gia một cách chi tiết hơn và sau đó có thể dễ dàng dùng nó trong các công việc khác.

separate(data = table3 , col = rate, into = c("case", "population"), remove = FALSE, convert = TRUE )
## # A tibble: 6 × 5
##   country      year rate                case population
##   <chr>       <dbl> <chr>              <int>      <int>
## 1 Afghanistan  1999 745/19987071         745   19987071
## 2 Afghanistan  2000 2666/20595360       2666   20595360
## 3 Brazil       1999 37737/172006362    37737  172006362
## 4 Brazil       2000 80488/174504898    80488  174504898
## 5 China        1999 212258/1272915272 212258 1272915272
## 6 China        2000 213766/1280428583 213766 1280428583

Ngoài ra, ta có thể thêm vào tham số remove là FALSE để giữ nguyên cột rate ban đầu và tham số convert bằng TRUE để xác định chuyển đổi thành kiểu dữ liệu phù hợp

2.3 Kết hợp cột

Ở bước làm sạch dữ liệu, chúng ta thường xuyên gặp phải các cột dữ liệu được tách ra riêng biệt và khi kết hợp chúng lại với nhau thì có thể được một cột dữ liệu hoàn chỉnh và gọn gàng hơn trước rất nhiều. Gói Tidyr bao gồm hàm unite() có thể dùng để kết hợp nhiều cột thành một cột bằng cách ghép các giá trị của chúng lại với nhau. Cấu trúc của dữ liệu sau khi biến đổi sẽ trở nên đơn giản, ít cột và mang ý nghĩa tổng quan hơn so với dữ liệu ban đầu. Những tham số chính trong hàm unite() được giải thích dưới đây:

  • data: Khung dữ liệu

  • col : Tên của cột mới được tạo, tên của các cột được hợp nhất sắp xếp theo trật tự

  • sep: Dấu phân cách giữa hai giá trị

  • remove: Nếu là TRUE sẽ xóa bỏ các cột dữ liệu ban đầu sau khi gộp lại thành cột mới

  • na.rm: Nếu là TRUE thì sẽ loại bỏ các giá trị bị thiếu trước khi kết hợp

Bảng dữ liệu table5 bên dưới có hai cột riêng biệt chứa giá trị về thế kỉ và năm, chúng ta kết hợp hai cột này thành một để có được số liệu năm hoàn chỉnh.

table5
## # A tibble: 6 × 4
##   country     century year  rate             
##   <chr>       <chr>   <chr> <chr>            
## 1 Afghanistan 19      99    745/19987071     
## 2 Afghanistan 20      00    2666/20595360    
## 3 Brazil      19      99    37737/172006362  
## 4 Brazil      20      00    80488/174504898  
## 5 China       19      99    212258/1272915272
## 6 China       20      00    213766/1280428583

Trong hàm unite() khung dữ liệu được khai báo là table5, tên của cột mới sau khi kết hợp lại được đặt là “newyear” và các cột dùng để ghép lại được chỉ định lần lượt là cột century, year. Đối số sep yêu cầu dấu phân cách sau khi ghép các giá trị lại, trong trường hợp này tôi sử dụng “” là không có khoảng cách sau khi kết hợp hai dữ liệu. remove cho bằng FALSE là sẽ không loại bỏ các cột ban đầu sau khi kết hợp cột.

unite(data = table5, col= newyear , century , year, sep="",remove = FALSE)
## # A tibble: 6 × 5
##   country     newyear century year  rate             
##   <chr>       <chr>   <chr>   <chr> <chr>            
## 1 Afghanistan 1999    19      99    745/19987071     
## 2 Afghanistan 2000    20      00    2666/20595360    
## 3 Brazil      1999    19      99    37737/172006362  
## 4 Brazil      2000    20      00    80488/174504898  
## 5 China       1999    19      99    212258/1272915272
## 6 China       2000    20      00    213766/1280428583

Sau khi kết hợp century và year ta được cột mới tên là newyear chứa các giá trị năm được ghép từ các giá trị trong hai cột trước đó. Từ đó, ta có thể sử dụng cột mới được tạo ra để làm các thao tác khác, chẳng hạn như vẽ đồ thị hay dùng để tính toán dựa vào từng năm.

2.4 Nest

Lệnh nest() không phải là một lệnh tích hợp trong R. Tuy nhiên, trong gói tidyr, có hàm nest() cho phép chúng ta tạo một cột mới trong một dataframe và lồng dữ liệu thành các danh sách dựa trên một hoặc nhiều biến. Các tham số chính trong hàm nest() được trình bày dưới đây

  • .data: Đối số này là dữ liệu gốc mà bạn muốn tạo khung dữ liệu lồng nhau từ đó

  • …: Đây là một đối số kiểu tidy-select, cho phép chọn các cột mà ta muốn lồng vào các khung dữ liệu con

  • .by: Đối số này cho phép chọn các cột dùng để nhóm dữ liệu

  • .key: là một đối số cho phép bạn chỉ định tên cho cột danh sách được tạo ra sau khi lồng dữ liệu. Nếu không chỉ định tên cho tham số này thì tên mặc định sẽ là “data”

Dưới đây là một ví dụ về dữ liệu của một bộ phận đang nghiên cứu về tình hình thời tiết trong các thành phố khác nhau. Chúng ta có một dataframe chứa thông tin về tên thành phố, ngày và giờ, nhiệt độ và độ ẩm.

# Tạo dataframe chứa dữ liệu về thời tiết
data <- data.frame(
  ThanhPho = c("Hanoi", "Hanoi", "Hanoi", "HoChiMinh", "HoChiMinh", "HoChiMinh"),
  Ngay = c("2023-01-01", "2023-01-02", "2023-01-03", "2023-01-01", "2023-01-02", "2023-01-03"),
  Gio = c("12:00", "12:00", "12:00", "12:00", "12:00", "12:00"),
  NhietDo = c(20.5, 22.3, 21.8, 30.2, 31.5, 30.9),
  DoAm = c(60, 65, 62, 70, 68, 72)
)
print(data)
##    ThanhPho       Ngay   Gio NhietDo DoAm
## 1     Hanoi 2023-01-01 12:00    20.5   60
## 2     Hanoi 2023-01-02 12:00    22.3   65
## 3     Hanoi 2023-01-03 12:00    21.8   62
## 4 HoChiMinh 2023-01-01 12:00    30.2   70
## 5 HoChiMinh 2023-01-02 12:00    31.5   68
## 6 HoChiMinh 2023-01-03 12:00    30.9   72
# Lồng dữ liệu thành danh sách theo tên thành phố 
nested_data <- data %>%group_by(ThanhPho) %>% nest()

# Lồng dữ liệu bằng .by 
nested_data <- nest(data, .by = ThanhPho, .key = "DuLieu")

# In dữ liệu lồng
print(nested_data)
## # A tibble: 2 × 2
##   ThanhPho  DuLieu          
##   <chr>     <list>          
## 1 Hanoi     <tibble [3 × 4]>
## 2 HoChiMinh <tibble [3 × 4]>
nested_data$DuLieu <- lapply(nested_data$DuLieu, as.data.frame)
lapply(nested_data$DuLieu, print)
##         Ngay   Gio NhietDo DoAm
## 1 2023-01-01 12:00    20.5   60
## 2 2023-01-02 12:00    22.3   65
## 3 2023-01-03 12:00    21.8   62
##         Ngay   Gio NhietDo DoAm
## 1 2023-01-01 12:00    30.2   70
## 2 2023-01-02 12:00    31.5   68
## 3 2023-01-03 12:00    30.9   72
## [[1]]
##         Ngay   Gio NhietDo DoAm
## 1 2023-01-01 12:00    20.5   60
## 2 2023-01-02 12:00    22.3   65
## 3 2023-01-03 12:00    21.8   62
## 
## [[2]]
##         Ngay   Gio NhietDo DoAm
## 1 2023-01-01 12:00    30.2   70
## 2 2023-01-02 12:00    31.5   68
## 3 2023-01-03 12:00    30.9   72

Trong ví dụ này, chúng ta sử dụng hàm nest() trong gói tidyr và hàm group_by trong package dplyr để lồng dữ liệu theo tên thành phố. Bằng cách sử dụng chuỗi dòng lệnh trong gói tidyr và dplyr, chúng ta nhóm dữ liệu theo cột ThanhPho bằng hàm group_by() và sau đó sử dụng hàm nest() để tạo một cột mới chứa dữ liệu được lồng thành danh sách. Hoặc sử dụng tham số .by chọn cột ThanhPho để nhóm dữ liệu và sau đó dùng tham số .key để đặt tên cột danh sách tạo ra sau khi lồng dữ liệu.

Kết quả là một dataframe mới nested_data chứa hai cột: ThanhPho và DuLieu, trong đó cột hai chứa dữ liệu được lồng thành danh sách dựa trên tên thành phố. Các phần tử trong cột “DuLieu” là các danh sách dữ liệu con, mỗi danh sách chứa thông tin về ngày, giờ, nhiệt độ và độ ẩm tương ứng cho từng thành phố.

Lệnh nest() trong ví dụ này giúp chúng ta lồng dữ liệu theo tên thành phố, giúp tổ chức và xử lý dữ liệu thời tiết một cách trực quan và thuận tiện hơn

Sau đó, chúng ta tiếp tục sử dụng hàm lapply() để áp dụng hàm print() cho mỗi tibble trong danh sách nested_data$DuLieu. Kết quả là cả hai dữ liệu bảng từ các tibble sẽ được hiển thị trên màn hình, mỗi tibble đi kèm với tên cột và các giá trị tương ứng.

Kết quả hiện thị lần lượt là bảng về thới tiết ở Hà Nội và bảng sau đó là bảng thời tiết ở Hồ chí Minh. Đó là ví dụ về hàm nest() được sử dụng kết hợp với hàm group_by() và hàm lapply để cho ra được kết quả là các dữ liệu bảng được lồng vào nhau theo các biến chúng ta cần thống kê

2.5 Unnest

Trong ngôn ngữ lập trình R, lệnh unnest() được sử dụng để tách dữ liệu trong một cột chứa các đối tượng lồng nhau thành các cột riêng biệt. Điều này giúp chúng ta phân tách và truy cập dễ dàng vào các thành phần của các đối tượng được lồng nhau. Các tham số chính trong hàm unnest() gồm có:

  • data: Đối số này là dữ liệu gốc chứa cột danh sách mà chúng ta muốn giải nén. Đây là một đối số bắt buộc và phải là một khung dữ liệu (data frame).

  • col: Đây là đối số dùng để xác định tên của cột danh sách cần giải nén. Nó cũng là một đối số bắt buộc và phải là một chuỗi ký tự.

  • .drop: Một giá trị logical (TRUE hoặc FALSE) xác định xem liệu có nên loại bỏ cột danh sách sau khi giải nén hay không. Giá trị mặc định là TRUE, nghĩa là cột danh sách sẽ bị loại bỏ.

Dưới đây là ví dụ về lệnh unnest(), đầu tiên chúng tôi sẽ tạo dataframe chứa dữ liệu về sản phẩm và đặc điểm

data1 <- data.frame(
  SanPham = c("SP1", "SP2", "SP3"),
  MauSac = I(list(
    rep(c("Đỏ", "Xanh", "Vàng"), each = 3),
    rep(c("Trắng", "Đen"), each = 2),
    rep("Cam", 3)
  )),
  KichThuoc = I(list(
    rep(c("S", "M", "L"), each = 3),
    rep(c("M", "L"), each = 2),
    rep("S", 3)
  )),
  Gia = c(100, 200, 150)
)
print(data1)  
##   SanPham       MauSac    KichThuoc Gia
## 1     SP1 Đỏ, Đỏ, .... S, S, S,.... 100
## 2     SP2 Trắng, T....   M, M, L, L 200
## 3     SP3 Cam, Cam....      S, S, S 150
# Tách danh sách đặc điểm thành các cột riêng biệt
data_split <- unnest(data = data1, cols = c(MauSac,KichThuoc))


# In kết quả sau khi tách
datatable(data_split)

Trong ví dụ này, chúng ta có một dataframe data chứa thông tin về sản phẩm và đặc điểm của chúng. Cột MauSac và KichThuoc là các cột chứa danh sách các đặc điểm tương ứng với mỗi sản phẩm.

Sử dụng lệnh unnest() trong gói tidyr, chúng ta tách danh sách đặc điểm (MauSac và KichThuoc) thành các cột riêng biệt. Kết quả là một dataframe mới data_split với các cột SanPham, MauSac, KichThuoc và Gia, trong đó các cột MauSac và KichThuoc đã được tách thành các cột riêng biệt.

2.6 complete()

Hàm complete() trong R làm một công cụ mạnh mẽ để điền các giá trị thiếu và tạo ra các hàng hoàn chỉnh trong một dataframe, . Hàm complete() cho phép chúng ta điền các giá trị thiếu trong dataframe bằng cách tạo ra tất cả các kết hợp có thể của các giá trị trong các cột được chỉ định. Các giá trị đã có sẽ được giữ nguyên, trong khi các giá trị thiếu sẽ được điền bằng NA trong kết quả hoàn chỉnh. Những đối số có trong hàm complete()

  • data: Là data frame chứa dữ liệu cần mở rộng hoặc hoàn chỉnh.

  • …: Được sử dụng để chỉ định các cột cần mở rộng hoặc hoàn chỉnh. Các cột này có thể là các vectors hoặc danh sách (lists).

  • fill: Đối số này cho phép chúng ta cung cấp một giá trị duy nhất cho mỗi biến để điền vào thay vì giá trị NA cho các kết hợp bị thiếu.

  • explicit: Nếu tham số này bằng TRUE tất cả giá trị NA đều sẽ được điền, còn nếu bằng FALSE chỉ các giá trị NA được tạo ra bởi hàm mới được điền.

Ví dụ: Giả sử chúng ta có một bảng dữ liệu về các sản phẩm có thông tin về tên sản phẩm, loại sản phẩm và giá tiền. Tuy nhiên, bảng dữ liệu thiếu một số giá trị hoặc có các sản phẩm không có giá tiền. Chúng ta muốn điền các giá trị thiếu và tạo ra các sản phẩm hoàn chỉnh với tất cả các cột.

# Tạo dataframe chứa thông tin về sản phẩm
data2 <- data.frame(
  TenSanPham = c("SP1", "SP2", "SP3", "SP4"),
  LoaiSanPham = c("A", NA, "B", "C"),
  GiaTien = c(100, NA, 200, NA)
)
print(data2)
##   TenSanPham LoaiSanPham GiaTien
## 1        SP1           A     100
## 2        SP2        <NA>      NA
## 3        SP3           B     200
## 4        SP4           C      NA
# Điền các giá trị thiếu và tạo ra các sản phẩm hoàn chỉnh
data_complete <- complete(data2, TenSanPham, LoaiSanPham, GiaTien)

# In kết quả sau khi điền giá trị thiếu và tạo hàng hoàn chỉnh
options(max.print= 100)
print(data_complete, n = nrow(data_complete))
## # A tibble: 48 × 3
##    TenSanPham LoaiSanPham GiaTien
##    <chr>      <chr>         <dbl>
##  1 SP1        A               100
##  2 SP1        A               200
##  3 SP1        A                NA
##  4 SP1        B               100
##  5 SP1        B               200
##  6 SP1        B                NA
##  7 SP1        C               100
##  8 SP1        C               200
##  9 SP1        C                NA
## 10 SP1        <NA>            100
## 11 SP1        <NA>            200
## 12 SP1        <NA>             NA
## 13 SP2        A               100
## 14 SP2        A               200
## 15 SP2        A                NA
## 16 SP2        B               100
## 17 SP2        B               200
## 18 SP2        B                NA
## 19 SP2        C               100
## 20 SP2        C               200
## 21 SP2        C                NA
## 22 SP2        <NA>            100
## 23 SP2        <NA>            200
## 24 SP2        <NA>             NA
## 25 SP3        A               100
## 26 SP3        A               200
## 27 SP3        A                NA
## 28 SP3        B               100
## 29 SP3        B               200
## 30 SP3        B                NA
## 31 SP3        C               100
## 32 SP3        C               200
## 33 SP3        C                NA
## 34 SP3        <NA>            100
## 35 SP3        <NA>            200
## 36 SP3        <NA>             NA
## 37 SP4        A               100
## 38 SP4        A               200
## 39 SP4        A                NA
## 40 SP4        B               100
## 41 SP4        B               200
## 42 SP4        B                NA
## 43 SP4        C               100
## 44 SP4        C               200
## 45 SP4        C                NA
## 46 SP4        <NA>            100
## 47 SP4        <NA>            200
## 48 SP4        <NA>             NA

Trong ví dụ trên, chúng ta đã sử dụng hàm complete() để điền các giá trị thiếu và tạo ra các hàng hoàn chỉnh trong dataframe data. Các cột TenSanPham, LoaiSanPham và GiaTien đã được chỉ định là các cột cần hoàn chỉnh. Hàm complete() đã tạo ra tất cả các kết hợp có thể của các giá trị trong các cột được chỉ định và điền các giá trị thiếu bằng NA để tạo ra các hàng hoàn chỉnh. Kết quả được in ra màn hình để hiển thị dữ liệu đã được điền và tạo hàng hoàn chỉnh.

Trong kết quả, chúng ta có các hàng hoàn chỉnh với tất cả các kết hợp của các giá trị trong các cột TenSanPham, LoaiSanPham và GiaTien. Các giá trị thiếu được điền bằng NA để tạo ra các hàng hoàn chỉnh.

# Thêm vào tham số fill 
data_complete <- complete(data2, TenSanPham, LoaiSanPham, GiaTien, fill = list(LoaiSanPham="C",GiaTien=150) )
datatable(data_complete)

Tuy nhiên, chúng ta có thể áp dụng tham số fill để cung cấp một giá trị cho mỗi cột dữ liệu thay cho giá trị NA. Ở cột LoaiSanPham ta có thể chọn “C” để thay thế cho những giá trị NA, tương tự trong cột GiaTien chọn giá trị là 150.

Tóm lại, việc sử dụng hàm complete() sẽ giúp ta quản lý dữ liệu thiếu và chuẩn bị dữ liệu cho phân tích và khám phá dữ liệu một cách dễ dàng và hiệu quả.

2.7 Các hàm xử lý giá trị NA

Trong package tidyr, chúng ta có thể sử dụng các hàm như drop_na(), fill(), vàreplace_na() để xử lý các giá trị NA trong dữ liệu của mình. Thao tác này rất cần thiết đối vì dữ liệu được đem vào phân tích phải đầy đủ và độ chính xác cao thì kết quả thu được sẽ phản ánh đúng nhất với thực tế. Do đó, việc sử dụng thành thạo các công cụ trên sẽ giúp chúng ta tối ưu hóa thời gian làm việc của mình cũng như là đạt được kết quả tốt hơn ở những bước tiếp theo.

Chúng tôi sẽ thực hiện các ví dụ dựa trên dữ liệu có cấu trúc khá đơn giản nhằm mục đích giới thiệu những hàm xử lý các giá trị bị thiếu, ngoài ra cũng giúp người đọc có thể dễ dàng nhận ra được mức độ hiệu quả của nó khi được áp dụng lên bộ dữ liệu đơn giản. Sau đó, chương tiếp theo chúng tôi sẽ sử dụng lên dữ liệu phức tạp hơn và kết hợp thêm một số hàm khác để biến đổi về dạng dữ liệu sạch.

Để thực hiện các lệnh chúng tôi sẽ tạo một dataframe có tên là df gồm có cột date chứa chuỗi ngày bắt đầu từ “2023-07-01” đến “2023-07-10” và cột sales chứa số lượng sản phẩm được bán hàng ngày, trong đó có một số giá trị NA (thiếu thông tin) để đại diện cho các ngày không có dữ liệu.

# Tạo dữ liệu ví dụ
df <- data.frame(
  date = seq(as.Date("2023-07-01"), as.Date("2023-07-10"), by = "day"),
  sales = c(100, NA, 120, 80, NA, 90, NA, NA, 110, 95)
)
print(df)
##          date sales
## 1  2023-07-01   100
## 2  2023-07-02    NA
## 3  2023-07-03   120
## 4  2023-07-04    80
## 5  2023-07-05    NA
## 6  2023-07-06    90
## 7  2023-07-07    NA
## 8  2023-07-08    NA
## 9  2023-07-09   110
## 10 2023-07-10    95
  1. Xóa các dòng chứa giá trị NA “drop_na()”

Hàm drop_na(df) sẽ xóa các dòng trong dataframe df chứa giá trị NA. Kết quả được gán vào dataframe df_cleaned được thể hiện bên dưới. Chúng ta thấy rằng cả 4 dòng có giá trị NA đã bị xóa đi mất bây giờ dữ liệu chỉ còn lại 6 dòng.

# Xóa các dòng chứa giá trị NA
df_cleaned <- drop_na(df)
##         date sales
## 1 2023-07-01   100
## 2 2023-07-03   120
## 3 2023-07-04    80
## 4 2023-07-06    90
## 5 2023-07-09   110
## 6 2023-07-10    95
  1. Điền các giá trị NA bằng giá trị cụ thể “fill()”

Ngoài ra, chúng ta có thể điền hoặc thay thế các giá trị mới cho các dòng bị NA trong cột dữ liệu bằng hàm fill(). Điền giá trị sẽ dựa vào các dòng dữ liệu ở phía trên hoặc phía dưới để hoàn thiện các dòng NA trong cột.

Để sử dụng hàm fill() thì trước tiên ta cần khai báo bộ dữ liệu cần xử lý dữ liệu thiếu trong trường hợp này là df, sau đó chọn cột chứa các giá trị là sales và đối số .direction giúp ta chọn hướng để điền giá trị thiếu, mặc định sẽ là “down” điền từ trên xuống.

Dựa vào bảng kết quả ta có thể thấy ở ngày 2 thì số lượng sản phẩm được bán trong ngày sẽ được điền là 100 dựa vào dòng dữ liệu ở trước đó, tương tự cho các ngày bên dưới.

df_filled <- fill(data=df,sales,.direction = "down")
##          date sales
## 1  2023-07-01   100
## 2  2023-07-02   100
## 3  2023-07-03   120
## 4  2023-07-04    80
## 5  2023-07-05    80
## 6  2023-07-06    90
## 7  2023-07-07    90
## 8  2023-07-08    90
## 9  2023-07-09   110
## 10 2023-07-10    95

Tùy vào mục đích chúng ta có thể điền giá trị bị thiếu theo điều hướng từ phía dưới lên như bảng kết quả bên dưới ở ngày 7 và 8 giá trị NA được thay thế bằng 110 dựa vào số lượng bán hàng của ngày 9

df_filled2 <- fill(data=df,sales,.direction = "up")
##          date sales
## 1  2023-07-01   100
## 2  2023-07-02   120
## 3  2023-07-03   120
## 4  2023-07-04    80
## 5  2023-07-05    90
## 6  2023-07-06    90
## 7  2023-07-07   110
## 8  2023-07-08   110
## 9  2023-07-09   110
## 10 2023-07-10    95
  1. Thay thế các giá trị NA bằng giá trị khác “replace_na()”

Một cách khác dùng để xử lý giá trị thiếu là thay thế nó bằng một giá trị cụ thể mà chúng ta xác định, giá trị được dùng thay thế có thể là một con số, một vector và nó thay thế cho tất cả giá trị thiếu trong cột dữ liệu mà chúng ta chỉ định.

Trong ví dụ chúng tôi tính giá trị trung bình của cột sales trong dataframe df và loại bỏ các giá trị NA bằng đối số na.rm = TRUE . Tiếp theo, sử dụng hàm replace_na() để thay thế các giá trị NA trong cột sales của dataframe df bằng giá trị trung bình và kết quả được gán vào dataframe df_replaced

# Thay thế các giá trị NA bằng giá trị trung bình của sales
mean_sales <- mean(df$sales, na.rm = TRUE)
df_replaced <- replace_na(data=df, replace =  list(sales = mean_sales))
##          date     sales
## 1  2023-07-01 100.00000
## 2  2023-07-02  99.16667
## 3  2023-07-03 120.00000
## 4  2023-07-04  80.00000
## 5  2023-07-05  99.16667
## 6  2023-07-06  90.00000
## 7  2023-07-07  99.16667
## 8  2023-07-08  99.16667
## 9  2023-07-09 110.00000
## 10 2023-07-10  95.00000

3 CHƯƠNG 3: ỨNG DỤNG CỦA TIDYR

Trong chương này chúng tôi sẽ ứng dụng các hàm được giới thiệu ở chương 2 vào phân tích một số bộ dữ liệu để mọi người nhận thấy được sự hiệu quả của gói Tidyr trong giai đoạn xử lý dữ liệu chưa sạch. Ngoài ra, chúng tôi kết hợp một số gói khác chẳng hạn như dplyr, ggplot, tidyverse… để thuận tiện trong các thao tác phân tích cũng như trực quan hóa dữ liệu từ đó thu được kết quả tốt nhất.

3.1 Bộ dữ liệu gapminder

Trước khi phân tích thì chúng tôi sẽ giới thiệu bộ dữ liệu “gapminder” trong package gapminder gồm có những thông tin và biến nào để người đọc có sự nhìn nhận tổng quát về nó, điều này sẽ hữu ích trong việc hiểu rõ các lệnh được áp dụng sẽ mang lại kết quả như thế nào.

Bộ dữ liệu “gapminder” cung cấp thông tin về tuổi thọ trung bình, dân số và GDP per capita của các quốc gia từ năm 1952 đến 2007 với chu kỳ là 5 năm sẽ thu thập dữ liệu một lần. Nó giúp ta nắm bắt được sự thay đổi và sự phát triển của các quốc gia theo thời gian. Dữ liệu này gồm 1704 quan sát và có 6 biến trong đó:

  • country: Tên quốc gia.

  • continent: Lục địa nơi quốc gia thuộc về. Có 5 giá trị: Africa, Americas, Asia, Europe, và Oceania.

  • year: Năm ghi nhận dữ liệu.

  • lifeExp: Tuổi thọ trung bình của dân số trong quốc gia, tính bằng đơn vị năm.

  • population: Dân số của quốc gia trong năm cụ thể.

  • gdpPercap: GDP trên mỗi người dân của một quốc gia trong năm cụ thể.

Đầu tiên, chúng ta cần gọi dữ liệu “gapminder” bằng lệnh data sau khi đã cài đặt package gapminder và tải thư viện của nó lên, dữ liệu sẽ được gán vào biến “g” giúp việc nhập lệnh trở nên dễ dàng hơn so với tên ban đầu.

Bảng dữ liệu bên dưới, mỗi quan sát sẽ cho biết thông tin về tên quốc gia, châu lục của quốc gia, năm khảo sát và các chỉ số về tuổi thọ trung bình, dân số, GDP trên mỗi cá nhân tương ứng. Do đó, nó thuộc dạng dữ liệu “rộng” điều này sẽ giúp việc nhập dữ liệu hoặc trình bày bảng tốt hơn, người đọc báo cáo có thể hiểu rõ được nội dung mà không mất quá nhiều thời gian. Tuy nhiên dạng dữ liệu “rộng” sẽ gặp khó khăn trong việc phân tích vì vậy chúng ta cần phải chuyển sang dạng “dài”.

library(gapminder)
data("gapminder")
g <- gapminder
datatable(g)

Hàm pivot_longer()sẽ chuyển dữ liệu “g” sang dạng dài bằng cách chuyển đổi ba cột lifeExp, pop, gdpPercap thành hai cột mới là chiso chứa tên các chỉ số và giatri chứa các giá trị của các biến ban đầu. Sau đó sẽ gán dữ liệu được chuyển đổi vào “g2”, dữ liệu này sẽ có số quan sát là 5112 tuy nhiên thì số lượng biến sẽ ít hơn dữ liệu ban đầu (5 cột so với 6 cột).

g2 <- pivot_longer(data = g , cols = c(lifeExp,pop,gdpPercap), names_to = "chiso", values_to = "giatri")
head(g2)
## # A tibble: 6 × 5
##   country     continent  year chiso        giatri
##   <fct>       <fct>     <int> <chr>         <dbl>
## 1 Afghanistan Asia       1952 lifeExp        28.8
## 2 Afghanistan Asia       1952 pop       8425333  
## 3 Afghanistan Asia       1952 gdpPercap     779. 
## 4 Afghanistan Asia       1957 lifeExp        30.3
## 5 Afghanistan Asia       1957 pop       9240934  
## 6 Afghanistan Asia       1957 gdpPercap     821.

Nếu ta muốn tính trung bình của các chỉ số này theo từng châu lục khác nhau nhằm mục đích đánh giá tổng thể sự phát triển giữa các châu với nhau, ta có thể sử dụng thêm hàm group_by để nhóm dữ liệu theo cột continent, chiso và hàm summarise để thực hiện phép tính trung bình cho cột giatri của các nhóm dữ liệu. Cả hai hàm trên đều nằm trong gói dplyr có thể kết hợp với gói tidyr để biến đổi dữ liệu chưa sạch rất hiệu quả.

Kết quả thu được sẽ được gán vào “mean_g2” trong đó sẽ có cột continent chứa thông tin về các châu lục. Cột chiso gồm giá trị là GDP, tuổi thọ, dân số. Cột trungbinh sẽ chứa giá trị trung bình của các chỉ số tương ứng với mỗi châu lục.

mean_g2 <- g2 %>% group_by(continent,chiso) %>% summarise(trungbinh=mean(giatri))
datatable(mean_g2)

Từ đó, chúng ta trực quan hóa bộ dữ liệu vừa được tính trung bình bằng cách vẽ biểu đồ cột cho ba chỉ số với các màu sắc khác nhau. Các cột trên đồ thị sẽ tương ứng với các châu lục trong dữ liệu.

Biểu đồ có các cột màu đỏ là biểu đồ về GDP trên mỗi cá nhân trung bình của 5 châu lục. Dựa vào biểu đồ ta có thể thấy Châu Đại Đương có GDP cao nhất trong 5 châu lục (khoảng 18621 đô), ngược lại thì Châu Phi có GDP trung bình thấp với con số khiêm tốn là khoảng 2193 đô trên mỗi cá nhân.

Biểu đồ cột màu xanh lá đại diện cho tuổi thọ trung bình của người dân ở mỗi châu lục, nhìn tổng thể thì các châu lục có tuổi thọ trung bình không chênh lệch nhiều, ngoại trừ Châu Phi có tuổi thọ trung bình là khoảng 49 tuổi khá thấp so với Châu Âu (72 tuổi) và Châu Đại Đương (74 tuổi).

Cuối cùng, biểu đồ có cột màu xanh dương cho biết thông tin về dân số trung bình của các quốc gia trong một châu lục cụ thể. Ta nhận thấy rằng các quốc gia Châu Á có dân số trung bình cao vượt trội so với các châu lục còn lại( khoảng 77 triệu người). Tuy nhiên thì các quốc gia thuộc Châu Đại Đương và Châu Phi có dân số thấp (dưới mức 10 triệu người).

ggplot(mean_g2, aes(x = continent, y = trungbinh, fill = chiso)) +
  geom_col() +
  facet_grid(chiso ~ ., scales = "free_y") +
  labs(x = "ChauLuc", y = "GiaTri") +
  theme_minimal() +
  scale_y_continuous(expand = expansion(mult = c(0.1, 0.1)))

Trong một vài tình huống nhu cầu của người phân tích chỉ cần chọn một số quốc gia cụ thể để đánh giá sự phát triển của nó bằng các chỉ số thì chúng ta cũng có để kết hợp thêm hàm select()filter thuộc gói dplyr, sau đó thể hiện dữ liệu ở dạng đồ thị bằng các công cụ mạnh mẽ từ gói ggplot2.

Dưới đây chúng tôi chọn các cột country, lifeExp, year bằng hàm select() để dữ liệu đầu trong hàm phía sau sẽ nhỏ hơn bộ dữ liệu ban đầu. Phép toán tử %>% giúp dữ liệu sau khi được chọn đưa vào đối số đầu tiên của hàm filter để thực hiện lọc một số quốc gia trong cột country. Cuối cùng sử dụng hàm ggplot để vẽ đồ thị đường về tuổi thọ trung bình của ba quốc gia China, Vietnam, United States.

g %>% select(country,lifeExp,year) %>%  filter(country %in% c("China","Vietnam","United States"))%>% 
  ggplot(aes(x = year , y = lifeExp, color=country))+
      geom_line()+
      labs(x= "NĂM", y= "TUỔI THỌ", title = "BIỂU ĐỒ TUỔI THỌ TRUNG BÌNH", color = "QUỐC GIA")

Để biết thêm thông tin về sự thay đổi tổng dân số trong châu lục qua các năm, chúng tôi đã tính tổng dân số được nhóm theo biến continent, year. Kết quả sẽ được gán vào “g3” để thuận tiện thực hiện các lệnh tiếp theo.

Dữ liệu sau khi tính tổng dân số đã thuộc dạng dữ liệu dài, điều này sẽ khiến việc thực hiện trực quan hóa một cách rất dễ dàng. Do đó chúng ta có thể sử dụng nó biểu diễn đồ thị cột về sự thay đổi tổng dân số của các châu lục này qua các năm ngay lập tức.

g3 <- g %>% group_by(continent,year) %>% 
  summarise(spop=sum(pop))
head(g3)
## # A tibble: 6 × 3
## # Groups:   continent [1]
##   continent  year      spop
##   <fct>     <int>     <dbl>
## 1 Africa     1952 237640501
## 2 Africa     1957 264837738
## 3 Africa     1962 296516865
## 4 Africa     1967 335289489
## 5 Africa     1972 379879541
## 6 Africa     1977 433061021
ggplot(g3)+
  geom_col(
    aes(x= year, y = spop, fill= continent ),
    width = 2
  )

Để phù hợp cho việc thực hiện các báo cáo và trình bày bảng chúng ta có thể dùng hàm pivot_wider() để chuyển g3 sang dạng rộng như bên dưới đây. Bảng này sẽ giúp ta quan sát tổng dân số của từng lục địa qua các năm một cách thuận tiện hơn.

wider_g3<- pivot_wider(g3 ,names_from = continent, values_from = spop)
datatable(wider_g3)
  • Sau đó vẽ đồ thị cột thể hiện tổng dân số thay đổi qua các năm cho châu Âu
ggplot(wider_g3, aes(x = year, y= Europe ,fill= "Europe" ))+
  geom_col()+
  scale_fill_manual(values = "blue") +
  theme_minimal()+
   labs(x = "Năm",y="Dân số", title =  "BIỂU ĐỒ DÂN SỐ CHÂU ÂU ", fill = "Châu")

  • Dựa vào đồ thị, tổng dân số của Châu Âu có sự gia tăng qua các năm và tốc độ tăng này khá đồng đều nhau. Năm 1952 tổng dân số của châu lục này chỉ có khoảng 400 triệu người và tăng dần đến năm 2007 thì có khoảng 600 triệu người.

    Tiếp theo, chúng tôi sử dụng hàm nest() để gom các cột pop, gdpPercap và lifeExp thành một cột dạng nested list. Điều này giúp giảm sự phức tạp của dữ liệu và thực hiện các tính toán linh hoạt hơn theo nhóm đã được gộp.

# Sử dụng hàm nest() để gom các năm và chỉ số tương ứng thành cột dạng nested list
nested <- g %>%  nest(.by  = c(country, continent,year),.key = "chiso")
## # A tibble: 1,704 × 4
##    country     continent  year chiso           
##    <fct>       <fct>     <int> <list>          
##  1 Afghanistan Asia       1952 <tibble [1 × 3]>
##  2 Afghanistan Asia       1957 <tibble [1 × 3]>
##  3 Afghanistan Asia       1962 <tibble [1 × 3]>
##  4 Afghanistan Asia       1967 <tibble [1 × 3]>
##  5 Afghanistan Asia       1972 <tibble [1 × 3]>
##  6 Afghanistan Asia       1977 <tibble [1 × 3]>
##  7 Afghanistan Asia       1982 <tibble [1 × 3]>
##  8 Afghanistan Asia       1987 <tibble [1 × 3]>
##  9 Afghanistan Asia       1992 <tibble [1 × 3]>
## 10 Afghanistan Asia       1997 <tibble [1 × 3]>
## # ℹ 1,694 more rows
  • Như kết quả hiển thị bên trên, cột chiso nằm ở dạng danh sách lồng nhau ( nested list), mỗi phần tử sẽ chứa thông tin về pop, gdp, lifeExp của mỗi quốc gia theo từng năm.

Hơn thế, nếu chúng ta cần thông tin về các chỉ số của một quốc gia cụ thể chẳng hạn như United States ta có thể dùng hàm filter() để lọc nó ra và hiển thị kết quả về những chỉ số đã được gom.

nested$chiso <- lapply(nested$chiso, as.data.frame)
US <- nested %>%  filter(country == "United States")
## [[1]]
##   lifeExp       pop gdpPercap
## 1   68.44 157553000  13990.48
## 
## [[2]]
##   lifeExp       pop gdpPercap
## 1   69.49 171984000  14847.13
## 
## [[3]]
##   lifeExp       pop gdpPercap
## 1   70.21 186538000  16173.15
## 
## [[4]]
##   lifeExp       pop gdpPercap
## 1   70.76 198712000  19530.37
## 
## [[5]]
##   lifeExp       pop gdpPercap
## 1   71.34 209896000  21806.04
## 
## [[6]]
##   lifeExp       pop gdpPercap
## 1   73.38 220239000  24072.63
## 
## [[7]]
##   lifeExp       pop gdpPercap
## 1   74.65 232187835  25009.56
## 
## [[8]]
##   lifeExp       pop gdpPercap
## 1   75.02 242803533  29884.35
## 
## [[9]]
##   lifeExp       pop gdpPercap
## 1   76.09 256894189  32003.93
## 
## [[10]]
##   lifeExp       pop gdpPercap
## 1   76.81 272911760  35767.43
## 
## [[11]]
##   lifeExp       pop gdpPercap
## 1   77.31 287675526   39097.1
## 
## [[12]]
##   lifeExp       pop gdpPercap
## 1  78.242 301139947  42951.65
  • Để giải nén dữ liệu ở dạng list nested thì ta dùng hàm unnest(), kết quả thu được sẽ tương tự dữ liệu ban đầu ban đầu.
# Sử dụng hàm unnest() để giải nén dữ liệu
unnest <- nested %>% unnest(chiso)
## # A tibble: 1,704 × 6
##    country     continent  year lifeExp      pop gdpPercap
##    <fct>       <fct>     <int>   <dbl>    <int>     <dbl>
##  1 Afghanistan Asia       1952    28.8  8425333      779.
##  2 Afghanistan Asia       1957    30.3  9240934      821.
##  3 Afghanistan Asia       1962    32.0 10267083      853.
##  4 Afghanistan Asia       1967    34.0 11537966      836.
##  5 Afghanistan Asia       1972    36.1 13079460      740.
##  6 Afghanistan Asia       1977    38.4 14880372      786.
##  7 Afghanistan Asia       1982    39.9 12881816      978.
##  8 Afghanistan Asia       1987    40.8 13867957      852.
##  9 Afghanistan Asia       1992    41.7 16317921      649.
## 10 Afghanistan Asia       1997    41.8 22227415      635.
## # ℹ 1,694 more rows
# Vẽ biểu đồ cột cho tổng dân số (pop) của từng quốc gia trong năm 2007
 unnest %>% 
  filter(year == 2007 & country %in% c("Vietnam", "China", "Korea, Rep.", "Japan","Indonesia","Thailand","Malaysia","India")) %>% 
  ggplot( aes(x = reorder(country, pop), y = pop,fill = country)) +
  geom_bar(stat = "identity") +
  labs(title = "Dân số của một quốc gia Asia trong năm 2007",
       x = "Quốc gia",
       y = "Tổng dân số")

  • Biểu đồ cho thấy rằng dân số của India (Khoảng 1,1 tỷ người), China (khoảng 1,3 tỷ người) trong năm 2007 cao hơn rất nhiều so với một số quốc gia trong khu vực Châu Á. Quốc gia có dân số thấp nhất trong các quốc gia trên là Malaysia chỉ có khoảng 25 triệu người

Việc sử dụng nest() và unnest() cho bộ dữ liệu gapminder cho phép ta chuyển đổi dữ liệu từ dạng bảng thông thường thành dạng nested list và ngược lại. Điều này có thể hữu ích trong việc thao tác và xử lý dữ liệu, đặc biệt là khi làm việc với dữ liệu có cấu trúc phức tạp hơn và có nhiều cấp độ lồng nhau.

3.2 WHO

Trong phần này chúng tôi sẽ làm việc trên bộ dữ liệu who, đây là bộ dữ liệu con được thu thập từ báo cáo về bệnh lao toàn cầu của Tổ chức Y tế Thế giới. Nó gồm có 60 cột và 7240 quan sát, tuy nhiên thì từ cột thứ 5 đến cột 60 có ký tự “new_” được kết nối với các thông tin khác.

  • country là tên của các quốc gia được thu thập.

  • ios2, ios3 lần lượt là mã quốc gia 2 ký tự và 3 ký tự.

  • year là năm thu thập dữ liệu.

  • Phương pháp chẩn đoán nếu là rel nghĩa là tái phát, sn là bệnh nhân không có vi khuẩn lao , sp là bệnh nhân có vi khuẩn lao, ep bệnh nhân lao ngoài phổi.

  • Ký tự f đại diện cho giới tính nữ và m là giới tính nam

  • Số trong mỗi cột được dùng để thể hiện nhóm tuổi ví dụ 014 là 0-14 tuổi, 1524 là 15-24 tuổi, 2534 là 25-34 tuổi, 3544 là 35-44 tuổi, 4554 là 45-54 tuổi, 5564 là 55-64 tuổi và 65 là 65 tuổi trở lên.

Ví dụ tên cột thứ 5 là “new_sp_m014” đại diện cho những bệnh nhân có kết quả chuẩn đoán có vi khuẩn lao lao dương tính, giới tính nam và thuộc nhóm tuổi từ 0 đến 14 tuổi.

data("who")
## # A tibble: 6 × 60
##   country   iso2  iso3   year new_sp_m014 new_sp_m1524 new_sp_m2534 new_sp_m3544
##   <chr>     <chr> <chr> <dbl>       <dbl>        <dbl>        <dbl>        <dbl>
## 1 Afghanis… AF    AFG    1980          NA           NA           NA           NA
## 2 Afghanis… AF    AFG    1981          NA           NA           NA           NA
## 3 Afghanis… AF    AFG    1982          NA           NA           NA           NA
## 4 Afghanis… AF    AFG    1983          NA           NA           NA           NA
## 5 Afghanis… AF    AFG    1984          NA           NA           NA           NA
## 6 Afghanis… AF    AFG    1985          NA           NA           NA           NA
## # ℹ 52 more variables: new_sp_m4554 <dbl>, new_sp_m5564 <dbl>,
## #   new_sp_m65 <dbl>, new_sp_f014 <dbl>, new_sp_f1524 <dbl>,
## #   new_sp_f2534 <dbl>, new_sp_f3544 <dbl>, new_sp_f4554 <dbl>,
## #   new_sp_f5564 <dbl>, new_sp_f65 <dbl>, new_sn_m014 <dbl>,
## #   new_sn_m1524 <dbl>, new_sn_m2534 <dbl>, new_sn_m3544 <dbl>,
## #   new_sn_m4554 <dbl>, new_sn_m5564 <dbl>, new_sn_m65 <dbl>,
## #   new_sn_f014 <dbl>, new_sn_f1524 <dbl>, new_sn_f2534 <dbl>, …

Ta thực hiện chuyển dữ liệu sang dạng long bằng hàm pivot_longer() như đã được giới thiệu ở phần trước, các cột chuyển đổi được chọn bằng starts_with bắt đầu với ký tự “new”. Tên biến chứa các cột sau khi chuyển sang dạng long là method và giá trị tương ứng được chứa trong cột values. Sau đó chúng ta có thể dùng hàm drop_na() để loại bỏ đi các giá trị NA.

#Chuyển dữ liệu sang dạng dài 
longer <- pivot_longer(data = who,cols = starts_with("new"), names_to = "method", values_to = "values")
longer <- drop_na(longer)
## # A tibble: 6 × 6
##   country     iso2  iso3   year method       values
##   <chr>       <chr> <chr> <dbl> <chr>         <dbl>
## 1 Afghanistan AF    AFG    1997 new_sp_m014       0
## 2 Afghanistan AF    AFG    1997 new_sp_m1524     10
## 3 Afghanistan AF    AFG    1997 new_sp_m2534      6
## 4 Afghanistan AF    AFG    1997 new_sp_m3544      3
## 5 Afghanistan AF    AFG    1997 new_sp_m4554      5
## 6 Afghanistan AF    AFG    1997 new_sp_m5564      2

Chúng ta thấy rằng trong cột method chứa các thông tin về dữ liệu khảo sát bệnh lao dưới dạng chuỗi khá phức tạp, chính vì thế chúng ta cần kết hợp thêm hàm gsub để có thể loại bỏ cũng như là thêm vào một số chuỗi cần thiết. Hàm mutate() sẽ giúp cập nhập các giá trị vừa được thay đổi ở cột method trong trường hợp này chúng tôi tạo cột mới trùng với tên cột cũ.

  • Loại bỏ chuỗi “new_” trong cột method bằng các thay thế nó bằng ““, tuy nhiên một số chuỗi chỉ xuất hiện”new” chứ không phải là “new_” cho nên chúng ta cần khai báo cho hàm gsub() các chuỗi cần thay thế là “new_?”.
longer <- longer %>% mutate(method = gsub("new_?","",method))
## # A tibble: 6 × 6
##   country     iso2  iso3   year method   values
##   <chr>       <chr> <chr> <dbl> <chr>     <dbl>
## 1 Afghanistan AF    AFG    1997 sp_m014       0
## 2 Afghanistan AF    AFG    1997 sp_m1524     10
## 3 Afghanistan AF    AFG    1997 sp_m2534      6
## 4 Afghanistan AF    AFG    1997 sp_m3544      3
## 5 Afghanistan AF    AFG    1997 sp_m4554      5
## 6 Afghanistan AF    AFG    1997 sp_m5564      2
  • Tiếp theo, chúng ta thêm vào ký tự “_” sau ký “f” hoặc “m” để có thể phân cách giới tính và nhóm tuổi
longer <- longer %>% mutate(method = gsub("(f|m)(\\d+)","\\1_\\2",method))
## # A tibble: 6 × 6
##   country     iso2  iso3   year method    values
##   <chr>       <chr> <chr> <dbl> <chr>      <dbl>
## 1 Afghanistan AF    AFG    1997 sp_m_014       0
## 2 Afghanistan AF    AFG    1997 sp_m_1524     10
## 3 Afghanistan AF    AFG    1997 sp_m_2534      6
## 4 Afghanistan AF    AFG    1997 sp_m_3544      3
## 5 Afghanistan AF    AFG    1997 sp_m_4554      5
## 6 Afghanistan AF    AFG    1997 sp_m_5564      2
  • Thực hiện tác cột method thành ba cột mt, gender, age bằng hàm separate()
longer <- longer %>% separate(col = method,into = c("mt","gender","age"), sep = "_")
## # A tibble: 6 × 8
##   country     iso2  iso3   year mt    gender age   values
##   <chr>       <chr> <chr> <dbl> <chr> <chr>  <chr>  <dbl>
## 1 Afghanistan AF    AFG    1997 sp    m      014        0
## 2 Afghanistan AF    AFG    1997 sp    m      1524      10
## 3 Afghanistan AF    AFG    1997 sp    m      2534       6
## 4 Afghanistan AF    AFG    1997 sp    m      3544       3
## 5 Afghanistan AF    AFG    1997 sp    m      4554       5
## 6 Afghanistan AF    AFG    1997 sp    m      5564       2
  • Chuyển đổi các giá trị viết tắt trong cột agegender về nhóm tuổi, giới tính cụ thể.
longer <- mutate(longer, age = case_when(
 age == "014" ~ "0-14 years",
    age == "1524" ~ "15-24 years",
    age == "2534" ~ "25-34 years",
    age == "3544" ~ "35-44 years",
    age == "4554" ~ "45-54 years",
    age == "5564" ~ "55-64 years",
    age == "65" ~ "65 years or older",
))

longer <- longer %>%  mutate(gender = case_when(
  gender == "m" ~ "male",
  gender == "f" ~ "female"
))

Qua nhiều thao tác xử lý và biến đổi từ dữ liệu who ban đầu chúng ta đã có được bộ dữ liệu mới gọn gàng hơn rất nhiều. Việc làm sạch dữ liệu chưa hoàn chỉnh rất quan trọng trong quá trình phân tích, nó giúp chúng ta dễ dàng trực quan hóa bằng các hình ảnh, đồ thị cũng như là tính toán các số liệu thống kê.

longer %>% group_by(gender,year) %>% summarise(case= sum(values)) %>% 
  ggplot(aes(x=year, y = case , color=gender ))+
  geom_line()+
  scale_color_manual(values = c("blue", "red")) +
  theme_minimal() +
  labs(title = "TỔNG SỐ CA BỆNH THEO GIỚI TÍNH"  )

  • Dựa vào biểu đồ đường ở trên, tổng trường hợp mắc bệnh lao qua các năm ở hai giới tính có xu hướng tăng lên từ những năm 1995. Xu hướng tăng có tự tương đồng với nhau giữa hai nhóm giới tính tuy nhiên ở nam giới sự gia tăng tổng số ca mắc bệnh nhiều hơn ở nữ giới. Cụ thể, năm 2010 tổng các trường hợp mắc bệnh lao ở nam giới là 2,5 triệu người còn ở nữ giới chỉ có khoảng 1,5 triệu người.
# tính tổng số người bệnh theo giới tính và phương pháp chuẩn đoán (mt)
 df1 <- longer %>% group_by(gender,mt) %>% summarise(sum= sum(values))
## # A tibble: 8 × 3
## # Groups:   gender [2]
##   gender mt         sum
##   <chr>  <chr>    <dbl>
## 1 female ep      941049
## 2 female rel    1197703
## 3 female sn     2437544
## 4 female sp    11292279
## 5 male   ep     1043265
## 6 male   rel    2013437
## 7 male   sn     3838291
## 8 male   sp    20542472
  • Tính tổng số ca mắc bệnh theo giới tính và phương pháp chuẩn đoán bằng hàm group_by()summarise(), sau đó vẽ đồ thị cột đôi để đánh giá kết quả.
# Đồ thị 
  ggplot( df1,aes(x = mt, y = sum, fill = gender)) +
  geom_col(position = "dodge") +
  labs(title = "Tổng số ca theo phương pháp và giới tính",
       x = "Phương pháp",
       y = "Số lượng",
       fill = "Giới tính") +
  theme_minimal()

  • Đồ thị bên trên cho chúng ta thấy số người được chuẩn đoán là sp (có vi khuẩn lao) có số lượng cao nhất trong 4 nhóm cụ thể có 20542472 nam và 11292279 nữ trong trường hợp này. Chuẩn đoán là bệnh lao ngoài phổi (ep) có số lượng thấp nhất, trong đó ở nữ giới có 941049 người và nam giới có 1043265 người thuộc chuẩn đoán này.
longer %>% group_by(age)%>%  summarise(total=sum(values)) %>% 
  mutate(p = total/sum(total)) %>%
  ggplot(aes(x="", y= p, fill = age))+
  geom_bar(stat = "identity",width = 1)+
  scale_fill_brewer(palette = "Set3") +
  coord_polar("y",start = 0)+
  geom_text(aes(label = scales::percent(p)),position = position_stack(vjust = 0.5), size = 3) +
  theme_void() +
  labs(title= "Tình trạng bệnh lao ở các nhóm tuổi")

  • Nhóm từ 25 đến 34 tuổi có tỷ lệ mắc bệnh lớn nhất trong tất cả nhóm tuổi (khoảng 22.2%), ở nhóm từ 45 đến 54 tuổi cũng đạt tỷ lệ khá cao là 20.2%. Ngược lại thì nhóm 0-14 tuổi chiếm tỷ lệ mắc bệnh lao thấp nhất chỉ khoảng 3.9%. Nhìn chung tỷ lệ mắc bệnh cao sẽ thuộc các nhóm tuổi trung niên.

Để gom các biến thành một danh sách lồng nhau theo mỗi quốc gia ta áp dụng hàm nest(), dữ liệu mới này gọn gàng hơn rất nhiều so với ban đầu nếu chúng ta cần khai thác thông tin của quốc gia thì chỉ cần mở danh sách dữ liệu của nó mà không cần phải nhìn toàn bộ thông tin như ban đầu.

nested_data <- nest(longer, .by = country, .key = "year")
## # A tibble: 218 × 2
##    country             year              
##    <chr>               <list>            
##  1 Afghanistan         <tibble [244 × 7]>
##  2 Albania             <tibble [448 × 7]>
##  3 Algeria             <tibble [224 × 7]>
##  4 American Samoa      <tibble [172 × 7]>
##  5 Andorra             <tibble [387 × 7]>
##  6 Angola              <tibble [270 × 7]>
##  7 Anguilla            <tibble [155 × 7]>
##  8 Antigua and Barbuda <tibble [346 × 7]>
##  9 Argentina           <tibble [448 × 7]>
## 10 Armenia             <tibble [461 × 7]>
## # ℹ 208 more rows

Hàm filter() trong trường hợp bên dưới được sử dụng để lọc Việt Nam ra khỏi bộ dữ liệu trên và sau đó ta hiển thị thông tin về các trường hợp mắc bệnh lao của nó như bên dưới đây.

nested_data$year <- lapply(nested_data$year, as.data.frame)
VN <-  nested_data %>% filter(country== "Viet Nam")
## # A tibble: 1 × 2
##   country  year          
##   <chr>    <list>        
## 1 Viet Nam <df [252 × 7]>
## [[1]]
##    iso2 iso3 year mt gender               age values
## 1    VN  VNM 1996 sp   male        0-14 years     92
## 2    VN  VNM 1996 sp   male       15-24 years   1994
## 3    VN  VNM 1996 sp   male       25-34 years   5716
## 4    VN  VNM 1996 sp   male       35-44 years   7137
## 5    VN  VNM 1996 sp   male       45-54 years   5170
## 6    VN  VNM 1996 sp   male       55-64 years   5839
## 7    VN  VNM 1996 sp   male 65 years or older   6292
## 8    VN  VNM 1996 sp female        0-14 years     91
## 9    VN  VNM 1996 sp female       15-24 years   1127
## 10   VN  VNM 1996 sp female       25-34 years   2606
## 11   VN  VNM 1996 sp female       35-44 years   3045
## 12   VN  VNM 1996 sp female       45-54 years   2504
## 13   VN  VNM 1996 sp female       55-64 years   3360
## 14   VN  VNM 1996 sp female 65 years or older   3938
##  [ reached 'max' / getOption("max.print") -- omitted 238 rows ]

Giải nén dữ liệu ở dạng nested ta cần sử dụng hàm unnest() dữ liệu được trả về sẽ bao gồm các thông tin như dữ liệu ban đầu.

# Sử dụng hàm unnest()
unnest_data <- unnest(nested_data,cols = year)
## # A tibble: 75,752 × 8
##    country     iso2  iso3   year mt    gender age               values
##    <chr>       <chr> <chr> <dbl> <chr> <chr>  <chr>              <dbl>
##  1 Afghanistan AF    AFG    1997 sp    male   0-14 years             0
##  2 Afghanistan AF    AFG    1997 sp    male   15-24 years           10
##  3 Afghanistan AF    AFG    1997 sp    male   25-34 years            6
##  4 Afghanistan AF    AFG    1997 sp    male   35-44 years            3
##  5 Afghanistan AF    AFG    1997 sp    male   45-54 years            5
##  6 Afghanistan AF    AFG    1997 sp    male   55-64 years            2
##  7 Afghanistan AF    AFG    1997 sp    male   65 years or older      0
##  8 Afghanistan AF    AFG    1997 sp    female 0-14 years             5
##  9 Afghanistan AF    AFG    1997 sp    female 15-24 years           38
## 10 Afghanistan AF    AFG    1997 sp    female 25-34 years           36
## # ℹ 75,742 more rows

4 CHƯƠNG 4: KẾT LUẬN

4.1 Kết luận

Bài tiểu luận của chúng tôi đã trình bày các chức năng quan trọng của gói Tidyr trong ngôn ngữ lập trình R, nó chính là công cụ mạnh mẽ giúp mọi người xử lý những bộ dữ liệu chưa được chuẩn hóa về dạng dữ liệu sạch và sau đó đưa vào phân tích và trực quan hóa dữ liệu. Bên cạnh việc giới thiệu về gói này chúng tôi cũng đã thực hiện các thao tác hướng dẫn chi tiết dựa trên dữ liệu mẫu để làm nổi bật sự hiệu quả của gói Tidyr trong việc làm sạch dữ liệu. Những dữ liệu thô ban đầu thường có cấu trúc phức tạp, nhiều biến kết hợp với nhau bằng các ký tự phân cách hoặc thậm chí lồng ghép với nhau thành các danh sách. Vì vậy, chúng tôi đã thực hiện các hàm xử lý dữ liệu bị thiếu, biến đổi cấu trúc, tách ghép và lồng ghép danh sách sao cho phù hợp từng dữ liệu.

Gói Tidyr có thể kết hợp với một số gói khác chẳng hạn như là dplyr, ggplot2, stringr để tối ưu và tiết kiệm nhiều thời gian, tuy nhiên chúng ta cũng cần nghiên cứu rất nhiều để có thể kết hợp với các hàm trong gói Tidyr. Nhìn chung những hàm trong gói tidyr có tính ứng dụng rất cao trong nhiều lĩnh vực nhưng sử dụng thì khá đơn giản chỉ cần khai báo một vài đối số. Chẳng hạn hàm pivot_longer biến đổi dữ liệu rộng sang dạng dài giúp ta trực hóa dữ liệu tốt hơn trước, hàm separate có chức năng tách thành các cột dựa vào các ký tự phân cách ngược lại thì unite giúp kết hợp các cột lại với nhau và một số hàm xử lý dữ liệu khác.

Ngoài ra, ngôn ngữ R sẽ phát triển gói này theo thời gian chính vì vậy những nhược điểm của nó sẽ được cải thiện bởi chính những người dùng, một số chức năng mới có thể được thêm vào khiến cho Tidyr trở nên linh hoạt và đa dạng hơn. Trong quá trình thực hành các hàm nếu gặp phải những vấn đề khó khăn thì cộng đồng R có các bài hướng dẫn giúp ta giải quyết nó.

Tóm lại, gói tidyr là công cụ giúp cho chúng ta biến đổi cấu trúc dữ liệu, tách, ghép và xử lý dữ liệu bị thiếu một cách đơn giản nhưng nó lại giúp giai đoạn xử lý dữ liệu đầu vào của mọi người sẽ tiết kiệm nhiều thời gian và đạt kết quả cao hơn. Hơn thế, gói này còn kết hợp với hệ sinh thái Tidyverse và nhiều packages khác nhằm đáp ứng các nhu cầu khác nhau của người phân tích. Bởi vì những chức năng nổi bật đó mà gói tidyr được áp dụng trong nhiều lĩnh vực tài chính, bảo hiểm, y học.

4.2 Hạn chế và phương hướng tiếp theo của đề tài

Trong thời gian nghiên cứu đề tài về gói tidyr chúng tôi đã gặp một số khó khăn trong việc tìm kiếm nguồn tài liệu tham khảo vì cần phải có một lượng lớn kiến thức cũng như hiểu rõ một số khái niệm để hoàn thành nó. Một số hàm cần phải xem qua nhiều tài liệu hướng dẫn, ví dụ cụ thể thì chúng ta mới có thể hiểu nó và trình bày chức năng của hàm đó. Hơn thế, chúng tôi cũng mất nhiều thời gian để chọn ra những dữ liệu thích hợp cho việc áp dụng các hàm minh họa. Việc hiểu cấu trúc của một bộ dữ liệu phức tạp sẽ giúp ta dùng những hàm phù hợp để biến đổi nó về dữ liệu sạch.

Chúng tôi muốn đề xuất một số phương hướng cho những nghiên cứu tiếp theo ở đề tài này. Gói này có thể sử dụng để phân tích những bộ dữ liệu nhiều biến và nhiều dòng dữ liệu hơn. Chúng ta nên kết hợp với các gói có khả năng trực quan hóa dữ liệu vừa xử lí bằng các đồ thị hay thậm chí là đồ thị 3D để trình bày kết quả. Ngoài ra những hàm xử lý chuỗi trong gói stringr sẽ giúp người sử dụng phát huy được các chức năng của gói tidyr khi sử dụng đồng thời chúng với nhau

---
title: "Tiểu luận package Tidyr"
author: "Lê Thành Đặng - Châu A Kiệt"
date: "2023-06-28"
output:
  html_document:
    code_folding: hide
    code_download: true
    number_sections: yes
    toc_depth: 5
    toc: yes
    toc_float:
      collapsed: yes
      smooth_scroll: yes
    theme: united

  word_document:
    toc: yes
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

```{css,echo = FALSE}
h1 {
  font-family: "Times New Roman", Times, serif;
  font-size: 32px;
  font-weight: bold
  }

h2 {
  font-family: "Times New Roman", Times, serif;
  font-size: 28px;
  font-weight: bold;
 
}

h3 {
  font-family: "Times New Roman", Times, serif;
  font-size: 24px;
  font-weight: bold;
  font-style: italic;
}

h4 {font-family: "Times New Roman", Times, serif;
  font-size: 20px;
  font-style: italic}

body {
  font-family: "Times New Roman", Times, serif;
  font-size: 18px;
  
}
p:not(h1):not(h2):not(h3):not(h4):not(h5) {
  text-indent: 2em;}
p {
  text-align: justify;
  }
.tocify-header {
  font-weight: bold;
}

```

![](images/18f2cdd49d764e281767-01.jpg)

# CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

## Đặt vấn đề nghiên cứu

Hiện nay, nhiều lĩnh vực đã áp dụng phân tích dữ liệu vào trong quá trình nghiên cứu để có thể đạt được kết quả tốt hơn và độ chính xác cao hơn. Tuy nhiên, dữ liệu được thu thập thường rất lớn, phức tạp, cấu trúc không phù hợp hoặc có thể bị thiếu dữ liệu cho nên không thể nào đưa vào mô hình phân tích ngay lập tức. Do đó, các nhà nghiên cứu cần phải xử lí và biến đổi cấu trúc dữ liệu sao cho phù hợp với mục tiêu nghiên cứu, có thể nói đây chính là một phần khá phức tạp và mất nhiều thời gian trong một công trình nghiên cứu bởi vì bộ dữ liệu quá lớn và chứa nhiều biến khác nhau chưa đáp ứng được nhu cầu của người sử dụng. Chính vì thế, họ luôn tìm kiếm cho mình một công cụ tối ưu để dễ dàng chuẩn hóa và làm sạch dữ liệu đồng thời tiết kiệm thời gian, công sức mà vẫn đạt hiệu quả cao.

Nhận thấy vấn đề được nói trên chúng em thực hiện nghiên cứu về gói "Tidyr", đây là một công cụ mãnh mẽ hỗ trợ mọi người có thể chuẩn hóa, biến đổi cấu trúc dữ liệu dựa vào định dạng tidy data, trong đó thì mỗi cột dữ liệu đại diện cho một biến, mỗi hàng đại diện cho một quan sát và mỗi ô thì chứa một giá trị cụ thể điều này sẽ giúp việc phân tích và trực quan hóa dữ liệu trở nên dễ dàng hơn. Hơn thế, nó cũng có thể hỗ trợ tách, ghép và hoàn chỉnh dữ liệu còn thiếu bằng những cú pháp đơn giản, rõ ràng từ đó mọi người có thể tiến hành phân tích các mô hình. Gói Tidyr là một công cụ tối ưu, đa năng, cú pháp đơn giản và nhận được sử hỗ trợ phát triển từ cộng đồng R, vì thế nó có thể giải quyết nhiều vấn đề trong quá trình xử lý dữ liệu trong nhiều lĩnh vực. Chẳng hạn như trong tài chính gói tidyr có thể giúp chúng ta tổ chức và sắp xếp lại dữ liệu về cổ phiểu của một ngành để đánh giá tình hình hoạt động và xây dựng mô hình dự báo. Trong lĩnh vực kinh tế thì nó giúp biến đổi dữ liệu về GDP, thương mại, sản xuất và một số chỉ số kinh tế khác của các quốc gia theo năm để đánh giá tốc độ phát triển và tổng quan về mối quan hệ kinh tế giữa các quốc gia. Qua đó, ta thấy rằng lợi ích mà gói Tidyr mang lại trong giai đoạn chuẩn hóa dữ liệu là vô cùng to lớn, tiết kiệm được rất nhiều thời gian và cung cấp kết quả phân tích có độ chính xác cao hơn.

## Lý do chọn đề tài

Trong quá trình thực hành với nhiều dữ liệu phức tạp nhóm em nhận thấy việc xử lý dữ liệu gặp nhiều khó khăn, ảnh hưởng đến kết quả cũng như là thời gian thực hiện. Nghiên cứu về gói Tidyr sẽ giúp việc chuẩn hóa và biến đổi cấu trúc dữ liệu trở nên dễ dàng hơn, các cú pháp tương đối đơn giản và rõ ràng không đòi hỏi kiến thức chuyên sâu. Ngoài ra, Tidyr cung cấp cho người sử dụng rất nhiều chức năng khác nhau, nó giúp người dùng dễ dàng xử lý dữ liệu không đồng nhất, không cấu trúc hoặc thiếu dữ liệu, tạo điều kiện thuận lợi cho việc phân tích và trực quan hóa dữ liệu. Cộng đồng R là một cộng đồng lớn về ngôn ngữ lập trình, họ thường xuyên cập nhập, phát triển gói Tidyr ngày càng tối ưu hơn, điều này khiến cho nhóm em học tập thêm nhiều kiến thức về phân tích dữ liệu và sử dụng gói này một cách hiệu quả nhất trong công việc trong tương lai. Hơn thế, Tidyr được thiết kế dùng để giải quyết các vấn đề phổ biến và thực tế ở nhiều lĩnh vực khác nhau, mặc dù dữ liệu nghiên cứu kích thước lớn thì nó vẫn xử lý hiệu quả và tiết kiệm được nhiều thời gian. Vì thế, nhóm em tin rằng tìm hiểu về gói Tidyr là chủ đề hữu ích có thể hỗ trợ mọi người đang gặp khó khăn trong việc xử lý dữ liệu.

## Giới thiệu về gói Tidyr

### Nguồn gốc

Gói tidyr là một phần của Tidyverse, một bộ sưu tập các gói R được thiết kế cho việc xử lý và phân tích dữ liệu. Gói tidyr tập trung chủ yếu vào các hoạt động làm gọn gàng và cấu trúc lại dữ liệu, giúp dễ dàng chuyển đổi tập dữ liệu thành định dạng tidy (gọn gàng) thuận tiện hơn cho phân tích và trực quan hóa.

Gói tidyr được phát triển bởi Hadley Wickham, một nhà thống kê và nhà khoa học dữ liệu nổi tiếng với đóng góp cho ngôn ngữ lập trình R và khái niệm dữ liệu tidy. Hadley Wickham cũng là người sáng tạo ra các gói phổ biến khác như ggplot2 và dplyr. Ông đã phát triển tidyr như một phần của nỗ lực của mình để thúc đẩy nguyên tắc của dữ liệu tidy, nhấn mạnh việc tổ chức và sắp xếp dữ liệu theo một cấu trúc nhất quán để tạo thuận lợi cho phân tích và truyền tải thông tin.

### Chức năng

Gói tidyr cung cấp một loạt các hàm hỗ trợ chúng ta trong việc làm gọn và tái cấu trúc dữ liệu. Các hàm này có thể được nhóm thành một số danh mục chính, mỗi danh mục phục vụ cho một mục đích cụ thể trong việc chỉnh sửa và tổ chức dữ liệu.

#### Tách dữ liệu

Trong gói tidyr hỗ trợ người dùng tách dữ liệu một cột thành nhiều cột dựa trên những ký tự phân tách hoặc các mẫu bằng hàm `separate`, điều này thực sự hữu ích khi bạn có một cột chứa các giá trị kết hợp với nhau làm cho việc phân tích gặp nhiều khó khăn và bạn muốn phân tách nó ra thành những cột riêng biệt. Chẳng hạn, một cột chứa thông tin về ngày tháng năm sinh để biết chi tiết hơn ta có thể sử dụng hàm separate để tách riêng làm ba cột ngày, tháng, năm để phục vụ cho mục đích công việc cụ thể. Ngoài ra, chức năng này không làm thay đổi dữ liệu gốc mà chỉ tạo ra các cột mới từ dữ liệu ban đầu, điều này cho phép chúng ta biến đổi về dữ liệu gốc dễ dàng hơn nếu muốn.

#### Kết hợp cột

Trái ngược với chức năng tách cột, gói Tidyr sẽ giúp chúng ta kết hợp các cột lại thành một cột bằng cách ghép các giá trị của chúng lại với nhau. Giả sử ta có một cột chứa họ và một cột chứa tên thì có thể ghép hai cột này thành một cột họ và tên hoàn chỉnh bằng hàm `unite`, điều này sẽ giúp dữ liệu trở nên gọn gàng và phù hợp để sử dụng. Đây là một chức năng dễ dàng sử dụng tuy nhiên tạo ra cột mới có độ linh hoạt cao, thuận tiện trong quá trình xử lý.

#### Pivoting(Biến đổi)

-   "Pivoting" (Chuyển đổi): chuyển đổi giữa các dạng dữ liệu rộng và dài. tidyr giới thiệu pivot_longer() và pivot_wider(), thay thế các hàm spread() và gather(). Quá trình biến đổi này đặc biệt hữu ích khi bạn cần thay đổi cấu trúc dữ liệu để phù hợp hơn với mục đích phân tích hoặc trực quan hóa.

-   Biến đổi từ dạng Dài sang Rộng: Khi dữ liệu ở định dạng dài, mỗi quan sát được biểu diễn bằng nhiều hàng và có các cột xác định riêng biệt liên kết những hàng này lại với nhau. Do đó, hàm pivot_wider() sẽ giúp ta chuyển đổi dữ liệu từ định dạng dài sang định dạng rộng bằng cách phân rải giá trị, điều này phụ thuộc vào mục tiêu phân tích bộ dữ liệu của người sử dụng.

-   Biến đổi từ dạng Rộng sang Dài: Ngược lại, khi dữ liệu ở định dạng rộng, mỗi quan sát được biểu diễn bằng một hàng đơn và các biến khác nhau được lưu trữ trong các cột riêng biệt. Hàm pivot_longer() sẽ giúp Chuyển đổi dữ liệu từ định dạng rộng sang định dạng dài bằng cách gom lại các cột để có thể phù hợp với nhu cầu của người thực hiện.

#### Xử lí giá trị thiếu

Việc phân tích dữ liệu sẽ không đạt được kết quả chính xác nếu dữ liệu gặp phải những giá trị bị thiếu sót, để khắc phục tình trạng như vậy thì gói này giúp người sử dụng xử lý những dòng bị thiếu giá trị bằng hàm `complete`, hàm này sẽ kết hợp các giá trị không bị thiếu trong các cột chỉ định từ đó điền vào những dòng bị thiếu. Hơn nữa, ta có thể loại bỏ các giá trị thiếu bằng hàm drop_na hoặc thay thế các giá trị bị thiếu bằng hàm `fill`, `replace_na`.

#### Nesting(Gộp) và Unnesting(khôi phục)

Nest() được sử dụng để tạo một khung dữ liệu lồng nhau bằng cách nhóm dữ liệu dựa trên các biến cụ thể. Nó cho phép bạn nhóm các quan sát liên quan với nhau trong một cột duy nhất.

Unnest() được sử dụng để mở rộng một khung dữ liệu lồng nhau thành một khung dữ liệu thông thường, trong đó mỗi quan sát lồng nhau trở thành một dòng riêng. Nó trích xuất dữ liệu lồng nhau và mở rộng chúng thành nhiều dòng.

### Mục tiêu

Mục tiêu chính của tidyr là cung cấp một bộ công cụ với các chức năng đơn giản hóa quá trình cấu trúc lại và làm gọn dữ liệu. Gói này cung cấp các chức năng như gather(), spread(), separate(), unite(), pivot_longer() và pivot_wider(), cho phép người dùng chuyển đổi dữ liệu giữa các định dạng rộng và dài, phân tách và kết hợp cột, và chuyển đổi dữ liệu để tạo bảng tóm tắt. Các hoạt động này là cần thiết để tổ chức và xử lý dữ liệu một cách dễ dàng và trích xuất thông tin.

Gói tidyr đã thu hút sự quan tâm đáng kể trong cộng đồng R nhờ cú pháp dễ hiểu và nhất quán, phù hợp với nguyên tắc của Tidyverse. Nó đã trở thành một công cụ được sử dụng rộng rãi để làm sạch dữ liệu, tiền xử lý và cấu trúc lại trong quy trình phân tích dữ liệu bằng R.

### Lợi ích

Các lợi ích của việc sử dụng gói tidyr bao gồm:

-   Dễ dàng làm sạch dữ liệu: Gói tidyr cung cấp các hàm đơn giản và dễ hiểu để cấu trúc lại và làm gọn dữ liệu. Nó cung cấp các chức năng như gather(), spread(), separate(), unite(), pivot_longer(), và pivot_wider() cho phép người dùng dễ dàng chuyển đổi dữ liệu giữa các định dạng rộng và dài, phân tách và kết hợp cột, và biến đổi dữ liệu để tạo bảng tóm tắt. Những thao tác này là cần thiết để tổ chức và xử lý dữ liệu một cách hiệu quả.

-   Tích hợp với tidyverse: Gói tidyr là một phần của hệ sinh thái tidyverse, là một bộ sưu tập các gói R được thiết kế cho việc làm sạch và phân tích dữ liệu. Nó tích hợp một cách mượt mà với các gói tidyverse khác như dplyr và ggplot2, cho phép quy trình làm việc mượt mà và cú pháp nhất quán. Tích hợp này cho phép người dùng thực hiện các thao tác phức tạp trên dữ liệu và tạo biểu đồ một cách nhất quán và hiệu quả.

-   Tương thích với nguyên tắc dữ liệu tidy: Gói tidyr tuân thủ nguyên tắc của dữ liệu tidy, nhấn mạnh việc tổ chức dữ liệu theo một cấu trúc nhất quán. Bằng cách tuân thủ nguyên tắc dữ liệu tidy, người dùng có được dữ liệu rõ ràng hơn, dễ khám phá hơn và kết quả phân tích đáng tin cậy hơn. Dữ liệu tidy đảm bảo mỗi biến có một cột riêng, mỗi quan sát có một hàng riêng và mỗi ô chứa một giá trị duy nhất.

-   Hỗ trợ phân tích và trực quan hóa dữ liệu: Dữ liệu tidy đơn giản hóa quá trình phân tích và trực quan hóa dữ liệu. Bằng cách chuyển đổi dữ liệu thành định dạng tidy, việc thực hiện các tác vụ phân tích dữ liệu thông thường, áp dụng phân tích thống kê và tạo biểu đồ thông tin trở nên dễ dàng hơn. Dữ liệu tidy giảm thiểu việc phải làm việc phức tạp với dữ liệu, cho phép các nhà phân tích tập trung nhiều hơn vào việc trích xuất thông tin và đưa ra quyết định dựa trên dữ liệu.

Tóm lại, mục tiêu chính của gói tidyr là cung cấp các công cụ để làm sạch và cấu trúc lại dữ liệu, với lợi ích là giúp người dùng dễ dàng chuyển đổi dữ liệu thành định dạng tidy. Điều này hỗ trợ phân tích dữ liệu, tích hợp với các gói tidyverse khác và hỗ trợ nguyên tắc dữ liệu tidy để hiểu dữ liệu tốt hơn và tạo quy trình làm việc hiệu quả

### Ưu và nhược điểm của gói tidyr

#### Ưu điểm của gói tidyr

Đơn giản hóa việc xử lý dữ liệu: tidyr cung cấp một bộ công cụ với các hàm dễ hiểu giúp đơn giản hóa công việc cấu trúc lại và làm sạch dữ liệu. Nó cung cấp các hàm như gather(), spread(), separate(), unite(), pivot_longer() và pivot_wider() cho phép người dùng dễ dàng chuyển đổi dữ liệu giữa các định dạng rộng và dài, phân tách và kết hợp cột, và biến đổi dữ liệu để tạo bảng tóm tắt. Những hoạt động này là cần thiết để tổ chức và xử lý dữ liệu một cách hiệu quả.

Tích hợp với tidyverse: tidyr là một phần của hệ sinh thái tidyverse, một bộ sưu tập các gói R được thiết kế để làm sạch và phân tích dữ liệu. Nó tích hợp một cách mượt mà với các gói tidyverse khác như dplyr và ggplot2, cho phép quy trình làm việc trơn tru và có cú pháp nhất quán. Tích hợp này cho phép người dùng thực hiện các phép toán phức tạp trên dữ liệu và tạo biểu đồ một cách nhất quán và hiệu quả.

Tuân thủ nguyên tắc dữ liệu tidy: tidyr tuân thủ các nguyên tắc của dữ liệu tidy, nhấn mạnh việc tổ chức dữ liệu thành một cấu trúc nhất quán. Bằng việc tuân thủ nguyên tắc dữ liệu tidy, người dùng có dữ liệu rõ ràng hơn, khám phá dữ liệu hiệu quả hơn và kết quả phân tích đáng tin cậy hơn. Dữ liệu tidy đảm bảo rằng mỗi biến có một cột riêng, mỗi quan sát có một hàng riêng, và mỗi ô chứa một giá trị duy nhất.

#### Nhược điểm của gói tidyr

Giới hạn chức năng: Mặc dù tidyr cung cấp một tập hợp hữu ích các hàm để cấu trúc lại và làm sạch dữ liệu, nhưng nó có thể không đáp ứng được tất cả các tình huống xử lý dữ liệu khác nhau. Có thể có những trường hợp yêu cầu các phép toán phức tạp hoặc đặc thù hơn và tidyr có thể không có các hàm dành riêng cho những nhiệm vụ đó.

Khó khăn trong quá trình học tập: Giống như bất kỳ gói hay công cụ mới nào, việc sử dụng tidyr một cách hiệu quả cũng có thể gặp khó khăn ban đầu. Người dùng cần làm quen với cú pháp và các hàm cụ thể của tidyr để tận dụng tối đa khả năng của nó. Quá trình học này có thể yêu cầu một khoảng thời gian và nỗ lực nhất định.

Phụ thuộc vào tidyverse: Mặc dù việc là một phần của tidyverse mang lại nhiều lợi ích, nhưng đồng thời cũng có thể là một hạn chế đối với những người dùng ưa thích hoặc phụ thuộc vào các gói xử lý dữ liệu khác nằm ngoài hệ sinh thái tidyverse. Sử dụng tidyr trong quy trình làm việc dựa trên tidyverse có thể yêu cầu sự chuyển đổi sang các gói tidyverse khác, điều này có thể không phù hợp với mọi người.

## Đóng góp của đề tài

Bài tiểu luận của nhóm em đóng góp cho cộng đồng sử dụng R trong việc áp dụng gói Tidyr vào việc phân tích dữ liệu ở một số khía cạnh quan trọng.

Đầu tiên, chúng em đã giới thiệu chi tiết về gói Tidyr, bao gồm các chức năng, lợi ích, phương pháp và cách thức thực hiện các hàm quan trọng trong gói Tidyr, điều này giúp cho mọi người có cái nhìn tổng quan nhất về nó.

Thứ hai, chúng em áp dụng vào việc phân tích dữ liệu tài chính qua đó làm nổi bật tính ứng dụng của Tidyr trong các lĩnh vực, cũng như nhấn mạnh sự tiện ích và hiệu quả của nó trong việc giúp người dùng tiết kiệm thời gian và nỗ lực trong công việc xử lý dữ liệu.

Cuối cùng, nhóm phân tích được tiềm năng và hạn chế của Tidyr, qua đó giúp cho những người phân tích dữ liệu sử dụng hiệu quả nhất gói này vào trong công việc của họ.

## Kết cấu

**Chương 1: Giới thiệu đề tài**

Giới thiệu tổng quan về tầm quan trọng của việc thực hiện đề tài nghiên cứu gói tidyr trong R, đưa ra những lý do để chọn chủ đề này và nêu những nội dung quan trọng của gói tidyr.

**Chương 2: Thực hành các hàm trong tidyr**

Chương hai sẽ trình bày cụ thể chức năng các hàm trong gói tidyr và đưa ra những ví dụ cụ thể để hướng dẫn thực hành.

**Chương 3: Ứng dụng của tidyr**

Dựa vào các chức năng của các hàm được trình bày trong chương 2 sau đó được áp dụng lên những dữ liệu lớn hơn và có cấu trúc khó hơn bằng cách kết hợp thêm một số gói khác như dplyr. Sau khi chuẩn hóa dữ liệu thì thực hiện tính thóa và trực quan hóa dữ liệu

**Chương 4: Kết luận**

Chương cuối sẽ kết luận những kết quả thu được trong bài này, đưa ra những hạn chế trong quá trình nghiên cứu và đề xuất phương hướng làm tiếp theo.

# CHƯƠNG 2: THỰC HÀNH CÁC HÀM TRONG TIDYR

```{r,echo=FALSE,warning=FALSE,message=FALSE}
library(DT)
```

Trong chương hai nhóm chúng tôi thực hiện các lệnh trong gói Tidyr để giúp người đọc có thể hiểu rõ các chức năng trong gói này. Từ đó, những người quan tâm đến gói Tidyr áp dụng các hàm vào công việc xử lí bộ dữ liệu của họ nhanh chóng hơn. Việc giới thiệu chi tiết về sử dụng gói Tidyr thông qua việc thực hành trên dữ liệu mẫu là nền tảng quan trọng để nhóm chúng tôi có thể ứng dụng Tidyr ở các phần sau

## Biến đổi dữ liệu (Pivoting)

### Chuyển dữ liệu sang dạng dài

Hàm pivot_longer hỗ trợ chúng ta chuyển đổi dữ liệu từ dạng rộng (wide format) sang dạng dài (long format). Việc biến đổi cấu trúc dữ liệu có ý nghĩa khi người phân tích muốn xử lý trên dữ liệu dạng dài để có thể thao tác dễ dàng và đạt nhiều hiệu quả hơn dạng rộng.

Chức năng pivot_longer() có một số tham số quan trọng như sau:

-   data: Tham số này yêu cầu dữ liệu mà chúng ta muốn chuyển đổi từ dạng rộng sang dạng dài.

-   cols: tham số này là danh sách các cột mà ta muốn chuyển đổi. Ta có thể chỉ định tên cột cụ thể trong data hoặc sử dụng các hàm để lựa chọn các cột theo những tiêu chí mà chúng ta muốn

-   names_to: Tên của cột mới sẽ lưu trữ các tên biến sau khi chuyển đổi sang dạng dữ liệu dài.

-   values_to: Tên của cột mới mà sẽ chứa các giá trị biến sau khi chuyển đổi.

Trước khi thực hành hàm pivot_longer tôi sẽ gọi một dữ liệu mẫu trong gói Tidyr đó chính là table4b, dữ liệu này gồm dân số của 3 quốc gia Afghanistan, Brazil, China trong hai năm 1999,2000.

```{r,message=FALSE, warning=FALSE}
library(tidyr)
library(tidyverse)
table4b

```

Từ table4b với mục đích biến đổi các năm về cùng một cột và giá trị về một cột chung với nhau, ta có thể thực hiện lệnh pivot_longer với dữ liệu ban đầu muốn chuyển đổi sang dạng dài là table4b, tham số 'cols' chỉ định các cột muốn chuyển đổi là cột từ "1999" đến "2000", tham số `names_to` được sử dụng để đặt tên cột mới chứa các biến với là "year" và tham số `values_to` đặt tên cho cột chứa các giá trị biến tương ứng là values.

```{r}
pivot_longer(table4b,cols= '1999':'2000',
                         names_to = "year",
                         values_to = "values")
```

Như kết quả sau khi chuyển đổi bên trên ta sẽ có được một dữ liệu dạng dài với mỗi dòng cho biết về tên quốc gia, năm khảo sát và dân số tương ứng.

### Chuyển dữ liệu sang dạng rộng

Hàm `pivot_wider` có chức năng biến đổi dạng dữ liệu dài sang dữ liệu rộng sao cho phù hợp với mục tiêu của người sử dụng. Hàm này có thao tác khá đơn giản tuy nhiên mang lại rất nhiều lợi ích trong quá trình làm việc của mọi người. Pivot_wider có các tham số chính như sau:

-   data: Dữ liệu dùng để chuyển sang dữ liệu dạng rộng

-   names_from: Tên cột hoặc biến mà ta muốn biến đổi thành các cột mới.

-   values_from: Tên cột hoặc biến chứa các giá trị tương ứng với các cột mới.

Dữ liệu được sử dụng để thực hiện hàm `pivot_wider` là table2, đây là dữ liệu mẫu trong gói Tidyr chứa thông tin về quốc gia, năm, loại số liệu về dân số, trường hợp mắc bệnh và số người tương ứng.

```{r}
table2
```

Đầu tiên, ta cần khai báo dữ liệu dùng để chuyển đổi là table2, phép toán tử giúp truyền kết quả của table2 phía trước thành đối tượng đầu vào của hàm pivot_wider. Tham số `names_from` trong trường hợp này được khai báo là type để chỉ ra tên cột dùng để biến đổi thành các cột mới trong dữ liệu rộng, mỗi giá trị trong biến type sẽ là một cột mới. `values_from` được chỉ định là biến count để chỉ ra các giá trị tương ứng với các cột mới

```{r}
table2 %>% pivot_wider(names_from = type, values_from = count)
```

Chuyển đổi cấu trúc dữ liệu table2 sang dạng dữ liệu rộng giúp ta dễ dàng đánh giá các trường hợp mắc bệnh và dân số của các quốc gia qua từng năm. Ngoài ra, việc chuyển đổi cấu trúc cũng giúp thực hiện phân tích theo từng biến và trực quan hóa dữ liệu tốt hơn.

## Tách cột

Chức năng tách một cột thành nhiều cột dựa trên những ký tự phân tách sẽ là một công cụ tốt để chúng ta có thể xử lý dữ liệu của mình khi mà một cột chứa nhiều giá trị kết hợp với nhau. Việc phân tách cột không yêu cầu nhiều thao tác nhưng vẫn đảm bảo được độ chính xác so với dữ liệu ban đầu, thao tác này có thể được coi là một trong những bước xử lý chuỗi phức tạp. Dữ liệu sau khi được tách cột sẽ đem lại thông tin chi tiết hơn để có thể phân tích, so sánh, trực quan hóa dữ liệu. Trong Tidyr để tách cột thì ta dùng hàm `separate()` với những tham số chính cần phải lưu ý như

-   data: Dữ liệu ban đầu.

-   col: Tên cột cần tách.

-   into: Tên các cột mới được tạo ra sau khi tách.

-   sep: Ký tự phân tách hoặc mẫu được sử dụng để tách cột.

-   remove: Xác định xem cột ban đầu cần được loại bỏ sau khi tách hay không, mặc định là TRUE.

-   convert: Xác định xem các cột mới cần được chuyển đổi thành kiểu dữ liệu phù hợp hay không, mặc định là FALSE.

Dữ liệu đầu vào dùng để tách cột là table3, dữ liệu này có cột rate dùng ký tự / để tính tỷ lệ người mắc bệnh trên dân số của một quốc gia. Ta có thể dùng hàm `separate()` để tách cột rate thành một cột chứa số liệu về số người mắc bệnh và một cột chứa số liệu về dân số.

```{r}
table3
```

Để thực hiện việc tách cột trước tiên chúng ta cần khai báo dữ liệu đầu vào là table3, chọn cột cần tách trong tham số `col` là cột rate, ở tham số `into` ta có thể đặt tên cho các cột mới là "case" và "population", tiếp theo `sep` chỉ ra ký tự dùng để phân tách trong dữ liệu của chúng ta đó là "/".

```{r}
separate(data = table3, col= rate, into= c("case","population"),sep = "/")
```

Kết quả từ câu lệnh trên sẽ tạo ra hai cột mới là case và population dựa vào cột rate ban đầu. Điều này sẽ giúp ta quan sát được số trường hợp mắc bệnh và dân số của một quốc gia một cách chi tiết hơn và sau đó có thể dễ dàng dùng nó trong các công việc khác.

```{r}
separate(data = table3 , col = rate, into = c("case", "population"), remove = FALSE, convert = TRUE )

```

Ngoài ra, ta có thể thêm vào tham số `remove` là FALSE để giữ nguyên cột rate ban đầu và tham số `convert` bằng TRUE để xác định chuyển đổi thành kiểu dữ liệu phù hợp

## Kết hợp cột

Ở bước làm sạch dữ liệu, chúng ta thường xuyên gặp phải các cột dữ liệu được tách ra riêng biệt và khi kết hợp chúng lại với nhau thì có thể được một cột dữ liệu hoàn chỉnh và gọn gàng hơn trước rất nhiều. Gói Tidyr bao gồm hàm `unite()` có thể dùng để kết hợp nhiều cột thành một cột bằng cách ghép các giá trị của chúng lại với nhau. Cấu trúc của dữ liệu sau khi biến đổi sẽ trở nên đơn giản, ít cột và mang ý nghĩa tổng quan hơn so với dữ liệu ban đầu. Những tham số chính trong hàm `unite()` được giải thích dưới đây:

-   data: Khung dữ liệu

-   col : Tên của cột mới được tạo, tên của các cột được hợp nhất sắp xếp theo trật tự

-   sep: Dấu phân cách giữa hai giá trị

-   remove: Nếu là TRUE sẽ xóa bỏ các cột dữ liệu ban đầu sau khi gộp lại thành cột mới

-   na.rm: Nếu là TRUE thì sẽ loại bỏ các giá trị bị thiếu trước khi kết hợp

Bảng dữ liệu table5 bên dưới có hai cột riêng biệt chứa giá trị về thế kỉ và năm, chúng ta kết hợp hai cột này thành một để có được số liệu năm hoàn chỉnh.

```{r}
table5
```

Trong hàm `unite()` khung dữ liệu được khai báo là table5, tên của cột mới sau khi kết hợp lại được đặt là "newyear" và các cột dùng để ghép lại được chỉ định lần lượt là cột century, year. Đối số `sep` yêu cầu dấu phân cách sau khi ghép các giá trị lại, trong trường hợp này tôi sử dụng "" là không có khoảng cách sau khi kết hợp hai dữ liệu. `remove` cho bằng FALSE là sẽ không loại bỏ các cột ban đầu sau khi kết hợp cột.

```{r}
unite(data = table5, col= newyear , century , year, sep="",remove = FALSE)
```

Sau khi kết hợp century và year ta được cột mới tên là newyear chứa các giá trị năm được ghép từ các giá trị trong hai cột trước đó. Từ đó, ta có thể sử dụng cột mới được tạo ra để làm các thao tác khác, chẳng hạn như vẽ đồ thị hay dùng để tính toán dựa vào từng năm.

## Nest

Lệnh nest() không phải là một lệnh tích hợp trong R. Tuy nhiên, trong gói tidyr, có hàm nest() cho phép chúng ta tạo một cột mới trong một dataframe và lồng dữ liệu thành các danh sách dựa trên một hoặc nhiều biến. Các tham số chính trong hàm `nest()` được trình bày dưới đây

-   .data: Đối số này là dữ liệu gốc mà bạn muốn tạo khung dữ liệu lồng nhau từ đó

-   ...: Đây là một đối số kiểu tidy-select, cho phép chọn các cột mà ta muốn lồng vào các khung dữ liệu con

-   .by: Đối số này cho phép chọn các cột dùng để nhóm dữ liệu

-   .key: là một đối số cho phép bạn chỉ định tên cho cột danh sách được tạo ra sau khi lồng dữ liệu. Nếu không chỉ định tên cho tham số này thì tên mặc định sẽ là "data"

Dưới đây là một ví dụ về dữ liệu của một bộ phận đang nghiên cứu về tình hình thời tiết trong các thành phố khác nhau. Chúng ta có một dataframe chứa thông tin về tên thành phố, ngày và giờ, nhiệt độ và độ ẩm.

```{r}
# Tạo dataframe chứa dữ liệu về thời tiết
data <- data.frame(
  ThanhPho = c("Hanoi", "Hanoi", "Hanoi", "HoChiMinh", "HoChiMinh", "HoChiMinh"),
  Ngay = c("2023-01-01", "2023-01-02", "2023-01-03", "2023-01-01", "2023-01-02", "2023-01-03"),
  Gio = c("12:00", "12:00", "12:00", "12:00", "12:00", "12:00"),
  NhietDo = c(20.5, 22.3, 21.8, 30.2, 31.5, 30.9),
  DoAm = c(60, 65, 62, 70, 68, 72)
)
print(data)
```

```{r}
# Lồng dữ liệu thành danh sách theo tên thành phố 
nested_data <- data %>%group_by(ThanhPho) %>% nest()

# Lồng dữ liệu bằng .by 
nested_data <- nest(data, .by = ThanhPho, .key = "DuLieu")

# In dữ liệu lồng
print(nested_data)

nested_data$DuLieu <- lapply(nested_data$DuLieu, as.data.frame)
lapply(nested_data$DuLieu, print)

```

Trong ví dụ này, chúng ta sử dụng hàm nest() trong gói tidyr và hàm group_by trong package dplyr để lồng dữ liệu theo tên thành phố. Bằng cách sử dụng chuỗi dòng lệnh trong gói tidyr và dplyr, chúng ta nhóm dữ liệu theo cột ThanhPho bằng hàm group_by() và sau đó sử dụng hàm nest() để tạo một cột mới chứa dữ liệu được lồng thành danh sách. Hoặc sử dụng tham số `.by` chọn cột ThanhPho để nhóm dữ liệu và sau đó dùng tham số `.key` để đặt tên cột danh sách tạo ra sau khi lồng dữ liệu.

Kết quả là một dataframe mới nested_data chứa hai cột: ThanhPho và DuLieu, trong đó cột hai chứa dữ liệu được lồng thành danh sách dựa trên tên thành phố. Các phần tử trong cột "DuLieu" là các danh sách dữ liệu con, mỗi danh sách chứa thông tin về ngày, giờ, nhiệt độ và độ ẩm tương ứng cho từng thành phố.

Lệnh nest() trong ví dụ này giúp chúng ta lồng dữ liệu theo tên thành phố, giúp tổ chức và xử lý dữ liệu thời tiết một cách trực quan và thuận tiện hơn

Sau đó, chúng ta tiếp tục sử dụng hàm lapply() để áp dụng hàm print() cho mỗi tibble trong danh sách nested_data\$DuLieu. Kết quả là cả hai dữ liệu bảng từ các tibble sẽ được hiển thị trên màn hình, mỗi tibble đi kèm với tên cột và các giá trị tương ứng.

Kết quả hiện thị lần lượt là bảng về thới tiết ở Hà Nội và bảng sau đó là bảng thời tiết ở Hồ chí Minh. Đó là ví dụ về hàm nest() được sử dụng kết hợp với hàm group_by() và hàm lapply để cho ra được kết quả là các dữ liệu bảng được lồng vào nhau theo các biến chúng ta cần thống kê

## Unnest

Trong ngôn ngữ lập trình R, lệnh `unnest()` được sử dụng để tách dữ liệu trong một cột chứa các đối tượng lồng nhau thành các cột riêng biệt. Điều này giúp chúng ta phân tách và truy cập dễ dàng vào các thành phần của các đối tượng được lồng nhau. Các tham số chính trong hàm `unnest()` gồm có:

-   data: Đối số này là dữ liệu gốc chứa cột danh sách mà chúng ta muốn giải nén. Đây là một đối số bắt buộc và phải là một khung dữ liệu (data frame).

-   col: Đây là đối số dùng để xác định tên của cột danh sách cần giải nén. Nó cũng là một đối số bắt buộc và phải là một chuỗi ký tự.

-   .drop: Một giá trị logical (TRUE hoặc FALSE) xác định xem liệu có nên loại bỏ cột danh sách sau khi giải nén hay không. Giá trị mặc định là TRUE, nghĩa là cột danh sách sẽ bị loại bỏ.

Dưới đây là ví dụ về lệnh unnest(), đầu tiên chúng tôi sẽ tạo dataframe chứa dữ liệu về sản phẩm và đặc điểm

```{r}
data1 <- data.frame(
  SanPham = c("SP1", "SP2", "SP3"),
  MauSac = I(list(
    rep(c("Đỏ", "Xanh", "Vàng"), each = 3),
    rep(c("Trắng", "Đen"), each = 2),
    rep("Cam", 3)
  )),
  KichThuoc = I(list(
    rep(c("S", "M", "L"), each = 3),
    rep(c("M", "L"), each = 2),
    rep("S", 3)
  )),
  Gia = c(100, 200, 150)
)
print(data1)  
```

```{r}
# Tách danh sách đặc điểm thành các cột riêng biệt
data_split <- unnest(data = data1, cols = c(MauSac,KichThuoc))


# In kết quả sau khi tách
datatable(data_split)
```

Trong ví dụ này, chúng ta có một dataframe data chứa thông tin về sản phẩm và đặc điểm của chúng. Cột MauSac và KichThuoc là các cột chứa danh sách các đặc điểm tương ứng với mỗi sản phẩm.

Sử dụng lệnh unnest() trong gói tidyr, chúng ta tách danh sách đặc điểm (MauSac và KichThuoc) thành các cột riêng biệt. Kết quả là một dataframe mới data_split với các cột SanPham, MauSac, KichThuoc và Gia, trong đó các cột MauSac và KichThuoc đã được tách thành các cột riêng biệt.

## complete()

Hàm complete() trong R làm một công cụ mạnh mẽ để điền các giá trị thiếu và tạo ra các hàng hoàn chỉnh trong một dataframe, . Hàm complete() cho phép chúng ta điền các giá trị thiếu trong dataframe bằng cách tạo ra tất cả các kết hợp có thể của các giá trị trong các cột được chỉ định. Các giá trị đã có sẽ được giữ nguyên, trong khi các giá trị thiếu sẽ được điền bằng NA trong kết quả hoàn chỉnh. Những đối số có trong hàm `complete()` là

-   data: Là data frame chứa dữ liệu cần mở rộng hoặc hoàn chỉnh.

-   ...: Được sử dụng để chỉ định các cột cần mở rộng hoặc hoàn chỉnh. Các cột này có thể là các vectors hoặc danh sách (lists).

-   fill: Đối số này cho phép chúng ta cung cấp một giá trị duy nhất cho mỗi biến để điền vào thay vì giá trị NA cho các kết hợp bị thiếu.

-   explicit: Nếu tham số này bằng TRUE tất cả giá trị NA đều sẽ được điền, còn nếu bằng FALSE chỉ các giá trị NA được tạo ra bởi hàm mới được điền.

Ví dụ: Giả sử chúng ta có một bảng dữ liệu về các sản phẩm có thông tin về tên sản phẩm, loại sản phẩm và giá tiền. Tuy nhiên, bảng dữ liệu thiếu một số giá trị hoặc có các sản phẩm không có giá tiền. Chúng ta muốn điền các giá trị thiếu và tạo ra các sản phẩm hoàn chỉnh với tất cả các cột.

```{r}
# Tạo dataframe chứa thông tin về sản phẩm
data2 <- data.frame(
  TenSanPham = c("SP1", "SP2", "SP3", "SP4"),
  LoaiSanPham = c("A", NA, "B", "C"),
  GiaTien = c(100, NA, 200, NA)
)
print(data2)
```

```{r}
# Điền các giá trị thiếu và tạo ra các sản phẩm hoàn chỉnh
data_complete <- complete(data2, TenSanPham, LoaiSanPham, GiaTien)

# In kết quả sau khi điền giá trị thiếu và tạo hàng hoàn chỉnh
options(max.print= 100)
print(data_complete, n = nrow(data_complete))

```

Trong ví dụ trên, chúng ta đã sử dụng hàm complete() để điền các giá trị thiếu và tạo ra các hàng hoàn chỉnh trong dataframe data. Các cột TenSanPham, LoaiSanPham và GiaTien đã được chỉ định là các cột cần hoàn chỉnh. Hàm complete() đã tạo ra tất cả các kết hợp có thể của các giá trị trong các cột được chỉ định và điền các giá trị thiếu bằng NA để tạo ra các hàng hoàn chỉnh. Kết quả được in ra màn hình để hiển thị dữ liệu đã được điền và tạo hàng hoàn chỉnh.

Trong kết quả, chúng ta có các hàng hoàn chỉnh với tất cả các kết hợp của các giá trị trong các cột TenSanPham, LoaiSanPham và GiaTien. Các giá trị thiếu được điền bằng NA để tạo ra các hàng hoàn chỉnh.

```{r}
# Thêm vào tham số fill 
data_complete <- complete(data2, TenSanPham, LoaiSanPham, GiaTien, fill = list(LoaiSanPham="C",GiaTien=150) )
datatable(data_complete)
```

Tuy nhiên, chúng ta có thể áp dụng tham số fill để cung cấp một giá trị cho mỗi cột dữ liệu thay cho giá trị NA. Ở cột LoaiSanPham ta có thể chọn "C" để thay thế cho những giá trị NA, tương tự trong cột GiaTien chọn giá trị là 150.

Tóm lại, việc sử dụng hàm complete() sẽ giúp ta quản lý dữ liệu thiếu và chuẩn bị dữ liệu cho phân tích và khám phá dữ liệu một cách dễ dàng và hiệu quả.

## Các hàm xử lý giá trị NA

Trong package tidyr, chúng ta có thể sử dụng các hàm như `drop_na()`, `fill()`, và`replace_na()` để xử lý các giá trị NA trong dữ liệu của mình. Thao tác này rất cần thiết đối vì dữ liệu được đem vào phân tích phải đầy đủ và độ chính xác cao thì kết quả thu được sẽ phản ánh đúng nhất với thực tế. Do đó, việc sử dụng thành thạo các công cụ trên sẽ giúp chúng ta tối ưu hóa thời gian làm việc của mình cũng như là đạt được kết quả tốt hơn ở những bước tiếp theo.

Chúng tôi sẽ thực hiện các ví dụ dựa trên dữ liệu có cấu trúc khá đơn giản nhằm mục đích giới thiệu những hàm xử lý các giá trị bị thiếu, ngoài ra cũng giúp người đọc có thể dễ dàng nhận ra được mức độ hiệu quả của nó khi được áp dụng lên bộ dữ liệu đơn giản. Sau đó, chương tiếp theo chúng tôi sẽ sử dụng lên dữ liệu phức tạp hơn và kết hợp thêm một số hàm khác để biến đổi về dạng dữ liệu sạch.

Để thực hiện các lệnh chúng tôi sẽ tạo một dataframe có tên là *df* gồm có cột *date* chứa chuỗi ngày bắt đầu từ "2023-07-01" đến "2023-07-10" và cột *sales* chứa số lượng sản phẩm được bán hàng ngày, trong đó có một số giá trị NA (thiếu thông tin) để đại diện cho các ngày không có dữ liệu.

```{r}
# Tạo dữ liệu ví dụ
df <- data.frame(
  date = seq(as.Date("2023-07-01"), as.Date("2023-07-10"), by = "day"),
  sales = c(100, NA, 120, 80, NA, 90, NA, NA, 110, 95)
)
print(df)


```

1.  Xóa các dòng chứa giá trị NA "drop_na()"

Hàm `drop_na(df)` sẽ xóa các dòng trong dataframe df chứa giá trị NA. Kết quả được gán vào dataframe *df_cleaned* được thể hiện bên dưới. Chúng ta thấy rằng cả 4 dòng có giá trị NA đã bị xóa đi mất bây giờ dữ liệu chỉ còn lại 6 dòng.

```{r}
# Xóa các dòng chứa giá trị NA
df_cleaned <- drop_na(df)
```

```{r,echo=FALSE}
print(df_cleaned)
```

2.  Điền các giá trị NA bằng giá trị cụ thể "fill()"

Ngoài ra, chúng ta có thể điền hoặc thay thế các giá trị mới cho các dòng bị NA trong cột dữ liệu bằng hàm `fill()`. Điền giá trị sẽ dựa vào các dòng dữ liệu ở phía trên hoặc phía dưới để hoàn thiện các dòng NA trong cột.

Để sử dụng hàm `fill()` thì trước tiên ta cần khai báo bộ dữ liệu cần xử lý dữ liệu thiếu trong trường hợp này là *df*, sau đó chọn cột chứa các giá trị là *sales* và đối số `.direction` giúp ta chọn hướng để điền giá trị thiếu, mặc định sẽ là "down" điền từ trên xuống.

Dựa vào bảng kết quả ta có thể thấy ở ngày 2 thì số lượng sản phẩm được bán trong ngày sẽ được điền là 100 dựa vào dòng dữ liệu ở trước đó, tương tự cho các ngày bên dưới.

```{r}
df_filled <- fill(data=df,sales,.direction = "down")
```

```{r,echo=FALSE}
print(df_filled)
```

Tùy vào mục đích chúng ta có thể điền giá trị bị thiếu theo điều hướng từ phía dưới lên như bảng kết quả bên dưới ở ngày 7 và 8 giá trị NA được thay thế bằng 110 dựa vào số lượng bán hàng của ngày 9

```{r}
df_filled2 <- fill(data=df,sales,.direction = "up")

```

```{r,echo=FALSE}
print(df_filled2)
```

3.  Thay thế các giá trị NA bằng giá trị khác "replace_na()"

Một cách khác dùng để xử lý giá trị thiếu là thay thế nó bằng một giá trị cụ thể mà chúng ta xác định, giá trị được dùng thay thế có thể là một con số, một vector và nó thay thế cho tất cả giá trị thiếu trong cột dữ liệu mà chúng ta chỉ định.

Trong ví dụ chúng tôi tính giá trị trung bình của cột sales trong dataframe *df* và loại bỏ các giá trị NA bằng đối số `na.rm = TRUE` . Tiếp theo, sử dụng hàm `replace_na()` để thay thế các giá trị NA trong cột *sales* của dataframe df bằng giá trị trung bình và kết quả được gán vào dataframe df_replaced

```{r}
# Thay thế các giá trị NA bằng giá trị trung bình của sales
mean_sales <- mean(df$sales, na.rm = TRUE)
df_replaced <- replace_na(data=df, replace =  list(sales = mean_sales))
```

```{r,echo=FALSE}
# In dữ liệu đã xử lý
print(df_replaced)

```

# CHƯƠNG 3: ỨNG DỤNG CỦA TIDYR

Trong chương này chúng tôi sẽ ứng dụng các hàm được giới thiệu ở chương 2 vào phân tích một số bộ dữ liệu để mọi người nhận thấy được sự hiệu quả của gói Tidyr trong giai đoạn xử lý dữ liệu chưa sạch. Ngoài ra, chúng tôi kết hợp một số gói khác chẳng hạn như dplyr, ggplot, tidyverse... để thuận tiện trong các thao tác phân tích cũng như trực quan hóa dữ liệu từ đó thu được kết quả tốt nhất.

## Bộ dữ liệu gapminder

Trước khi phân tích thì chúng tôi sẽ giới thiệu bộ dữ liệu "gapminder" trong package gapminder gồm có những thông tin và biến nào để người đọc có sự nhìn nhận tổng quát về nó, điều này sẽ hữu ích trong việc hiểu rõ các lệnh được áp dụng sẽ mang lại kết quả như thế nào.

Bộ dữ liệu "gapminder" cung cấp thông tin về tuổi thọ trung bình, dân số và GDP per capita của các quốc gia từ năm 1952 đến 2007 với chu kỳ là 5 năm sẽ thu thập dữ liệu một lần. Nó giúp ta nắm bắt được sự thay đổi và sự phát triển của các quốc gia theo thời gian. Dữ liệu này gồm 1704 quan sát và có 6 biến trong đó:

-   country: Tên quốc gia.

-   continent: Lục địa nơi quốc gia thuộc về. Có 5 giá trị: Africa, Americas, Asia, Europe, và Oceania.

-   year: Năm ghi nhận dữ liệu.

-   lifeExp: Tuổi thọ trung bình của dân số trong quốc gia, tính bằng đơn vị năm.

-   population: Dân số của quốc gia trong năm cụ thể.

-   gdpPercap: GDP trên mỗi người dân của một quốc gia trong năm cụ thể.

```{r,warning=FALSE,message=FALSE,echo=FALSE}
library(ggplot2)
library(dplyr)
library(DT)
```

Đầu tiên, chúng ta cần gọi dữ liệu "gapminder" bằng lệnh `data` sau khi đã cài đặt package *gapminder* và tải thư viện của nó lên, dữ liệu sẽ được gán vào biến "g" giúp việc nhập lệnh trở nên dễ dàng hơn so với tên ban đầu.

Bảng dữ liệu bên dưới, mỗi quan sát sẽ cho biết thông tin về tên quốc gia, châu lục của quốc gia, năm khảo sát và các chỉ số về tuổi thọ trung bình, dân số, GDP trên mỗi cá nhân tương ứng. Do đó, nó thuộc dạng dữ liệu "rộng" điều này sẽ giúp việc nhập dữ liệu hoặc trình bày bảng tốt hơn, người đọc báo cáo có thể hiểu rõ được nội dung mà không mất quá nhiều thời gian. Tuy nhiên dạng dữ liệu "rộng" sẽ gặp khó khăn trong việc phân tích vì vậy chúng ta cần phải chuyển sang dạng "dài".

```{r,warning=FALSE,message=FALSE}
library(gapminder)
data("gapminder")
g <- gapminder
datatable(g)

```

Hàm `pivot_longer()`sẽ chuyển dữ liệu "g" sang dạng dài bằng cách chuyển đổi ba cột *lifeExp, pop, gdpPercap* thành hai cột mới là *chiso* chứa tên các chỉ số và *giatri* chứa các giá trị của các biến ban đầu. Sau đó sẽ gán dữ liệu được chuyển đổi vào "g2", dữ liệu này sẽ có số quan sát là 5112 tuy nhiên thì số lượng biến sẽ ít hơn dữ liệu ban đầu (5 cột so với 6 cột).

```{r}
g2 <- pivot_longer(data = g , cols = c(lifeExp,pop,gdpPercap), names_to = "chiso", values_to = "giatri")
head(g2)
```

Nếu ta muốn tính trung bình của các chỉ số này theo từng châu lục khác nhau nhằm mục đích đánh giá tổng thể sự phát triển giữa các châu với nhau, ta có thể sử dụng thêm hàm `group_by` để nhóm dữ liệu theo cột *continent, chiso* và hàm `summarise` để thực hiện phép tính trung bình cho cột *giatri* của các nhóm dữ liệu. Cả hai hàm trên đều nằm trong gói **dplyr** có thể kết hợp với gói **tidyr** để biến đổi dữ liệu chưa sạch rất hiệu quả.

Kết quả thu được sẽ được gán vào "mean_g2" trong đó sẽ có cột *continent* chứa thông tin về các châu lục. Cột *chiso* gồm giá trị là GDP, tuổi thọ, dân số. Cột *trungbinh* sẽ chứa giá trị trung bình của các chỉ số tương ứng với mỗi châu lục.

```{r, message=FALSE}
mean_g2 <- g2 %>% group_by(continent,chiso) %>% summarise(trungbinh=mean(giatri))
datatable(mean_g2)
```

Từ đó, chúng ta trực quan hóa bộ dữ liệu vừa được tính trung bình bằng cách vẽ biểu đồ cột cho ba chỉ số với các màu sắc khác nhau. Các cột trên đồ thị sẽ tương ứng với các châu lục trong dữ liệu.

Biểu đồ có các cột màu đỏ là biểu đồ về GDP trên mỗi cá nhân trung bình của 5 châu lục. Dựa vào biểu đồ ta có thể thấy Châu Đại Đương có GDP cao nhất trong 5 châu lục (khoảng 18621 đô), ngược lại thì Châu Phi có GDP trung bình thấp với con số khiêm tốn là khoảng 2193 đô trên mỗi cá nhân.

Biểu đồ cột màu xanh lá đại diện cho tuổi thọ trung bình của người dân ở mỗi châu lục, nhìn tổng thể thì các châu lục có tuổi thọ trung bình không chênh lệch nhiều, ngoại trừ Châu Phi có tuổi thọ trung bình là khoảng 49 tuổi khá thấp so với Châu Âu (72 tuổi) và Châu Đại Đương (74 tuổi).

Cuối cùng, biểu đồ có cột màu xanh dương cho biết thông tin về dân số trung bình của các quốc gia trong một châu lục cụ thể. Ta nhận thấy rằng các quốc gia Châu Á có dân số trung bình cao vượt trội so với các châu lục còn lại( khoảng 77 triệu người). Tuy nhiên thì các quốc gia thuộc Châu Đại Đương và Châu Phi có dân số thấp (dưới mức 10 triệu người).

```{r}
ggplot(mean_g2, aes(x = continent, y = trungbinh, fill = chiso)) +
  geom_col() +
  facet_grid(chiso ~ ., scales = "free_y") +
  labs(x = "ChauLuc", y = "GiaTri") +
  theme_minimal() +
  scale_y_continuous(expand = expansion(mult = c(0.1, 0.1)))


```

Trong một vài tình huống nhu cầu của người phân tích chỉ cần chọn một số quốc gia cụ thể để đánh giá sự phát triển của nó bằng các chỉ số thì chúng ta cũng có để kết hợp thêm hàm `select()` và `filter` thuộc gói **dplyr**, sau đó thể hiện dữ liệu ở dạng đồ thị bằng các công cụ mạnh mẽ từ gói **ggplot2**.

Dưới đây chúng tôi chọn các cột *country, lifeExp, year* bằng hàm `select()` để dữ liệu đầu trong hàm phía sau sẽ nhỏ hơn bộ dữ liệu ban đầu. Phép toán tử *%\>%* giúp dữ liệu sau khi được chọn đưa vào đối số đầu tiên của hàm `filter` để thực hiện lọc một số quốc gia trong cột *country*. Cuối cùng sử dụng hàm `ggplot` để vẽ đồ thị đường về tuổi thọ trung bình của ba quốc gia China, Vietnam, United States.

```{r}
g %>% select(country,lifeExp,year) %>%  filter(country %in% c("China","Vietnam","United States"))%>% 
  ggplot(aes(x = year , y = lifeExp, color=country))+
      geom_line()+
      labs(x= "NĂM", y= "TUỔI THỌ", title = "BIỂU ĐỒ TUỔI THỌ TRUNG BÌNH", color = "QUỐC GIA")

```

Để biết thêm thông tin về sự thay đổi tổng dân số trong châu lục qua các năm, chúng tôi đã tính tổng dân số được nhóm theo biến *continent, year*. Kết quả sẽ được gán vào "g3" để thuận tiện thực hiện các lệnh tiếp theo.

Dữ liệu sau khi tính tổng dân số đã thuộc dạng dữ liệu dài, điều này sẽ khiến việc thực hiện trực quan hóa một cách rất dễ dàng. Do đó chúng ta có thể sử dụng nó biểu diễn đồ thị cột về sự thay đổi tổng dân số của các châu lục này qua các năm ngay lập tức.

```{r,message = FALSE}
g3 <- g %>% group_by(continent,year) %>% 
  summarise(spop=sum(pop))
head(g3)
```

```{r}
ggplot(g3)+
  geom_col(
    aes(x= year, y = spop, fill= continent ),
    width = 2
  )
```

Để phù hợp cho việc thực hiện các báo cáo và trình bày bảng chúng ta có thể dùng hàm `pivot_wider()` để chuyển *g3* sang dạng rộng như bên dưới đây. Bảng này sẽ giúp ta quan sát tổng dân số của từng lục địa qua các năm một cách thuận tiện hơn.

```{r}
wider_g3<- pivot_wider(g3 ,names_from = continent, values_from = spop)
datatable(wider_g3)
```

-   Sau đó vẽ đồ thị cột thể hiện tổng dân số thay đổi qua các năm cho châu Âu

```{r}

ggplot(wider_g3, aes(x = year, y= Europe ,fill= "Europe" ))+
  geom_col()+
  scale_fill_manual(values = "blue") +
  theme_minimal()+
   labs(x = "Năm",y="Dân số", title =  "BIỂU ĐỒ DÂN SỐ CHÂU ÂU ", fill = "Châu")

```

-   Dựa vào đồ thị, tổng dân số của Châu Âu có sự gia tăng qua các năm và tốc độ tăng này khá đồng đều nhau. Năm 1952 tổng dân số của châu lục này chỉ có khoảng 400 triệu người và tăng dần đến năm 2007 thì có khoảng 600 triệu người.

    Tiếp theo, chúng tôi sử dụng hàm `nest()` để gom các cột pop, gdpPercap và lifeExp thành một cột dạng nested list. Điều này giúp giảm sự phức tạp của dữ liệu và thực hiện các tính toán linh hoạt hơn theo nhóm đã được gộp.

```{r}
# Sử dụng hàm nest() để gom các năm và chỉ số tương ứng thành cột dạng nested list
nested <- g %>%  nest(.by  = c(country, continent,year),.key = "chiso")
```

```{r,echo=FALSE}
print(nested)
```

-   Như kết quả hiển thị bên trên, cột *chiso* nằm ở dạng danh sách lồng nhau ( nested list), mỗi phần tử sẽ chứa thông tin về *pop, gdp, lifeExp* của mỗi quốc gia theo từng năm.

Hơn thế, nếu chúng ta cần thông tin về các chỉ số của một quốc gia cụ thể chẳng hạn như United States ta có thể dùng hàm `filter()` để lọc nó ra và hiển thị kết quả về những chỉ số đã được gom.

```{r}
nested$chiso <- lapply(nested$chiso, as.data.frame)
US <- nested %>%  filter(country == "United States")
```

```{r,echo=FALSE}
print(US$chiso)
```

-   Để giải nén dữ liệu ở dạng list nested thì ta dùng hàm `unnest()`, kết quả thu được sẽ tương tự dữ liệu ban đầu ban đầu.

```{r}
# Sử dụng hàm unnest() để giải nén dữ liệu
unnest <- nested %>% unnest(chiso)
```

```{r,echo=FALSE}
print(unnest)
```

```{r}
# Vẽ biểu đồ cột cho tổng dân số (pop) của từng quốc gia trong năm 2007
 unnest %>% 
  filter(year == 2007 & country %in% c("Vietnam", "China", "Korea, Rep.", "Japan","Indonesia","Thailand","Malaysia","India")) %>% 
  ggplot( aes(x = reorder(country, pop), y = pop,fill = country)) +
  geom_bar(stat = "identity") +
  labs(title = "Dân số của một quốc gia Asia trong năm 2007",
       x = "Quốc gia",
       y = "Tổng dân số")

```

-   Biểu đồ cho thấy rằng dân số của India (Khoảng 1,1 tỷ người), China (khoảng 1,3 tỷ người) trong năm 2007 cao hơn rất nhiều so với một số quốc gia trong khu vực Châu Á. Quốc gia có dân số thấp nhất trong các quốc gia trên là Malaysia chỉ có khoảng 25 triệu người

Việc sử dụng nest() và unnest() cho bộ dữ liệu gapminder cho phép ta chuyển đổi dữ liệu từ dạng bảng thông thường thành dạng nested list và ngược lại. Điều này có thể hữu ích trong việc thao tác và xử lý dữ liệu, đặc biệt là khi làm việc với dữ liệu có cấu trúc phức tạp hơn và có nhiều cấp độ lồng nhau.

## WHO

Trong phần này chúng tôi sẽ làm việc trên bộ dữ liệu **who**, đây là bộ dữ liệu con được thu thập từ báo cáo về bệnh lao toàn cầu của Tổ chức Y tế Thế giới. Nó gồm có 60 cột và 7240 quan sát, tuy nhiên thì từ cột thứ 5 đến cột 60 có ký tự "new\_" được kết nối với các thông tin khác.

-   **country** là tên của các quốc gia được thu thập.

-   **ios2, ios3** lần lượt là mã quốc gia 2 ký tự và 3 ký tự.

-   **year** là năm thu thập dữ liệu.

-   Phương pháp chẩn đoán nếu là **rel** nghĩa là tái phát, **sn** là bệnh nhân không có vi khuẩn lao , **sp** là bệnh nhân có vi khuẩn lao, **ep** bệnh nhân lao ngoài phổi.

-   Ký tự **f** đại diện cho giới tính nữ và **m** là giới tính nam

-   Số trong mỗi cột được dùng để thể hiện nhóm tuổi ví dụ 014 là 0-14 tuổi, 1524 là 15-24 tuổi, 2534 là 25-34 tuổi, 3544 là 35-44 tuổi, 4554 là 45-54 tuổi, 5564 là 55-64 tuổi và 65 là 65 tuổi trở lên.

Ví dụ tên cột thứ 5 là "new_sp_m014" đại diện cho những bệnh nhân có kết quả chuẩn đoán có vi khuẩn lao lao dương tính, giới tính nam và thuộc nhóm tuổi từ 0 đến 14 tuổi.

```{r}
data("who")
```

```{r,echo=FALSE}
head(who)
```

Ta thực hiện chuyển dữ liệu sang dạng long bằng hàm `pivot_longer()` như đã được giới thiệu ở phần trước, các cột chuyển đổi được chọn bằng `starts_with` bắt đầu với ký tự "new". Tên biến chứa các cột sau khi chuyển sang dạng long là *method* và giá trị tương ứng được chứa trong cột *values*. Sau đó chúng ta có thể dùng hàm `drop_na()` để loại bỏ đi các giá trị NA.

```{r,message=FALSE}
#Chuyển dữ liệu sang dạng dài 
longer <- pivot_longer(data = who,cols = starts_with("new"), names_to = "method", values_to = "values")
longer <- drop_na(longer)
```

```{r,message=FALSE,echo=FALSE}
head(longer)
```

Chúng ta thấy rằng trong cột **method** chứa các thông tin về dữ liệu khảo sát bệnh lao dưới dạng chuỗi khá phức tạp, chính vì thế chúng ta cần kết hợp thêm hàm `gsub` để có thể loại bỏ cũng như là thêm vào một số chuỗi cần thiết. Hàm `mutate()` sẽ giúp cập nhập các giá trị vừa được thay đổi ở cột method trong trường hợp này chúng tôi tạo cột mới trùng với tên cột cũ.

-   Loại bỏ chuỗi "new\_" trong cột method bằng các thay thế nó bằng "", tuy nhiên một số chuỗi chỉ xuất hiện"new" chứ không phải là "new\_" cho nên chúng ta cần khai báo cho hàm `gsub()` các chuỗi cần thay thế là "new\_?".

```{r,message=FALSE,warning =FALSE}
longer <- longer %>% mutate(method = gsub("new_?","",method))
```

```{r,message=FALSE,echo=FALSE}
head(longer)
```

-   Tiếp theo, chúng ta thêm vào ký tự "\_" sau ký "f" hoặc "m" để có thể phân cách giới tính và nhóm tuổi

```{r,message=FALSE,warning =FALSE}
longer <- longer %>% mutate(method = gsub("(f|m)(\\d+)","\\1_\\2",method))
```

```{r,message=FALSE,echo=FALSE}
head(longer)
```

-   Thực hiện tác cột *method* thành ba cột *mt, gender, age* bằng hàm `separate()`

```{r,message=FALSE,warning =FALSE}
longer <- longer %>% separate(col = method,into = c("mt","gender","age"), sep = "_")
```

```{r,message=FALSE,echo=FALSE}
head(longer)
```

-   Chuyển đổi các giá trị viết tắt trong cột *age* và *gender* về nhóm tuổi, giới tính cụ thể.

```{r,message=FALSE,warning =FALSE}
longer <- mutate(longer, age = case_when(
 age == "014" ~ "0-14 years",
    age == "1524" ~ "15-24 years",
    age == "2534" ~ "25-34 years",
    age == "3544" ~ "35-44 years",
    age == "4554" ~ "45-54 years",
    age == "5564" ~ "55-64 years",
    age == "65" ~ "65 years or older",
))

longer <- longer %>%  mutate(gender = case_when(
  gender == "m" ~ "male",
  gender == "f" ~ "female"
))
```

Qua nhiều thao tác xử lý và biến đổi từ dữ liệu **who** ban đầu chúng ta đã có được bộ dữ liệu mới gọn gàng hơn rất nhiều. Việc làm sạch dữ liệu chưa hoàn chỉnh rất quan trọng trong quá trình phân tích, nó giúp chúng ta dễ dàng trực quan hóa bằng các hình ảnh, đồ thị cũng như là tính toán các số liệu thống kê.

```{r,message=FALSE,warning =FALSE,echo=FALSE}
datatable(longer)
```

```{r,message=FALSE}

longer %>% group_by(gender,year) %>% summarise(case= sum(values)) %>% 
  ggplot(aes(x=year, y = case , color=gender ))+
  geom_line()+
  scale_color_manual(values = c("blue", "red")) +
  theme_minimal() +
  labs(title = "TỔNG SỐ CA BỆNH THEO GIỚI TÍNH"  )
```

-   Dựa vào biểu đồ đường ở trên, tổng trường hợp mắc bệnh lao qua các năm ở hai giới tính có xu hướng tăng lên từ những năm 1995. Xu hướng tăng có tự tương đồng với nhau giữa hai nhóm giới tính tuy nhiên ở nam giới sự gia tăng tổng số ca mắc bệnh nhiều hơn ở nữ giới. Cụ thể, năm 2010 tổng các trường hợp mắc bệnh lao ở nam giới là 2,5 triệu người còn ở nữ giới chỉ có khoảng 1,5 triệu người.

```{r,message=FALSE}
# tính tổng số người bệnh theo giới tính và phương pháp chuẩn đoán (mt)
 df1 <- longer %>% group_by(gender,mt) %>% summarise(sum= sum(values))
```

```{r,echo=FALSE}
print(df1)
```

-   Tính tổng số ca mắc bệnh theo giới tính và phương pháp chuẩn đoán bằng hàm `group_by()` và `summarise()`, sau đó vẽ đồ thị cột đôi để đánh giá kết quả.

```{r,message=FALSE}
# Đồ thị 
  ggplot( df1,aes(x = mt, y = sum, fill = gender)) +
  geom_col(position = "dodge") +
  labs(title = "Tổng số ca theo phương pháp và giới tính",
       x = "Phương pháp",
       y = "Số lượng",
       fill = "Giới tính") +
  theme_minimal()
```

-   Đồ thị bên trên cho chúng ta thấy số người được chuẩn đoán là sp (có vi khuẩn lao) có số lượng cao nhất trong 4 nhóm cụ thể có 20542472 nam và 11292279 nữ trong trường hợp này. Chuẩn đoán là bệnh lao ngoài phổi (ep) có số lượng thấp nhất, trong đó ở nữ giới có 941049 người và nam giới có 1043265 người thuộc chuẩn đoán này.

```{r,message=FALSE}
        
longer %>% group_by(age)%>%  summarise(total=sum(values)) %>% 
  mutate(p = total/sum(total)) %>%
  ggplot(aes(x="", y= p, fill = age))+
  geom_bar(stat = "identity",width = 1)+
  scale_fill_brewer(palette = "Set3") +
  coord_polar("y",start = 0)+
  geom_text(aes(label = scales::percent(p)),position = position_stack(vjust = 0.5), size = 3) +
  theme_void() +
  labs(title= "Tình trạng bệnh lao ở các nhóm tuổi")

```

-   Nhóm từ 25 đến 34 tuổi có tỷ lệ mắc bệnh lớn nhất trong tất cả nhóm tuổi (khoảng 22.2%), ở nhóm từ 45 đến 54 tuổi cũng đạt tỷ lệ khá cao là 20.2%. Ngược lại thì nhóm 0-14 tuổi chiếm tỷ lệ mắc bệnh lao thấp nhất chỉ khoảng 3.9%. Nhìn chung tỷ lệ mắc bệnh cao sẽ thuộc các nhóm tuổi trung niên.

Để gom các biến thành một danh sách lồng nhau theo mỗi quốc gia ta áp dụng hàm `nest()`, dữ liệu mới này gọn gàng hơn rất nhiều so với ban đầu nếu chúng ta cần khai thác thông tin của quốc gia thì chỉ cần mở danh sách dữ liệu của nó mà không cần phải nhìn toàn bộ thông tin như ban đầu.

```{r}
nested_data <- nest(longer, .by = country, .key = "year")
```

```{r,echo=FALSE}
print(nested_data)
```

Hàm `filter()` trong trường hợp bên dưới được sử dụng để lọc Việt Nam ra khỏi bộ dữ liệu trên và sau đó ta hiển thị thông tin về các trường hợp mắc bệnh lao của nó như bên dưới đây.

```{r}
nested_data$year <- lapply(nested_data$year, as.data.frame)
VN <-  nested_data %>% filter(country== "Viet Nam")
```

```{r,echo=FALSE}
print(VN)
print(VN$year)
```

Giải nén dữ liệu ở dạng nested ta cần sử dụng hàm `unnest()` dữ liệu được trả về sẽ bao gồm các thông tin như dữ liệu ban đầu.

```{r}
# Sử dụng hàm unnest()
unnest_data <- unnest(nested_data,cols = year)
```

```{r,echo=FALSE}
print(unnest_data)
```

# CHƯƠNG 4: KẾT LUẬN

## Kết luận

Bài tiểu luận của chúng tôi đã trình bày các chức năng quan trọng của gói Tidyr trong ngôn ngữ lập trình R, nó chính là công cụ mạnh mẽ giúp mọi người xử lý những bộ dữ liệu chưa được chuẩn hóa về dạng dữ liệu sạch và sau đó đưa vào phân tích và trực quan hóa dữ liệu. Bên cạnh việc giới thiệu về gói này chúng tôi cũng đã thực hiện các thao tác hướng dẫn chi tiết dựa trên dữ liệu mẫu để làm nổi bật sự hiệu quả của gói Tidyr trong việc làm sạch dữ liệu. Những dữ liệu thô ban đầu thường có cấu trúc phức tạp, nhiều biến kết hợp với nhau bằng các ký tự phân cách hoặc thậm chí lồng ghép với nhau thành các danh sách. Vì vậy, chúng tôi đã thực hiện các hàm xử lý dữ liệu bị thiếu, biến đổi cấu trúc, tách ghép và lồng ghép danh sách sao cho phù hợp từng dữ liệu.

Gói Tidyr có thể kết hợp với một số gói khác chẳng hạn như là dplyr, ggplot2, stringr để tối ưu và tiết kiệm nhiều thời gian, tuy nhiên chúng ta cũng cần nghiên cứu rất nhiều để có thể kết hợp với các hàm trong gói Tidyr. Nhìn chung những hàm trong gói tidyr có tính ứng dụng rất cao trong nhiều lĩnh vực nhưng sử dụng thì khá đơn giản chỉ cần khai báo một vài đối số. Chẳng hạn hàm `pivot_longer` biến đổi dữ liệu rộng sang dạng dài giúp ta trực hóa dữ liệu tốt hơn trước, hàm `separate` có chức năng tách thành các cột dựa vào các ký tự phân cách ngược lại thì `unite` giúp kết hợp các cột lại với nhau và một số hàm xử lý dữ liệu khác.

Ngoài ra, ngôn ngữ R sẽ phát triển gói này theo thời gian chính vì vậy những nhược điểm của nó sẽ được cải thiện bởi chính những người dùng, một số chức năng mới có thể được thêm vào khiến cho Tidyr trở nên linh hoạt và đa dạng hơn. Trong quá trình thực hành các hàm nếu gặp phải những vấn đề khó khăn thì cộng đồng R có các bài hướng dẫn giúp ta giải quyết nó.

Tóm lại, gói tidyr là công cụ giúp cho chúng ta biến đổi cấu trúc dữ liệu, tách, ghép và xử lý dữ liệu bị thiếu một cách đơn giản nhưng nó lại giúp giai đoạn xử lý dữ liệu đầu vào của mọi người sẽ tiết kiệm nhiều thời gian và đạt kết quả cao hơn. Hơn thế, gói này còn kết hợp với hệ sinh thái Tidyverse và nhiều packages khác nhằm đáp ứng các nhu cầu khác nhau của người phân tích. Bởi vì những chức năng nổi bật đó mà gói tidyr được áp dụng trong nhiều lĩnh vực tài chính, bảo hiểm, y học.

## Hạn chế và phương hướng tiếp theo của đề tài

Trong thời gian nghiên cứu đề tài về gói tidyr chúng tôi đã gặp một số khó khăn trong việc tìm kiếm nguồn tài liệu tham khảo vì cần phải có một lượng lớn kiến thức cũng như hiểu rõ một số khái niệm để hoàn thành nó. Một số hàm cần phải xem qua nhiều tài liệu hướng dẫn, ví dụ cụ thể thì chúng ta mới có thể hiểu nó và trình bày chức năng của hàm đó. Hơn thế, chúng tôi cũng mất nhiều thời gian để chọn ra những dữ liệu thích hợp cho việc áp dụng các hàm minh họa. Việc hiểu cấu trúc của một bộ dữ liệu phức tạp sẽ giúp ta dùng những hàm phù hợp để biến đổi nó về dữ liệu sạch.

Chúng tôi muốn đề xuất một số phương hướng cho những nghiên cứu tiếp theo ở đề tài này. Gói này có thể sử dụng để phân tích những bộ dữ liệu nhiều biến và nhiều dòng dữ liệu hơn. Chúng ta nên kết hợp với các gói có khả năng trực quan hóa dữ liệu vừa xử lí bằng các đồ thị hay thậm chí là đồ thị 3D để trình bày kết quả. Ngoài ra những hàm xử lý chuỗi trong gói stringr sẽ giúp người sử dụng phát huy được các chức năng của gói tidyr khi sử dụng đồng thời chúng với nhau
