Trong quá trình phân tích và xử lý dữ liệu thì chắc ai cũng có thể gặp những khó khăn trong quá trình làm như xử lý dữ liệu thiếu làm ảnh hướng đến quá trình thực hành và đánh giá dữ liệu, ví dụ như “missForest” hay “mice” để có thể ước lượng các giá trị bi thiếu. Tuy nhiên, việc xử lý dữ liệu còn thiếu là một thử thách và đòi hỏi phân tích dữ liệu, xác định mô hình phù hợp hay không? Để lựa chọn mô hình có phù hợp cũng là một thách thức đối với người làm. Một điều quan trọng của mô hình tuyến tính là biến phụ thuộc và các biến độc lập có phân phối chuẩn không. Nó ảnh hưởng đến ước lượng hệ số hồi quy và giả thuyết thống kê, sai số dư trong phân phối chuẩn cũng là một vấn đề để tâm, vì nó có thể ảnh hưởng đến việc kiểm định giả thuyết, độ tinh cây của kết quả.
Để giải quyết các vấn đề trên thì nhóm chúng em chọn package nlme bởi vì nó cung cấp những công cụ mạnh mẽ để xây dựng và phân tích mô hình tuyến tính hỗn hợp, giúp mô hình hóa sự biến đổi không đồng nhất và mối quan hệ không tuyến tính giữa các biến độc lập và biến phụ thuộc. Xử lý được dữ liệu lặp lại và phụ thuộc: Package nlme được thiết kế để xử lý dữ liệu lặp lại và phụ thuộc, các quan sát không độc lập với nhau. Điều này rất hữu ích trong nghiên cứu lâm sàng, thí nghiệm đo lường lặp lại và các mô hình dữ liệu dạng dạng bảng. Ngoài ra, package nlme cho phép mô hình hóa cấu trấu phân tán của các quan sát không cùng phương sai hoặc tương quan thành mô hình tạo ra ước lượng chính xác hơn và điều chỉnh cho sự biến đổi không đồng nhất dữ liệu. Nó còn giúp chúng ta có những công cụ đánh giá kiểm định mô hình, mô hình có phù hợp không bằng các kiểm định thống kê và các chỉ số đánh giá hiệu suất mô hình và biểu đồ sai số.
Hiện nay, ngôn ngữ R được mọi người sử dụng rất rộng rãi bởi vì nó giúp chúng ta có thể tối ưu cho thống kê, phân tích, vẽ biểu đồ và trình bày dữ liệu, nếu như bạn là một người lập trình viên thì ngôn ngữ lập trình R không thể nào thiếu được khi bạn muốn làm việc với doanh nghiệp, code R có rất nhiều tính năng hữu dụng giúp cho chúng ta có thể ứng dụng trong phân tích dữ liệu của một công ty nào đó. Ngoài ra, thì cộng đồng R rất đông và tích cực ở đó có rất nhiều nhà làm thống kê, phân tích dữ liệu, nhà làm chính sách, phát triển phần mềm, họ có thể giúp mình trả lời các câu hỏi thắc mắc, đây cũng là nơi cung cấp những tài liệu vô cùng quý giá để chúng ta có thể học tập và trao đổi kinh nghiệm. Mặc khác, thì R có những điểm mạnh như sau là chạy code không cần compiler, thực hiện được các phép tính trên vectors, và còn một điểm mạnh đáng chú ý là Statistical-Language được ứng dụng trong thống kê dữ liệu, sinh học và cả di truyền học giúp chúng ta đáp ứng việc hoàn thành tất cả các thuật toán vì code R là loại ngôn ngữ turing-complete.
Để có thể chứng minh được tính ứng dụng trong thống kê dữ liệu thì hôm nay nhóm chúng tôi sử dụng package “nlme” (Linear and Nonlinear Mixed Effects Models) cung cấp các công cụ và phương pháp để phân tích mô hình tuyến tính không tuyến tính sử dụng các hiệu ứng kết hợp để phân tích dữ liệu có cấu trúc phân cụm hoặc lặp lại. Package này có thể hỗ trợ loạt các mô hình như hồi quy tuyến tính, mô hình tuyến tính tổng hợp, mô hình tuyến tính đa cấp, mô hình tuyến tính tổng hợp và nhiều mô hình khác. Package này giúp cho chúng ta có thể phân tích dữ liệu lặp lại như dữ liệu chuỗi thời gian, dữ liệu thu thập. Ngoài ra, còn cung cấp phương pháp ước lượng tham số hiệu quả như ước lượng Generalized Estimating Equations) và ước lượng tỷ lệ suy giảm trong mô hình tuyến tính hỗn hợp. Package này hỗ trợ mô hình hóa dữ liệu có cấu trúc phân cụm. Nó hỗ trợ mô hình hóa dữ liệu có cấu trúc phân cụm, trong đó dữ liệu được phân loại vào nhóm không gian(dữ liệu trung tâm nghiêm cứu). Nó cung cấp các phương trình tuyến tính đa cấp và mô hình tuyến tính tổng quát để mô hình hóa các hiệu ứng nhóm và cá nhân. Package nlme cung cấp các mô hình ước lượng tham số cho dữ liệu thiếu thông qua các phương pháp ước lượng các tham số cho dữ liệu thiếu thông qua phương pháp tối đa khả năng (maximum likelihood) hoặc phương pháp không tham số. Package nlme được phát triển để đáp ứng các yêu cầu phân tích phức tạp trong phân tích dữ liệu có cấu trúc phân cụm hoặc dữ liệu lặp lại.
Package nlme trong R được phát triển bởi Pinheiro và Bates và được xuất bản lần đầu tiên vào năm 1993. “nlme” là viết tắt của “Nonlinear Mixed-Effects Models” (Mô hình tuyến tính hỗn hợp phi tuyến). Cả hai đều là các nhà khoa học và nhà phân tích dữ liệu hàng đầu, có đóng góp đáng kể vào lĩnh vực mô hình hỗn hợp phi tuyến và phân tích dữ liệu lặp lại.
Pinheiro và Bates phát triển package nlme nhằm cung cấp một phương pháp mô hình hóa và phân tích dữ liệu lặp lại và phụ thuộc trong môi trường R. Package này tập trung vào mô hình tuyến tính hỗn hợp, trong đó các mô hình tuyến tính được áp dụng cho dữ liệu có cấu trúc phân tán và các quan sát không độc lập với nhau.
Package nlme đã trở thành một công cụ phổ biến và được sử dụng rộng rãi trong lĩnh vực phân tích dữ liệu lặp lại, nghiên cứu lâm sàng, và các lĩnh vực khác liên quan đến phân tích dữ liệu có cấu trúc phân tán. Đây là một trong những thành tựu nổi bật trong sự nghiên cứu và ứng dụng của cả hai tác giả trong lĩnh vực này
Package nlme trong R được tạo ra bởi José Pinheiro, Douglas Bates, Saikat DebRoy, Deepayan Sarkar và John C. Team. Tuy nhiên, có một số gói khác đã đóng góp vào sự phát triển của nlme hoặc có liên quan trực tiếp đến nó. Dưới đây là một số gói quan trọng liên quan đến package nlme:
1.Dplyr: Package này cung cấp các công cụ mạnh mẽ để thực hiện các hoạt động xử lý, truy vấn và biến đổi dữ liệu. Dplyr cho phép bạn thực hiện các thao tác như chọn cột, lọc dữ liệu, sắp xếp, nhóm và tóm tắt dữ liệu.
• Mutate(): mutate() là một hàm cực kì tiện ích trong khi phân tích dữ liệu, vì nó cho phép bạn tạo ra biến số mới tùy thích trong data frame. Bạn có thể dùng mutate cho 2 việc: hoán chuyển biến số hiện có và tạo ra biến số mới hoàn toàn.
• Select(): chọn các biến dựa trên tên của chúng.
• Filter(): chọn các trường hợp dựa trên giá trị của chúng.
• Summarise(): dùng để tóm tắt dữ liệu
• Arrange(): thay đổi thứ tự của các hàng
2.Ggplot2: Package này cung cấp công cụ đồ họa mạnh mẽ để tạo ra biểu đồ đẹp mắt và rõ ràng. Ggplot2 cho phép bạn tạo các biểu đồ dựa trên dữ liệu và áp dụng các thay đổi mô phỏng phức tạp và tùy chỉnh.
• Histograms: geom_histogram()
• Biểu đồ cột:* geom_bar()* hoặc geom_col()
• Box plots: geom_boxplot()
• Điểm (vd: biểu đồ phân tán): geom_point()
• Biểu đồ đường: geom_line() hoặc geom_path()
• Đường xu hướng: geom_smooth()
4.effects: Gói effects cung cấp các công cụ cho phân tích hiệu ứng trong mô hình tuyến tính.
5.Lme4 cung cấp các phương pháp mô hình hóa tuyến tính hỗn hợp khác, được sử dụng để phân tích dữ liệu lặp lại và phân tán và các chức năng để điều chỉnh và phân tích các mô hình hỗn hợp: tuyến tính (lmer), tuyến tính tổng quát (glmer) và phi tuyến tính (nlmer.)
Gói này sử dụng các phương pháp đại số tuyến tính hiệu quả, hiện đại như được triển khai trong gói Eigen và sử dụng các lớp tham chiếu để tránh sao chép quá mức các đối tượng lớn. lme4 bao gồm các khả năng của mô hình hỗn hợp tuyến tính tổng quát (GLMM), thông qua chức năng glmer và không triển khai các tính năng của nlme để lập mô hình phương sai thay đổi và tương quan của phần dư. Thực hiện các hiệu ứng ngẫu nhiên chéo theo cách dễ dàng hơn cho người dùng và nhanh hơn nhiều.
lme4 cung cấp các tiện ích tích hợp để lập hồ sơ khả năng và khởi động tham số và cho phép linh hoạt hơn trong việc chỉ định các chức năng khác nhau để tối ưu hóa các tham số phương sai-hiệp phương sai của hiệu ứng ngẫu nhiên.
6.glmnet: Cung cấp thuật toán Elastic Net để huấn luyện mô hình hồi quy tuyến tính với điều kiện sự lựa chọn biến tự động.Dưới đây là một số chức năng và lợi ích chính của gói “glmnet”:
Hồi quy Ridge: Gói cho phép bạn xây dựng mô hình hồi quy Ridge, một phương pháp giảm thiểu quá khớp bằng cách thêm hàm mất mát L2 regularization vào mô hình. Điều này giúp giảm hiện tượng quá khớp và cải thiện khả năng tổng quát hóa của mô hình.
Hồi quy Lasso: Gói cung cấp các công cụ để xây dựng mô hình hồi quy Lasso, một phương pháp lựa chọn biến đặc trưng thông qua hàm mất mát L1 regularization. Phương pháp này có thể giúp loại bỏ các biến không quan trọng và tạo ra một mô hình đơn giản chỉ với các biến quan trọng nhất.
Elastic Net: Gói “glmnet” cung cấp cả hai phương pháp ridge và lasso trong một mô hình duy nhất gọi là elastic net. Phương pháp này kết hợp cả hai hàm mất mát L1 và L2 regularization để cân bằng giữa lựa chọn biến đặc trưng và giảm thiểu quá khớp.
Đánh giá và lựa chọn mô hình: Gói cung cấp các công cụ để đánh giá hiệu suất của mô hình dựa trên các độ đo như sai số bình phương trung bình (MSE), hệ số xác định (R-squared) và các độ đo khác. Bạn có thể sử dụng các công cụ này để lựa chọn mô hình tốt nhất dựa trên hiệu suất trên tập dữ liệu kiểm tra.
Xử lý dữ liệu thiếu: Gói “glmnet” hỗ trợ xử lý dữ liệu thiếu trong quá trình xây dựng mô hình. Bạn có thể sử dụng các phương pháp như điền giá trị trung bình, điền giá trị phổ biến nhất hoặc sử dụng các phương pháp khác để giải quyết vấn đề dữ liệu thiếu, giúp tạo ra các mô hình có khả năng tổng quát hóa tốt và hiệu suất dự đoán cao.
7.glm: Cung cấp các phương pháp hồi quy tuyến tính và logistic. Đây là một gói là một gói cung cấp chức năng liên quan đến mô hình tuyến tính tổng quát (Generalized Linear Models - GLMs). GLMs là mô hình thống kê mở rộng của mô hình tuyến tính truyền thống, cho phép mô hình hóa dữ liệu với phân phối không chuẩn và mối quan hệ phi tuyến.
Gói “glm” cung cấp các chức năng chính sau:
Hàm “glm()”: Đây là hàm chính để xây dựng mô hình tuyến tính tổng quát. Hàm này cho phép bạn tùy chỉnh các thông số quan trọng như hàm liên kết, phân phối lỗi, các biến giải thích, v.v.
Hàm “predict()”: Hàm này được sử dụng để dự đoán giá trị của biến phụ thuộc dựa trên mô hình GLM đã được xây dựng.
Hàm “summary()”: Hàm này cho phép bạn xem các thông tin thống kê về mô hình GLM đã được xây dựng, bao gồm các hệ số ước lượng, giá trị p, đánh giá chất lượng mô hình, v.v.
Gói “glm” rất hữu ích trong việc mô hình hóa dữ liệu với các biến phụ thuộc không tuân theo phân phối chuẩn hoặc khi quan hệ giữa biến phụ thuộc và biến giải thích không phải là một hàm tuyến tính. Nó cung cấp các phương pháp ước lượng và kiểm định cho các mô hình tuyến tính tổng quát và là một công cụ mạnh mẽ cho phân tích thống kê trong R.
8.car cung cấp các công cụ cho phân tích hồi quy và phân tích biến phụ thuộc.
9.MASS cung cấp các phương pháp thống kê cho mô hình tuyến tính hỗn hợp và ước lượng các tham số trong mô hình tuyến tính.
10.Hmisc chứa nhiều chức năng hữu ích cho phân tích dữ liệu, đồ họa cấp cao, hoạt động tiện ích, chức năng tính toán kích thước và sức mạnh mẫu, mô phỏng, nhập và chú thích bộ dữ liệu, gán giá trị bị thiếu, tạo bảng nâng cao, phân cụm biến, thao tác chuỗi ký tự, chuyển đổi đối tượng R sang mã LaTeX và html, mã hóa lại các biến, bộ nhớ đệm, tính toán song song được đơn giản hóa, ước tính thống kê chung về cửa sổ di chuyển và hỗ trợ diễn giải phân tích thành phần chính.
1.Knitr là một triển khai của Literate Programming, một mô hình lập trình xen kẽ các đoạn mã (dành cho điện toán) với văn xuôi (dành cho tài liệu) trong cùng một tài liệu.
2.Lattice: Gói tiện ích lưới là một triển khai đồ họa Trellis dành cho R. Đây là một hệ thống trực quan hóa dữ liệu cấp cao mạnh mẽ và trang nhã, tập trung vào dữ liệu đa biến. Nó được thiết kế để đáp ứng hầu hết các nhu cầu đồ họa điển hình với sự điều chỉnh tối thiểu, nhưng cũng có thể dễ dàng mở rộng để xử lý hầu hết các yêu cầu phi tiêu chuẩn.
Mục tiêu chính của package nlme (Nonlinear Mixed Effects) là cung cấp các công cụ và phương pháp để mô hình hóa phân tích dữ liệu không tuyến tính và có yếu tố ngẫu nhiên, đặc biệt tập trung vào mô hình tuyến tính hỗn hợp (mixed-effects models) trong đó có sự kết hợp giữa hiệu ứng cố định (fixed effects) và hiệu ứng ngẫu nhiên (random effects). Ngoài ra, còn cung cấp một bộ khung mạnh mẽ và linh hoạt để xử lý mô hình tuyến tính hỗn hợp phúc tạp. Package này cho phép người dùng mô hình hóa các mối quan hệ không tuyến tính và mô hình tác động của các yếu tố ngẫu nhiên trong dữ liệu. Nó cung cấp các công cụ ước lượng tham số, kiểm định giả thuyết, đánh giá mô hình và khảo sát tương quan giữa các biến. Hơn nữa, còn có thể áp dụng vào một số lĩnh vực như y học, lâm nghiệp, công nghiệp ….