Đánh Giá Hiệu Quả Một Của Một Số Mô Hình Máy Học Về Phân Tích Cảm Xúc

Tóm tắt

Bài báo này nghiên cứu và so sánh hiệu quả của các mô hình LSTM, BERT, RoBERTa và GPT ứng dụng trong việc phân tích cảm xúc. Để đánh giá hiệu suất của các mô hình này, nhóm tác giả đã sử dụng các chỉ tiêu sau: Độ chính xác (accuracy), F1 score và Độ phức tạp (perplexity).

Kết quả cho thấy các mô hình dựa trên Transformer như BERT và RoBERTa có kết quả vượt trội so với mô hình LSTM trong tất cả các chỉ tiêu dùng để đánh giá mô hình. Riêng mô hình GPT, mặc dù không được thiết kế chuyên biệt cho phân tích cảm xúc, nhưng vẫn đạt hiệu suất tốt nhờ khả năng hiểu ngữ cảnh mạnh mẽ. Tuy nhiên, GPT có độ phức tạp cao hơn so với các mô hình khác, điều này có thể ảnh hưởng đến hiệu quả tính toán trong các ứng dụng thực tế.

Bài báo cũng thảo luận về các ưu điểm và hạn chế của từng mô hình. Bộ dữ liệu được sử dụng trong nghiên cứu là IMDb Movie Reviews.

Từ khóa: Phân tích cảm xúc

1 Giới thiệu

Phân tích cảm xúc là một công cụ quan trọng trong nhiều lĩnh vực đặc biệt là trong khối ngành kinh tế, tài chính. Công cụ này đã góp phần cải thiện sự hiểu biết về hành vi con người và xu hướng thị trường. Khả năng khai thác thông tin từ nguồn dữ liệu phi cấu trúc từ mạng xã hội, báo chí và loại văn bản khác, cho phép các chuyên gia, các nhà quản lý nhận diện xu hướng và thái độ của công chúng đối với một sản phẩm, một chính sách hoặc sự kiện kinh tế. Điều này đặc biệt quan trọng trong bối cảnh toàn cầu hóa và số hóa đang diễn ra một cách mạnh mẽ, khi mà tốc độ lan truyền thông tin gần như là tức thời.

Phân tích cảm xúc không chỉ hỗ trợ việc dự đoán hành vi thị trường mà còn giúp các nhà hoạch định chính sách hiểu rõ hơn về mức độ hiệu quả của các chính sách, từ sẽ có những phương án điều chỉnh phù hợp nhằm ổn định và thúc đẩy sự phát triển kinh tế. Hơn nữa, sự kết hợp giữa phân tích cảm xúc và các mô hình học máy giúp tạo ra các mô hình dự báo mạnh mẽ và chính xác hơn, tận dụng sức mạnh của trí tuệ nhân tạo để xử lý một lượng dữ liệu vô cùng lớn và phức tạp. Vì vậy, phân tích cảm xúc còn đóng vai trò then chốt trong việc xây dựng các chiến lược kinh tế và dự báo xu hướng dài hạn một cách hiệu quả.

2 Lịch sử phát triển của các mô hình học máy dùng để phân tích cảm xúc

Sự phát triển của các mô hình học máy dùng trong việc phân tích cảm xúc mang tính nền tảng cho việc hình thành nên những mô hình AI mang lại rất nhiều những ứng dụng như hiện nay. Khái niệm phân tích cảm xúc được Pang và Lee (2002) đề cập đến lần đầu trong [1], điều này đã giúp cho bài toán phân loại văn bản có thể được thực hiện dựa trên những đặc trưng thống kê. Bước ngoặt đầu tiên xuất hiện với sự ra đời của mô hình Word2Vec do Tomas Mikolov (2013) và nhóm của ông phát triển, mô hình này áp dụng kỹ thuật học sâu để chuyển các từ thành thành vector số, điều này đã giúp cho cho máy tính nhận diện được mối quan hệ về mặt ngữ nghĩa giữa các từ trong văn bản.

Giai đoạn tiếp theo, với sự bùng nổ của các mô hình neural network, đặc biệt là mô hình LSTM (Long Short-Term Memory) được Hochreiter và Schmidhuber (1997) đề xuất đã giải quyết được vấn đề phụ thuộc lâu dài về mặt ngữ nghĩa trong xử lý ngôn ngữ tự nhiên. Một biến thể của LSTM là BiLSTM đã được Alex Graves mô tả chi tiết trong [2] và mô hình và CNN được Yoon Kim (2014) nghiên cứu, đã nâng cao một cách rõ rệt hiệu suất trong việc nắm bắt các đặc trưng ngữ cảnh hai chiều và các cục bộ trong văn bản.

Một cuộc cách mạng thực sự đã xảy ra khi mô hình Transformer do Vaswani (2017) giới thiệu, tạo tiền đề cho sự xuất hiện của các mô hình BERT (Devlin 2018) và các biến thể sau này. BERT đã đạt được những kết quả ấn tượng trong nhiều tác vụ xử lý ngôn ngữ tự nhiên (bao gồm phân tích cảm xúc), nhờ vào cơ chế self-attention và khả năng học biểu diễn ngữ cảnh hai chiều.

Hiện nay, xu hướng nghiên cứu đang hướng đến các mô hình đa chức năng và đa ngôn ngữ như XLM-RoBERTa (Conneau 2020), cho phép các mô hình AI có thể “giao tiếp” với nhau. Sự phát triển này không chỉ cải thiện hiệu suất, thế mạnh của từng mô hình AI mà còn có thể kết hợp nhiều mô hình AI để hình thành nên một “mạng lưới” AI tương lai.

3 Các tiêu chí đánh giá mô hình

3.1 Accuracy

Accuracy (độ chính xác) là một thước đo cơ bản được sử dụng phổ biến để đánh giá các mô hình học máy. Đây là tỉ lệ phần trăm số lượng dự đoán đúng trên tổng số lượng dự đoán đã thực hiện. \[ \text{Accuracy} = \frac{\text{Số trường hợp dự đoán đúng}}{\text{Tổng số trường hợp dự đoán}}\times100\% \]

Ưu điểm: Dễ tính toán, thích hợp sử dụng khi dữ liệu cân bằng.
Nhược điểm: Không phù đối với trường hợp dữ liệu bị mất cân bằng,

3.2 F1 - Score

F1 - Score là một chỉ tiêu thống kê được sử dụng để đánh giá hiệu suất của các mô hình phân loại cảm xúc, đặc biệt hữu ích trong các tình huống dữ liệu không cân bằng. F1 - Score là trung bình điều hòa của hai chỉ tiêu Precision (độ chính) và Recall (độ nhạy). \[ \text{F1 - Score}= 2\frac{\text{Precision}\times\text{Recall}}{\text{Precision}+\text{Recall}} \]

Ưu điểm: Tạo được sự cân bằng giữa độ chính xác (Precision) và độ nhậy (Recall), điều này phù hợp cho những bộ dữ liệu không cần bằng.
Nhược điểm: Không có thông tin về độ chính xác của True Negative (TN).

3.3 Perplexity

Perplexity là một thước đo phổ biến trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), đặc biệt trong việc đánh giá các mô hình xử lý ngôn ngữ tự nhiên. Chỉ tiêu này cho biết mức độ “bối rối” hoặc độ khó của một mô hình trong việc dự đoán từ tiếp theo, perplexity càng nhỏ nghĩa là việc dự đoán từ tiếp theo càng dễ. \[ \text{Perplexity} = 2^{-\frac{1}{N} \sum_{i=1}^{N} \log_2 P(w_i|\text{context})} \]

Ưu điểm: Dễ tính toán (bằng các đặc trưng thống kê), dễ hiểu.
Nhược điểm: Không phải lúc nào perplexity cũng phản ánh đúng độ “dễ” của từ tiếp theo đặt biệt khi áp dụng mô hình cho nhiều loại ngôn ngữ khác nhau.

4 Đánh giá các mô hình

4.1 Bộ dữ liệu dùng để đánh giá mô hình

Trong bài bài viết này chúng tôi sử dụng bộ dữ liệu IMDB để đánh giá các mô hình. IDMB là một bộ dữ liệu gồm 50,000 quan sát đã được gán nhãn, được thu thập từ trang https://www.imdb.com/, mỗi quan sát là một review của khán giả về bộ phim mà họ đã xem.

4.2 Kết quả

Kết quả tính toán các chỉ tiêu để đánh giá mô hình chúng tôi thực hiện bằng ngôn ngữ Python trên môi trường Colab.

5 Một vài thảo luận

6 Tài liệu tham khảo

Bo Pang, Lillian Lee & Shivakumar Vaithyanathan (2002). Thumbs up? Sentiment Classification using Machine Learning Techniques. Empirical Methods in Natural Language Processin. https://arxiv.org/pdf/cs/0205070
Yoon Kim (2014), Convolutional Neural Networks for Sentence Classification, Empirical Methods in Natural Language Processin.https://arxiv.org/pdf/1408.5882
Sách: Supervised Sequence Labelling with Recurrent Neural Networks” (2012), Alex Graves.