Phương pháp đánh giá độ tương tự ngữ nghĩa giữa các văn bản tiếng Việt dựa trên mô hình Word2Vec
Tóm tắt: Đánh giá độ tương tự ngữ nghĩa giữa các văn bản được sử dụng trong
nhiều ứng dụng như tìm kiếm thông tin, tóm tắt văn bản,và dịch máy. Với văn bản
tiếng Việt, một trong các hướng tiếp cận là dựa trên việc so khớp từ bởi vì đơn giản,
và dễ cài đặt. Gần đây, một phương pháp đánh giá mới được phát triển dựa trên
việc so khớp từ và khoảng cách Levenshtein giữa 2 xâu. Tuy nhiên, phương pháp này
chưa quan tâm đến hiện tượng từ đồng nghĩa. Trong bài báo này, chúng tôi tích hợp
mô hình Word2Vec vào phương pháp trên nhằm bổ sung việc đánh giá ngữ nghĩa
của các từ trong văn bản. Kết quả thử nghiệm cho thấy độ chính xác trung bình của
phương pháp đề xuất được nâng từ 47.37% lên 79.07%.
ơng pháp đánh giá dựa trên mô hình Word2Vec.” 108 Levenshtein_distance "","" 0 Semantic_Similarity( , ) 1 1 1 max_len s, t 29 s t Như vậy 2 câu trên tương tự với hệ số tương tự cao nhất. Kết quả cho thấy với việc sử dụng mô hình Word2Vec để xác định các từ gần gũi, độ đo Sematic_Simlarity đã phản ánh được độ tương tự về mặt ngữ nghĩa giữa 2 câu. 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ Các thử nghiệm của chúng tôi được tiến hành cài đặt và chạy thử nghiệm trên máy Laptop Core i5 tốc độ 1.6 Ghz, 8 Gb Ram. Với mô hình Word2Vec, độ tương tự giữa hai từ được dựa vào độ đo Cosine giữa 2 vector, độ đo Cosine càng lớn, độ tương tự càng lớn. Tuy nhiên, chưa có nghiên cứu nào chỉ ra 2 từ đồng nghĩa thì có khoảng cách Cosine bằng bao nhiêu, do vậy chúng tôi tiến hành thử nghiệm nhằm tìm ra một giá trị ngưỡng phù hợp để xác định 2 từ gần gũi (đồng nghĩa). Hai từ sẽ được coi là gần gũi nếu khoảng cách Cosine giữa 2 từ này lớn hơn hoặc bằng giá trị ngưỡng. Trong các thử nghiệm, để thu được vector từ, chúng tôi sử dụng mô hình đã được huấn luyện và công bố tại mô hình này sử dụng thư viện Deeplearning4j trong Java. Sau đó, chúng tôi huấn luyện bổ sung với ngữ liệu thu được từ các văn kiện Đại hội Đảng, báo lao động, báo nhân dân, .. Dữ liệu tiếng Việt đầu vào được xử lý tách câu và tách từ lần lượt, sử dụng 2 công cụ vnSentDetector và vnTokenizer do nhóm của Lê Hồng Phương và đồng nghiệp xây dựng[ 4,5]. Thử nghiệm 1. Xác định ngưỡng tương tự giữa từ với từ Trong thử nghiệm này, chúng tôi lấy 300 từ trong từ điển, sau đó với mỗi từ, sử dụng lần lượt các ngưỡng 0.4, 0.5, 0.6 để xác định các từ gần gũi với từ đã cho. Kết quả được thể hiện ở Bảng 1. Bảng 1. Thử nghiệm độ tương tự từ với từ trong Word2Vec. Ngưỡng = 0.4 Ngưỡng = 0.5 Ngưỡng = 0.6 SL từ gần gũi TB thu được SL từ sai TB Tỉ lệ sai SL từ gần gũi TB SL từ sai TB Tỉ lệ sai % SL từ gần gũi TB SL từ sai TB Tỉ lệ sai % 39.11 36.46 46.62 % 18.05 2.12 11.75 % 8.45 0.46 2.57 % Từ kết quả ta nhận thấy: Với ngưỡng 0.4, với mỗi từ thu được trung bình khoảng 39 từ được xem là đồng nghĩa, tuy nhiên trong đó khi được xem xét cụ thể về mặt ngữ nghĩa có tỉ lệ sai lên đến 46.62%. Tương tự với ngưỡng 0.5 và 0.6 tỉ lệ sai lần lượt là 11.75% và 2.57%. Với ngưỡng 0.6, tỉ lệ sai nhỏ tuy nhiên số từ đồng nghĩa Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 109 tìm được cũng ít đi đáng kể, chỉ khoảng 8 từ, trong khi với Tiếng Việt có rất nhiều từ đồng nghĩa. Do vậy, chúng tôi chọn ngưỡng 0.5 do có số lượng từ vừa đủ, trung bình với mỗi từ ta tìm được 18 từ đồng nghĩa vài tỉ lệ sai vào khoảng 11.75%. Thử nghiệm 2. Xác định ngưỡng tương tự giữa câu với câu Cũng tương tự như việc xác định 2 từ đồng nghĩa, để xác định 2 câu đồng nghĩa ta cũng cần xác định các ngưỡng về độ đo. Trong thử nghiệm này, để xác định ngưỡng phù hợp với từng độ đo, chúng tôi tiến hành tính độ tương tự giữa 150 cặp câu đồng nghĩa, với 2 độ đo: Lexical_Similarity được đề xuất trong [2], và độ đo Semantic_Similarity do chúng tôi đề xuất. Độ tương tự trung bình của 150 cặp câu tương ứng với 2 độ đo Lexical_Similarity và Semantic_Similarity là 0.4144 và 0.672. Do vậy, trong thử nghiệm tiếp theo, để xác định độ tương tự giữa 2 câu, chúng tôi sử dụng ngưỡng 0.4 cho độ đo Lexical_Similarity và ngưỡng 0.6 cho độ đo Semantic_Similarity. Thử nghiệm 3. Tìm câu đồng nghĩa với câu cho trước trong một văn bản. Nghiên cứu của chúng tôi được sử dụng để hỗ trợ quá trình tổng hợp ý kiến hội nghị, do vậy sau khi xác định ngưỡng với từng độ đo, chúng tôi tiến hành thử nghiệm tìm câu đồng nghĩa với câu cho trước trong một văn bản gồm n câu (so khớp 1 – n). Bài toán tổng hợp ý kiến hội nghị có thể được phát biểu ngắn gọn như sau: trong một cuộc họp có nhiều chủ đề, với mỗi chủ đề có n ý kiến phát biểu, mỗi ý kiến có m thư kí ghi chép lại. Người tổng hợp biên bản sẽ có văn bản được tổng hợp từ m thư ký. Như vậy số lượng các nội dung trùng lặp là nhiều, có thể trùng lặp toàn bộ hoặc một phần nội dung nhưng được diễn đạt theo các cách khác nhau cả về hình thức lẫn ngữ nghĩa. Người tổng hợp biên bản muốn thực hiện công việc một cách nhanh chóng cần phát hiện và loại bỏ các ý kiến trùng lặp về nội dung và hình thức để đưa ra được đánh giá chung nhất. Do vậy các văn bản thử nghiệm có thể coi là văn bản được tổng hợp từ m thư ký, như vậy với 1 nội dung sẽ có m cách diễn đạt khác nhau, tương ứng với m câu đồng nghĩa xuất hiện trong văn bản đó. Bảng 2 và bảng 3 thể hiện kết quả tìm kiếm sử dụng lần lượt độ đo Lexical_Similarity và Sematic_Similarity. Bảng 2. Thử nghiệm so khớp 1 – n với độ đo Lexical_Similarity. STT n m Đúng Sai Thiếu Tỉ lệ đúng Tỉ lệ sai Tỉ lệ thiếu 1 10 4 2 1 1 50.00% 25.00% 25.00% 2 50 7 3 2 2 42.86% 28.57% 28.57% 3 100 20 9 3 8 45.00% 15.00% 40.00% 4 200 45 22 8 15 48.89% 17.78% 33.33% Tổng 360 76 36 14 26 47.37% 18.42% 34.21% Công nghệ thông tin N. H. Phúc, , N. M. Tường, “Phương pháp đánh giá dựa trên mô hình Word2Vec.” 110 Bảng 3. Thử nghiệm so khớp 1 – n với độ đo Semantic_Similarity 1-n. STT n m Đúng Sai Thiếu Tỉ lệ đúng Tỉ lệ sai Tỉ lệ thiếu 1 10 4 3 1 0 75.00% 25.00% 0.00% 2 50 7 6 1 0 85.71% 14.29% 0.00% 3 100 20 16 3 1 80.00% 15.00% 5.00% 4 200 45 34 7 4 75.56% 15.56% 8.89% Tổng 360 60 47 9 4 79.07% 17.46% 3.47% Kết quả thu được cho thấy độ đo đề xuất Semantic_Similarity cho đã nâng độ chính xác trung bình từ 47.37% lên 79.07% 4. KẾT LUẬN Với việc xác định các tập từ đồng nghĩa dựa trên khoảng cách Cosine giữa 2 vector mã hóa từ xác định bởi mô hình Word2Vec, chúng tôi đã đề xuất một phương pháp mới đo độ tương tự ngữ nghĩa giữa hai văn bản tiếng Việt. Kết quả thử nghiệm cho thấy rằng độ đo mới thu được kết quả tốt và tỏ ra phù hợp khi áp dụng vào bài toán tổng hợp văn bản. Trong thử nghiệm với bài toán tổng hợp văn bản tiếng Việt, kết quả đạt được là trên 75% có thể chấp nhận được trong những điều kiện thực tế. Phương pháp đề xuất không xét đến từ loại, do đó khi áp dụng trong các ứng dụng xử lý ngôn ngữ tự nhiên khác cần thêm các nghiên cứu tiếp theo. TÀI LIỆU THAM KHẢO [1]. D. T. Long, T. T. Tùng, T. T. Dũng, Phương pháp đánh giá độ tương tự văn bản Tiếng Việt, Tạp chí Khoa học Viện Đại học Mở Hà Nội, 2017. [2]. H. N. Phát, H. H. Hạnh và P. C. Vinh, Thuật toán mới về so khớp Ontology, FAIR, 2015. [3]. Hien Nguyen, Phuc Duong, Vinh Vo, Vietnamese Sentence Similarity Based on Concepts, 13th IFIP International Conference on Computer Information Systems and Industrial Management (CISIM), Nov 2014. [4]. L. H. Phuong and H. T. Vinh, A Maximum Entropy Approach to Sentence Boundary Detection of Vietnamese Texts, IEEE International Conference on Research, Innovation and Vision for the Future RIVF 2008, Vietnam, 2008 [5]. L. H. Phuong, N.T.M. Huyen, Roussanaly A., H. T. Vinh, A Hybrid Approach to Word Segmentation of Vietnamese Texts. In: Martín-Vide C., Otto F., Fernau H. (eds) Language and Automata Theory and Applications. LATA 2008. Lecture Notes in Computer Science, vol 5196. Springer, Heidelberg, 2008. [6]. Landauer, T. K., Foltz, P. and Laham, D., Introduction to latent semantic analysis. Discourse Processes 25, 1998. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 111 [7]. Mikolov, T., Chen, K., Corrado, G., and Dean, J., Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781, 2013. [8]. Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., and Dean, J., Distributed representations of words and phrases and their compositionality, In Advances in Neural Information Processing Systems, 2013, 3111-3119. [9]. Rada Mihalcea, CourtneyCorley, Carlo Strapparava, Corpus-based and Knowledge-based Measures of Text Semantic Similarity, American Association for Artificial Intelligence, 2006, 775-780. [10]. Voorhees, E. Using WordNet to disambiguate word senses for text retrieval. Proceedings of the 16th international ACM SIGIR conference, 1993. [11]. V. I. Levenshtein, Binary codes capable of correcting deletions, insertions, and reversals, Soviet Physics Doklady10, 1966, 707–710 [12]. Xin Rong, Word2Vec Parameter Learning Explained, Journal of Computing Research Repository, 2014. [13]. Yuhua Li, David McLean, Zuhair A. Bandar, James D. O’Shea, and Keeley Crockett, Sentence Similarity Based on Semantic Nets and Corpus Statistics, IEEE transactions on knowledge and data engineering, Vol. 18, No. 8, 2006. ABSTRACT A NEW METHOD FOR EVALUATING SEMANTIC SIMILARITY OF VIETNAMESE TEXTS BASED ON WORD2VEC MODEL Evaluation of semantic similarity has been used in many applications such as information retrieval, text summarization, and machine translation. Some methods for evaluating semantic similarity of Vietnamese are based on word matching because of simplify and easy implementation. Recently, there was a proposed measure of text similarity by combining the word matching and Levenshtein distance of two strings. However, this method does not consider synonyms. This paper presents a novel method for measuring the semantic similarity of Vietnamese texts by integrating Word2Vec model into the above method. The novelty of proposed methods is the compensation of the semantic similarity evaluation by the Word2Vec model. The results show that the proposed measure outperforms, and it increases the average accuracy from 47.37% to 78.83%. Keywords: Natural Language Processing; Deep Learning; Sematic Similarity; Word2Vec. Nhận bài ngày 27 tháng 6 năm 2018 Hoàn thiện ngày 27 tháng 9 năm 2018 Chấp nhận đăng ngày 05 tháng 11 năm 2018 Địa chỉ: 1 Học viện Kỹ thuật quân sự ; 2 Viện Công nghệ Thông tin/ Viện KH – CNQS; 3 Cục 75, Tổng cục 2. * Email: laipv1984@gmail.com.
File đính kèm:
- phuong_phap_danh_gia_do_tuong_tu_ngu_nghia_giua_cac_van_ban.pdf