Phương pháp đánh giá độ tương tự ngữ nghĩa giữa các văn bản tiếng Việt dựa trên mô hình Word2Vec

Tóm tắt: Đánh giá độ tương tự ngữ nghĩa giữa các văn bản được sử dụng trong

nhiều ứng dụng như tìm kiếm thông tin, tóm tắt văn bản,và dịch máy. Với văn bản

tiếng Việt, một trong các hướng tiếp cận là dựa trên việc so khớp từ bởi vì đơn giản,

và dễ cài đặt. Gần đây, một phương pháp đánh giá mới được phát triển dựa trên

việc so khớp từ và khoảng cách Levenshtein giữa 2 xâu. Tuy nhiên, phương pháp này

chưa quan tâm đến hiện tượng từ đồng nghĩa. Trong bài báo này, chúng tôi tích hợp

mô hình Word2Vec vào phương pháp trên nhằm bổ sung việc đánh giá ngữ nghĩa

của các từ trong văn bản. Kết quả thử nghiệm cho thấy độ chính xác trung bình của

phương pháp đề xuất được nâng từ 47.37% lên 79.07%.

pdf9 trang | Chuyên mục: Sư Phạm Ngữ Văn | Chia sẻ: yen2110 | Lượt xem: 354 | Lượt tải: 0download
Tóm tắt nội dung Phương pháp đánh giá độ tương tự ngữ nghĩa giữa các văn bản tiếng Việt dựa trên mô hình Word2Vec, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
ơng pháp đánh giá  dựa trên mô hình Word2Vec.” 108 
 
 
Levenshtein_distance "","" 0
Semantic_Similarity( , ) 1 1 1
max_len s, t 29
s t      
Như vậy 2 câu trên tương tự với hệ số tương tự cao nhất. Kết quả cho thấy với 
việc sử dụng mô hình Word2Vec để xác định các từ gần gũi, độ đo 
Sematic_Simlarity đã phản ánh được độ tương tự về mặt ngữ nghĩa giữa 2 câu. 
3. THỬ NGHIỆM VÀ ĐÁNH GIÁ 
Các thử nghiệm của chúng tôi được tiến hành cài đặt và chạy thử nghiệm trên 
máy Laptop Core i5 tốc độ 1.6 Ghz, 8 Gb Ram. 
Với mô hình Word2Vec, độ tương tự giữa hai từ được dựa vào độ đo Cosine 
giữa 2 vector, độ đo Cosine càng lớn, độ tương tự càng lớn. Tuy nhiên, chưa có 
nghiên cứu nào chỉ ra 2 từ đồng nghĩa thì có khoảng cách Cosine bằng bao nhiêu, 
do vậy chúng tôi tiến hành thử nghiệm nhằm tìm ra một giá trị ngưỡng phù hợp để 
xác định 2 từ gần gũi (đồng nghĩa). Hai từ sẽ được coi là gần gũi nếu khoảng cách 
Cosine giữa 2 từ này lớn hơn hoặc bằng giá trị ngưỡng. 
Trong các thử nghiệm, để thu được vector từ, chúng tôi sử dụng mô hình đã 
được huấn luyện và công bố tại  mô hình này sử dụng thư 
viện Deeplearning4j trong Java. Sau đó, chúng tôi huấn luyện bổ sung với ngữ liệu 
thu được từ các văn kiện Đại hội Đảng, báo lao động, báo nhân dân, .. Dữ liệu 
tiếng Việt đầu vào được xử lý tách câu và tách từ lần lượt, sử dụng 2 công cụ 
vnSentDetector và vnTokenizer do nhóm của Lê Hồng Phương và đồng nghiệp xây 
dựng[ 4,5]. 
Thử nghiệm 1. Xác định ngưỡng tương tự giữa từ với từ 
Trong thử nghiệm này, chúng tôi lấy 300 từ trong từ điển, sau đó với mỗi từ, sử 
dụng lần lượt các ngưỡng 0.4, 0.5, 0.6 để xác định các từ gần gũi với từ đã cho. 
Kết quả được thể hiện ở Bảng 1. 
Bảng 1. Thử nghiệm độ tương tự từ với từ trong Word2Vec. 
Ngưỡng = 0.4 Ngưỡng = 0.5 Ngưỡng = 0.6 
SL từ 
gần gũi 
TB thu 
được 
SL từ 
sai 
TB 
Tỉ lệ 
sai 
SL từ 
gần gũi 
TB 
SL 
từ 
sai 
TB 
Tỉ lệ 
sai % 
SL từ 
gần gũi 
TB 
SL từ 
sai 
TB 
Tỉ lệ 
sai % 
39.11 36.46 
46.62 
% 
18.05 2.12 11.75
% 
8.45 0.46 2.57
% 
Từ kết quả ta nhận thấy: Với ngưỡng 0.4, với mỗi từ thu được trung bình khoảng 
39 từ được xem là đồng nghĩa, tuy nhiên trong đó khi được xem xét cụ thể về mặt 
ngữ nghĩa có tỉ lệ sai lên đến 46.62%. Tương tự với ngưỡng 0.5 và 0.6 tỉ lệ sai lần 
lượt là 11.75% và 2.57%. Với ngưỡng 0.6, tỉ lệ sai nhỏ tuy nhiên số từ đồng nghĩa 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 109
tìm được cũng ít đi đáng kể, chỉ khoảng 8 từ, trong khi với Tiếng Việt có rất nhiều từ 
đồng nghĩa. Do vậy, chúng tôi chọn ngưỡng 0.5 do có số lượng từ vừa đủ, trung bình 
với mỗi từ ta tìm được 18 từ đồng nghĩa vài tỉ lệ sai vào khoảng 11.75%. 
Thử nghiệm 2. Xác định ngưỡng tương tự giữa câu với câu 
Cũng tương tự như việc xác định 2 từ đồng nghĩa, để xác định 2 câu đồng 
nghĩa ta cũng cần xác định các ngưỡng về độ đo. Trong thử nghiệm này, để xác 
định ngưỡng phù hợp với từng độ đo, chúng tôi tiến hành tính độ tương tự giữa 
150 cặp câu đồng nghĩa, với 2 độ đo: Lexical_Similarity được đề xuất trong [2], và 
độ đo Semantic_Similarity do chúng tôi đề xuất. Độ tương tự trung bình của 150 
cặp câu tương ứng với 2 độ đo Lexical_Similarity và Semantic_Similarity là 
0.4144 và 0.672. Do vậy, trong thử nghiệm tiếp theo, để xác định độ tương tự giữa 
2 câu, chúng tôi sử dụng ngưỡng 0.4 cho độ đo Lexical_Similarity và ngưỡng 0.6 
cho độ đo Semantic_Similarity. 
Thử nghiệm 3. Tìm câu đồng nghĩa với câu cho trước trong một văn bản. 
Nghiên cứu của chúng tôi được sử dụng để hỗ trợ quá trình tổng hợp ý kiến hội 
nghị, do vậy sau khi xác định ngưỡng với từng độ đo, chúng tôi tiến hành thử 
nghiệm tìm câu đồng nghĩa với câu cho trước trong một văn bản gồm n câu (so 
khớp 1 – n). 
Bài toán tổng hợp ý kiến hội nghị có thể được phát biểu ngắn gọn như sau: 
trong một cuộc họp có nhiều chủ đề, với mỗi chủ đề có n ý kiến phát biểu, mỗi ý 
kiến có m thư kí ghi chép lại. Người tổng hợp biên bản sẽ có văn bản được tổng 
hợp từ m thư ký. Như vậy số lượng các nội dung trùng lặp là nhiều, có thể trùng 
lặp toàn bộ hoặc một phần nội dung nhưng được diễn đạt theo các cách khác nhau 
cả về hình thức lẫn ngữ nghĩa. Người tổng hợp biên bản muốn thực hiện công việc 
một cách nhanh chóng cần phát hiện và loại bỏ các ý kiến trùng lặp về nội dung và 
hình thức để đưa ra được đánh giá chung nhất. 
Do vậy các văn bản thử nghiệm có thể coi là văn bản được tổng hợp từ m thư 
ký, như vậy với 1 nội dung sẽ có m cách diễn đạt khác nhau, tương ứng với m câu 
đồng nghĩa xuất hiện trong văn bản đó. 
Bảng 2 và bảng 3 thể hiện kết quả tìm kiếm sử dụng lần lượt độ đo 
Lexical_Similarity và Sematic_Similarity. 
Bảng 2. Thử nghiệm so khớp 1 – n với độ đo Lexical_Similarity. 
STT n m Đúng Sai Thiếu Tỉ lệ đúng Tỉ lệ sai Tỉ lệ thiếu 
1 10 4 2 1 1 50.00% 25.00% 25.00% 
2 50 7 3 2 2 42.86% 28.57% 28.57% 
3 100 20 9 3 8 45.00% 15.00% 40.00% 
4 200 45 22 8 15 48.89% 17.78% 33.33% 
Tổng 360 76 36 14 26 47.37% 18.42% 34.21% 
Công nghệ thông tin 
N. H. Phúc, , N. M. Tường, “Phương pháp đánh giá  dựa trên mô hình Word2Vec.” 110 
Bảng 3. Thử nghiệm so khớp 1 – n với độ đo Semantic_Similarity 1-n. 
STT n m Đúng Sai Thiếu Tỉ lệ đúng Tỉ lệ sai Tỉ lệ thiếu 
1 10 4 3 1 0 75.00% 25.00% 0.00% 
2 50 7 6 1 0 85.71% 14.29% 0.00% 
3 100 20 16 3 1 80.00% 15.00% 5.00% 
4 200 45 34 7 4 75.56% 15.56% 8.89% 
Tổng 360 60 47 9 4 79.07% 17.46% 3.47% 
Kết quả thu được cho thấy độ đo đề xuất Semantic_Similarity cho đã nâng độ 
chính xác trung bình từ 47.37% lên 79.07% 
4. KẾT LUẬN 
Với việc xác định các tập từ đồng nghĩa dựa trên khoảng cách Cosine giữa 2 
vector mã hóa từ xác định bởi mô hình Word2Vec, chúng tôi đã đề xuất một phương 
pháp mới đo độ tương tự ngữ nghĩa giữa hai văn bản tiếng Việt. Kết quả thử nghiệm 
cho thấy rằng độ đo mới thu được kết quả tốt và tỏ ra phù hợp khi áp dụng vào bài 
toán tổng hợp văn bản. Trong thử nghiệm với bài toán tổng hợp văn bản tiếng Việt, 
kết quả đạt được là trên 75% có thể chấp nhận được trong những điều kiện thực tế. 
Phương pháp đề xuất không xét đến từ loại, do đó khi áp dụng trong các ứng dụng 
xử lý ngôn ngữ tự nhiên khác cần thêm các nghiên cứu tiếp theo. 
TÀI LIỆU THAM KHẢO 
[1]. D. T. Long, T. T. Tùng, T. T. Dũng, Phương pháp đánh giá độ tương tự văn 
bản Tiếng Việt, Tạp chí Khoa học Viện Đại học Mở Hà Nội, 2017. 
[2]. H. N. Phát, H. H. Hạnh và P. C. Vinh, Thuật toán mới về so khớp Ontology, 
FAIR, 2015. 
[3]. Hien Nguyen, Phuc Duong, Vinh Vo, Vietnamese Sentence Similarity Based 
on Concepts, 13th IFIP International Conference on Computer Information 
Systems and Industrial Management (CISIM), Nov 2014. 
[4]. L. H. Phuong and H. T. Vinh, A Maximum Entropy Approach to Sentence 
Boundary Detection of Vietnamese Texts, IEEE International Conference on 
Research, Innovation and Vision for the Future RIVF 2008, Vietnam, 2008 
[5]. L. H. Phuong, N.T.M. Huyen, Roussanaly A., H. T. Vinh, A Hybrid Approach 
to Word Segmentation of Vietnamese Texts. In: Martín-Vide C., Otto F., Fernau 
H. (eds) Language and Automata Theory and Applications. LATA 2008. 
Lecture Notes in Computer Science, vol 5196. Springer, Heidelberg, 2008. 
[6]. Landauer, T. K., Foltz, P. and Laham, D., Introduction to latent semantic 
analysis. Discourse Processes 25, 1998. 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 111
[7]. Mikolov, T., Chen, K., Corrado, G., and Dean, J., Efficient estimation of word 
representations in vector space, arXiv preprint arXiv:1301.3781, 2013. 
[8]. Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., and Dean, J., Distributed 
representations of words and phrases and their compositionality, In Advances 
in Neural Information Processing Systems, 2013, 3111-3119. 
[9]. Rada Mihalcea, CourtneyCorley, Carlo Strapparava, Corpus-based and 
Knowledge-based Measures of Text Semantic Similarity, American 
Association for Artificial Intelligence, 2006, 775-780. 
[10]. Voorhees, E. Using WordNet to disambiguate word senses for text retrieval. 
Proceedings of the 16th international ACM SIGIR conference, 1993. 
[11]. V. I. Levenshtein, Binary codes capable of correcting deletions, insertions, 
and reversals, Soviet Physics Doklady10, 1966, 707–710 
[12]. Xin Rong, Word2Vec Parameter Learning Explained, Journal of Computing 
Research Repository, 2014. 
[13]. Yuhua Li, David McLean, Zuhair A. Bandar, James D. O’Shea, and Keeley 
Crockett, Sentence Similarity Based on Semantic Nets and Corpus Statistics, 
IEEE transactions on knowledge and data engineering, Vol. 18, No. 8, 2006. 
ABSTRACT 
A NEW METHOD FOR EVALUATING SEMANTIC SIMILARITY OF 
VIETNAMESE TEXTS BASED ON WORD2VEC MODEL 
Evaluation of semantic similarity has been used in many applications such 
as information retrieval, text summarization, and machine translation. Some 
methods for evaluating semantic similarity of Vietnamese are based on word 
matching because of simplify and easy implementation. Recently, there was a 
proposed measure of text similarity by combining the word matching and 
Levenshtein distance of two strings. However, this method does not consider 
synonyms. This paper presents a novel method for measuring the semantic 
similarity of Vietnamese texts by integrating Word2Vec model into the above 
method. The novelty of proposed methods is the compensation of the semantic 
similarity evaluation by the Word2Vec model. The results show that the 
proposed measure outperforms, and it increases the average accuracy from 
47.37% to 78.83%. 
Keywords: Natural Language Processing; Deep Learning; Sematic Similarity; Word2Vec. 
Nhận bài ngày 27 tháng 6 năm 2018 
Hoàn thiện ngày 27 tháng 9 năm 2018 
Chấp nhận đăng ngày 05 tháng 11 năm 2018 
Địa chỉ: 1 Học viện Kỹ thuật quân sự ; 
 2 Viện Công nghệ Thông tin/ Viện KH – CNQS; 
 3 Cục 75, Tổng cục 2. 
 * Email: laipv1984@gmail.com. 

File đính kèm:

  • pdfphuong_phap_danh_gia_do_tuong_tu_ngu_nghia_giua_cac_van_ban.pdf