Phương pháp đánh giá độ tương tự ngữ nghĩa giữa các văn bản tiếng Việt dựa trên mô hình Word2Vec

Tóm tắt: Đánh giá độ tương tự ngữ nghĩa giữa các văn bản được sử dụng trong

nhiều ứng dụng như tìm kiếm thông tin, tóm tắt văn bản,và dịch máy. Với văn bản

tiếng Việt, một trong các hướng tiếp cận là dựa trên việc so khớp từ bởi vì đơn giản,

và dễ cài đặt. Gần đây, một phương pháp đánh giá mới được phát triển dựa trên

việc so khớp từ và khoảng cách Levenshtein giữa 2 xâu. Tuy nhiên, phương pháp này

chưa quan tâm đến hiện tượng từ đồng nghĩa. Trong bài báo này, chúng tôi tích hợp

mô hình Word2Vec vào phương pháp trên nhằm bổ sung việc đánh giá ngữ nghĩa

của các từ trong văn bản. Kết quả thử nghiệm cho thấy độ chính xác trung bình của

phương pháp đề xuất được nâng từ 47.37% lên 79.07%.

9 trang | Chuyên mục: Sư Phạm Ngữ Văn | Chia sẻ: yen2110 | Lượt xem: 834 | Lượt tải: 0

Tóm tắt nội dung Phương pháp đánh giá độ tương tự ngữ nghĩa giữa các văn bản tiếng Việt dựa trên mô hình Word2Vec, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên

ơng pháp đánh giá dựa trên mô hình Word2Vec.” 108
 
 
Levenshtein_distance "","" 0
Semantic_Similarity( , ) 1 1 1
max_len s, t 29
s t     
Như vậy 2 câu trên tương tự với hệ số tương tự cao nhất. Kết quả cho thấy với
việc sử dụng mô hình Word2Vec để xác định các từ gần gũi, độ đo
Sematic_Simlarity đã phản ánh được độ tương tự về mặt ngữ nghĩa giữa 2 câu.
3. THỬ NGHIỆM VÀ ĐÁNH GIÁ
Các thử nghiệm của chúng tôi được tiến hành cài đặt và chạy thử nghiệm trên
máy Laptop Core i5 tốc độ 1.6 Ghz, 8 Gb Ram.
Với mô hình Word2Vec, độ tương tự giữa hai từ được dựa vào độ đo Cosine
giữa 2 vector, độ đo Cosine càng lớn, độ tương tự càng lớn. Tuy nhiên, chưa có
nghiên cứu nào chỉ ra 2 từ đồng nghĩa thì có khoảng cách Cosine bằng bao nhiêu,
do vậy chúng tôi tiến hành thử nghiệm nhằm tìm ra một giá trị ngưỡng phù hợp để
xác định 2 từ gần gũi (đồng nghĩa). Hai từ sẽ được coi là gần gũi nếu khoảng cách
Cosine giữa 2 từ này lớn hơn hoặc bằng giá trị ngưỡng.
Trong các thử nghiệm, để thu được vector từ, chúng tôi sử dụng mô hình đã
được huấn luyện và công bố tại mô hình này sử dụng thư
viện Deeplearning4j trong Java. Sau đó, chúng tôi huấn luyện bổ sung với ngữ liệu
thu được từ các văn kiện Đại hội Đảng, báo lao động, báo nhân dân, .. Dữ liệu
tiếng Việt đầu vào được xử lý tách câu và tách từ lần lượt, sử dụng 2 công cụ
vnSentDetector và vnTokenizer do nhóm của Lê Hồng Phương và đồng nghiệp xây
dựng[ 4,5].
Thử nghiệm 1. Xác định ngưỡng tương tự giữa từ với từ
Trong thử nghiệm này, chúng tôi lấy 300 từ trong từ điển, sau đó với mỗi từ, sử
dụng lần lượt các ngưỡng 0.4, 0.5, 0.6 để xác định các từ gần gũi với từ đã cho.
Kết quả được thể hiện ở Bảng 1.
Bảng 1. Thử nghiệm độ tương tự từ với từ trong Word2Vec.
Ngưỡng = 0.4 Ngưỡng = 0.5 Ngưỡng = 0.6
SL từ
gần gũi
TB thu
được
SL từ
sai
TB
Tỉ lệ
sai
SL từ
gần gũi
TB
SL
từ
sai
TB
Tỉ lệ
sai %
SL từ
gần gũi
TB
SL từ
sai
TB
Tỉ lệ
sai %
39.11 36.46
46.62
%
18.05 2.12 11.75
%
8.45 0.46 2.57
%
Từ kết quả ta nhận thấy: Với ngưỡng 0.4, với mỗi từ thu được trung bình khoảng
39 từ được xem là đồng nghĩa, tuy nhiên trong đó khi được xem xét cụ thể về mặt
ngữ nghĩa có tỉ lệ sai lên đến 46.62%. Tương tự với ngưỡng 0.5 và 0.6 tỉ lệ sai lần
lượt là 11.75% và 2.57%. Với ngưỡng 0.6, tỉ lệ sai nhỏ tuy nhiên số từ đồng nghĩa
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 109
tìm được cũng ít đi đáng kể, chỉ khoảng 8 từ, trong khi với Tiếng Việt có rất nhiều từ
đồng nghĩa. Do vậy, chúng tôi chọn ngưỡng 0.5 do có số lượng từ vừa đủ, trung bình
với mỗi từ ta tìm được 18 từ đồng nghĩa vài tỉ lệ sai vào khoảng 11.75%.
Thử nghiệm 2. Xác định ngưỡng tương tự giữa câu với câu
Cũng tương tự như việc xác định 2 từ đồng nghĩa, để xác định 2 câu đồng
nghĩa ta cũng cần xác định các ngưỡng về độ đo. Trong thử nghiệm này, để xác
định ngưỡng phù hợp với từng độ đo, chúng tôi tiến hành tính độ tương tự giữa
150 cặp câu đồng nghĩa, với 2 độ đo: Lexical_Similarity được đề xuất trong [2], và
độ đo Semantic_Similarity do chúng tôi đề xuất. Độ tương tự trung bình của 150
cặp câu tương ứng với 2 độ đo Lexical_Similarity và Semantic_Similarity là
0.4144 và 0.672. Do vậy, trong thử nghiệm tiếp theo, để xác định độ tương tự giữa
2 câu, chúng tôi sử dụng ngưỡng 0.4 cho độ đo Lexical_Similarity và ngưỡng 0.6
cho độ đo Semantic_Similarity.
Thử nghiệm 3. Tìm câu đồng nghĩa với câu cho trước trong một văn bản.
Nghiên cứu của chúng tôi được sử dụng để hỗ trợ quá trình tổng hợp ý kiến hội
nghị, do vậy sau khi xác định ngưỡng với từng độ đo, chúng tôi tiến hành thử
nghiệm tìm câu đồng nghĩa với câu cho trước trong một văn bản gồm n câu (so
khớp 1 – n).
Bài toán tổng hợp ý kiến hội nghị có thể được phát biểu ngắn gọn như sau:
trong một cuộc họp có nhiều chủ đề, với mỗi chủ đề có n ý kiến phát biểu, mỗi ý
kiến có m thư kí ghi chép lại. Người tổng hợp biên bản sẽ có văn bản được tổng
hợp từ m thư ký. Như vậy số lượng các nội dung trùng lặp là nhiều, có thể trùng
lặp toàn bộ hoặc một phần nội dung nhưng được diễn đạt theo các cách khác nhau
cả về hình thức lẫn ngữ nghĩa. Người tổng hợp biên bản muốn thực hiện công việc
một cách nhanh chóng cần phát hiện và loại bỏ các ý kiến trùng lặp về nội dung và
hình thức để đưa ra được đánh giá chung nhất.
Do vậy các văn bản thử nghiệm có thể coi là văn bản được tổng hợp từ m thư
ký, như vậy với 1 nội dung sẽ có m cách diễn đạt khác nhau, tương ứng với m câu
đồng nghĩa xuất hiện trong văn bản đó.
Bảng 2 và bảng 3 thể hiện kết quả tìm kiếm sử dụng lần lượt độ đo
Lexical_Similarity và Sematic_Similarity.
Bảng 2. Thử nghiệm so khớp 1 – n với độ đo Lexical_Similarity.
STT n m Đúng Sai Thiếu Tỉ lệ đúng Tỉ lệ sai Tỉ lệ thiếu
1 10 4 2 1 1 50.00% 25.00% 25.00%
2 50 7 3 2 2 42.86% 28.57% 28.57%
3 100 20 9 3 8 45.00% 15.00% 40.00%
4 200 45 22 8 15 48.89% 17.78% 33.33%
Tổng 360 76 36 14 26 47.37% 18.42% 34.21%
Công nghệ thông tin
N. H. Phúc, , N. M. Tường, “Phương pháp đánh giá dựa trên mô hình Word2Vec.” 110
Bảng 3. Thử nghiệm so khớp 1 – n với độ đo Semantic_Similarity 1-n.
STT n m Đúng Sai Thiếu Tỉ lệ đúng Tỉ lệ sai Tỉ lệ thiếu
1 10 4 3 1 0 75.00% 25.00% 0.00%
2 50 7 6 1 0 85.71% 14.29% 0.00%
3 100 20 16 3 1 80.00% 15.00% 5.00%
4 200 45 34 7 4 75.56% 15.56% 8.89%
Tổng 360 60 47 9 4 79.07% 17.46% 3.47%
Kết quả thu được cho thấy độ đo đề xuất Semantic_Similarity cho đã nâng độ
chính xác trung bình từ 47.37% lên 79.07%
4. KẾT LUẬN
Với việc xác định các tập từ đồng nghĩa dựa trên khoảng cách Cosine giữa 2
vector mã hóa từ xác định bởi mô hình Word2Vec, chúng tôi đã đề xuất một phương
pháp mới đo độ tương tự ngữ nghĩa giữa hai văn bản tiếng Việt. Kết quả thử nghiệm
cho thấy rằng độ đo mới thu được kết quả tốt và tỏ ra phù hợp khi áp dụng vào bài
toán tổng hợp văn bản. Trong thử nghiệm với bài toán tổng hợp văn bản tiếng Việt,
kết quả đạt được là trên 75% có thể chấp nhận được trong những điều kiện thực tế.
Phương pháp đề xuất không xét đến từ loại, do đó khi áp dụng trong các ứng dụng
xử lý ngôn ngữ tự nhiên khác cần thêm các nghiên cứu tiếp theo.
TÀI LIỆU THAM KHẢO
[1]. D. T. Long, T. T. Tùng, T. T. Dũng, Phương pháp đánh giá độ tương tự văn
bản Tiếng Việt, Tạp chí Khoa học Viện Đại học Mở Hà Nội, 2017.
[2]. H. N. Phát, H. H. Hạnh và P. C. Vinh, Thuật toán mới về so khớp Ontology,
FAIR, 2015.
[3]. Hien Nguyen, Phuc Duong, Vinh Vo, Vietnamese Sentence Similarity Based
on Concepts, 13th IFIP International Conference on Computer Information
Systems and Industrial Management (CISIM), Nov 2014.
[4]. L. H. Phuong and H. T. Vinh, A Maximum Entropy Approach to Sentence
Boundary Detection of Vietnamese Texts, IEEE International Conference on
Research, Innovation and Vision for the Future RIVF 2008, Vietnam, 2008
[5]. L. H. Phuong, N.T.M. Huyen, Roussanaly A., H. T. Vinh, A Hybrid Approach
to Word Segmentation of Vietnamese Texts. In: Martín-Vide C., Otto F., Fernau
H. (eds) Language and Automata Theory and Applications. LATA 2008.
Lecture Notes in Computer Science, vol 5196. Springer, Heidelberg, 2008.
[6]. Landauer, T. K., Foltz, P. and Laham, D., Introduction to latent semantic
analysis. Discourse Processes 25, 1998.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 111
[7]. Mikolov, T., Chen, K., Corrado, G., and Dean, J., Efficient estimation of word
representations in vector space, arXiv preprint arXiv:1301.3781, 2013.
[8]. Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., and Dean, J., Distributed
representations of words and phrases and their compositionality, In Advances
in Neural Information Processing Systems, 2013, 3111-3119.
[9]. Rada Mihalcea, CourtneyCorley, Carlo Strapparava, Corpus-based and
Knowledge-based Measures of Text Semantic Similarity, American
Association for Artificial Intelligence, 2006, 775-780.
[10]. Voorhees, E. Using WordNet to disambiguate word senses for text retrieval.
Proceedings of the 16th international ACM SIGIR conference, 1993.
[11]. V. I. Levenshtein, Binary codes capable of correcting deletions, insertions,
and reversals, Soviet Physics Doklady10, 1966, 707–710
[12]. Xin Rong, Word2Vec Parameter Learning Explained, Journal of Computing
Research Repository, 2014.
[13]. Yuhua Li, David McLean, Zuhair A. Bandar, James D. O’Shea, and Keeley
Crockett, Sentence Similarity Based on Semantic Nets and Corpus Statistics,
IEEE transactions on knowledge and data engineering, Vol. 18, No. 8, 2006.
ABSTRACT
A NEW METHOD FOR EVALUATING SEMANTIC SIMILARITY OF
VIETNAMESE TEXTS BASED ON WORD2VEC MODEL
Evaluation of semantic similarity has been used in many applications such
as information retrieval, text summarization, and machine translation. Some
methods for evaluating semantic similarity of Vietnamese are based on word
matching because of simplify and easy implementation. Recently, there was a
proposed measure of text similarity by combining the word matching and
Levenshtein distance of two strings. However, this method does not consider
synonyms. This paper presents a novel method for measuring the semantic
similarity of Vietnamese texts by integrating Word2Vec model into the above
method. The novelty of proposed methods is the compensation of the semantic
similarity evaluation by the Word2Vec model. The results show that the
proposed measure outperforms, and it increases the average accuracy from
47.37% to 78.83%.
Keywords: Natural Language Processing; Deep Learning; Sematic Similarity; Word2Vec.
Nhận bài ngày 27 tháng 6 năm 2018
Hoàn thiện ngày 27 tháng 9 năm 2018
Chấp nhận đăng ngày 05 tháng 11 năm 2018
Địa chỉ: 1 Học viện Kỹ thuật quân sự ;
2 Viện Công nghệ Thông tin/ Viện KH – CNQS;
3 Cục 75, Tổng cục 2.
* Email: laipv1984@gmail.com.

File đính kèm:

phuong_phap_danh_gia_do_tuong_tu_ngu_nghia_giua_cac_van_ban.pdf