Ứng dụng mô hình Skip-thought giải quyết bài toán tìm kiếm câu đồng nghĩa trong văn bản
Tóm tắt: Đánh giá mức độ đồng nghĩa giữa các câu là nhiệm vụ trọng tâm để
thực hiện mục tiêu hiểu ngôn ngữ tự nhiên - một trong những thách thức lớn trong
xử lý ngôn ngữ tự nhiên. Sử dụng Deep Learning cho bài toán so khớp ngữ nghĩa
của câu đã thay đổi cách tiếp cận, khắc phục được những khó khăn mà các phương
pháp truyền thống trước đây gặp phải. Nhiều thuật toán đã được phát triển để có
thể biểu diễn câu bằng một vector với số chiều cố định, việc này giúp cho việc xử lý
ngôn ngữ tự nhiên dựa trên câu trở nên dễ dàng và hiệu quả hơn. Các phương pháp
trên đều trích rút đặc trưng thủ công hoặc sử dụng các thuật toán học có giám sát
nhưng với không gian ngữ liệu ngày càng phong phú, các phương pháp này tỏ ra
không còn hiệu quả. Điều đó là động lực để ra đời các phương pháp học không
giám sát, tận dụng sức mạnh tính toán của thiết bị hiện nay. Skip–thought là một
trong những mô hình Deep Learning điển hình cho việc sử dụng thuật toán học
không giám sát trong xử lý ngôn ngữ tự nhiên. Trong nghiên cứu này, mô hình Skipthought để tìm kiếm câu đồng nghĩa trong văn bản tiếng Việt. Với thử nghiệm trên
bộ ngữ liệu VnPara, mô hình Skip-thought đạt độ chính xác lên đến 93.96%, vượt
trội so với độ chính xác 89.1%. đã đạt được trước đây.
express.net, thanhnien.com.vn, .v.v.). Tác giả lấy ra hai câu từ hai tin có cùng chủ đề, sau đó xác định hai câu đó có tương đồng về nghĩa hay không. Việc xác định câu có tương đồng về nghĩa hay không do hai người thực hiện độc lập. Hệ số tin cậy Kappa đạt được là 0.9. Kết quả là 1500 được gán nhãn là tương đồng ngữ nghĩa (nhãn 1), 1500 gán nhãn là không tương đồng (nhãn 0). Công nghệ thông tin N. H. Phúc, , Đ. V. Hòa, “Ứng dụng mô hình Skip-thought trong văn bản.” 100 Hình 4. Giá trị hàm mất mát mô hình. Bảng 3. Ví dụ về mẫu ngữ liệu trong kho ngữ liệu VnPara. Câu Nội dung Nhãn 1 Trả lời câu hỏi này tôi xin nói lên suy nghĩ của mình về bóng đá nhà nghề từ đó suy ra bóng đá của ta hiện nay để các quan chức quản lý bóng đá chuyên nghiệp suy nghĩ rút kinh nghiệm . 0 2 Sự thực 100% đội bóng chuyên nghiệp Việt Nam hiện giờ không thể dùng doanh thu từ bóng đá ( gồm tiền thưởng thành tích bản quyền truyền hình bán vé hoạt động thương mại ) để tự nuôi sống mình khi thực tế nguồn thu này quá nhỏ và manh mún . 1 Hơn 10 năm qua công nghệ thông tin đã trở thành ngành kinh tế mũi nhọn có tốc độ tăng trưởng và hiệu quả cao đóng góp trực tiếp gần 7% GDP của đất nước đồng thời có tác động lan tỏa thúc đẩy phát triển nhiều ngành nhiều lĩnh vực kinh tế - xã hội . 1 2 Hơn 10 năm qua công nghệ thông tin đã trở thành ngành kinh tế có tốc độ tăng trưởng cao đóng góp trực tiếp gần 7% GDP và là một lợi thế phát triển đặc biệt của Việt Nam . Chúng tôi dùng Encoder của mô hình để tính 6.000 vector của 3.000 cặp trong câu bộ ngữ liệu Vnpara. Sau đó chia tập ngữ liệu thành 2 phần với tỷ lệ 70% dùng cho huấn luyện và 30% dùng cho kiểm thử. Chúng tôi xác định hai câu đồng nghĩa bằng cách thiết lập ngưỡng cứng cho độ đo tương tự cosine của hai vector 1v , 2v là vector biểu diễn hai câu trong cùng một mẫu Vnpara (cặp câu được xác định là đồng nghĩa nếu độ đo tương tự cosine vượt qua ngưỡng). Ngưỡng này được lựa chọn thông qua việc thử lần lượt các giá trị trên tập huấn luyện cho độ chính xác phân loại cao nhất. Đồng thời, theo thử nghiệm của Kiros, chúng tôi kết hợp hai vector 1v , 2v bằng các nối 1 2v v ( là phép nhân từng thành phần) và 1 2| |v v , vector cuối cùng sẽ là đầu vào cho một số phương pháp học máy khác (2,3,4) được mô tả trong bảng 4. Cùng thử nghiệm trên bộ ngữ liệu VnPara, Ngô Xuân Bách và đồng nghiệp thu được kết quả có độ chính xác Accuracy là 89.10%, và F1-Score là 86.77%. Trong khi đó, kết quả chúng tôi vượt trội hơn hẳn nếu sử dụng ngưỡng 0.52 để phân lớp, với độ chính xác Accuracy là 93.96% và F1-Score là 94%. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 101 Bảng 4. Kết quả của các phương pháp phân lớp khác nhau. TT Thuật toán Pha Accuracy Precision Recall F1-Score 1 Ngưỡng cứng- Cosine (0.52) Huấn luyện 91.92 % 91% 93% 92% Kiểm thử 93.96% 93% 95% 94% 2 SVM Huấn luyện 100% 100% 100% 100% Kiểm thử 93.28% 91% 96% 93% 3 MLP Huấn luyện 100% 100% 100% 100% Kiểm thử 93.67% 94% 94% 94% 4 K-NN (n=10) Huấn luyện 82.96% 99% 75% 86% Kiểm thử 76.8% 100% 69% 82% Trong bài toán đặt ra, tìm kiếm câu đồng nghĩa trong văn bản là tìm kiếm không chính xác. Với mỗi cặp câu được gán nhãn 1 truy vấn, lấy câu thứ nhất để truy vấn n câu gần nghĩa nhất trong tập câu thứ hai, nếu trong tập n kết quả trả về được sắp xếp theo giá trị độ đo tương tự cosine có chứa câu thứ hai cùng mẫu thì truy vấn được coi là chính xác. Với cách đánh giá trên, kết quả đạt thể hiện ở bảng 5: Bảng 5. Độ chính xác truy vấn n câu gần nghĩa nhất. n câu gần nhất Độ chính xác Số trường hợp đúng không truy vấn được 5 96.9% 50 10 97.5% 40 15 97.8% 36 Ví dụ: một truy vấn trên VnPara: “Chỉ có 149% CĐV chọn khả năng Van Gaal giành chức vô địch Ngoại hạng Anh ở mùa dẫn dắt đầu tiên ( 2014-2015 ) .” cho kết quả với 5 câu gần nhất được thể hiện trong bảng 6. Bảng 6. Kết quả 5 câu gần nghĩa nhất với: “Chỉ có 149% CĐV chọn khả năng Van Gaal giành chức vô địch Ngoại hạng Anh ở mùa dẫn dắt đầu tiên (2014-2015).” Độ tương tự Cosine Nội dung Nhãn 0.7264552 Chỉ có 149% CĐV chọn khả năng Van Gaal đoạt chức vô địch Ngoại hạng Anh ở mùa dẫn dắt đầu tiên ( 2014-2015 ) . 1 0.6088296 Có 59% CĐV bày tỏ rất lạc quan với tin tưởng rằng Van Gaal sẽ giành cú ăn hai Ngoại hạng Anh và FA Cup trong mùa sắp tới . 0 0.5019548 Số lượng không nhỏ ( 126% ) bày tỏ không tin tưởng khi cho rằng khả năng Man Utd chỉ giành suất dự Europa League trong mùa đầu tiên làm việc với Van Gaal . 0 0.4935432 Trong trường hợp Real có được nốt mục tiêu James Rodriguez cuộc chiến nơi tuyến giữa ở Bernabeu sẽ càng khủng khiếp hơn và đến lúc đó ngay cả Modric cũng sẽ phải ra rìa . 0 Công nghệ thông tin N. H. Phúc, , Đ. V. Hòa, “Ứng dụng mô hình Skip-thought trong văn bản.” 102 Độ tương tự Cosine Nội dung Nhãn 0.4896697 Hai danh hiệu FA Cup hoặc Capital One Cup là hai thành tích mà 53% còn lại cho rằng MU sẽ giành được. 0 Một số trường hợp đúng mà chương trình chưa truy vấn được thể hiện trong bảng 7. Bảng 7. Một số trường hợp đúng chương trình chưa truy vấn được. Nội dung Nhãn Đánh giá về dài hạn ông Thayer cho rằng Trung Quốc không từ bỏ tham vọng kiểm soát Biển Đông trong phạm vi đường chín đoạn . 1 Về lâu về dài ông Thayer cho rằng Trung Quốc không từ bỏ tham vọng kiểm soát Biển Đông và sẽ tiếp tục các hoạt động khai hoang như đang làm ở Trường Sa và tăng cường áp lực với Philippines . Trong đơn ông Hà Xuân trình bày trước đây ông có nhờ bà Phát gửi giùm số tiền 90.000 1 Mọi người thống nhất giao cho ông và con gái nuôi hợp pháp của bà Phát đồng đứng ra quản lý số tài sản đã được kiểm kê . Làm người phải giữ chữ tín . 1 Chữ tín phải được đặt lên hàng đầu . Giá USD tự do duy trì xu thế giảm mạnh còn 21.250 đồng được cho là nguyên nhân kéo giá vàng xuống . 1 Các ngân hàng cho biết một trong những nguyên nhân khiến giá USD giảm là do cung cầu trên thị trường khá dồi dào . 4. KẾT LUẬN Nghiên cứu và kết quả thử nghiệm cho thấy mô hình Skip- thought đã khắc phục được nhược điểm của các phương pháp cũ, đồng thời phù hợp với bài toán tìm kiếm câu đồng nghĩa trong văn bản tiếng Việt. Qua đánh giá mô hình với bộ ngữ liệu Vnpara, kết quả thử nghiệm khi sử dụng Skip-thought đạt độ chính xác lên đến 93.96% vượt trội so với phương pháp của nhóm Ngô Xuân Bách (89.1%). Áp dụng cho bài toán tìm kiếm câu đồng nghĩa trong văn bản, kiểm thử trên bộ ngữ liệu Vnpara cho kết quả 96.9% với cách đánh giá trên mục 3. TÀI LIỆU THAM KHẢO [1]. Wael H. Gomaa and Aly A. Fahmy, “A Survey of Text Similarity Approaches,” Int. J. Comput. Appl., vol. 68, no. 13, pp. 13–18, 2013. [2]. D. Kazakov and S. Dobnik, “Inductive learning of lexical semantics with typed unification grammars,” no. May, 2014. [3]. W. Zhibiao and M. Palmer, “VERB SEMANTICS AND LEXICAL SELECTION,” 32nd Annu. Meet. Assoc. Comput. Linguist., pp. 133–138, 1994. [4]. H. Liu and P. Wang, “Assessing sentence similarity using WordNet based word similarity,” J. Softw., vol. 8, no. 6, pp. 1451–1458, 2013. [5]. H. T. Nguyen, P. H. Duong, and V. T. Vo, “Vietnamese sentence similarity Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 103 based on concepts,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 8838, 2014. [6]. M. C. Lee, J. W. Chang, and T. C. Hsieh, “A Grammar-Based Semantic Similarity Algorithm for Natural Language Sentences,” vol. 2014, 2014. [7]. T. K. Landauer, P. W. Foltz, and D. Laham, “An Introduction to Latent Semantic Analysis,” Discourse Process., vol. 25, pp. 259–284, 1998. [8]. S. Simmons and Z. Estes, “Using latent semantic analysis to estimate similarity,” Proc. Cogn. Sci. Soc., pp. 2169–2173, 2006. [9]. K. Lund and C. Burgess, “Producing high-dimensional semantic spaces from lexical co-occurrence,” Behav. Res. Methods, Instruments, Comput., vol. 28, no. 2, pp. 203–208, 1996. [10].C. Exposure and D. Ed, “From Word Embeddings To Document Distances,” no. September, 2009. [11].N. X. Bach, T. T. Oanh, N. T. Hai, and T. M. Phuong, “Paraphrase Identification in Vietnamese Documents,” Proc. - 2015 IEEE Int. Conf. Knowl. Syst. Eng. KSE 2015, pp. 174–179, 2015. [12].Y. Wu et al., “Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation,” pp. 1–23, 2016. [13].T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, “Distributed Representations of Words and Phrases and their Compositionality,” IEEE Trans. neural networks, vol. 14, no. 6, pp. 1569–72, Oct. 2013. [14].R. Kiros et al., “Skip-Thought Vectors,” no. 786, pp. 1–11, 2015. [15].Y. Bengio, R. Ducharme, V. Pascal, and J. Christian, “A Neural Probabilistic Language Model,” J. Mach. Learn. Res., vol. 3, pp. 1137–1155, 2003. ABSTRACT USING SKIP – THOUGHT FOR FINDING SEMANTIC SIMILAR SENTENCES IN VIETNAMESE TEXTS Evaluation of semantic similarity has been an important task in natural language processing. Using Deep Learning for sematic matching has dominated other tradional methods. Many models has been developed for present a sentence as a vector, however most of these use supervised learning technique, it is not suitable for the problems with enormous data. Skip – thought is an unsupervised deep learning which has been used in many application of natural language processing. This paper present this method for finding semantic similar sentences in Vietnamese texts. Keywords: Natural Language Processing; Deep Learning; Sematic Similarity; Skip-thought. Nhận bài ngày 28 tháng 12 năm 2018 Hoàn thiện ngày 28 tháng 02 năm 2019 Chấp nhận đăng ngày 18 tháng 3 năm 2019 Địa chỉ: 1 Học viện Kỹ thuật quân sự; 2Viện CNTT, Viện KH-CN quân sự. *Email: vibaongoc@gmail.com.
File đính kèm:
- ung_dung_mo_hinh_skip_thought_giai_quyet_bai_toan_tim_kiem_c.pdf