Ứng dụng mô hình Skip-thought giải quyết bài toán tìm kiếm câu đồng nghĩa trong văn bản

Tóm tắt: Đánh giá mức độ đồng nghĩa giữa các câu là nhiệm vụ trọng tâm để

thực hiện mục tiêu hiểu ngôn ngữ tự nhiên - một trong những thách thức lớn trong

xử lý ngôn ngữ tự nhiên. Sử dụng Deep Learning cho bài toán so khớp ngữ nghĩa

của câu đã thay đổi cách tiếp cận, khắc phục được những khó khăn mà các phương

pháp truyền thống trước đây gặp phải. Nhiều thuật toán đã được phát triển để có

thể biểu diễn câu bằng một vector với số chiều cố định, việc này giúp cho việc xử lý

ngôn ngữ tự nhiên dựa trên câu trở nên dễ dàng và hiệu quả hơn. Các phương pháp

trên đều trích rút đặc trưng thủ công hoặc sử dụng các thuật toán học có giám sát

nhưng với không gian ngữ liệu ngày càng phong phú, các phương pháp này tỏ ra

không còn hiệu quả. Điều đó là động lực để ra đời các phương pháp học không

giám sát, tận dụng sức mạnh tính toán của thiết bị hiện nay. Skip–thought là một

trong những mô hình Deep Learning điển hình cho việc sử dụng thuật toán học

không giám sát trong xử lý ngôn ngữ tự nhiên. Trong nghiên cứu này, mô hình Skipthought để tìm kiếm câu đồng nghĩa trong văn bản tiếng Việt. Với thử nghiệm trên

bộ ngữ liệu VnPara, mô hình Skip-thought đạt độ chính xác lên đến 93.96%, vượt

trội so với độ chính xác 89.1%. đã đạt được trước đây.

pdf11 trang | Chuyên mục: Sư Phạm Ngữ Văn | Chia sẻ: yen2110 | Lượt xem: 307 | Lượt tải: 0download
Tóm tắt nội dung Ứng dụng mô hình Skip-thought giải quyết bài toán tìm kiếm câu đồng nghĩa trong văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
express.net, thanhnien.com.vn, .v.v.). Tác giả lấy ra hai câu từ hai tin có cùng 
chủ đề, sau đó xác định hai câu đó có tương đồng về nghĩa hay không. Việc xác 
định câu có tương đồng về nghĩa hay không do hai người thực hiện độc lập. Hệ số 
tin cậy Kappa đạt được là 0.9. Kết quả là 1500 được gán nhãn là tương đồng ngữ 
nghĩa (nhãn 1), 1500 gán nhãn là không tương đồng (nhãn 0). 
Công nghệ thông tin 
N. H. Phúc, , Đ. V. Hòa, “Ứng dụng mô hình Skip-thought  trong văn bản.” 100 
Hình 4. Giá trị hàm mất mát mô hình. 
Bảng 3. Ví dụ về mẫu ngữ liệu trong kho ngữ liệu VnPara. 
Câu Nội dung Nhãn 
1 
Trả lời câu hỏi này tôi xin nói lên suy nghĩ của mình về bóng đá 
nhà nghề từ đó suy ra bóng đá của ta hiện nay để các quan chức 
quản lý bóng đá chuyên nghiệp suy nghĩ rút kinh nghiệm . 
0 
2 
Sự thực 100% đội bóng chuyên nghiệp Việt Nam hiện giờ không 
thể dùng doanh thu từ bóng đá ( gồm tiền thưởng thành tích bản 
quyền truyền hình bán vé hoạt động thương mại ) để tự nuôi sống 
mình khi thực tế nguồn thu này quá nhỏ và manh mún . 
1 
Hơn 10 năm qua công nghệ thông tin đã trở thành ngành kinh tế 
mũi nhọn có tốc độ tăng trưởng và hiệu quả cao đóng góp trực tiếp 
gần 7% GDP của đất nước đồng thời có tác động lan tỏa thúc đẩy 
phát triển nhiều ngành nhiều lĩnh vực kinh tế - xã hội . 1 
2 
Hơn 10 năm qua công nghệ thông tin đã trở thành ngành kinh tế 
có tốc độ tăng trưởng cao đóng góp trực tiếp gần 7% GDP và là 
một lợi thế phát triển đặc biệt của Việt Nam . 
Chúng tôi dùng Encoder của mô hình để tính 6.000 vector của 3.000 cặp trong 
câu bộ ngữ liệu Vnpara. Sau đó chia tập ngữ liệu thành 2 phần với tỷ lệ 70% dùng 
cho huấn luyện và 30% dùng cho kiểm thử. Chúng tôi xác định hai câu đồng nghĩa 
bằng cách thiết lập ngưỡng cứng cho độ đo tương tự cosine của hai vector 1v , 2v là 
vector biểu diễn hai câu trong cùng một mẫu Vnpara (cặp câu được xác định là 
đồng nghĩa nếu độ đo tương tự cosine vượt qua ngưỡng). Ngưỡng này được lựa 
chọn thông qua việc thử lần lượt các giá trị trên tập huấn luyện cho độ chính xác 
phân loại cao nhất. Đồng thời, theo thử nghiệm của Kiros, chúng tôi kết hợp hai 
vector 1v , 2v bằng các nối 1 2v v ( là phép nhân từng thành phần) và 1 2| |v v , 
vector cuối cùng sẽ là đầu vào cho một số phương pháp học máy khác (2,3,4) được 
mô tả trong bảng 4. 
Cùng thử nghiệm trên bộ ngữ liệu VnPara, Ngô Xuân Bách và đồng nghiệp thu 
được kết quả có độ chính xác Accuracy là 89.10%, và F1-Score là 86.77%. Trong 
khi đó, kết quả chúng tôi vượt trội hơn hẳn nếu sử dụng ngưỡng 0.52 để phân lớp, 
với độ chính xác Accuracy là 93.96% và F1-Score là 94%. 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 101
Bảng 4. Kết quả của các phương pháp phân lớp khác nhau. 
TT Thuật toán Pha Accuracy Precision Recall F1-Score 
1 
Ngưỡng cứng-
Cosine (0.52) 
Huấn luyện 91.92 % 91% 93% 92% 
Kiểm thử 93.96% 93% 95% 94% 
2 SVM 
Huấn luyện 100% 100% 100% 100% 
Kiểm thử 93.28% 91% 96% 93% 
3 MLP 
Huấn luyện 100% 100% 100% 100% 
Kiểm thử 93.67% 94% 94% 94% 
4 K-NN (n=10) 
Huấn luyện 82.96% 99% 75% 86% 
Kiểm thử 76.8% 100% 69% 82% 
Trong bài toán đặt ra, tìm kiếm câu đồng nghĩa trong văn bản là tìm kiếm không 
chính xác. Với mỗi cặp câu được gán nhãn 1 truy vấn, lấy câu thứ nhất để truy vấn 
n câu gần nghĩa nhất trong tập câu thứ hai, nếu trong tập n kết quả trả về được sắp 
xếp theo giá trị độ đo tương tự cosine có chứa câu thứ hai cùng mẫu thì truy vấn 
được coi là chính xác. 
Với cách đánh giá trên, kết quả đạt thể hiện ở bảng 5: 
Bảng 5. Độ chính xác truy vấn n câu gần nghĩa nhất. 
n câu gần nhất Độ chính xác Số trường hợp đúng không truy vấn được 
5 96.9% 50 
10 97.5% 40 
15 97.8% 36 
Ví dụ: một truy vấn trên VnPara: “Chỉ có 149% CĐV chọn khả năng Van Gaal 
giành chức vô địch Ngoại hạng Anh ở mùa dẫn dắt đầu tiên ( 2014-2015 ) .” cho 
kết quả với 5 câu gần nhất được thể hiện trong bảng 6. 
Bảng 6. Kết quả 5 câu gần nghĩa nhất với: “Chỉ có 149% CĐV 
chọn khả năng Van Gaal giành chức vô địch Ngoại hạng Anh 
ở mùa dẫn dắt đầu tiên (2014-2015).” 
Độ tương 
tự Cosine 
Nội dung Nhãn 
0.7264552 
Chỉ có 149% CĐV chọn khả năng Van Gaal đoạt chức vô 
địch Ngoại hạng Anh ở mùa dẫn dắt đầu tiên ( 2014-2015 ) . 
1 
0.6088296 
Có 59% CĐV bày tỏ rất lạc quan với tin tưởng rằng Van 
Gaal sẽ giành cú ăn hai Ngoại hạng Anh và FA Cup trong 
mùa sắp tới . 
0 
0.5019548 
Số lượng không nhỏ ( 126% ) bày tỏ không tin tưởng khi 
cho rằng khả năng Man Utd chỉ giành suất dự Europa 
League trong mùa đầu tiên làm việc với Van Gaal . 
0 
0.4935432 
Trong trường hợp Real có được nốt mục tiêu James 
Rodriguez cuộc chiến nơi tuyến giữa ở Bernabeu sẽ càng 
khủng khiếp hơn và đến lúc đó ngay cả Modric cũng sẽ phải 
ra rìa . 
0 
Công nghệ thông tin 
N. H. Phúc, , Đ. V. Hòa, “Ứng dụng mô hình Skip-thought  trong văn bản.” 102 
Độ tương 
tự Cosine 
Nội dung Nhãn 
0.4896697 
Hai danh hiệu FA Cup hoặc Capital One Cup là hai thành 
tích mà 53% còn lại cho rằng MU sẽ giành được. 
0 
Một số trường hợp đúng mà chương trình chưa truy vấn được thể hiện trong 
bảng 7. 
Bảng 7. Một số trường hợp đúng chương trình chưa truy vấn được. 
Nội dung Nhãn 
Đánh giá về dài hạn ông Thayer cho rằng Trung Quốc không từ bỏ tham 
vọng kiểm soát Biển Đông trong phạm vi đường chín đoạn . 
1 Về lâu về dài ông Thayer cho rằng Trung Quốc không từ bỏ tham vọng 
kiểm soát Biển Đông và sẽ tiếp tục các hoạt động khai hoang như đang làm 
ở Trường Sa và tăng cường áp lực với Philippines . 
Trong đơn ông Hà Xuân trình bày trước đây ông có nhờ bà Phát gửi giùm 
số tiền 90.000 
1 
Mọi người thống nhất giao cho ông và con gái nuôi hợp pháp của bà Phát 
đồng đứng ra quản lý số tài sản đã được kiểm kê . 
Làm người phải giữ chữ tín . 
1 Chữ tín phải được đặt lên hàng đầu . 
Giá USD tự do duy trì xu thế giảm mạnh còn 21.250 đồng được cho là 
nguyên nhân kéo giá vàng xuống . 
1 
Các ngân hàng cho biết một trong những nguyên nhân khiến giá USD giảm 
là do cung cầu trên thị trường khá dồi dào . 
4. KẾT LUẬN 
Nghiên cứu và kết quả thử nghiệm cho thấy mô hình Skip- thought đã khắc 
phục được nhược điểm của các phương pháp cũ, đồng thời phù hợp với bài toán 
tìm kiếm câu đồng nghĩa trong văn bản tiếng Việt. Qua đánh giá mô hình với bộ 
ngữ liệu Vnpara, kết quả thử nghiệm khi sử dụng Skip-thought đạt độ chính xác 
lên đến 93.96% vượt trội so với phương pháp của nhóm Ngô Xuân Bách (89.1%). 
Áp dụng cho bài toán tìm kiếm câu đồng nghĩa trong văn bản, kiểm thử trên bộ 
ngữ liệu Vnpara cho kết quả 96.9% với cách đánh giá trên mục 3. 
TÀI LIỆU THAM KHẢO 
[1]. Wael H. Gomaa and Aly A. Fahmy, “A Survey of Text Similarity 
Approaches,” Int. J. Comput. Appl., vol. 68, no. 13, pp. 13–18, 2013. 
[2]. D. Kazakov and S. Dobnik, “Inductive learning of lexical semantics with 
typed unification grammars,” no. May, 2014. 
[3]. W. Zhibiao and M. Palmer, “VERB SEMANTICS AND LEXICAL 
SELECTION,” 32nd Annu. Meet. Assoc. Comput. Linguist., pp. 133–138, 1994. 
[4]. H. Liu and P. Wang, “Assessing sentence similarity using WordNet based 
word similarity,” J. Softw., vol. 8, no. 6, pp. 1451–1458, 2013. 
[5]. H. T. Nguyen, P. H. Duong, and V. T. Vo, “Vietnamese sentence similarity 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 103
based on concepts,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes 
Artif. Intell. Lect. Notes Bioinformatics), vol. 8838, 2014. 
[6]. M. C. Lee, J. W. Chang, and T. C. Hsieh, “A Grammar-Based Semantic 
Similarity Algorithm for Natural Language Sentences,” vol. 2014, 2014. 
[7]. T. K. Landauer, P. W. Foltz, and D. Laham, “An Introduction to Latent 
Semantic Analysis,” Discourse Process., vol. 25, pp. 259–284, 1998. 
[8]. S. Simmons and Z. Estes, “Using latent semantic analysis to estimate 
similarity,” Proc. Cogn. Sci. Soc., pp. 2169–2173, 2006. 
[9]. K. Lund and C. Burgess, “Producing high-dimensional semantic spaces from 
lexical co-occurrence,” Behav. Res. Methods, Instruments, Comput., vol. 28, 
no. 2, pp. 203–208, 1996. 
[10].C. Exposure and D. Ed, “From Word Embeddings To Document Distances,” 
no. September, 2009. 
[11].N. X. Bach, T. T. Oanh, N. T. Hai, and T. M. Phuong, “Paraphrase 
Identification in Vietnamese Documents,” Proc. - 2015 IEEE Int. Conf. 
Knowl. Syst. Eng. KSE 2015, pp. 174–179, 2015. 
[12].Y. Wu et al., “Google’s Neural Machine Translation System: Bridging the 
Gap between Human and Machine Translation,” pp. 1–23, 2016. 
[13].T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, “Distributed 
Representations of Words and Phrases and their Compositionality,” IEEE 
Trans. neural networks, vol. 14, no. 6, pp. 1569–72, Oct. 2013. 
[14].R. Kiros et al., “Skip-Thought Vectors,” no. 786, pp. 1–11, 2015. 
[15].Y. Bengio, R. Ducharme, V. Pascal, and J. Christian, “A Neural Probabilistic 
Language Model,” J. Mach. Learn. Res., vol. 3, pp. 1137–1155, 2003. 
ABSTRACT 
USING SKIP – THOUGHT FOR FINDING SEMANTIC SIMILAR 
SENTENCES IN VIETNAMESE TEXTS 
Evaluation of semantic similarity has been an important task in natural 
language processing. Using Deep Learning for sematic matching has 
dominated other tradional methods. Many models has been developed for 
present a sentence as a vector, however most of these use supervised 
learning technique, it is not suitable for the problems with enormous data. 
Skip – thought is an unsupervised deep learning which has been used in 
many application of natural language processing. This paper present this 
method for finding semantic similar sentences in Vietnamese texts. 
Keywords: Natural Language Processing; Deep Learning; Sematic Similarity; Skip-thought. 
Nhận bài ngày 28 tháng 12 năm 2018 
Hoàn thiện ngày 28 tháng 02 năm 2019 
Chấp nhận đăng ngày 18 tháng 3 năm 2019 
Địa chỉ: 1 Học viện Kỹ thuật quân sự; 
 2Viện CNTT, Viện KH-CN quân sự. 
 *Email: vibaongoc@gmail.com. 

File đính kèm:

  • pdfung_dung_mo_hinh_skip_thought_giai_quyet_bai_toan_tim_kiem_c.pdf