Ứng dụng mô hình Skip-thought giải quyết bài toán tìm kiếm câu đồng nghĩa trong văn bản

Tóm tắt: Đánh giá mức độ đồng nghĩa giữa các câu là nhiệm vụ trọng tâm để

thực hiện mục tiêu hiểu ngôn ngữ tự nhiên - một trong những thách thức lớn trong

xử lý ngôn ngữ tự nhiên. Sử dụng Deep Learning cho bài toán so khớp ngữ nghĩa

của câu đã thay đổi cách tiếp cận, khắc phục được những khó khăn mà các phương

pháp truyền thống trước đây gặp phải. Nhiều thuật toán đã được phát triển để có

thể biểu diễn câu bằng một vector với số chiều cố định, việc này giúp cho việc xử lý

ngôn ngữ tự nhiên dựa trên câu trở nên dễ dàng và hiệu quả hơn. Các phương pháp

trên đều trích rút đặc trưng thủ công hoặc sử dụng các thuật toán học có giám sát

nhưng với không gian ngữ liệu ngày càng phong phú, các phương pháp này tỏ ra

không còn hiệu quả. Điều đó là động lực để ra đời các phương pháp học không

giám sát, tận dụng sức mạnh tính toán của thiết bị hiện nay. Skip–thought là một

trong những mô hình Deep Learning điển hình cho việc sử dụng thuật toán học

không giám sát trong xử lý ngôn ngữ tự nhiên. Trong nghiên cứu này, mô hình Skipthought để tìm kiếm câu đồng nghĩa trong văn bản tiếng Việt. Với thử nghiệm trên

bộ ngữ liệu VnPara, mô hình Skip-thought đạt độ chính xác lên đến 93.96%, vượt

trội so với độ chính xác 89.1%. đã đạt được trước đây.

11 trang | Chuyên mục: Sư Phạm Ngữ Văn | Chia sẻ: yen2110 | Lượt xem: 647 | Lượt tải: 0

Tóm tắt nội dung Ứng dụng mô hình Skip-thought giải quyết bài toán tìm kiếm câu đồng nghĩa trong văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên

express.net, thanhnien.com.vn, .v.v.). Tác giả lấy ra hai câu từ hai tin có cùng
chủ đề, sau đó xác định hai câu đó có tương đồng về nghĩa hay không. Việc xác
định câu có tương đồng về nghĩa hay không do hai người thực hiện độc lập. Hệ số
tin cậy Kappa đạt được là 0.9. Kết quả là 1500 được gán nhãn là tương đồng ngữ
nghĩa (nhãn 1), 1500 gán nhãn là không tương đồng (nhãn 0).
Công nghệ thông tin
N. H. Phúc, , Đ. V. Hòa, “Ứng dụng mô hình Skip-thought trong văn bản.” 100
Hình 4. Giá trị hàm mất mát mô hình.
Bảng 3. Ví dụ về mẫu ngữ liệu trong kho ngữ liệu VnPara.
Câu Nội dung Nhãn
1
Trả lời câu hỏi này tôi xin nói lên suy nghĩ của mình về bóng đá
nhà nghề từ đó suy ra bóng đá của ta hiện nay để các quan chức
quản lý bóng đá chuyên nghiệp suy nghĩ rút kinh nghiệm .
0
2
Sự thực 100% đội bóng chuyên nghiệp Việt Nam hiện giờ không
thể dùng doanh thu từ bóng đá ( gồm tiền thưởng thành tích bản
quyền truyền hình bán vé hoạt động thương mại ) để tự nuôi sống
mình khi thực tế nguồn thu này quá nhỏ và manh mún .
1
Hơn 10 năm qua công nghệ thông tin đã trở thành ngành kinh tế
mũi nhọn có tốc độ tăng trưởng và hiệu quả cao đóng góp trực tiếp
gần 7% GDP của đất nước đồng thời có tác động lan tỏa thúc đẩy
phát triển nhiều ngành nhiều lĩnh vực kinh tế - xã hội . 1
2
Hơn 10 năm qua công nghệ thông tin đã trở thành ngành kinh tế
có tốc độ tăng trưởng cao đóng góp trực tiếp gần 7% GDP và là
một lợi thế phát triển đặc biệt của Việt Nam .
Chúng tôi dùng Encoder của mô hình để tính 6.000 vector của 3.000 cặp trong
câu bộ ngữ liệu Vnpara. Sau đó chia tập ngữ liệu thành 2 phần với tỷ lệ 70% dùng
cho huấn luyện và 30% dùng cho kiểm thử. Chúng tôi xác định hai câu đồng nghĩa
bằng cách thiết lập ngưỡng cứng cho độ đo tương tự cosine của hai vector 1v , 2v là
vector biểu diễn hai câu trong cùng một mẫu Vnpara (cặp câu được xác định là
đồng nghĩa nếu độ đo tương tự cosine vượt qua ngưỡng). Ngưỡng này được lựa
chọn thông qua việc thử lần lượt các giá trị trên tập huấn luyện cho độ chính xác
phân loại cao nhất. Đồng thời, theo thử nghiệm của Kiros, chúng tôi kết hợp hai
vector 1v , 2v bằng các nối 1 2v v ( là phép nhân từng thành phần) và 1 2| |v v ,
vector cuối cùng sẽ là đầu vào cho một số phương pháp học máy khác (2,3,4) được
mô tả trong bảng 4.
Cùng thử nghiệm trên bộ ngữ liệu VnPara, Ngô Xuân Bách và đồng nghiệp thu
được kết quả có độ chính xác Accuracy là 89.10%, và F1-Score là 86.77%. Trong
khi đó, kết quả chúng tôi vượt trội hơn hẳn nếu sử dụng ngưỡng 0.52 để phân lớp,
với độ chính xác Accuracy là 93.96% và F1-Score là 94%.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 101
Bảng 4. Kết quả của các phương pháp phân lớp khác nhau.
TT Thuật toán Pha Accuracy Precision Recall F1-Score
1
Ngưỡng cứng-
Cosine (0.52)
Huấn luyện 91.92 % 91% 93% 92%
Kiểm thử 93.96% 93% 95% 94%
2 SVM
Huấn luyện 100% 100% 100% 100%
Kiểm thử 93.28% 91% 96% 93%
3 MLP
Huấn luyện 100% 100% 100% 100%
Kiểm thử 93.67% 94% 94% 94%
4 K-NN (n=10)
Huấn luyện 82.96% 99% 75% 86%
Kiểm thử 76.8% 100% 69% 82%
Trong bài toán đặt ra, tìm kiếm câu đồng nghĩa trong văn bản là tìm kiếm không
chính xác. Với mỗi cặp câu được gán nhãn 1 truy vấn, lấy câu thứ nhất để truy vấn
n câu gần nghĩa nhất trong tập câu thứ hai, nếu trong tập n kết quả trả về được sắp
xếp theo giá trị độ đo tương tự cosine có chứa câu thứ hai cùng mẫu thì truy vấn
được coi là chính xác.
Với cách đánh giá trên, kết quả đạt thể hiện ở bảng 5:
Bảng 5. Độ chính xác truy vấn n câu gần nghĩa nhất.
n câu gần nhất Độ chính xác Số trường hợp đúng không truy vấn được
5 96.9% 50
10 97.5% 40
15 97.8% 36
Ví dụ: một truy vấn trên VnPara: “Chỉ có 149% CĐV chọn khả năng Van Gaal
giành chức vô địch Ngoại hạng Anh ở mùa dẫn dắt đầu tiên ( 2014-2015 ) .” cho
kết quả với 5 câu gần nhất được thể hiện trong bảng 6.
Bảng 6. Kết quả 5 câu gần nghĩa nhất với: “Chỉ có 149% CĐV
chọn khả năng Van Gaal giành chức vô địch Ngoại hạng Anh
ở mùa dẫn dắt đầu tiên (2014-2015).”
Độ tương
tự Cosine
Nội dung Nhãn
0.7264552
Chỉ có 149% CĐV chọn khả năng Van Gaal đoạt chức vô
địch Ngoại hạng Anh ở mùa dẫn dắt đầu tiên ( 2014-2015 ) .
1
0.6088296
Có 59% CĐV bày tỏ rất lạc quan với tin tưởng rằng Van
Gaal sẽ giành cú ăn hai Ngoại hạng Anh và FA Cup trong
mùa sắp tới .
0
0.5019548
Số lượng không nhỏ ( 126% ) bày tỏ không tin tưởng khi
cho rằng khả năng Man Utd chỉ giành suất dự Europa
League trong mùa đầu tiên làm việc với Van Gaal .
0
0.4935432
Trong trường hợp Real có được nốt mục tiêu James
Rodriguez cuộc chiến nơi tuyến giữa ở Bernabeu sẽ càng
khủng khiếp hơn và đến lúc đó ngay cả Modric cũng sẽ phải
ra rìa .
0
Công nghệ thông tin
N. H. Phúc, , Đ. V. Hòa, “Ứng dụng mô hình Skip-thought trong văn bản.” 102
Độ tương
tự Cosine
Nội dung Nhãn
0.4896697
Hai danh hiệu FA Cup hoặc Capital One Cup là hai thành
tích mà 53% còn lại cho rằng MU sẽ giành được.
0
Một số trường hợp đúng mà chương trình chưa truy vấn được thể hiện trong
bảng 7.
Bảng 7. Một số trường hợp đúng chương trình chưa truy vấn được.
Nội dung Nhãn
Đánh giá về dài hạn ông Thayer cho rằng Trung Quốc không từ bỏ tham
vọng kiểm soát Biển Đông trong phạm vi đường chín đoạn .
1 Về lâu về dài ông Thayer cho rằng Trung Quốc không từ bỏ tham vọng
kiểm soát Biển Đông và sẽ tiếp tục các hoạt động khai hoang như đang làm
ở Trường Sa và tăng cường áp lực với Philippines .
Trong đơn ông Hà Xuân trình bày trước đây ông có nhờ bà Phát gửi giùm
số tiền 90.000
1
Mọi người thống nhất giao cho ông và con gái nuôi hợp pháp của bà Phát
đồng đứng ra quản lý số tài sản đã được kiểm kê .
Làm người phải giữ chữ tín .
1 Chữ tín phải được đặt lên hàng đầu .
Giá USD tự do duy trì xu thế giảm mạnh còn 21.250 đồng được cho là
nguyên nhân kéo giá vàng xuống .
1
Các ngân hàng cho biết một trong những nguyên nhân khiến giá USD giảm
là do cung cầu trên thị trường khá dồi dào .
4. KẾT LUẬN
Nghiên cứu và kết quả thử nghiệm cho thấy mô hình Skip- thought đã khắc
phục được nhược điểm của các phương pháp cũ, đồng thời phù hợp với bài toán
tìm kiếm câu đồng nghĩa trong văn bản tiếng Việt. Qua đánh giá mô hình với bộ
ngữ liệu Vnpara, kết quả thử nghiệm khi sử dụng Skip-thought đạt độ chính xác
lên đến 93.96% vượt trội so với phương pháp của nhóm Ngô Xuân Bách (89.1%).
Áp dụng cho bài toán tìm kiếm câu đồng nghĩa trong văn bản, kiểm thử trên bộ
ngữ liệu Vnpara cho kết quả 96.9% với cách đánh giá trên mục 3.
TÀI LIỆU THAM KHẢO
[1]. Wael H. Gomaa and Aly A. Fahmy, “A Survey of Text Similarity
Approaches,” Int. J. Comput. Appl., vol. 68, no. 13, pp. 13–18, 2013.
[2]. D. Kazakov and S. Dobnik, “Inductive learning of lexical semantics with
typed unification grammars,” no. May, 2014.
[3]. W. Zhibiao and M. Palmer, “VERB SEMANTICS AND LEXICAL
SELECTION,” 32nd Annu. Meet. Assoc. Comput. Linguist., pp. 133–138, 1994.
[4]. H. Liu and P. Wang, “Assessing sentence similarity using WordNet based
word similarity,” J. Softw., vol. 8, no. 6, pp. 1451–1458, 2013.
[5]. H. T. Nguyen, P. H. Duong, and V. T. Vo, “Vietnamese sentence similarity
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 103
based on concepts,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes
Artif. Intell. Lect. Notes Bioinformatics), vol. 8838, 2014.
[6]. M. C. Lee, J. W. Chang, and T. C. Hsieh, “A Grammar-Based Semantic
Similarity Algorithm for Natural Language Sentences,” vol. 2014, 2014.
[7]. T. K. Landauer, P. W. Foltz, and D. Laham, “An Introduction to Latent
Semantic Analysis,” Discourse Process., vol. 25, pp. 259–284, 1998.
[8]. S. Simmons and Z. Estes, “Using latent semantic analysis to estimate
similarity,” Proc. Cogn. Sci. Soc., pp. 2169–2173, 2006.
[9]. K. Lund and C. Burgess, “Producing high-dimensional semantic spaces from
lexical co-occurrence,” Behav. Res. Methods, Instruments, Comput., vol. 28,
no. 2, pp. 203–208, 1996.
[10].C. Exposure and D. Ed, “From Word Embeddings To Document Distances,”
no. September, 2009.
[11].N. X. Bach, T. T. Oanh, N. T. Hai, and T. M. Phuong, “Paraphrase
Identification in Vietnamese Documents,” Proc. - 2015 IEEE Int. Conf.
Knowl. Syst. Eng. KSE 2015, pp. 174–179, 2015.
[12].Y. Wu et al., “Google’s Neural Machine Translation System: Bridging the
Gap between Human and Machine Translation,” pp. 1–23, 2016.
[13].T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, “Distributed
Representations of Words and Phrases and their Compositionality,” IEEE
Trans. neural networks, vol. 14, no. 6, pp. 1569–72, Oct. 2013.
[14].R. Kiros et al., “Skip-Thought Vectors,” no. 786, pp. 1–11, 2015.
[15].Y. Bengio, R. Ducharme, V. Pascal, and J. Christian, “A Neural Probabilistic
Language Model,” J. Mach. Learn. Res., vol. 3, pp. 1137–1155, 2003.
ABSTRACT
USING SKIP – THOUGHT FOR FINDING SEMANTIC SIMILAR
SENTENCES IN VIETNAMESE TEXTS
Evaluation of semantic similarity has been an important task in natural
language processing. Using Deep Learning for sematic matching has
dominated other tradional methods. Many models has been developed for
present a sentence as a vector, however most of these use supervised
learning technique, it is not suitable for the problems with enormous data.
Skip – thought is an unsupervised deep learning which has been used in
many application of natural language processing. This paper present this
method for finding semantic similar sentences in Vietnamese texts.
Keywords: Natural Language Processing; Deep Learning; Sematic Similarity; Skip-thought.
Nhận bài ngày 28 tháng 12 năm 2018
Hoàn thiện ngày 28 tháng 02 năm 2019
Chấp nhận đăng ngày 18 tháng 3 năm 2019
Địa chỉ: 1 Học viện Kỹ thuật quân sự;
2Viện CNTT, Viện KH-CN quân sự.
*Email: vibaongoc@gmail.com.

File đính kèm:

ung_dung_mo_hinh_skip_thought_giai_quyet_bai_toan_tim_kiem_c.pdf