Về một phương pháp xác định mục tiêu văn bản trong tiếng Việt

Tóm tắt: Trong bài báo này, chúng tôi giới thiệu mô hình xác định mục tiêu của

văn bản tiếng Việt dựa trên cơ sở áp dụng hai giải thuật: giải thuật phân tách từ

tiếng Việt sử dụng trường điều kiện ngẫu nhiên (CRFs) [1] và giải thuật phân loại

văn bản StarSpace [2]. Kết quả thử nghiệm cho thấy, mô hình đề xuất đã tiến hành

phân loại văn bản theo mục tiêu với độ chính xác tốt (hơn 90%) trên tập dữ liệu

kiểm tra.

pdf5 trang | Chuyên mục: Sư Phạm Ngữ Văn | Chia sẻ: yen2110 | Lượt xem: 561 | Lượt tải: 0download
Tóm tắt nội dung Về một phương pháp xác định mục tiêu văn bản trong tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
 04 - 2020 239
tiếng Việt. Dựa vào các nhãn đó, ta có thể xác định được ranh giới của từng từ trong văn 
bản tiếng Việt. Các nhãn được sử dụng ở đây là: 
• B_W: nhãn đánh dấu bắt đầu một từ; 
• I_W: nhãn đánh dấu ở trong một từ. 
Ví dụ, câu văn: “Hôm nay là ngày Quốc Khánh nước Hà Lan” sẽ được gán nhãn như sau: 
Hôm nay là ngày Quốc Khánh nước Hà Lan 
B_W I_W B_W B_W B_W I_W B_W B_W I_W 
Dựa trên việc gán nhãn này, giải thuật sẽ đánh dấu các từ trong câu như sau: 
“Hôm_nay là ngày Quốc_Khánh nước Hà_Lan” 
Như vậy, bài toán phân đoạn từ tiếng Việt có thể phát biểu là: 
“Hãy xây dựng một mô hình để gán nhãn {B_W, I_W} cho các âm tiết của văn bản 
tiếng Việt chưa được tách từ”. 
Bài toán này được giải khi mô hình tìm thấy nhãn phù hợp nhất cho từng âm tiết. Việc 
định nhãn này được biểu diễn bằng: 
∗ = {(|} (1) 
Trong đó, y* là nhãn cho âm tiết x. y* là một trong các nhãn thuộc tập nhãn y. 
Người ta có thể giải quyết bài toán này bằng nhiều mô hình như Markov ẩn [5]. Tuy 
nhiên, hiện nay CRFs thường được sử dụng hơn do kế thừa các ưu việt của mô hình trước đó, 
đồng thời, hoạt động tốt hơn trong trường hợp dữ liệu tồn tại nhiều ràng buộc phức tạp [6]. 
Giải phương trình trên bằng CRFs, ta có: 
(|) = 
1
()
exp(   λ(, , ) + 

  μ(, ) 

) (2) 
Trong đó, x là chuỗi dữ liệu, y là chuỗi trạng thái tương ứng. fk (yi-1, yi, x) là thuộc tính 
của chuỗi quan sát ứng và các trạng thái ứng với vị trí thứ i và i-1 trong chuỗi trạng thái. gk 
(yi, x) là thuộc tính của chuỗi quan sát và trạng thái ứng với trí thứ i trong chuỗi trạng thái. 
Các thuộc tính này được rút ra từ tập dữ liệu và có giá trị cố định. VD: 
fi = 1 nếu xi-1 = “Quyết”, xi = “định” và yi-1=B_W, yi=I_W 
fi = 0 nếu ngược lại 
gi = 1 nếu xi = “Quyết” và yi = B_W 
gi = 0 nếu ngược lại. 
 λ và μ là các tham số sẽ được ước lượng (học) trong quá trình huấn luyện. Quá trình 
ước lượng các tham số này được thực hiện bởi giải thuật tối ưu số bậc hai LBFGS (limited 
memory BFGS). 
2.2. Giải thuật phân loại văn bản StarSpace 
Trong thử nghiệm của mình, chúng tôi sử dụng mô hình giải thuật StarSpace cho bài 
toán xác định mục tiêu của văn bản. Giải thuật StarSpace do Facebook phát triển và công 
bố năm 2017. Kết quả thử nghiệm cho bài toán phân loại văn bản trên các tập dữ liệu tiếng 
Anh cho thấy: mô hình này đạt độ chính xác tốt hoặc tương đương so với các kiến trúc nổi 
tiếng như fastText. 
Bên cạnh đó, việc lựa chọn giải thuật này cũng đến từ khả năng cho phép so sánh các 
thực thể không cùng loại của mô hình. Chính tính năng chỉ ra rằng, giải thuật có thể hoạt 
động tốt đối với nhiều ngôn ngữ mà không chỉ hoạt động tốt đối với tiếng Anh hoặc các 
ngôn ngữ có quy luật tương tự tiếng Anh. 
Thông tin khoa học công nghệ 
Nguyễn Cảnh Hùng, Đặng Hoàng Minh, “Về một phương pháp  trong tiếng Việt.” 240 
Mô hình StarSpace bao gồm việc học các thực thể. Mỗi thực thể được mô tả bằng một 
tập hợp các tính năng riêng biệt. Mục tiêu là học ma trận có kích thước Dxd, trong đó D là số 
lượng các đặc trưng và d là chiều dài của vectơ embedding. Một thực thể a được biểu diễn 
dưới dạng ∑ ∈ , trong đó,  là hàng thứ i (có kích thước d) trong ma trận embedding. 
Hàm loss sau sẽ được cực tiểu hóa trong quá trình huấn luyện: 
 ((, ), (, 
),  , (, 
))
(,) ∈ 
 ∈ 
(3) 
Trong đó, việc tạo ra các cặp thực thể dương (a,b) thuộc E+ và thực thể âm b
- thuộc E- 
(phương pháp lấy mẫu k-âm (tương tự như trong word2vec) được sử dụng để lấy mẫu cho 

) phụ thuộc vào tứng ứng dụng cụ thể của mô hình (nội dung này sẽ được giải thích rõ 
hơn ở bên dưới). 
Hàm (. , . ) là hàm tương tự, trong mô hình được đề xuất, nhóm tác giả triển khai cả 
hai phương pháp tính tương tự là cosine (cosine similarity) và tích trong (inner product), 
sau đó, để mô hình tự lựa chọn phương pháp phù hợp trong quá trình huấn luyện. Thông 
thường, các phương pháp này đều hoạt động tốt đối với số lượng nhãn nhỏ, tuy nhiên đối 
với tập nhãn kích thước lớn, hàm cosine cho kết quả tốt hơn. 
Hàm loss  sẽ so sánh cặp thực thể dương (a,b) với các cặp thực thể âm (a, 
) với 
i=1,...,k. Quá trình huấn luyện được tối ưu hóa dựa vào giải thuật Stochastic gradient 
descent (SGD). Sau khi huấn luyện xong, hàm (. , . ) sẽ được sử dụng. Ví dụ trong các 
bài toán phân loại, nhãn b cho thực thể a sẽ được tính bằng  (, ) đối với mọi 
nhãn . Hiểu một cách đơn giản là nhãn nào có tính tương đồng với thực thể a nhất sẽ được 
lựa chọn. Tùy vào ứng dụng cụ thể, mô hình này có thể được lựa chọn cấu hình khác nhau. 
Đối với bài toán phân loại văn bản, cặp thực thể dương (a,b) được lấy trực tiếp từ tập 
huấn luyện, trong đó, a là nhóm từ đầu vào và b là nhãn tương ứng trong tập huấn luyện. 
Các thực thể âm b- là các nhãn còn lại trong tập huấn luyện. Mô hình sẽ học cách cực đại 
hóa (, ) và cực tiểu hóa (, 
). 
Bằng việc kết hợp hai giải thuật trên vào một chuỗi xử lý thống nhất, nhóm đề tài tiến 
hành xây dựng mô hình phân loại văn bản tiếng Việt theo các mục tiêu cho trước. 
3. CÁC THỬ NGHIỆM VÀ KẾT QUẢ 
3.1. Bộ dữ liệu thử nghiệm 
Bộ dữ liệu thử nghiệm của mô hình là các câu văn được lấy từ những văn bản trong 
mạng nội bộ của Viện CNTT. Các văn bản được lần lượt tách thành từng câu riêng biệt. 
Mỗi câu có nghĩa sẽ được phân về một trong các nhóm mục tiêu tương ứng: 
- Công tác Đào tạo; 
- Công tác Tài chính; 
- Công tác Đảng công tác chính trị; 
- Công tác hành chính hậu cần; 
- Công đoàn và các tổ chức quần chúng khác; 
- Công tác quản lý Khoa học công nghệ. 
Kết quả, bộ dữ liệu xây dựng được gồm tổng 1200 câu với trung bình 200 câu cho một 
mục tiêu. 
3.2. Phương pháp thử nghiệm và kết quả 
Quá trình thử nghiệm được tiến hành trên cùng tập dữ liệu với hai sô đồ xử lý khác 
Thông tin
Tạp chí Nghi
nhau. Trong đó, th
(tức l
từ t
300 m
trình ti
kết quả tốt h
tiếng Việt nói chung v
thu
hình phân lo
hình này là gi
StarSpace. 
bài toán th
iếng Việt tr
Mô hình th
Bộ dữ liệu đ
Kết quả thử nghiệm cho thấy
ật phân tách từ t
Trong bài báo này
à coi m
ẫu (với 50 câu cho mỗi mục ti
ền xử lý tr
 khoa h
ực nghiệm nh
ên c
ỗi tiếng l
ơn. K
ại văn bản 
ải thuật phân tách từ 
Qua n
ọc công nghệ 
ứu KH&CN 
ước khi đi v
ử nghiệm tổng thể đ
ư
ử nghiệm 1, dữ liệu đ
ợc tách th
ước khi đ
ết quả thử nghiệm n
iếng Việt l
ội dung nghi
à m
Th
Th
à bài toán 
, chúng tôi đ
ột từ). Trong thử nghiệm 2, dữ liệu đ
Th
ử nghiệm 1
ử nghiệm 2
tiếng 
ư t
quân s
ào gi
ành 02 ph
ử nghiệm
ưa vào gi
ìm ki
ải thuật xác định mục ti
Hình 1.
à h
Vi
ên c
ếm, tra cứ
ự, Số
ư
B
, vi
phân lo
ết sức cần thiết.
ã phân tích các gi
ệt. Trong đó
ti
ứu n
ợc xây dựng theo s
ần, trong đó: 900 mẫu đ
êu) đư
ảng 1. 
ệc á
ải th
ày ch
 4. K
ếng 
 66
ư
Mô hình 
p d
u
ại mục ti
Vi
ày, chúng tôi hy v
, 04
ợc đ
ợc sử dụng để kiểm tra độ chính xác.
K
ụng th
ật phân loại mục ti
ỉ ra 
ẾT LUẬN
ệt dựa tr
u thông minh. 
 - 20
ưa qua gi
ết quả xử lý đối với dữ liệu trong tập kiểm tra
r
, 02 g
20 
thử
Độ chính xác
êm 
ằng
êu văn b
 nghi
88.1%
93.7%
, đ
ải thuật cần thiết để xây dựng một mô 
iải thuật đ
ên CRFs và gi
ải thuật tách từ theo khoảng trắng 
êu văn b
ơ đ
ệm
giải thuật tách từ t
ối với các b
ồ sau:
.
ản nói ri
ọng sẽ áp dụng kết quả v
ư
êu văn b
ư
ược 
ản. 
ợc đ
ài toán phân lo
ợc sử dụng để tạo n
ải thuật phân loại văn bản 
đưa qua gi
ưa vào hu
êng, vi
ản t
iếng Việt v
iếng Việt sẽ cho 
ệc á
ải thuật
ấn lu
ại v
p d
y
ào quá 
ăn b
ụng giải 
241
 tách 
ện v
ên mô 
ào các 
à 
.
ản 
Thông tin khoa học công nghệ 
Nguyễn Cảnh Hùng, Đặng Hoàng Minh, “Về một phương pháp  trong tiếng Việt.” 242 
Mặc dù kết quả thử nghiệm là khá khả quan, tuy nhiên, nó có thể đến từ tính độc lập 
tương đối của bộ dữ liệu. Trong các trường hợp khi bộ dữ liệu được phân tách thành các 
mục tiêu chứa nhiều nội dung, thuật ngữ trùng nhau (như mục tiêu “bóng đa”, “bóng 
chuyền”,...) chúng ta sẽ cần thêm nhiều cải thiện khác để nâng cao hiệu năng của giải thuật. 
TÀI LIỆU THAM KHẢO 
[1]. Lafferty, J., McCallum, A., Pereira "Conditional random fields: Probabilistic models 
for segmenting and labeling sequence data". Proc. 18th International Conf. on 
Machine Learning. Morgan Kaufmann. pp. 282–289, (2001). 
[2]. Ledell Wu, Adam Fisch, Sumit Chopra, Keith Adams, Antoine Bordes, Jason Weston, 
“StarSpace: Embed All The Things!”, Computation and Language (2017). 
[3]. Bojanowski, P.; Grave, E.; Joulin, A.; and Mikolov. “Enriching word vectors with 
subword information”. Transactions of the Association for Computational Linguistics 
5:135–146 (2017) 
[4]. Bengio, Y.; Ducharme, R.; Vincent, P.; and Jauvin, “A neural probabilistic language 
model”. Journal of machine learning research 3(Feb):1137–1155 
[5]. Baum, L. E.; Petrie, "Statistical Inference for Probabilistic Functions of Finite State 
Markov Chains". The Annals of Mathematical Statistics. 37 (6): 1554–1563. 
doi:10.1214/aoms/1177699147, (2011). 
[6]. Sutton, Charles; McCallum, Andre, "An Introduction to Conditional Random Fields". 
arXiv:1011.4088v1 (2010). 
ABSTRACT 
A SUITABLE MODEL FOR CLASSIFYING VIETNAMESE DOCUMENTS 
In this paper, we proposed a text classifying model for Vietnamese document. 
Our model is a combination of two separated components: A tokenization algorithm 
based on Conditional Random Fields (CRFs)[1] and StarSpace[2] – a general text 
classification model. Experiments results indicate that our model performed well on 
classifying task (with accuracy above 90% on the testing dataset). 
Keywords: Text Classification; Tokenization; Conditonal Random Fields - CRFs. 
Nhận bài ngày 02 tháng 01 năm 2020 
Hoàn thiện ngày 15 tháng 02 năm 2020 
Chấp nhận đăng ngày 10 tháng 4 năm 2020 
Địa chỉ: Viện Công nghệ thông tin/Viện KH-CN quân sự. 
 *Email: hungbka48@gmail.com. 

File đính kèm:

  • pdfve_mot_phuong_phap_xac_dinh_muc_tieu_van_ban_trong_tieng_vie.pdf