Phân lớp văn bản tiếng Việt tự động theo chủ đề

Mạng Internet ngày càng phát triển mạnh mẽ, mang lại nguồn thông tin vô cùng phong phú. Nhu cầu khai thác dữ liệu, phát hiện tri thức cũng ngày càng gia tăng. Phân lớp văn bản đóng vai trò quan trọng trong việc khai thác dữ liệu và phát hiện tri thức. Nhiều kỹ thuật trong học máy được ứng dụng để huấn luyện dữ liệu cho quá trình phân lớp. Hiện nay, có nhiều thuật toán được sử dụng để phân lớp văn bản như Naive Bayes, K-NN, SVM, Maximum Entropy. Trong bài báo này, nhóm tác giả sử dụng các thuật toán như Naive Bayes, SVM và K-NN để thực nghiệm phân lớp văn bản tiếng Việt trên 05 bộ dữ liệu thuộc 04 chủ đề khác nhau: Du lịch, Giải trí, Giáo dục và Pháp luật. Các bộ dữ liệu này được rút trích từ Website tin tức VnExpress.net. Một số đặc trưng định danh riêng được đưa vào quá trình xử lý để tăng độ chính xác trong quá trình phân lớp. Kết quả thử nghiệm cho thấy thuật toán SVM cho kết quả phân lớp với độ chính xác cao nhất (trên 90%) và thời gian thử nghiệm mô hình thấp nhất.

11 trang | Chuyên mục: Sư Phạm Ngữ Văn | Chia sẻ: yen2110 | Lượt xem: 920 | Lượt tải: 0Free

Tóm tắt nội dung Phân lớp văn bản tiếng Việt tự động theo chủ đề, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên

ng một lớp n m về một phía với siêu phẳng n y. T t cả
á iểm x+ ượ gán nh n thuộc về phía dư ng ủa siêu phẳng, á iểm ượ gán
nh n – thuộc về phía âm ủa siêu phẳng. Một siêu phẳng phân hia dữ liệu ược gọi l “tốt
nh t”, nếu khoảng á h từ iểm dữ liệu gần nh t ến siêu phẳng (margin) l lớn nh t [12].
h n p v n n i ng iệ ự ng h o ch
135
Hình 2. Phân lớp với SVM trong mặt phẳng
Thuật toán t m siêu phẳng:
Bộ phân lớp tuyến tính ượ xá ịnh b ng siêu phẳng:
Trong ó v óng vai trò l tham số của mô hình. H m phân lớp nhị
phân ó thể thu ược b ng á h xá ịnh d u của .
Rosen latt ưa ra một thu t toán n giản ể xá ịnh siêu phẳng:
1.
2.
3. repeat
4.
5. for do
6.
7. if then
9.
10.
11. until
12. return .
Việ tìm siêu phẳng tối ưu ó thể m rộng trong trường hợp dữ liệu không thể tá h rời
tuyến tính ng á h ánh xạ dữ liệu v o một không gian ó số chiều lớn h n ng á h sử
dụng một h m nhân K (Kernel).
Bảng 3. Một số h m nhân thường dùng
Kiểu h m nhân Công thức
Linear kernel
Polynomial kernel
Radial basis function (Gaussian) kernel
Hyperbolic tangent kernel
Ví dụ 2.3:
ể kiểm tra một v n ản b t kỳ n o ó thuộ hay không thuộc một phân loại cho
trước? Nếu thì ượ gán nh n l , ngược lại thì ượ gán nh n l –1.
ạnh Thi n n inh g n n Th ọa i g n Th Thanh Th
136
Giả sử lựa chọn ược t p á ặ trưng l , thì m i v n ản sẽ
ược biểu di n b ng một vector dữ liệu , l trọng số của từ
trong v n ản . Như v y, tọa ộ của m i vector dữ liệu tư ng ứng với tọa ộ của một
iểm trong không gian .
Dữ liệu hu n luyện l t p á v n ản ượ gán nh n trước
, trong ó, l ve tor dữ liệu biểu di n v n ản
(
), , cặp ược hiểu l ve tor ượ gán nh n l .
Việ xá ịnh một v n ản ó thuộ phân loại hay không, tư ng ứng với việ xét
d u của , nếu thì thuộc , nếu thì không thuộc .
3. KẾT QUẢ THỰC NGHIỆM
ể phân lớp v n ản theo chủ ề, nhóm tá giả tiến h nh thực nghiệm trên máy tính
Macbook Pro x64, Core i7 3.30GHz, 4 CPUs, 16GB RAM. Dữ liệu trên á trang áo iện
tử ó vốn từ ngữ v nội dung r t phong phú, dữ liệu a dạng thuộ á l nh vự trong ời
sống x hội như Kinh tế, Chính trị, V n hóa, Giáo dục, Thể thao, Nội dung á i áo
ượ ng trên á trang áo iện tử uy tín ược kiểm duyệt phù hợp với từng chủ ề. Vì
v y, việc thu th p dữ liệu từ á trang áo iện tử uy tín l m t p dữ liệu hu n luyện ó ộ
hính xá ao, áng tin y. Thực nghiệm ược tiến h nh trên t p dữ liệu tin tức tiếng Việt
ược trí h xu t từ website VnExpress.net gồm 05 bộ dữ liệu với số lượng lần lượt l 4 ,
800, , 6 v t p tin v n ản thuộc 4 chủ ề như Du lịch, Giải trí, Giáo dụ v
Pháp lu t. Trong m i bộ dữ liệu thì số lượng á á t p tin á hủ ề l như nhau. Cá
t p tin dữ liệu n y ược xử lý tá h từ b ng ông ụ vnTokenizer [13], sau ó sử dụng ông
cụ Weka (phần mềm m nguồn m h trợ xây dựng mô hình hu n luyện ho á i toán về
phân lớp dữ liệu) [14] ể biểu di n v n ản th nh dạng vector, ồng thời loại bỏ những từ
ngữ không ó ý ngh a (Stop words). Cá ve tor v n ản n y ược sử dụng l m dữ liệu hu n
luyện v dữ liệu kiểm tra.
Trong i áo n y, nhóm tá giả chạy thực nghiệm 03 thu t toán l Naïve Bayes,
SVM v K-NN trên ùng bộ dữ liệu hu n luyện. Trong ó, m i bộ dữ liệu ó 80% dữ liệu
dùng ể hu n luyện v % dữ liệu òn lại dùng ể thử nghiệm phân lớp. Bảng 4 trình y
kết quả thử nghiệm, so sánh ộ hính xá giữa á thu t toán dựa trên giá trị trung ình ủa
á tham số khi chạy thử nghiệm trên 5 ộ dữ liệu. Cá tham số gồm: t lệ v n ản ược
phân loại úng (TP Rate), t lệ v n ản phân loại sai (FP Rate), ộ hính xá (Pre ision), ộ
bao phủ (Re all) v ộ trung ình iều hòa (F-Measure).
Bảng 4. Giá trị trung ình á tham số theo phân lớp chủ ề với 05 bộ dữ liệu
Thu t toán
T lệ úng
(TP Rate)
T lệ sai
(FP Rate)
ộ hính xá
(Precision)
ộ ao phủ
(Recall)
ộ trung ình
iều hòa
(F-Measure)
SVM 0,946 0,018 0,946 0,946 0,945
NaiveBayes 0,893 0,036 0,896 0,893 0,892
K-NN (k = 1) 0,582 0,144 0,645 0,582 0,580
K-NN (k = 3) 0,504 0,169 0,630 0,504 0,483
K-NN (k = 5) 0,500 0,162 0,677 0,500 0,481
K-NN (k = 7) 0,491 0,163 0,704 0,491 0,471
Hình so sánh ộ hính xá (%) của á thu t toán khi phân loại v n ản theo 4 chủ ề
trên 05 bộ t p tin dữ liệu v n ản tiếng Việt. ộ hính xá ủa thu t toán K-NN phụ thuộc v o
h n p v n n i ng iệ ự ng h o ch
137
việc chọn giá trị cho tham số k. Kết quả cho th y giá trị của k ng nhỏ thì ộ hính xá ng
ao ( ộ hính xá ao nh t khi k = 1). Thu t toán SVM ho kết quả phân loại v n ản với ộ
hính xá ao nh t (trên %), tiếp ến l Naïve Bayes v uối ùng l thu t toán K-NN.
Hình 3. So sánh ộ hính xá á thu t toán
Hình 4 so sánh thời gian xây dựng mô hình hu n luyện v thời gian thử nghiệm của á
thu t toán. Kết quả cho th y thời gian xây dựng mô hình hu n luyện của thu t toán K-NN
th p nh t (gần b ng 0), trong khi thu t toán Naïve Bayes v SVM ó thời gian xây dựng mô
hình t ng tuyến tính theo ộ lớn của bộ dữ liệu hu n luyện. Thu t toán SVM m t nhiều thời
gian nh t ể xây dựng mô hình hu n luyện. Tuy nhiên, thời gian thử nghiệm phân loại v n
bản trên mô hình hu n luyện thì thu t toán SVM ho kết quả với thời gian thực hiện th p
nh t, kế ến l Naïve Bayes v ao nh t l K-NN.
Hình 4. Thời gian xây dựng mô hình v thời gian thử nghiệm của á thu t toán
Thực nghiệm chứng tỏ thu t toán SVM ho kết quả phân loại v n ản theo chủ ề tốt h n
Naïve Bayes v K-NN cả 2 khía ạnh l ộ hính xá cao nh t v thời gian phân loại thử nghiệm
trên mô hình th p nh t. Mặ dù SVM tốn nhiều thời gian h n ể xây dựng mô hình hu n luyện
nhưng ó thể cải thiện iều n y d d ng khi ược hu n luyện trên á hệ thống máy tính tố ộ cao.
ạnh Thi n n inh g n n Th ọa i g n Th Thanh Th
138
4. KẾT LUẬN
Trong i áo n y, nhóm tá giả trình y v n ề tiền xử lý v n ản, phư ng pháp
phân lớp v thực hiện phân lớp v n ản tiếng Việt tự ộng theo chủ ề b ng á h sử dụng 3
thu t toán Naïve Bayes, K-NN v SVM. Thực nghiệm cho th y thu t toán SVM cho kết quả
phân lớp với ộ hính xá ao nh t (trên %) v thời gian phân loại th p nh t cả 05 bộ dữ
liệu ó số t p tin lần lượt l 4 , 800, 1200, 6 v . Kết quả n y cho th y việc sử
dụng thu t toán SVM ể phân lớp v n ản tiếng Việt theo chủ ề l sự lựa chọn phù hợp
trong á ứng dụng về phân lớp v n ản.
Kết quả nghiên ứu n y l s ho nghiên ứu tiếp theo về ứng dụng phân loại v n
bản theo hướng tí h ự , tiêu ự v trung l p ể xây dựng ứng dụng phát hiện v phân loại
cảm xú : tí h ự (positive), tiêu ự (negative) v trung l p (neutral) của on người dựa trên
nội dung á i viết ó trên Internet về một chủ ề cần quan tâm.
TÀI LIỆU THAM KHẢO
1. Sebastiani F. - Machine learning in automated text categorization, ACM Computing
Surveys (CSUR) 34 (1) (2002) 1-47.
2. Ezhilarasi R. and Minu R. I. - Automatic emotion recognition and classification,
Procedia Engineering 38 (2012) 21-26.
3. Rennie J. D. M. - Improving multi-class text classification with Naive Bayes,
Massachusetts Institute of Technology, Cambridge (2001).
4. Dai W., Xue G., Yang Q., and Yu Y. - Transferring Naive Bayes classifiers for text
classification, In Association for the Advancement of Artificial Intelligence (AAAI),
(2007) 540-545.
5. Frank E. and Bouckaert R. R. - Naive Bayes for text classification with unbalanced
classes, In European Conference on Principles of Data Mining and Knowledge
Discovery (2006) 503–510.
6. Hovold J. - Naive Bayes spam filtering using word-position-based attributes, The
Common European Asylum System (CEAS) (2005).
7. Soelistio Y. E., Raditia M., and Surendra S. - Simple text mining for sentiment
analysis of political figure using naive bayes classifier method, arXiv preprint arXiv,
(2015) 99–104.
8. Pang B. and Lee L. - A sentimental education: Sentiment analysis using subjectivity
summarization based on minimum cuts, Proceedings of the 42nd annual meeting on
Association for Computational Linguistics. Association for Computational Linguistics
(2004) 271.
9. Cunningham P. and Delany S. J. - k-Nearest Neighbour Classifiers, Multiple Classifier
Systems (2007) 1–17.
10. Zhang M. and Zhou Z. - A k-Nearest Neighbor based algorithm for Multi-label
classification, Granular Computing (GrC) (2005) 718–721.
11. Dharmadhikari S. C., Ingle Maya, and Kulkarni P. - Empirical Studies on machine
learning based text classification algorithms, Advanced Computing (2011) 161–169.
12. Campbell C., Ying Y. - Learning with support vector machines, Synthesis lectures on
artificial intelligence and machine learning (2011) 1–95.
h n p v n n i ng iệ ự ng h o ch
139
13. Lê Hồng Phư ng - Vietnamese Word Tokenizer, 2018
(
14. Hall M., Frank E., Holmes G., Pfahringer B., and Reutemann P. - The WEKA data
mining software: An Update, ACM SIGKDD explorations Newsletter (2009) 11-17.
ABSTRACT
AUTOMATICALLY VIETNAMESE TEXT CLASSIFICATION BY TOPIC
Manh Thien Ly*, Vu Van Vinh, Nguyen Van Le,
Lam Thi Hoa Mi, Nguyen Thi Thanh Thuy, Duong Thi Mong Thuy
Ho Chi Minh City University of Food Industry
*Email: [email protected]
The Internet is strongly growing every day with a huge amount of information. The need
of data mining and knowledge discovery is also increasing, in which the text classification
plays an important role. Many techniques in machine learning are applied in classification
process and achieved good results. Nowadays, there are many algorithms used for text
lassifi ation su h as Naïve Bayes, K-NN, SVM, Maximum Entropy, etc. In this paper,
Naïve Bayes, SVM and K-NN algorithms were used to experiment on Vietnamese text
classification with 05 datasets belonging to 4 different topics: Tourism, Entertainment,
Education and the Law. These datasets were extracted from vnexpress.net website. Some
unique identifiers were applied during processing to increase the classification accuracy. The
results show that SVM algorithm has the highest accuracy (over 90%) and the lowest amount
of execution time.
Keywords: Text classification, Naïve Bayes, K-NN, SVM, algorithm.

File đính kèm:

phan_lop_van_ban_tieng_viet_tu_dong_theo_chu_de.pdf