Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng Việt

Trong các hệthống tìm kiếm thông tin văn bản (Text Information Retrieval System), tiến trình

quan trọng nhất là tiến trình phân tích nội dung văn bản đểxác định tập chỉmục biểu diễn tốt

nhất nội dung của văn bản (tiến trình lập chỉmục - indexing). Đểcó thểphân tích và rút trích

được các chỉmục (index term / term) tốt người ta thường ứng dụng các kết quảcủa lĩnh vực xửlý

ngôn ngữtựnhiên vào tiến trình này.

Chỉmục có thểlà từ(word) hay là một cấu trúc phức tạp hơn nhưcụm danh từ(noun phrase),

khái niệm (concept). Vấn đềxác định chỉmục cho văn bản tiếng Việt phức tạp hơn đối với ngôn

ngữchâu Âu do việc xác định giới hạn của một từ(word segmentation) trong tiếng Việt không

đơn giản là chỉdựa vào các khoảng trắng giữa chúng. Hơn nữa ngữpháp tiếng Việt vẫn còn

nhiều vấn đềtranh luận giữa các nhà ngôn ngữhọc nên cũng còn nhiều khó khăn trong việc tự

động hóa việc phân tích tiếng Việt.

pdf8 trang | Chuyên mục: Một Số Ứng Dụng Của Ngôn Ngữ Tự Nhiên | Chia sẻ: dkS00TYs | Lượt xem: 2104 | Lượt tải: 1download
Tóm tắt nội dung Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
m từ ‘khoa học tự nhiên’ gồm 2 từ hay 4 tiếng 
Chúng tôi đã sử dụng phương pháp học dựa vào các luật biến đổi (transformation based 
learning) [3] để thực hiện công việc này và đạt được độ chính xác khoảng 80-85%. 
Trong các hệ thống tìm kiếm thông tin văn bản trên các tiếng Châu âu, người ta có thể đơn 
giản lấy xác định các từ nhờ vào các khoảng trắng phân cách từ và chọn các từ đặc trưng cho nội 
dung văn bản (dựa vào tần suất xuất hiện của từ) làm chỉ mục mà hiệu quả tìm kiếm vẫn chấp 
nhận được. Đối với tiếng Việt chúng ta không thể làm tương tự bởi nếu chúng ta xác định từ chỉ 
dựa các khoảng trắng phân cách thì chúng ta có thể chỉ nhận được các ‘tiếng’ vô nghĩa và do đó 
độ chính xác của hệ thống sẽ rất thấp. Theo các nhà ngôn ngữ học thì tiếng Việt có đến 80% là 
các từ 2 ‘tiếng’ [6]. Chúng tôi sẽ trình bày các kết quả thực nghiệm chứng minh điều này ở phần 
sau. 
Một đặc điểm của tiếng Việt là từ tiếng Việt không có biến thể về hình thái học do đó công 
đoạn chuẩn hóa về hình thái học là không hiệu quả đối với tiếng Việt. Dĩ nhiên tiếng Việt cũng 
có một số hình thức biến thể về hình thái học như trường hợp thêm tiếng ‘sự’ trước một động từ 
để biến nó thành danh từ tương đương ví dụ như: động từ ‘lựa chọn’ và danh từ ‘sự lựa chọn’ hay 
việc thêm tiếng ‘hóa’ sau một danh từ để biến nó thành động từ tương đương như : danh từ ‘tin 
học’ và động từ ‘tin học hóa’ 
2.2 Từ loại 
 6
Vấn đề xác định từ loại cho từ trong tiếng Việt phức tạp hơn các tiếng châu Âu do chúng ta 
không thể dựa vào các đặc tính đặc biệt về hình thái học của từ để xác định loại từ như ví dụ 
trong tiếng anh chúng ta có thể xác định ngay một từ là tính từ nếu nó có phần cuối là ‘able’. Đối 
với tiếng Việt từ loại chỉ có thể xác định được tùy vào ngữ cảnh. Vi dụ, chúng ta xem xét các câu 
sau: 
1. Thành công của dự án đã tạo tiếng vang lớn 
2. Anh ấy rất thành công trong nghiên cứu khoa học 
3. Buổi biểu diễn đã thành công 
Trong câu (1) từ ‘thành công’ là một danh từ, trong câu (2) từ ‘thành công’ là một động từ và 
trong câu (3) từ ‘thành công’ lại là một tính từ 
3. Cụm danh từ 
Cấu trúc của cụm danh từ cũng là một vấn đề còn nhiều tranh luận giữa các nhà ngôn ngữ học. 
Chúng tôi trình bày theo quan điểm phù hợp với việc tin học hoá (theo quan điểm chủ quan của 
chúng tôi) như sau 
Một cụm danh từ tiếng Việt gồm ba phần: phần chính mang ý nghĩa chính của cụm danh từ, 
phần phụ trước gồm các chỉ định từ và phần phụ sau gồm các từ bổ nghĩa cho phần chính. Ví dụ: 
chúng ta có cụm từ 
 ‘Tất cả các cuốn sách tin học’ trong cụm từ này 
 phần phụ trước: Tất cả các 
 phần chính: cuốn sách 
 phần phụ sau: tin học 
Phần chính là một danh từ, phần phụ trước thường là các chỉ định từ, phần phụ sau thì rất phức 
tạp về từ loại, nó có thể là danh từ, tính từ, động từ… 
Chúng tôi đã sử dụng phương pháp học dựa trên các luật biến đổi để xây dựng tập luật biến 
đổi theo ngữ cảnh phục vụ cho việc xác định cụm danh từ. Kết quả chúng tôi đạt được chính xác 
khoảng 80% [5]. 
III. Một số kết quả thực nghiêm trên tiếng Việt 
Chúng tôi đã tiến hành thử nghiệm để xác định xem loại chỉ mục như thế nào thì phụ hợp cho 
việc lập chỉ mục văn bản tiếng Việt. Chúng tôi đã thử nghiệm trên 4 loại chỉ mục: uni-gram, bi-
gram, bi-gram kết hợp với một bộ từ vựng và cụm danh từ 
3.1 Tập dữ liệu kiểm tra (test collection) 
Để đánh giá hiệu năng của một hệ thống tìm kiếm thông tin người ta sử dụng hai độ đo: độ 
chính xác và độ bao phủ của hệ thống trên một tập dữ liệu kiểm tra. Tập dữ liệu kiểm tra bao gồm 
ba phần: tập các tài liệu, tập các câu hỏi dưới dạng các chủ đề (topic) và tập các đánh giá sự liên 
quan giữa các tài liệu và các câu hỏi . Các tập dữ liệu kiểm tra này thường được các tổ chức 
chuyên về các hệ thống tìm kiếm thông tin như xây dựng (như TREC : Text REtrieval 
Conference), nhưng đối với tiếng Việt hiện chưa có một tập dữ liệu kiểm tra như vậy. Do đó 
chúng tôi phải tự xây dựng tập kiểm tra cho tiếng Việt 
Tập dữ liệu kiểm tra của chúng tôi gồm một tập hợp 10.750 tài liệu (document) là các bài báo 
trích từ các báo Việt nam năm 2000, kích thước 23Mbyte. Tập câu hỏi bao gồm 14 câu hỏi. 
 7
Chúng tôi đã tiến hành xây dựng tập dữ liệu đánh giá sự liên quan giữa các tài liệu và các câu hỏi 
theo cách bán thủ công. Bước một chúng tôi sử dụng hệ tìm kiếm thông tin SMART (một hệ 
thống nổi tiếng do Đại học Cornell phát triển ) để lập chỉ mục tập dữ liệu trên, tiếp theo chúng 
tôi dùng SMART để tìm các tài liệu liên quan đến 14 câu hỏi đã chọn, với mỗi câu hỏi chúng tôi 
chọn 20 tài liệu được hệ SMART trả về như là các tài liệu có liên quan nhất đến câu hỏi. Bước 
hai chúng tôi tiến hành đánh giá lại một lần nữa bằng thủ công trên 20 tài liệu này ứng với một 
câu hỏi để có một bảng đánh giá cuối cùng. Như vậy tập dữ liệu kiểm tra mà chúng tôi sử dụng 
chưa phải là một tập kiểm tra tốt nhưng chấp nhận được trong thời điểm hiện tại. 
3.2 Các loại chỉ mục tiến hành thử nghiệm 
Chúng tôi đã tiên hành thử nghiệm với chỉ mục là Uni-gram. Uni-gram là đơn vị ngôn ngữ 
như ‘tiếng’ mà chúng tôi đã trình bày ở phần trên. Như chúng tôi cũng đã nêu ở phần trên, ‘tiếng’ 
không phải là từ trong tiếng Việt và phần lớn từ tiếng Việt là các tự gồm 2 ‘tiếng’, nên chúng tôi 
đã tiến hành thử nghiệm với các chỉ mục là các bi-gram. Một bi-gram là một tổ hợp gồm 2 ‘tiếng’ 
liền nhau, cách làm này giúp chúng tôi có một đánh giá sơ bộ khi chưa cần ứng dụng các xử lý 
ngôn ngữ học phức tạp. Tiếp theo chúng tôi sử dụng một danh mục từ (lexicon) tiếng Việt gồm 
30.000 từ để loại bỏ các bi-gram không có ý nghĩa. Chúng tôi cũng sử dụng hệ SMART [4] cho 
các thử nghiệm này với cách đánh trọng số cho chỉ mục là ltc. Chúng tôi cũng đã xây dựng một 
số module tiền xử lý dữ liệu để xác định các bi-gram và nối chúng lại bằng dấu gạch dưới ( _ ) để 
SMART hiểu đây như một ‘từ’ duy nhất, cũng như việc kiểm tra một bi-gram có là một từ trong 
tiếng Việt không, dựa vào danh mục từ tiếng Việt. Các kết quả của thử nghiệm là như sau: 
3.2.1 Uni-gram 
Đây xem như một thử nghiệm để đối chiếu với việc sử dụng chỉ mục là các ‘từ’ như đối với 
các hệ tìm kiếm dựa trên từ khóa của các ngôn ngữ châu Âu và cũng xem như là một có sở để 
đánh giá các loại chỉ mục khác. Độ chính xác trung bình chúng tôi nhận được là 0.3636 
3.2.2 Bi-gram 
Việc xác định các bi-gram được thực hiện như sau : chúng tôi duyệt tài liệu từ trái sang phải 
và trích ra tất cả các tổ hợp 2 ‘tiếng’. Ví dụ, với một câu ABCDE các bi-gram trích được là AB, 
BC, CD, DE. Cách làm đơn giản này cho phép trích đúng các từ tiếng Việt gồm 2 ‘tiếng’ nhưng 
cũng tạo ra ‘rác’ (các tổ hợp không có trong tiếng Việt) Ví dụ : xem xét đoạn gồm 4 ‘tiếng’ : 
‘công nghệ thông tin’ được cắt thành các bi-gram như sau : ‘công nghệ’, ‘nghệ thông’, ‘thông 
tin’. Các bi-gram 1 và 3 là các từ tiếng Việt có nghĩa, còn ‘ nghệ thông’ là một từ vô nghĩa. Tuy 
vậy độ chính xác trung bình cũng đã tăng lên so với việc dùng ‘tiếng’ như chỉ mục. Độ chính xác 
trung bình chúng tôi đạt được là 0.3778 
3.3.3 Bi-gram kết hợp với danh mục từ 
Để giảm các ‘rác’ sinh ra do việc cắt ‘cơ học’ các bi-gram, chúng tôi đã tiến hành kiểm tra các 
bi-gram cắt được với một danh mục từ tiếng Việt có sẵn và chỉ giữ lại các bi-gram có trong danh 
mục, các bi-gram không có trong danh mục chúng tôi xử lý như các từ đơn 1 ‘tiếng’. Cách làm 
này đã làm tăng đáng kể độ chính xác của hệ thống. Chúng tôi đã đạt được độ chính xác trung 
bình là 0.5625 
 8
Biểu đồ so sánh các đường cong biểu diễn sự tương quan giữa độ chính xác và độ bao phủ 
IV. Kết luận 
Trong báo cáo này chúng tôi đã cố gắng trình bày một cách tổng hợp các ứng dụng của xử lý 
tự động ngôn ngữ tự nhiên vào các hệ thống tìm kiếm thông tin văn bản. Chúng ta thấy rằng việc 
ứng dụng các bước xử lý ngôn ngữ tự nhiên cho phép nâng cao hiệu năng của các hệ tìm kiếm 
nhưng vẫn còn lại các câu hỏi cần phải xem xét đó là tính phức tạp của các xử lý ngôn ngữ tự 
nhiên có thể làm chậm đi tốc độ của hệ thống và hơn nữa bản thân độ chính xác của các xử lý này 
cũng còn phải được tiếp tục nâng lên. Do đó, chúng ta nên tùy vào đòi hỏi của từng hệ thống ứng 
dụng cụ thể để quyết nên áp dụng các xử lý ngôn ngữ tự nhiên đến mức độ nào. Chúng tôi cũng 
đã trình bày một số đặc trưng của tiếng Việt dưới góc nhìn của người làm hệ thống tìm kiếm 
thông tin và một số kết quả mà chúng tôi đã đạt được trong việc thử nghiệm để chọn loại chỉ mục 
phù hợp cho tiếng Việt. Cho đến hiện nay chúng tôi nhận thấy với chỉ mục là các bi-gram kết hợp 
với danh mục từ cho độ chính xác cao nhất. Chúng tôi đang tiến hành thử nghiệm với các chỉ 
mục là các cụm danh từ. 
Tài liệu tham khảo 
[1] A. Arampatzis et al,.(2000), “Linguistically Motivated Information Retrieval”. Encylopedia of 
Library and Infoamation Science, Marcel Dekker, Inc., New York, Basel. 
[2] Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001), “Vietnamese Word Segmentation”. 6th 
Natural Language Processing Pacific Rim Symposium 2001 (NLPRS-2001) 
[3] E. Brill. (1995), “Transformation-based error-driven learning and natural language 
processing: A case study in part of speech tagging”. Computational linguistique, 21(4):543-565. 
[4] G. Salton and M.J. McGill. (1983), “Introduction to Modern Information Retrieval”. 
McGraw-Hill, NewYork, New York 
[5] Lại Thị Hạnh. (2002), “Trích cụm danh từ tiếng Việt nhằm phục vụ cho các hệ thống tra cứu 
thông tin đa ngôn ngữ”, Luận văn Thạc sĩ tạI Đại Học Khoa Học Tự Nhiên TP. HCM. 
[6] Nguyễn Hữu Quỳnh. (2001), “Ngữ Pháp Tiếng Việt”, Nhà xuất bản từ điển bách khoa. 
[7] Nguyễn Kim Thản. (1997), “Nghiên cứu ngữ pháp tiếng Việt”. Nhà xuất bản khoa học xã hội. 
[8] W.A. Woods et al,. (2000), “Linguistique knowledge can improve information retrieval”. In 
Sixth Annual Applied Natural Language Processing Conference, pages 262-267. 
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
1 2 3 4 5 6 7 8 9 10 11
recall
pr
ec
is
io
n uni-gram
bi-gram
lexicon

File đính kèm:

  • pdfỨng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng Việt.pdf