Khóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt

Mục lục

Tóm tắt.i

Mục lục .iii

Danh sách các bảng .v

Danh sách các hình.vi

Lời mở đầu .1

Chương 1. Giới thiệu vềhệthống hỏi đáp tự động .3

1.1. Hệthống hỏi đáp tự động .3

1.2. Phân loại hệthống hỏi đáp tự động .5

1.2.1. Phân loại theo miền ứng dụng (domain) .5

1.2.2. Phân loại theo khảnăng trảlời câu hỏi.6

1.2.3. Phân loại theo hướng tiếp cận:.7

1.3. Các bước chung của hệthống hỏi đáp tự động.7

Chương 2. Phân tích câu hỏi .10

2.1. Nội dung của phân tích câu hỏi .10

2.2. Khó khăn của phân tích câu hỏi.10

2.3. Một sốnội dung của xửlý ngôn ngữtựnhiên trong phân tích câu hỏi.11

2.4. Taxonomy câu hỏi .14

2.4.1. Khái niệm vềtaxonomy .14

2.4.2. Taxonomy câu hỏi.15

2.5. Khảo sát các phương pháp phân tích câu hỏi cho các loại câu hỏi khác nhau .19

2.5.1. Câu hỏi đơn giản (factual-base) .19

2.5.2. Câu hỏi định nghĩa (definition question) .21

2.5.3. Câu hỏi phức tạp, có ràng buộc vềthời gian.22

Chương 3. Các phương pháp xác định loại câu hỏi .24

3.1. Phương pháp phân lớp sửdụng học máy thống kê.24

3.1.2. Các thuật toán học máy thống kê cho việc phân lớp .28

3.1.3. Xây dựng bộphân lớp câu hỏi theo học máy thống kê.37

3.2. Phương pháp xác định loại câu hỏi sửdụng kĩthuật xửlý ngôn ngữtựnhiên .42

3.3. Phương pháp xác định loại câu hỏi sửdụng mẫu quan hệ.45

Chương 4. Thực nghiệm phân tích câu hỏi tiếng Việt .47

4.1. Thực nghiệm với phân lớp câu hỏi sửdụng học máy thống kê.47

4.1.1. Dữliệu và công cụcho thực nghiệm .47

4.1.2. Kết quảbộphân lớp sửdụng SVM và MEM .49

4.2. Thực nghiệm với xác định loại câu hỏi sửdụng mẫu quan hệ.51

4.2.1. Mô hình thực nghiệm phân tích câu hỏi sửdụng mẫu quan hệ.51

4.2.2. Kết quảphân tích câu hỏi sửdụng mẫu quan hệ.55

Kết luận .58

Tài liệu tham khảo.60

71 trang | Chuyên mục: Các Hệ Thống Hỏi Đáp | Chia sẻ: dkS00TYs | Lượt xem: 1768 | Lượt tải: 4

Tóm tắt nội dung Khóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên

ệ thống hỏi đáp tự động đang nhận được sự quan tâm đặc biệt của các nhà nghiên
cứu và doanh nghiệp trong ngành công nghệ thông tin. Nhu cầu về một hệ thống hỏi đáp
tiếng Việt là rất lớn. Phân tích câu hỏi có vai trò đặc biệt quan trọng trong hệ thống hỏi
đáp tự động. Khóa luận khảo sát các phương pháp phân tích câu hỏi đang được quan tâm,
phân tích và tìm ra phương pháp phù hợp cho phân tích câu hỏi tiếng Việt.
Khóa luận này đã đạt được những kết quả sau:
• Trình bày một cách khái quát nhất về hệ thống hỏi đáp tự động và nêu lên ý
nghĩa, vai trò của pha phân tích câu hỏi trong hệ thống hỏi đáp.
• Khảo sát, nghiên cứu các vấn đề xung quanh việc phân tích câu hỏi và trình
bày các phương pháp hiện đang được quan tâm trong phân tích câu hỏi. Khóa
luận chỉ ra việc phân lớp câu hỏi theo loại ngữ nghĩa của câu trả lời là đặc
biệt quan trọng với hệ thống hỏi đáp tự động.
• Xây dựng bộ phân lớp câu hỏi cho hệ thống hỏi đáp tiếng Việt trên miền mở
sử dụng hai thuật toán SVM và MEM đạt độ chính xác khá cao.
• Xây dựng module phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt trên
miền du lịch dựa vào trích rút mẫu quan hệ
Bên cạnh đó, khóa luận còn một số hạn chế:
• Khóa luận mong muốn xây dựng được bộ phân lớp hai cấp với 6 lớp cha và
50 lớp con, tuy nhiên do số lượng câu hỏi gán nhãn được còn ít nên mới chỉ
phân lớp được cho 6 lớp cha. Độ chính xác của bộ phân lớp chưa thực sự cao.
• Hệ thống hỏi đáp tiếng Việt cho miền du lịch còn hạn chế về số lượng các
quan hệ.
Các hướng nghiên cứu và phát triển tiếp theo là:
Với phần phân tích câu hỏi cho hệ thống hỏi đáp miền mở.
• Thu thập và gán nhãn thêm dữ liệu câu hỏi. Mỗi lớp câu hỏi cần trung bình
100 câu hỏi mẫu, do đó để có thể tiến hành phân lớp cho 50 lớp con khóa
luận cần tiếp tục thu thập dữ liệu (cần khoảng 5000 câu hỏi).
59
• Đưa thêm các đặc trưng ngữ nghĩa nhằm nâng cao độ chính xác cho bộ phân
lớp câu hỏi.
• Tiến hành thực nghiệm với nhiều thuật toán học khác để tìm ra thuật toán phù
hợp nhất với phân lớp câu hỏi tiếng Việt. Có thể áp dụng phương pháp học
bán giám sát để tận dụng nguồn câu hỏi chưa gán nhãn.
• Thực nghiệm phần tạo truy vấn mở rộng cho hệ thống trích chọn thông tin.
Với phần phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt cho miền du lịch
• Tiến hành sinh mẫu và seed cho nhiều quan hệ khác và tích hợp vào hệ thống
để đánh giá độ chính xác của phân tích câu hỏi khi số quan hệ tăng lên. Đồng
thời hoàn thiện hệ thống để có thể đáp ứng nhu cầu thực tế của người dùng.
60
Tài liệu tham khảo
Tài liệu tiếng Việt
[1] Hồ Tú Bảo, Lương Chi Mai. Về xử lý tiếng Việt trong công nghệ thông tin. Viện
Công nghệ Thông tin, Viện Khoa học và Công nghệ Tiên tiến Nhật bản.
[2] Nguyễn Thị Hương Thảo. Phân lớp phân cấp Taxonomy văn bản Web và ứng
dụng. Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2006.
[3] Hà Quang Thụy & nhóm khai phá dữ liệu và ứng dụng. Bài giảng về khai phá dữ
liệu. 2007.
[4] Nguyễn Minh Tuấn. Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa tiếng việt
trong lĩnh vực y tế. Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2008.
[5] Nguyễn Cẩm Tú. Máy Vector Hỗ trợ (SVMs) và các Phương pháp Nhân.2007
[6] Phạm Thu Uyên, Nguyễn Đức Vinh, Nguyễn Đạo Thái. Hệ thống hỏi đáp tự động
sử dụng trích rút quan hệ ngữ nghĩa trong kho văn bản tiếng Việt. Nghiên cứu khoa
học sinh viên cấp trường Đại học Công Nghệ, 2009
Tài liệu tiếng Anh
[7] Eugene Agichtein, Luis Gravano. Snowball: Extracting Relations from Large
Plain-Text Collections. In Proceedings of the Fifth ACM International Conference on
Digital Libraries, 2000.
[8] Michele Banko, Eric Brill, Susan Dumais, Jimmy Lin. AskMSR: Question
Answering Using the Worldwide Web. Microsoft Research. In Preceedings of 2002
AAAI Spring Symposium on Mining Answers from Texts and Knowledge bases, Palo
Alto, California, March 2002.
[9] Matthew W. Bilotti, Boris Katz, and Jimmy Lin. What Works Better for Question
Answering: Stemming or Morphological Query Expansion? ACM SIGIR'04
Workshop Information Retrieval for QA, (Jul. 2004).
[10] John Burger, Claire Cardie, Vinay Chaudhri, Robert Gaizauskas, Sanda
Harabagiu, David Israel, Christian Jacquemin, Chin-Yew Lin, Steve Maiorano,
61
George Miller, Dan Moldovan , Bill Ogden, John Prager, Ellen Riloff, Amit Singhal,
Rohini Shrihari, Tomek Strzalkowski, Ellen Voorhees, Ralph Weishedel. Issues, Tasks
and Program Structures to Roadmap Research in Question & Answering (Q&A) 2002.
[11] Sergey Brin (Computer Science Department, Stanford University). Extracting
Patterns and Relations from the World Wide Web. In WebDB Workshop at 6th
International Conference on Extending Database Technology, EDBT’98, 1998.
[12] Eric Brill, Jimmy Lin, Michele Banko, Susan Dumais and Andrew Ng (Microsoft
Research One Microsoft Way Redmond). Data-Intensive Question Answering . In
Proceedings of the Tenth Text REtrieval Conference (TREC 2001), 2001.
[13] Jaime Carbonell, Donna Harman , Eduard Hovy, and Steve Maiorano, John
Prange and Karen Sparck-Jones. Vision Statement to Guide Research in Question &
Answering (Q&A) and Text Summarization. Final version 1. 2000.
[14] Kadri Hacioglu, Wayne Ward. 2003. Question Classification with Support Vector
Machines and Error Correcting Codes. The Association for Computational
Linguistics on Human Language Technology, vol. 2, tr.28–30.
[15] Sanda M. Harabagiu, Marius A. Paşca, Steven J. Maiorano. Experiments with
open-domain textual Question Answering. International Conference On Computational
Linguistics Proceedings of the 18th conference on Computational linguistics - Volume
1, 2000, tr. 292 - 298
[16] Phan Xuan Hieu. JTextPro: A Java-based Text Processing Toolkit.
jtextpro.sourceforge.net/
[17] Wesley Hildebr, Boris Katz, Jimmy Lin. Answering Definition Questions Using
Web Knowledge Bases. Book: Natural Language Processing – IJCNLP, 2005.
[18] Eduard Hovy, Ulf Hermjakob and Lin, C.-Y. The Use of External Knowledge in
Factoid QA. Paper presented at the Tenth Text REtrieval Conference (TREC 10),
Gaithersburg, MD, 2001, November 13-16.
[19] Eduard Hovy, Ulf Hermjakob, and DeepakRavichandran. A Question/Answer
Typology with Surface Text Patterns. In Proceedings of the second international
conference on Human Language Technology Research. 2002
62
[20] Zhiheng Huang, Marcus Thint, Zengchang Qin. Question Classification using
Head Words and their Hypernyms. ACL 2008.
[21] Thorsten Joachims. Text Categorization with Support Vector Machines: Learning
with Many Relevant Features. Proceedings of ECML-98, the 10th European
Conference on Machine Learning, 1998, tr 137-142.
[22] Thorsten Joachims. Learning to Classify Text using Support Vector Machines.
Kluwer. 2002
[23] Thorsten Joachims. SVM multiclass Multi-Class Support Vector Machine. Cornell
University Department of Computer Science.
[24] Vijay Krishnan and Sujatha Das and Soumen Chakrabarti. Enhanced Answer
Type Inference from Questions using Sequential Models. The conference on Human
Language Technology and Empirical Methods in Natural Language Processing, 2005.
[25] Xin Li, Dan Roth. Learning Question Classifiers. COLING'02, Aug, 2002.
[26] Xin Li, Dan Roth. Learning question classifiers: the role of semantic information.
Natural Language Engineering, Volume 12 , Issue 3 , September 2006, tr. 229 – 249.
[27] Bernardo Magnini. Open Domain Question Answering: Techniques, Resources
and Systems. RANLP 2005.
[28] George A. Miller, Richard Beckwith, Christiane Fellbaum,Derek Gross, and
Katherine Miller. Introduction to WordNet: An On-line Lexical Database. 1998.
[29] Dan Moldovan, Sanda Harabagiu, Marius Pasca, Rada Mihalcea, Richard
Goodrum, Roxana Girju and Vasile Rus. The Structure and Performance of an Open-
Domain Question Answering System. In Proceedings of the 38th Annual Meeting of
the Association for Comoutational Linguistics (ACL-2000), 2000.
[30] N.F. Noy and McGuinness, D.L. Ontology Development 101: A Guide to
Creating Your First Ontology SMI. Technical report SMI-2001-0880 , Stanford
University, 2001.
[31] Robinson, W. P., Rackstraw, S. J. A Question of Answers (Vol. I). Boston:
Routledge & Kegan Paul. 1972.
63
[32] Robinson, W. P., Rackstraw, S. J. A Question of Answers (Vol. II). Boston:
Routledge & Kegan Paul, 1972.
[33] E. Saquete, P. Martınez-Barco, R. Mu˜noz, J.L. Vicedo. Splitting Complex
Temporal Questions for Question Answering Systems. ACL 2004
[34] Luís Sarmento, Jorge Filipe Teixeira, Eugénio Oliveira. Experiments with Query
Expansion in the RAPOSA (FOX) Question Answering System. In The Cross-
Language Evaluation Forum (CLEF), 2008.
[35] Mihai Surdeanu. Question Answering Techniques and Systems. TALP Research
Center Dep. Llenguatges i Sistemes Informàtics Universitat Politècnica de Catalunya.
[36] Nguyen Tri Thanh. Study on Acquiring and Using Linguistic Semantic
Information for Search System. Doctor thesis, Japan Advanced Institute of Science anf
Technology, 2008.
[37] Nguyen Cam Tu. JVnTextpro: A Java-based Vietnamese Text Processing Toolkit.
SISLab Software Utility. College of Technology, Vietnam National University, Hanoi.
[38] Ellen M. Voorhees. The TREC-8 Question Answering Track Report. Paper
presented at the Eighth Text REtrieval Conference (TREC 8) Gaithersburg, MD, 1999
November 16-19.
[39] Hui Yang and Tat-Seng Chua.The Integration of Lexical Knowledge and External
Resources for Question Answering. School of Computing, National University of
Singapore.
[40] Liu Yi, Zheng Y F. One-against-all multi-Class SVM classification using
reliability measures. Proceedings of the 2005 International Joint Conference on
Neural Networks Montreal,Canada, 2005.
[41] Dell Zhang, Wee Sun Lee. Question Classification using Support Vector
Machines. The ACM SIGIR conference in informaion retrieval, 2003, tr 26–32.

File đính kèm:

Khóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt.pdf