Khóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt
Mục lục
Tóm tắt.i
Mục lục .iii
Danh sách các bảng .v
Danh sách các hình.vi
Lời mở đầu .1
Chương 1. Giới thiệu vềhệthống hỏi đáp tự động .3
1.1. Hệthống hỏi đáp tự động .3
1.2. Phân loại hệthống hỏi đáp tự động .5
1.2.1. Phân loại theo miền ứng dụng (domain) .5
1.2.2. Phân loại theo khảnăng trảlời câu hỏi.6
1.2.3. Phân loại theo hướng tiếp cận:.7
1.3. Các bước chung của hệthống hỏi đáp tự động.7
Chương 2. Phân tích câu hỏi .10
2.1. Nội dung của phân tích câu hỏi .10
2.2. Khó khăn của phân tích câu hỏi.10
2.3. Một sốnội dung của xửlý ngôn ngữtựnhiên trong phân tích câu hỏi.11
2.4. Taxonomy câu hỏi .14
2.4.1. Khái niệm vềtaxonomy .14
2.4.2. Taxonomy câu hỏi.15
2.5. Khảo sát các phương pháp phân tích câu hỏi cho các loại câu hỏi khác nhau .19
2.5.1. Câu hỏi đơn giản (factual-base) .19
2.5.2. Câu hỏi định nghĩa (definition question) .21
2.5.3. Câu hỏi phức tạp, có ràng buộc vềthời gian.22
Chương 3. Các phương pháp xác định loại câu hỏi .24
3.1. Phương pháp phân lớp sửdụng học máy thống kê.24
3.1.2. Các thuật toán học máy thống kê cho việc phân lớp .28
3.1.3. Xây dựng bộphân lớp câu hỏi theo học máy thống kê.37
3.2. Phương pháp xác định loại câu hỏi sửdụng kĩthuật xửlý ngôn ngữtựnhiên .42
3.3. Phương pháp xác định loại câu hỏi sửdụng mẫu quan hệ.45
Chương 4. Thực nghiệm phân tích câu hỏi tiếng Việt .47
4.1. Thực nghiệm với phân lớp câu hỏi sửdụng học máy thống kê.47
4.1.1. Dữliệu và công cụcho thực nghiệm .47
4.1.2. Kết quảbộphân lớp sửdụng SVM và MEM .49
4.2. Thực nghiệm với xác định loại câu hỏi sửdụng mẫu quan hệ.51
4.2.1. Mô hình thực nghiệm phân tích câu hỏi sửdụng mẫu quan hệ.51
4.2.2. Kết quảphân tích câu hỏi sửdụng mẫu quan hệ.55
Kết luận .58
Tài liệu tham khảo.60
ệ thống hỏi đáp tự động đang nhận được sự quan tâm đặc biệt của các nhà nghiên cứu và doanh nghiệp trong ngành công nghệ thông tin. Nhu cầu về một hệ thống hỏi đáp tiếng Việt là rất lớn. Phân tích câu hỏi có vai trò đặc biệt quan trọng trong hệ thống hỏi đáp tự động. Khóa luận khảo sát các phương pháp phân tích câu hỏi đang được quan tâm, phân tích và tìm ra phương pháp phù hợp cho phân tích câu hỏi tiếng Việt. Khóa luận này đã đạt được những kết quả sau: • Trình bày một cách khái quát nhất về hệ thống hỏi đáp tự động và nêu lên ý nghĩa, vai trò của pha phân tích câu hỏi trong hệ thống hỏi đáp. • Khảo sát, nghiên cứu các vấn đề xung quanh việc phân tích câu hỏi và trình bày các phương pháp hiện đang được quan tâm trong phân tích câu hỏi. Khóa luận chỉ ra việc phân lớp câu hỏi theo loại ngữ nghĩa của câu trả lời là đặc biệt quan trọng với hệ thống hỏi đáp tự động. • Xây dựng bộ phân lớp câu hỏi cho hệ thống hỏi đáp tiếng Việt trên miền mở sử dụng hai thuật toán SVM và MEM đạt độ chính xác khá cao. • Xây dựng module phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt trên miền du lịch dựa vào trích rút mẫu quan hệ Bên cạnh đó, khóa luận còn một số hạn chế: • Khóa luận mong muốn xây dựng được bộ phân lớp hai cấp với 6 lớp cha và 50 lớp con, tuy nhiên do số lượng câu hỏi gán nhãn được còn ít nên mới chỉ phân lớp được cho 6 lớp cha. Độ chính xác của bộ phân lớp chưa thực sự cao. • Hệ thống hỏi đáp tiếng Việt cho miền du lịch còn hạn chế về số lượng các quan hệ. Các hướng nghiên cứu và phát triển tiếp theo là: Với phần phân tích câu hỏi cho hệ thống hỏi đáp miền mở. • Thu thập và gán nhãn thêm dữ liệu câu hỏi. Mỗi lớp câu hỏi cần trung bình 100 câu hỏi mẫu, do đó để có thể tiến hành phân lớp cho 50 lớp con khóa luận cần tiếp tục thu thập dữ liệu (cần khoảng 5000 câu hỏi). 59 • Đưa thêm các đặc trưng ngữ nghĩa nhằm nâng cao độ chính xác cho bộ phân lớp câu hỏi. • Tiến hành thực nghiệm với nhiều thuật toán học khác để tìm ra thuật toán phù hợp nhất với phân lớp câu hỏi tiếng Việt. Có thể áp dụng phương pháp học bán giám sát để tận dụng nguồn câu hỏi chưa gán nhãn. • Thực nghiệm phần tạo truy vấn mở rộng cho hệ thống trích chọn thông tin. Với phần phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt cho miền du lịch • Tiến hành sinh mẫu và seed cho nhiều quan hệ khác và tích hợp vào hệ thống để đánh giá độ chính xác của phân tích câu hỏi khi số quan hệ tăng lên. Đồng thời hoàn thiện hệ thống để có thể đáp ứng nhu cầu thực tế của người dùng. 60 Tài liệu tham khảo Tài liệu tiếng Việt [1] Hồ Tú Bảo, Lương Chi Mai. Về xử lý tiếng Việt trong công nghệ thông tin. Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Tiên tiến Nhật bản. [2] Nguyễn Thị Hương Thảo. Phân lớp phân cấp Taxonomy văn bản Web và ứng dụng. Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2006. [3] Hà Quang Thụy & nhóm khai phá dữ liệu và ứng dụng. Bài giảng về khai phá dữ liệu. 2007. [4] Nguyễn Minh Tuấn. Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa tiếng việt trong lĩnh vực y tế. Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2008. [5] Nguyễn Cẩm Tú. Máy Vector Hỗ trợ (SVMs) và các Phương pháp Nhân.2007 [6] Phạm Thu Uyên, Nguyễn Đức Vinh, Nguyễn Đạo Thái. Hệ thống hỏi đáp tự động sử dụng trích rút quan hệ ngữ nghĩa trong kho văn bản tiếng Việt. Nghiên cứu khoa học sinh viên cấp trường Đại học Công Nghệ, 2009 Tài liệu tiếng Anh [7] Eugene Agichtein, Luis Gravano. Snowball: Extracting Relations from Large Plain-Text Collections. In Proceedings of the Fifth ACM International Conference on Digital Libraries, 2000. [8] Michele Banko, Eric Brill, Susan Dumais, Jimmy Lin. AskMSR: Question Answering Using the Worldwide Web. Microsoft Research. In Preceedings of 2002 AAAI Spring Symposium on Mining Answers from Texts and Knowledge bases, Palo Alto, California, March 2002. [9] Matthew W. Bilotti, Boris Katz, and Jimmy Lin. What Works Better for Question Answering: Stemming or Morphological Query Expansion? ACM SIGIR'04 Workshop Information Retrieval for QA, (Jul. 2004). [10] John Burger, Claire Cardie, Vinay Chaudhri, Robert Gaizauskas, Sanda Harabagiu, David Israel, Christian Jacquemin, Chin-Yew Lin, Steve Maiorano, 61 George Miller, Dan Moldovan , Bill Ogden, John Prager, Ellen Riloff, Amit Singhal, Rohini Shrihari, Tomek Strzalkowski, Ellen Voorhees, Ralph Weishedel. Issues, Tasks and Program Structures to Roadmap Research in Question & Answering (Q&A) 2002. [11] Sergey Brin (Computer Science Department, Stanford University). Extracting Patterns and Relations from the World Wide Web. In WebDB Workshop at 6th International Conference on Extending Database Technology, EDBT’98, 1998. [12] Eric Brill, Jimmy Lin, Michele Banko, Susan Dumais and Andrew Ng (Microsoft Research One Microsoft Way Redmond). Data-Intensive Question Answering . In Proceedings of the Tenth Text REtrieval Conference (TREC 2001), 2001. [13] Jaime Carbonell, Donna Harman , Eduard Hovy, and Steve Maiorano, John Prange and Karen Sparck-Jones. Vision Statement to Guide Research in Question & Answering (Q&A) and Text Summarization. Final version 1. 2000. [14] Kadri Hacioglu, Wayne Ward. 2003. Question Classification with Support Vector Machines and Error Correcting Codes. The Association for Computational Linguistics on Human Language Technology, vol. 2, tr.28–30. [15] Sanda M. Harabagiu, Marius A. Paşca, Steven J. Maiorano. Experiments with open-domain textual Question Answering. International Conference On Computational Linguistics Proceedings of the 18th conference on Computational linguistics - Volume 1, 2000, tr. 292 - 298 [16] Phan Xuan Hieu. JTextPro: A Java-based Text Processing Toolkit. jtextpro.sourceforge.net/ [17] Wesley Hildebr, Boris Katz, Jimmy Lin. Answering Definition Questions Using Web Knowledge Bases. Book: Natural Language Processing – IJCNLP, 2005. [18] Eduard Hovy, Ulf Hermjakob and Lin, C.-Y. The Use of External Knowledge in Factoid QA. Paper presented at the Tenth Text REtrieval Conference (TREC 10), Gaithersburg, MD, 2001, November 13-16. [19] Eduard Hovy, Ulf Hermjakob, and DeepakRavichandran. A Question/Answer Typology with Surface Text Patterns. In Proceedings of the second international conference on Human Language Technology Research. 2002 62 [20] Zhiheng Huang, Marcus Thint, Zengchang Qin. Question Classification using Head Words and their Hypernyms. ACL 2008. [21] Thorsten Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Proceedings of ECML-98, the 10th European Conference on Machine Learning, 1998, tr 137-142. [22] Thorsten Joachims. Learning to Classify Text using Support Vector Machines. Kluwer. 2002 [23] Thorsten Joachims. SVM multiclass Multi-Class Support Vector Machine. Cornell University Department of Computer Science. [24] Vijay Krishnan and Sujatha Das and Soumen Chakrabarti. Enhanced Answer Type Inference from Questions using Sequential Models. The conference on Human Language Technology and Empirical Methods in Natural Language Processing, 2005. [25] Xin Li, Dan Roth. Learning Question Classifiers. COLING'02, Aug, 2002. [26] Xin Li, Dan Roth. Learning question classifiers: the role of semantic information. Natural Language Engineering, Volume 12 , Issue 3 , September 2006, tr. 229 – 249. [27] Bernardo Magnini. Open Domain Question Answering: Techniques, Resources and Systems. RANLP 2005. [28] George A. Miller, Richard Beckwith, Christiane Fellbaum,Derek Gross, and Katherine Miller. Introduction to WordNet: An On-line Lexical Database. 1998. [29] Dan Moldovan, Sanda Harabagiu, Marius Pasca, Rada Mihalcea, Richard Goodrum, Roxana Girju and Vasile Rus. The Structure and Performance of an Open- Domain Question Answering System. In Proceedings of the 38th Annual Meeting of the Association for Comoutational Linguistics (ACL-2000), 2000. [30] N.F. Noy and McGuinness, D.L. Ontology Development 101: A Guide to Creating Your First Ontology SMI. Technical report SMI-2001-0880 , Stanford University, 2001. [31] Robinson, W. P., Rackstraw, S. J. A Question of Answers (Vol. I). Boston: Routledge & Kegan Paul. 1972. 63 [32] Robinson, W. P., Rackstraw, S. J. A Question of Answers (Vol. II). Boston: Routledge & Kegan Paul, 1972. [33] E. Saquete, P. Martınez-Barco, R. Mu˜noz, J.L. Vicedo. Splitting Complex Temporal Questions for Question Answering Systems. ACL 2004 [34] Luís Sarmento, Jorge Filipe Teixeira, Eugénio Oliveira. Experiments with Query Expansion in the RAPOSA (FOX) Question Answering System. In The Cross- Language Evaluation Forum (CLEF), 2008. [35] Mihai Surdeanu. Question Answering Techniques and Systems. TALP Research Center Dep. Llenguatges i Sistemes Informàtics Universitat Politècnica de Catalunya. [36] Nguyen Tri Thanh. Study on Acquiring and Using Linguistic Semantic Information for Search System. Doctor thesis, Japan Advanced Institute of Science anf Technology, 2008. [37] Nguyen Cam Tu. JVnTextpro: A Java-based Vietnamese Text Processing Toolkit. SISLab Software Utility. College of Technology, Vietnam National University, Hanoi. [38] Ellen M. Voorhees. The TREC-8 Question Answering Track Report. Paper presented at the Eighth Text REtrieval Conference (TREC 8) Gaithersburg, MD, 1999 November 16-19. [39] Hui Yang and Tat-Seng Chua.The Integration of Lexical Knowledge and External Resources for Question Answering. School of Computing, National University of Singapore. [40] Liu Yi, Zheng Y F. One-against-all multi-Class SVM classification using reliability measures. Proceedings of the 2005 International Joint Conference on Neural Networks Montreal,Canada, 2005. [41] Dell Zhang, Wee Sun Lee. Question Classification using Support Vector Machines. The ACM SIGIR conference in informaion retrieval, 2003, tr 26–32.
File đính kèm:
- Khóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt.pdf