Khóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt

Mục lục

Tóm tắt.i

Mục lục .iii

Danh sách các bảng .v

Danh sách các hình.vi

Lời mở đầu .1

Chương 1. Giới thiệu vềhệthống hỏi đáp tự động .3

1.1. Hệthống hỏi đáp tự động .3

1.2. Phân loại hệthống hỏi đáp tự động .5

1.2.1. Phân loại theo miền ứng dụng (domain) .5

1.2.2. Phân loại theo khảnăng trảlời câu hỏi.6

1.2.3. Phân loại theo hướng tiếp cận:.7

1.3. Các bước chung của hệthống hỏi đáp tự động.7

Chương 2. Phân tích câu hỏi .10

2.1. Nội dung của phân tích câu hỏi .10

2.2. Khó khăn của phân tích câu hỏi.10

2.3. Một sốnội dung của xửlý ngôn ngữtựnhiên trong phân tích câu hỏi.11

2.4. Taxonomy câu hỏi .14

2.4.1. Khái niệm vềtaxonomy .14

2.4.2. Taxonomy câu hỏi.15

2.5. Khảo sát các phương pháp phân tích câu hỏi cho các loại câu hỏi khác nhau .19

2.5.1. Câu hỏi đơn giản (factual-base) .19

2.5.2. Câu hỏi định nghĩa (definition question) .21

2.5.3. Câu hỏi phức tạp, có ràng buộc vềthời gian.22

Chương 3. Các phương pháp xác định loại câu hỏi .24

3.1. Phương pháp phân lớp sửdụng học máy thống kê.24

3.1.2. Các thuật toán học máy thống kê cho việc phân lớp .28

3.1.3. Xây dựng bộphân lớp câu hỏi theo học máy thống kê.37

3.2. Phương pháp xác định loại câu hỏi sửdụng kĩthuật xửlý ngôn ngữtựnhiên .42

3.3. Phương pháp xác định loại câu hỏi sửdụng mẫu quan hệ.45

Chương 4. Thực nghiệm phân tích câu hỏi tiếng Việt .47

4.1. Thực nghiệm với phân lớp câu hỏi sửdụng học máy thống kê.47

4.1.1. Dữliệu và công cụcho thực nghiệm .47

4.1.2. Kết quảbộphân lớp sửdụng SVM và MEM .49

4.2. Thực nghiệm với xác định loại câu hỏi sửdụng mẫu quan hệ.51

4.2.1. Mô hình thực nghiệm phân tích câu hỏi sửdụng mẫu quan hệ.51

4.2.2. Kết quảphân tích câu hỏi sửdụng mẫu quan hệ.55

Kết luận .58

Tài liệu tham khảo.60

pdf71 trang | Chuyên mục: Các Hệ Thống Hỏi Đáp | Chia sẻ: dkS00TYs | Lượt xem: 1843 | Lượt tải: 4download
Tóm tắt nội dung Khóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
ệ thống hỏi đáp tự động đang nhận được sự quan tâm đặc biệt của các nhà nghiên 
cứu và doanh nghiệp trong ngành công nghệ thông tin. Nhu cầu về một hệ thống hỏi đáp 
tiếng Việt là rất lớn. Phân tích câu hỏi có vai trò đặc biệt quan trọng trong hệ thống hỏi 
đáp tự động. Khóa luận khảo sát các phương pháp phân tích câu hỏi đang được quan tâm, 
phân tích và tìm ra phương pháp phù hợp cho phân tích câu hỏi tiếng Việt. 
Khóa luận này đã đạt được những kết quả sau: 
• Trình bày một cách khái quát nhất về hệ thống hỏi đáp tự động và nêu lên ý 
nghĩa, vai trò của pha phân tích câu hỏi trong hệ thống hỏi đáp. 
• Khảo sát, nghiên cứu các vấn đề xung quanh việc phân tích câu hỏi và trình 
bày các phương pháp hiện đang được quan tâm trong phân tích câu hỏi. Khóa 
luận chỉ ra việc phân lớp câu hỏi theo loại ngữ nghĩa của câu trả lời là đặc 
biệt quan trọng với hệ thống hỏi đáp tự động. 
• Xây dựng bộ phân lớp câu hỏi cho hệ thống hỏi đáp tiếng Việt trên miền mở 
sử dụng hai thuật toán SVM và MEM đạt độ chính xác khá cao. 
• Xây dựng module phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt trên 
miền du lịch dựa vào trích rút mẫu quan hệ 
Bên cạnh đó, khóa luận còn một số hạn chế: 
• Khóa luận mong muốn xây dựng được bộ phân lớp hai cấp với 6 lớp cha và 
50 lớp con, tuy nhiên do số lượng câu hỏi gán nhãn được còn ít nên mới chỉ 
phân lớp được cho 6 lớp cha. Độ chính xác của bộ phân lớp chưa thực sự cao. 
• Hệ thống hỏi đáp tiếng Việt cho miền du lịch còn hạn chế về số lượng các 
quan hệ. 
Các hướng nghiên cứu và phát triển tiếp theo là: 
Với phần phân tích câu hỏi cho hệ thống hỏi đáp miền mở. 
• Thu thập và gán nhãn thêm dữ liệu câu hỏi. Mỗi lớp câu hỏi cần trung bình 
100 câu hỏi mẫu, do đó để có thể tiến hành phân lớp cho 50 lớp con khóa 
luận cần tiếp tục thu thập dữ liệu (cần khoảng 5000 câu hỏi). 
59 
• Đưa thêm các đặc trưng ngữ nghĩa nhằm nâng cao độ chính xác cho bộ phân 
lớp câu hỏi. 
• Tiến hành thực nghiệm với nhiều thuật toán học khác để tìm ra thuật toán phù 
hợp nhất với phân lớp câu hỏi tiếng Việt. Có thể áp dụng phương pháp học 
bán giám sát để tận dụng nguồn câu hỏi chưa gán nhãn. 
• Thực nghiệm phần tạo truy vấn mở rộng cho hệ thống trích chọn thông tin. 
Với phần phân tích câu hỏi cho hệ thống hỏi đáp tiếng Việt cho miền du lịch 
• Tiến hành sinh mẫu và seed cho nhiều quan hệ khác và tích hợp vào hệ thống 
để đánh giá độ chính xác của phân tích câu hỏi khi số quan hệ tăng lên. Đồng 
thời hoàn thiện hệ thống để có thể đáp ứng nhu cầu thực tế của người dùng. 
60 
Tài liệu tham khảo 
Tài liệu tiếng Việt 
[1] Hồ Tú Bảo, Lương Chi Mai. Về xử lý tiếng Việt trong công nghệ thông tin. Viện 
Công nghệ Thông tin, Viện Khoa học và Công nghệ Tiên tiến Nhật bản. 
[2] Nguyễn Thị Hương Thảo. Phân lớp phân cấp Taxonomy văn bản Web và ứng 
dụng. Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2006. 
[3] Hà Quang Thụy & nhóm khai phá dữ liệu và ứng dụng. Bài giảng về khai phá dữ 
liệu. 2007. 
[4] Nguyễn Minh Tuấn. Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa tiếng việt 
trong lĩnh vực y tế. Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2008. 
[5] Nguyễn Cẩm Tú. Máy Vector Hỗ trợ (SVMs) và các Phương pháp Nhân.2007 
[6] Phạm Thu Uyên, Nguyễn Đức Vinh, Nguyễn Đạo Thái. Hệ thống hỏi đáp tự động 
sử dụng trích rút quan hệ ngữ nghĩa trong kho văn bản tiếng Việt. Nghiên cứu khoa 
học sinh viên cấp trường Đại học Công Nghệ, 2009 
Tài liệu tiếng Anh 
[7] Eugene Agichtein, Luis Gravano. Snowball: Extracting Relations from Large 
Plain-Text Collections. In Proceedings of the Fifth ACM International Conference on 
Digital Libraries, 2000. 
[8] Michele Banko, Eric Brill, Susan Dumais, Jimmy Lin. AskMSR: Question 
Answering Using the Worldwide Web. Microsoft Research. In Preceedings of 2002 
AAAI Spring Symposium on Mining Answers from Texts and Knowledge bases, Palo 
Alto, California, March 2002. 
[9] Matthew W. Bilotti, Boris Katz, and Jimmy Lin. What Works Better for Question 
Answering: Stemming or Morphological Query Expansion? ACM SIGIR'04 
Workshop Information Retrieval for QA, (Jul. 2004). 
[10] John Burger, Claire Cardie, Vinay Chaudhri, Robert Gaizauskas, Sanda 
Harabagiu, David Israel, Christian Jacquemin, Chin-Yew Lin, Steve Maiorano, 
61 
George Miller, Dan Moldovan , Bill Ogden, John Prager, Ellen Riloff, Amit Singhal, 
Rohini Shrihari, Tomek Strzalkowski, Ellen Voorhees, Ralph Weishedel. Issues, Tasks 
and Program Structures to Roadmap Research in Question & Answering (Q&A) 2002. 
[11] Sergey Brin (Computer Science Department, Stanford University). Extracting 
Patterns and Relations from the World Wide Web. In WebDB Workshop at 6th 
International Conference on Extending Database Technology, EDBT’98, 1998. 
[12] Eric Brill, Jimmy Lin, Michele Banko, Susan Dumais and Andrew Ng (Microsoft 
Research One Microsoft Way Redmond). Data-Intensive Question Answering . In 
Proceedings of the Tenth Text REtrieval Conference (TREC 2001), 2001. 
[13] Jaime Carbonell, Donna Harman , Eduard Hovy, and Steve Maiorano, John 
Prange and Karen Sparck-Jones. Vision Statement to Guide Research in Question & 
Answering (Q&A) and Text Summarization. Final version 1. 2000. 
[14] Kadri Hacioglu, Wayne Ward. 2003. Question Classification with Support Vector 
Machines and Error Correcting Codes. The Association for Computational 
Linguistics on Human Language Technology, vol. 2, tr.28–30. 
[15] Sanda M. Harabagiu, Marius A. Paşca, Steven J. Maiorano. Experiments with 
open-domain textual Question Answering. International Conference On Computational 
Linguistics Proceedings of the 18th conference on Computational linguistics - Volume 
1, 2000, tr. 292 - 298 
[16] Phan Xuan Hieu. JTextPro: A Java-based Text Processing Toolkit. 
jtextpro.sourceforge.net/ 
[17] Wesley Hildebr, Boris Katz, Jimmy Lin. Answering Definition Questions Using 
Web Knowledge Bases. Book: Natural Language Processing – IJCNLP, 2005. 
[18] Eduard Hovy, Ulf Hermjakob and Lin, C.-Y. The Use of External Knowledge in 
Factoid QA. Paper presented at the Tenth Text REtrieval Conference (TREC 10), 
Gaithersburg, MD, 2001, November 13-16. 
[19] Eduard Hovy, Ulf Hermjakob, and DeepakRavichandran. A Question/Answer 
Typology with Surface Text Patterns. In Proceedings of the second international 
conference on Human Language Technology Research. 2002 
62 
[20] Zhiheng Huang, Marcus Thint, Zengchang Qin. Question Classification using 
Head Words and their Hypernyms. ACL 2008. 
[21] Thorsten Joachims. Text Categorization with Support Vector Machines: Learning 
with Many Relevant Features. Proceedings of ECML-98, the 10th European 
Conference on Machine Learning, 1998, tr 137-142. 
[22] Thorsten Joachims. Learning to Classify Text using Support Vector Machines. 
Kluwer. 2002 
[23] Thorsten Joachims. SVM multiclass Multi-Class Support Vector Machine. Cornell 
University Department of Computer Science. 
[24] Vijay Krishnan and Sujatha Das and Soumen Chakrabarti. Enhanced Answer 
Type Inference from Questions using Sequential Models. The conference on Human 
Language Technology and Empirical Methods in Natural Language Processing, 2005. 
[25] Xin Li, Dan Roth. Learning Question Classifiers. COLING'02, Aug, 2002. 
[26] Xin Li, Dan Roth. Learning question classifiers: the role of semantic information. 
Natural Language Engineering, Volume 12 , Issue 3 , September 2006, tr. 229 – 249. 
[27] Bernardo Magnini. Open Domain Question Answering: Techniques, Resources 
and Systems. RANLP 2005. 
[28] George A. Miller, Richard Beckwith, Christiane Fellbaum,Derek Gross, and 
Katherine Miller. Introduction to WordNet: An On-line Lexical Database. 1998. 
[29] Dan Moldovan, Sanda Harabagiu, Marius Pasca, Rada Mihalcea, Richard 
Goodrum, Roxana Girju and Vasile Rus. The Structure and Performance of an Open-
Domain Question Answering System. In Proceedings of the 38th Annual Meeting of 
the Association for Comoutational Linguistics (ACL-2000), 2000. 
[30] N.F. Noy and McGuinness, D.L. Ontology Development 101: A Guide to 
Creating Your First Ontology SMI. Technical report SMI-2001-0880 , Stanford 
University, 2001. 
[31] Robinson, W. P., Rackstraw, S. J. A Question of Answers (Vol. I). Boston: 
Routledge & Kegan Paul. 1972. 
63 
[32] Robinson, W. P., Rackstraw, S. J. A Question of Answers (Vol. II). Boston: 
Routledge & Kegan Paul, 1972. 
[33] E. Saquete, P. Martınez-Barco, R. Mu˜noz, J.L. Vicedo. Splitting Complex 
Temporal Questions for Question Answering Systems. ACL 2004 
[34] Luís Sarmento, Jorge Filipe Teixeira, Eugénio Oliveira. Experiments with Query 
Expansion in the RAPOSA (FOX) Question Answering System. In The Cross-
Language Evaluation Forum (CLEF), 2008. 
[35] Mihai Surdeanu. Question Answering Techniques and Systems. TALP Research 
Center Dep. Llenguatges i Sistemes Informàtics Universitat Politècnica de Catalunya. 
[36] Nguyen Tri Thanh. Study on Acquiring and Using Linguistic Semantic 
Information for Search System. Doctor thesis, Japan Advanced Institute of Science anf 
Technology, 2008. 
[37] Nguyen Cam Tu. JVnTextpro: A Java-based Vietnamese Text Processing Toolkit. 
SISLab Software Utility. College of Technology, Vietnam National University, Hanoi. 
[38] Ellen M. Voorhees. The TREC-8 Question Answering Track Report. Paper 
presented at the Eighth Text REtrieval Conference (TREC 8) Gaithersburg, MD, 1999 
November 16-19.  
[39] Hui Yang and Tat-Seng Chua.The Integration of Lexical Knowledge and External 
Resources for Question Answering. School of Computing, National University of 
Singapore. 
[40] Liu Yi, Zheng Y F. One-against-all multi-Class SVM classification using 
reliability measures. Proceedings of the 2005 International Joint Conference on 
Neural Networks Montreal,Canada, 2005. 
[41] Dell Zhang, Wee Sun Lee. Question Classification using Support Vector 
Machines. The ACM SIGIR conference in informaion retrieval, 2003, tr 26–32. 

File đính kèm:

  • pdfKhóa luận Phân tích câu hỏi trong hệ thống hỏi đáp tiếng Việt.pdf
Tài liệu liên quan