Luận văn Xây dựng hệ thống truy xuất thông tin
MỤC LỤC
MỤC LỤC. 2
DANH MỤC CÁC TỪVIẾT TẮT. 4
DANH MỤC BẢNG. 5
DANH MỤC HÌNH. 6
MỞ ĐẦU. 8 U
CHƯƠNG 1. TỔNG QUAN VỀTRUY XUẤT THÔNG TIN. 10
1.1. Khái niệm truy xuất thông tin. 10
1.2. Quá trình truy xuất thông tin. 13
1.2.1. Giai đoạn tiền xửlý. 15
1.2.2. Giai đoạn thu thập. 20
1.3. Các hướng tiếp cận giải quyết bài toán truy xuất thông tin. 22
1.4. Đánh giá hiệu quảtruy xuất thông tin. 22
1.4.1. Độchính xác và độbao phủ. 23
1.4.2. Độchính xác trung bình. 25
1.4.3. Độ đo F và độ đo E. 26
1.4.4.Các tiếp cận đánh giá lấy người dùng làm trung tâm. 28
1.5.Một sốhệthống truy xuất thông tin. 29
1.6. Kết chương. 34
CHƯƠNG 2. CÁC CÔNG CỤTRUY XUẤT THÔNG TIN CƠBẢN. 35
2.1. Lập chỉmục. 35
2.2. Xếp hạng. 43
2.2.1. Tổng quan các mô hình truy xuất thông tin. 43
2.2.2. Các mô hình lôgíc. 46
2.2.3. Các mô hình đại số. 52
2.2.4. Các mô hình xác suất. 56
2.3. Kết chương. 61
Truy xuất thông tin 3
CHƯƠNG 3. CƠCHẾHOẠT ĐỘNG CỦA LUCENE. 62
3.1. Giới thiệu Lucene. 62
3.2. Lập chỉmục. 63
3.2.1. Khung nhìn lôgíc của chỉmục. 64
3.2.2. Cấu trúc chỉmục. 65
3.2.3. Inverted index. 73
3.2.4. Chiến lược lập chỉmục. 77
3.3. Tìm kiếm. 78
3.3.1. Mô hình không gian véctơ. 78
3.3.2. Xếp hạng. 81
3.4. Kết chương. 84
CHƯƠNG 4. CHƯƠNG TRÌNH VÀ KẾT QUẢTHỰC NGHIỆM. 85
4.1. Kiến trúc hoạt động của chương trình. 85
4.2. Kết quảthực nghiệm. 87
4.3. Kết chương. 94
CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN95
5.1. Kết luận. 95
5.2. Hướng phát triển của luận văn. 96
TÀI LIỆU THAM KHẢO. 98
TÀI LIỆU THAM KHẢO CHÉO. 100
nh và tiếp cận đánh giá lấy người dùng làm trung tâm. Chúng tôi đã trình bày và so sánh hai cấu trúc chỉ mục là Signature Files và Inverted Files. Chúng tôi đã so sánh các hướng tiếp cận truy xuất thông tin là các mô hình lôgíc, các mô hình đại số và các mô hình xác suất. Chúng tôi tập trung nghiên cứu cơ chế lập chỉ mục và tìm kiếm của thư viện mã nguồn mở IR Lucene. Cuối cùng, chúng tôi xây dựng chương trình thử nghiệm dựa trên Lucene để kiểm nghiệm và đánh giá hiệu quả của cấu trúc chỉ mục Inverted Files và mô hình không gian véctơ của Lucene. Chúng tôi đã thực hiện thử nghiệm chương trình nhiều lần với nhiều truy vấn khác nhau. Đồng thời chúng tôi cũng dùng Google Desktop để thử nghiệm với cùng các truy vấn trong cùng điều kiện. Kết quả thử nghiệm cho thấy chương trình có tốc độ lập chỉ mục chậm hơn Google Desktop nhưng kích thước thư mục chỉ mục nhỏ Trần Thị Hoàng Thảo Luận văn thạc sĩ Truy xuất thông tin 96 hơn nhiều so với Google Desktop và chiếm ít tài nguyên hệ thống hơn trong quá trình lập chỉ mục. Tốc độ tìm kiếm và độ chính xác R-Precsion (với R = 10) của chương trình tương đương với Google Desktop. Thứ tự tập kết quả trả về của chương trình chính xác hơn so với thứ tự tập kết quả mà Google Desktop trả về. Xét một cách tổng thể trong phạm vi thử nghiệm của luận văn thì chương trình có hiệu quả hoạt động cao hơn Google Desktop. 5.2. Hướng phát triển của luận văn Hoàn thiện chương trình tìm kiếm thông tin trong chương 4 để có thể sử dụng trong thực tiễn như tìm kiếm thông tin trên desktop, tìm kiếm thông tin trên mạng intranet, tìm kiếm thông tin trên web... Hiện tại, luận văn mới dừng lại ở việc tìm kiếm thông tin trong tập tài liệu mang nội dung là tiếng Anh. Bởi vậy, một hướng phát triển tiếp theo của luận văn là nghiên cứu kỹ thuật và mở rộng chương trình để có thể tìm kiếm tài liệu mang nội dung tiếng Việt. Tiếng Việt có những đặc điểm riêng về cấu tạo của từ, cấu trúc ngữ pháp. Vì vậy cần có cải tiến trong việc phân tích từ vựng. Chúng tôi đề xuất hướng nghiên cứu dựa trên KStemmer (còn được gọi là Krovetz Stemmer) để giải quyết vấn đề này. Kstemmer là giải thuật lấy gốc từ được phát triển bởi Bob Krovetz, tại trường đại học University of Massachusetts, năm 1993. Giải thuật này sử dụng hình thái học ngôn ngữ biến tố (inflectional linguistic morphology). Hình thái học biến tố mô tả những biến đổi có thể dự đoán được của một từ diễn ra do cú pháp (hình thức số nhiều và sở hữu của danh từ, và hình thức quá khứ và tiếp diễn của động từ là những trường hợp thường gặp trong tiếng Anh). Kstemmer loại bỏ một cách hiệu quả và chính xác các hậu tố theo ba bước : sự biến đổi dạng số nhiều thành dạng số ít, sự biến đổi thì quá khứ thành thì hiện tại, sự loại bỏ dạng đuôi ‘ing’. Quá trình biến đổi trước hết sẽ loại bỏ tiền tố, tiếp theo sẽ qua một quá trình kiểm tra trong một từ điển để Trần Thị Hoàng Thảo Luận văn thạc sĩ Truy xuất thông tin 97 tìm bản ghi đã có, rồi trả về gốc của từ. Kstemmer phù hợp với ngôn ngữ có hình thái từ đa dạng như tiếng Việt. Do đó, chúng tôi đề xuất hướng nghiên cứu, cải tiến Kstemmer để áp dụng cho bài toán truy xuất thông tin trong tập tài liệu mang nội dung tiếng Việt. Luận văn này là một bước khởi đầu để tác giả làm quen và nghiên cứu về bài toán truy xuất thông tin. Tác giả mong muốn được cộng tác với những người quan tâm về lĩnh vực này để cùng nghiên cứu và giải quyết bài toán, đặc biệt là bài toán tìm kiếm tài liệu bằng tiếng Việt. Trần Thị Hoàng Thảo Luận văn thạc sĩ Truy xuất thông tin 98 TÀI LIỆU THAM KHẢO [1] Ricardo Baeza-Yates, Berthier Ribeiro-Neto (1999), Modern Information Retrieval, Addison Wesley, New York. [2] Eva Ericsson (2005), User-Centered Evaluation of a Information Retrieval System, Master’s thesis, Uppsala University, Uppsala. [3] Ed Greengrass (2000), Information Retrieval-A Survey. [4] Erik Hatcher, Otis Gospodnetic (2005), Lucene In Action, Manning Publications Co, Greenwich. Information Retrieval on the Internet, [5] Diana Inkpen (2006), Volume III (Part 3), 213. [6] Wessel Kraaij (2004), Variations on Language Modeling for Information Retrieval, Phd thesis, Enschede. [7] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze (2006), An Introduction to Information Retrieval, Cambridge University Press, Cambridge. [8] Tom Noda, Shawn Helwig (2005), Benchmark Study of Desktop Search Tools, UW E-Business Consortium, University of Wisconsin-Madison. [9] Sunanda Patro (2005), Synthesising Web Search Queries from Example Text Documents, Master’s thesis, University of Tasmania, Hobart. [10] Justin Picard (2000), Probabilistic Argumentation Systems Applied to Information Retrieval, Phd thesis, Neuchâtel. [11] Zhanzi Qiu (2004), Hyperstructure-Based Search Methods for the World Wide Web, Master’s thesis, Technischen Universität Darmstadt, Darmstadt. Trần Thị Hoàng Thảo Luận văn thạc sĩ Truy xuất thông tin 99 [12] van Rijsbergen, C. J. (1979), Information Retrieval, 2nd edition, Butterworths, Lodon. [13] Christian Safran (2005), A Concept-Based Information Retrieval Approach for User-oriented Knowledge Transfer, Master’s thesis, Graz University of Technology, Graz. Trần Thị Hoàng Thảo Luận văn thạc sĩ Truy xuất thông tin 100 TÀI LIỆU THAM KHẢO CHÉO [14] American Society of Indexers (2005), AMERICAN SOCIETY OF INDEXERS: How Information Retrieval Started (Trong [13] , trang 16,17). [15] Clarke, C. L., Cormack, G. V., & Tudhope, E. A. (1997), “Relevance ranking for one to three term queries”, in Devroye, L., & Chrisment, C., editors, Proceedings of RIAO’97, 388–400. (Trong [6] , trang 29). [16] Cooper, WS (1988), “Getting beyond Boole”, Information Processing and Management, Vol.24, no.3, pp.243-248. (Trong [9] , trang 7). [17] Fuhr, N. (1992), “Probabilistic models in information retrieval”, The Computer Journal, 35(3), 233–245. (Trong [6] ). [18] Kobayashi, M and Takeda, K (2000), “Information retrieval on the web”, ACM Computing Surveys, Vol.32, no.2, pp.144-173.(Trong [9] , trang 8). [19] Lancaster, F. W. (1968), Information Retrieval Systems: Characteristics, Testing and Evaluation, Wiley, New York (Trong [2] , trang 3). [20] Maron, ME and Kuhns, JL (1960), “On relevance, probabilistic indexing and information retrieval”, Journal of the Association for Computing Machinery, Vol.7, pp.216-244. (Trong [9] , trang 9). [21] Ruthven, I and Lalmas, M (2003), “A survey on the use of relevance feedback for information systems”, Knowledge engineering Review, Vol.18, no.2, pp. 95-145.(Trong [9] , trang 8). [22] Salton, G. (1971), The SMART retrieval system: experiments in automatic documentprocessing, Prentice-Hall, Englewood Cliffs (Trong [11] , trang 12) Trần Thị Hoàng Thảo Luận văn thạc sĩ Truy xuất thông tin 101 [23] Salton, G. and Gill, M. (1983), Introduction to modern information retrieval, Mc.Graw Hill, New York, p448 (Trong [11] , trang 12). [24] Salton, G., & Buckley, C. (1988), “Term-weighting approaches in automatic text retrieval”, Information Processing & Management, 24(5),513–523.(Trong [6] , trang 28) [25] Salton, G. (1989), Automatic text processing – the transformation, analysis and retrieval of information by computer, Addison- Wesley, Reading, MA (Trong [11] , trang 12). [26] Scott Deerwester, Susan T. Dumais, Thomas K. Landauer, George W. Furnas, and Richard Harshman (1990), “Indexing by latent semantic analysis”, Journal of the Society for Information Science, 41(6):391-407. (Trong [5] ). [27] F. Sebastiani (1998), “On the role of logic in information retrieval”, Information Processing and Management, 34(1):1–18. (Trong [Justin Picard, 2000], trang 10) [28] Singhal, A and Salton, G 1995 ,”Automatic Text Browsing Using Vector space Model”, Proceedings of the Dual-Use Technologies and Applications Conference, pp.318-324. (Trong [9] , trang 8). [29] Singhal, A (2001), “Modern Information Retrieval: A Brief Overview”, IEEE Data Eng. Bull, Vol.24, no.4, pp.35-43. (Trong [9] , trang 12). [30] Wong, S. K. M., Ziarko, W., Raghavan, V. V., & Wong, P. C. N. (1986), “On extending the vector space model for boolean query processing”, In Proceedings of the 9th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR ’86), pp. 175–185. ACM Press. (Trong [6] , trang 39). Trần Thị Hoàng Thảo Luận văn thạc sĩ Truy xuất thông tin 102 [31] Wong, S. K. M., Ziarko, W., Raghavan, V. V., & Wong, P. C. N. (1987), “On modeling of information retrieval concepts in vector space”, TODS, 12(2),299–321. (Trong [6] , trang 39). [32] Yang, K (2002), Combining Text-, Link-, and Classification-based Retrieval Methods to Enhance Information Discovery on the Web, PhD thesis, University of North Carolina, p18. (Trong [9] , trang 10). [33] Zadeh, L. A. (1965), “Fuzzy sets”, Information and Control, 8,338– 353. (Trong [6] , trang 29). Trần Thị Hoàng Thảo Luận văn thạc sĩ Truy xuất thông tin 103 TÓM TẮT LUẬN VĂN Trong luận văn, chúng tôi trình bày các bước cơ bản cần thực hiện để xây dựng hệ thống truy xuất thông tin, bao gồm hai giai đoạn chính là tiền xử lý tài liệu và thu thập thông tin. Chúng tôi nghiên cứu và so sánh các kỹ thuật lập chỉ mục và các hướng tiếp cận truy xuất thông tin, bao gồm các mô hình lôgíc, các mô hình đại số và các mô hình xác suất. Chúng tôi nghiên cứu và trình bày cơ chế lập chỉ mục và mô hình truy xuất thông tin của thư viện mã nguồn mở Lucene. Cuối cùng, chúng tôi xây dựng chương trình thử nghiệm dựa trên Lucene để kiểm nghiệm và đánh giá hiệu quả của cấu trúc chỉ mục Inverted Files và mô hình không gian véctơ của Lucene. Các từ khoá: truy xuất thông tin, lập chỉ mục, xếp hạng, Inverted Files, mô hình không gian véctơ. Trần Thị Hoàng Thảo Luận văn thạc sĩ
File đính kèm:
- Luận văn Xây dựng hệ thống truy xuất thông tin.pdf