Luận văn Xây dựng hệ thống truy xuất thông tin

MỤC LỤC

MỤC LỤC. 2

DANH MỤC CÁC TỪVIẾT TẮT. 4

DANH MỤC BẢNG. 5

DANH MỤC HÌNH. 6

MỞ ĐẦU. 8 U

CHƯƠNG 1. TỔNG QUAN VỀTRUY XUẤT THÔNG TIN. 10

1.1. Khái niệm truy xuất thông tin. 10

1.2. Quá trình truy xuất thông tin. 13

1.2.1. Giai đoạn tiền xửlý. 15

1.2.2. Giai đoạn thu thập. 20

1.3. Các hướng tiếp cận giải quyết bài toán truy xuất thông tin. 22

1.4. Đánh giá hiệu quảtruy xuất thông tin. 22

1.4.1. Độchính xác và độbao phủ. 23

1.4.2. Độchính xác trung bình. 25

1.4.3. Độ đo F và độ đo E. 26

1.4.4.Các tiếp cận đánh giá lấy người dùng làm trung tâm. 28

1.5.Một sốhệthống truy xuất thông tin. 29

1.6. Kết chương. 34

CHƯƠNG 2. CÁC CÔNG CỤTRUY XUẤT THÔNG TIN CƠBẢN. 35

2.1. Lập chỉmục. 35

2.2. Xếp hạng. 43

2.2.1. Tổng quan các mô hình truy xuất thông tin. 43

2.2.2. Các mô hình lôgíc. 46

2.2.3. Các mô hình đại số. 52

2.2.4. Các mô hình xác suất. 56

2.3. Kết chương. 61

Truy xuất thông tin 3

CHƯƠNG 3. CƠCHẾHOẠT ĐỘNG CỦA LUCENE. 62

3.1. Giới thiệu Lucene. 62

3.2. Lập chỉmục. 63

3.2.1. Khung nhìn lôgíc của chỉmục. 64

3.2.2. Cấu trúc chỉmục. 65

3.2.3. Inverted index. 73

3.2.4. Chiến lược lập chỉmục. 77

3.3. Tìm kiếm. 78

3.3.1. Mô hình không gian véctơ. 78

3.3.2. Xếp hạng. 81

3.4. Kết chương. 84

CHƯƠNG 4. CHƯƠNG TRÌNH VÀ KẾT QUẢTHỰC NGHIỆM. 85

4.1. Kiến trúc hoạt động của chương trình. 85

4.2. Kết quảthực nghiệm. 87

4.3. Kết chương. 94

CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN95

5.1. Kết luận. 95

5.2. Hướng phát triển của luận văn. 96

TÀI LIỆU THAM KHẢO. 98

TÀI LIỆU THAM KHẢO CHÉO. 100

pdf103 trang | Chuyên mục: Truy Xuất Thông Tin | Chia sẻ: dkS00TYs | Lượt xem: 2546 | Lượt tải: 1download
Tóm tắt nội dung Luận văn Xây dựng hệ thống truy xuất thông tin, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
nh và tiếp cận đánh giá lấy người dùng làm 
trung tâm. 
 Chúng tôi đã trình bày và so sánh hai cấu trúc chỉ mục là Signature 
Files và Inverted Files. Chúng tôi đã so sánh các hướng tiếp cận truy xuất 
thông tin là các mô hình lôgíc, các mô hình đại số và các mô hình xác suất. 
Chúng tôi tập trung nghiên cứu cơ chế lập chỉ mục và tìm kiếm của thư viện 
mã nguồn mở IR Lucene. 
 Cuối cùng, chúng tôi xây dựng chương trình thử nghiệm dựa trên 
Lucene để kiểm nghiệm và đánh giá hiệu quả của cấu trúc chỉ mục Inverted 
Files và mô hình không gian véctơ của Lucene. Chúng tôi đã thực hiện thử 
nghiệm chương trình nhiều lần với nhiều truy vấn khác nhau. Đồng thời 
chúng tôi cũng dùng Google Desktop để thử nghiệm với cùng các truy vấn 
trong cùng điều kiện. Kết quả thử nghiệm cho thấy chương trình có tốc độ lập 
chỉ mục chậm hơn Google Desktop nhưng kích thước thư mục chỉ mục nhỏ 
Trần Thị Hoàng Thảo Luận văn thạc sĩ 
Truy xuất thông tin 
96
hơn nhiều so với Google Desktop và chiếm ít tài nguyên hệ thống hơn trong 
quá trình lập chỉ mục. Tốc độ tìm kiếm và độ chính xác R-Precsion (với R = 
10) của chương trình tương đương với Google Desktop. Thứ tự tập kết quả trả 
về của chương trình chính xác hơn so với thứ tự tập kết quả mà Google 
Desktop trả về. Xét một cách tổng thể trong phạm vi thử nghiệm của luận văn 
thì chương trình có hiệu quả hoạt động cao hơn Google Desktop. 
5.2. Hướng phát triển của luận văn 
Hoàn thiện chương trình tìm kiếm thông tin trong chương 4 để có thể 
sử dụng trong thực tiễn như tìm kiếm thông tin trên desktop, tìm kiếm thông 
tin trên mạng intranet, tìm kiếm thông tin trên web... 
Hiện tại, luận văn mới dừng lại ở việc tìm kiếm thông tin trong tập tài 
liệu mang nội dung là tiếng Anh. Bởi vậy, một hướng phát triển tiếp theo của 
luận văn là nghiên cứu kỹ thuật và mở rộng chương trình để có thể tìm kiếm 
tài liệu mang nội dung tiếng Việt. Tiếng Việt có những đặc điểm riêng về cấu 
tạo của từ, cấu trúc ngữ pháp. Vì vậy cần có cải tiến trong việc phân tích từ 
vựng. Chúng tôi đề xuất hướng nghiên cứu dựa trên KStemmer (còn được gọi 
là Krovetz Stemmer) để giải quyết vấn đề này. 
Kstemmer là giải thuật lấy gốc từ được phát triển bởi Bob Krovetz, tại 
trường đại học University of Massachusetts, năm 1993. Giải thuật này sử 
dụng hình thái học ngôn ngữ biến tố (inflectional linguistic morphology). 
Hình thái học biến tố mô tả những biến đổi có thể dự đoán được của một từ 
diễn ra do cú pháp (hình thức số nhiều và sở hữu của danh từ, và hình thức 
quá khứ và tiếp diễn của động từ là những trường hợp thường gặp trong tiếng 
Anh). Kstemmer loại bỏ một cách hiệu quả và chính xác các hậu tố theo ba 
bước : sự biến đổi dạng số nhiều thành dạng số ít, sự biến đổi thì quá khứ 
thành thì hiện tại, sự loại bỏ dạng đuôi ‘ing’. Quá trình biến đổi trước hết sẽ 
loại bỏ tiền tố, tiếp theo sẽ qua một quá trình kiểm tra trong một từ điển để 
Trần Thị Hoàng Thảo Luận văn thạc sĩ 
Truy xuất thông tin 
97
tìm bản ghi đã có, rồi trả về gốc của từ. Kstemmer phù hợp với ngôn ngữ có 
hình thái từ đa dạng như tiếng Việt. Do đó, chúng tôi đề xuất hướng nghiên 
cứu, cải tiến Kstemmer để áp dụng cho bài toán truy xuất thông tin trong tập 
tài liệu mang nội dung tiếng Việt. 
 Luận văn này là một bước khởi đầu để tác giả làm quen và nghiên cứu 
về bài toán truy xuất thông tin. Tác giả mong muốn được cộng tác với những 
người quan tâm về lĩnh vực này để cùng nghiên cứu và giải quyết bài toán, 
đặc biệt là bài toán tìm kiếm tài liệu bằng tiếng Việt. 
Trần Thị Hoàng Thảo Luận văn thạc sĩ 
Truy xuất thông tin 
98
TÀI LIỆU THAM KHẢO 
[1] Ricardo Baeza-Yates, Berthier Ribeiro-Neto (1999), Modern 
Information Retrieval, Addison Wesley, New York. 
[2] Eva Ericsson (2005), User-Centered Evaluation of a Information 
Retrieval System, Master’s thesis, Uppsala University, Uppsala. 
[3] Ed Greengrass (2000), Information Retrieval-A Survey. 
[4] Erik Hatcher, Otis Gospodnetic (2005), Lucene In Action, Manning 
Publications Co, Greenwich. 
 Information Retrieval on the Internet, [5] Diana Inkpen (2006), Volume 
III (Part 3), 213. 
[6] Wessel Kraaij (2004), Variations on Language Modeling for 
Information Retrieval, Phd thesis, Enschede. 
[7] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze (2006), 
An Introduction to Information Retrieval, Cambridge University 
Press, Cambridge. 
[8] Tom Noda, Shawn Helwig (2005), Benchmark Study of Desktop 
Search Tools, UW E-Business Consortium, University of 
Wisconsin-Madison. 
[9] Sunanda Patro (2005), Synthesising Web Search Queries from Example 
Text Documents, Master’s thesis, University of Tasmania, Hobart. 
[10] Justin Picard (2000), Probabilistic Argumentation Systems Applied to 
Information Retrieval, Phd thesis, Neuchâtel. 
[11] Zhanzi Qiu (2004), Hyperstructure-Based Search Methods for the 
World Wide Web, Master’s thesis, Technischen Universität 
Darmstadt, Darmstadt. 
Trần Thị Hoàng Thảo Luận văn thạc sĩ 
Truy xuất thông tin 
99
[12] van Rijsbergen, C. J. (1979), Information Retrieval, 2nd edition, 
Butterworths, Lodon. 
[13] Christian Safran (2005), A Concept-Based Information Retrieval 
Approach for User-oriented Knowledge Transfer, Master’s thesis, 
Graz University of Technology, Graz. 
Trần Thị Hoàng Thảo Luận văn thạc sĩ 
Truy xuất thông tin 
100
TÀI LIỆU THAM KHẢO CHÉO 
[14] American Society of Indexers (2005), AMERICAN SOCIETY OF 
INDEXERS: How Information Retrieval Started (Trong [13] , 
trang 16,17). 
[15] Clarke, C. L., Cormack, G. V., & Tudhope, E. A. (1997), “Relevance 
ranking for one to three term queries”, in Devroye, L., & 
Chrisment, C., editors, Proceedings of RIAO’97, 388–400. (Trong 
[6] , trang 29). 
[16] Cooper, WS (1988), “Getting beyond Boole”, Information Processing 
and Management, Vol.24, no.3, pp.243-248. (Trong [9] , trang 7). 
[17] Fuhr, N. (1992), “Probabilistic models in information retrieval”, The 
Computer Journal, 35(3), 233–245. (Trong [6] ). 
[18] Kobayashi, M and Takeda, K (2000), “Information retrieval on the 
web”, ACM Computing Surveys, Vol.32, no.2, pp.144-173.(Trong 
[9] , trang 8). 
[19] Lancaster, F. W. (1968), Information Retrieval Systems: 
Characteristics, Testing and Evaluation, Wiley, New York (Trong 
[2] , trang 3). 
[20] Maron, ME and Kuhns, JL (1960), “On relevance, probabilistic 
indexing and information retrieval”, Journal of the Association for 
Computing Machinery, Vol.7, pp.216-244. (Trong [9] , trang 9). 
[21] Ruthven, I and Lalmas, M (2003), “A survey on the use of relevance 
feedback for information systems”, Knowledge engineering 
Review, Vol.18, no.2, pp. 95-145.(Trong [9] , trang 8). 
[22] Salton, G. (1971), The SMART retrieval system: experiments in 
automatic documentprocessing, Prentice-Hall, Englewood Cliffs 
(Trong [11] , trang 12) 
Trần Thị Hoàng Thảo Luận văn thạc sĩ 
Truy xuất thông tin 
101
[23] Salton, G. and Gill, M. (1983), Introduction to modern information 
retrieval, Mc.Graw Hill, New York, p448 (Trong [11] , trang 12). 
[24] Salton, G., & Buckley, C. (1988), “Term-weighting approaches in 
automatic text retrieval”, Information Processing & Management, 
24(5),513–523.(Trong [6] , trang 28) 
[25] Salton, G. (1989), Automatic text processing – the transformation, 
analysis and retrieval of information by computer, Addison-
Wesley, Reading, MA (Trong [11] , trang 12). 
[26] Scott Deerwester, Susan T. Dumais, Thomas K. Landauer, George W. 
Furnas, and Richard Harshman (1990), “Indexing by latent 
semantic analysis”, Journal of the Society for Information Science, 
41(6):391-407. (Trong [5] ). 
[27] F. Sebastiani (1998), “On the role of logic in information retrieval”, 
Information Processing and Management, 34(1):1–18. (Trong 
[Justin Picard, 2000], trang 10) 
[28] Singhal, A and Salton, G 1995 ,”Automatic Text Browsing Using 
Vector space Model”, Proceedings of the Dual-Use Technologies 
and Applications Conference, pp.318-324. (Trong [9] , trang 8). 
[29] Singhal, A (2001), “Modern Information Retrieval: A Brief Overview”, 
IEEE Data Eng. Bull, Vol.24, no.4, pp.35-43. (Trong [9] , trang 
12). 
[30] Wong, S. K. M., Ziarko, W., Raghavan, V. V., & Wong, P. C. N. 
(1986), “On extending the vector space model for boolean query 
processing”, In Proceedings of the 9th Annual International ACM 
SIGIR Conference on Research and Development in Information 
Retrieval (SIGIR ’86), pp. 175–185. ACM Press. (Trong [6] , 
trang 39). 
Trần Thị Hoàng Thảo Luận văn thạc sĩ 
Truy xuất thông tin 
102
[31] Wong, S. K. M., Ziarko, W., Raghavan, V. V., & Wong, P. C. N. 
(1987), “On modeling of information retrieval concepts in vector 
space”, TODS, 12(2),299–321. (Trong [6] , trang 39). 
[32] Yang, K (2002), Combining Text-, Link-, and Classification-based 
Retrieval Methods to Enhance Information Discovery on the Web, 
PhD thesis, University of North Carolina, p18. (Trong [9] , trang 
10). 
[33] Zadeh, L. A. (1965), “Fuzzy sets”, Information and Control, 8,338–
353. (Trong [6] , trang 29). 
Trần Thị Hoàng Thảo Luận văn thạc sĩ 
Truy xuất thông tin 
103
TÓM TẮT LUẬN VĂN 
 Trong luận văn, chúng tôi trình bày các bước cơ bản cần thực hiện để 
xây dựng hệ thống truy xuất thông tin, bao gồm hai giai đoạn chính là tiền xử 
lý tài liệu và thu thập thông tin. Chúng tôi nghiên cứu và so sánh các kỹ thuật 
lập chỉ mục và các hướng tiếp cận truy xuất thông tin, bao gồm các mô hình 
lôgíc, các mô hình đại số và các mô hình xác suất. Chúng tôi nghiên cứu và 
trình bày cơ chế lập chỉ mục và mô hình truy xuất thông tin của thư viện mã 
nguồn mở Lucene. Cuối cùng, chúng tôi xây dựng chương trình thử nghiệm 
dựa trên Lucene để kiểm nghiệm và đánh giá hiệu quả của cấu trúc chỉ mục 
Inverted Files và mô hình không gian véctơ của Lucene. 
Các từ khoá: truy xuất thông tin, lập chỉ mục, xếp hạng, Inverted Files, mô 
hình không gian véctơ. 
Trần Thị Hoàng Thảo Luận văn thạc sĩ 

File đính kèm:

  • pdfLuận văn Xây dựng hệ thống truy xuất thông tin.pdf
Tài liệu liên quan