Khóa luận Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web
MỤC LỤC
TÓM TẮT NỘI DUNG. i
MỤC LỤC . ii
Bảng các kí hiệu và chữviết tắt. iv
Danh mục hình vẽ.v
Danh mục các bảng biểu. vi
MỞ ĐẦU .1
Chương 1. Giới thiệu bài toán trích xuất từkhoá cho trang web.3
1.1. Đặt vấn đề.3
1.2. Khái niệm và các đặc trưng của từkhóa.4
1.3. Đánh giá các từkhóa.5
1.4. Thách thức của bài toán sinh từkhóa cho trang web.5
1.4.1. Đối với các trang có nội dung tập trung.6
1.4.2. Đối với các trang có nội dung tổng hợp.6
1.4.3. Các vấn đềkhác .6
1.5. Ứng dụng của từkhóa trong các lĩnh vực.7
1.5.1. Vai trò từkhóa trong máy tìm kiếm.7
1.5.1.1. Quảng cáo trên máy tìm kiếm .7
1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm .9
1.5.3. Vai trò từkhóa trong các trang web tổng hợp thông tin .10
1.6. Tổng kết chương .12
Chương 2. Các công trình liên quan.13
2.1. Các phương pháp trích xuất từkhóa cho văn bản .13
2.1.1. Phương pháp tần sốtừ.13
2.1.2. Phương pháp sửdụng các thông tin khác trong văn bản .14
2.1.3. Phương pháp sửdụng học máy .15
2.1.3.1. Trích xuất từkhóa sửdụng phân lớp Naïve Bayes .16
2.1.3.2. Trích xuất từkhóa sửdụng lexical chain (chuỗi từvựng) và phân lớp16
2.2. Các phương pháp trích xuất từkhóa cho trang web .17
2.2.1. Tần sốtừ.17
2.2.2. Kĩthuật khai phá log .17
2.2.3. Kĩthuật áp dụng máy tìm kiếm và độtương đồng từ.18
2.3. Gán từkhóa trong văn bản, web (keyword assignment) .19
2.4 Tổng kết chương .19
Chương 3. Hướng giải quyết và đềxuất mô hình bài toán.20
3.1. Hướng giải quyết .20
3.1.1. Sửdụng độquan trọng của các thẻtrong HTML .20
3.1.2. Sửdụng đồthịweb .23
3.1.2.1. Định nghĩa đồthịWeb .23
3.1.2.2 Nội dung của phương pháp .24
3.1.3. Sửdụng query log .26
3.1.4. Sửdụng từ điển hỗtrợ.27
3.2. Đềxuất mô hình bài toán.27
3.2.1. Mô hình toàn hệthống .27
3.2.2. Mô đun Crawler .28
iii
3.2.3. Mô đun sinh từkhóa .29
3.2.3.1. Mô đun sửdụng trọng sốthẻHTML .30
3.2.3.2. Mô đun sửdụng đồthịweb.32
3.2.3.3. Các phương pháp hỗtrợ.33
3.2.3.4. Mô đun tổng hợp .35
3.3. Tổng kết chương .35
Chương 4. Thực nghiệm và đánh giá.36
4.1. Giới thiệu bài toán thực nghiệm .36
4.2. Môi trường, dữliệu .36
4.1.1. Môi trường phần cứng.36
4.1.2. Mô tảchương trình.36
4.1.3. Công cụphần mềm.37
4.1.4. Dữliệu thửnghiệm .38
4.3. Kết quảthực nghiệm.40
4.4. Đánh giá kết quảthực nghiệm .45
Kết luận .46
Hướng phát triển tiếp theo.47
Tài liệu tham khảo.48
ết quả trả về của một ví dụ sinh từ khóa cho báo điện tử Từ khóa của Việt báo Từ khóa của chương trình Fabio Cannavaro, CLB Juventus, Italy Fabio canavaro-9, juventus-8, fabio canavaro - 4, Cannavaro, có thời hạn, bản hợp đồng, trung vệ -4, cầu thủ -3, hợp đồng -3, mùa chính thức, trung vệ, trở lại, thời gian, bóng, giải -3, thi đấu -3, hâm mộ -2, real madrid - năm, thành 2, madrid-2. 44 4.4. Đánh giá kết quả thực nghiệm Đánh giá kết quả của một danh sách các từ khoá là một việc làm rất khó khăn trong thời điểm hiện tại. Chủ yếu việc đánh giá vẫn dựa vào ý kiến đánh giá của các chuyên gia ngôn ngữ, hay người quản trị website. Những từ khoá phải mang ý nghĩa cao, nói lên được nội dung của trang web. Các từ khoá phải là những từ khoá phải nói lên được những cái riêng của trang web. Với lượng trang web được sinh từ khóa khá nhiều cả bằng tiếng Việt và tiếng Anh, tôi có một số nhận xét như sau. Các trang tiếng Anh thường được tổ chức tốt hơn, với ít lỗi HTML. Phương pháp áp dụng độ quan trọng của thẻ HTML có ưu điểm hơn các phương pháp khác với các từ khóa sinh ra thỏa mãn các tính chất phổ biến cũng như đặc trưng của trang web. Nó tốt đối với cả trang web dạng portal và các trang web dạng dữ liệu tập trung. Trong thực nghiệm này, đối với phương pháp dùng đồ thị web, do thời gian có hạn nên tôi chỉ giới hạn số từ khóa trả về. Thời gian để chạy cho một trang với phương pháp này là khá lâu bởi khi dùng truy vấn tới các máy tìm kiếm(ba máy tìm kiếm: google, yahoo, altavista ), các kết quả trả về thường lớn. Hơn thế nữa các kết quả này lại trùng nhau về từ khóa nhiều, xảy ra tình trạng tải các trang về lớn nhưng sinh ra từ khóa lại ít. Phương pháp này là một đánh giá tốt của người dùng, người viết trên các trang web khác khi nghĩ về trang web cần sinh từ khóa. Nếu có thời gian để xét trên toàn bộ các trang có liên kết trỏ tới, kết quả của phương pháp sẽ tốt hơn. Đối với log chúng tôi sử dụng, số lượng trang web trong nó chỉ chiếm lượng nhỏ của Internet, cho nên đối với một số trang tiếng Anh không xuất hiện trong log, hoặc xuất hiện ít làm cho kết quả sinh từ khóa chưa được đa dạng. Phương pháp này đã được áp dụng trong các phần mềm sinh từ khóa nổi tiếng như GoogleAdwords [31]. Nếu có những log lớn, thì việc phân tích sẽ cho nhiều kết quả thêm, nâng cao sự chính xác và nhiều sự lựa chọn từ khóa. 45 Kết luận Khóa luận đã hệ thống hóa được các vấn đề của bài toán trích xuất từ khóa cho trang web bao gồm khảo sát về các từ khóa trong các ứng dụng, cách tiếp cận bài toán kèm theo các đánh giá nhận xét. Đặc biệt, khóa luận đã nêu ra một số phương pháp mới áp dụng trên dữ liệu web: độ quan trọng của các thẻ trong HTML, đồ thị web. Đồng thời, khóa luận cũng đã đề xuất ra một mô hình thực thi bằng việc sử dụng việc phân tích trực tiếp trên các trang dựa vào nguồn thông tin sẵn có, chứ không cần phải mất thời gian học. Thực nghiệm trên dữ liệu tiếng Anh, và tiếng Việt cho kết quả khá khả quan. Các nội dung chính của khóa luận được đề cập tóm lược dưới đây. Khảo sát các ứng dụng của từ khóa trong các dịch vụ quảng cáo trên máy tìm kiếm, trong tìm kiếm thông tin, trong hoạt động quảng bá web, phân loại web. Và tôi cũng đã trình bày những khó khăn, thách thức của bài toán đối với miền dữ liệu Web, đồng thời cũng phân tích những lợi điểm mà web đem lại. Trình bày cơ bản về các phương pháp trích xuất từ khóa trong các văn bản, một số phương pháp học máy, sử dụng log đã áp dụng trên dữ liệu web. Tôi cũng đã so sánh, kết hợp nhiều phương pháp khác nhau để có thể phân tích và đưa ra phương pháp riêng. Khóa luận đưa ra được hướng giải quyết bài toán theo cách tiếp cận không chỉ dựa trên nội dung của trang, mà còn xét đến các thông tin khác liên quan đến trang web như : đồ thị web, log. Khóa luận cũng trình bày được mô hình thực thi cụ thể cho các phương pháp, từ đó có thể dễ dàng mã hóa. Kết quả thực nghiệm, quá trình thực nghiệm được trình bày chi tiết. Nhiều thực nghiệm đã được thực hiện nhiều lần để có thể tìm ra được mô hình tốt nhất, và kết quả của khóa luận cũng đạt được khả quan, có thể áp dụng trong thực tế. 46 Hướng phát triển tiếp theo Mặc dù kết quả thu được của khóa luận là đáng khích lệ và khá tốt nhưng do thời gian có hạn việc ước lượng các trọng số cho các phương pháp có thể chưa được tối ưu. Trong thời gian tới, tôi sẽ tiến hành thu thập thêm các dữ liệu và hoàn thiện những gì còn thiếu sót của các mô đun đã đề xuất. Cũng trên cơ sở đã đạt được của khóa luận, tôi dự định xây dựng một hệ thống hoàn thiện để tích hợp vào các máy tìm kiếm, và các trang báo với độ chính xác cao hơn, tiện dụng và thời gian chạy nhanh hơn. Bài toán trích xuất từ khóa cho trang web là bài toán mới và nhiều phần còn liên quan đến ngữ nghĩa, xử lý ngôn ngữ tự nhiên. Tôi sẽ cố gắng tìm hiểu thêm các lĩnh vực liên quan như tóm tắt văn bản tự động, nâng cao chất lượng tìm kiếm trang web với từ khóa.... 47 Tài liệu tham khảo. Tiếng Việt [1] Phạm Thị Thu Uyên, Hoàng Minh Hiền (2008). Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản Tiếng Việt, Công trình Sinh viên Nghiên cứu khoa học 03/2008 [2] Website: [3] Website: [4] SEO Tiếng Anh [5] Chengzhi ZHANG , Huilin WANG , Yao LIU , Dan WU , Yi LIAO , Bo WANG. Automatic Keyword Extraction from Documents Using Conditional Random Fields. China. Journal of Computational Information Systems4:3(2008) 1169- 1180. [6] Craven, T. (1998b). TexNet32 - WWW filters. In Texnet32. Retreived from [7] Craven, Timothy C. HTML Tags as Extraction Cues for Web Page Description Construction. Informing Science; 2003, Vol. 6, p1-12, 12p [8] David B. Bracewell, JiajunYan and Fuji Ren.Single Document Keyword Extraction For Internet News Articles. International Journal of Innovative Computing, Information and Control Volume 4,Number 4,April 2008. [9] E. Frank, G. W. Paynter, I. H. Witten, C. Gutwin, and C. G. Nevill-Manning. Domain-specific keyphrase extraction. In IJCAI, pages 668--673, 1999. [10] E. Spertus. ParaSite: Mining structural informationon the Web. Proc. 6th WWW Conf., 1997. [11] Gonenc Ercan, Ilyas Cicekli. Using Lexical Chains for Keyword Extraction. Inf. Process. Manage., Vol. 43, No. 6. (November 2007), pp. 1705-1714. [12] H.Edmundson(1969). New methods in automatic abstracting, Journal of ACM. 1969. [13] HPLuhn(1958). The automatic creation of literature abstracts. IBM journal of research development. [14] J. Carri ere and R. Kazman. WebQuery: Searching and visualizing the Web through connectivity. Proc. 6th WWW Conf., 1997. [15] J. Kleinberg. Authoritative sources in a hyperlinked environment. J. of the ACM , 1999, to appear. Also appears as IBM Research Report RJ 10076 91892 May 1997. [16] K. Bartz, V. Murthi, and S. Sebastian. Logistic regression and collaborative filtering for sponsoreed search term recommendation. In Second Workshop on Sponsored Search Auctions, 2006. 48 [17] M. Sahami and T. Heilman. A web-based kernel function for matching short text snippets. In International Conference on Machine Learning, 2005. [18] Mori Junichiro, Matsuo Yutaka, Ishizuka Mitsuru, Faltings Boi. Keyword extraction from the Web for Personal Metadata Annotation.Proceedings of the4th International Workshop on Knowledge Markup and Semantic Annotation, (ISWC2004) (2004), pp. 51-60. [19] P. D. Turney, Learning Algorithms for Keyphrase Extraction, Information Retrieval, 1999. [20] Qiang Yang, Advertising keyword suggestion based on concept hierarchy presented by Qiang Yang, HongKong Univ of Science and Technology. [21] S. Brin and L. Page. The anatomy of a large-scale hypertextual Web search engine.Proc. 7th WWW Conf.,1998. [22] S. Chakrabarti and B. Dom, and P. Indyk. Enhanced hypertext classication using hyperlinks. Proc. ACM SIGMOD, 1998. [23] S. R. Kumar, P. Raghavan, S. Rajagopalan, and A.Tomkins. Trawling emerging cyber-communities automatically. Proc. 8th WWW Conf., 1999. [24] Soumen Chakrabarti, Data mining for hypertext : A tutorial survey. Volume 1. ACM- 2000. [25] Vibhanshu Abhishek , Kartik Hosanagar, Keyword generation for search engine advertising using semantic similarity between terms, Proceedings of the ninth international conference on Electronic commerce, August 19-22, 2007, Minneapolis, MN, USA. [26] Wen-Tau Yih, Joshua Goodman and Vitor Carvalho, Finding Advertising Keywords on Web Pages WWW-06 (The 15th International World Wide Web Conference), June 2006. [27] Y. MATSUO,M. Ishizuka.Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information.International Journal on Artificial Intelligence Tools.2003. [28] Yasin Uzun. Keyword Extraction Using Naive Bayes. Bilkent University, Department of Computer Science, Turkey. [29] Yi-fang Brook Wu , Quanzhi Li , Razvan Stefan Bot , Xin Chen, Domain-specific keyphrase extraction, Proceedings of the 14th ACM international conference on Information and knowledge management, October 31-November 05, 2005, Bremen, Germany. [30] Zhu Mengxiao ,Cai Zhi ,Cai Qingsheng.Automatic Keywords Extraction Of Chinese Document Using Small World Structure. Department of Computer Science, University of Science and Technology of China. [31] Google Adwords [32] Overture [33] SEM 49 [34] Tf,IDF [35] Web_portal [36] Website: [37] Website: [38] WordNet Công cụ và dữ liệu sử dụng [39] MSN search engine logs. (supported by DAIS Lab, University of Illinois at Urbarna Champaign). [40] Trang web Tiếng Việt: ếng_Việt/ [41] Nguyen Cam Tu, “JvnTextPro: A Java-based VietNamese Text Processing Toolkit”. [42] Website : [43] Website: [44] Website: [45] Website: [46] Website: [47] Website: [48] Từ điển tiếng Việt được lọc từ các trang của 50
File đính kèm:
- Khóa luận Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web.pdf