Khóa luận Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web

MỤC LỤC

TÓM TẮT NỘI DUNG. i

MỤC LỤC . ii

Bảng các kí hiệu và chữviết tắt. iv

Danh mục hình vẽ.v

Danh mục các bảng biểu. vi

MỞ ĐẦU .1

Chương 1. Giới thiệu bài toán trích xuất từkhoá cho trang web.3

1.1. Đặt vấn đề.3

1.2. Khái niệm và các đặc trưng của từkhóa.4

1.3. Đánh giá các từkhóa.5

1.4. Thách thức của bài toán sinh từkhóa cho trang web.5

1.4.1. Đối với các trang có nội dung tập trung.6

1.4.2. Đối với các trang có nội dung tổng hợp.6

1.4.3. Các vấn đềkhác .6

1.5. Ứng dụng của từkhóa trong các lĩnh vực.7

1.5.1. Vai trò từkhóa trong máy tìm kiếm.7

1.5.1.1. Quảng cáo trên máy tìm kiếm .7

1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm .9

1.5.3. Vai trò từkhóa trong các trang web tổng hợp thông tin .10

1.6. Tổng kết chương .12

Chương 2. Các công trình liên quan.13

2.1. Các phương pháp trích xuất từkhóa cho văn bản .13

2.1.1. Phương pháp tần sốtừ.13

2.1.2. Phương pháp sửdụng các thông tin khác trong văn bản .14

2.1.3. Phương pháp sửdụng học máy .15

2.1.3.1. Trích xuất từkhóa sửdụng phân lớp Naïve Bayes .16

2.1.3.2. Trích xuất từkhóa sửdụng lexical chain (chuỗi từvựng) và phân lớp16

2.2. Các phương pháp trích xuất từkhóa cho trang web .17

2.2.1. Tần sốtừ.17

2.2.2. Kĩthuật khai phá log .17

2.2.3. Kĩthuật áp dụng máy tìm kiếm và độtương đồng từ.18

2.3. Gán từkhóa trong văn bản, web (keyword assignment) .19

2.4 Tổng kết chương .19

Chương 3. Hướng giải quyết và đềxuất mô hình bài toán.20

3.1. Hướng giải quyết .20

3.1.1. Sửdụng độquan trọng của các thẻtrong HTML .20

3.1.2. Sửdụng đồthịweb .23

3.1.2.1. Định nghĩa đồthịWeb .23

3.1.2.2 Nội dung của phương pháp .24

3.1.3. Sửdụng query log .26

3.1.4. Sửdụng từ điển hỗtrợ.27

3.2. Đềxuất mô hình bài toán.27

3.2.1. Mô hình toàn hệthống .27

3.2.2. Mô đun Crawler .28

iii

3.2.3. Mô đun sinh từkhóa .29

3.2.3.1. Mô đun sửdụng trọng sốthẻHTML .30

3.2.3.2. Mô đun sửdụng đồthịweb.32

3.2.3.3. Các phương pháp hỗtrợ.33

3.2.3.4. Mô đun tổng hợp .35

3.3. Tổng kết chương .35

Chương 4. Thực nghiệm và đánh giá.36

4.1. Giới thiệu bài toán thực nghiệm .36

4.2. Môi trường, dữliệu .36

4.1.1. Môi trường phần cứng.36

4.1.2. Mô tảchương trình.36

4.1.3. Công cụphần mềm.37

4.1.4. Dữliệu thửnghiệm .38

4.3. Kết quảthực nghiệm.40

4.4. Đánh giá kết quảthực nghiệm .45

Kết luận .46

Hướng phát triển tiếp theo.47

Tài liệu tham khảo.48

pdf59 trang | Chuyên mục: HTML | Chia sẻ: dkS00TYs | Lượt xem: 1890 | Lượt tải: 0download
Tóm tắt nội dung Khóa luận Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
ết quả trả về của một ví dụ sinh từ khóa cho báo điện tử 
 Từ khóa của Việt báo Từ khóa của chương trình 
Fabio Cannavaro, CLB Juventus, Italy Fabio canavaro-9, juventus-8, fabio canavaro - 4, 
Cannavaro, có thời hạn, bản hợp đồng, trung vệ -4, cầu thủ -3, hợp đồng -3, mùa 
chính thức, trung vệ, trở lại, thời gian, bóng, giải -3, thi đấu -3, hâm mộ -2, real madrid -
năm, thành 2, madrid-2. 
 44 
4.4. Đánh giá kết quả thực nghiệm 
 Đánh giá kết quả của một danh sách các từ khoá là một việc làm rất khó khăn 
trong thời điểm hiện tại. Chủ yếu việc đánh giá vẫn dựa vào ý kiến đánh giá của các 
chuyên gia ngôn ngữ, hay người quản trị website. Những từ khoá phải mang ý nghĩa 
cao, nói lên được nội dung của trang web. Các từ khoá phải là những từ khoá phải nói 
lên được những cái riêng của trang web. 
 Với lượng trang web được sinh từ khóa khá nhiều cả bằng tiếng Việt và tiếng 
Anh, tôi có một số nhận xét như sau. Các trang tiếng Anh thường được tổ chức tốt 
hơn, với ít lỗi HTML. Phương pháp áp dụng độ quan trọng của thẻ HTML có ưu điểm 
hơn các phương pháp khác với các từ khóa sinh ra thỏa mãn các tính chất phổ biến 
cũng như đặc trưng của trang web. Nó tốt đối với cả trang web dạng portal và các 
trang web dạng dữ liệu tập trung. 
 Trong thực nghiệm này, đối với phương pháp dùng đồ thị web, do thời gian có 
hạn nên tôi chỉ giới hạn số từ khóa trả về. Thời gian để chạy cho một trang với phương 
pháp này là khá lâu bởi khi dùng truy vấn tới các máy tìm kiếm(ba máy tìm kiếm: 
google, yahoo, altavista ), các kết quả trả về thường lớn. Hơn thế nữa các kết quả này 
lại trùng nhau về từ khóa nhiều, xảy ra tình trạng tải các trang về lớn nhưng sinh ra từ 
khóa lại ít. Phương pháp này là một đánh giá tốt của người dùng, người viết trên các 
trang web khác khi nghĩ về trang web cần sinh từ khóa. Nếu có thời gian để xét trên 
toàn bộ các trang có liên kết trỏ tới, kết quả của phương pháp sẽ tốt hơn. 
 Đối với log chúng tôi sử dụng, số lượng trang web trong nó chỉ chiếm lượng 
nhỏ của Internet, cho nên đối với một số trang tiếng Anh không xuất hiện trong log, 
hoặc xuất hiện ít làm cho kết quả sinh từ khóa chưa được đa dạng. Phương pháp này 
đã được áp dụng trong các phần mềm sinh từ khóa nổi tiếng như GoogleAdwords [31]. 
Nếu có những log lớn, thì việc phân tích sẽ cho nhiều kết quả thêm, nâng cao sự chính 
xác và nhiều sự lựa chọn từ khóa. 
 45 
 Kết luận 
 Khóa luận đã hệ thống hóa được các vấn đề của bài toán trích xuất từ khóa cho 
trang web bao gồm khảo sát về các từ khóa trong các ứng dụng, cách tiếp cận bài toán 
kèm theo các đánh giá nhận xét. Đặc biệt, khóa luận đã nêu ra một số phương pháp 
mới áp dụng trên dữ liệu web: độ quan trọng của các thẻ trong HTML, đồ thị web. 
Đồng thời, khóa luận cũng đã đề xuất ra một mô hình thực thi bằng việc sử dụng việc 
phân tích trực tiếp trên các trang dựa vào nguồn thông tin sẵn có, chứ không cần phải 
mất thời gian học. Thực nghiệm trên dữ liệu tiếng Anh, và tiếng Việt cho kết quả khá 
khả quan. Các nội dung chính của khóa luận được đề cập tóm lược dưới đây. 
 Khảo sát các ứng dụng của từ khóa trong các dịch vụ quảng cáo trên máy tìm 
kiếm, trong tìm kiếm thông tin, trong hoạt động quảng bá web, phân loại web. Và tôi 
cũng đã trình bày những khó khăn, thách thức của bài toán đối với miền dữ liệu Web, 
đồng thời cũng phân tích những lợi điểm mà web đem lại. 
 Trình bày cơ bản về các phương pháp trích xuất từ khóa trong các văn bản, một 
số phương pháp học máy, sử dụng log đã áp dụng trên dữ liệu web. Tôi cũng đã so 
sánh, kết hợp nhiều phương pháp khác nhau để có thể phân tích và đưa ra phương 
pháp riêng. 
 Khóa luận đưa ra được hướng giải quyết bài toán theo cách tiếp cận không chỉ 
dựa trên nội dung của trang, mà còn xét đến các thông tin khác liên quan đến trang 
web như : đồ thị web, log. Khóa luận cũng trình bày được mô hình thực thi cụ thể cho 
các phương pháp, từ đó có thể dễ dàng mã hóa. 
 Kết quả thực nghiệm, quá trình thực nghiệm được trình bày chi tiết. Nhiều thực 
nghiệm đã được thực hiện nhiều lần để có thể tìm ra được mô hình tốt nhất, và kết quả 
của khóa luận cũng đạt được khả quan, có thể áp dụng trong thực tế. 
 46 
Hướng phát triển tiếp theo 
 Mặc dù kết quả thu được của khóa luận là đáng khích lệ và khá tốt nhưng do 
thời gian có hạn việc ước lượng các trọng số cho các phương pháp có thể chưa được 
tối ưu. Trong thời gian tới, tôi sẽ tiến hành thu thập thêm các dữ liệu và hoàn thiện 
những gì còn thiếu sót của các mô đun đã đề xuất. 
 Cũng trên cơ sở đã đạt được của khóa luận, tôi dự định xây dựng một hệ thống 
hoàn thiện để tích hợp vào các máy tìm kiếm, và các trang báo với độ chính xác cao 
hơn, tiện dụng và thời gian chạy nhanh hơn. 
 Bài toán trích xuất từ khóa cho trang web là bài toán mới và nhiều phần còn 
liên quan đến ngữ nghĩa, xử lý ngôn ngữ tự nhiên. Tôi sẽ cố gắng tìm hiểu thêm các 
lĩnh vực liên quan như tóm tắt văn bản tự động, nâng cao chất lượng tìm kiếm trang 
web với từ khóa.... 
 47 
Tài liệu tham khảo. 
Tiếng Việt 
[1] Phạm Thị Thu Uyên, Hoàng Minh Hiền (2008). Độ tương đồng ngữ nghĩa giữa 
 hai câu và ứng dụng trong tóm tắt văn bản Tiếng Việt, Công trình Sinh viên 
 Nghiên cứu khoa học 03/2008 
[2] Website:  
[3] Website:  
[4] SEO  
Tiếng Anh 
[5] Chengzhi ZHANG , Huilin WANG , Yao LIU , Dan WU , Yi LIAO , Bo WANG. 
 Automatic Keyword Extraction from Documents Using Conditional Random 
 Fields. China. Journal of Computational Information Systems4:3(2008) 1169-
 1180. 
[6] Craven, T. (1998b). TexNet32 - WWW filters. In Texnet32. Retreived from 
[7] Craven, Timothy C. HTML Tags as Extraction Cues for Web Page Description 
 Construction. Informing Science; 2003, Vol. 6, p1-12, 12p 
[8] David B. Bracewell, JiajunYan and Fuji Ren.Single Document Keyword 
 Extraction For Internet News Articles. International Journal of Innovative 
 Computing, Information and Control Volume 4,Number 4,April 2008. 
[9] E. Frank, G. W. Paynter, I. H. Witten, C. Gutwin, and C. G. Nevill-Manning. 
 Domain-specific keyphrase extraction. In IJCAI, pages 668--673, 1999. 
[10] E. Spertus. ParaSite: Mining structural informationon the Web. Proc. 6th WWW 
 Conf., 1997. 
[11] Gonenc Ercan, Ilyas Cicekli. Using Lexical Chains for Keyword Extraction. Inf. 
 Process. Manage., Vol. 43, No. 6. (November 2007), pp. 1705-1714. 
[12] H.Edmundson(1969). New methods in automatic abstracting, Journal of ACM. 
 1969. 
[13] HPLuhn(1958). The automatic creation of literature abstracts. IBM journal of 
 research development. 
[14] J. Carri ere and R. Kazman. WebQuery: Searching and visualizing the Web 
 through connectivity. Proc. 6th WWW Conf., 1997. 
[15] J. Kleinberg. Authoritative sources in a hyperlinked environment. J. of the ACM , 
 1999, to appear. Also appears as IBM Research Report RJ 10076 91892 May 
 1997. 
[16] K. Bartz, V. Murthi, and S. Sebastian. Logistic regression and collaborative 
 filtering for sponsoreed search term recommendation. In Second Workshop on 
 Sponsored Search Auctions, 2006. 
 48 
[17] M. Sahami and T. Heilman. A web-based kernel function for matching short text 
 snippets. In International Conference on Machine Learning, 2005. 
[18] Mori Junichiro, Matsuo Yutaka, Ishizuka Mitsuru, Faltings Boi. Keyword 
 extraction from the Web for Personal Metadata Annotation.Proceedings of the4th 
 International Workshop on Knowledge Markup and Semantic Annotation, 
 (ISWC2004) (2004), pp. 51-60. 
[19] P. D. Turney, Learning Algorithms for Keyphrase Extraction, Information 
 Retrieval, 1999. 
[20] Qiang Yang, Advertising keyword suggestion based on concept hierarchy 
 presented by Qiang Yang, HongKong Univ of Science and Technology. 
[21] S. Brin and L. Page. The anatomy of a large-scale hypertextual Web search 
 engine.Proc. 7th WWW Conf.,1998. 
[22] S. Chakrabarti and B. Dom, and P. Indyk. Enhanced hypertext classication using 
 hyperlinks. Proc. ACM SIGMOD, 1998. 
[23] S. R. Kumar, P. Raghavan, S. Rajagopalan, and A.Tomkins. Trawling emerging 
 cyber-communities automatically. Proc. 8th WWW Conf., 1999. 
[24] Soumen Chakrabarti, Data mining for hypertext : A tutorial survey. Volume 1. 
 ACM- 2000. 
[25] Vibhanshu Abhishek , Kartik Hosanagar, Keyword generation for search engine 
 advertising using semantic similarity between terms, Proceedings of the ninth 
 international conference on Electronic commerce, August 19-22, 2007, 
 Minneapolis, MN, USA. 
[26] Wen-Tau Yih, Joshua Goodman and Vitor Carvalho, Finding Advertising 
 Keywords on Web Pages WWW-06 (The 15th International World Wide Web 
 Conference), June 2006. 
[27] Y. MATSUO,M. Ishizuka.Keyword Extraction from a Single Document using 
 Word Co-occurrence Statistical Information.International Journal on Artificial 
 Intelligence Tools.2003. 
[28] Yasin Uzun. Keyword Extraction Using Naive Bayes. Bilkent University, 
 Department of Computer Science, Turkey. 
[29] Yi-fang Brook Wu , Quanzhi Li , Razvan Stefan Bot , Xin Chen, Domain-specific 
 keyphrase extraction, Proceedings of the 14th ACM international conference on 
 Information and knowledge management, October 31-November 05, 2005, 
 Bremen, Germany. 
[30] Zhu Mengxiao ,Cai Zhi ,Cai Qingsheng.Automatic Keywords Extraction Of 
 Chinese Document Using Small World Structure. Department of Computer 
 Science, University of Science and Technology of China. 
[31] Google Adwords  
[32] Overture  
[33] SEM  
 49 
[34] Tf,IDF  
[35] Web_portal  
[36] Website:  
[37] Website:  
[38] WordNet  
Công cụ và dữ liệu sử dụng 
[39] MSN search engine logs. (supported by DAIS Lab, University of Illinois at 
 Urbarna Champaign). 
[40] Trang web Tiếng Việt: ếng_Việt/ 
[41] Nguyen Cam Tu, “JvnTextPro: A Java-based VietNamese Text Processing 
 Toolkit”. 
[42] Website :  
[43] Website:  
[44] Website:  
[45] Website:  
[46] Website:  
[47] Website:  
[48] Từ điển tiếng Việt được lọc từ các trang của  
 50 

File đính kèm:

  • pdfKhóa luận Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web.pdf
Tài liệu liên quan