Khóa luận Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web

MỤC LỤC

TÓM TẮT NỘI DUNG. i

MỤC LỤC . ii

Bảng các kí hiệu và chữviết tắt. iv

Danh mục hình vẽ.v

Danh mục các bảng biểu. vi

MỞ ĐẦU .1

Chương 1. Giới thiệu bài toán trích xuất từkhoá cho trang web.3

1.1. Đặt vấn đề.3

1.2. Khái niệm và các đặc trưng của từkhóa.4

1.3. Đánh giá các từkhóa.5

1.4. Thách thức của bài toán sinh từkhóa cho trang web.5

1.4.1. Đối với các trang có nội dung tập trung.6

1.4.2. Đối với các trang có nội dung tổng hợp.6

1.4.3. Các vấn đềkhác .6

1.5. Ứng dụng của từkhóa trong các lĩnh vực.7

1.5.1. Vai trò từkhóa trong máy tìm kiếm.7

1.5.1.1. Quảng cáo trên máy tìm kiếm .7

1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm .9

1.5.3. Vai trò từkhóa trong các trang web tổng hợp thông tin .10

1.6. Tổng kết chương .12

Chương 2. Các công trình liên quan.13

2.1. Các phương pháp trích xuất từkhóa cho văn bản .13

2.1.1. Phương pháp tần sốtừ.13

2.1.2. Phương pháp sửdụng các thông tin khác trong văn bản .14

2.1.3. Phương pháp sửdụng học máy .15

2.1.3.1. Trích xuất từkhóa sửdụng phân lớp Naïve Bayes .16

2.1.3.2. Trích xuất từkhóa sửdụng lexical chain (chuỗi từvựng) và phân lớp16

2.2. Các phương pháp trích xuất từkhóa cho trang web .17

2.2.1. Tần sốtừ.17

2.2.2. Kĩthuật khai phá log .17

2.2.3. Kĩthuật áp dụng máy tìm kiếm và độtương đồng từ.18

2.3. Gán từkhóa trong văn bản, web (keyword assignment) .19

2.4 Tổng kết chương .19

Chương 3. Hướng giải quyết và đềxuất mô hình bài toán.20

3.1. Hướng giải quyết .20

3.1.1. Sửdụng độquan trọng của các thẻtrong HTML .20

3.1.2. Sửdụng đồthịweb .23

3.1.2.1. Định nghĩa đồthịWeb .23

3.1.2.2 Nội dung của phương pháp .24

3.1.3. Sửdụng query log .26

3.1.4. Sửdụng từ điển hỗtrợ.27

3.2. Đềxuất mô hình bài toán.27

3.2.1. Mô hình toàn hệthống .27

3.2.2. Mô đun Crawler .28

iii

3.2.3. Mô đun sinh từkhóa .29

3.2.3.1. Mô đun sửdụng trọng sốthẻHTML .30

3.2.3.2. Mô đun sửdụng đồthịweb.32

3.2.3.3. Các phương pháp hỗtrợ.33

3.2.3.4. Mô đun tổng hợp .35

3.3. Tổng kết chương .35

Chương 4. Thực nghiệm và đánh giá.36

4.1. Giới thiệu bài toán thực nghiệm .36

4.2. Môi trường, dữliệu .36

4.1.1. Môi trường phần cứng.36

4.1.2. Mô tảchương trình.36

4.1.3. Công cụphần mềm.37

4.1.4. Dữliệu thửnghiệm .38

4.3. Kết quảthực nghiệm.40

4.4. Đánh giá kết quảthực nghiệm .45

Kết luận .46

Hướng phát triển tiếp theo.47

Tài liệu tham khảo.48

59 trang | Chuyên mục: HTML | Chia sẻ: dkS00TYs | Lượt xem: 1890 | Lượt tải: 0

Tóm tắt nội dung Khóa luận Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên

ết quả trả về của một ví dụ sinh từ khóa cho báo điện tử
Từ khóa của Việt báo Từ khóa của chương trình
Fabio Cannavaro, CLB Juventus, Italy Fabio canavaro-9, juventus-8, fabio canavaro - 4,
Cannavaro, có thời hạn, bản hợp đồng, trung vệ -4, cầu thủ -3, hợp đồng -3, mùa
chính thức, trung vệ, trở lại, thời gian, bóng, giải -3, thi đấu -3, hâm mộ -2, real madrid -
năm, thành 2, madrid-2.
44
4.4. Đánh giá kết quả thực nghiệm
Đánh giá kết quả của một danh sách các từ khoá là một việc làm rất khó khăn
trong thời điểm hiện tại. Chủ yếu việc đánh giá vẫn dựa vào ý kiến đánh giá của các
chuyên gia ngôn ngữ, hay người quản trị website. Những từ khoá phải mang ý nghĩa
cao, nói lên được nội dung của trang web. Các từ khoá phải là những từ khoá phải nói
lên được những cái riêng của trang web.
Với lượng trang web được sinh từ khóa khá nhiều cả bằng tiếng Việt và tiếng
Anh, tôi có một số nhận xét như sau. Các trang tiếng Anh thường được tổ chức tốt
hơn, với ít lỗi HTML. Phương pháp áp dụng độ quan trọng của thẻ HTML có ưu điểm
hơn các phương pháp khác với các từ khóa sinh ra thỏa mãn các tính chất phổ biến
cũng như đặc trưng của trang web. Nó tốt đối với cả trang web dạng portal và các
trang web dạng dữ liệu tập trung.
Trong thực nghiệm này, đối với phương pháp dùng đồ thị web, do thời gian có
hạn nên tôi chỉ giới hạn số từ khóa trả về. Thời gian để chạy cho một trang với phương
pháp này là khá lâu bởi khi dùng truy vấn tới các máy tìm kiếm(ba máy tìm kiếm:
google, yahoo, altavista ), các kết quả trả về thường lớn. Hơn thế nữa các kết quả này
lại trùng nhau về từ khóa nhiều, xảy ra tình trạng tải các trang về lớn nhưng sinh ra từ
khóa lại ít. Phương pháp này là một đánh giá tốt của người dùng, người viết trên các
trang web khác khi nghĩ về trang web cần sinh từ khóa. Nếu có thời gian để xét trên
toàn bộ các trang có liên kết trỏ tới, kết quả của phương pháp sẽ tốt hơn.
Đối với log chúng tôi sử dụng, số lượng trang web trong nó chỉ chiếm lượng
nhỏ của Internet, cho nên đối với một số trang tiếng Anh không xuất hiện trong log,
hoặc xuất hiện ít làm cho kết quả sinh từ khóa chưa được đa dạng. Phương pháp này
đã được áp dụng trong các phần mềm sinh từ khóa nổi tiếng như GoogleAdwords [31].
Nếu có những log lớn, thì việc phân tích sẽ cho nhiều kết quả thêm, nâng cao sự chính
xác và nhiều sự lựa chọn từ khóa.
45
Kết luận
Khóa luận đã hệ thống hóa được các vấn đề của bài toán trích xuất từ khóa cho
trang web bao gồm khảo sát về các từ khóa trong các ứng dụng, cách tiếp cận bài toán
kèm theo các đánh giá nhận xét. Đặc biệt, khóa luận đã nêu ra một số phương pháp
mới áp dụng trên dữ liệu web: độ quan trọng của các thẻ trong HTML, đồ thị web.
Đồng thời, khóa luận cũng đã đề xuất ra một mô hình thực thi bằng việc sử dụng việc
phân tích trực tiếp trên các trang dựa vào nguồn thông tin sẵn có, chứ không cần phải
mất thời gian học. Thực nghiệm trên dữ liệu tiếng Anh, và tiếng Việt cho kết quả khá
khả quan. Các nội dung chính của khóa luận được đề cập tóm lược dưới đây.
Khảo sát các ứng dụng của từ khóa trong các dịch vụ quảng cáo trên máy tìm
kiếm, trong tìm kiếm thông tin, trong hoạt động quảng bá web, phân loại web. Và tôi
cũng đã trình bày những khó khăn, thách thức của bài toán đối với miền dữ liệu Web,
đồng thời cũng phân tích những lợi điểm mà web đem lại.
Trình bày cơ bản về các phương pháp trích xuất từ khóa trong các văn bản, một
số phương pháp học máy, sử dụng log đã áp dụng trên dữ liệu web. Tôi cũng đã so
sánh, kết hợp nhiều phương pháp khác nhau để có thể phân tích và đưa ra phương
pháp riêng.
Khóa luận đưa ra được hướng giải quyết bài toán theo cách tiếp cận không chỉ
dựa trên nội dung của trang, mà còn xét đến các thông tin khác liên quan đến trang
web như : đồ thị web, log. Khóa luận cũng trình bày được mô hình thực thi cụ thể cho
các phương pháp, từ đó có thể dễ dàng mã hóa.
Kết quả thực nghiệm, quá trình thực nghiệm được trình bày chi tiết. Nhiều thực
nghiệm đã được thực hiện nhiều lần để có thể tìm ra được mô hình tốt nhất, và kết quả
của khóa luận cũng đạt được khả quan, có thể áp dụng trong thực tế.
46
Hướng phát triển tiếp theo
Mặc dù kết quả thu được của khóa luận là đáng khích lệ và khá tốt nhưng do
thời gian có hạn việc ước lượng các trọng số cho các phương pháp có thể chưa được
tối ưu. Trong thời gian tới, tôi sẽ tiến hành thu thập thêm các dữ liệu và hoàn thiện
những gì còn thiếu sót của các mô đun đã đề xuất.
Cũng trên cơ sở đã đạt được của khóa luận, tôi dự định xây dựng một hệ thống
hoàn thiện để tích hợp vào các máy tìm kiếm, và các trang báo với độ chính xác cao
hơn, tiện dụng và thời gian chạy nhanh hơn.
Bài toán trích xuất từ khóa cho trang web là bài toán mới và nhiều phần còn
liên quan đến ngữ nghĩa, xử lý ngôn ngữ tự nhiên. Tôi sẽ cố gắng tìm hiểu thêm các
lĩnh vực liên quan như tóm tắt văn bản tự động, nâng cao chất lượng tìm kiếm trang
web với từ khóa....
47
Tài liệu tham khảo.
Tiếng Việt
[1] Phạm Thị Thu Uyên, Hoàng Minh Hiền (2008). Độ tương đồng ngữ nghĩa giữa
hai câu và ứng dụng trong tóm tắt văn bản Tiếng Việt, Công trình Sinh viên
Nghiên cứu khoa học 03/2008
[2] Website:
[3] Website:
[4] SEO
Tiếng Anh
[5] Chengzhi ZHANG , Huilin WANG , Yao LIU , Dan WU , Yi LIAO , Bo WANG.
Automatic Keyword Extraction from Documents Using Conditional Random
Fields. China. Journal of Computational Information Systems4:3(2008) 1169-
1180.
[6] Craven, T. (1998b). TexNet32 - WWW filters. In Texnet32. Retreived from
[7] Craven, Timothy C. HTML Tags as Extraction Cues for Web Page Description
Construction. Informing Science; 2003, Vol. 6, p1-12, 12p
[8] David B. Bracewell, JiajunYan and Fuji Ren.Single Document Keyword
Extraction For Internet News Articles. International Journal of Innovative
Computing, Information and Control Volume 4,Number 4,April 2008.
[9] E. Frank, G. W. Paynter, I. H. Witten, C. Gutwin, and C. G. Nevill-Manning.
Domain-specific keyphrase extraction. In IJCAI, pages 668--673, 1999.
[10] E. Spertus. ParaSite: Mining structural informationon the Web. Proc. 6th WWW
Conf., 1997.
[11] Gonenc Ercan, Ilyas Cicekli. Using Lexical Chains for Keyword Extraction. Inf.
Process. Manage., Vol. 43, No. 6. (November 2007), pp. 1705-1714.
[12] H.Edmundson(1969). New methods in automatic abstracting, Journal of ACM.
1969.
[13] HPLuhn(1958). The automatic creation of literature abstracts. IBM journal of
research development.
[14] J. Carri ere and R. Kazman. WebQuery: Searching and visualizing the Web
through connectivity. Proc. 6th WWW Conf., 1997.
[15] J. Kleinberg. Authoritative sources in a hyperlinked environment. J. of the ACM ,
1999, to appear. Also appears as IBM Research Report RJ 10076 91892 May
1997.
[16] K. Bartz, V. Murthi, and S. Sebastian. Logistic regression and collaborative
filtering for sponsoreed search term recommendation. In Second Workshop on
Sponsored Search Auctions, 2006.
48
[17] M. Sahami and T. Heilman. A web-based kernel function for matching short text
snippets. In International Conference on Machine Learning, 2005.
[18] Mori Junichiro, Matsuo Yutaka, Ishizuka Mitsuru, Faltings Boi. Keyword
extraction from the Web for Personal Metadata Annotation.Proceedings of the4th
International Workshop on Knowledge Markup and Semantic Annotation,
(ISWC2004) (2004), pp. 51-60.
[19] P. D. Turney, Learning Algorithms for Keyphrase Extraction, Information
Retrieval, 1999.
[20] Qiang Yang, Advertising keyword suggestion based on concept hierarchy
presented by Qiang Yang, HongKong Univ of Science and Technology.
[21] S. Brin and L. Page. The anatomy of a large-scale hypertextual Web search
engine.Proc. 7th WWW Conf.,1998.
[22] S. Chakrabarti and B. Dom, and P. Indyk. Enhanced hypertext classication using
hyperlinks. Proc. ACM SIGMOD, 1998.
[23] S. R. Kumar, P. Raghavan, S. Rajagopalan, and A.Tomkins. Trawling emerging
cyber-communities automatically. Proc. 8th WWW Conf., 1999.
[24] Soumen Chakrabarti, Data mining for hypertext : A tutorial survey. Volume 1.
ACM- 2000.
[25] Vibhanshu Abhishek , Kartik Hosanagar, Keyword generation for search engine
advertising using semantic similarity between terms, Proceedings of the ninth
international conference on Electronic commerce, August 19-22, 2007,
Minneapolis, MN, USA.
[26] Wen-Tau Yih, Joshua Goodman and Vitor Carvalho, Finding Advertising
Keywords on Web Pages WWW-06 (The 15th International World Wide Web
Conference), June 2006.
[27] Y. MATSUO,M. Ishizuka.Keyword Extraction from a Single Document using
Word Co-occurrence Statistical Information.International Journal on Artificial
Intelligence Tools.2003.
[28] Yasin Uzun. Keyword Extraction Using Naive Bayes. Bilkent University,
Department of Computer Science, Turkey.
[29] Yi-fang Brook Wu , Quanzhi Li , Razvan Stefan Bot , Xin Chen, Domain-specific
keyphrase extraction, Proceedings of the 14th ACM international conference on
Information and knowledge management, October 31-November 05, 2005,
Bremen, Germany.
[30] Zhu Mengxiao ,Cai Zhi ,Cai Qingsheng.Automatic Keywords Extraction Of
Chinese Document Using Small World Structure. Department of Computer
Science, University of Science and Technology of China.
[31] Google Adwords
[32] Overture
[33] SEM
49
[34] Tf,IDF
[35] Web_portal
[36] Website:
[37] Website:
[38] WordNet
Công cụ và dữ liệu sử dụng
[39] MSN search engine logs. (supported by DAIS Lab, University of Illinois at
Urbarna Champaign).
[40] Trang web Tiếng Việt: ếng_Việt/
[41] Nguyen Cam Tu, “JvnTextPro: A Java-based VietNamese Text Processing
Toolkit”.
[42] Website :
[43] Website:
[44] Website:
[45] Website:
[46] Website:
[47] Website:
[48] Từ điển tiếng Việt được lọc từ các trang của
50

File đính kèm:

Khóa luận Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web.pdf