Luận văn Đối sánh tự động lược đồ XML

Danh mục từviết tắt, thuật ngữ.

Danh mục bảng biểu .

Danh mục hình vẽ.

Mở đầu .

1. Giới thiệu chung.

2. Nội dung luận văn.

Chương 1 Đối sánh lược đồ.

1.1 Tổng quan về đối sánh lược đồ.

1.1.1 Các khái niệm cơbản về đối sánh lược đồ.

1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ.

1.2 Các tiếp cận đối sánh lược đồ.

1.2.1 Phân loại các tiếp cận đối sánh lược đồ.

1.2.2 Các tiếp cận đối sánh lược đồ.

1.2.3 Các phương pháp đối sánh lược đồ.

1.3 Các hệthống đối sánh lược đồXML.

1.3.1 Cupid (trung tâm nghiên cứu Microsoft).

1.3.2 Similarity Flooding (Đại học Stanford và đại học Leipzig).Error! Bookmark

not defined.

1.3.3 LSD (Đại học Washington).

1.3.4 Clio (IBM Almaden và đại học Toronto).

1.3.5 Một sốhệthống đối sánh lược đồkhác.

1.4 Kết chương.

Chương 2 Các định nghĩa hình thức .

2.1 Vấn đề đối sánh lược đồXML.

2.1.1 Đối sánh ngữnghĩa và đối sánh cú pháp.

2.1.2 Thông tin đầu vào của tiến trình đối sánh.

2.1.3 Thông tin đầu ra của tiến trình đối sánh.

2.1.4 Các định nghĩa hình thức.

2.2 Mô hình hóa lược đồXML.

2.2.1 Các nút đồthịlược đồ.

2.2.2 Các cạnh đồthịlược đồ.

2.2.3 Các ràng buộc đồthịlược đồ.

2.2.4 Các định nghĩa hình thức.

2.3 Ánh xạnguồn–đích.

2.4 Kết chương.

Chương 3 Đối sánh tự động lược đồXML .

3.1 Tổng quan về đối sánh tự động lược đồXML.

3.2 Đo độtương đồng ngôn ngữ.

3.2.1 WordNet và quan hệngữnghĩa giữa các từ.

3.2.2 Thuật toán của Hirst và St-Onge.

3.2.3 Giải pháp của hệthống Cupid.

3.3 Xét tính tương thích kiểu dữliệu lược đồXML và phân tích phân cấp kiểu

người thiết kế.

3.3.1 Xét tính tương thích kiểu dữliệu lược đồXML.

3.3.2 Phân tích phân cấp kiểu người thiết kế.

3.4 Đo độtương đồng cấu trúc.

3.4.1 Định nghĩa ngữcảnh nút.

3.4.2 Đo độtương tự đường dẫn.

3.4.3 Đo độtương đồng ngữcảnh nút.

3.5 Đo độtương đồng nút và tạo ánh xạgiữa các phần tử.Error! Bookmark not

defined.

3.5.1 Đo độtương đồng nút.

3.5.2 Tạo ánh xạgiữa các nút và cạnh đối sánh.

3.6 Đánh giá tiến trình đối sánh lược đồXML.

3.6.1 Các phương pháp đánh giá.

3.6.2 Đánh giá giải pháp.

3.7 Áp dụng đối sánh lược đồtrong bài toán chuyển đổi tài liệu có cấu trúc.Error!

Bookmark not defined.

3.7.1 Tổng quan vềtài liệu có cấu trúc.

3.7.2 Chuyển đổi tự động tài liệu có cấu trúc.

3.7.3 Mô hình cho hệthống chuyển đổi tự động tài liệu XML.Error! Bookmark not

defined.

3.8 Kết chương.

Kết luận và hướng phát triển.

1. Đóng góp chính của luận văn.

2. Hướng phát triển.

Danh mục tài liệu tham khảo .

Phụlục.

Phụlục A: Ngôn ngữ đánh dấu mởrộng - XML.

Phụlục B: Lược đồXML.

Phụlục C: Thuật toán của Hirst và St-Onge.

pdf114 trang | Chuyên mục: XML | Chia sẻ: dkS00TYs | Lượt xem: 2449 | Lượt tải: 1download
Tóm tắt nội dung Luận văn Đối sánh tự động lược đồ XML, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
c là duy nhất hoặc 
là khóa. 
- Sự kết hợp nội dung phần tử và các thuộc tính có thể được khai báo là duy nhất 
hoặc khóa, tức là không chỉ duy nhất mà luôn hiện diện và không rỗng. 
- Lược đồ XML phân biệt giữa duy nhất và khóa. 
- So sánh giữa các trường khóa tham chiếu và các trường khóa hoặc duy nhất là so 
sánh bằng nhau về giá trị mà không phải bằng nhau về xâu. 
Phụ lục 
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin 
100
Phụ lục C: Thuật toán của Hirst và St-Onge 
1. Quan hệ từ 
Kỹ thuật đối sánh thuật ngữ đã đề xuất trong chương 3 sử dụng ba loại quan hệ: quan 
hệ rất mạnh (extra-strong) giữa một từ và sự nhắc lại nguyên thể của nó, quan hệ mạnh 
(strong): gồm một trong ba kịch bản đã giải thích trong mục 3.2.2 của chương 3 và quan 
hệ trung bình (medium), xảy ra khi có một đường dẫn được phép kết nối các synset liên kết 
với mỗi từ. Các định nghĩa của đường dẫn được phép sử dụng một phân loại các quan hệ 
synset WordNet thành các liên kết lên, xuống và ngang. 
Bảng C.1 sau đưa ra các ví dụ về các quan hệ synset WordNet và các hướng tương 
ứng của chúng. Còn hình C.1 sau các ví dụ về đường dẫn được phép cũng như không được 
phép. Dựa trên định nghĩa các đường dẫn được phép và lấy chiều dài lớn nhất của đường 
dẫn được phép bằng 4, ta phân biệt bảy trường hợp như minh họa trong hình C.2. 
Quan hệ Hướng 
Also see Horizontal 
Attribute Horizontal 
Cause Down 
Entailment Down 
Holonymy Down 
Hypernymy Up 
Hyponymy Down 
Meronymy Up 
Pertinence Horizontal 
Similarity Horizontal 
Bảng C.1 Phân loại các quan hệ trong WordNet thành các hướng 
Phụ lục 
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin 
101
Hình C.1 Đường dẫn được phép và không được phép trong thuật toán của Hirst và St-Onge 
Hình C.2: Phân loại các quan hệ ngữ nghĩa trong WordNet 
0 
1 
1 
1 
1
5 
5 5 
5 5 5 
4 4 4 
3 3 3 3 
7 7 7 
2 
6 6 6 
2 
6 6 
2 
2
6 
Các nút trong đồ thị này mô tả các synset của 
các từ (word). Các quan hệ ngữ nghĩa giữa các 
từ được chai thành bốn loại: 
Tương đương (Equivalent): tồn tại một hay 
nhiều liên kết ngang giữa các synset của các từ 
(trường hợp 3). 
Rộng hơn (Broader than): tồn tại một hay 
nhiều liên kết lên giữa hai synset (trường hợp 
1) hoặc các liên kết lên theo sau là các liên kết 
ngang (trường hợp 5). 
Liên quan tới (Related-to): tồn tại một liên 
kết lên theo sau là một liên kết xuống và có thể 
là các liên kết ngang (hai từ có một từ bao 
(hypernym) chung) (trường hợp 4). 
Hẹp hơn (Narrower than): tồn tại một (hoặc 
nhiều) liên kết xuống giữa hai synset (trường 
hợp 2) hoặc một liên kết xuống theo sau bởi 
các liên kết ngang (trường hợp 6 và 7). 
Phụ lục 
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin 
102
2. Thuật toán đối sánh thuật ngữ 
// Quan hệ rất mạnh 
if (word1=word2) return 24; 
else 
// Quan hệ mạnh 
S1=synsetsOf(word1); 
S2=synsetsOf(word2); 
foreach s1 in S1 
H1=horizontalSynsets(word1); 
U1=UpwardSynsets(word1); 
D1=DownwardSynsets(word1); 
foreach s2 in S2 
H2=horizontalSynsets(word2); 
U2=UpwardSynsets(word2); 
D2=DownwardSynsets(word2); 
if s1=s2 then return 16; 
if (s1 is In(H2) or s2 is In(H1)) return 16; 
if (s1 is In(U2) or s1 is In(D2)) return 16; 
if (s2 is In(U1) or s2 is In(D1)) return 16; 
endif 
// Quan hệ trung bình 
listOfWeight=medStrong(0,0,0,s1,S2); 
return (max(listOfWeight)); 
MedStrong (state, distance, chdir, from, To) 
if ((from is In(To) and (distance > 1)) 
// tìm thấy đường dẫn 
listOfWeigth.add(8-distance-chdir); 
return true; 
endif 
if (distance >= 5) 
// đường dẫn quá dài 
return false; 
endif 
if (state = 0) 
H=horizontalSynsets(from); 
U=UpwardSynsets(from); 
D=DownwardSynsets(from); 
retU=retD=retH=false; 
foreach u in U 
retU=retU or medStrong(1,distance+1,0,h, To); 
// thử đi lên (state =1) 
foreach d in D 
retD=retD or medStrong(2,distance+1,0,d, To); 
// thử đi xuống (state =2) 
foreach h in H 
retH=retH or medStrong(3,distance+1,0,d, To); 
// thử đi ngang (state =3) 
return (retU or retD or retH); 
endif 
if (state = 1) 
// thay đổi hướng đầu tiên là lên, sau đó có thể chuyển sang lên hoặc ngang 
H=horizontalSynsets(from); 
U=UpwardSynsets(from); 
D=DownwardSynsets(from); 
retU=retD=retH=false; 
foreach u in U 
retU=retU or medStrong(1,distance+1,0,h, To); 
// thử đi lên (state =1) 
foreach d in D 
retD=retD or medStrong(4,distance+1,1,d, To); 
// thử đi xuống (state =4) 
foreach h in H 
retH=retH or medStrong(5,distance+1,1,d, To); 
// thử đi ngang (state =5) 
return (retU or retD or retH); 
endif 
Phụ lục 
Võ Sỹ Nam. Luận văn cao học – chuyên ngành công nghệ thông tin 
103
if (state = 2) // đi xuống 
H=horizontalSynsets(from); 
D=DownwardSynsets(from); 
retD=retH=false; 
foreach d in D 
retD=retD or medStrong(2,distance+1,0,d, To); 
// thử đi xuống (state =2) 
foreach h in H 
retH=retH or medStrong(6,distance+1,0,d, To); 
// thử đi ngang (state =6) 
return (retD or retH); 
endif 
if (state = 3) // đi ngang 
H=horizontalSynsets(from); 
D=DownwardSynsets(from); 
retD=retH=false; 
foreach d in D 
retD=retD or medStrong(7,distance+1,0,d, To); 
// thử đi xuống (state =7) 
foreach h in H 
retH=retH or medStrong(3,distance+1,0,d, To); 
// thử đi ngang (state =3) 
return (retD or retH); 
endif 
if (state = 4) // đi lên hoặc xuống 
D=horizontalSynsets(from); 
retD=false; 
foreach d in D 
retD=retD or medStrong(4,distance+1,0,d, To); 
// thử đi ngang (state =4) 
return (retD); 
endif 
if (state = 5) // đi lên hoặc ngang 
H=horizontalSynsets(from); 
D=DownwardSynsets(from); 
retD=retH=false; 
foreach d in D 
retD=retD or medStrong(4,distance+1,2,d, To); 
// thử đi xuống (state =4) 
foreach h in H 
retH=retH or medStrong(5,distance+1,1,d, To); 
// thử đi ngang (state =5) 
return (retD or retH); 
endif 
if (state = 6) // đi xuống và ngang 
H=horizontalSynsets(from); 
retH=false; 
foreach h in H 
retH=retH or medStrong(6,distance+1,1,d, To); 
// thử đi ngang (state =6) 
return (retH); 
endif 
if (state = 7) // đi ngang và xuống 
D=horizontalSynsets(from); 
retD=false; 
foreach d in D 
retD=retD or medStrong(7,distance+1,1,d, To); 
// thử đi ngang (state =7) 
return (retD); 
endif 
 Danh mục tài liệu tham khảo 
[1] S. Amer-Yahia, S. Cho, D. Srivastava. Tree Pattern Relaxation, EDBT, 2002. 
[2] A. Budanitsky, G. Hirst. Semantic distance in WordNet: An experimental, 
application oriented evaluation of five measures, 2003. 
[3] D. Carmel, N. Efraty, G.M. Landau, Y.S. Maarek, Y. Mass. An Extension of 
the vector space model for querying XML documents via XML fragments. 
Second Edition of the XML and IR Workshop, In SIGIR Forum, Volume 36 
Number 2, Fall 2002. 
[4] G. Cobena, S. Abiteboul, A. Marian. Detecting changes in XML Documents. In 
ICDE, 2002. 
[5] H.H. Do, S. Melnik, E. Rahm. Comparison of schema matching evaluations. In 
Proceedings of the second International Workshop on Web Databases, 2002. 
[6] A.H. Doan. Learning to map between structured representations of data. PhD 
thesis, University of Washington, 2002. 
[7] Lexical chains as representations of context for the detection and correction of 
malapropisms. In: Christiane Fellbaum (editor), WordNet: An electronic 
lexical database, Cambridge, MA: The MIT Press, 1998. 
[8] ISO, Information Processing- Text and Office systems- Standard 
Generalization Markup Language (SGML), (ISO 8879:1986), International 
Organisation for Standardisation, Geneva, 1986. 
[9] P. Leinonen. Automating XML Document Structure Transformations. In 
Proceedings of the ACM Symposium on Document Engineering, France, 
2003. 
[10] G. Linden. Structured document transformations. Report A-1997-2. CS 
Department of University of Helsinki, Finland, 1997. 
[11] J. Madhavan, P.A. Bernstein, E. Rahm. Generic schema matching with Cupid. 
In Proceedings of the International Conference on Very Large Databases 
(VLDB), 2001. 
[12] S. Melnik, H. Garcia-Molina, E. Rahm. Similarity Flooding: A versatile Graph 
Matching Algorithm and its Application to Schema Matching. In Proceedings 
of the 18th International Conference on Data Engineering, 2002. 
[13] R. Miller. The Clio Project: managing heterogeneity. ACM SIGMOD Record 
30(1): 78-83, 2001. 
[14] A. G. Miller (1995). WordNet: A lexical Database for English. ACM 38 (11), 
pages 39-41, 1995. 
[15] Mong Li Lee, Liang Huai Yang, Wynne Hsu, Xia Yang. XClust: Clustering 
XML Schemas for Effective Integration, in 11th ACM International Conference 
on Information and Knowledge Management, McLean, Virginia, November 
2002. 
[16] E. Pietriga, J-Y. Vion-Dury, V. Quint. Vxt: a visual approach to XML 
transformations. In Proceedings of the ACM Symposium on Document 
Engineering, 2001. 
[17] E. Rahm and P.A. Bernstein. A survey of approaches to automatic schema 
matching. In VLDB Journal, pages 10: 334-350, 2001. 
[18] N. Routledge, L. Bird, A. Goodchild. UML and XML Schema, ADC, 2002. 
[19] D. Shasha, J. Wang, K. Zhang, and F. Shih. Fast algorithms for the unit cost 
editing distance between trees. In Journal of Algorithms, pages 581-621, 1990. 
[20] L. Xu. Source Discovery and Schema Mapping for Data Integration, PhD 
thesis, 2003. 
[21] L. Zamboulis. XML Schema Matching & XML Data Migration & Integration: 
A Step Towards The Semantic Web Vision. Technical Report, 2003. 
[22] A. Boukottaya. Schema Matching for Transforming Structured Documents. In 
DocEng'05, 2-4, 2005. 
[23] A. Vernet. XML transformation languages. Có thể xem tại: 
[24] XML Schema, W3C Recommendation, 2004. Có thể xem tại: 
[25] XML Schema Part 0: Primer, W3C Recommendation, 2004. Có thể xem tại: 
[26] XML Schema Part 1: Structures, W3C Recommendation, 2004. Có thể xem tại: 
[27] XML Schema Part 2: Datatypes, W3C Recommendation 2004. Có thể xem tại: 
[28] XSL Transformations (XSLT), W3C Recommendation, 2004. Có thể xem tại: 

File đính kèm:

  • pdfLuận văn Đối sánh tự động lược đồ XML.pdf
Tài liệu liên quan