Luận văn Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ quản trị CSDL Oracle

MỤC LỤC

MỤC LỤC . 1

LỜI CẢM ƠN . 3

LỜI NÓI ĐẦU . 4

Chƣơng 1 PHÂN CỤM DỮ LIỆU . 6

1.1 Kỹ thuật phân cụm dữ liệu. . 6

1.2 Các ứng dụng của phân cụm dữ liệu. 6

1.3 Các kiểu dữ liệu và độ đo tƣơng tự . 7

1.3.1 Phân loại các kiểu dữ liệu dựa trên kích thƣớc miền . 7

1.3.2 Phân loại các kiểu dữ liệu dựa trên hệ đo. 7

1.4 Một số kỹ thuật tiếp cận trong phân cụm dữ liệu . 8

1.4.1 Phân cụm phân hoạch . 8

1.4.2 Phân cụm dữ liệu phân cấp. 8

1.4.3 Phân cụm dữ liệu dựa trên mật độ . 9

1.4.4 Phân cụm dữ liệu dựa trên lƣới . 9

1.4.5 Phân cụm dữ liệu dựa trên mô hình . 10

1.4.6 Phân cụm dữ liệu có ràng buộc . 10

1.5 Các yêu cầu cho kỹ thuật PCDL . 10

1.6 Giới thiệu thuật toán phân cụm dữ liệu điển hình. . 11

1.7 Bài toán phân cụm dữ liệu . 13

Chƣơng 2 HỆ QUẢN TRỊ CSDL ORACLE . 14

2.1 Giới thiệu Oracle . 14

2.2 Cấu trúc cơ sở dữ liệu (CSDL): . 15

2.3 Sử dụng phân cụm (CLUSTERING ) trong Oracle . 16

2.4 Phân loại tài liệu văn bản trong Oracle . 21

Chƣơng 3 MÔ HÌNH USE CASE . 24

3.1 Giới thiệu Use Case trong phân tích thiết kế hƣớng đối tƣợng . 24

3.2 Mô hình hóa Use Case . 24

3.3 Biểu đồ Use Case . 27

3.4 Quan hệ giữa các Use Case . 27

3.4.1 Miêu tả Use Case . 27

3.4.2 Thử nghiệm Use Case . 30

Chƣơng 4 CHƢƠNG TRÌNH ỨNG DỤNG . 31

4.1 Bài toán quản lý văn bản đến và văn bản đi . 31

4.2 Mô hình usecase trong hệ thống quản lý văn bản đến và đi . 31

4.2.1 Quy trình tạo, gửi đi . 31

4.2.2 Quy trình nhận, đến . 33

4.2.3 Quản trị viên hệ thống: . 34

4.3 Đặc Tả User Case . 34

4.4 CSDL đƣợc tạo trong Oracle . 39

4.5 Bảng MSTB_CÔNG VĂN . 39

4.6 Bảng MSTB_CLUSTERS . 40

4.7 Bảng MSTB_CLUSTER_RESULT . 40

4.8 View tất cả nhân viên . 41

4.9 View nhân viên . 42

4.10 Sequences . 42

4.11 Trong Packages chứa các Procedures p()prtb_vanban,p()prtb_cluster. . 43

Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle

2

4.12 Giới thiệu chƣơng trình ứng dụng . 43

4.12.1 Trang Đăng nhập . 43

4.12.2 Trang chủ . 44

4.12.3 Trang Soạn văn bản . 44

4.12.4 Trang Danh sách nhân viên . 45

4.12.5 Trang tạo mới nhân viên . 45

4.12.6 Trang danh sách phòng ban . 46

4.12.7 Trang danh sach văn bản đến . 46

4.12.8 Trang tạo mới phong ban . 47

4.12.9 Trang thông tin cá nhân . 47

4.12.10 Trang tra cứu theo nội dung . 48

4.12.11 Trang tra cứu theo phân cụm và kết quả chạy trƣơng trình . 48

4.13 Chƣơng trình đƣợc thiết kế bởi Microsoft Visual Studio 2005 . 48

4.14 Kết quả thực hiện chƣơng trình . 49

KẾT LUẬN . 50

Chƣơng 5 TÀI LIỆU THAM KHẢO . 51

pdf52 trang | Chuyên mục: Oracle | Chia sẻ: dkS00TYs | Lượt xem: 2147 | Lượt tải: 1download
Tóm tắt nội dung Luận văn Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ quản trị CSDL Oracle, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
n đi, 
nhận văn bản đến. 
- Admin: Ngƣời quản lý chƣơng trình, tạo mới, sửa, xóa nhân viên, 
kiểm soát viên ( trƣởng phòng, phó phòng ), các phòng ban. 
1. Use Case Model: 
 Mô hình Use Case: Nhƣ trên. 
 Tra Cứu văn bản : 
- Tóm tắc: Use Case này mô tả cách mà một ngƣời tra cứu văn bản 
thông qua hệ thống này. 
- Dòng sự kiện: 
+ Dòng sự kiện chính: Use case này bắt đầu khi một ngƣời muốn 
tra cứu một văn bản. 
1. Tìm kiếm theo chủ đề. Hệ thống yêu cầu chọn kiểu tra cứu (có 
thể tra cứu theo tên, loại,ngày, thuộc bộ phận nào...,theo mã 
số.Khi các thông tin đã đƣợc nhập đầy đủ hệ thống sẽ thực 
hiện và cho kết quả. 
2. Tìm kiếm theo phân cụm: Ta cần nhập số cụm, mỗi cụm sẽ 
cho ta biết thông tin về một chủ đề nào đó, từ đó ta rút ra đƣợc 
những thông tin hữu ích hỗ trợ cho việc ra quyết định. 
+ Dòng sự kiện khác: Không tìm thấy thông tin nhƣ yêu cầu thì 
thông báo không tìm thấy. 
- Các Yêu Cầu đặt biệt: Cần phải nhập số cụm, theo cảm tính hoặc 
kinh nghiệm. 
- Điều kiện tiên quyết: Trƣớc tiên nhân viên phải chọn kiểu tra cứu 
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 
36 
và nhập số cụm. 
- Post-Conditions: Nếu Use Case thàng công thì sẽ cho kết quả tìm 
đƣợc,hoặc không thành công thì thông báo lổi. 
- Điểm mở rộng: Không có. 
 Tạo văn bản đi : 
- Tóm tắc: Use case mô tả những hoạt động tạo văn bản nhƣ tạo, 
sửa, xóa, thêm mới.. 
- Dòng sự kiện: 
+ Dòng sự kiện chính:Use Case này sẽ đƣợc bắt đầu khi ngƣời 
soạn công văn tạo công văn. 
1. Ngƣời soạn nhập các thông tin văn bản cần thiết 
2. Gửi thông tin đến Server. 
+ Dòng sự kiện khác: Thông tin gửi đi bị lổi,hệ thống sẽ thông 
báo cho khách hàng để khách hàng thực hiện lại thao tác. 
- Post-Conditions: Nếu Use Case thành công,công văn sẽ đƣợc 
thêm vào hệ thống,ngƣợc lại hệ thống không thay đổi. 
- Điểm mở rộng: Không có. 
 Xử lý văn bản đi: 
- Tóm tắc: Use Case mô tả những xử lý văn bản đi nhƣ kiểm tra nội 
dung, hình thức, ký... 
- Dòng sự kiện: 
+ Dòng sự kiện chính: Use Case sẽ đƣợc bắt đầu khi thông tin từ 
ngƣời tạo văn bản chuyển đến 
1. Kiểm soát viên checker nội dung và hình thức có đúng quy 
cách ko ? 
2. Đồng ý chuyển tới phê duyệt, ký và gửi đi. 
+ Dòng sự kiện khác: Không đồng ý yêu cầu chỉnh sửa lại 
- Các Yêu Cầu đặt biệt: Không có. 
- Điều kiện tiên quyết: Có công văn tạo chuyển đến,chờ ký 
- Post-Conditions: Nếu Use Case thành công, văn bản sẽ đƣợc 
chuyển tới phê duyệt. 
- Điểm mở rộng: Không có. 
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 
37 
 Phê duyệt: 
- Tóm tắc: Use Case mô tả cách thức văn bản đi đƣợc lãnh đạo phê 
duyệt. 
- Dòng sự kiện: 
+ Dòng sự kiện chính: Use Case sẽ bắt đầu khi văn bản đã đƣợc 
kiểm tra tới 
1. lãnh đạo xem và phê duyệt gửi đi 
2. Lƣu trữ 
+ Dòng sự kiện khác: Không đồng ý yêu cầu làm lại. 
- Các Yêu Cầu đặt biệt: Không có. 
- Điều kiện tiên quyết: Phải có sự checker cua kiểm sát viên Post-
Conditions: Use Case thành công,công văn đƣợc gửi đi và ký, lƣu 
trữ 
 Lƣu văn bản đến : 
- Tóm tắc: Use case mô tả những hoạt động lƣu văn bản đến. 
- Dòng sự kiện: 
+ Dòng sự kiện chính:Use Case này sẽ đƣợc bắt đầu khi văn bản 
đƣợc gửi đến. 
1.Hệ thống lƣu các văn bản theo từng mức độ nhƣ công văn 
khẩn, công văn nội bộ.. 
2.Gửi thông tin đến bộ phận xử lý. 
- Post-Conditions: Nếu Use Case thành văn bản đến sẽ đƣợc lƣu 
vào hệ thống,ngƣợc lại hệ thống không thay đổi. 
- Điểm mở rộng: Không có. 
 Xử lý văn bản đến: 
- Tóm tắc: Use Case mô tả những xử lý văn bản đến nhƣ kiểm tra 
nội dung, hình thức.. 
- Dòng sự kiện: 
+ Dòng sự kiện chính: Use Case sẽ đƣợc bắt đầu khi văn bản 
chuyển đến 
1.Kiểm soát viên checker 
2.Đồng ý chuyển tới phê duyệt ( đã xem ) chờ chỉ đạo triển khai 
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 
38 
- Điều kiện tiên quyết: Có văn bản lƣu 
- Post-Conditions: Nếu Use Case thành công, văn bản sẽ đƣợc 
duyệt và trả lời. 
- Điểm mở rộng: Không có. 
 Phê duyệt: 
- Tóm tắc: Use Case mô tả cách thức văn bản đến đƣợc lãnh đạo 
phê duyệt. 
- Dòng sự kiện: 
+ Dòng sự kiện chính: Use Case sẽ bắt đầu khi văn bản tới 
1.lãnh đạo xem và phê duyệt 
2. Lƣu trữ 
+ Dòng sự kiện khác: Không. 
- Các Yêu Cầu đặt biệt: Không có. 
- Điều kiện tiên quyết: Phải có sự checker cua kiểm sát viên Post-
Conditions: Use Case thành công,công văn đƣợc xem và lƣu trữ, 
trả lời 
- Điểm mở rộng: Không có. 
 Đăng Nhập: 
- Tóm tắc: Use Case mô tả cách nhân viên đăng nhập vào hệ thống. 
- Dòng sự kiện: 
+ Dòng sự kiện chính: Use Case sẽ bắt đầu khi nhân viên đăng 
nhập. 
1. Hệ thống yêu cầu nhân viên nhập Tên và Mật khẩu. 
2. Nhân viên nhập Tên và Mật khẩu 
3. Hệ thống kiểm chứng và cho nhân viên đăng nhập vào hệ 
thống. 
+ Dòng sự kiện khác: Khi nhân viên nhập sai tên hoặc mật khẩu 
thì hệ thống sẽ thông báo lổi và cho nhân viên chọn đăng nhập 
tiếp hay là kết thúc Use Case. 
- Các Yêu Cầu đặt biệt: Không có. 
- Điều kiện tiên quyết: Không có. 
- Post-Conditions: Nếu đăng nhập thành công thì nhân viên đƣợc 
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 
39 
phép thao tác với những quyền của mình trong hệ thống,ngƣợc lại 
hệ thống không thay đổi. 
- Điểm mở rộng: Không có. 
4.4 CSDL đƣợc tạo trong Oracle 
4.5 Bảng MSTB_CÔNG VĂN 
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 
40 
4.6 Bảng MSTB_CLUSTERS 
4.7 Bảng MSTB_CLUSTER_RESULT 
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 
41 
4.8 View tất cả nhân viên 
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 
42 
4.9 View nhân viên 
4.10 Sequences 
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 
43 
4.11 Trong Packages chứa các Procedures p()prtb_vanban,p()prtb_cluster... 
4.12 Giới thiệu chƣơng trình ứng dụng 
4.12.1 Trang Đăng nhập 
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 
44 
4.12.2 Trang chủ 
4.12.3 Trang Soạn văn bản 
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 
45 
4.12.4 Trang Danh sách nhân viên 
4.12.5 Trang tạo mới nhân viên 
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 
46 
4.12.6 Trang danh sách phòng ban 
4.12.7 Trang danh sach văn bản đến 
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 
47 
4.12.8 Trang tạo mới phong ban 
4.12.9 Trang thông tin cá nhân 
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 
48 
4.12.10 Trang tra cứu theo nội dung 
4.12.11 Trang tra cứu theo phân cụm và kết quả chạy trương trình 
4.13 Chƣơng trình đƣợc thiết kế bởi Microsoft Visual Studio 2005 
Danh mục cần thiết kế 
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 
49 
4.14 Kết quả thực hiện chƣơng trình 
Chƣơng trình thực hiện với bộ dữ liệu với 500 văn bản 
Nhận xét: Đây là chƣơng trình thực hiện phân cụm trên một bài toán cụ thể là 
Quản lý văn bản, qua đó kiểm nghiệm đƣợc kết quả của thuật toán phân cụm dữ 
liệu k_mean trên hệ quản trị cơ sở dữ liệu Oracle. 
 Chƣơng trình đã chạy với dữ liệu đầu vào là văn bản đến và đi khi 
phân cụm toàn bộ văn bản đến và đi với số cụm K chọn ngẫu nhiên hoặc theo 
kinh nghiệm của chuyên gia. khi chạy chƣơng trình sẽ cho ra kết quả các cụm 
số đƣợc phân, mỗi cụm sẽ có những tiêu chí, nội dung tƣơng đồng nhau, hỗ trợ 
cho quá trình tra cứu tìm ra những bộ số giống nhau. 
 Ƣu điểm: Chƣơng trình có khả năng ứng dung thực tế cao, chạy 
trên csdl lớn, nhanh 
 Tuy nhiên, vẫn còn những hạn chế nhất định nhƣ là số cụm K chỉ 
có thể chọn ngẫu nhiên hoặc theo kinh nghiệm của chuyên gia. 
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 
50 
KẾT LUẬN 
Trong đồ án này, em đã trình bày tổng quan và các nét đặc trƣng nhất trong lĩnh 
vực Data Mining bao gồm các vấn đề cần khám phá tri thức, các hƣớng tiếp cận 
nghiên cứu tiêu biểu, trong đó PCDL là một phƣơng pháp khám phá tri thức quan 
trọng trong Data Mining có nhiều ý nghĩa trong khoa học cũng nhƣ thực tiễn. 
Đồ án này đã tìm hiểu đƣợc 1 số vấn đề trong việc phân cụm dữ liệu trong hệ 
quản trị csdl Oracle nhƣ các thủ tục, các gói dữ liệu tích hợp trong Oracle....Các cách 
gọi, sử dụng thuật toán trong phân cụm..... 
Đồ án đã xây dựng đƣợc một chƣơng trình nhỏ quản lý văn bản có ý nghĩa 
tƣơng đối cao làm tiền đề cho việc phát triển những ứng dụng sau này. 
Hƣớng phát triển tiếp theo: 
Đồ án đã đề cập đến một số các phƣơng pháp cũng nhƣ kỹ thuật áp dụng trong 
PCDL. Với tiền đề đó, trong thời gian sắp tới, tôi sẽ tiếp tục tìm hiểu các mô hình dữ 
liệu đặc thù, và lựa chọn một một kỹ thuật PCDL phù hợp nhằm xây dựng các ứng 
dụng đáp ứng các bài toán trong thực tiễn. Hƣớng nghiên cứu cụ thể nhƣ sau: 
o Xây dựng và phát triển các kỹ thuật phân cụm cho lớp các dữ liệu Web, 
văn bản, hình ảnh. 
o Kết hợp các kỹ thuật phân cụm với các các kỹ thuật mờ, mạng nơ ron đề 
giải quyết một số ứng dụng khác trong thực tế. 
 Do thời gian nghiên cứu và trình độ có hạn, báo cáo không tránh khỏi có 
những hạn chế và thiếu sót. Em xin đƣợc tiếp thu ý kiến sự đánh giá, chỉ bảo của các 
thầy giáo cũng nhƣ các bạn bè. 
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 
51 
Chƣơng 5 TÀI LIỆU THAM KHẢO 
[1]. Nguyễn Thị Ngọc, Thuật toán phân cụm dữ liệu dựa trên mật độ, Đồ án tốt 
nghiệp, ĐHDL Hải Phòng, 2008. 
[2]. Trần Thị Quỳnh, Phân cụm dữ liệu nửa giám sát và giải thuật di truyền, Đồ 
án tốt nghiệp, ĐHDL Hải Phòng, 2008. 
[3]. Kluwer Academic Publishers, Holland, Extensions To the k-means 
Algorithm for Clustering Large Data Sets With Categorical Value 
[4]. Periklis Andritsos, Data Clusting Techniques, Department of Computer 
Science, University Toronto, 2002. 
[5]. 
Petrolimex 
: 
[1]  
[2]  

File đính kèm:

  • pdfLuận văn Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ quản trị CSDL Oracle.pdf
Tài liệu liên quan