Luận văn Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ quản trị CSDL Oracle
MỤC LỤC
MỤC LỤC . 1
LỜI CẢM ƠN . 3
LỜI NÓI ĐẦU . 4
Chƣơng 1 PHÂN CỤM DỮ LIỆU . 6
1.1 Kỹ thuật phân cụm dữ liệu. . 6
1.2 Các ứng dụng của phân cụm dữ liệu. 6
1.3 Các kiểu dữ liệu và độ đo tƣơng tự . 7
1.3.1 Phân loại các kiểu dữ liệu dựa trên kích thƣớc miền . 7
1.3.2 Phân loại các kiểu dữ liệu dựa trên hệ đo. 7
1.4 Một số kỹ thuật tiếp cận trong phân cụm dữ liệu . 8
1.4.1 Phân cụm phân hoạch . 8
1.4.2 Phân cụm dữ liệu phân cấp. 8
1.4.3 Phân cụm dữ liệu dựa trên mật độ . 9
1.4.4 Phân cụm dữ liệu dựa trên lƣới . 9
1.4.5 Phân cụm dữ liệu dựa trên mô hình . 10
1.4.6 Phân cụm dữ liệu có ràng buộc . 10
1.5 Các yêu cầu cho kỹ thuật PCDL . 10
1.6 Giới thiệu thuật toán phân cụm dữ liệu điển hình. . 11
1.7 Bài toán phân cụm dữ liệu . 13
Chƣơng 2 HỆ QUẢN TRỊ CSDL ORACLE . 14
2.1 Giới thiệu Oracle . 14
2.2 Cấu trúc cơ sở dữ liệu (CSDL): . 15
2.3 Sử dụng phân cụm (CLUSTERING ) trong Oracle . 16
2.4 Phân loại tài liệu văn bản trong Oracle . 21
Chƣơng 3 MÔ HÌNH USE CASE . 24
3.1 Giới thiệu Use Case trong phân tích thiết kế hƣớng đối tƣợng . 24
3.2 Mô hình hóa Use Case . 24
3.3 Biểu đồ Use Case . 27
3.4 Quan hệ giữa các Use Case . 27
3.4.1 Miêu tả Use Case . 27
3.4.2 Thử nghiệm Use Case . 30
Chƣơng 4 CHƢƠNG TRÌNH ỨNG DỤNG . 31
4.1 Bài toán quản lý văn bản đến và văn bản đi . 31
4.2 Mô hình usecase trong hệ thống quản lý văn bản đến và đi . 31
4.2.1 Quy trình tạo, gửi đi . 31
4.2.2 Quy trình nhận, đến . 33
4.2.3 Quản trị viên hệ thống: . 34
4.3 Đặc Tả User Case . 34
4.4 CSDL đƣợc tạo trong Oracle . 39
4.5 Bảng MSTB_CÔNG VĂN . 39
4.6 Bảng MSTB_CLUSTERS . 40
4.7 Bảng MSTB_CLUSTER_RESULT . 40
4.8 View tất cả nhân viên . 41
4.9 View nhân viên . 42
4.10 Sequences . 42
4.11 Trong Packages chứa các Procedures p()prtb_vanban,p()prtb_cluster. . 43
Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle
2
4.12 Giới thiệu chƣơng trình ứng dụng . 43
4.12.1 Trang Đăng nhập . 43
4.12.2 Trang chủ . 44
4.12.3 Trang Soạn văn bản . 44
4.12.4 Trang Danh sách nhân viên . 45
4.12.5 Trang tạo mới nhân viên . 45
4.12.6 Trang danh sách phòng ban . 46
4.12.7 Trang danh sach văn bản đến . 46
4.12.8 Trang tạo mới phong ban . 47
4.12.9 Trang thông tin cá nhân . 47
4.12.10 Trang tra cứu theo nội dung . 48
4.12.11 Trang tra cứu theo phân cụm và kết quả chạy trƣơng trình . 48
4.13 Chƣơng trình đƣợc thiết kế bởi Microsoft Visual Studio 2005 . 48
4.14 Kết quả thực hiện chƣơng trình . 49
KẾT LUẬN . 50
Chƣơng 5 TÀI LIỆU THAM KHẢO . 51
n đi, nhận văn bản đến. - Admin: Ngƣời quản lý chƣơng trình, tạo mới, sửa, xóa nhân viên, kiểm soát viên ( trƣởng phòng, phó phòng ), các phòng ban. 1. Use Case Model: Mô hình Use Case: Nhƣ trên. Tra Cứu văn bản : - Tóm tắc: Use Case này mô tả cách mà một ngƣời tra cứu văn bản thông qua hệ thống này. - Dòng sự kiện: + Dòng sự kiện chính: Use case này bắt đầu khi một ngƣời muốn tra cứu một văn bản. 1. Tìm kiếm theo chủ đề. Hệ thống yêu cầu chọn kiểu tra cứu (có thể tra cứu theo tên, loại,ngày, thuộc bộ phận nào...,theo mã số.Khi các thông tin đã đƣợc nhập đầy đủ hệ thống sẽ thực hiện và cho kết quả. 2. Tìm kiếm theo phân cụm: Ta cần nhập số cụm, mỗi cụm sẽ cho ta biết thông tin về một chủ đề nào đó, từ đó ta rút ra đƣợc những thông tin hữu ích hỗ trợ cho việc ra quyết định. + Dòng sự kiện khác: Không tìm thấy thông tin nhƣ yêu cầu thì thông báo không tìm thấy. - Các Yêu Cầu đặt biệt: Cần phải nhập số cụm, theo cảm tính hoặc kinh nghiệm. - Điều kiện tiên quyết: Trƣớc tiên nhân viên phải chọn kiểu tra cứu Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 36 và nhập số cụm. - Post-Conditions: Nếu Use Case thàng công thì sẽ cho kết quả tìm đƣợc,hoặc không thành công thì thông báo lổi. - Điểm mở rộng: Không có. Tạo văn bản đi : - Tóm tắc: Use case mô tả những hoạt động tạo văn bản nhƣ tạo, sửa, xóa, thêm mới.. - Dòng sự kiện: + Dòng sự kiện chính:Use Case này sẽ đƣợc bắt đầu khi ngƣời soạn công văn tạo công văn. 1. Ngƣời soạn nhập các thông tin văn bản cần thiết 2. Gửi thông tin đến Server. + Dòng sự kiện khác: Thông tin gửi đi bị lổi,hệ thống sẽ thông báo cho khách hàng để khách hàng thực hiện lại thao tác. - Post-Conditions: Nếu Use Case thành công,công văn sẽ đƣợc thêm vào hệ thống,ngƣợc lại hệ thống không thay đổi. - Điểm mở rộng: Không có. Xử lý văn bản đi: - Tóm tắc: Use Case mô tả những xử lý văn bản đi nhƣ kiểm tra nội dung, hình thức, ký... - Dòng sự kiện: + Dòng sự kiện chính: Use Case sẽ đƣợc bắt đầu khi thông tin từ ngƣời tạo văn bản chuyển đến 1. Kiểm soát viên checker nội dung và hình thức có đúng quy cách ko ? 2. Đồng ý chuyển tới phê duyệt, ký và gửi đi. + Dòng sự kiện khác: Không đồng ý yêu cầu chỉnh sửa lại - Các Yêu Cầu đặt biệt: Không có. - Điều kiện tiên quyết: Có công văn tạo chuyển đến,chờ ký - Post-Conditions: Nếu Use Case thành công, văn bản sẽ đƣợc chuyển tới phê duyệt. - Điểm mở rộng: Không có. Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 37 Phê duyệt: - Tóm tắc: Use Case mô tả cách thức văn bản đi đƣợc lãnh đạo phê duyệt. - Dòng sự kiện: + Dòng sự kiện chính: Use Case sẽ bắt đầu khi văn bản đã đƣợc kiểm tra tới 1. lãnh đạo xem và phê duyệt gửi đi 2. Lƣu trữ + Dòng sự kiện khác: Không đồng ý yêu cầu làm lại. - Các Yêu Cầu đặt biệt: Không có. - Điều kiện tiên quyết: Phải có sự checker cua kiểm sát viên Post- Conditions: Use Case thành công,công văn đƣợc gửi đi và ký, lƣu trữ Lƣu văn bản đến : - Tóm tắc: Use case mô tả những hoạt động lƣu văn bản đến. - Dòng sự kiện: + Dòng sự kiện chính:Use Case này sẽ đƣợc bắt đầu khi văn bản đƣợc gửi đến. 1.Hệ thống lƣu các văn bản theo từng mức độ nhƣ công văn khẩn, công văn nội bộ.. 2.Gửi thông tin đến bộ phận xử lý. - Post-Conditions: Nếu Use Case thành văn bản đến sẽ đƣợc lƣu vào hệ thống,ngƣợc lại hệ thống không thay đổi. - Điểm mở rộng: Không có. Xử lý văn bản đến: - Tóm tắc: Use Case mô tả những xử lý văn bản đến nhƣ kiểm tra nội dung, hình thức.. - Dòng sự kiện: + Dòng sự kiện chính: Use Case sẽ đƣợc bắt đầu khi văn bản chuyển đến 1.Kiểm soát viên checker 2.Đồng ý chuyển tới phê duyệt ( đã xem ) chờ chỉ đạo triển khai Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 38 - Điều kiện tiên quyết: Có văn bản lƣu - Post-Conditions: Nếu Use Case thành công, văn bản sẽ đƣợc duyệt và trả lời. - Điểm mở rộng: Không có. Phê duyệt: - Tóm tắc: Use Case mô tả cách thức văn bản đến đƣợc lãnh đạo phê duyệt. - Dòng sự kiện: + Dòng sự kiện chính: Use Case sẽ bắt đầu khi văn bản tới 1.lãnh đạo xem và phê duyệt 2. Lƣu trữ + Dòng sự kiện khác: Không. - Các Yêu Cầu đặt biệt: Không có. - Điều kiện tiên quyết: Phải có sự checker cua kiểm sát viên Post- Conditions: Use Case thành công,công văn đƣợc xem và lƣu trữ, trả lời - Điểm mở rộng: Không có. Đăng Nhập: - Tóm tắc: Use Case mô tả cách nhân viên đăng nhập vào hệ thống. - Dòng sự kiện: + Dòng sự kiện chính: Use Case sẽ bắt đầu khi nhân viên đăng nhập. 1. Hệ thống yêu cầu nhân viên nhập Tên và Mật khẩu. 2. Nhân viên nhập Tên và Mật khẩu 3. Hệ thống kiểm chứng và cho nhân viên đăng nhập vào hệ thống. + Dòng sự kiện khác: Khi nhân viên nhập sai tên hoặc mật khẩu thì hệ thống sẽ thông báo lổi và cho nhân viên chọn đăng nhập tiếp hay là kết thúc Use Case. - Các Yêu Cầu đặt biệt: Không có. - Điều kiện tiên quyết: Không có. - Post-Conditions: Nếu đăng nhập thành công thì nhân viên đƣợc Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 39 phép thao tác với những quyền của mình trong hệ thống,ngƣợc lại hệ thống không thay đổi. - Điểm mở rộng: Không có. 4.4 CSDL đƣợc tạo trong Oracle 4.5 Bảng MSTB_CÔNG VĂN Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 40 4.6 Bảng MSTB_CLUSTERS 4.7 Bảng MSTB_CLUSTER_RESULT Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 41 4.8 View tất cả nhân viên Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 42 4.9 View nhân viên 4.10 Sequences Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 43 4.11 Trong Packages chứa các Procedures p()prtb_vanban,p()prtb_cluster... 4.12 Giới thiệu chƣơng trình ứng dụng 4.12.1 Trang Đăng nhập Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 44 4.12.2 Trang chủ 4.12.3 Trang Soạn văn bản Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 45 4.12.4 Trang Danh sách nhân viên 4.12.5 Trang tạo mới nhân viên Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 46 4.12.6 Trang danh sách phòng ban 4.12.7 Trang danh sach văn bản đến Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 47 4.12.8 Trang tạo mới phong ban 4.12.9 Trang thông tin cá nhân Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 48 4.12.10 Trang tra cứu theo nội dung 4.12.11 Trang tra cứu theo phân cụm và kết quả chạy trương trình 4.13 Chƣơng trình đƣợc thiết kế bởi Microsoft Visual Studio 2005 Danh mục cần thiết kế Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 49 4.14 Kết quả thực hiện chƣơng trình Chƣơng trình thực hiện với bộ dữ liệu với 500 văn bản Nhận xét: Đây là chƣơng trình thực hiện phân cụm trên một bài toán cụ thể là Quản lý văn bản, qua đó kiểm nghiệm đƣợc kết quả của thuật toán phân cụm dữ liệu k_mean trên hệ quản trị cơ sở dữ liệu Oracle. Chƣơng trình đã chạy với dữ liệu đầu vào là văn bản đến và đi khi phân cụm toàn bộ văn bản đến và đi với số cụm K chọn ngẫu nhiên hoặc theo kinh nghiệm của chuyên gia. khi chạy chƣơng trình sẽ cho ra kết quả các cụm số đƣợc phân, mỗi cụm sẽ có những tiêu chí, nội dung tƣơng đồng nhau, hỗ trợ cho quá trình tra cứu tìm ra những bộ số giống nhau. Ƣu điểm: Chƣơng trình có khả năng ứng dung thực tế cao, chạy trên csdl lớn, nhanh Tuy nhiên, vẫn còn những hạn chế nhất định nhƣ là số cụm K chỉ có thể chọn ngẫu nhiên hoặc theo kinh nghiệm của chuyên gia. Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 50 KẾT LUẬN Trong đồ án này, em đã trình bày tổng quan và các nét đặc trƣng nhất trong lĩnh vực Data Mining bao gồm các vấn đề cần khám phá tri thức, các hƣớng tiếp cận nghiên cứu tiêu biểu, trong đó PCDL là một phƣơng pháp khám phá tri thức quan trọng trong Data Mining có nhiều ý nghĩa trong khoa học cũng nhƣ thực tiễn. Đồ án này đã tìm hiểu đƣợc 1 số vấn đề trong việc phân cụm dữ liệu trong hệ quản trị csdl Oracle nhƣ các thủ tục, các gói dữ liệu tích hợp trong Oracle....Các cách gọi, sử dụng thuật toán trong phân cụm..... Đồ án đã xây dựng đƣợc một chƣơng trình nhỏ quản lý văn bản có ý nghĩa tƣơng đối cao làm tiền đề cho việc phát triển những ứng dụng sau này. Hƣớng phát triển tiếp theo: Đồ án đã đề cập đến một số các phƣơng pháp cũng nhƣ kỹ thuật áp dụng trong PCDL. Với tiền đề đó, trong thời gian sắp tới, tôi sẽ tiếp tục tìm hiểu các mô hình dữ liệu đặc thù, và lựa chọn một một kỹ thuật PCDL phù hợp nhằm xây dựng các ứng dụng đáp ứng các bài toán trong thực tiễn. Hƣớng nghiên cứu cụ thể nhƣ sau: o Xây dựng và phát triển các kỹ thuật phân cụm cho lớp các dữ liệu Web, văn bản, hình ảnh. o Kết hợp các kỹ thuật phân cụm với các các kỹ thuật mờ, mạng nơ ron đề giải quyết một số ứng dụng khác trong thực tế. Do thời gian nghiên cứu và trình độ có hạn, báo cáo không tránh khỏi có những hạn chế và thiếu sót. Em xin đƣợc tiếp thu ý kiến sự đánh giá, chỉ bảo của các thầy giáo cũng nhƣ các bạn bè. Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ QTCDL Oracle 51 Chƣơng 5 TÀI LIỆU THAM KHẢO [1]. Nguyễn Thị Ngọc, Thuật toán phân cụm dữ liệu dựa trên mật độ, Đồ án tốt nghiệp, ĐHDL Hải Phòng, 2008. [2]. Trần Thị Quỳnh, Phân cụm dữ liệu nửa giám sát và giải thuật di truyền, Đồ án tốt nghiệp, ĐHDL Hải Phòng, 2008. [3]. Kluwer Academic Publishers, Holland, Extensions To the k-means Algorithm for Clustering Large Data Sets With Categorical Value [4]. Periklis Andritsos, Data Clusting Techniques, Department of Computer Science, University Toronto, 2002. [5]. Petrolimex : [1] [2]
File đính kèm:
- Luận văn Tìm hiểu về kỹ thuật phân cụm dữ liệu trong xử lý dữ liệu trên hệ quản trị CSDL Oracle.pdf