Đồ án Nghiên cứu DataMining trong Microsoft SE

Việc khai thác dữliệu thường được mô tảnhưmột quá trình lấy các thông tin

có giá trị, xác thực từnhững cơsởdữliệu lớn. Nói cách khác, việc khai thác dữ

liệu bắt nguồn từcác dạng mẫu và khuynh hướng tồn tại trong dữliệu. Các mẫu và

khuynh hướng này có thể được gom lại với nhau và được định nghĩa nhưlà một

mô hình khai thác. Các mô hình này có thể được áp dụng cho các kịch bản nghiệp

vụriêng biệt như:

- Dự đoán việc bán hàng.

- Chuyển thư đến các khách hàng được chỉ định.

- Xác định các sản phẩm nào có khảnăng được bán với nhau.

- Tìm các trình tựmà khách hàng chọn các sản phẩm.

Một khái niệm quan trọng là xây dựng mô hình khai thác là một phần của một

tiến trình lớn hơn bao gồm từviệc xác định các vấn đềcơbản mà mô hình sẽgiải

thích, đến việc triển khai mô hình này vào môi trường làm việc. Tiến trình này có thể

được định nghĩa bằng việc triển khai 6 bước cơbản sau:

Bước 1: Xác định vấn đề.

Bước 2. Chỉnh sửa dữliệu.

Bước 3. Thăm dò dữliệu.

Bước 4. Xây dựng mô hình.

Bước 5. Thăm dò và thông qua các mô hình.

Bước 6. Triển khai và cập nhật các mô hình. Biểu đồsau mô tảmối quan hệ

giữa mỗi bước trong tiến trình, và có thểsửdụng công nghệtrong Microsoft SQL

Server 2005 đểhoàn thành từng bước.

pdf82 trang | Chuyên mục: SQL Server | Chia sẻ: dkS00TYs | Lượt xem: 2704 | Lượt tải: 4download
Tóm tắt nội dung Đồ án Nghiên cứu DataMining trong Microsoft SE, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
chọn ra dữ liệu để kiểm tra. ( Trong trường 
hợp của chúng ta bảng KhaoSat được chọn tương đối giống so với bảng 
KhaoSatmucsong trong mô hình). 
• Trong bảng Select Table, chọn DecisionTree DW từ data source. 
• Chọn KhaoSat từ Table/View rồi OK. 
• Các cột có cùng tên sẽ tự động ánh xạ nhau theo như hình. 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 56
 Hình 4.9: Ánh xạ các cột dữ liệu 
Một câu truy vấn dự đoán sẽ được tạo ra cho mỗi mô hình trong cấu trúc dựa 
vào việc ánh xạ các cột dữ liệu này. Ta có thể xóa bỏ một ánh xạ bằng cách click chọn 
vào đường nối giữa chúng rồi DELETE, cũng có thể tạo ánh xạ bằng cách kéo từ bảng 
Mining Structure sang bảng Select Input Tables(s). 
(1.2) Lọc các dòng dữ liệu nhập 
Việc xử lý lọc dữ liệu nhập thực hiện qua lưới dữ liệu dưới mục Filter the input 
data used to generate the lift chart, nằm ngay dưới 2 bảng dữ liệu ánh xạ bước trên. 
Lưới dữ liệu này hỗ trợ kéo thả giống như trên bảng dữ liệu của cơ sở dữ liệu quan hệ 
SQL, ta cũng có thể lọc dữ liệu qua các toán tử Criteria/Argument ở phần cột sau cùng 
của lưới dữ liệu. 
 (1.3) Lựa chọn mô hình, cột dự đoán, các giá trị 
Bước này ta lựa chọn mô hình để đưa vào lift chart và cột dự đoán để so sánh. 
Mặc định thì tất cả mô hình trong cấu trúc mining sẽ được chọn, ta có thể bỏ qua mô 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 57
hình nào đó. Có thể tạo ra 2 loại biểu đồ, nếu chọn một giá trị dự đoán ta sẽ thấy một 
biểu đồ có một đường nâng các đường mô hình lên, còn nếu ta không chọn một giá trị 
dự đoán nào thì biểu đồ sẽ khác, nó chỉ cho thấy độ chính xác của mô hình (xem hình 
phần Xem lift chart). 
Thực hiện: 
Với mỗi mô hình, trong phần Predictable Column Name, ta chọn Mucsong Với 
mỗi mô hình, trong cột Predict Value, chọn 1 ( Mức sống = cao) hoặc 0 (Mức sống = 
thấp). 
Hiển thị độ chính xác của mô hình: 
Trong mục Predictable Column Name, chọn Mucsong 
Cứ đẻ cột Predict Value rỗng. 
Nếu chọn Synchronize Prediction Columns and Values thì cột dự đoán sẽ được 
đồng bộ với mỗi mô hình trong cấu trúc mining. 
(1.4) Hiển thị Lift Chart 
Chọn vào thẻ Lift Chart để hiển thị, khi chọn vào thẻ này, một câu truy vấn 
chạy trên server, cơ sở dữ liệu của cả cấu trúc mining và bảng input. Kết quả dự đoán 
được so sánh với kết quả thật đã biết và được sắp xếp theo khả năng rồi đưa lên biểu 
đồ. 
Nếu chọn một giá trị dự đoán ta sẽ thấy một biểu đồ có một đường nâng các 
đường mô hình lên 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 58
Hình 4.10: Độ chính xác của mô hình khi chọn giá trị dự đoán 
Còn nếu ta không chọn một giá trị dự đoán nào thì biểu đồ sẽ khác, nó chỉ cho 
thấy độ chính xác của mô hình 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 59
Hình 4.11: Độ chính xác của mô hình khi không chọn giá trị dự đoán 
f) Tạo dự đoán và kết quả 
Nếu đã hài lòng với mô hình KPDL ta bắt đầu tạo câu truy vấn dự đoán DMX 
sử dụng công cụ Prediction Query Builder. Prediction Query Builder có 3 cách dùng là 
Design, Query và Result. Nó tương tự như Access Query Builder và ta có thể thực 
hiện việc kéo thả để tạo câu truy vấn. 
(1) Tạo câu truy vấn 
Ta chọn mô hình mining và bảng input 
1. Trong Mining Model, chọn Select model. 
Hộp thoại Select Mining Model mở ra. Mặc định mô hình đầu tiên sẽ được 
chọn 
2. Chọn KhaoSat. 
3. Trên bảng Select Input Table(s), chọn mục Select case table. 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 60
4. Trong hộp thoại Select Table duyệt cây để chọn bảng KhaoSat nằm trong 
DecisionTree data source view. 
Sau khi chọn bảng input thì Prediction Query Builder mặc định ánh xạ giữa các 
cột có cùng tên với nhau. 
 Hình 4.12: Ánh xạ dữ liệu để tạo dự đoán 
5. Trong cột Source, chọn ô trong dòng rỗng đầu tiên và sau đó chọn vào 
KhaoSat table. 
6. Ở cột Field, cạnh ô ở bước 5 chọn ThunhapKey. 
Tạo ID duy nhất cho câu truy vấn dự đoán để ta có thể xác định Mucsong 
7. Chọn ô kế tiếp trong cột Source, chọn mô hình KhaoSat. 
8. Ở ô Field, chọn Mucsong. 
9. Chọn ô kế tiếp dưới cột Source, và chọn Prediction Function. 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 61
10. Trong Prediction Function, ở cột Field, chọn PredictProbability. 
Prediction functions cho biết cách mà mô hình đưa ra dự đoán và khả năng dự 
đoán đúng. Ta có thể bổ sung thêm thông số để phục vụ cho chức năng này ở cột 
Criteria/Argument. 
11. Ở cột Criteria/Argument, gõ vào [KhaoSat].[ Mucsong]. 
 Hình 4.13: Tạo dự đoán 
Xem câu truy vấn DMX phát sinh tự động bởi Prediction Query Builder bằng 
cách click vào icon ở góc trên bên trái view. Ta có thể chỉnh sửa câu truy vấn và chạy 
lại. Việc sử dụng Prediction Query Builder giống như cách dùng view trên SQL 
Server. 
(2) Xem kết quả 
Xem kết quả dự đoán bằng cách click vào nút mũi tên cạnh icon ở trên góc trái 
của thẻ, rồi chọn Result, kết quả hiển thị như hình: 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 62
 Hình 4.14: Kết quả dự đoán 
Ba cột Thunhap, Mucsong, và Expression thể hiện tình hình khu vực, và khả 
năng dự đoán đúng. Ta sẽ sử dụng kết quả này để kiểm soát tình hình kinh tế. 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 63
CHƯƠNG 5: Kết luận – Hướng phát triễn 
5.1 Các mục tiêu đã thực hiện trong đề tài 
 Sau 1 thời gian thực hiện đề tài, ta có thể đáp ứng các mục tiêu mà đề tài đặt ra: 
- Khai thác được khả năng tiềm ẩn của dữ liệu. 
- Hiểu được dữ liệu để đưa ra quyết định khi tạo ra các mô hình dự đoán. Các kĩ 
thuật khảo sát bao gồm tính toán các giá trị nhỏ nhất và lớn nhất, tính toán độ 
trung bình và độ chênh lệch, và nhìn vào thuộc tính dữ liệu. 
- Dựa vào cơ sở dữ liệu tiếp tục được cập nhật với khách hàng tiềm năng. 
- Sử dụng các mô hình để tạo các dự đoán, mà có thể sử dụng sau đó để tạo ra 
các quyết định nghiệp vụ. 
- Đưa chức năng khai thác dữ liệu trực tiếp vào ứng dụng. 
- Tạo báo cáo để người dùng trực tiếp nêu query với mô hình khai thác tồn tại. 
Cập nhật mô hình là một phần trong chiến lược triển khai. Khi dữ liệu nhập vào 
tổ chức càng nhiều thì phải xử lý lại các mô hình, bằng cách đó sẽ cải thiện hiệu quả 
của chúng. 
- Việc thiết lập các luật mô tả làm cách nào các sản phẩm được gom nhóm lại với 
nhau thành một thao tác. 
- Cây quyết định dự đoán một khách hàng cụ thể sẽ mua một sản phẩm hay 
không. 
- Mô hình toán học dự đoán việc mua bán. 
5.2 Hướng phát triển 
 Trên cơ sở đã thực hiện, đề tài của em có các hướng phát triển như sau: 
- Có thể nghiên cứu đi sâu vào cơ sở dữ liệu với các thuật toán trong SQL Server 
2005 để đưa ra các luật tốt nhất cho dự đoán. 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 64
PHỤ LỤC: HƯỚNG DẪN CÁC BƯỚC DEMO 
CHƯƠNG TRÌNH 
A. Yêu cầu hệ thống trước khi chạy: 
• Cài đặt SQL Server 2005 
• Khi cài đặt SQLServer 2005 nhớ cài đăt thêm bộ Business Intelligence 
Development Studio. Business Intelligence Development Studio là ngôn ngữ dùng để 
tạo và thực thi chương trình. 
• Bạn phải chắc rằng dịch vụ phân tích đã được chạy 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 65
B. Quá trình chạy Demo chương trình 
• Chạy Business Intelligence Development Studio. Chọn newProjects -> 
Business Intelligence Projects -> Analysis Services Project 
• Tạo data source 
Click phải lên data source -> New Datasource 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 66
Click Next 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 67
Chọn New và khai báo các thông số kết nối 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 68
Click OK 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 69
Click Next và đặt tên cho data source 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 70
Click Finish 
• Tạo Data Source Views 
Click phải Data Source Views chọn New Data Source View.Chọn Data Source tồn 
tại. 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 71
Chọn các view chạy chương trình 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 72
Đặt tên cho Data Source View 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 73
Click Finish 
• Tạo relationship giữa các view: Nếu dữ liệu của chúng ta phục vụ cho việc thực 
thi mô hình, ta sẽ tạo mối quan hệ many-to-one giữa các view. Sauk hi tạo quan hệ 
xong các view sẽ lồng vào nhau khi tạo mô hình. 
• Tạo 1 Mining Structures 
Click phải Mining Structures chọn New Mining Structures 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 74
Click Next chọn From existing relational database or data warehouse
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 75
Click Next 
Chọn thuật toán sử dụng 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 76
Chọn Data Source View 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 77
Click Next chọn bảng Case (cha) và bảng Nested (con) 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 78
Click Next 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 79
Click Next 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 80
Click Next và đặt tên 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 81
Click Finish 
 SVTH: Hoàng Thị Thu-104102128 
Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 82
TÀI LIỆU THAM KHẢO 
[1] Microsoft Corporation - MSDN – Nhà xb – năm xb 
[2] Nguyễn Thiện Bằng (Chủ biên) – Phương Lan (Hiệu đính) – Khám phá SQL 
Server 2005 – Nhà xuất bản lao động xã hội – 2006 
[3] Zhao Hui Tang – Jamie Mac Lennan – Data Mining With SQL Server 2005 
 SVTH: Hoàng Thị Thu-104102128 

File đính kèm:

  • pdfĐồ án Nghiên cứu DataMining trong Microsoft SE.pdf
Tài liệu liên quan