Đồ án Nghiên cứu DataMining trong Microsoft SE
Việc khai thác dữliệu thường được mô tảnhưmột quá trình lấy các thông tin
có giá trị, xác thực từnhững cơsởdữliệu lớn. Nói cách khác, việc khai thác dữ
liệu bắt nguồn từcác dạng mẫu và khuynh hướng tồn tại trong dữliệu. Các mẫu và
khuynh hướng này có thể được gom lại với nhau và được định nghĩa nhưlà một
mô hình khai thác. Các mô hình này có thể được áp dụng cho các kịch bản nghiệp
vụriêng biệt như:
- Dự đoán việc bán hàng.
- Chuyển thư đến các khách hàng được chỉ định.
- Xác định các sản phẩm nào có khảnăng được bán với nhau.
- Tìm các trình tựmà khách hàng chọn các sản phẩm.
Một khái niệm quan trọng là xây dựng mô hình khai thác là một phần của một
tiến trình lớn hơn bao gồm từviệc xác định các vấn đềcơbản mà mô hình sẽgiải
thích, đến việc triển khai mô hình này vào môi trường làm việc. Tiến trình này có thể
được định nghĩa bằng việc triển khai 6 bước cơbản sau:
Bước 1: Xác định vấn đề.
Bước 2. Chỉnh sửa dữliệu.
Bước 3. Thăm dò dữliệu.
Bước 4. Xây dựng mô hình.
Bước 5. Thăm dò và thông qua các mô hình.
Bước 6. Triển khai và cập nhật các mô hình. Biểu đồsau mô tảmối quan hệ
giữa mỗi bước trong tiến trình, và có thểsửdụng công nghệtrong Microsoft SQL
Server 2005 đểhoàn thành từng bước.
chọn ra dữ liệu để kiểm tra. ( Trong trường hợp của chúng ta bảng KhaoSat được chọn tương đối giống so với bảng KhaoSatmucsong trong mô hình). • Trong bảng Select Table, chọn DecisionTree DW từ data source. • Chọn KhaoSat từ Table/View rồi OK. • Các cột có cùng tên sẽ tự động ánh xạ nhau theo như hình. SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 56 Hình 4.9: Ánh xạ các cột dữ liệu Một câu truy vấn dự đoán sẽ được tạo ra cho mỗi mô hình trong cấu trúc dựa vào việc ánh xạ các cột dữ liệu này. Ta có thể xóa bỏ một ánh xạ bằng cách click chọn vào đường nối giữa chúng rồi DELETE, cũng có thể tạo ánh xạ bằng cách kéo từ bảng Mining Structure sang bảng Select Input Tables(s). (1.2) Lọc các dòng dữ liệu nhập Việc xử lý lọc dữ liệu nhập thực hiện qua lưới dữ liệu dưới mục Filter the input data used to generate the lift chart, nằm ngay dưới 2 bảng dữ liệu ánh xạ bước trên. Lưới dữ liệu này hỗ trợ kéo thả giống như trên bảng dữ liệu của cơ sở dữ liệu quan hệ SQL, ta cũng có thể lọc dữ liệu qua các toán tử Criteria/Argument ở phần cột sau cùng của lưới dữ liệu. (1.3) Lựa chọn mô hình, cột dự đoán, các giá trị Bước này ta lựa chọn mô hình để đưa vào lift chart và cột dự đoán để so sánh. Mặc định thì tất cả mô hình trong cấu trúc mining sẽ được chọn, ta có thể bỏ qua mô SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 57 hình nào đó. Có thể tạo ra 2 loại biểu đồ, nếu chọn một giá trị dự đoán ta sẽ thấy một biểu đồ có một đường nâng các đường mô hình lên, còn nếu ta không chọn một giá trị dự đoán nào thì biểu đồ sẽ khác, nó chỉ cho thấy độ chính xác của mô hình (xem hình phần Xem lift chart). Thực hiện: Với mỗi mô hình, trong phần Predictable Column Name, ta chọn Mucsong Với mỗi mô hình, trong cột Predict Value, chọn 1 ( Mức sống = cao) hoặc 0 (Mức sống = thấp). Hiển thị độ chính xác của mô hình: Trong mục Predictable Column Name, chọn Mucsong Cứ đẻ cột Predict Value rỗng. Nếu chọn Synchronize Prediction Columns and Values thì cột dự đoán sẽ được đồng bộ với mỗi mô hình trong cấu trúc mining. (1.4) Hiển thị Lift Chart Chọn vào thẻ Lift Chart để hiển thị, khi chọn vào thẻ này, một câu truy vấn chạy trên server, cơ sở dữ liệu của cả cấu trúc mining và bảng input. Kết quả dự đoán được so sánh với kết quả thật đã biết và được sắp xếp theo khả năng rồi đưa lên biểu đồ. Nếu chọn một giá trị dự đoán ta sẽ thấy một biểu đồ có một đường nâng các đường mô hình lên SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 58 Hình 4.10: Độ chính xác của mô hình khi chọn giá trị dự đoán Còn nếu ta không chọn một giá trị dự đoán nào thì biểu đồ sẽ khác, nó chỉ cho thấy độ chính xác của mô hình SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 59 Hình 4.11: Độ chính xác của mô hình khi không chọn giá trị dự đoán f) Tạo dự đoán và kết quả Nếu đã hài lòng với mô hình KPDL ta bắt đầu tạo câu truy vấn dự đoán DMX sử dụng công cụ Prediction Query Builder. Prediction Query Builder có 3 cách dùng là Design, Query và Result. Nó tương tự như Access Query Builder và ta có thể thực hiện việc kéo thả để tạo câu truy vấn. (1) Tạo câu truy vấn Ta chọn mô hình mining và bảng input 1. Trong Mining Model, chọn Select model. Hộp thoại Select Mining Model mở ra. Mặc định mô hình đầu tiên sẽ được chọn 2. Chọn KhaoSat. 3. Trên bảng Select Input Table(s), chọn mục Select case table. SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 60 4. Trong hộp thoại Select Table duyệt cây để chọn bảng KhaoSat nằm trong DecisionTree data source view. Sau khi chọn bảng input thì Prediction Query Builder mặc định ánh xạ giữa các cột có cùng tên với nhau. Hình 4.12: Ánh xạ dữ liệu để tạo dự đoán 5. Trong cột Source, chọn ô trong dòng rỗng đầu tiên và sau đó chọn vào KhaoSat table. 6. Ở cột Field, cạnh ô ở bước 5 chọn ThunhapKey. Tạo ID duy nhất cho câu truy vấn dự đoán để ta có thể xác định Mucsong 7. Chọn ô kế tiếp trong cột Source, chọn mô hình KhaoSat. 8. Ở ô Field, chọn Mucsong. 9. Chọn ô kế tiếp dưới cột Source, và chọn Prediction Function. SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 61 10. Trong Prediction Function, ở cột Field, chọn PredictProbability. Prediction functions cho biết cách mà mô hình đưa ra dự đoán và khả năng dự đoán đúng. Ta có thể bổ sung thêm thông số để phục vụ cho chức năng này ở cột Criteria/Argument. 11. Ở cột Criteria/Argument, gõ vào [KhaoSat].[ Mucsong]. Hình 4.13: Tạo dự đoán Xem câu truy vấn DMX phát sinh tự động bởi Prediction Query Builder bằng cách click vào icon ở góc trên bên trái view. Ta có thể chỉnh sửa câu truy vấn và chạy lại. Việc sử dụng Prediction Query Builder giống như cách dùng view trên SQL Server. (2) Xem kết quả Xem kết quả dự đoán bằng cách click vào nút mũi tên cạnh icon ở trên góc trái của thẻ, rồi chọn Result, kết quả hiển thị như hình: SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 62 Hình 4.14: Kết quả dự đoán Ba cột Thunhap, Mucsong, và Expression thể hiện tình hình khu vực, và khả năng dự đoán đúng. Ta sẽ sử dụng kết quả này để kiểm soát tình hình kinh tế. SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 63 CHƯƠNG 5: Kết luận – Hướng phát triễn 5.1 Các mục tiêu đã thực hiện trong đề tài Sau 1 thời gian thực hiện đề tài, ta có thể đáp ứng các mục tiêu mà đề tài đặt ra: - Khai thác được khả năng tiềm ẩn của dữ liệu. - Hiểu được dữ liệu để đưa ra quyết định khi tạo ra các mô hình dự đoán. Các kĩ thuật khảo sát bao gồm tính toán các giá trị nhỏ nhất và lớn nhất, tính toán độ trung bình và độ chênh lệch, và nhìn vào thuộc tính dữ liệu. - Dựa vào cơ sở dữ liệu tiếp tục được cập nhật với khách hàng tiềm năng. - Sử dụng các mô hình để tạo các dự đoán, mà có thể sử dụng sau đó để tạo ra các quyết định nghiệp vụ. - Đưa chức năng khai thác dữ liệu trực tiếp vào ứng dụng. - Tạo báo cáo để người dùng trực tiếp nêu query với mô hình khai thác tồn tại. Cập nhật mô hình là một phần trong chiến lược triển khai. Khi dữ liệu nhập vào tổ chức càng nhiều thì phải xử lý lại các mô hình, bằng cách đó sẽ cải thiện hiệu quả của chúng. - Việc thiết lập các luật mô tả làm cách nào các sản phẩm được gom nhóm lại với nhau thành một thao tác. - Cây quyết định dự đoán một khách hàng cụ thể sẽ mua một sản phẩm hay không. - Mô hình toán học dự đoán việc mua bán. 5.2 Hướng phát triển Trên cơ sở đã thực hiện, đề tài của em có các hướng phát triển như sau: - Có thể nghiên cứu đi sâu vào cơ sở dữ liệu với các thuật toán trong SQL Server 2005 để đưa ra các luật tốt nhất cho dự đoán. SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 64 PHỤ LỤC: HƯỚNG DẪN CÁC BƯỚC DEMO CHƯƠNG TRÌNH A. Yêu cầu hệ thống trước khi chạy: • Cài đặt SQL Server 2005 • Khi cài đặt SQLServer 2005 nhớ cài đăt thêm bộ Business Intelligence Development Studio. Business Intelligence Development Studio là ngôn ngữ dùng để tạo và thực thi chương trình. • Bạn phải chắc rằng dịch vụ phân tích đã được chạy SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 65 B. Quá trình chạy Demo chương trình • Chạy Business Intelligence Development Studio. Chọn newProjects -> Business Intelligence Projects -> Analysis Services Project • Tạo data source Click phải lên data source -> New Datasource SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 66 Click Next SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 67 Chọn New và khai báo các thông số kết nối SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 68 Click OK SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 69 Click Next và đặt tên cho data source SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 70 Click Finish • Tạo Data Source Views Click phải Data Source Views chọn New Data Source View.Chọn Data Source tồn tại. SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 71 Chọn các view chạy chương trình SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 72 Đặt tên cho Data Source View SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 73 Click Finish • Tạo relationship giữa các view: Nếu dữ liệu của chúng ta phục vụ cho việc thực thi mô hình, ta sẽ tạo mối quan hệ many-to-one giữa các view. Sauk hi tạo quan hệ xong các view sẽ lồng vào nhau khi tạo mô hình. • Tạo 1 Mining Structures Click phải Mining Structures chọn New Mining Structures SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 74 Click Next chọn From existing relational database or data warehouse SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 75 Click Next Chọn thuật toán sử dụng SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 76 Chọn Data Source View SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 77 Click Next chọn bảng Case (cha) và bảng Nested (con) SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 78 Click Next SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 79 Click Next SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 80 Click Next và đặt tên SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 81 Click Finish SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp GVHD: Ths:Võ Đình Bảy 82 TÀI LIỆU THAM KHẢO [1] Microsoft Corporation - MSDN – Nhà xb – năm xb [2] Nguyễn Thiện Bằng (Chủ biên) – Phương Lan (Hiệu đính) – Khám phá SQL Server 2005 – Nhà xuất bản lao động xã hội – 2006 [3] Zhao Hui Tang – Jamie Mac Lennan – Data Mining With SQL Server 2005 SVTH: Hoàng Thị Thu-104102128
File đính kèm:
- Đồ án Nghiên cứu DataMining trong Microsoft SE.pdf