Khóa luận Nghiên cứu ứng dụng bộ công cụ Business Intelligence trong việc xử lý số liệu của hệ quản trị cơ sở dữ liệu MySQL

Mục lục

Chƣơng 1 : KHO DỮ LIỆU VÀ HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU MYSQL . 1

1.1. Kho dữ liệu . 1

1.1.1. Khái niệm kho dữ liệu . 1

1.1.2. Các đặc tính của kho dữ liệu . 1

1.1.3. Cấu trúc hệ thống kho dữ liệu . 2

1.1.4. Dòng dữ liệu trong kho dữ liệu . 3

1.1.5. Ứng dụng của kho dữ liệu . 4

1.2. Hệ quản trị cơ sở dữ liệu MySQL. 6

1.2.1. Giới thiệu MySQL . 6

1.2.2. Ưu điểm và nhược điểm của MySQL . 6

Chƣơng 2 : PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU . 7

2.1. Khái niệm khai phá dữ liệu . 7

2.2. Các thành phần của giải thuật khai phá dữ liệu . 7

2.3. Cây quyết định . 8

2.4. Phát hiện các luật kết hợp . 10

Chƣơng 3 : BỘ CÔNG CỤ BUSINESS INTELLIGENCE . 12

3.1. Business Intelligence . 12

3.1.1. Khái niệm Business Intelligence . 12

3.1.2. Các thành phần chính của hệ Business Intelligence . 12

3.1.3. Lợi ích của Business Intelligence đối với doanh nghiệp . 13

3.1.4. Các công cụ Business Intelligence . 15

3.1.5. Kết hợp Business Intelligence và MySQL . 15

3.2. Kỹ thuật OLAP . 16

3.2.1. Khái niệm OLAP . 16

3.2.2. Các thành phần trong hệ thống OLAP . 17

3.3. Pentaho – Business Intelligence Server . 18

3.3.1. Tổng quan về Pentaho . 18

3.3.2. Khả năng và lợi ích của Pentaho . 19

3.4. Mondrian – OLAP Server . 20

3.4.1. Mondrian . 20

3.4.2. Schema Workbench . 20

3.5. Weka – Khai phá dữ liệu . 21

Chƣơng 4 : ỨNG DỤNG BUSINESS INTELLIGENCE . 22

4.1. Tạo báo cáo sử dụng công cụ BI . 22

4.1.1. Giới thiệu cơ sở dữ liệu . 22

4.1.2. Bài toán . 23

4.1.3. Giải quyết bài toán . 23

4.2. Khai phá dữ liệu . 26

4.2.1. Giới thiệu cơ sở dữ liệu . 26

4.2.2. Bài toán . 27

4.2.3. Tiền xử lý . 27

4.2.4. Thực hiện thuật toán phân lớp . 35

4.2.5. Xây dựng luật kết hợp . 36

4.2.6. Nhận xét kết quả . 38

KẾT LUẬN . 40

pdf50 trang | Chuyên mục: MySQL | Chia sẻ: dkS00TYs | Lượt xem: 2946 | Lượt tải: 5download
Tóm tắt nội dung Khóa luận Nghiên cứu ứng dụng bộ công cụ Business Intelligence trong việc xử lý số liệu của hệ quản trị cơ sở dữ liệu MySQL, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
hương 4 - Ứng dụng Business Intelligence 
23 
Hình 7 – Cơ sở dữ liệu về các thành phố. 
4.1.2. Bài toán 
Đưa ra báo cáo trong đó liệt kê tên thủ đô, dân số, GNP của các nước có sử dụng 
ngôn ngữ tiếng Anh và có dân số lớn hơn 100 000 người, phân theo từng khu vực. 
Bài toán yêu cầu truy nhập tới dữ liệu ở cả 3 bảng : cột Name, ID của bảng City, cột 
Code, Name, Capital, Population, Region của bảng Country, cột Language, CountryCode 
của bảng CountryLanguage. 
4.1.3. Giải quyết bài toán 
Bài toán được giải quyết thông qua chức năng tạo báo cáo của Pentaho. 
Bước 1 : Select Data Source 
+ Tạo một database mới tên là capital_and_language với truy vấn sau : 
SELECT City.Name Capital, Country.Name CountryName, GNP, Region, 
Country.Population, Language FROM City JOIN Country ON City.ID = Country.Capital 
JOIN CountryLanguage ON CountryLanguage.CountryCode = Country.Code 
Chương 4 - Ứng dụng Business Intelligence 
24 
Hình 8 – Thiết lập Data Source. 
Do có thể dùng các tùy chọn của Pentaho để tạo ràng buộc nên truy vấn không nhất 
thiết phải thực hiện đủ các ràng buộc của yêu cầu. 
Bước 2 : Make Selections 
+ Cho Region vào phần Group – Level 1 để phân nhóm theo khu vực. 
+ Cho Language vào phần Filters để làm bộ lọc. 
+ Các thuộc tính còn lại chuyển vào phần Details. 
Bước 3 : Customize Selections 
+ Trong phần Details, ta chọn vào Population, chọn chức năng Add a Constraint để 
thêm ràng buộc “Population >= 100 000” để lọc ra các nước có dân số lớn hơn 100 000 
và cột Population vẫn được hiển thị. 
+ Trong phần Filters, ta chọn Language và Add a Constraint “Language exactly 
matches English”, đồng thời phần Language sẽ không được hiển thị. 
Chương 4 - Ứng dụng Business Intelligence 
25 
Hình 9 – Thiết lập Constraint. 
Bước 4 : Report Settings 
+ Chọn Orientation là Portrait, Paper để giá trị mặc định là LETTER. 
+ Ngoài ra, ta có thể thêm Header , Footer cho báo cáo và cho từng trang trong báo 
cáo. 
Chương 4 - Ứng dụng Business Intelligence 
26 
Hình 10 – Mô tả báo cáo thu được sử dụng Pentaho. 
4.2. Khai phá dữ liệu 
4.2.1. Giới thiệu cơ sở dữ liệu 
Cơ sở dữ liệu dùng để thực nghiệm là cơ sở dữ liệu về khách hàng của 1 ngân hàng, 
gồm hơn 100 bản ghi. Mỗi bản ghi có 12 trường : ID, TUOI, GIOITINH, KHU VUC, 
THU NHAP, KET HON, XE, TK_THUAKE, TK_HIENTAI, THE CHAP, CHO VAY. 
Chương 4 - Ứng dụng Business Intelligence 
27 
Hình 11 – Mô tả bảng dữ liệu về khách hàng trong ngân hàng. 
4.2.2. Bài toán 
Từ bảng dữ liệu về khách hàng, tìm ra các luật quyết định và xây dựng cây quyết 
định trong việc tiến hành cho vay hoặc không cho vay. 
4.2.3. Tiền xử lý 
Dữ liệu được tải lên từ cơ sở dữ liệu có tên bankdata, sử dụng chức năng 
“Open database” của Weka. 
Chương 4 - Ứng dụng Business Intelligence 
28 
Hình 12 - Tải dữ liệu lên Weka từ MySQL. 
Chức năng Preprocess thực hiện việc chuẩn hóa, tiền xử lý dữ liệu thông qua các bộ 
lọc (Filter). 
Trước tiên, ta chuyển dữ liệu ở cột TUOI thành dạng so sánh gồm 3 nấc : 
- Nếu TUOI <= 30, gán TUOI = 1 
- Nếu 30 < TUOI < 60, gán TUOI = 2 
- Nếu TUOI >= 60, gán TUOI = 3 
Việc này được thực hiện bởi bộ lọc MathExpression. 
Chương 4 - Ứng dụng Business Intelligence 
29 
Hình 13 – Chọn bộ lọc MathExpression. 
Các thông số của bộ lọc được thay đổi, với hàm so sánh thêm vào : 
expression : “ifelse(A<=30,1,ifelse(A<60,2,3)) 
ignore range : 2 (số hiệu của thuộc tính TUOI là 2) 
Chương 4 - Ứng dụng Business Intelligence 
30 
Hình 14 – Thay đổi thông số cho bộ lọc MathExpression. 
Tương tự, ta dung bộ lọc MathExpression để chuyển giá trị THU NHAP về theo 3 
nấc : 
- Nếu THU NHAP <= 1000, gán THU NHAP = 1 
- Nếu 1000 < THU NHAP < 2000, gán THU NHAP = 2 
- Nếu THU NHAP >= 2000, gán THU NHAP = 3 
Hình 15 – Sử dụng MathExpression để gán lại giá trị cho trường THU NHAP. 
Chương 4 - Ứng dụng Business Intelligence 
31 
Sau khi 2 trường TUOI, THU NHAP đã được gán lại giá trị, ta cần chuyển toàn bộ 
các trường kiểu Numeric sang Nominal sử dụng bộ lọc NumericToNominal. 
 Hình 16 – Chọn bộ lọc NumericToNominal. 
Với dữ liệu đã chuyển sang định dạng Nominal, việc tiếp theo ta chuyển các nấc giá 
trị của trường TUOI sang đánh giá cụ thể : 
TUOI = 1 (Thanh nien) 
TUOI = 2 (Trung nien) 
TUOI = 3 (Gia) 
Bộ lọc AddValues cho phép thêm giá trị vào 1 trường được chỉ định. 
Chương 4 - Ứng dụng Business Intelligence 
32 
Hình 17 – Chọn bộ lọc AddValues. 
Hình 18 – Thiết lập thông số cho bộ lọc AddValues. 
Chương 4 - Ứng dụng Business Intelligence 
33 
Trong chức năng Edit, ta chọn trường TUOI, sử dụng chức năng “Replace values 
with” để thay thế giá trị trong trường TUOI. 
Hình 19 – Sử dụng chức năng Replace Value trong phần Edit. 
Chương 4 - Ứng dụng Business Intelligence 
34 
Hình 20 – Lựa chọn giá trị cần thay thế. 
Hình 21 – Lựa chọn giá trị thay thế. 
Chương 4 - Ứng dụng Business Intelligence 
35 
Tương tự, ta thay giá trị 2 trong trường TUOI thành “Trung nien”, thay giá trị 3 
bằng “Gia”. 
Lặp lại các bước trên, giá trị trong trường THU NHAP cũng được quy về 3 nấc : 
“Thap”, “TB”, “Cao”. 
4.2.4. Thực hiện thuật toán phân lớp 
Trong phần Classify, chứa các thuật toán phân lớp thường được sử dụng , tiêu biểu 
là xây dựng cây quyết định. 
Hình 22 – Lựa chọn xây dựng cây quyết định theo J48. 
Chương 4 - Ứng dụng Business Intelligence 
36 
Hình 23 - Cây quyết định thu được khi dùng Classifier J48. 
4.2.5. Xây dựng luật kết hợp 
Phần Associate cho phép xây dựng, tìm kiếm những luật kết hợp dựa trên cơ sở dữ 
liệu. Có một số thuật toán xây dựng luật kết hợp mà hệ thống đã hỗ trợ sẵn, người sử 
dụng chỉ cần chọn ra trong giao diện. 
Chương 4 - Ứng dụng Business Intelligence 
37 
Hình 24 – Lựa chọn xây dựng luật kết hợp theo thuật toán Apriori. 
Chương 4 - Ứng dụng Business Intelligence 
38 
Hình 25 – Kết quả thu được khi tạo luật kết hợp sử dụng thuật toán Apriori. 
4.2.6. Nhận xét kết quả 
Trong phần tạo cây quyết định, hệ thống trả về một cây quyết định với lá là các tình 
trạng hiện tại của khách hàng. 
Phần tạo luật kết hợp, theo như thực nghiệm bài toán ta thu được 10 luật kết hợp với 
độ tin cậy cao (từ 0.9 trở lên) : 
1. THU NHAP=Cao  TK_THUAKE=C 
2. GIOITINH=nu THE CHAP=K CHO VAY=C  TK_HIENTAI=C 
3. KHU VUC=NT  THE CHAP=K 
4. THU NHAP=Cao KET HON=C  TK_THUAKE=C 
Chương 4 - Ứng dụng Business Intelligence 
39 
5. THU NHAP=Cao TK_HIENTAI=C  TK_THUAKE=C 
6. GIOITINH=nu TK_THUAKE=C THE CHAP=K  TK_HIENTAI=C 
7. GIOITINH=nu TK_THUAKE=C CHO VAY=C  TK_HIENTAI=C 
8. KET HON=K CHO VAY=C  THE CHAP=K 
9. KET HON=C XE=K THE CHAP=K CHO VAY=C  TK_HIENTAI=C 
10. GIOITINH=nu KET HON=C TK_THUAKE=C THE CHAP=K  
TK_HIENTAI=C 
Các luật đều có cấu trúc chung AB. Trong đó A là mệnh đề điều kiện, có thể do 
nhiều mệnh đề đơn kết hợp, B là mệnh đề được suy ra nếu các mệnh đề của A được thỏa 
mãn. Ví dụ trong luật kết hợp số 2 : 
GIOITINH=nu THE CHAP=K CHO VAY=C  TK HIENTAI=C 
Luật này có thể được hiểu rằng : Nếu khách hàng là nữ, không có thế chấp nhưng 
vẫn được cho vay thì hiện tại phải có tài khoản trong ngân hàng. Chỉ cố conf(1) có nghĩa 
là với 19 trường hợp đáp ứng giả thuyết (GIOITINH=nu THE CHAP=K CHO VAY=C) 
thì kết luận cũng đều được đáp ứng (TK HIENTAI=C). 
Do trong trường hợp này tập dữ liệu học là toàn bộ bảng Khách hàng nên kết quả 
thu được dùng để kiểm chứng cho những khách hàng mới. Dựa vào những luật kết hợp 
thu được, nhà phân tích có thể đưa ra các quyết định có nên cho đối tượng vay tiền hay 
không hoặc phát triển việc cho vay vốn đối với các đối tượng tùy theo tình trạng gia đình, 
tài khoản, thu nhập… 
 40 
KẾT LUẬN 
Việc tổng hợp, phân tích thông tin từ những nguồn dữ liệu khác nhau luôn là vấn đề 
đáng quan tâm đối với các tổ chức có khối lượng dữ liệu lớn. Trong lĩnh vực kinh doanh, 
lượng dữ liệu về khách hàng, quá trình kinh doanh, biến động thị trường chứa đựng nhiều 
thông tin hữu ích cho các công ty. Nhiều giải pháp khai thác nguồn thông tin này đã được 
đưa ra. Trong đó, Business Intelligence là một giải pháp mới với nhiều bộ công cụ hỗ trợ. 
Trong luận văn này, tôi đã trình bày một số kiến thức cơ bản về bộ công cụ Business 
Intelligence Pentaho và ứng dụng trong dữ liệu thực : tạo báo cáo và khai phá dữ liệu. Kết 
quả của các ứng dụng này có thể được liên kết để tạo thành hệ hỗ trợ quyết định trong 
kinh doanh. 
Do thời gian có hạn nên khóa luận mới chỉ dừng ở mức mô tả chức năng của các 
công cụ trong bộ công cụ Business Intelligence. Nếu có điều kiện phát triển, cần nghiên 
cứu tổng hợp kết quả từ các công cụ, tiến tới làm thành một hệ hỗ trợ quyết định hoàn 
chỉnh. 
Với ưu điểm là bộ công cụ mã nguồn mở nên Pentaho thích hợp để áp dụng cho 
những tổ chức vừa và nhỏ do tiết kiệm được chi phí. Vì thế tương lai gần, các hệ Business 
Intelligence có thể sẽ sớm được áp dụng rộng rãi tại Việt Nam. 
 41 
TÀI LIỆU THAM KHẢO 
Tiếng Việt 
[1] Business Intelligence là gì.  
[2] Hà Quang Thụy (chủ biên). Giáo trình khai phá dữ liệu Web. Nxb Giáo dục Việt Nam. 
2009. 
[3] Kho dữ liệu và các ứng dụng.  
[4] Nguyễn Thành Đạt, Nguyễn Ngọc Anh. Advances Topics in Database Systems. 2009. 
[5] Phạm Văn Quang, Đỗ Thị Luân. Tiểu luận Datamining vs OLAP. 2009. 
[6] Wikipedia về kho dữ liệu. 
Tiếng Anh 
[7] Deduction Engineering and Machine Learning – WEKA. The University of Waikato, 
2003. 
[8] Introducing the Pentaho BI Suite Community Edition. 
[9] Julian Hyde, Lance Walter. OLAP for MySQL using Pentaho’s Mondrian. 
[10] Pentaho homepage.  
[11] Remko R. Bouckaert, Eibe Frank, Mark Hall, Richard Kirkby, Peter Reutemann, 
Alex Seeward, David Scuse. Weka Manual for Version 3.7.0. The University of Waikato, 
2009. 
[12] Seth Grimes. MySQL V5 – Ready for Prime Time Business Intelligence. Alta Plana 
Corporation. 
[13] William H. Inmon. Building the Data Warehouse Fourth Edition. Wiley, 2005. 
[14] Zdravko Markov, Ingrid Russell. An Introduction to the WEKA Data Mining 
System. 

File đính kèm:

  • pdfKhóa luận Nghiên cứu ứng dụng bộ công cụ Business Intelligence trong việc xử lý số liệu của hệ quản trị cơ sở dữ liệu MySQL.pdf
Tài liệu liên quan