Luận văn Học mạng nơron theo mô hình SOM và ứng dụng trong bài toán quản lý khách hàng vay vốn ngân hàng
MỤC LỤC
MỞ ĐẦU . 2
CHƯƠNG 1. MẠNG NƠRON VÀ ỨNG DỤNG TRONG HỌC MÁY . 4
1.1 Mạng nơron. 4
1.1.1 Đơn vịxửlý. 5
1.1.2 Hàm xửlý. 7
1.1.3 Hình trạng mạng. 9
1.2 Mạng nơron trong khai phá dữliệu . 10
1.2.1 Khai phá dữliệu. 10
1.2.2 Khai phá dữliệu tài chính. 13
1.3 Các phương pháp học sửdụng mạng nơron . 15
1.3.1 Học có giám sát. 16
1.3.2 Học không giám sát. 19
1.4 Kết luận chương 1. 20
CHƯƠNG 2. THUẬT TOÁN SOM VỚI BÀI TOÁN PHÂN CỤM. 21
2.1 Các phương pháp phân cụm . 21
2.2 Dùng mạng nơron trong phân cụm . 22
2.2.1 Học ganh đua. 22
2.2.2 Thuật toán SOM. 24
2.2.3 Sửdụng SOM trong khai phá dữliệu. 29
2.2.4 SOM với bài toán phân cụm. 31
2.2.5 Các phương pháp phân cụm khác. 35
2.3 Một vài ứng dụng của SOM . 38
2.3.1 Lựa chọn quỹ đầu tư. 39
2.3.2 Đánh giá rủi ro tín dụng giữa các nước. 40
2.4 Kết luận chương 2. 43
CHƯƠNG 3. ỨNG DỤNG MÔ HÌNH SOM TRONG BÀI TOÁN NGÂN HÀNG . 45
3.1 Phát biểu bài toán. 45
3.2 Giới thiệu công cụSOM Toolbox . 46
3.3 Cấu trúc chương trình . 47
3.3.1 Xây dựng tập dữliệu. 47
3.3.2 Xửlý dữliệu trước huấn luyện. 52
3.3.3 Khởi tạo SOM và huấn luyện. 52
3.3.4 Mô phỏng (trực quan hoá). 56
3.3.5 Phân tích kết quả. 59
3.4 Một sốnhận xét. 60
3.4.1 Độphức tạp tính toán. 60
3.4.2 Kết quảchạy chương trình. 63
3.4.3 So sánh với các công cụkhác. 71
3.5 Kết luận chương 3. 73
KẾT LUẬN. 74
TÀI LIỆU THAM KHẢO . 75
Training: 0/ 0 s
Training: 0/ 0 s
Final quantization error: 1.071
Final topographic error: 0.033
pause % An phim bat ky de tiep tuc...
-66-
% BUOC 4: TRUC QUAN HOA SELF-ORGANIZING MAP: SOM_SHOW
% =====================================================
colormap(1-gray)
som_show(sMap,'norm','d')
pause % An phim bat ky de tiep tuc...
-67-
% BUOC 4: TRUC QUAN HOA SELF-ORGANIZING MAP: SOM_SHOW
% =====================================================
h=zeros(sMap.topol.msize); h(1,2) = 1;
som_show_add('hit',h(:),'markercolor','r','markersize',0.5,'subplot','all')
pause % An phim bat ky de tiep tuc...
-68-
% BUOC 4: TRUC QUAN HOA SELF-ORGANIZING MAP: SOM_SHOW
% =====================================================
som_show(sMap,'umat','all','empty','Labels')
pause % An phim bat ky de tiep tuc...
-69-
Kết quả trên cho thấy thông tin khách hàng sử dụng công cụ SOM ToolBox có 03
cụm:
Cụm 1: có khách hàng BR
Cụm 2: gồm các khách hàng A, D, FA, CE, B, CA, BD, CH, BA, CD, BN, BC, CK,
CS, BJ.
Cụm 3: gồm các khách hàng AL, AW, AX, CB, AP, AV, DO, AQ, CZ, CP, BF,
BY, T, AJ, EQ, X, AH, CM, BE, H, P, CN, CL, BQ, J, S, BW, BM, CX, CU.
% BUOC 4: TRUC QUAN HOA SELF-ORGANIZING MAP: SOM_SHOW
% =====================================================
som_show_add('label',sMap,'Textsize',8,'TextColor','r','Subplot',2)
pause % An phim bat ky de tiep tuc...
-70-
% STEP5: CLUSTERING OF THE MAP
% =====================
sM = som_autolabel(sM,sD,'vote');
kich thuoc cua bmu: 150
kich thuoc cua Labels: 66
subplot(1,3,1)
[c,p,err,ind] = kmeans_clusters(sM, 7); %Chia SOM thành 07 cum
n_max: 7
c_max: 5
plot(1:length(ind),ind,'x-')
[dummy,i] = min(ind)
dummy = 0.7652
i = 5 %So cum co duoc tu thuat toán
subplot(1,3,2)
[Pd,V,me,l] = pcaproj(sD,2); Pm = pcaproj(sM,V,me);
Code = som_colorcode(Pm);
hits = som_hits(sM,sD);
U = som_umat(sM);
Dm = U(1:2:size(U,1),1:2:size(U,2));
Dm = 1-Dm(:)/max(Dm(:)); Dm(find(hits==0)) = 0;
som_cplane(sM,Code,Dm);
subplot(1,3,3)
som_cplane(sM,cl)
pause % Strike any key to continue...
-71-
3.4.3 So sánh với các công cụ khác
Cho đến nay phần lớn các ứng dụng của SOM được xây dựng bằng các phần mềm
bởi các nhà nghiên cứu. Công cụ SOM ToolBox và SOM_PAK là các công cụ có
sẵn và không cần bản quyền. Trong phạm vi của luận văn đã sử dụng công cụ SOM
ToolBox để áp dụng cho bài toán phân loại khách hàng tín dụng của Ngân hàng.
Công cụ SOM_PAK, một công cụ của có giá trị của trường Đại học Kỹ thuật
Helsinki. SOM_PAK đặc biệt phù hợp với các nghiên cứu khoa học chạy trên máy
UNIX, không dùng cho các hệ điều hành của Microsoft (MS DOS, WINDOWS).
Ngoài ra, còn có các công cụ phần mềm thương mại cho SOM có trên thị trường
[8]. Về cơ bản các phần mềm này cũng được xây dựng là như nhau. Tuy nhiên các
phần mềm thương mại được thiết kê phù hợp với các hệ điều hành chuẩn và có
thêm bước xử lý trước và xử lý sau dữ liệu. Sau đây là một danh sách các phần
mềm thương mại hiện có:
1. SAS Neural Network Application
2. Professional II+ from NeuralWorks
3. MATLAB Neural Network Toolbox
4. NeuroShell2/NeuroWindows
5. NeuroSolutions v3.0
6. NeuroLab, A Neural Network Library
7. havFmNet++
8. Neural Connection
9. Trajan 2.1 Neural Network Simulator
10. Viscovery®
Một công cụ mới nhất hiện nay là Viscovery®, một sản phẩm của Eudaptics
Software GmbH, là công cụ có giao diện thân thiện, linh hoạt và là công cụ mạnh
cho việc tạo SOM. Viscovery® cung cấp một số đặc điểm quan trọng cần thiết
-72-
trong các ứng dụng tài chính, kinh tế và marketing mà ở các công cụ không có bản
quyền không có được.
Dưới đây là một số so sánh giữa các công cụ SOM với nhau [8]
Các chỉ tiêu Viscovery® SOM_PAK SOM Toolbox NeNet
Hệ điều hành Windows 95
Windows NT
4.0
UNIX
Ms DOS
MatLab
Version 5.0 trở
lên
Windows
Tiền xử lý Có 4 chọn lựa không có Có Có
Đặc điểm SOM
• Thuật toán Thuật toán
chuẩn
Thuật toán
chuẩn
Thuật toán chuẩn Thuật toán
chuẩn
• Kích thước ma
trận
Không giới
hạn.
Không giới
hạn.
Không giới hạn.
Không giới
hạn.
• Khởi tạo ma
trận
Lục giác.
Chữ nhật, lục
giác.
Chữ nhật, lục
giác.
Chữ nhật, lục
giác.
• Huấn luyện Mặt phẳng
chính
Tuyến tính,
ngẫu nhiên
Tuyến tính, ngẫu
nhiên
Tuyến tính,
ngẫu nhiên
• Gán nhãn Định nghĩa
trước
Bất kỳ giai
đoạn nào
Bất kỳ giai đoạn
nào
Bất kỳ giai
đoạn nào
• Xử lý thành
phần thiếu
Tự động,
bằng tay, kéo
thả
Tự động, bằng
tay
Tự động, bằng
tay
Tự động, bằng
tay
• Tốc độ Có thể xử lý,
Nhanh
Có thể xử lý,
Nhanh
Có thể xử lý,
Vừa phải
Có thể xử lý,
Nhanh
• Giới hạn đầu Không Không Không Tối đa
[100x100]
-73-
vào
• Trực quan hoá
U-matrix,
component
planes,
trajectories,
Iso-contours
U-matrix,
component
planes,
trajectories
U-matrix,
component
planes,
trajectories,
hit historgrams
U-matrix,
component
planes,
trajectories,
hit
historgrams
Xử lý sau Có Có Không Không
Giao diện Thân thiện.
Giao diện
OLE: MS
Excel, Text
file,
SQL & DB2
Câu lệnh C.
Giao diện OLE:
Text file
GUI (Matlab)
Giao diện OLE:
Text file
GUI
(Windows 95)
Giao diện
OLE: Text
file
3.5 Kết luận chương 3
Áp dụng phương pháp SOM vào bài toán cụ thể trong Ngân hàng, bài toán phân
tích thông tin khách hàng là các Doanh nghiệp có nhu cầu vay vốn. Nội dung chính
trong chương này là:
- Tìm hiểu về quy trình tác nghiệp tại phòng Tín dụng của Ngân hàng đã
giải quyết bài toán.
- Tìm hiểu bộ công cụ SOM ToolBox, từ đó xây dựng chương trình giải
quyết bài toán.
- Một số kết quả thu được khi chạy chương trình.
- Đánh giá, so sánh bộ công cụ SOM Toolbox với các công cụ khác trên thị
trường.
-74-
KẾT LUẬN
Mạng nơron là một phương pháp rất thích hợp trong khai phá dữ liệu với mô hình
học máy, đặc biệt là học không giám sát. Với trên 5000 ứng dụng trên nhiều lĩnh
vực, thuật toán học mạng nơron theo SOM rất hữu dụng trong các bài toán tài chính
kinh tế. Nhiều công trình nghiên cứu đã khẳng định thuật toán SOM là phù hợp với
các ứng dụng có khối lượng dữ liệu lớn như dữ liệu trong Ngân hàng.
1. Luận văn đã thực hiện được kết quả sau:
- Trình bày một cách tổng quát về mô hình mạng nơron và ứng dụng mạng
nơron trong khai phá dữ liệu. Trình bày một cách hệ thống các giải pháp học
mạng nơron không giám sát và có giám sát.
- Nghiên cứu, phân tích việc sử dụng thuật toán SOM giải quyết bài toán phân
cụm theo mô hình mạng nơron.
- Nghiên cứu cấu trúc hoạt động của bộ công cụ SOM Toolbox và phương
pháp sử dụng công cụ để giải quyết bài toán phân cụm dữ liệu.
- Xây dựng bài toán phân tích thông tin khách hàng tại Ngân hàng và sử dụng
công cụ SOM Toolbox để giải quyết bài toán được đề xuất. Các kết quả thử
nghiệm là phù hợp với các phân tích của các nhà chuyên môn trong lĩnh vực
Ngân hàng.
2. Trong quá trình nghiên cứu để hoàn thành luận văn, thông qua việc tổng hợp và
phân tích một hoạt động cốt yếu của Ngân hàng là phân tích thông tin khách hàng
vay vốn, tôi nhận thấy việc phát triển nội dung luận văn là rất cần thiết để sử dụng
mạng nơron trong khai phá dữ liệu Ngân hàng. Để mở rộng kết quả nội dung của
luận văn này, hướng nghiên cứu và phát triển tiếp theo là tìm hiểu các phương pháp
sinh luật từ mạng nơron (phần này đã được đề cập trong chương 1) và ứng dụng hỗ
trợ quyết định trong đầu tư tài chính.
-75-
TÀI LIỆU THAM KHẢO
TÀI LIỆU TIẾNG VIỆT
[1]. Nguyễn Đình Thúc (2000), Trí tuệ nhân tạo Mạng nơron phương pháp & ứng
dụng, Nhà xuất bản Giáo Dục.
[2]. Trần Đức Minh (2002), Mạng nơron truyền thẳng và thuật toán lan truyền
ngược, Luận văn Thạc sĩ cao học, Khoa Công nghệ, Trường Đại học Quốc gia
Hà Nội.
TÀI LIỆU TIẾNG ANH
[3]. Bart De Ketelaere, Demitrios Moshou, Peter Coucke, Josse De Baerdemaeker
(1997), A herachical Self-Organizing Map for classification problems.
[4]. Boris Kovalerchuk & Evgenii Vityaev (2001), Data mining in finance advances
in Relational and Hybrid Methods, Kluwer Academic Publishers.
[5] David Sommer & Martin Golz (2001), Clustering of EEG-Segments Using
Heirarchical Agglomerative Methods and Self-Organizing Maps, University of
Applied Sciences Germany, Department of Computer Science.
[6].Ed Guido Deboeck & Teuvo Khohonen (1998), Visual Intelligence in Finance
using Self-organizing Maps, Chapter 7: Self-organizing Maps for Initial Data
Analysis: let Financial Data Speak for Themselves, Speinger Verlag.
[7]. Guido Deboeck, Ph.D (1999), Self-Organizing Maps facilitate knowleadge
discovery in finance.
[8]. Guido Deboeck, Ph.D (2000), Public domain versus commercial tools for
creating Self-Organizing Maps.
[9]. J. Han and M. Kamber (2001), Data Mining - Concepts and Techniques,
Chapter 8: Cluster Analysis. Morgan Kaufmann.
[10]. Juha Vesanto (1997), Data Mining techniques based on the Self-Organizing
Map, Thesis for the degree of Master in Engineering, Helsinki University of
Technology.
-76-
[11]. Juha Vesanto (2000), Using SOM in Data Mining, Licentiate’s thesis, Helsinki
University of Technology.
[12]. Mark W.Craven & Jude W.Shavlik (2000), Using Neural Networks for Data
Mining, Submitted to the Future Generation Computer Systems specical issues
on Data Mining.
[13] Merja Oja, Samuel Kaski, and Teuvo Kohonen (2003), Bibliography of Self-
Organizing Map (SOM) Papers: 1998-2001 Addendum, Neural Computing
Surveys, 3: 1-156.
[14]. Mark W.Craven (1996), Extracting comprehensible models from trained
neural networks, Chapter 7: The Boosting – Based Perceptron learning
algorithm, Doctor of philosophy (Computer Sciences).
[15].Tom Gemano (1999), Self Organizing Maps.
[16]. Usama M.Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth & Ramasamy
Uthrusamy (1996), Advanes in Knowledge Discovery and Data mining,AAAI
Press/The MIT Press.
File đính kèm:
Luận văn Học mạng nơron theo mô hình SOM và ứng dụng trong bài toán quản lý khách hàng vay vốn ngân hàng.pdf

