Luận văn Học mạng nơron theo mô hình SOM và ứng dụng trong bài toán quản lý khách hàng vay vốn ngân hàng
MỤC LỤC
MỞ ĐẦU . 2
CHƯƠNG 1. MẠNG NƠRON VÀ ỨNG DỤNG TRONG HỌC MÁY . 4
1.1 Mạng nơron. 4
1.1.1 Đơn vịxửlý. 5
1.1.2 Hàm xửlý. 7
1.1.3 Hình trạng mạng. 9
1.2 Mạng nơron trong khai phá dữliệu . 10
1.2.1 Khai phá dữliệu. 10
1.2.2 Khai phá dữliệu tài chính. 13
1.3 Các phương pháp học sửdụng mạng nơron . 15
1.3.1 Học có giám sát. 16
1.3.2 Học không giám sát. 19
1.4 Kết luận chương 1. 20
CHƯƠNG 2. THUẬT TOÁN SOM VỚI BÀI TOÁN PHÂN CỤM. 21
2.1 Các phương pháp phân cụm . 21
2.2 Dùng mạng nơron trong phân cụm . 22
2.2.1 Học ganh đua. 22
2.2.2 Thuật toán SOM. 24
2.2.3 Sửdụng SOM trong khai phá dữliệu. 29
2.2.4 SOM với bài toán phân cụm. 31
2.2.5 Các phương pháp phân cụm khác. 35
2.3 Một vài ứng dụng của SOM . 38
2.3.1 Lựa chọn quỹ đầu tư. 39
2.3.2 Đánh giá rủi ro tín dụng giữa các nước. 40
2.4 Kết luận chương 2. 43
CHƯƠNG 3. ỨNG DỤNG MÔ HÌNH SOM TRONG BÀI TOÁN NGÂN HÀNG . 45
3.1 Phát biểu bài toán. 45
3.2 Giới thiệu công cụSOM Toolbox . 46
3.3 Cấu trúc chương trình . 47
3.3.1 Xây dựng tập dữliệu. 47
3.3.2 Xửlý dữliệu trước huấn luyện. 52
3.3.3 Khởi tạo SOM và huấn luyện. 52
3.3.4 Mô phỏng (trực quan hoá). 56
3.3.5 Phân tích kết quả. 59
3.4 Một sốnhận xét. 60
3.4.1 Độphức tạp tính toán. 60
3.4.2 Kết quảchạy chương trình. 63
3.4.3 So sánh với các công cụkhác. 71
3.5 Kết luận chương 3. 73
KẾT LUẬN. 74
TÀI LIỆU THAM KHẢO . 75
Training: 0/ 0 s Training: 0/ 0 s Final quantization error: 1.071 Final topographic error: 0.033 pause % An phim bat ky de tiep tuc... -66- % BUOC 4: TRUC QUAN HOA SELF-ORGANIZING MAP: SOM_SHOW % ===================================================== colormap(1-gray) som_show(sMap,'norm','d') pause % An phim bat ky de tiep tuc... -67- % BUOC 4: TRUC QUAN HOA SELF-ORGANIZING MAP: SOM_SHOW % ===================================================== h=zeros(sMap.topol.msize); h(1,2) = 1; som_show_add('hit',h(:),'markercolor','r','markersize',0.5,'subplot','all') pause % An phim bat ky de tiep tuc... -68- % BUOC 4: TRUC QUAN HOA SELF-ORGANIZING MAP: SOM_SHOW % ===================================================== som_show(sMap,'umat','all','empty','Labels') pause % An phim bat ky de tiep tuc... -69- Kết quả trên cho thấy thông tin khách hàng sử dụng công cụ SOM ToolBox có 03 cụm: Cụm 1: có khách hàng BR Cụm 2: gồm các khách hàng A, D, FA, CE, B, CA, BD, CH, BA, CD, BN, BC, CK, CS, BJ. Cụm 3: gồm các khách hàng AL, AW, AX, CB, AP, AV, DO, AQ, CZ, CP, BF, BY, T, AJ, EQ, X, AH, CM, BE, H, P, CN, CL, BQ, J, S, BW, BM, CX, CU. % BUOC 4: TRUC QUAN HOA SELF-ORGANIZING MAP: SOM_SHOW % ===================================================== som_show_add('label',sMap,'Textsize',8,'TextColor','r','Subplot',2) pause % An phim bat ky de tiep tuc... -70- % STEP5: CLUSTERING OF THE MAP % ===================== sM = som_autolabel(sM,sD,'vote'); kich thuoc cua bmu: 150 kich thuoc cua Labels: 66 subplot(1,3,1) [c,p,err,ind] = kmeans_clusters(sM, 7); %Chia SOM thành 07 cum n_max: 7 c_max: 5 plot(1:length(ind),ind,'x-') [dummy,i] = min(ind) dummy = 0.7652 i = 5 %So cum co duoc tu thuat toán subplot(1,3,2) [Pd,V,me,l] = pcaproj(sD,2); Pm = pcaproj(sM,V,me); Code = som_colorcode(Pm); hits = som_hits(sM,sD); U = som_umat(sM); Dm = U(1:2:size(U,1),1:2:size(U,2)); Dm = 1-Dm(:)/max(Dm(:)); Dm(find(hits==0)) = 0; som_cplane(sM,Code,Dm); subplot(1,3,3) som_cplane(sM,cl) pause % Strike any key to continue... -71- 3.4.3 So sánh với các công cụ khác Cho đến nay phần lớn các ứng dụng của SOM được xây dựng bằng các phần mềm bởi các nhà nghiên cứu. Công cụ SOM ToolBox và SOM_PAK là các công cụ có sẵn và không cần bản quyền. Trong phạm vi của luận văn đã sử dụng công cụ SOM ToolBox để áp dụng cho bài toán phân loại khách hàng tín dụng của Ngân hàng. Công cụ SOM_PAK, một công cụ của có giá trị của trường Đại học Kỹ thuật Helsinki. SOM_PAK đặc biệt phù hợp với các nghiên cứu khoa học chạy trên máy UNIX, không dùng cho các hệ điều hành của Microsoft (MS DOS, WINDOWS). Ngoài ra, còn có các công cụ phần mềm thương mại cho SOM có trên thị trường [8]. Về cơ bản các phần mềm này cũng được xây dựng là như nhau. Tuy nhiên các phần mềm thương mại được thiết kê phù hợp với các hệ điều hành chuẩn và có thêm bước xử lý trước và xử lý sau dữ liệu. Sau đây là một danh sách các phần mềm thương mại hiện có: 1. SAS Neural Network Application 2. Professional II+ from NeuralWorks 3. MATLAB Neural Network Toolbox 4. NeuroShell2/NeuroWindows 5. NeuroSolutions v3.0 6. NeuroLab, A Neural Network Library 7. havFmNet++ 8. Neural Connection 9. Trajan 2.1 Neural Network Simulator 10. Viscovery® Một công cụ mới nhất hiện nay là Viscovery®, một sản phẩm của Eudaptics Software GmbH, là công cụ có giao diện thân thiện, linh hoạt và là công cụ mạnh cho việc tạo SOM. Viscovery® cung cấp một số đặc điểm quan trọng cần thiết -72- trong các ứng dụng tài chính, kinh tế và marketing mà ở các công cụ không có bản quyền không có được. Dưới đây là một số so sánh giữa các công cụ SOM với nhau [8] Các chỉ tiêu Viscovery® SOM_PAK SOM Toolbox NeNet Hệ điều hành Windows 95 Windows NT 4.0 UNIX Ms DOS MatLab Version 5.0 trở lên Windows Tiền xử lý Có 4 chọn lựa không có Có Có Đặc điểm SOM • Thuật toán Thuật toán chuẩn Thuật toán chuẩn Thuật toán chuẩn Thuật toán chuẩn • Kích thước ma trận Không giới hạn. Không giới hạn. Không giới hạn. Không giới hạn. • Khởi tạo ma trận Lục giác. Chữ nhật, lục giác. Chữ nhật, lục giác. Chữ nhật, lục giác. • Huấn luyện Mặt phẳng chính Tuyến tính, ngẫu nhiên Tuyến tính, ngẫu nhiên Tuyến tính, ngẫu nhiên • Gán nhãn Định nghĩa trước Bất kỳ giai đoạn nào Bất kỳ giai đoạn nào Bất kỳ giai đoạn nào • Xử lý thành phần thiếu Tự động, bằng tay, kéo thả Tự động, bằng tay Tự động, bằng tay Tự động, bằng tay • Tốc độ Có thể xử lý, Nhanh Có thể xử lý, Nhanh Có thể xử lý, Vừa phải Có thể xử lý, Nhanh • Giới hạn đầu Không Không Không Tối đa [100x100] -73- vào • Trực quan hoá U-matrix, component planes, trajectories, Iso-contours U-matrix, component planes, trajectories U-matrix, component planes, trajectories, hit historgrams U-matrix, component planes, trajectories, hit historgrams Xử lý sau Có Có Không Không Giao diện Thân thiện. Giao diện OLE: MS Excel, Text file, SQL & DB2 Câu lệnh C. Giao diện OLE: Text file GUI (Matlab) Giao diện OLE: Text file GUI (Windows 95) Giao diện OLE: Text file 3.5 Kết luận chương 3 Áp dụng phương pháp SOM vào bài toán cụ thể trong Ngân hàng, bài toán phân tích thông tin khách hàng là các Doanh nghiệp có nhu cầu vay vốn. Nội dung chính trong chương này là: - Tìm hiểu về quy trình tác nghiệp tại phòng Tín dụng của Ngân hàng đã giải quyết bài toán. - Tìm hiểu bộ công cụ SOM ToolBox, từ đó xây dựng chương trình giải quyết bài toán. - Một số kết quả thu được khi chạy chương trình. - Đánh giá, so sánh bộ công cụ SOM Toolbox với các công cụ khác trên thị trường. -74- KẾT LUẬN Mạng nơron là một phương pháp rất thích hợp trong khai phá dữ liệu với mô hình học máy, đặc biệt là học không giám sát. Với trên 5000 ứng dụng trên nhiều lĩnh vực, thuật toán học mạng nơron theo SOM rất hữu dụng trong các bài toán tài chính kinh tế. Nhiều công trình nghiên cứu đã khẳng định thuật toán SOM là phù hợp với các ứng dụng có khối lượng dữ liệu lớn như dữ liệu trong Ngân hàng. 1. Luận văn đã thực hiện được kết quả sau: - Trình bày một cách tổng quát về mô hình mạng nơron và ứng dụng mạng nơron trong khai phá dữ liệu. Trình bày một cách hệ thống các giải pháp học mạng nơron không giám sát và có giám sát. - Nghiên cứu, phân tích việc sử dụng thuật toán SOM giải quyết bài toán phân cụm theo mô hình mạng nơron. - Nghiên cứu cấu trúc hoạt động của bộ công cụ SOM Toolbox và phương pháp sử dụng công cụ để giải quyết bài toán phân cụm dữ liệu. - Xây dựng bài toán phân tích thông tin khách hàng tại Ngân hàng và sử dụng công cụ SOM Toolbox để giải quyết bài toán được đề xuất. Các kết quả thử nghiệm là phù hợp với các phân tích của các nhà chuyên môn trong lĩnh vực Ngân hàng. 2. Trong quá trình nghiên cứu để hoàn thành luận văn, thông qua việc tổng hợp và phân tích một hoạt động cốt yếu của Ngân hàng là phân tích thông tin khách hàng vay vốn, tôi nhận thấy việc phát triển nội dung luận văn là rất cần thiết để sử dụng mạng nơron trong khai phá dữ liệu Ngân hàng. Để mở rộng kết quả nội dung của luận văn này, hướng nghiên cứu và phát triển tiếp theo là tìm hiểu các phương pháp sinh luật từ mạng nơron (phần này đã được đề cập trong chương 1) và ứng dụng hỗ trợ quyết định trong đầu tư tài chính. -75- TÀI LIỆU THAM KHẢO TÀI LIỆU TIẾNG VIỆT [1]. Nguyễn Đình Thúc (2000), Trí tuệ nhân tạo Mạng nơron phương pháp & ứng dụng, Nhà xuất bản Giáo Dục. [2]. Trần Đức Minh (2002), Mạng nơron truyền thẳng và thuật toán lan truyền ngược, Luận văn Thạc sĩ cao học, Khoa Công nghệ, Trường Đại học Quốc gia Hà Nội. TÀI LIỆU TIẾNG ANH [3]. Bart De Ketelaere, Demitrios Moshou, Peter Coucke, Josse De Baerdemaeker (1997), A herachical Self-Organizing Map for classification problems. [4]. Boris Kovalerchuk & Evgenii Vityaev (2001), Data mining in finance advances in Relational and Hybrid Methods, Kluwer Academic Publishers. [5] David Sommer & Martin Golz (2001), Clustering of EEG-Segments Using Heirarchical Agglomerative Methods and Self-Organizing Maps, University of Applied Sciences Germany, Department of Computer Science. [6].Ed Guido Deboeck & Teuvo Khohonen (1998), Visual Intelligence in Finance using Self-organizing Maps, Chapter 7: Self-organizing Maps for Initial Data Analysis: let Financial Data Speak for Themselves, Speinger Verlag. [7]. Guido Deboeck, Ph.D (1999), Self-Organizing Maps facilitate knowleadge discovery in finance. [8]. Guido Deboeck, Ph.D (2000), Public domain versus commercial tools for creating Self-Organizing Maps. [9]. J. Han and M. Kamber (2001), Data Mining - Concepts and Techniques, Chapter 8: Cluster Analysis. Morgan Kaufmann. [10]. Juha Vesanto (1997), Data Mining techniques based on the Self-Organizing Map, Thesis for the degree of Master in Engineering, Helsinki University of Technology. -76- [11]. Juha Vesanto (2000), Using SOM in Data Mining, Licentiate’s thesis, Helsinki University of Technology. [12]. Mark W.Craven & Jude W.Shavlik (2000), Using Neural Networks for Data Mining, Submitted to the Future Generation Computer Systems specical issues on Data Mining. [13] Merja Oja, Samuel Kaski, and Teuvo Kohonen (2003), Bibliography of Self- Organizing Map (SOM) Papers: 1998-2001 Addendum, Neural Computing Surveys, 3: 1-156. [14]. Mark W.Craven (1996), Extracting comprehensible models from trained neural networks, Chapter 7: The Boosting – Based Perceptron learning algorithm, Doctor of philosophy (Computer Sciences). [15].Tom Gemano (1999), Self Organizing Maps. [16]. Usama M.Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth & Ramasamy Uthrusamy (1996), Advanes in Knowledge Discovery and Data mining,AAAI Press/The MIT Press.
File đính kèm:
- Luận văn Học mạng nơron theo mô hình SOM và ứng dụng trong bài toán quản lý khách hàng vay vốn ngân hàng.pdf