Luận văn Tóm tắt Kỹ thuật khai phá dữ liệu chuỗi thời gian áp dụng trong dự báo chứng khoán

Ngày nay, khi xã hội ngày càng phát triển thì lượng

thông tin càng tăng lên với tốc độbùng nổ. Lượng dữliệu

khổng lồ ấy là một nguồn tài nguyên vô giá nếu như

chúng ta biết cách phát hiện và khai thác những thông tin

hữu ích có trong đó. Nhưvậy vấn đề đặt ra với dữliệu của

chúng ta là việc lưu trữvà khai thác chúng. Các phương

pháp khai thác dữliệu truyền thống ngày càng không đáp

ứng được nhu cầu thực tế. Một khuynh hướng kỹ thuật

mới ra đời đó là Kỹthuật Khai phá dữliệu và khám phá tri

thức (Knownledge Discovery and Data mining - KDD).

Công nghệ khai phá dữ liệu ra đời đã cho phép ta khai

thác được những tri thức hữu dụng bằng việc trích xuất

những thông tin có mối quan hệhoặc mối tương quan nhất

định từ một kho dữ liệu lớn (cực lớn) mà bình thường

không thểnhận diện được từ đó giải quyết các bài toán tìm

kiếm, dựbáo các xu thế, các hành vi trong tương lai, và

nhiều tính năng thông minh khác. Ngày nay, các công

2

nghệ data mining được ứng dụng rộng rãi trong hầu hết

các lĩnh vực: phân tích dữliệu, dựbáo,

Một trong những vấn đềquan trọng nhất trong lĩnh

vực tài chính hiện đại là tìm kiếm

những cách thức hiệu quả để tóm tắt và hình dung dữ

liệu thị trường chứng khoán để cung cấp

cho các cá nhân hoặc tổchức những thông tin hữu ích về

các hành vi thịtrường hỗtrợviệc ra các quyết định đầu tư.

Số lượng lớn dữ liệu có giá trị được tạo ra bởi thị

trường chứng khoán đã thu hút được các nhà nghiên cứu

khám phá vấn đềnày bằng cách sửdụng các phương pháp

khác nhau.

pdf26 trang | Chuyên mục: Khai Thác Dữ Liệu và Ứng Dụng | Chia sẻ: dkS00TYs | Lượt xem: 2494 | Lượt tải: 5download
Tóm tắt nội dung Luận văn Tóm tắt Kỹ thuật khai phá dữ liệu chuỗi thời gian áp dụng trong dự báo chứng khoán, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
nhân tố) 
1.2.6. Chuỗi thời gian 
1.3. Ứng dụng của khai phá dữ liệu 
1.3.1. Dạng dữ liệu có thể khai phá 
Data Mining được ứng dụng rộng rãi nên nó có thể 
làm việc với rất nhiều kiểu dữ liệu khác nhau, một số dạng 
dữ liệu điển hình như: CSDL quan hệ, CSDL đa chiều 
(multidimentional structures, data warehouses), CSDL 
dạng giao dịch, CSDL quan hệ-hướng đối tượng, dữ liệu 
không gian và thời gian, Dữ liệu chuỗi thời gian, CSDL đa 
phương tiện, dữ liệu Text và Web... 
1.3.2. Ứng dụng của khai phá dữ liệu 
Khai phá dữ liệu là một lĩnh vực được quan tâm và 
ứng dụng rộng rãi. Một số ứng dụng điển hình trong khai 
phá dữ liệu có thể liệt kê: (i) phân tích dữ liệu và hỗ trợ ra 
quyết định; (ii) điều trị y học; (iii) phát hiện văn bản; (iv) 
8 
tin sinh học; (v) tài chính và thị trường chứng khoán; (vi) 
bảo hiểm... 
1.3.3.Ứng dụng của các kỹ thuật KPDL trong thị trường 
chứng khoán 
Ứng dụng điển hình của khai phá dữ liệu trong thị 
trường tài chính, chứng khoán đó là: phân tích tình hình 
tài chính và dự báo giá của các loại cổ phiếu trong thị 
trường chứng khoán từ đó mang lại cho các nhà đầu tư 
nhiều cơ hội để chọn lựa loại cổ phiếu cần đầu tư, có hình 
thức và quy mô giao dịch phù hợp nhằm đạt được giá trị 
gia tăng hiệu quả. 
1.3.3.1. Ứng dụng của cây quyết định 
1.3.3.2. Ứng dụng của mạng nơron 
1.3.3.3. Ứng dụng của phân cụm 
1.3.3.4. Ứng dụng của luật kết hợp 
1.3.3.5. Ứng dụng của phân tích nhân tố 
1.3.3.6. Ứng dụng của time series 
9 
Chương 2: KỸ THUẬT KHAI PHÁ DỮ LIỆU CHUỖI 
THỜI GIAN 
2.1. Bài toán dự báo 
Dự báo là một nhu cầu không thể thiếu cho những 
hoạt động của con người trong bối cảnh bùng nổ thông tin. 
Dự báo sẽ cung cấp những cơ sở cần thiết cho các hoạch 
định, và có thể nói rằng nếu không có khoa học dự báo thì 
những dự định tương lai của con người vạch ra sẽ không 
có sự thuyết phục đáng kể. 
Có rất nhiều phương pháp, kỹ thuật để giải quyết bài 
toán dự báo, trong đó có phương pháp dự báo theo chuỗi 
thời gian. ARIMA là mô hình dự báo định lượng theo thời 
gian, giá trị tương lai của biến số dự báo sẽ phụ thuộc vào 
xu thế vận động của đối tượng đó trong quá khứ (chuỗi dữ 
liệu quá khứ). 
2.2. Dữ liệu chuỗi thời gian 
Một chuỗi thời gian (Time Series) là một chuỗi các 
quan sát theo trật tự thời gian. Chủ yếu những quan sát 
này được thu thập ở những khoảng thời gian rời rạc, cách 
đều nhau. Các mô hình chuỗi thời gian được đặc biệt áp 
dụng trong dự báo ngắn hạn. Trong các bài toán dự báo 
10 
nói chung và các bài toán dự báo tài chính và chứng khoán 
nói riêng, dữ liệu thường được biểu diễn dưới dạng chuỗi 
thời gian. Trong các dạng dữ liệu được phân tích thì dữ 
liệu chuỗi thời gian luôn thuộc tốp đầu về tính phổ biến. 
2.2.1. Chuỗi thời gian thực 
2.2.2. Thành phần xu hướng dài hạn 
2.2.3. Thành phần mùa 
2.2.4. Thành phần chu kỳ 
2.2.5. Thành phần bất thường 
2.3. Mô hình ARIMA cho dữ liệu chuỗi thời gian 
2.3.1. Các công cụ áp dụng trong mô hình 
2.3.1.1. Hàm tự tương quan ACF (AutoCorrelation 
Function) 
 =


∑ 	 − 	
 − 

	

	.  
2.3.1.2. Hàm tự tương quan từng phần PACF 
y(t+k) = Ck1y(t+k-1) + Ck2y(t+k-2) + ... + Ckk-1y(t + 1) + 
Ckky(t) + e(t) (2.2) 
11 
Tổng quan, hàm tự tương quan từng phần được tính 
theo Durbin : 
 =
∑
∑
 (2.3) 
2.3.1.3. Mô hình AR(p) 
y(t)=a0+a1y(t-1)+a2y(t-2)+…apy(t-p)+e(t) (2.4) 
Mô hình AR(1): y(t) = a0 + a1y(t-1) + e(t) 
Mô hình AR(2): y(t) = a0 + a1y(t-1) + a2y(t-2) +e(t) 
2.3.1.4. Mô hình MA(q) 
y(t) = b0 + e(t) +b1e(t-1) + b2e(t-2) + ... +bqe(t-q) (2.5) 
Mô hình MA(1) : y(t) = b0 + e(t) + b1e(t-1) 
Mô hình MA(2) : y(t) = b0 + e(t) + b1e(t-1) + b2e(t-2) 
2.3.1.5. Sai phân I(d) 
Sai phân lần 1 (I(1)) : z(t) = y(t) – y(t-1) 
Sai phân lần 2 (I(2)) : h(t) = z(t) – z(t-1) 
12 
2.3.2. Mô hình ARIMA 
- Mô hình ARMA(p,q): 
y(t) = a0+a1y(t-1)+a2y(t-2)+...+apy(t-p)+e(t) 
+b1e(t-1)+b2e(t-2)+...+bqe(t-q) (2.6) 
- Mô hình ARIMA(p,d,q): 
Mô hình ARIMA (1, 1, 1): 
y(t) – y(t-1) = a0 + a1(y(t-1) – y(t-2) + e(t) + b1e(t-1)) 
Hoặc z(t) = a0 + a1z(t-1) + e(t) + b1e(t-1), 
Với z(t) = y(t) – y(t-1) ở sai phân đầu tiên: d = 1. 
Tương tự ARIMA(1,2,1): 
 h(t) = a0 + a1z(t-1) + e(t) + b1e(t-1), 
Với h(t) = z(t) – z(t-1) ở sai phân thứ hai: d = 2. 
2.3.3. Các bước phát triển mô hình. 
2.3.3.1. Xác định mô hình 
2.3.3.2. Ước lượng tham số 
2.3.3.3. Kiểm định độ chính xác 
2.3.3.4. Dự báo 
13 
Hình 2.16. Sơ đồ mô phỏng mô hình Box - Jenkins 
2.4. Phần mềm EVIEWS 
2.4.1. Giới thiệu phần mềm ứng dụng Eviews 
14 
Hình 2.17.Cửa sổ chính của Eviews [Nguồn: Eviews 
5 Users Guide, tr16] 
2.4.2. Áp dụng Eviews thi hành các bước của mô hình 
ARIMA 
2.4.2.1. Xác định mô hình 
2.4.2.2. Ước lượng mô hình, kiểm tra mô hình 
2.4.2.3. Dự báo 
15 
Chương 3: ÁP DỤNG MÔ HÌNH ARIMA CHO BÀI 
TOÁN DỰ BÁO CHỨNG KHOÁN 
3.1. Dữ liệu tài chính, chứng khoán 
Dữ liệu chứng khoán được biết tới như một chuỗi thời 
gian đa dạng bởi có nhiều thuộc tính cùng được ghi tại 
một thời điểm nào đó. Các thuộc tính của dữ liệu chứng 
khoán đó là: Open, High, Low, Close, Volume 
3.2. Mô hình ARIMA cho dự báo chứng khoán 
3.2.1. Quá trình xây dựng mô hình 
- Xác định mô hình 
- Ước lượng, kiểm tra mô hình 
- Dự báo 
3.2.2. Thiết kế mô hình ARIMA cho dữ liệu 
Các bước để xây dựng một mô hình như sau : 
1. Chọn tham biến 
2. Chuẩn bị dữ liệu 
• Xác định tính dừng của chuỗi dữ liệu 
• Xác định yếu tố mùa vụ 
• Xác định yếu tố xu thế 
16 
3. Xác định các thành phần p, q trong mô hình ARMA 
4. Ước lượng các tham số và chẩn đoán mô hình phù 
hợp nhất 
5. Dự báo ngắn hạn 
3.3. Thực nghiệm 
Sử dụng mô hình ARIMA và phương pháp Box – 
Jenkins để thực hiện 3 quá trình dự báo giá đóng cửa của: 
VnIndex, mã cổ phiếu ABT (của Công ty cổ phần xuất 
nhập khẩu thủy sản Bến Tre) và mã cổ phiếu ACB (của 
Ngân hàng Thương mại cổ phần Á Châu) trong ngắn hạn 
căn cứ vào các chuỗi dữ liệu quá khứ của các mã CK đó. 
3.2.1. Môi trường thực nghiệm 
3.2.2. Dữ liệu đầu vào 
Dữ liệu đầu vào của luận văn được lấy từ 
 Đó là 3 
file.CSV tương ứng với 3 mã CK được lấy từ website trên 
xuống. Dữ liệu có dạng: 
17 
Hình 3.1. Dữ liệu đầu vào. 
Tạo các workfile. 
3.2.3. Xử lý dữ liệu 
3.2.3.1. Kiểm tra tính dừng của chuỗi chứng khoán 
Dựa vào biểu đồ của biến giá đóng cửa của mỗi 
chuỗi chứng khoán. 
18 
Hình 3.6. Biểu đồ giá đóng cửa của ABT 
3.2.3.2. Nhận dạng mô hình 
- Xác định các tham số p, d, q trong mô hình ARIMA 
của từng mã CK dựa vào biểu đồ tự tương quan. 
Hình 3.9. Biểu đồ SAC và SPAC của chuỗi 
GIADONGCUA của VNINDEX 
19 
3.2.3.3. Ước lượng và kiểm định với mô hình ARIMA 
Hình 3.16. Ước lượng mô hình ARIMA(1,0,1) của ABT 
Hình 3.17. Kết quả mô hình ARIMA(1,0,1) của ABT 
20 
Hình 3.18. Kiểm tra phần dư của chuỗi ABT 
Bảng 3.2. Bảng tiêu chuẩn đánh giá các mô hình ARIMA 
của ABT 
Mô hình 
ARIMA 
BIC Adjusted R2 SEE 
ARIMA(1,0,0) 2.385271 0.814950 0.782972 
ARIMA(1,0,1) 2.345217 0.825445 0.760445 
ARIMA(1,0,2) 2.397569 0.816063 0.780614 
Mô hình được chọn cho chuỗi ABT là ARIMA(1,0,1) 
3.2.3. Thực hiện dự báo 
Thực hiện dự báo giá đóng cửa của VNINDEX, ABT, 
ACB trong vòng 8 ngày từ 11/09/2012 đến 20/09/2012 
21 
Hình 3.22. Dự báo 
Hình 3.23. Kết quả dự báo VNINDEX. 
22 
Bảng3.4. Bảng đánh giá giá dự báo VNINDEX so 
với giá thực tế 
Ngày Giá dự báo Giá thực 
tế 
Đánh giá Sai số 
(%) 
11/09/2012 390.8433 386.6 4.2433 1.09 
12/09/2012 391.1221 388.4 2.7221 0.70 
13/09/2012 391.3961 391.4 -0.0039 ~0.00 
14/09/2012 391.6655 398.9 -7.2345 1.85 
17/09/2012 391.9303 401.8 -9.8697 2.52 
18/09/2012 392.1906 394.5 -2.3094 0.59 
19/09/2012 392.4465 394.6 -2.1535 0.55 
20/09/2012 392.6980 389.3 3.3980 0.87 
Đánh giá: kết quả dự báo là khá chính xác (mức độ sai 
số rất thấp, từ xấp xỉ 0% đến 2.52%). 
23 
KẾT LUẬN 
Luận văn đã trình bày được tổng quan về khai phá dữ 
liệu: khái niệm, các kỹ thuật khai phá dữ liệu và các ứng 
dụng của khai phá dữ liệu. Trong đó luận văn tập trung 
vào kỹ thuật khai phá dữ liệu chuỗi thời gian áp dụng vào 
bài toán thực tế đang được quan tâm đó là bài toán dự báo 
nói chung và dự báo giá chứng khoán nói riêng. 
Luận văn cũng đã trình bày được một số nội dung cơ 
sở lý thuyết về chuỗi thời gian thực, về mô hình ARIMA 
(các công cụ áp dụng trong mô hình, quy trình xây dựng 
mô hình) và phần mềm Eviews, áp dụng Eviews để thi 
hành các bước của mô hình ARIMA trong dự báo chứng 
khoán. Tác giả cơ bản nắm được quy trình dùng phần 
mềm Eviews để xây dựng mô hình ARIMA cho dữ liệu 
thời gian thực, tính toán giá trị dự báo cho chuỗi dữ liệu 
chứng khoán. 
Luận văn đã áp dụng những cơ sở lý thuyết nghiên 
cứu tiến hành thực nghiệm trên ba chuỗi chứng khoán (chỉ 
số VnIndex, mã CK ABT, ACB) dựa trên dữ liệu lịch sử 
của mỗi chuỗi (gồm 257 quan sát trong quá khứ) và đã dự 
báo được giá đóng cửa của 10 ngày tiếp theo. Kết quả dự 
24 
báo đã được phân tích, kiểm tra, đối chiếu với giá thực tế 
và cho thấy kết quả đó là khá chính xác, độ tin cậy cao. 
Như vậy cũng cho thấy rằng mô hình ARIMA đưa ra cho 
mỗi chuỗi chứng khoán trong luận văn là khá phù hợp để 
dự báo ngắn hạn giá cổ phiếu. 
Bên cạnh những kết quả đã đạt được, luận văn còn 
một số hạn chế: 
- Thuật toán để ước lượng cũng như đánh giá còn nhiều 
hạn chế. 
- Trong các phiên giao dịch còn có thể có tác động của các 
yếu tố ngoại lai lớn như tâm lý nhà đầu tư, tác động của 
các thị trường chứng khoán khác, thông tin về sự thay đổi 
chính sách, … sẽ làm cho sai số dự báo tăng. Do đó kết 
quả của mô hình đưa ra vẫn chỉ mang tính chất tham khảo 
nhiều hơn. Đây chỉ là mô hình phân tích kĩ thuật, chưa thể 
dự báo một cách chính sách, bởi chỉ phụ thuộc vào một 
biến – Thời gian, trong khi quá trình dự báo phụ thuộc vào 
nhiều yếu tố. 
Hướng phát triển tiếp theo của đề tài: Xây dựng mô 
hình ARIMA đa biến: chỉ số của giá chứng khoán phụ 
thuộc vào nhiều biến khác nhau. 

File đính kèm:

  • pdfLuận văn tóm tắt Kỹ thuật khai phá dữ liệu chuỗi thời gian áp dụng trong dự báo chứng khoán.pdf
Tài liệu liên quan