Dự đoán xu thế chỉ số chứng khoán Việt Nam sử dụng phân tích hồi quy quá trình Gauss và mô hình tự hồi quy trung bình động
Tóm tắt: Trong bài báo, chúng tôi trình bày phương pháp dự đoán xu thế chỉ số chứng khoán Việt Nam (VN-Index) gồm bốn bước, trong đó dữ liệu đầu vào là chuỗi thời gian chứa lịch sử chỉ số giá của VN-Index. Các tác giả thực hiện phân tách dữ liệu đầu vào thành các chuỗi thời gian thành phần bao gồm: xu thế, thời vụ và ngẫu nhiên. Chúng tôi áp dụng mô hình tự hồi quy trung bình động (ARMA: Autoregressive moving average) để dự đoán thành phần thời gian ngẫu nhiên ở một bước kế tiếp, phân tích hồi quy quá trình Gauss (GPR: Gaussian process regression) để dự đoán thành phần thời gian xu thế. Cuối cùng, kết quả dự đoán các thành phần riêng lẻ được tổng hợp lại để đưa ra kết quả dự đoán cuối cùng cho phương pháp kết hợp GPR-ARMA. Trong bài báo cũng trình bày các kết quả cài đặt thử nghiệm và phân tích hiệu quả của phương pháp được đề xuất
iêu chuẩn thông tin Akaike đạt giá trị nhỏ nhất. Chúng tôi cài đặt thực nghiệm phương pháp dự đoán GPR-ARMA và thu được đồ thị biểu diễn trực quan kết quả dự đoán của phương pháp GPR-ARMA cho cho 81 ngày giao dịch trong tập kiểm thử từ 14/04/2016 đến 09/08/2016 như Hình 7. Tiếp đến, chúng tôi tiến hành cài đặt từng phương pháp dự đoán riêng lẻ là phân tích GPR và mô hình ARMA sử dụng cùng bộ dữ liệu đầu vào và thực hiện dự đoán cùng tập dữ liệu kiểm thử với phương pháp kết hợp GPR-ARMA. Phương pháp phân tích GPR và mô hình ARMA được cài đặt bằng cách biến đổi dữ liệu đầu vào sử dụng lấy sai phân bậc một. Dữ liệu biến đổi này là đầu vào cho từng phương pháp và thực hiện truy ngược kết quả dự đoán cho chuỗi thời gian đầu vào tương tự công thức (9). Kết quả thực nghiệm từng phương pháp riêng lẻ, chúng tôi thu được đồ thị biểu diễn kết quả dự đoán như sau. Từ các hình 5, 6 và 7, ta có thể nhận thấy phương pháp kết hợp GPR-ARMA cho kết quả dự đoán tốt hơn khi mật độ các ngày dự đoán đúng nhiều hơn so với từng phương pháp riêng lẻ. Để định lượng chính xác, chúng tôi coi bài toán dự đoán xu thế chỉ số chứng khoán VN-Index là một bài toán phân lớp, bao gồm lớp tăng và lớp giảm. Kết quả dự đoán được xếp vào lớp tăng khi dự đoán chỉ số VN- Hình 7. Kết quả dự đoán xu thế chỉ số VN-Index theo phương pháp GPR-ARMA. Bảng I BẢNG NHẦM LẪN KẾT QUẢ DỰ ĐOÁN XU THẾ THEO PHƯƠNG PHÁP KẾT HỢP GPR-ARMA Tất cả các lớp Thuộc lớp Không thuộc lớp Dự đoán thuộc lớp TP = 50 FP = 31 Dự đoán không thuộc lớp FN = 31 TN = 50 Bảng II CÁC ĐẠI LƯỢNG SAI SỐ DỰ ĐOÁN CỦA TỪNG PHƯỚNG PHÁP DỰ ĐOÁN ĐƯỢC NGHIÊN CỨU Phương pháp RMSE MAD MAPE ARMA 6,034 4,717 0,0075 GPR 8,176 6,416 0,0102 GPR-ARMA 6,015 4,564 0,0073 Index ngày giao dịch kế tiếp lớn hay bằng chỉ số VN-Index ngày giao dịch hiện tại. Kết quả dự đoán được xếp vào lớp giảm khi dự đoán chỉ số VN-Index ngày giao dịch kế tiếp nhỏ hơn chỉ số VN-Index ngày giao dịch hiện tại. Từ kết quả thực nghiệm phương pháp GPR-ARMA, chúng tôi thu được bảng nhầm lẫn dự đoán (Bảng I) [16]. Từ Bảng nhầm lẫn của kết quả dự đoán xu thế chỉ số VN- Index, chúng tôi tính độ chính xác kết quả dự đoán xu thế chỉ số VN-Index theo phương pháp kết hợp GPR-ARMA theo công thức sau [16]: PGPR-ARMA = TP TP + FP = 50 50 + 31 = 61,73%. (16) Thực hiện tính toán tương tự, chúng tôi thu được độ chính xác dự đoán xu thế chỉ số VN-Index của phương pháp phân tích GPR là 48,15% và độ chính xác của phương pháp ARMA là 41,98%. Các đại lượng đánh giá sai số dự đoán bao gồm RMSE, độ lệch trị tuyệt đối trung bình (MAD: Mean absolute deviation) và phần trăm sai số trị tuyệt đối trung bình (MAPE: Mean absolute percentage error) của từng phương pháp được cho trong Bảng II. Hình 8 biểu diễn trực quan đồ thị dự đoán chỉ số VN- Index của từng phương pháp. Như vậy kết quả thực nghiệm cho thấy so với từng phương pháp dự đoán riêng lẻ, phương pháp dự đoán kết hợp GPR-ARMA cho độ chính xác cao 40 Tập V-1, Số 39, 11.2018 0 10 20 30 40 50 60 70 560 580 600 620 640 660 680 Pr ic e Days 80 GPR-ARMA GPR ARMA Real prices Hình 8. Kết quả dự đoán giá chỉ số VN-Index của từng phương pháp dự đoán được nghiên cứu. nhất là 61,73%. Đồng thời, các sai số dự đoán thấp hơn so với từng phương pháp dự đoán riêng lẻ. IV. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chúng tôi đã trình bày một phương pháp mới giải bài toán dự đoán xu thế VN-Index nhờ việc phân tách chuỗi thời gian đầu vào và sử dụng kết hợp phân tích GPR và mô hình ARMA để dự đoán các chuỗi thời gian thành phần một cách hợp lý, qua đó tận dụng ưu điểm của từng phương pháp dự đoán riêng lẻ. Thành phần xu thế thể hiện xu thế rõ ràng hơn nhờ việc loại bỏ nhiễu là thành phần ngẫu nhiên, nên việc áp dụng phân tích GPR làm tăng khả năng học để nhận biết các mẫu hình lặp lại trong chuỗi xu thế. Thành phần ngẫu nhiên có tính dừng, có giá trị biến thiên ngẫu nhiên, nên phù hợp để áp dụng mô hình ARMA dự đoán cho thành phần ngẫu nhiên này. Kết quả dự đoán các thành phần riêng lẻ được tổng hợp lại để đưa ra kết quả dự đoán cuối cùng cho phương pháp kết hợp GPR-ARMA. Kết quả thực nghiệm cho thấy, với cùng bộ dữ liệu đầu vào và cùng tập kiểm thử tiến hành dự đoán, phương pháp kết hợp GRP- ARMA cho độ chính xác cao nhất là PGPR-ARMA = 61,73% (dự đoán đúng 50 ngày trong số 81 ngày tiến hành dự đoán). Các phương pháp dự đoán riêng lẻ là phân tích GPR và mô hình ARMA có độ chính xác dự đoán thấp hơn nhiều so với phương pháp kết hợp. Đồng thời, giá trị các sai số dự đoán RMSE, MAD và MAPE của phương pháp kết hợp GPR- ARMA đều thấp hơn so với từng phương pháp dự đoán riêng lẻ. Phương pháp của chúng tôi đã tận dụng được ưu điểm của từng phương pháp dự đoán riêng lẻ để có kết quả dự đoán tốt hơn. Từ đó khẳng định tính đúng đắn của phương pháp dự đoán kết hợp GPR-ARMA được đề xuất. Mỗi mô hình định lượng được sử dụng trong bài báo này đều có thể được cải tiến nhằm tăng độ chính xác dự đoán của phương pháp kết hợp GPR-ARMA. Với mô hình ARMA, việc biến đổi dữ liệu đầu vào phù hợp để làm giảm khoảng cách biến thiên giữa các điểm có thể tăng độ chính xác của phương pháp này. Với phân tích GPR, việc lựa chọn các lớp hàm hiệp phương sai tốt có thể cải thiện đáng kể độ chính xác của phương pháp này. Một hướng phát triển tiếp theo là sử dụng các giải thuật xấp xỉ để cải thiện tốc độ tính toán cho phân tích GPR khi dữ liệu đầu vào lớn. Cuối cùng, phương pháp GPR-ARMA là phương pháp dự đoán tổng quát cho chuỗi thời gian bất kì nên phương pháp này có thể sử dụng để dự đoán các chuỗi thời gian khác như giá cổ phiếu, hay giá của các chỉ số chứng khoán khác như chỉ số S&P 500, Nasdaq, Dow Jones, FTSE 100, BSE SENSEX. TÀI LIỆU THAM KHẢO [1] C. E. Rasmussen and C. K. Williams, “Gaussian processes for machine learning. 2006,” The MIT Press, Cambridge, MA, USA, vol. 38, pp. 715–719, 2006. [2] B. Wang and T. Chen, “Gaussian process regression with multiple response variables,” Chemometrics and Intelligent Laboratory Systems, vol. 142, pp. 159–165, 2015. [3] M. T. Farrell and A. Correa, “Gaussian process regression models for predicting stock trends,” Relation, vol. 10, pp. 1–9, 2007. [4] P. J. Brockwell, R. A. Davis, and M. V. Calder, Introduction to time series and forecasting, 2nd ed. Springer, 2010. 41 Các công trình nghiên cứu phát triển Công nghệ Thông tin và Truyền thông [5] G. E. Box, G. M. Jenkins, G. C. Reinsel, and G. M. Ljung, Time series analysis: forecasting and control, 5th ed. John Wiley & Sons, 2015. [6] P. Mondal, L. Shit, and S. Goswami, “Study of effectiveness of time series modeling (arima) in forecasting stock prices,” International Journal of Computer Science, Engineering and Applications, vol. 4, no. 2, pp. 13–29, 2014. [7] G. Dutta, P. Jha, A. K. Laha, and N. Mohan, “Artificial neural network models for forecasting stock price index in the bombay stock exchange,” Journal of Emerging Market Finance, vol. 5, no. 3, pp. 283–295, 2006. [8] Y. Zuo and E. Kita, “Up/down analysis of stock index by us- ing bayesian network,” Engineering Management Research, vol. 1, no. 2, pp. 46–52, 2012. [9] S. S. Patil, K. Patidar, and M. Jain, “Stock market prediction using support vector machine,” International Journal of Current Trends in Engineering & Technology, vol. 2, no. 1, pp. 18–25, 2016. [10] T. Awokuse and T. Ilvento, “Using statistical data to make decisions-module 6: Introduction to time series fore- casting,” University of Delaware, College of Agriculture and Natural Resources, Food and Resource Economics, 2012. [Online]. Available: BUAD820/MOD604.pdf [11] E. Haven, P. Molyneux, J. O. Wilson, S. Fedotov, and M. Duygun, The Handbook of Post Crisis Financial Mod- elling. Springer, 2016. [12] Đỗ Văn Thành, Nguyễn Minh Hải, “Phân tích và dự báo chỉ số thị trường chứng khoán bằng sử dụng chỉ số báo trước,” in Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR’9), Cần Thơ, Việt Nam, Aug., pp. 559–565. [13] Hồ Thủy Tiên, Hồ Thu Hoài, Ngô Văn Toàn, “Mô hình hóa biến động thị trường chứng khoán: Thực nghiệm từ việt nam,” Tạp chí Khoa học ĐHQGHN: Kinh tế và Kinh doanh, vol. 33, no. 3, pp. 1–11, 2017. [14] M. H. Nguyen and O. Darné, “Forecasting and risk management in the vietnam stock exchange,” Laboratoire d’Economie et de Management Nantes-Atlentique Université de Nantes, 2018. [Online]. Available: https://halshs.archives- ouvertes.fr/halshs-01679456 [15] M. Neumann, S. Huang, D. E. Marthaler, and K. Kersting, “pygps: A python library for gaussian process regression and classification,” The Journal of Machine Learning Research, vol. 16, no. 1, pp. 2611–2616, 2015. [16] C. D. Manning, P. Raghavan, and H. Schu¨tze, Introduction to information retrieval. Cambridge University Press, 2012. Huỳnh Quyết Thắng sinh năm 1967 tại Hà Nội. Ông tốt nghiệp Trường Đại học Điện-Máy Varna, Cộng hòa Bungary, năm 1990; nhận bằng Tiến sĩ tại Trường Tổng hợp kỹ thuật Varna (TU Varna), Cộng hòa Bungary, năm 1995; nhận học hàm PGS năm 2007. Hiện nay, ông đang công tác tại Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội. Lĩnh vực nghiên cứu ông quan tâm là Techniques and Math models in Software Quality Prediction/Measurement; Secure Coding, Program Analysis; Methods in Software Development; Cost/Effort Evaluation. Phùng Đình Vũ sinh năm 1989 tại Nam Định. Ông tốt nghiệp Đại học và Thạc sĩ Công nghệ thông tin tại Trường Đại học Bách khoa Hà Nội năm 2012 và 2017. Lĩnh vực nghiên cứu ông quan tâm là Các mô hình định lượng như Gaussian Process, mạng Nơ-ron, Giải thuật di truyền, mạng Bayes, Support Vector Machine. Tống Văn Vinh sinh năm 1997 tại Hà Nội. Tác giả là sinh viên năm thứ tư, lớp Kỹ sư Tài năng, chuyên ngành Công nghệ Thông tin, Trường Đại học Bách khoa Hà Nội. Lĩnh vực nghiên cứu quan tâm của tác giả là Gaussian Process, mạng Nơ-ron, Support Vector Machine, mạng Bayes. 42
File đính kèm:
- du_doan_xu_the_chi_so_chung_khoan_viet_nam_su_dung_phan_tich.pdf