Xử lý dữ liệu thiếu bằng biểu đồ chuẩn hóa đơn vị (SLP) và Support Vector Regression (SVR)

TÓM TẮT

Trong những năm gần đây, việc nghiên cứu và ứng dụng các kỹ thuật khai

thác dữ liệu gặp phải nhiều khó khăn, thách thức lớn, trong đó có vấn đề thiếu

những giá trị thuộc tính của dữ liệu. Có nhiều nguyên nhân khác nhau dẫn tới

vấn đề này: thiết bị thu thập bị hỏng, có sự từ chối cung cấp dữ liệu nhằm bảo vệ

tính riêng tư, có sai sót khi nhập dữ liệu hoặc có các sự cố xảy ra trong quá trình

truyền dữ liệu,. Trong đó, việc thiếu dữ liệu phục vụ công tác nghiên cứu, dự báo

phụ tải điện là một trong những vấn đề nan giải đối với ngành điện. Hiện các

Công ty điện lực đang thực hiện việc này bằng cách nội suy từ các giá trị đo đếm

của các ngày trước, giờ trước một cách thủ công, không chuẩn xác làm ảnh hưởng

không nhỏ đến kết quả phân tích, xử lý dữ liệu trong quá trình nghiên cứu, dự

báo phụ tải. Bài báo đề xuất một phương pháp xử lý dữ liệu thiếu bằng cách xây

dựng Biểu đồ chuẩn hóa đơn vị (SLP) trên cơ sở bộ dữ liệu phụ tải điện quá khứ

(chu kỳ 60 phút), kết hợp các giải thuật học máy SVR (NN/RD) để xây dựng lại

đường đặc tuyến phụ tải từ đó ước lượng các dữ liệu đã mất hoặc không ghi nhận

được trong quá trình đo đếm.

pdf6 trang | Chuyên mục: Thông Tin Số | Chia sẻ: yen2110 | Lượt xem: 255 | Lượt tải: 0download
Tóm tắt nội dung Xử lý dữ liệu thiếu bằng biểu đồ chuẩn hóa đơn vị (SLP) và Support Vector Regression (SVR), để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên
  
Với ( )Tn ny w x b   , C là hằng số chuẩn hóa giống 
như  nhưng được nhân với hàm lỗi thay vì w 2 . 
Để cho phép một số điểm nằm ngoài ống ε, ta sẽ đưa 
thêm các biến lỏng (slack variable) vào. Đối với mỗi điểm 
dữ liệu xn, ta cần hai biến lỏng n 0  và ˆn 0  , trong đó 
n 0  ứng với điểm mà tn > y(xn) + ε (nằm ngoài và phía 
trên ống) và ˆn 0 
ứng với điểm mà tn < y(xn) - ε (nằm 
ngoài và phía dưới ống). 
 Hình 3. Minh họa cho các biến lỏng ξn 
Điều kiện để một điểm đích nằm trong ống là: 
n n ny t y     với yn = y(xn). Với việc sử dụng các biến 
lỏng, ta cho phép các các điểm đích nằm ngoài ống (ứng 
với các biến lỏng > 0) và như thế thì điều kiện bây giờ sẽ là: 
ˆ
n n n
n n n
t y
t y
 
 
  
  
Như vậy, ta có hàm lỗi cho SVR: 
ˆ( w )
N
2
n n
n 1
1C
2
 

  
Mục tiêu của ta là tối thiểu hóa hàm lỗi này với các ràng 
buộc: 
ˆ;
ˆ
n n
n n n
n n n
0 0
t y
t y
 
 
 
 
  
  
Dùng hàm Lagrange và điều kiện Karush-Kuhn-Tucker, 
ta có bài toán tối ưu hóa tương đương: 
ˆ ˆ( )( ) ( , )
ˆ ˆ( ) ( )
 
 
  
   

 
N N
n n m m n m
n 1 m 1
N N
n n n n n
n 1 n 1
1 a a a a k x x
2
a a a a t
Với k là hàm nhân: k(x, x’) = Φ(x)TΦ(x’). Bất kỳ một hàm 
nào thỏa điều kiện Mercer thì đều có thể được dùng làm 
hàm nhân. Hàm nhân được sử dụng phổ biến nhất là hàm 
Gaussian: 
2
i j j jk(x ,x ) exp( x x )   
Cực đại hóa với các ràng buộc: 
ˆ
ˆ( )
n
n
N
n n
n 1
0 a C
0 a C
a a 0

 
 
 
Từ đây, ta có hàm hồi qui của SVR: 
ˆ( ) ( ) ( , )
N
n n n m
n 1
y x a a k x x b

   
Như vậy, với SVR sử dụng hàm lỗi ε-insensitive và hàm 
nhân Gaussian ta có ba tham số cần tìm: hệ số chuẩn hóa 
C, tham số  của hàm nhân Gaussian và độ rộng của ống ε 
[9]. Cả ba tham số này đều ảnh hưởng đến độ chính xác 
dự đoán của mô hình và cần phải chọn lựa kỹ càng. Nếu C 
quá lớn thì sẽ ưu tiên vào phần độ lỗi huấn luyện, dẫn đến 
mô hình phức tạp, dễ bị quá khớp. Còn nếu C quá nhỏ thì 
lại ưu tiên vào phần độ phức tạp mô hình, dẫn đến mô 
hình quá đơn giản, giảm độ chính xác dự đoán. Ý nghĩa 
của ε cũng tương tự C. Nếu ε quá lớn thì có ít vectơ hỗ trợ, 
làm cho mô hình quá đơn giản. Ngược lại, nếu ε quá nhỏ 
thì có nhiều vectơ hỗ trợ, dẫn đến mô hình phức tạp, dễ bị 
quá khớp. Tham số  phản ánh mối tương quan giữa các 
vectơ hỗ trợ nên cũng ảnh hưởng đến độ chính xác dự 
đoán của mô hình. 
2.4. Biểu đồ chuẩn hóa đơn vị (SLP) 
Quan sát đồ thị phụ tải các ngày trong một tuần và một 
số ngày lễ đặc biệt trong năm của khu vực thành phố Hồ 
Chí Minh (hình 4) ta thấy: sự biến đổi giữa các ngày thường 
(từ thứ 3 đến thứ 6) không có nhiều biến động và có cùng 
một kiểu biểu đồ phụ tải. Đối với đồ thị phụ tải ngày thứ 2 
thì có sự biến đổi khác biệt với ngày thường tại khoảng thời 
từ 0h00 đến 9h00, do có sự chuyển tiếp nhu cầu từ ngày 
chủ nhật. 
Đối với đồ thị phụ tải ngày thứ 7 thì có sự biến đổi 
nhưng không nhiều so với ngày thường, chủ yếu nhu cầu 
phụ tải suy giảm vào buổi chiều tối, do bắt đầu cho ngày 
nghỉ cuối tuần. Riêng đối với đồ thị phụ tải ngày Chủ nhật 
thì hoàn toàn khác với các ngày thường (nhu cầu sử dụng 
điện xuống thấp). 
 CÔNG NGHỆ 
 Tạp chí KHOA HỌC & CÔNG NGHỆ ● Số 50.2019 24
KHOA HỌC
Hình 4. Đồ phụ tải một số ngày trong năm 
Khi quan sát biểu đồ phụ tải các ngày Tết Dương lịch và 
Tết Âm lịch thì chúng ta thấy sự khác biệt hoàn toàn, đồ thị 
gần như bằng phẳng và nhu cầu phụ tải xuống khá thấp do 
đây là các ngày nghỉ. Riêng ngày Tết Âm lịch thì nhu cầu 
phụ tải xuống thấp nhất, do đây là kỳ nghỉ kéo dài nhất 
trong năm (có thể từ 6 - 9 ngày). 
Biểu đồ phụ tải chuẩn hóa đơn vị (Standardized Load 
Profiles - SLP) được xây dựng bằng cách lấy giá trị công suất 
thu thập theo chu kỳ 60 phút chia cho công suất cực đại 
của nó. Cần phải xây dựng SLP cho 365 ngày/ năm. Một số 
SLP điển hình: 
Hình 5. SLP một số ngày trong năm 
Qua quan sát, biểu đồ phụ tải chuẩn hóa đơn vị thể hiện 
được hết tất cả các đặc tính tải theo từng thời điểm, mùa vụ 
và các ngày lễ, Tết (Dương lịch, Nguyên Đán), chúng ta 
thấy mức độ tương đồng của SLP về mặt hình dáng, độ lớn 
từng chu kỳ. Do đó, Biểu đồ phụ tải chuẩn hóa đơn vị (SLP) 
chính là một điểm đặc biệt và cũng là bộ thông số đầu vào 
quan trọng của quá trình huấn luyện của các thuật toán 
học máy SVR (NN) để xây dựng lại đường đặc tuyến phụ tải 
từ đó ước lượng các dữ liệu đã mất hoặc không ghi nhận 
được trong quá trình đo đếm. 
 Lưu đồ giải thuật: 
Bài báo đề xuất một phương pháp xử lý dữ liệu thiếu 
bằng cách xây dựng Biểu đồ chuẩn hóa đơn vị (SLP) trên cơ 
SCIENCE TECHNOLOGY 
Số 50.2019 ● Tạp chí KHOA HỌC & CÔNG NGHỆ 25
sở bộ dữ liệu phụ tải điện quá khứ chu kỳ 60 phút/lần của 
03 năm trước đó. Đồng thời, kết hợp các giải thuật SVR (NN) 
để xây dựng lại hàm hồi qui (đường đặc tuyến phụ tải) từ 
đó ước lượng các dữ liệu đã mất hoặc không ghi nhận được 
trong quá trình đo đếm. 
Trên cơ sở SLP của từng chu kỳ của bộ dữ liệu trong quá 
khứ, chúng ta có thể xây dựng bộ dữ liệu SLP cho các chu 
kỳ cần dự báo trong tương lai và cần chuẩn xác đến từng 
chu kỳ, từng loại ngày (ngày lễ, ngày thường, ngày làm việc, 
ngày nghỉ,), từng tuần, từng tháng. 
Hình 6. Lưu đồ giải thuật xử lý dữ liệu thiếu 
Biểu đồ phụ tải chuẩn hóa đơn vị (SLP) sẽ được đưa vào 
các modules xây dựng hàm hồi qui theo giải thuật SVR 
(Support Vector Regression), NN (Neural Network) để xây 
dựng các hàm hồi qui. Sau đó sử dụng bộ dữ liệu nêu trên 
để kiểm tra, đánh giá sai số của các hàm hồi qui, từ đó lựa 
chọn ra được hàm hồi qui có sai số thấp nhât để làm hàm 
hồi qui ước lượng dữ liệu thiếu. 
3. KẾT QUẢ NGHIÊN CỨU 
3.1. Dữ liệu đầu vào 
Dữ liệu đo đếm của phụ tải sử dụng trong việc xây dựng 
thuật toán gồm: số liệu công suất (Pmax), điện năng tiêu thụ 
(Atổng) và nhiệt độ (t0) theo từng giờ, từng ngày trong tháng 
của các phụ tải tại Tổng công ty Điện lực TP.HCM. Xét một 
chuỗi dữ liệu đo đếm trong khoảng thời gian từ ngày 
01/01/2014 đến 17/12/2018. 
Trong đó có một số chu kỳ dữ liệu điện năng tiêu thụ 
(Atổng) bị thiếu do gián đoạn đo đếm (lỗi giá trị = 0) và lỗi 
ghi nhận vượt quá (lớn bất thường), để phục vụ nghiên cứu 
thì cần phải hiệu chỉnh. 
Hình 7. Một số ngày dữ liệu bị lỗi một vài chu kỳ 
3.2. Kết quả xử lý dữ liệu thiếu 
Hình 8. Đường cong phụ tải được xây dựng lại 
 CÔNG NGHỆ 
 Tạp chí KHOA HỌC & CÔNG NGHỆ ● Số 50.2019 26
KHOA HỌC
Đặc điểm của SVR là cho ta một giải pháp thưa (sparse 
solution); nghĩa là để xây dựng được hàm hồi qui, ta không 
cần phải sử dụng hết tất cả các điểm dữ liệu trong bộ huấn 
luyện, những điểm có đóng góp vào việc xây dựng hàm hồi 
qui được gọi là những Support Vector (việc phân lớp cho 
một điểm dữ liệu mới sẽ chỉ phụ thuộc vào các support 
vector). Dựa trên mối quan hệ tuyến tính của ba thành 
phần số liệu công suất (Pmax), điện năng tiêu thụ (Atổng) và 
nhiệt độ (t0), cùng với bộ SLP – SVR (NN) bài báo đã xây 
dựng lại dường cong phụ tải các ngày bị lỗi 
Trên cơ sở SLP của từng chu kỳ của năm 2018 đã xây 
dựng, chương trình sẽ xây dựng lại biểu đồ phụ tải theo 
từng chu kỳ của các ngày bị lỗi để xuất ra kết quả ước 
lượng dữ liệu. 
Hình 9. Dữ liệu được xây dựng lại ngày 04/11/2018 
Hình 10. Dữ liệu được xây dựng lại ngày 07/11/2018 
Hình 11. Dữ liệu được xây dựng lại ngày 09/11/2018 
Hình 12. Dữ liệu được xây dựng lại ngày 11/11/2018 
4. KẾT LUẬN 
Dựa trên mối quan hệ tuyến tính của ba thành phần số 
liệu công suất (Pmax), điện năng tiêu thụ (Atổng) và nhiệt độ 
(t0), cùng với bộ SLP - SVR (NN), bài báo đã xây dựng được 
công cụ tự động ước lượng các dữ liệu bị lỗi mà trước đây 
phải thực hiện thực một cách thủ công. Biểu đồ chuẩn hóa 
đơn vị (SLP) đã góp một phần không nhỏ trong kỹ thuật 
ước lượng lại dữ liệu bị lỗi. Tuy dữ liệu ước lượng chưa hoàn 
toàn trùng khớp nhưng phần nào góp phần tạo công cụ 
nhằm nâng cao độ tin cậy trong việc phân tích, xử lý dữ liệu 
trong quá trình nghiên cứu phụ tải điện. 
TÀI LIỆU THAM KHẢO 
[1]. J. W. Grzymala-Busse and M. Hu, 2000. A comparison of several 
approaches to missing attribute values in data mining. Proceedings of the Second 
International Conference on Rough Sets and Current Trends in Computing 
RSCTC'2000, October 16-19, 2000, Canada, 340-347. 
[2]. Jochen Hardt, Max Herke, Tamara Brian, Wilfried Laubach, 2013. 
Multiple Imputation of Missing Data: A Simulation Study on a Binary Response. 
Open Journal of Statistics, 3, 370-378 
[3]. SAS Institute, 2005. Multiple Imputation for Missing Data: Concepts and 
New Approaches. 
[4]. Yuan Yang C., 2011. Multiple imputation for Missing Data: Concepts and 
New Development (SAS Version 9.0). SAS Institute Inc., Rockville, MA) 
[5]. Nakai M and Weiming Ke., 2011. Review of Methods for Handling Missing 
Data in Longitudinal Data Analysis. Int. Journal of Math. Analysis. Vol. 5, no.1, 1 -13. 
[6]. V.Vapnik, 1995. “The nature of statistical learning theory”. Springer, NY. 
[7]. S.R. Gunn, 1998: Support Vector Machines for Classification and 
Regression, Technical Report, Image Speech and Intelligent Systems Research 
Group, University of Southampton. 
[8]. V. Cherkassky, Y. Ma, 2002. Selection of Meta-parameters for Support 
Vector Regression. International Conference on Artificial Neural Networks, 
Madrid, Spain, Aug. pp. 687 - 693. 
[9]. D. Basak, S. Pal, D.C. Patranabis, Oct. 2007: Support Vector Regression, 
Neural Information Processing – Letters and Reviews, Vol. 11, No. 10, pp. 203 – 224. 
[10]. A.J. Smola, B. Schölkopf, Aug. 2004: A Tutorial on Support Vector 
Regression, Statistics and Computing, Vol. 14, No. 3, pp. 199 – 222. 
[11]. Understanding Support Vector Machine Regression and Support 
Vector Machine Regression,  
[12]. Thông tư số 33/2011/TT-BCT ngày 06/09/2011 của Bộ Công Thương về 
Quy định nội dung, phương pháp, trình tự và thủ tục nghiên cứu phụ tải điện 

File đính kèm:

  • pdfxu_ly_du_lieu_thieu_bang_bieu_do_chuan_hoa_don_vi_slp_va_sup.pdf