Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc
TÓM TẮT
Tự động nhận dạng phân biệt tiếng nói với âm nhạc là công cụ quan trọng trong nhiều ứng dụng đa
phương tiện. Để nhận dạng phân biệt tiếng nói với âm nhạc, chúng tôi đã sử dụng ba đặc trưng: tần
suất vượt điểm không cao (HZCRR), tỷ lệ khung có năng lượng ngắn hạn thấp (LSTER), độ biến
thiên phổ (SF) và thuật toán sử dụng để huấn luyện cũng như nhận dạng là K-NN (K Nearest
Neighbor). Dữ liệu là các đoạn nhạc gồm nhiều thể loại từ nhạc không lời tới nhạc có lời (nhạc
Việt Nam, nhạc Rock, nhạc Pop, Đồng quê), các đoạn tiếng nói của giọng nam và nữ bằng tiếng
Việt. Trong bài báo này mục đích nghiên cứu ban đầu của chúng tôi chủ yếu là nhận dạng phân
biệt hai loại âm thanh: tiếng nói và âm nhạc với kết quả thu được có độ chính xác khá cao, với
tiếng nói có độ chính xác xấp xỉ 84%, âm nhạc là 92%. Trong tương lai chúng tôi mong muốn phát
triển hệ thống có khả năng nhận dạng phân biệt nhiều lớp âm thanh hơn
án K-NN [8] là phương pháp phân
loại dựa trên chỉ tiêu không gian khoảng cách.
Xác định một điểm thuộc miền nào bằng cách
tính toán dựa trên khoảng cách không gian.
Có nhiều phương pháp để tính khoảng cách
giữa các vectơ như phương pháp đo khoảng
cách Euclidean, phương pháp đo khoảng cách
Hamming, phương pháp đo khoảng cách
Mahalanobis hay phương pháp đo khoảng
cách City Block.
Bài toán: Giả sử ta có một không gian đa
chiều (Y1, Y2,,Yn) và có một tập hợp các
khu vực A, B trong đó:
- Khu vực A ta biết được sự tồn tại của các
đối tượng XA1, XA2, XAn với XAi={ YAi1,
YAi2,, YAin}
- Khu vực B ta chỉ biết sự tồn tại của các
đối tượng XB1, XB2, XBn với XBi={ YBi1,
YBi2,, YBin}
Có một đối tượng Xi ( Yi1, Yi2,, Yin) bất kì
ta cần xác định đối tượng Xi này thuộc khu
vực A hay B.
Hình 3: Mô tả thuật toán K-NN
Giải thuật: Trong tất cả các đối tượng đã xác
định rõ khu vực A và B, ta tìm K đối tượng
gần với Xi nhất, trong K đối tượng này sẽ xác
định xem có bao nhiêu đối tượng thuộc khu
vực A, bao nhiêu đối tượng thuộc khu vực B,
khu vực nào nhiều đối tượng gần Xi hơn thì
Xi có khả năng thuộc khu vực đó.
Để tính khoảng cách giữa các vectơ dùng
công thức:
D(X,X’)=
THỰC HIỆN HỆ THỐNG NHẬN DẠNG
PHÂN BIỆT TIẾNG NÓI VỚI ÂM NHẠC
Hệ thống có dạng tổng quát như hình 4.
Hoạt động của hệ thống gồm hai quá trình
riêng biệt: thứ nhất là quá trình học (huấn
luyện) và thứ hai là quá trình nhận dạng phân
biệt với tín hiệu đầu vào.
Quá trình huấn luyện: Tín hiệu đầu vào
được đưa vào phân tích đặc trưng. Tại đây
chúng được xử lý, tính toán và lấy ra giá trị
các đặc trưng cần trích chọn phục vụ cho việc
xây dựng hệ thống. Sau đó tới khối huấn
Đỗ Thị Loan và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 89 - 95
92
luyện được xử lý và lưu vào cơ sở dữ liệu
(CSDL) mẫu. Quá trình huấn luyện dùng
phương pháp học có giám sát nghĩa là chúng
ta đã biết rõ sự phân lớp trên tập dữ liệu mẫu
dùng để học, ở đây chỉ có hai lớp: tiếng nói và
âm nhạc. Các đặc trưng mẫu của từng lớp
được trích chọn lưu riêng vào CSDL.
Hình 4: Mô hình tổng quát của hệ thống
Quá trình nhận dạng phân biệt: Trình tự
thực hiện cũng như trên nhưng chỉ khác là tín
hiệu sau khi được trích chọn đặc trưng sẽ
được đưa vào khối nhận dạng phân biệt. Tại
khối này chúng ta phân tích đánh giá với
CSDL mẫu đã được huấn luyện thông qua
thuật toán K-NN. Kết quả này sau đó được
chuyển tới bộ ra quyết định để xác định xem
tín hiệu hiệu đó thuộc lớp tín hiệu nào. Vectơ
đặc trưng là vectơ 3 chiều vì ta chỉ chọn 3 đặc
trưng như đã trình bày ở trên.
Phân khung tín hiệu: Do tín hiệu tiếng nói
ổn định trong khoảng vài chục ms, nên khi
tiến hành các phép phân tích, biến đổi người
ta thường chia tín hiệu thành có đoạn nhỏ
khoảng 10 đến 30ms, đó được gọi là phân
khung, các khung tín hiệu liên tiếp có thể
chồng nhau khoảng ½ độ dài.
Hình 5: Phân khung tín hiệu
Tuy nhiên vấn đề khi phân khung của tín hiệu
đó chính là sai số của cả phép biến đổi so với
tín hiệu gốc, do đó nên sử dụng hàm cửa sổ
để hạn chế các sai số do độ dài hữu hạn của
các tín hiệu gây ra trong các phép biến đổi.
Hàm cửa sổ thường được dùng là Hamming
được cho bởi công thức sau:
)
1
2
cos(*46.054.0
−
Π
−=
N
nW n
KẾT QUẢ
Cài đặt hệ thống
Chúng tôi thực hiện hệ thống nhận dạng phân
biệt với tín hiệu đầu vào là các file âm thanh
chuẩn dạng WAVE (*.wav), việc tính toán,
xử lý, phân biệt đều thực hiện dựa trên file
wave này. Như đã phân tích ở trên quá trình
huấn luyện gồm các bước cơ bản sau:
Hình 6: Mô hình quá trình huấn luyện
Với mỗi dãy tín hiệu âm thanh đọc được, ta
thực hiện xác định khung tín hiệu, tính các
thông số cơ bản STE, ZCR, A của dãy tín hiệu.
Giao diện cài đặt của quá trình huấn luyện:
Hình 7: Giao diện huấn luyện, tạo dữ liệu mẫu
Đỗ Thị Loan và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 89 - 95
93
- Bên phải là đồ thị của tín hiệu: tại khung cửa
sổ thứ nhất là dạng tín hiệu âm thanh, tiếp theo
là năng lượng trong khoảng ngắn hạn và tần
suất vượt điểm không của tín hiệu âm thanh.
- Bên trái là các điều khiển: mở file wave,
nghe thử, xác định tiếng nói hay âm nhạc, lưu
dữ liệu.
Quá trình nhận dạng:
Hình 8: Mô hình quá trình nhận dạng
Quá trình nhận dạng có một số bước trùng
với quá trình huấn luyện như việc đọc dữ
liệu file wave, thông số cơ bản, tính các
thông số đặc trưng.
Hình 9: Giao diện nhận dạng phân biệt
Tương tự như giao diện huấn luyện, giao diện
nhận dạng cũng có các phần:
- Bên phải là đồ thì biểu diễn của tín hiệu: tại
khung cửa sổ thứ nhất là dạng tín hiệu của âm
thanh, tiếp theo là năng lượng trong khoảng
ngắn hạn và tần suất vượt điểm không của tín
hiệu âm thanh, tuy nhiên khác với giao diện
huấn luyện, giao diện nhận dạng còn có thêm
khung cửa sổ thứ 4 thể hiện đây là tiếng nói
hay âm nhạc (tiếng nói có biên độ bằng 2/3
khung còn âm nhạc có biên độ = 1/3 khung).
- Bên trái cũng là khung điều khiển mở,
chọn tín hiệu file wave. Ngoài ra còn có sự
lựa chọn tham số K (K là số phần tử thuộc lớp
đặc trưng mẫu gần với mẫu cần nhận dạng
phân biệt nhất).
Đánh giá
Chương trình thực hiện phân biệt tiếng nói và
âm nhạc dựa trên một tập các tín hiệu âm
thanh mẫu mà tôi sưu tầm có được : tập hợp
tiếng nói là tiếng Việt, tập hợp âm nhạc là các
thể loại nhạc không lời của một số trường
phái âm nhạc.
Tập hợp tiếng nói gồm có 1037 file là các file
phát âm các từ của tiếng Việt, mỗi file có độ
dài < 1s, có tần số lấy mẫu 16000Hz, bit rate
là 16bit/mẫu.
Tập hợp âm nhạc gồm có 77 file là các file
nhạc không lời của các thể loại R&B, Rock,
Country. Mỗi file có độ dài < 30s và có
cùng tần số lấy mẫu 16000Hz, bit rate
16bit/mẫu.
Các file dữ liệu mẫu trên đều là các file âm
thanh mono (một kênh).
Qua thử nghiệm, thống kê tôi thấy chương
trình đã thực hiện việc phân biệt tiếng nói và
âm nhạc với tỉ lệ chính xác tốt với các trường
hợp tiếng nói và âm nhạc riêng biệt.
Sau đây là kết quả thu được khi thử nghiệm:
Bảng 1: Kết quả thống kê cơ sở dữ liệu
Âm
nhạc
Tiếng
nói
Giá trị trung bình của
LSTER 0.2048 0.14599
Giá trị trung bình của
HZCRR 0.3942 0.2632
Giá trị trung bình của SF 0.3885 0.22
Đỗ Thị Loan và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 89 - 95
94
Bảng 2: Kết quả thống kê nhận dạng với một số
lượng đầu vào là tiếng nói và âm nhạc với K=3
Âm nhạc Tiếng nói
Nhận dạng là âm
nhạc
10838432
(92.36%)
945553
(15.56%)
Nhận dạng là
tiếng nói
897324
(7,64%)
5131722
(84.44%)
Tổng 11735756 (100%)
6077275
(100%
Bảng 3: Kết quả thống kê nhận dạng với một số
lượng đầu vào là tiếng nói và âm nhạc với K=5
Âm nhạc Tiếng nói
Nhận dạng là
âm nhạc
10878964
(92.7%)
974188
(16.03%)
Nhận dạng là
tiếng nói
856792
(7,3%)
5103087
(83.97%)
Tổng 11735756 (100%)
6077275
(100%)
KẾT LUẬN
Trong nghiên cứu này chúng tôi chủ yếu tập
trung phân tích đánh giá các đặc điểm vật lý,
đặc điểm về cảm thụ âm thanh của hai tín
hiệu: âm nhạc và tiếng nói: sau khi thử
nghiệm dùng ba đặc trưng HZCRR, LSTER,
SF với thuật toán phân loại K-NN chúng tôi
thấy kết quả thu được là khá tốt. Trong tương
lai, chúng tôi sẽ tiếp tục hoàn thiện hệ thống
sao cho có được một hệ thống hoàn chỉnh để
có thể thực hiện tự động nhận dạng phân biệt
tiếng nói với âm nhạc đem áp dụng vào thực
tế (ứng dụng tự động thu thập thông tin, đánh
giá chỉ mục cho dữ liệu đa phương tiện.
TÀI LIỆU THAM KHẢO
[1]. David Gerhard, (2000), “Audio Signal
classification: an overview” , Canadian Artificical
Intelligence, 45:4-6, Winter.
[2]. Peltonen, V., (2001) “Computational
Auditory Scene Recognition”. MSc Thesis,
Tampere University.
[3]. Saunders, J., “Real-Time Discrimi-nation
of Broadcast Speech/Music”, Proc. ICASSP,
pp993-996
[4]. Srinivasan, S., (1999), Petkovic, D.,
Poncelcon, D, “Toward robust features for
classifying audio in the CueVideo System”, Proc
7th ACM Int, Conf Multimedia, pp. 393-400.
[5]. M.D. Plumbley, S.A Abdallah, J.P. Bello,
M.F. Davies, G, Monti , M.B. Sandler (2002),
“Automatic music transcription and audio source
separation”, Cybernetics and System, 33(6):603-627.
[6]. Lu, L., Jiang, H., and Zhang, H. J., (2001),
“A robust audio classification and Segmentation
method”, in Proc. 9th ACM Int Conf Multimedia,
pp 203-211.
[7]. Scheier, E., Slaney, M., (1997),
“Construction and Evaluation of a Robust
Multifeature Speech/Music Discrimination”. Proc.
ICASSP, pp1331-1334.
[8]. S. Theodoridis, K. Kontroumbas (1999),
“Pattern Recognition”, Academic Press.
Đỗ Thị Loan và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 89 - 95
SUMMARY
RESEARCH INTO METHOD OF DISCRIMINATION
BETWEEN SPEECH AND MUSIC
Do Thi Loan*, Luu Thi Lieu, Nguyen Thi Hien
College of Information Communication and Technology – TNU
Automatic discrimination of speech and music is an important tool in many multimedia
applications. For the discrimination of speech and music we have used three characteristics:
HZCRR (High Zero Crossing Rate Ratio), LSTER (Low Short Time Energy Ratio), SF (Spectrum
Flux) and the algorithm for training and discrimination is K Nearest Neighbor. The data is musical
segments with different kind of music like Vietnamese music, Rock, Pop songs, country music and
speech segments of male and female voices for Vietnamese. In the article the major objective of
our research is to discriminate two audio signals: speech and music. We have got results with
rather high accuracy: about 88% for speech and 92% for music. In the future, we would like to
develop the system to classify more classes of audio signal.
Key words: Discrimination, speech, music, Vietnamese music, Vietnamese
Phản biện khoa học: TS. Phạm Đức Long – Trường Đại học CNTT & TT – ĐH Thái Nguyên
*
Tel: 0972998865; Email:dtloan@ictu.edu.vn
File đính kèm:
nghien_cuu_phuong_phap_nhan_dang_phan_biet_tieng_noi_voi_am.pdf

