So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (MFCC) và cao độ pitch trong việc tìm kiếm âm nhạc theo nội dung

TÓM TẮT

Trong cách tiếp cận truyền thống, các vector đặc trưng của tín hiệu âm thanh được xây dựng từ các

đặc trưng vật lý của âm thanh như độ to, độ cao, năng lượng, phổ tần số, Có rất nhiều phương

pháp trích chọn đặc trưng âm thanh đã và đang được nghiên cứu để áp dụng vào bài toán tìm kiếm

âm nhạc theo nội dung. Tuy nhiên hai phương pháp phổ biến nhất và được đánh giá cao là phương

pháp sử dụng đường bao phổ (MFCC) và phương pháp sử dụng cao độ (F0).

Bài báo này nghiên cứu về hai phương pháp này đồng thời so sánh đánh giá hiệu quả của từng

phương pháp.

6 trang | Chuyên mục: Sư Phạm Âm Nhạc | Chia sẻ: yen2110 | Lượt xem: 663 | Lượt tải: 0

Tóm tắt nội dung So sánh hai phương pháp trích chọn đặc trưng âm thanh: Đường bao phổ (MFCC) và cao độ pitch trong việc tìm kiếm âm nhạc theo nội dung, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên

uyển của cường
độ phổ của những đoạn tín hiệu âm thanh, vì
vậy nó là công cụ mạnh khi có những thay
đổi nhỏ trong giai điệu hoặc kiểu phối nhạc.
MFCC có nhiều đặc trưng vượt trội khi sử
dụng để nhận dạng tiếng nói theo thời gian.
Mỗi bước của quá trình tạo các đặc trưng
MFCC được thực hiện bằng hệ thống cảm
thụ âm thanh của con người. Tức là những gì
không liên quan có thể bỏ đi khỏi cơ sở dữ
liệu gốc dựa trên quá trình cảm thụ âm thanh
dạng sóng của con người, và tiếp theo là yêu
cầu giảm kích thước dữ liệu và tăng tốc độ
tính toán.
Quá trình lọc theo thang Mel Cepstral:
Theo Beth Logan, MFCC gồm 5 bước:
1. Chia tín hiệu thành các khung
2. Với mỗi khung, ta thu được biên độ phổ.
3. Lấy log của biên độ
4. Chuyển đổi sang thang Mel
5. Thực hiện biến đổi Cosine rời rạc.
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 33 - 38
36
Hình 4: Quá trình tạo các đặc tính MFCC
Quan sát quá trình trên ta thấy, âm thanh
được chia thành những khung có độ dài cố
định. Mục đích là để lấy mẫu những đoạn tín
hiệu nhỏ (theo lý thuyết là ổn định). Hàm cửa
sổ bỏ đi những hiệu ứng phụ và vector đặc
trưng cepstral được thực hiện trên mỗi khung
cửa sổ. Biến đổi Fourier rời rạc của mỗi
khung được tính toán và lấy logarithm biên
độ phổ. Thông tin về pha bị bỏ qua do biên độ
phổ là quan trọng hơn pha. Thực hiện lấy
logarithm biên độ phổ do âm lượng của tín
hiệu là xấp xỉ logarith. Tiếp theo biến đổi phổ
theo thang Mel. Từ kết quả này, trong vector
Mel – spectral của các thành phần tương quan
cao, bước cuối cùng là thực hiện biến đổi
cosine rời rạc để tổng hợp vector phổ Mel để
tương quan lại các thành phần này
Độ lệch tần số Mel
Độ lệch tần số Mel làm nhẵn phổ và làm nổi
lên các tần số cảm thụ có nghĩa. Biến đổi
Fourier lên tín hiệu qua bộ lọc thông dải để
làm đơn giản phổ mà không làm mất dữ liệu.
Điều này được thực hiện bằng cách tập hợp
các thành phần phổ thành một dải tần số. Phổ
được làm đơn giản hóa do sử dụng một giàn
bộ lọc để tách phổ thành các kênh. Các bộ lọc
được đặt cách đều nhau trên thang Mel và lấy
logarit trên thang tần số, các kênh có tần số
thấp là không gian tuyến tính trong khi các
kênh có tần số cao là không gian logarit.
Tai người không cảm nhận sự thay đổi tần số
của tiếng nói tuyến tính mà theo thang mel.
Thang tần số Mel tuyến tính ở tần số dưới
1kHz và logarit ở tần số cao hơn 1kHz. Ta
chọn tần số 1kHz, 40 dB trên ngưỡng nghe
1000 Mel. Do đó công thức gần đúng biểu
diễn quan hệ tần số ở thang mel và thang
tuyến tính như sau:
Một phương pháp để chuyển đổi sang thang
mel là sử dụng băng lọc. Khoảng cách của
băng lọc được định nghĩa bởi một hằng số tần
số mel theo thời gian. Băng lọc này được áp
dụng trong miền tần số, nó có thể xem như
các điểm thu được của bộ lọc chính. Với các
khung nhỏ tốt nhất là sử dụng các bộ lọc dạng
tam giác hoặc thậm chí hình chữ nhật vì độ
phân giải là quá thấp trong miền tần số thấp.
Hình 5: Băng lọc khoảng cách theo tần số Mel
Mỗi bộ lọc trong băng lọc được nhân với phổ
tín hiệu vì vậy chỉ có một giá trị đơn của
cường độ trên bộ lọc được trả lại. Điều này có
thể đạt được qua các tính toán của ma trận
đơn. Kết quả là tổng của biên độ trong dải lọc
và vì vậy làm giảm độ chính xác tới mức tai
của con người.
Hình 6: Phổ sau khi lọc theo thang Mel
Quá trình độ lệch tần số mel được thực hiện
theo ba bước sau:
1. Cố định vùng giá trị dưới mỗi bộ lọc và
đôi khi đưa thang về 1. Đặt M = số băng lọc
yêu cầu
2. Phân bố đều trên thang tần số Mel
3. Chuyển đổi từ Hz sang si'ω trên thang
tuyến tính. Mối quan hệ giữa mel và frq được
cho bởi công thức:
m=ln(1+f/700)*1000/ln(1+1000/700) (4) (5)
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 33 - 38
37
KẾT QUẢ THỰC NGHIỆM
Sử dụng F0
Chuẩn bị dữ liệu
Dữ liệu bao gồm 20 bài hát thiếu nhi nổi tiếng
thế giới
childSong4public/QBSH-corpus/.
Trong các cấu trúc file âm thanh thì MIDI là
định dạng file đơn giản, kích cỡ nhỏ gọn
nhưng vẫn biểu diễn được giai điệu âm
nhạc.Trong bước huấn luyện, chương trình sử
dụng 20 bản nhạc định dạng MIDI. Khi tìm
kiếm chương trình thử nghiệm trên 20 file âm
thanh PCM Wave tần số lấy mẫu 8 KHz, mã
hóa 8 bít / mẫu, thu từ các điệu ngân nga
không lời (humming) hoặc các đoạn hát
không nhạc (singing) với giai điệu tương ứng
với 45 bản nhạc MIDI đã huấn luyện.
Các tham số thực nghiệm
Cao độ Pitch được tính theo phương pháp tự
tương quan ACF (AutoCorrelation Function)
với các tham số: kích cỡ khung là 256 ms,
không chồng lấp. Sau khi tính Pitch bằng hàm
ACF, pitch được làm trơn bằng lọc trung vị.
Phương pháp phân lớp sử dụng thuật toán thời
gian động DTW tiến hành so sánh chuỗi Pitch
đầu vào cần tìm kiếm tính từ file Wave với lần
lượt các chuỗi Pitch của các file MIDI trong cơ
sở dữ liệu. Thuật toán thời gian động cho phép
so sánh 2 chuỗi Pitch có độ dài khác nhau với
sai số nhỏ nhất. Độ tương tự của 2 chuỗi pitch
sau đó được tính toán bằng khoảng cách Euclid
để tìm ra chuỗi phù hợp nhất.
Sử dụng MFCC
Chuẩn bị dữ liệu
Vẫn sử dụng dữ liệu trên nhưng được lưu ở
định dạng PCM wave, tần số lấy mẫu 44
KHz, mã hóa 16 bit trên một mẫu. Mỗi bài
hát được trích ra một đoạn ngắn < 5 s sử dụng
làm mẫu tìm kiếm.
Các tham số thực nghiệm
Đặc trưng MFCC được cài đặt với các tham
số sau : Kích cỡ khung là 512 ms, không sử
dụng khung chồng lấp, số bộ lọc trong dãy
băng lọc Mel là 20, số hệ số Ceptral là 12,
không sử dụng các hệ số đạo hàm Delta, kết
hợp các hệ số MFCC với 1 hệ số năng lượng.
Giống như Beth Logan [8], phân lớp bằng
cách phân hệ số cepstral thành 16 cụm theo
thuật toán K-means chuẩn. Sử dụng khoảng
cách Euclidean để tính toán độ tương tự.
Kết quả thực nghiệm và đánh giá
Trong cả 2 chương trình thử nghiệm, kết quả
nhận dạng đúng cuối cùng sau 20 lần thử
nghiệm đều là 100%. Kết quả này cao hơn kết
quả đã công bố trong [8] và [4] dù dùng cùng
thuật toán. Lý do có thể do chương trình
demo mới thử nghiệm trên bộ cơ sở dữ liệu
rất nhỏ. Hơn nữa độ dài âm thanh đầu vào
(trích 1 đoạn từ file âm thanh cần tìm kiếm)
đủ lớn (so với âm thanh tìm kiếm) trong
chương trình thử nghiệm 1, độ dài âm thanh
đầu vào và âm thanh cần tìm kiếm đều là cả
bài hát trong chương trình thử nghiệm 2. Tỷ
lệ nhận dạng sẽ giảm xuống khi dùng cơ sở
dữ liệu lớn hơn (đặc biệt khi trong cơ sở dữ
liệu có các bài hát có những phần tương tự
nhau), tỷ lệ nhận dạng và tìm kiếm đúng cũng
sẽ giảm xuống khi độ dài mẫu âm thanh đầu
vào là nhỏ.
Về mặt thời gian, chương trình 1 thực hiện
huấn luyện và sau đó tìm kiếm hết ~ 4 s với
một bài hát, chương trình 2 thực hiện tìm
kiếm cho mỗi file Wave trong khoảng 0.2 s
với điều kiện đã huấn luyện trước.
Hình 7: Kết quả chạy chương trình
Với thử nghiệm trên cả hai phương pháp đều
cho kết quả tốt. Tuy nhiên, phương pháp
MFCC tốt hơn khi dữ liệu được trích ra từ
chính bài hát của tác giả. Còn phương pháp
cao độ pitch có thể nhận diện được khi đoạn
dữ liệu tìm kiếm có thể là một tiếng sáo, tiếng
nhạc hoặc giai điệu của bài hát.
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 33 - 38
38
Do đó, với các ứng dụng yêu cầu độ chính xác
cao mà dữ liệu nhỏ hơn ta có thể áp dụng
phương pháp MFCC rất tốt còn trong trường
hợp khi bộ dữ liệu lớn, mà đoạn dữ liệu tìm
kiếm có thể chỉ là một đoạn là giai điệu của bài
hát ta có thể áp dụng phương pháp cao độ Pitch.
KẾT LUẬN
Để kết quả thực nghiệm chính xác hơn, cần
xây dựng một cơ sở dữ liệu âm nhạc đủ lớn
để thử nghiệm. Từ đó sẽ đánh giá được độ
chính xác, hiệu quả của các phương pháp tìm
kiếm và có thể đề xuất các phương pháp cải
tiến thao tác trích đặc trưng và phân lớp của
hệ thống tìm kiếm.
Hướng nghiên cứu tiếp theo sẽ là tìm hiểu sâu
hơn về các phương pháp phân lớp dữ liệu như
mạng Neural, giải thuật di truyền GA, mô
hình Markov ẩn HMM,
TÀI LIỆU THAM KHẢO
[1]. Phùng Thị Thu Hiền, “Trích chọn đặc trưng
âm thanh trong bài toán tìm kiếm âm nhạc theo
nội dung”, Luận văn thạc sỹ Công nghệ thông tin,
Đại học Thái Nguyên, 12/2009.
[2]. Phùng Thị Thu Hiền, Thái Quang Vinh,
Phùng Trung Nghĩa, Lê Tuấn Anh (2009), “Tìm
kiếm âm nhạc theo nội dung sử dụng đặc trưng
tần số cơ bản F0 và giải thuật thời gian động
DTW”, Tạp chí Khoa học & Công nghệ ISSN,
1859 – 2171, T55 – 59.
[3]. Beth Logan and Ariel Salomon (2002), “A
Music Similarity Function Based on Signal
Analysis”, Cambridge Research Laboratory.
[4]. S.Blackburn and D. De Roure (1998), “A tool
for content based navigation of music”, in ACM
Multimedia.
[5]. R. Mc Nab, L. Smith, I. Witten, C.Henderson,
and S.Cunningham (1996), “Towards the digital
music library: Tune retrieval from acoustic input,”
in Digital Libraries, pp.11-18
[6]. Beth Logan and Stephen Chu (2000), “Music
Summarization Using Key Phrases”, Cambridge
Research Laboratories.
[7]. J.T. Foote (1997), “Content-based retrieval
of Music and Audio,” in SPIE, p.p 138- 147
SUMMARY
COMPARING TWO METHOD: SPECTRAL ENVELOPE FEATURE (MFCC)
AND PITCH IN CONTEND – BASED MUSIC RETRIEVAL
Phung Thi Thu Hien1*, Doan Xuan Ngoc2, Phung Trung Nghia3
1College of Technology – TNU
2Department of Tax – Thai Nguyen province
3College of Information Communication and Technology
In state of the art approaches, feature vectors of music signal are built based on their physical
characteristics as volume, energy, and spectrum. There are many methods to extract feature in
contend – based music retrieval. Spectral Envelope Feature and Pitch method are Two popular
methods. This paper presens and compares these methods.
Key words: Feature Vector, Mel Cepstral, K-means, F0, pitch, DTW.
Phản biện khoa học: TS. Vũ Việt Vũ – Trường Đại học Kỹ thuật Công nghiệp – ĐH Thái Nguyên
*
Tel: 0986060545; Email: pthientng@gmail.com

File đính kèm:

so_sanh_hai_phuong_phap_trich_chon_dac_trung_am_thanh_duong.pdf