Nhận dạng tiếng Việt nói sử dụng bộ công cụ Kaldi

Tóm tắt: Nhận dạng tiếng nói ngày càng được ứng

dụng trong nhiều lĩnh vực như tổng đài tự động;

an ninh bảo mật; tìm kiếm bằng giọng nói , tuy

nhiên chất lượng nhận dạng đang là vấn đề đáng

quan tâm nhất. Kaldi là một bộ công cụ mới được

phát triển năm 2009. Kaldi được giới thiệu tại

hội thảo diễn ra ở trường Đại học Johns Hopkins

University với tiêu đề “Phát triển hệ thống nhận

dạng tiếng nói chi phí thấp, chất lượng cao cho các

miền và các ngôn ngữ mới” (“Low Development

Cost, High Quality Speech Recognition for New

Languages and Domains”). Trong bài báo này mô

tả hệ thống nhận dạng tiếng Việt nói được xây dựng

dựa trên bộ công cụ Kaldi. Bài báo cũng đánh giá

chất lượng của hệ thống dựa trên việc đánh giá tỷ

số WER của các mô hình âm học. Hệ thống đã cho

ra kết quả vượt trội so với các bộ công cụ trước đó

với tiếng Việt.

9 trang | Chuyên mục: Văn Hóa Dân Gian Việt Nam | Chia sẻ: yen2110 | Lượt xem: 599 | Lượt tải: 0

Tóm tắt nội dung Nhận dạng tiếng Việt nói sử dụng bộ công cụ Kaldi, để xem tài liệu hoàn chỉnh bạn click vào nút "TẢI VỀ" ở trên

được huấn luyện được 
mô tả ở trên cho giải mã các phiên âm từ tập dữ liệu 
kiểm thử. Đối với mỗi mô hình âm học, sử dụng 
cùng một phương thức tham số hóa tiếng nói và 
phép biến đổi các tham số cho việc huấn luyện mô 
hình âm học, bài viết thử nghiệm với tất cả các mô 
hình âm học được huấn luyện với cả mô hình ngôn 
ngữ zerogram và bigram.
Mô hình ngôn ngữ zerogram và bigram mặc định 
được xây dựng từ các phép biến đổi trực giao. 
Mô hình ngôn ngữ bigram được ước lượng từ các 
phép biến đổi dữ liệu huấn luyện. Do đó, trong tập 
kiểm thử xuất hiện các từ chưa biết, được gọi là 
“Out of Vocabulary Word - OOV”. Các zerogram 
được trích chọn từ các phép biến đổi tập kiểm thử. 
Zerogram là một danh sách các từ với xác suất 
phân bố đều, vì vậy nó giúp giải mã chỉ bằng việc 
giới hạn kích thước bộ từ vựng. Các mô hình ngôn 
ngữ bigram chứa 1075 unigram và 3517 bigram 
cho tiếng Việt. Mô hình ngôn ngữ zerogram được 
giới hạn 1076 từ tiếng Việt.
Các tham số nhận dạng tiếng nói được thiết lập giá 
trị mặc định; các trường hợp ngoại lệ là các tham 
số giải mã: beam=12.0, lattice-beam=6.0, max-
active-states=14000 và LMW (các trọng số mô 
hình ngôn ngữ - Language Model Weight). Tham 
số LMW thiết lập trọng số của LM, tức là nó quy 
định có bao nhiêu LM (mô hình ngôn ngữ) được sử 
dụng cho mô hình âm học trong việc giải mã. Giá 
trị LMW được ước tính trên tập phát triển và các 
giá trị tốt nhất được sử dụng cho giải mã trên tập 
dữ liệu kiểm thử. 
Các bộ giải mã GMM-latgen-faster được sử dụng 
cho việc đánh giá dữ liệu thử nghiệm. Nó tạo ra 
một mạng liên kết các cấp độ từ cho mỗi phiên 
âm và một giả thuyết tốt nhất được trích chọn từ 
các mạng được giải mã và được đánh giá bởi WER 
(Word Error Rate) và SER (Sentence Error Rate).
IV. KếT qUả THỬ NGHIỆm
Mô hình âm học mono, tri1, tri2a, tri2b, được huấn 
luyện generative. Mô hình tri2b_mmi, tri2b_mmi_
b0.05, tri2b_mpe, tri3, sgmm, sgmm_mmi_b0.1 được 
huấn luyện discriminatively trong bốn vòng lặp. 
Các mô hình discriminative mang lại kết quả tốt 
hơn mô hình generative thể hiện trong hình 4.
A. Kết quả thực hiện với các mô hình huấn luyện
Phần này trình bày các kết quả thử nghiệm hệ 
thống nhận dạng tiếng Việt nói với phương pháp 
huấn luyện âm học khác nhau. Bảng 3 biểu diễn kết 
quả các mô hình âm học. 
Bảng 3. WER và SER cho các phương pháp huấn luyện
Model % WER % SER
mono 4.34 53.4
tri1 1.95 37.4
tri2a 1.98 37.6
tri2b 1.89 36.2
tri2b_mmi 1.76 34
tri2b_mmi_b0.05 1.75 33.8
tri2b_mpe 1.83 35.5
tri3 1.48 30.4
sgmm 1.1 23.7
sgmm_mmi_b0.1 1.09 23.5
Biểu đồ WER qua các mô hình huấn luyện thể hiện 
trong hình 5.
Nguyễn Thị Thanh, Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng
Tạp chí KHOA HỌC CÔNG NGHỆ 
THÔNG TIN VÀ TRUYỀN THÔNG
Số 3 - 4 (CS.01) 2016 13
Hình 5. Biểu đồ WER thể hiện qua các mô hình huấn luyện
Kết quả cho thấy các phương pháp huấn luyện 
discriminative vượt trội so với các mô hình âm học 
generative, tham số LDA + MLTT cũng hiệu quả 
hơn việc sử dụng tham số ∆ + ∆∆. Mặt khác, có 
những sự khác biệt tinh tế giữa 3 mô hình âm học 
(tri3, sgmm, sgmm_mmi_b0.1) được huấn luyện 
discriminative về hiệu suất.
B. Kết quả thực hiện với các trọng số mô hình 
ngôn ngữ khác nhau
Thử nghiệm với LMW lần lượt bằng 9, 10 và 15. 
Kết quả được mô tả ở bảng 4 và hình 6.
Bảng 4: Bảng kết quả với các trọng 
số mô hình ngôn ngữ khác nhau
Mô hình WER LMW=9
WER 
LMW=10
WER 
LMW=15
mono 68.84 8.09 4.34
tri1 42.49 3.42 1.95
tri2a 42.76 3.55 1.98
tri2b 31.55 3.14 1.89
tri2b_mmi 33.51 2.87 1.76
tri2b_mmi_b0.05 32.92 2.81 1.75
tri2b_mpe 30.1 2.96 1.83
tri3 19.07 2.22 1.48
sgmm2 13.4 1.44 1.16
sgmm2_mmi_b0.1 11.94 1.35 1.15
Hình 6. Biểu đồ WER với các tham số LMW khác nhau
Kết quả cho thấy với tham số LMW = 15 cho kết 
quả vượt trội so với LMW = 9. Như vậy, việc chọn 
lựa một trọng số phù hợp cho mô hình ngôn ngữ 
cũng là một trong các tham số quan trọng của hệ 
thống nhận dạng tiếng Việt nói.
V. KếT lUẬN
Bài báo này đã mô tả phương pháp xây dựng hệ 
thống nhận dạng tiếng Việt nói sử dụng bộ công cụ 
Kaldi. Chúng tôi đã thử nghiệm các phương pháp 
huấn luyện mô hình âm học khác nhau được hỗ 
trợ bởi Kaldi. Các trọng số của mô hình ngôn ngữ 
cũng được xem xét và đánh giá. Các thử nghiệm 
cho thấy bộ công cụ Kaldi cho kết quả nhận dạng 
rất tốt với tiếng Việt nói. Ngoài ra trọng số của mô 
hình ngôn ngữ là một tham số quan trọng khi xây 
dựng hệ thống. 
TÀI lIỆU THAm KHảO
[1] Đặng Ngọc Đức, “Mạng nơ ron và mô hình 
Markov ẩn trong nhận dạng tiếng Việt nói”, Luận 
văn tiến sĩ, Đại học Quốc Gia Hà Nội, 2003. 
[2] Bạch Hưng Khang, “Tổng hợp và nhận dạng 
tiếng Việt”, Viện Công nghệ thông tin, Viện Hàn 
lâm và Khoa học Việt Nam, 2004.
NHẬN DẠNG TIẾNG VIỆT NÓI SỬ DỤNG BỘ CÔNG CỤ KALDI
Tạp chí KHOA HỌC CÔNG NGHỆ 
THÔNG TIN VÀ TRUYỀN THÔNG14 Số 3 - 4 (CS.01) 2016
[3] Nguyen Quoc Cuong, Pham Thi Ngoc and 
Castelli, E. “Shape vector characterization of 
Vietnamese tones and application to automatic 
recognition”. Automatic Speech Recognition and 
Understanding (ASRU), Italy, 2001. 437-440.
[4] Vu, Tat Thang, Khanh Nguyen and Le, Son 
Hai and Luong, Mai Chi. “Vietnamese tone 
recognition based on multi-layer perceptron 
network.” Conference of Oriental Chapter of 
the International Coordinating Committee on 
Speech Database and Speech I/O System. Kyoto, 
2008. 253-256.
[5] Vu, Thang Tat and Nguyen, Dung Tien and Luong, 
Mai Chi and Hosom, John Paul. “Vietnamese 
large vocabulary continuous speech recognition” 
INTERSPEECH. Lisbon, 2005. 1172-1175.
[6] Nguyen Hong Quang, Trinh Van Loan, Le 
The Dat, Automatic Speech Recognition for 
Vietnamese using HTK system, IEEE-RIVF 
2010, Ha noi, November, 2010.
[7] Christian Gaida, Patrick Lange, Rico Petrick, Patrick 
Proba, Ahmed Malatawy, and David Suendermann-
Oeft, “Comparing Open-Source Speech Recognition 
Toolkits”.
[8] Daniel Povey, Arnab Ghoshal, Gilles Boulianne, 
Lukas Burget,Ondrej Glembek, Nagendra Goel, 
Mirko Hannemann, Petr Motlcek, Yanmin Qian, 
Petr Schwarz, Jan Silovsky, Georg Stemmer, 
Karel Vesely, “The Kaldi Speech Recognition 
Toolkit”.
[9] KyleGorman, 
view/FST/WebHome, 2016.
[10] Daniel Povey, Brian Kingsbury, Lidia Mangu, 
George Saon, Hagen Soltau & Geoffrey Zweig, 
“fMPE: Discriminatively Trained Features for 
Speech Recognition,” ICASSP 2005.
[11] Daniel Povey, Vijayaditya Peddinti, Daniel 
Galvez, Pegah Ghahrmani, Vimal Manohar, 
Xingyu Na, Yiming Wang and Sanjeev 
Khudanpur “Purely sequence-trained neural 
networks for ASR based on lattice-free MMI”, 
Interspeech 2016.
[12] Daniel Povey, Dimitri Kanevsky, Brian 
Kingsbury, Bhuvana Ramabhadran, George 
Saon & Karthik Visweswariah, “Boosted MMI 
for Model and Feature Space Discriminative 
Training”, ICASSP 2008.
[13] Daniel Povey & Brian Kingsbury, “Evaluation of 
Proposed Modifications to MPE for Large Scale 
Discriminative Training”, ICASSP 2007.
[14] Yajie Miao, Hao Zhang, Florian Metze Language 
Technologies Institute, “Towards Speaker 
Adaptive Training of Deep Neural Network 
Acoustic Models”, School of Computer Science, 
Carnegie Mellon University Pittsburgh, PA, 
USA.
[15] Daniel Povey, Lukas Burget, Mohit Agarwal, 
Pinar Akyazi, Kai Feng, Arnab Ghoshal, Ondˇrej 
Glembek, Nagendra Kumar Goel, Martin 
Karafi´at, Ariya Rastrow, Richard C. Rose, Petr 
Schwarz, Samuel Thomas, “Subspace gaussian 
mixture models for speech recognition”.
[16] Daniel Povey and Partner “
doc/graph.html” Generated on Wed Aug 10 2016 
for Kaldi by Doxygen 1.8.1.2 .
[17] Daniel Povey and Partner 
doc/decoders.html Generated on Wed Aug 10 
2016 for Kaldi by Doxygen 1.8.1.2 .
[18] Tuan, Nguyen and Hai Quan, Vu. “Advances 
in Acoustic Modeling for Vietnamese LVCSR” 
Asian Language Processing. Singapore: IEEE, 
2009. 280-284.
Nguyễn Thị Thanh, Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng
Tạp chí KHOA HỌC CÔNG NGHỆ 
THÔNG TIN VÀ TRUYỀN THÔNG
Số 3 - 4 (CS.01) 2016 15
THe VIeTNAmese speeCH 
ReCOGINITION UsING KAldI TOOlKIT
Abstract: Speech recognition has been increasingly 
applied in various fields such as automatic 
switchboards, security, searching by voice 
however the quality of recognition is the problem 
of utmost concern. The Kaldi toolkit is a new tool 
developed in 2009. Kaldi was introduced at a 
workshop held at Johns Hopkins University with the 
title “Low Development Cost, High Quality Speech 
Recognition for New Languages and Domains”. This 
paper describes the Vietnamese speech recognition 
system built on Kaldi toolkit. The paper also 
evaluates quality of the system based on the 
evaluation the ratio of the WER on AMs (Acoustic 
models). The system has superior results compared 
the previous toolkit to Vietnamese speech.
Keywords: Speech recognition, the Vietnamese 
speech, Kaldi toolkit, Language models, Acoustic 
models, Pronounce dictionary.
Nguyễn Thị Thanh tốt nghiệp đại 
học năm 2013, tại Học viện Công 
nghệ Bưu chính Viễn thông. Hiện là 
học viên tại Viện Công nghệ Thông 
tin và Truyền thông, Trường Đại học 
Bách khoa Hà Nội. Lĩnh vực nghiên 
cứu: Xử lý tiếng nói.
Nguyễn Hồng Quang nhận học 
vị Tiến sĩ năm 2008. Hiện công tác 
tại Bộ môn Kỹ thuật máy tính, Viện 
Công nghệ thông tin và Truyền 
thông, Trường Đại học Bách Khoa Hà 
Nội. Lĩnh vực nghiên cứu: Học máy, 
xử lý ảnh, âm thanh và tiếng nói.
Trịnh Văn Loan nhận học vị Phó 
Giáo sư năm 2009. Hiện công tác 
tại Bộ môn Kỹ thuật máy tính, Viện 
Công nghệ thông tin và Truyền 
thông, Trường Đại học Bách Khoa 
Hà Nội. Lĩnh vực nghiên cứu: Tổng 
hợp, nhận dạng tiếng nói, Cải 
thiện chất lượng tín hiệu tiếng nói; 
Lượng giá và đánh giá chất lượng 
tiếng nói; Hệ nhúng.
Phạm Ngọc Hưng nhận bằng Thạc 
sĩ năm 2010. Hiện công tác tại Bộ 
môn Kỹ thuật máy tính, Khoa Công 
nghệ Thông tin, Trường Đại học Sư 
phạm Kỹ thuật Hưng Yên. Lĩnh vực 
nghiên cứu: Nhận dạng tiếng nói, 
hệ thống nhúng.

File đính kèm:

nhan_dang_tieng_viet_noi_su_dung_bo_cong_cu_kaldi.pdf