Nhận dạng tiếng Việt nói sử dụng bộ công cụ Kaldi
Tóm tắt: Nhận dạng tiếng nói ngày càng được ứng
dụng trong nhiều lĩnh vực như tổng đài tự động;
an ninh bảo mật; tìm kiếm bằng giọng nói , tuy
nhiên chất lượng nhận dạng đang là vấn đề đáng
quan tâm nhất. Kaldi là một bộ công cụ mới được
phát triển năm 2009. Kaldi được giới thiệu tại
hội thảo diễn ra ở trường Đại học Johns Hopkins
University với tiêu đề “Phát triển hệ thống nhận
dạng tiếng nói chi phí thấp, chất lượng cao cho các
miền và các ngôn ngữ mới” (“Low Development
Cost, High Quality Speech Recognition for New
Languages and Domains”). Trong bài báo này mô
tả hệ thống nhận dạng tiếng Việt nói được xây dựng
dựa trên bộ công cụ Kaldi. Bài báo cũng đánh giá
chất lượng của hệ thống dựa trên việc đánh giá tỷ
số WER của các mô hình âm học. Hệ thống đã cho
ra kết quả vượt trội so với các bộ công cụ trước đó
với tiếng Việt.
được huấn luyện được mô tả ở trên cho giải mã các phiên âm từ tập dữ liệu kiểm thử. Đối với mỗi mô hình âm học, sử dụng cùng một phương thức tham số hóa tiếng nói và phép biến đổi các tham số cho việc huấn luyện mô hình âm học, bài viết thử nghiệm với tất cả các mô hình âm học được huấn luyện với cả mô hình ngôn ngữ zerogram và bigram. Mô hình ngôn ngữ zerogram và bigram mặc định được xây dựng từ các phép biến đổi trực giao. Mô hình ngôn ngữ bigram được ước lượng từ các phép biến đổi dữ liệu huấn luyện. Do đó, trong tập kiểm thử xuất hiện các từ chưa biết, được gọi là “Out of Vocabulary Word - OOV”. Các zerogram được trích chọn từ các phép biến đổi tập kiểm thử. Zerogram là một danh sách các từ với xác suất phân bố đều, vì vậy nó giúp giải mã chỉ bằng việc giới hạn kích thước bộ từ vựng. Các mô hình ngôn ngữ bigram chứa 1075 unigram và 3517 bigram cho tiếng Việt. Mô hình ngôn ngữ zerogram được giới hạn 1076 từ tiếng Việt. Các tham số nhận dạng tiếng nói được thiết lập giá trị mặc định; các trường hợp ngoại lệ là các tham số giải mã: beam=12.0, lattice-beam=6.0, max- active-states=14000 và LMW (các trọng số mô hình ngôn ngữ - Language Model Weight). Tham số LMW thiết lập trọng số của LM, tức là nó quy định có bao nhiêu LM (mô hình ngôn ngữ) được sử dụng cho mô hình âm học trong việc giải mã. Giá trị LMW được ước tính trên tập phát triển và các giá trị tốt nhất được sử dụng cho giải mã trên tập dữ liệu kiểm thử. Các bộ giải mã GMM-latgen-faster được sử dụng cho việc đánh giá dữ liệu thử nghiệm. Nó tạo ra một mạng liên kết các cấp độ từ cho mỗi phiên âm và một giả thuyết tốt nhất được trích chọn từ các mạng được giải mã và được đánh giá bởi WER (Word Error Rate) và SER (Sentence Error Rate). IV. KếT qUả THỬ NGHIỆm Mô hình âm học mono, tri1, tri2a, tri2b, được huấn luyện generative. Mô hình tri2b_mmi, tri2b_mmi_ b0.05, tri2b_mpe, tri3, sgmm, sgmm_mmi_b0.1 được huấn luyện discriminatively trong bốn vòng lặp. Các mô hình discriminative mang lại kết quả tốt hơn mô hình generative thể hiện trong hình 4. A. Kết quả thực hiện với các mô hình huấn luyện Phần này trình bày các kết quả thử nghiệm hệ thống nhận dạng tiếng Việt nói với phương pháp huấn luyện âm học khác nhau. Bảng 3 biểu diễn kết quả các mô hình âm học. Bảng 3. WER và SER cho các phương pháp huấn luyện Model % WER % SER mono 4.34 53.4 tri1 1.95 37.4 tri2a 1.98 37.6 tri2b 1.89 36.2 tri2b_mmi 1.76 34 tri2b_mmi_b0.05 1.75 33.8 tri2b_mpe 1.83 35.5 tri3 1.48 30.4 sgmm 1.1 23.7 sgmm_mmi_b0.1 1.09 23.5 Biểu đồ WER qua các mô hình huấn luyện thể hiện trong hình 5. Nguyễn Thị Thanh, Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng Tạp chí KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Số 3 - 4 (CS.01) 2016 13 Hình 5. Biểu đồ WER thể hiện qua các mô hình huấn luyện Kết quả cho thấy các phương pháp huấn luyện discriminative vượt trội so với các mô hình âm học generative, tham số LDA + MLTT cũng hiệu quả hơn việc sử dụng tham số ∆ + ∆∆. Mặt khác, có những sự khác biệt tinh tế giữa 3 mô hình âm học (tri3, sgmm, sgmm_mmi_b0.1) được huấn luyện discriminative về hiệu suất. B. Kết quả thực hiện với các trọng số mô hình ngôn ngữ khác nhau Thử nghiệm với LMW lần lượt bằng 9, 10 và 15. Kết quả được mô tả ở bảng 4 và hình 6. Bảng 4: Bảng kết quả với các trọng số mô hình ngôn ngữ khác nhau Mô hình WER LMW=9 WER LMW=10 WER LMW=15 mono 68.84 8.09 4.34 tri1 42.49 3.42 1.95 tri2a 42.76 3.55 1.98 tri2b 31.55 3.14 1.89 tri2b_mmi 33.51 2.87 1.76 tri2b_mmi_b0.05 32.92 2.81 1.75 tri2b_mpe 30.1 2.96 1.83 tri3 19.07 2.22 1.48 sgmm2 13.4 1.44 1.16 sgmm2_mmi_b0.1 11.94 1.35 1.15 Hình 6. Biểu đồ WER với các tham số LMW khác nhau Kết quả cho thấy với tham số LMW = 15 cho kết quả vượt trội so với LMW = 9. Như vậy, việc chọn lựa một trọng số phù hợp cho mô hình ngôn ngữ cũng là một trong các tham số quan trọng của hệ thống nhận dạng tiếng Việt nói. V. KếT lUẬN Bài báo này đã mô tả phương pháp xây dựng hệ thống nhận dạng tiếng Việt nói sử dụng bộ công cụ Kaldi. Chúng tôi đã thử nghiệm các phương pháp huấn luyện mô hình âm học khác nhau được hỗ trợ bởi Kaldi. Các trọng số của mô hình ngôn ngữ cũng được xem xét và đánh giá. Các thử nghiệm cho thấy bộ công cụ Kaldi cho kết quả nhận dạng rất tốt với tiếng Việt nói. Ngoài ra trọng số của mô hình ngôn ngữ là một tham số quan trọng khi xây dựng hệ thống. TÀI lIỆU THAm KHảO [1] Đặng Ngọc Đức, “Mạng nơ ron và mô hình Markov ẩn trong nhận dạng tiếng Việt nói”, Luận văn tiến sĩ, Đại học Quốc Gia Hà Nội, 2003. [2] Bạch Hưng Khang, “Tổng hợp và nhận dạng tiếng Việt”, Viện Công nghệ thông tin, Viện Hàn lâm và Khoa học Việt Nam, 2004. NHẬN DẠNG TIẾNG VIỆT NÓI SỬ DỤNG BỘ CÔNG CỤ KALDI Tạp chí KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG14 Số 3 - 4 (CS.01) 2016 [3] Nguyen Quoc Cuong, Pham Thi Ngoc and Castelli, E. “Shape vector characterization of Vietnamese tones and application to automatic recognition”. Automatic Speech Recognition and Understanding (ASRU), Italy, 2001. 437-440. [4] Vu, Tat Thang, Khanh Nguyen and Le, Son Hai and Luong, Mai Chi. “Vietnamese tone recognition based on multi-layer perceptron network.” Conference of Oriental Chapter of the International Coordinating Committee on Speech Database and Speech I/O System. Kyoto, 2008. 253-256. [5] Vu, Thang Tat and Nguyen, Dung Tien and Luong, Mai Chi and Hosom, John Paul. “Vietnamese large vocabulary continuous speech recognition” INTERSPEECH. Lisbon, 2005. 1172-1175. [6] Nguyen Hong Quang, Trinh Van Loan, Le The Dat, Automatic Speech Recognition for Vietnamese using HTK system, IEEE-RIVF 2010, Ha noi, November, 2010. [7] Christian Gaida, Patrick Lange, Rico Petrick, Patrick Proba, Ahmed Malatawy, and David Suendermann- Oeft, “Comparing Open-Source Speech Recognition Toolkits”. [8] Daniel Povey, Arnab Ghoshal, Gilles Boulianne, Lukas Burget,Ondrej Glembek, Nagendra Goel, Mirko Hannemann, Petr Motlcek, Yanmin Qian, Petr Schwarz, Jan Silovsky, Georg Stemmer, Karel Vesely, “The Kaldi Speech Recognition Toolkit”. [9] KyleGorman, view/FST/WebHome, 2016. [10] Daniel Povey, Brian Kingsbury, Lidia Mangu, George Saon, Hagen Soltau & Geoffrey Zweig, “fMPE: Discriminatively Trained Features for Speech Recognition,” ICASSP 2005. [11] Daniel Povey, Vijayaditya Peddinti, Daniel Galvez, Pegah Ghahrmani, Vimal Manohar, Xingyu Na, Yiming Wang and Sanjeev Khudanpur “Purely sequence-trained neural networks for ASR based on lattice-free MMI”, Interspeech 2016. [12] Daniel Povey, Dimitri Kanevsky, Brian Kingsbury, Bhuvana Ramabhadran, George Saon & Karthik Visweswariah, “Boosted MMI for Model and Feature Space Discriminative Training”, ICASSP 2008. [13] Daniel Povey & Brian Kingsbury, “Evaluation of Proposed Modifications to MPE for Large Scale Discriminative Training”, ICASSP 2007. [14] Yajie Miao, Hao Zhang, Florian Metze Language Technologies Institute, “Towards Speaker Adaptive Training of Deep Neural Network Acoustic Models”, School of Computer Science, Carnegie Mellon University Pittsburgh, PA, USA. [15] Daniel Povey, Lukas Burget, Mohit Agarwal, Pinar Akyazi, Kai Feng, Arnab Ghoshal, Ondˇrej Glembek, Nagendra Kumar Goel, Martin Karafi´at, Ariya Rastrow, Richard C. Rose, Petr Schwarz, Samuel Thomas, “Subspace gaussian mixture models for speech recognition”. [16] Daniel Povey and Partner “ doc/graph.html” Generated on Wed Aug 10 2016 for Kaldi by Doxygen 1.8.1.2 . [17] Daniel Povey and Partner doc/decoders.html Generated on Wed Aug 10 2016 for Kaldi by Doxygen 1.8.1.2 . [18] Tuan, Nguyen and Hai Quan, Vu. “Advances in Acoustic Modeling for Vietnamese LVCSR” Asian Language Processing. Singapore: IEEE, 2009. 280-284. Nguyễn Thị Thanh, Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng Tạp chí KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Số 3 - 4 (CS.01) 2016 15 THe VIeTNAmese speeCH ReCOGINITION UsING KAldI TOOlKIT Abstract: Speech recognition has been increasingly applied in various fields such as automatic switchboards, security, searching by voice however the quality of recognition is the problem of utmost concern. The Kaldi toolkit is a new tool developed in 2009. Kaldi was introduced at a workshop held at Johns Hopkins University with the title “Low Development Cost, High Quality Speech Recognition for New Languages and Domains”. This paper describes the Vietnamese speech recognition system built on Kaldi toolkit. The paper also evaluates quality of the system based on the evaluation the ratio of the WER on AMs (Acoustic models). The system has superior results compared the previous toolkit to Vietnamese speech. Keywords: Speech recognition, the Vietnamese speech, Kaldi toolkit, Language models, Acoustic models, Pronounce dictionary. Nguyễn Thị Thanh tốt nghiệp đại học năm 2013, tại Học viện Công nghệ Bưu chính Viễn thông. Hiện là học viên tại Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội. Lĩnh vực nghiên cứu: Xử lý tiếng nói. Nguyễn Hồng Quang nhận học vị Tiến sĩ năm 2008. Hiện công tác tại Bộ môn Kỹ thuật máy tính, Viện Công nghệ thông tin và Truyền thông, Trường Đại học Bách Khoa Hà Nội. Lĩnh vực nghiên cứu: Học máy, xử lý ảnh, âm thanh và tiếng nói. Trịnh Văn Loan nhận học vị Phó Giáo sư năm 2009. Hiện công tác tại Bộ môn Kỹ thuật máy tính, Viện Công nghệ thông tin và Truyền thông, Trường Đại học Bách Khoa Hà Nội. Lĩnh vực nghiên cứu: Tổng hợp, nhận dạng tiếng nói, Cải thiện chất lượng tín hiệu tiếng nói; Lượng giá và đánh giá chất lượng tiếng nói; Hệ nhúng. Phạm Ngọc Hưng nhận bằng Thạc sĩ năm 2010. Hiện công tác tại Bộ môn Kỹ thuật máy tính, Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Kỹ thuật Hưng Yên. Lĩnh vực nghiên cứu: Nhận dạng tiếng nói, hệ thống nhúng.
File đính kèm:
- nhan_dang_tieng_viet_noi_su_dung_bo_cong_cu_kaldi.pdf