Điều khiển ti vi bằng tiếng nói tiếng Việt

Anh Thư| 01/11/2018 12:14

KHPTO - Nhóm nghiên cứu Nguyễn Tú Hà và cộng sự thuộc Trường đại học sư phạm Huế vừa nghiên cứu thành công một hướng nhận dạng tiếng nói tiếng Việt, sử dụng mô hình Markov ẩn (Hidden Markov Model - HMM) kết hợp với phương pháp lượng tử hóa vector (Vector Quantization - VQ) để nhận dạng tiếng nói. Kết quả được kiểm nghiệm thực tế bằng mô hình điều khiển tivi.

Vấn đề nghiên cứu các phương pháp nhận dạng tiếng nói đã và đang thu hút rất nhiều sự đầu tư và nghiên cứu của các nhà khoa học trên khắp thế giới. Tuy nhiên cho đến nay kết quả mang lại vẫn chưa hoàn toàn làm hài lòng các nhà nghiên cứu do tính phức tạp và không ổn định của tiếng nói. Đặc biệt, đối với nhận dạng tiếng nói tiếng Việt thì kết quả còn nhiều hạn chế.

Hệ thống nhận dạng tiếng nói có những ứng dụng rất lớn và có ý nghĩa như: xe lăn cho người tàn tật được điều khiển bằng tiếng nói; điều khiển máy tính hoặc các hệ thống tự động bằng tiếng nói...

Trên thế giới đã có nhiều hệ thống nhận dạng tiếng nói đã và đang được ứng dụng rất hiệu quả như: ViaVoice, Dragon Naturally Speaking, Spoken Toolkit, Google… Các hệ thống nhận dạng này áp dụng cho ngôn ngữ tiếng Anh, vì vậy, không thể áp dụng hệ thống này cho nhận dạng tiếng Việt. Do đó, một hệ thống nhận dạng tiếng nói tiếng Việt cần phải được xây dựng để có thể ứng dụng cho người Việt Nam.

Một đề xuất mới của nhóm nghiên cứu về một phương pháp nhận dạng tiếng nói tiếng Việt, sử dụng mô hình Markov ẩn rời rạc để nhận dạng tiếng nói kết hợp với phương pháp lượng tử hóa vector. Hệ thống được kiểm nghiệm thực tế bằng việc xây dựng mô hình nhận dạng tiếng nói tiếng Việt gồm các nhóm lệnh điều khiển tivi.

Một hệ thống nhận dạng nói chung thường bao gồm hai phần: phần huấn luyện và phần nhận dạng. “Huấn luyện” là quá trình hệ thống “học” những mẫu chuẩn được cung cấp bởi những tiếng khác nhau (từ hoặc âm), để từ đó hình thành bộ từ vựng của hệ thống. “Nhận dạng” là quá trình quyết định xem từ nào được đọc căn cứ vào bộ từ vựng đã được huấn luyện.

Trong nghiên cứu này, các tác giả chọn các từ để huấn luyện là: tắt, bật, tivi, tăng, giảm, chuyển, âm, kênh, một, hai, ba, bốn, năm, sáu, bảy, tám, chín, không.

Cơ sở dữ liệu được xây dựng trong nghiên cứu này được thu thập từ 150 người nói gồm 70 nam và 80 nữ, có độ tuổi từ 18 đến 30. Các người nói được hướng dẫn phát âm chuẩn theo một tốc độ nhất định và việc thu âm được thực hiện trong phòng thu ít nhiễu. Các tập tin âm thanh được thu từ chương trình Adobe Audition, sử dụng PCM, lấy mẫu tại tần số 16.000Hz với 16bit và lưu trữ dưới định dạng WAV.

Việc thu âm được thực hiện gồm hai mục đích, thu âm để chuẩn bị cơ sở dữ liệu cho quá trình huấn luyện mô hình và cho quá trình nhận dạng.

Để đánh giá hệ thống, nhóm nghiên cứu sử dụng phương pháp thực nghiệm với thống kê và so sánh kết quả trực tiếp. Mỗi nhóm dữ liệu thực nghiệm được đọc vào một cách ngẫu nhiên và ghi nhận kết quả trả ra từ chương trình, sau đó tính tỉ lệ nhận dạng từ đúng, tỉ lệ nhận dạng lỗi sai.

Đối với quá trình huấn luyện và kiểm tra, kết quả được chia thành 2 nhóm: nhóm 100 người được huấn luyện và nhóm 50 người không được huấn luyện.

Dựa trên kết quả thực nghiệm, nghiên cứu đã xây dựng thành công mô hình nhận dạng tiếng nói với tỷ lệ thành công tương đối tốt.

Tuy nhiên, cần nghiên cứu phát triển thêm:

-Xây dựng cơ sở dữ liệu lớn hơn để huấn luyện cho các mô hình tốt hơn. Đồng thời phát triển thêm bộ từ vựng để có thể điều khiển thiết bị phong phú hơn.

-Tích hợp thêm các giải pháp giảm nhiễu trong khối tiền xử lý để nâng cao hiệu xuất nhận dạng và ứng dụng trong môi trường có nhiễu cao.

-Tích hợp hệ thống nhận dạng tiếng nói trên các chip DSP, FPGA ... để có thể ứng dụng thuận tiện hơn và đóng gói thành bộ sản phẩm hoàn thiện.….

(0) Bình luận
Nổi bật
Đừng bỏ lỡ
Điều khiển ti vi bằng tiếng nói tiếng Việt
POWERED BY ONECMS - A PRODUCT OF NEKO