[TTS] Kiến thức cơ bản về xử lý tiếng nói trong học máy / học sâu

Trong những năm gần đây, khả năng của AI ngày càng được chứng minh là cực kì tốt trong rất nhiều lĩnh vực. Một trong số chúng là việc giao tiếp với con người. Chuỗi bài viết này sẽ tóm tắt một số kiến thức cực kì cơ bản (thường bị bỏ qua) trong việc xử lý tiếng nói. Các kiến thức này sẽ là nền tảng cho các bạn mới tiếp cận với xử lý giọng nói nói riêng và xử lý âm thanh nói chung trong thế giới của Deep Learning. Các kiến thức này được viết và đúc kết từ năm 2022. Song, vì là các kiến thức cơ bản nên hầu như ít phải cập nhật. Tuy vậy, hãy comment hoặc contact với tôi để góp ý và sửa đổi khi bạn thấy bất cứ một lỗi sai nhỏ nào. *Disclaimer: Tôi không thể đảm bảo chỉn chu hết các lỗi dịch, lỗi chính tả. *Disclaimer: Spiderum không hỗ trợ các toán, nên tôi sẽ phải dùng cách khác. *Disclaimer: Trong này không có kiến thức thú vị, chỉ có kiến thức bình thường. Bài này rất ngắn vì nó vượt ra ngoài phạm trù chuỗi bài viết muốn nhắm đến và đồng thời tác giả cũng không đủ chuyên môn trong lĩnh vực âm học hay giải phẫu học.

Về cơ bản, tiếng nói của con người được tạo ra nhờ sự rung, và sự truyền rung trong không gian. Tuy nhiên, việc tạo ra tiếng nói lại không chỉ đơn giản dừng lại ở mức tạo ra những rung động cơ bản ban đầu. Chúng là tổ hợp một quá trình kết hợp giữa các cơ quan trong cơ thể con người nhằm thay đổi, điều chỉnh độ rung nhằm thu được tiếng nói phức tạp hơn nhiều. Như trong mô hình (b) ở hinh dưới, [1] chỉ ra rằng quá trình tạo ra tiếng nói của con người có thể chia thành các công đoạn với với các tập hợp bộ phận riêng biệt và thực hiện các công việc khác nhau. Chúng là hệ thống các cơ quan hay cụm cơ quan luân phiên tiếp nhận âm thanh và tạo ra âm cơ bản hoặc thay đổi tính chất của âm. Quá trình chuyển đổi âm thanh ban đầu thành âm thanh phức tạp hơn là quá trình tuyến tính.

Quá trình sinh giọng nói ở cơ thể con người. Sự phối hợp phức tạp của các cơ thể con người đã tạo ra các âm thanh có các đặc trưng rất khác nhau. Chỉ từ các rung động đơn giản ban đầu, các âm thanh phức tạp có tần số, trường độ, cao độ . . . khác nhau được hình thành và phát ra. Hình từ [1].

Mô hình ống không mất mát: Quá trình sinh giọng nói ở người được cho là không mất mát. Nói cách khác, quá trình này cho phép các cơ quan trong của cơ thế tác động vào việc thay đổi đặc điểm tần số của âm thanh mà không làm mất năng lượng của nó. Điều này nảy sinh từ việc phản xạ của âm khi chúng va chạm vào thành của các vùng khác nhau trên ống. Các âm thanh va đập vào thành ngoài việc truyền đi tiếp mà còn bị dội lại, gây là hiện tượng vang và cũng là nguyên nhân chính của sự hình thành các formant. Tuy nhiên, mô hình phát sinh giọng nói của cơ thể con người không hoàn toàn là tránh được mất mát, năng lượng trong âm thanh có thể mất đi do đi qua môi hoặc thanh môn.

Tiếng nói mà con người tạo ra là kết quả của một quá trình vô cùng phức tạp. Việc tạo ra tiếng nói bằng thông qua cơ khí đòi hỏi sự phối hợp nhịp nhàng, thậm chí là vô cùng tinh vi để đạt được tiếng nói mà chúng ta nghe được hàng ngày. Vì mục tiêu và đối tượng của chuỗi bài viết, phần này sẽ không đi sâu chi tiết mà chỉ là một phần giới thiệu sơ lược về âm học trong xử lý tiếng nói. Ngoài ra, ở các phần tiếp theo, chúng tôi sẽ cố gắng giữ những khái niệm, kiến thức liên quan đến âm học ở mức cơ bản nhất có thể để người đọc có thể dễ dàng theo dõi.