[TTS] Kiến thức cơ bản về xử lý tiếng nói trong học máy / học sâu - P4
Chuỗi bài viết này sẽ tóm tắt một số kiến thức cực kì cơ bản (thường bị bỏ qua) trong việc xử lý tiếng nói.
Trong những năm gần đây, khả năng của AI ngày càng được chứng minh là cực kì tốt trong rất nhiều lĩnh vực. Một trong số chúng là việc giao tiếp với con người. Chuỗi bài viết này sẽ tóm tắt một số kiến thức cực kì cơ bản (thường bị bỏ qua) trong việc xử lý tiếng nói. Các kiến thức này sẽ là nền tảng cho các bạn mới tiếp cận với xử lý giọng nói nói riêng và xử lý âm thanh nói chung trong thế giới của Deep Learning. Các kiến thức này được viết và đúc kết từ năm 2022. Song, vì là các kiến thức cơ bản nên hầu như ít phải cập nhật. Tuy vậy, hãy comment hoặc contact với tôi để góp ý và sửa đổi khi bạn thấy bất cứ một lỗi sai nhỏ nào. *Disclaimer: Tôi không thể đảm bảo chỉn chu hết các lỗi dịch, lỗi chính tả. *Disclaimer: Spiderum không hỗ trợ các toán, nên tôi sẽ phải dùng cách khác. *Disclaimer: Trong này không có kiến thức thú vị, chỉ có kiến thức bình thường.
Các thành phần ngữ điệu trong giọng nói
Ngôn ngữ có thể được bắt gặp ở nhiều dạng khác nhau như ngôn ngữ ký hiệu, ngôn ngữ viết, . . . , song ngôn ngữ nói là một dạng được dùng phổ biến nhất, dễ tìm thấy nhất trong cuộc sống hàng ngày. Mục tiêu chính của tiếng nói là để truyền tải các nội dung cần thiết từ người này đến người khác một cách nhanh chóng, đầy đủ ngữ cảnh, cảm xúc. Để truyền tải được các thông tin đấy, ta có thể thấy tiếng nói với cùng nội dung ngôn ngữ có những sự khác nhau khi muốn truyền tải các nội dung khác nhau. Dù con người có thể dễ dàng nắm bắt, tạo ra các tiếng nói với sự khác nhau như thế, nhưng máy tính hoặc các thiệt bị cơ khí thì còn cực kỳ khó khăn. Vì thế, việc mô hình hoá, gọi tên các thành phần ngữ điệu trong giọng nói là vô cùng quan trọng trong việc nắm bắt được không chỉ ngữ điệu của câu mà còn đặc trưng nói của mỗi người riêng biệt trong các trường hợp khác nhau. Trong ngành ngôn ngữ học, ngữ điệu là một thành của ngữ âm, và được biểu diễn bởi các yếu tố vật lý như thời gian, cao độ, cường độ, phổ. Và một hệ. thống ngữ điệu (intonation system) là một sự thay đổi về cao độ, cường độ, thời gian ngắt nghỉ, phổ của một câu nhằm thể hiện một ý nghĩa, sắc thái tình cảm khi giao tiếp bằng tiếng nói [1].
Ngữ điệu bao gồm một số thành phần chính như sau:
Cao độ
Cao độ (Pitch hay F0) là thành phần ngữ điệu dễ nhận thấy nhất trong tiếng nói. Chúng là sự thay đổi cao thấp, nhấn nhá của tiếng nói. Chú ý, khi nhắc Pitch ta thường nhắc đến sự cảm nhận cao độ mang tính trực giác, nhưng F0 như đã trình bày ở phần trước, là thành phần có thể đo đạc thực nghiệm được. Cao độ trong câu trước tiên là một đặc trưng của mỗi giọng nói, sự thay đổi cao độ trong câu cũng là một tính chất mang tính thói quen. Tuy vậy, vẫn có một số trường hợp mà sự thay đổi cao độ tạo ra sự thay đổi về nghĩa của câu được sử dụng rộng rãi trong nhiều ngôn ngữ. Ví dụ: cùng một câu nói "Ngày mai, chúng ta sẽ đọc báo.", nhưng nếu nhấn ở đầu câu sẽ mang nghĩa trần thuật với ý muốn nhấn mạng "Ngày mai", nhưng nếu nhấn mạnh ở cuối câu thì lại trở thành một câu mang hàm ý hỏi để xác nhận thông tin trong câu là đúng hay sai.
Trường độ
Trường độ (Duration) là thành phần ngữ điệu biểu thị độ dài của âm. Thành phần này của ngữ điệu mang tính phụ thuộc lẫn nhau giữa các âm, phụ thuộc vào người nói, phụ thuộc vào bản chất ngữ âm của ngôn ngữ. Chính vì thế, trong bài toán tổng hợp giọng nói cho một ngôn ngữ, bài toán đồng thời cũng đòi hỏi một cách đọc trường độ đúng nhằm không bị biến dạng âm dẫn đến sai nghĩa. Cụ thể như trường hợp đọc các âm có tiếng (voiced) và các âm không tiếng (non-voiced) hay như giữa nguyên âm và phụ âm.
Cường độ
Cường độ (Intensity) được cho là có sự liên quan đến âm lượng (độ lớn của âm thanh) và lực âm vị (vốn là đặc điểm của các ngôn ngữ). Trong hầu hết các ngôn ngữ, con người có xu hướng nhấn mạnh, rõ các trọng âm. Chúng được quy định khác nhau trong các ngôn ngữ khác nhau nhưng có đặc điểm chung là thành phần chính tạo ra nghĩa của từ. Song, cả các điều trên đều chỉ đến cảm nhận của tai người khi nghe nhiều hơn, vì vậy thông tin này thường được biểu diễn dưới dạng âm lượng.
Âm sắc
Âm sắc (Timbre) có thể hiểu là các sắc thái của âm thanh. Nó được định nghĩa một cách chính thức là chất lượng của một kích thích âm thanh trong đó người nghe có thể phân biệt hai âm thanh mà không liên quan tới với âm lượng và cao độ [2]. Chúng là thứ phân biệt nốt son được phát ra từ một cân đàn ghitar và một cây sáo. Cho dù chúng có cùng cường độ, trường độ, cao độ nhưng tai người vẫn có thể phân biệt được chúng. Trong ngôn ngữ nói, âm sắc không mang nhiều ý nghĩa trong quá trình nhận dạng tiếng nói, phát ra tiếng nói, song chúng là thành phần quan trọng phục vụ cho quá trình định danh người nói, phân biệt người nói. Âm sắc trong góc nhìn tín hiệu được cho là sự kết hợp giữa các tần số harmonic. Khác so với tần số cơ bản phục vụ cho việc định hình âm thanh, các tần số harmonic có nhiệm vụ biến đổi, thay đổi các đặc tính mang tính đặc trưng riêng của vật, người phát ra âm thanh. Quan sát hình sau có thể thấy được rõ ràng các nhận định trên. Đối với hệ thống TTS, để học được cách nói của nhiều người khác nhau, chúng buộc phải học được tính chất về âm sắc này.
Phần riêng cho Tiếng Việt
Phần riêng, tiếng Việt (Vietnamese) là một ngôn ngữ nói khá đặc trưng trong cấu trúc ngữ âm và đặc sắc trong các biến thế. Khác với các ngôn ngữ có cấu trúc từ đa âm tiết như tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, . . . , tiếng Việt thuộc dạng từ đơn âm tiết nhưng có hệ thống thanh điệu (tone) thay vì âm nhấn (stress). Đặc trưng ở đây là sự thay đổi trong thanh điệu có thể thay đổi hoàn toàn nghĩa của từ, ví dụ: nhà, nha, nhá, nhả, nhã, nhạ. Sự thay đổi nghĩa do thanh điệu gây ra có phần giống như sự thay đổi nghĩa của từ khi đổi âm nhấn trong tiếng anh, ví dụ: từ present được nhấn ở âm đầu và âm thứ 2 có gây ra sự khác nhau trong nghĩa của từ. Điểm đặc sắc trong tiếng nói tiếng Việt có thể kể đến ngoài hệ thống thanh điệu là âm phát ra của từng người theo vùng miền khác nhau, theo độ tuổi khác nhau có thể cho ra các âm khác nhau của cùng một chữ ở dạng văn bản, ví dụ: từ “đạp” trong tiếng phổ thông bị nói trại sang từ “độp” trong tiếng nói của những người bản địa vùng Quảng Nam. Để giải quyết các vấn đề này trong xây dựng hệ thống TTS cần có nghiên cứu kỹ lưỡng và đưa ra giải pháp phù hợp thay vì sử dụng tuỳ ý một hệ thống có sẵn trong tiếng nói của ngôn ngữ khác.
References
[1] A. de Dominicis, “Intonation systems: A survey of twenty languages,” Language, vol. 76, no. 2, pp. 460–463, 2000,
[2] A. N. S. Institute, A. S. Association, U. S. of America Standards Institute, and A. S. of America, Acoustical Terminology (including Mechanical Shock and Vibration): ANSI ASA S1.1-1960, Revision of Z24.1-1951 and Including Z24.1a, UDC 001.4:534 + 681.8. United States of America Standards Institute, 1960.
[3] S. Town and J. Bizley, “Neural and behavioral investigations into timbre perception,” Frontiers in systems neuroscience, vol. 7, p. 88, Nov. 2013.
[4] A. Schweitzer and N. T. Vu, “Cross-gender and cross-dialect tone recognition for vietnamese,”. Interspeech, 2016.
Khoa học - Công nghệ
/khoa-hoc-cong-nghe
Bài viết nổi bật khác
- Hot nhất
- Mới nhất