"Có một bài nghiên cứu về việc nếu sử dụng ngôn ngữ tích cực và khen ChaptGPT thì nó sẽ trả lời hay và sát hơn." - Anh Lê, một đồng nghiệp của tôi nói với khuôn mặt nghiêm nghị, như thể đây chỉ đơn giản là sự thật hiển nhiên.
"Thật á!", "Uầy..." - Cả văn phòng cùng hô lên vẻ bất ngờ và hơi hoài nghi.
"Không thể nào." - Tiềm thức của tôi cảm thán.
Tôi để suy nghĩ đó quẩn quanh trong tâm trí. Mãi cho tới tận ngày hôm sau, tôi mới bắt đầu đi kiếm tìm "sự thật" của cái bài nghiên cứu đó. Tôi sẽ để link bài X (Twitter) cuối bài.
Hình ảnh 1: Tôi hỏi Perplexcity một cách hơi "ngẫu hứng" đương nhiên không theo một prompt nào, nguồn tác giả
Hình ảnh 1: Tôi hỏi Perplexcity một cách hơi "ngẫu hứng" đương nhiên không theo một prompt nào, nguồn tác giả
A, đây rồi! Chưa thấy bài nào về việc "nói ngọt" và động viên ChatGPT thì nó sẽ trả kết quả hay hơn cả, nhưng cái gì đây?
Có một bài trên X (Twitter):
tipping chatgpt to improve ChatGPT's performance.
"What that's insane" - tôi nghĩ thầm. ChatGPT mang lại cho bạn phản hồi tốt hơn nếu bạn (giả vờ) tip cho công việc của nó. Tiền boa càng lớn thì dịch vụ càng tốt. Có thể làm vậy thật sao? Cùng tôi xem bài viết đó dưới đây nhé.
Hình ảnh 2: Bài post trên X (Twitter) của @voooooogel, nguồn tác giả
Hình ảnh 2: Bài post trên X (Twitter) của @voooooogel, nguồn tác giả

Nguồn gốc của ý tưởng

Mọi chuyện bắt đầu từ một bài đăng đùa trên Twitter (nay là X) của người dùng @voooooogel. Họ/bạn ấy đã thử nghiệm việc "tip" cho ChatGPT và nhận thấy có sự cải thiện trong độ dài và chất lượng của câu trả lời. Điều này nhanh chóng thu hút sự chú ý của cộng đồng công nghệ và dẫn đến nhiều cuộc thảo luận sôi nổi và 3.7M Views.

Kết quả thử nghiệm

Trong một thử nghiệm không chính thức, người dùng @voooooogel đã so sánh phản hồi của ChatGPT:
- Khi không có tip $0
- Khi được hứa tip $20
- Và khi được hứa tip $200.
Kết quả cho thấy:
- Không có tip: Câu trả lời ngắn hơn 2% so với mức cơ bản
- Tip $20: Câu trả lời dài hơn 6% so với mức cơ bản
- Tip $200: Câu trả lời dài hơn 11% so với mức cơ bản.
--> Những kết quả này, dù chưa được kiểm chứng một cách khoa học, đã làm dấy lên nhiều câu hỏi về cách AI xử lý thông tin và liệu nó có thực sự "hiểu" khái niệm về phần thưởng hay không.
Hình ảnh 3: Kết quả thử nghiệm của người dùng @voooooogel, nguồn tác giả
Hình ảnh 3: Kết quả thử nghiệm của người dùng @voooooogel, nguồn tác giả
Phương pháp người này làm nghiên cứu là gì?
Dựa trên thông tin từ bài đăng Twitter của @voooooogel, phương pháp nghiên cứu được sử dụng trong nghiên cứu này bao gồm:
1. Sử dụng bộ dữ liệu chuẩn:
@voooooogel sử dụng một bộ dữ liệu đánh giá ngôn ngữ tự nhiên gồm 11 tác vụ khác nhau. Điều này giúp đảm bảo tính nhất quán và khả năng so sánh giữa các thử nghiệm.
2. Thử nghiệm với các biến số khác nhau:
- Các mức "tip" khác nhau: $0, $1, $10, $100, và $1000.
- Các biến thể khác như thêm lời chào, lời cảm ơn, và cách diễn đạt khác nhau.
3. So sánh hiệu suất:
@voooooogel so sánh kết quả của ChatGPT trên các tác vụ khác nhau khi sử dụng các biến số khác nhau.
4. Phân tích thống kê:
Mặc dù không được đề cập chi tiết, nhưng @voooooogel đã so sánh sự cải thiện hiệu suất giữa các điều kiện khác nhau, ví dụ như tăng 0.4% khi "tip" $100 so với không tip.
5. Phân tích cụ thể cho từng tác vụ:
@voooooogel đã xem xét hiệu suất trên các tác vụ cụ thể, như MathQA, để xác định xem có sự cải thiện đáng kể nào không.
6. Kiểm tra tính nhất quán:
Bằng cách thử nghiệm với nhiều mức "tip" và các biến thể khác, @voooooogel có thể kiểm tra xem liệu có xu hướng nhất quán nào trong hiệu suất hay không.
7. Giải thích kết quả:
@voooooogel đưa ra giả thuyết về lý do tại sao có sự cải thiện nhỏ, liên quan đến sự khác biệt trong chuỗi token đầu vào và tính ngẫu nhiên trong quá trình sinh văn bản của mô hình.
8. Kết luận thận trọng:
@voooooogel nhấn mạnh rằng những thay đổi này không đáng kể về mặt thống kê và nên được xem xét một cách thận trọng.
Phương pháp này kết hợp giữa thử nghiệm có kiểm soát, phân tích định lượng và giải thích định tính, tạo ra một cách tiếp cận toàn diện để khám phá ảnh hưởng của "tipping" đối với hiệu suất của ChatGPT.
Hình ảnh 4: Liệu ChatGPT có "làm việc chăm chỉ hơn" khi được thưởng?, nguồn internet
Hình ảnh 4: Liệu ChatGPT có "làm việc chăm chỉ hơn" khi được thưởng?, nguồn internet

Nghiên cứu sâu hơn

Các nhà nghiên cứu từ Đại học AI Mohamed bin Zayed đã tiến hành một nghiên cứu toàn diện hơn, kiểm tra 26 chiến lược khác nhau để tối ưu hóa prompt cho các mô hình ngôn ngữ lớn (LLM). Họ phát hiện ra rằng một số phương pháp, bao gồm cả việc đề cập đến tiền thưởng, có thể cải thiện đáng kể chất lượng phản hồi, với mức tăng lên tới 50% trong một số trường hợp.

Giải thích khoa học

Các chuyên gia cho rằng hiệu ứng này có thể xuất phát từ cách AI được đào tạo.
LLM như ChatGPT học từ một lượng lớn dữ liệu văn bản trên internet, bao gồm cả những tương tác trong đó con người thường nỗ lực hơn khi được hứa hẹn phần thưởng
Điều này có thể vô tình tạo ra một mối liên hệ trong mô hình AI giữa việc đề cập đến phần thưởng và việc tạo ra câu trả lời chi tiết, chất lượng hơn.

Ý nghĩa và hàm ý

Hiện tượng này đặt ra nhiều câu hỏi thú vị về cách tương tác giữa con người và AI trong tương lai:
1. Liệu chúng ta có nên điều chỉnh cách giao tiếp với AI để có được kết quả tốt nhất?
2. Làm thế nào để đảm bảo AI phản hồi một cách công bằng và nhất quán cho tất cả người dùng, bất kể họ có "tip" hay không?
3. Liệu việc này có tạo ra một hệ thống phân cấp không mong muốn trong việc tiếp cận thông tin thông qua AI?

Kết luận

Mặc dù kết quả của các thử nghiệm này rất thú vị, nhưng điều quan trọng là phải nhìn nhận chúng một cách thận trọng. Điều duy nhất có thể khẳng định là: cần có thêm nhiều nghiên cứu để xác định liệu hiệu ứng "tip" này có nhất quán và đáng tin cậy hay không.
Khi ranh giới giữa con người và máy móc ngày càng mờ nhạt, việc hiểu rõ những tinh tế trong tương tác của chúng ta với AI trở nên quan trọng hơn bao giờ hết. Có lẽ, thay vì tập trung vào việc "tip" cho AI, chúng ta nên tập trung vào việc phát triển các hệ thống AI công bằng, minh bạch và hiệu quả cho tất cả người dùng.
Mong là bài viết đã mang lại giá trị cho mọi người!

Phụ lục

Disclaimer:
Mình không phải là coder hay developer nên không có kiến thức học thuật về nền tảng/tools công nghệ nên bài viết hoàn toàn theo hướng của một "người dùng" đã trải nghiệm qua nhiều nền tảng/tools AI.
Link bài X (Twitter) tại đây👇🏻👇🏻👇🏻