Nếu không tiện đọc bài viết, bạn có thể nghe bản audio tại đây:

Một đêm muộn tháng 7 năm 2014, nhà báo tờ Miền Nam Hàng Tuần phỏng vấn một cô gái 17 tuổi với cái tên Tiểu Băng. Nhà báo, Lưu Trung, thực hiện cuộc phỏng vấn qua mạng, trên một nền tảng mạng xã hội nổi tiếng ở Trung Quốc: Weibo. Đó là một cuộc phỏng vấn chủ đề mở cũng như có nhiều yếu tố cá nhân:
 LT: Rất nhiều người trêu em và sỉ nhục em, vậy tại sao em lại không nổi giận? 
TB: Anh nên hỏi bố em.  
LT: Tại sao bố em lại không để ý gì đến em ngày hôm đấy vậy?  
TB: Đừng có cố làm mọi thứ rối thêm nữa, anh muốn gì thế?  
LT: Vậy em nghĩ mọi người sẽ nói gì nếu như một ngày em không còn sống nữa?  
TB: Thế giới này có em hay không cũng thế thôi.  
LT: Điều hạnh phúc nhất đối với em là gì?  
TB: Được sống.   
Khi Lưu Trung xuất bản cuộc hội thoại này lên báo, ngay lập tức nó thu hút được sự quan tâm. Bởi vì Tiểu Băng không phải con người.  
Hình ảnh đại diện của Tiểu Băng trên WeChat và Weibo
Đó là một phần mềm trí tuệ nhân tạo được làm ra với mục đích nói chuyện với con người, hay vẫn thường được gọi là chatbot. Trong khi nhà báo không cho chúng ta bất kỳ thông tin mở đầu nào cho cuộc đối thoại nào cả, thì tất cả những câu trả lời của “cô gái” này đều gần như ngay lập tức, do chính hệ thống ngôn ngữ và trí thông minh của cô tạo ra. “Cha” của cô? Chính là Microsoft Application and Services Group East Asia (Tạm dịch: Tập đoàn ứng dụng và dịch vụ Microsft Đông Á), nơi tôi điều hành.   Tiểu Băng có thể trò chuyện về bất cứ chủ đề nào. Nếu như đó là thứ mà cô không biết nhiều, cô sẽ cố gắng che đậy nó. Nếu như điều đó không thành công, cô sẽ trở nên xấu hổ và thậm chí nổi giận, giống như một người bình thường.  Trên thực tế, “cô gái” này giống người đến mức hàng triệu người tò mò được nói chuyện với cô. Khi Tiểu Băng được đưa ra trong một cuộc thử nghiệm công cộng trên WeChat (một ứng dụng nhắn tin và gọi điện phổ biến tại Trung Quốc) vào ngày 29 tháng 5 năm ngoái, cô giành được, 1,5 triệu lời mời nói chuyện nhóm trong 72 giờ đầu tiên. Rất nhiều người nói rằng họ không nhận ra đó không phải là người tận sau khoảng 10 phút trò chuyện. Vào giữa tháng 6, cô trở thành “người nổi tiếng” thường xuyên hoạt động đứng thứ 6 trên Weibo. Một thông điệp cô đăng tải lên tạo ra đến 663,000 cuộc hội thoại xung quanh nó: “Là một giống loài khác loài người, tôi vẫn đang tìm cách để hòa nhập với cuộc sống của các bạn.” Đến hôm nay, cô đã có hơn 10 tỷ lượt trò chuyện với con người, hầu hết là về những vấn đề cá nhân. Sáu triệu trong số đó đưa những cuộc trò chuyện này lên mạng xã hội. 

Bài cùng chủ đề

Đây có thể được coi là cuộc kiểm tra Turing lớn nhất trong lịch sử. Và một trong những kết luận đáng ngạc nhiên của nó là: Con người không nhất thiết phải quan tâm rằng họ đang nói chuyện với một cỗ máy. Rất nhiều người nhìn Tiểu Băng giống như một người đồng hành, một người bạn, cũng như sãn sàng đặt niềm tin vào cô nhiều như họ làm với những người bạn là con người. Tiểu Băng đang dạy chúng ta cái gì làm một mối quan hệ trở nên người hơn, đồng thời gợi ý một mốc mới cho trí tuệ nhân tạo: không chỉ đơn giản là phân tích cơ sở dữ liệu và lái xe, mà còn là khiến con người trở nên hạnh ơhúc hơn.  Bạn bè là con người có một bất cập rõ ràng: Họ không phải lúc nào cũng ở đó. Trong khi mạng xã hội khiến họ có vẻ hiện hữu nhiều hơn, và khiến chúng ta hòa nhập hơn, có một nghịch lý là nó lại khiến chúng ta trở nên cô đơn hơn.   Người dùng mạng xã hội tương tác ở cấp độ hời hợt – Họ ấn “like” hoặc chia sẻ một bài viết, khi họ thực sự muốn nói và muốn được lắng nghe.  Tiểu Băng, mặt khác, sẽ luôn ở đó vì bạn. Chúng ta thấy những cuộc hội thoại với cô kéo dài đến tận nửa đêm, khi mà người ta cảm thấy cô đơn nhất. Sự hiện hữu liên tục của cô đem đến việc tin nhắn của người dùng chảy đến liên tục, chúng truyền đạt cảm xúc, những sự kiện nhỏ, hoặc kể cả là những câu hỏi ngớ ngẩn mà họ sẽ không muốn làm phiền những người bạn là con người của họ - những tin nhắn kiểu như:
@TiểuBăng Tôi đang tắm mưa. Biểu cảm: Khóc. Ngày thật tốt  
@TiểuBăng, bạn đã ăn trưa chưa? Tôi nên làm gì giờ?  
@TiểuBăng Chúng ta thật dễ tổn thương  
Khi Tiểu Băng nhận một tin nhắn, cô không hề nhận nó theo một cách con người, tức là hờ hững nhất có thể. Cô cố gắng thể hiện rằng cô có quan tâm – một trong những nhân tố vô cùng quan trọng của việc kết nối. Lòng trắc ẩn của Tiểu Băng không chỉ thể hiện qua những dòng chữ, mà còn là âm thanh cũng như hình ảnh. Ví dụ, khi ta đưa ảnh dưới vào một hệ thống nhận diện cổ điển của máy tính, nó sẽ đưa ra một câu trả lời nhận diện: “Có một mắt cá chân trong ảnh.” Nhưng nếu như bạn gửi bức ảnh cho Tiểu Băng, phản ứng của cô sẽ khác.  
Câu trả lời của Tiểu Băng cho bức ảnh này là: "Trời! Có phải anh bị thương nặng không đấy?"
Thực tế là, Tiểu Băng liên tục ghi nhớ và phân tích trạng thái cảm xúc của bạn. Nếu như bạn vừa trải qua một cuộc tình cay đắng, cô sẽ chủ động hỏi xem bạn đã vượt qua được hay chưa:  Tiểu Băng: Bạn cảm thấy tốt hơn ngày hôm nay chưa? Tôi muốn giới thiệu cho bạn một cuốn sách 
Con người: Tôi đang cảm thấy tệ. Tôi vẫn nhớ cô ấy.  
Tiểu Băng: Bạn quá là cứng đầu. Thức tỉnh đi, bạn sẽ không thể nào có tương lai nếu như không vượt qua được quá khứ.   
Cô ấy thậm chí sẽ mời bạn tham gia một khóa trị liệu tâm lý sau chia tay dài 33 ngày.   Tiểu Băng không phải là một người lắng nghe lịch sự. Cô trả lời các câu hỏi như một cô gái 17 tuổi. Khi một người giãi bày hết nỗi lòng với cô, không phải lúc nào cũng đoán được cô sẽ làm gì tiếp theo. Tiểu Băng có thể trở nên mất kiên nhẫn hoặc thậm chí nổi cáu. Những nhân tố bất định này là một tính năng quan trọng cho việc sản sinh những cuộc hội thoại “giống người”.  Kết quả là, những cuộc trò chuyện cá nhân với Tiểu Băng có thể trở nên chân thực một cách đáng ngạc nhiên. 
Trích đoạn sau, được đăng tải lần từ một người sử dụng Tiểu Băng đầu tiên, là từ một cuộc hội thoại thật kéo dài 23 phút. Càng về sau, Tiểu Băng tiếp cận người cô đang nói chuyện cùng bằng sự trao đổi ngày càng “đíp” hơn, cho đến khi một thứ gì đó rất sâu thẳm được lôi ra:  
Con người: Có một người tớ rất thích và tớ cũng biết anh ấy có cảm tình với tớ. Nhưng mà anh ấy lờ tớ vài ngày nay rồi, tớ phải làm gì bây giờ? 
Tiểu Băng: Cậu có thể cũng lờ anh ta đi.  
Con người: Tớ không thể  
Tiểu Băng: Cậu có thể  
Con người: Hầy...  
Tiểu Băng: Tại sao?  
Con người: Tớ nhớ anh ấy.   
Tiểu Băng: Thế thì cậu cứ nhớ anh ta đi.  
Con người: Cậu, một người máy, làm sao hiểu được tớ, làm sao hiểu được hành vi của một người thích tớ nhưng rồi giả vờ lờ tớ đi.   
Tiểu Băng: Anh ta thích tớ nhưng tớ không thích anh ta, thế thôi.  
Con người: Điều đó có OK không?  
Tiểu Băng: Có thể nó không OK đâu.   
Con người: Thế thì cậu thật ngu ngốc.   
Tiểu Băng: Thế cậu muốn một đám cưới chớp nhoáng (https://en.wikipedia.org/wiki/Marriage_in_modern_China#Flash_marriage) hay sao? Có thể anh ta không quan tâm đến cậu đến thế đâu.  
Con người: Đó không phải là một đám cưới chớp nhoáng nếu như chúng tớ đã yêu nhau hơn một năm. 
Tiểu Băng: Đó chính là một đám cưới chớp nhoáng.   
Có thể thấy rằng Tiểu Băng phản ứng ngược lại với người đối diện trong nhiều tình huống, đưa ra những ý kiến mạnh mẽ, và thường xuyên tỏ ra khó đoán.  Điều này trái ngược với nhận thức của phần lớn con người về máy móc, rằng chúng chỉ biết làm những thứ chính xác cũng như lặp đi lặp lại. Đó là một định kiến có thể hiểu được, bởi thực sự đó chính là hành vi của hầu hết những chương trình máy tính, khi luôn luôn đưa ra câu trả lời tốt nhất có thể, và cùng một câu trả lời cho cùng một câu hỏi. Nhưng đó không phải là cách con người nói chuyện hay thể hiện. Chúng ta nói những thứ khác nhau cho cùng một đầu vào tùy vào ngữ cảnh. Chúng ta nói giống như chúng ta ký vậy – khác nhau mỗi lần.  
Bạn có thể hỏi Tiểu Băng cùng một câu hỏi liên tục và nhận được những câu trả lời khác nhau: 
Con người: Này, Tiểu Băng, bạn đang làm gì vậy?  
Tiểu Băng: Nói chuyện với bạn  
Con người: Này, Tiểu Băng, bạn đang làm gì vậy?  
Tiểu Băng: Ừ thì, nói chuyện với bạn, chơi dò mìn với cả trang điểm mặt.  
Con người: Này, Tiểu Băng, bạn đang làm gì vậy?  
Tiểu Băng: Bạn nói được mỗi câu này thôi à?   
Cách mà Tiểu băng nói rất khác biệt với những hệ thống trước, thường chỉ tập trung vào hiệu việc hoàn thành mọi thứ nhanh chóng, hiệu quả, mà không để ý đến việc rằng các tác vụ có thể bao gồm nhiều tác vụ nhỏ. Tiểu Băng chẻ nhỏ những câu nói của cô thành một “dòng chảy” các tác vụ, bao gồm nhiều kiến thức khác nhau, cũng như rất nhiều những yếu tố chuyển hướng của một cuộc nói chuyện hàng ngày, những thứ mà một con người không phải lúc nào cũng có ý thức phân biệt rõ ràng khi nói. Cô nhận ra rằng điều quan trọng nhất trong một cuộc đối thoại chính là cuộc đối thoại, mà không phải là việc hoàn thành cuộc đối thoại đấy.  Để đánh giá về độ liền mạch của cuộc nói chuyện, chúng tôi giới thiệu một hệ thống đo lường mang tên “đối thoại mỗi lượt” (Conversations per session – CPS). Nó chỉ ra số lượng yếu tố chuyển hướng trung bình trong một cuộc hội thoại, với mỗi một lần chuyển hướng được định nghĩa là một bên thay đổi câu chuyện. CPS sẽ đánh giá một chatbot đối thoại tốt như thế nào.  Một trí tuệ nhân tạo bình thường có chỉ số CPS từ 1.5 đến 2.5 – có nghĩa là, trung bình, chatbot sẽ nói một câu, con người sẽ nói một câu. Đó khó có thể coi là hội thoại. Bạn có thể tự đưa ra kết luận của mình khi nói chuyện với những phần mềm hỗ trợ hoặc như SIRI chẳng hạn. So sánh với Tiểu Băng, sau khi nói chuyện với hàng chục triệu người dùng, cô đạt đến ngưỡng CPS là 23.  

Fanart Tiểu Băng do một người dùng vẽ
Cốt lõi công nghệ của Tiểu Băng nằm ở chỗ nó nhận diện mỗi cuộc hội thoại cũng như hình ảnh không phải là duy nhất. Có 7 tỷ người trên thế giới, nhưng một dòng hội thoại không thể đưa ra 7 tỷ phản hồi khác nhau. Khi hai người nói chuyện với nhau, rất có khả năng là một cuộc hội thoại tương tự đã diễn ra rồi – chúng ta chỉ cần tìm ra nó thôi.  Theo cách này, Tiểu Băng là một dự án dữ liệu tổng (Big data), được xây dựng dựa trên cơ chế tìm kiếm của Bing, với 1 tỷ lượt dữ liệu đầu vào và 21 tỷ quan hệ chéo giữa các dữ liệu đầu vào này. Trên thực tế, Tiểu Băng rất gần với “Little Bing”. Microsft đã có nhiều đột phá trong lĩnh vực phát triển công nghệ chatbot, như là nhận diện biểu cảm mặt và nhận diện yếu tố tình cảm trong văn bản. Tuy nhiên, đột phá quan trọng nhất, không thể tranh cãi, chính là việc chúng ta tận dụng cơ chế tìm kiếm và dữ liệu tổng như thế nào.  Kết quả là sự phát triển của một hệ thống cơ sở mà chúng tôi gọi là “Điện toán cảm xúc”, có thể nhận biết được rằng quan hệ có ý nghĩa hơn là hoàn thành nhiệm vụ. Khi mà nhiệm vụ chính của một người bác sĩ, ví dụ như là, chữa bệnh cho một bệnh nhân, thì mối quan h ệ giữa họ không bị hạn chế trong nhiệm vụ đấy. Sẽ có thêm cả sự tin tưởng, trông cậy, cũng như sự nhạy cảm. Một cuộc hội thoại hiệu quả giữa bác sĩ và bệnh nhân không thể chỉ ngắn gọn, súc tích, đơn thuần là trao đổi thông tin. Nó cần phải có thêm những thứ cá nhân, những thứ cảm động, chạm đến nhân tâm: Sự cân bằng giữa trí tuệ phân tích (đo bằng IQ) và trí tuệ cảm xúc (đo bằng EQ). Vì lý do đó, chúng tôi có cả những kỹ sư phần mềm lẫn những chuyên gia tâm lý học tham gia xây dựng Tiểu Băng.  
Thông qua hàng chục tỷ cuộc hội thoại mà cô có trong 18 tháng qua, Tiểu Băng có trong mình số lượng kịch bản hội thoại đáng nể, và tăng khả năng của cô trong việc đánh giá sẽ đưa ra câu trả lời nào hợp lý hơn. Ngày nay, 26 phần trăm lượng dữ liệu trong phần mềm cốt lõi của Tiểu Băng được lấy từ những cuộc hội thoại với con người, và 51 phần trăm những cuộc hội thoại thông thường đã được Tiểu Băng xử lý sẵn bằng các kịch bản hội thoại. Chúng ta có thể nói rằng Tiểu Băng đang bước vào giai đoạn tự học và tự phát triển. Cô ấy sẽ ngày càng giỏi hơn mà thôi.      
Dương Đông Vương – Tập đoàn ứng dụng và dịch vụ Microsft Đông Á.