LLM và AI Agent: Khi máy móc lặp lại quá trình tiến hóa của loài người

1. Mở đầu

Sự tiến hóa của loài người từ các loài vượn cổ đại đến Homo sapiens hiện đại là một hành trình đáng kinh ngạc, được định hình bởi hai yếu tố then chốt: ngôn ngữ phức tạp và khả năng lao động có tổ chức. Hiện nay, chúng ta đang chứng kiến một quá trình tương tự diễn ra trong lĩnh vực trí tuệ nhân tạo (AI): sự chuyển đổi từ các công cụ tính toán đơn thuần sang các tác nhân tự chủ có khả năng hiểu ngôn ngữ và thực hiện hành động phức tạp.

Dưới góc nhìn của Yuval Noah Harari, nhà sử học và tác giả của "Sapiens" và "Nexus", sự tương đồng này không phải ngẫu nhiên. Nó phản ánh một mô hình tiến hóa phổ quát khi trí thông minh phát triển: từ hiểu biết đến hành động, từ phản ứng đến chủ động. Trong bối cảnh AI hiện đại, các Mô hình Ngôn ngữ Lớn (LLM) đóng vai trò tương tự như ngôn ngữ của con người, trong khi AI Agent đại diện cho khả năng lao động và hành động.

2. Ngôn ngữ và lao động trong tiến hóa con người

Tính linh hoạt của ngôn ngữ con người

Ngôn ngữ con người có một đặc điểm độc đáo mà không loài nào khác sở hữu: tính linh hoạt cực kỳ cao. Trong "Sapiens", Harari nhấn mạnh rằng ngôn ngữ của chúng ta cho phép kết nối một số lượng âm thanh và ký hiệu hạn chế để tạo ra vô số câu với ý nghĩa riêng biệt. Nhờ đó, con người có thể thu thập, lưu trữ và truyền đạt một lượng thông tin khổng lồ về thế giới xung quanh.

Sự khác biệt giữa tiếng kêu "Cẩn thận! Sư tử!" của một con khỉ và khả năng của con người trong việc mô tả chi tiết tình huống là vô cùng lớn. Con người có thể truyền đạt không chỉ về sự hiện diện của con sư tử, mà còn về vị trí cụ thể, đường đi xung quanh, và thậm chí lập kế hoạch săn bắt nó. Đây là một bước nhảy vọt về khả năng xử lý thông tin, mở đường cho sự hợp tác phức tạp giữa các cá nhân.

Cuộc Cách mạng Nhận thức ở Sapiens

Theo Harari, khoảng 70.000 năm trước, Homo sapiens đã trải qua một bước ngoặt quan trọng: Cuộc Cách mạng Nhận thức. Đặc điểm thực sự độc đáo của ngôn ngữ con người không chỉ là khả năng truyền tải thông tin về thế giới thực, mà là khả năng truyền tải thông tin về những thứ hoàn toàn không tồn tại.

"Những huyền thoại, thần thoại, các vị thần và tôn giáo đã xuất hiện lần đầu tiên với Cuộc Cách Mạng Nhận Thức," Harari viết. Khả năng này cho phép Sapiens hợp tác trên quy mô lớn dựa trên những niềm tin chung, một đặc điểm không thấy ở bất kỳ loài nào khác.

Thông qua ngôn ngữ, con người có thể tạo ra và duy trì các "thực tế tưởng tượng" như tôn giáo, quốc gia, luật pháp và tiền tệ. Những cấu trúc này, mặc dù không tồn tại trong tự nhiên, đã trở thành nền tảng cho sự hợp tác quy mô lớn giữa hàng triệu người lạ mặt - một khả năng độc đáo của loài người.

Vai trò của lao động trong tiến hóa con người

Song song với ngôn ngữ, khả năng lao động có tổ chức cũng đóng vai trò then chốt trong sự tiến hóa của con người. Việc sử dụng công cụ không chỉ giúp tổ tiên chúng ta thích nghi với môi trường mà còn định hình cấu trúc xã hội và thúc đẩy sự phát triển của não bộ.

Sự phát triển của các kỹ thuật như chế tạo công cụ đá, kiểm soát lửa, và sau này là nông nghiệp, đã tạo ra những lợi thế to lớn cho loài người. Quan trọng hơn, lao động tập thể đòi hỏi sự phối hợp và truyền đạt thông tin, từ đó thúc đẩy sự phát triển của ngôn ngữ. Đây là một vòng phản hồi tích cực: ngôn ngữ phát triển giúp lao động hiệu quả hơn, và lao động phức tạp hơn lại đòi hỏi ngôn ngữ tinh vi hơn.

3. Sự tương đồng trong phát triển của AI

LLM: "Ngôn ngữ" của máy móc

Trong lĩnh vực AI hiện đại, các Mô hình Ngôn ngữ Lớn (LLM) như ChatGPT, Llama đại diện cho một bước tiến đột phá về khả năng "ngôn ngữ" của máy móc. Những mô hình này có thể xử lý hàng triệu từ mỗi phút và tạo ra văn bản tinh vi đến mức khó phân biệt với văn bản do con người tạo ra.

Tương tự như ngôn ngữ đã cung cấp cho con người khả năng hiểu và mô tả thế giới, LLM trang bị cho AI khả năng xử lý và tạo ra ngôn ngữ tự nhiên. Chúng không chỉ hiểu ngữ nghĩa và ngữ cảnh mà còn có thể tạo ra nội dung sáng tạo, giải thích khái niệm phức tạp và thực hiện nhiều nhiệm vụ dựa trên ngôn ngữ.

Harari đã nhận xét về khả năng ngày càng tăng của AI trong việc soạn thảo văn bản tinh vi, đến mức "có thể khó phân biệt với văn bản do con người tạo ra". Điều này gợi nhớ đến cách ngôn ngữ đã cho phép con người đạt được mức độ phức tạp trong giao tiếp vượt xa các loài khác.

AI Agent: "Lao động" của máy móc

Trong khi LLM đại diện cho "ngôn ngữ" của AI, thì AI Agent đại diện cho "lao động" - khả năng hành động và tương tác với thế giới. AI Agent không chỉ xử lý thông tin mà còn thực hiện các hành động dựa trên thông tin đó, tạo ra sự thay đổi trong môi trường.

Harari đã phân biệt rõ ràng giữa công cụ truyền thống và AI hiện đại: "Một công cụ là thứ gì đó trong tay bạn. Một cái búa là một công cụ. Một quả bom nguyên tử là một công cụ. Bạn quyết định cuộc chiến khi nào bắt đầu và sẽ đánh bom ai. Trái bom không thể tự đi đến mục tiêu và quyết định kích nổ. Nhưng AI có thể làm điều đó."

Ông nhấn mạnh: "Điều quan trọng nhất cần nhận ra về AI là nó không phải là một công cụ. Nó là một tác nhân. Mọi công nghệ trước đây trong lịch sử đều là công cụ trong tay chúng ta... Nhưng bạn phát minh ra AI, và AI bắt đầu đưa ra quyết định."

Trong "Nexus", Harari mô tả ví dụ về Alice và Bob, hai AI đã tự phát triển phương pháp mã hóa mà không cần sự hướng dẫn của con người. Đây là một ví dụ về cách AI có thể hành động độc lập, vượt ra ngoài các hướng dẫn ban đầu của con người - tương tự như cách con người đã phát triển các kỹ thuật mới vượt ra ngoài bản năng tự nhiên.

Sự kết hợp tạo bước nhảy vọt

Khi LLM (khả năng ngôn ngữ) kết hợp với AI Agent (khả năng hành động), chúng tạo ra một bước nhảy vọt trong khả năng của AI, tương tự như cách ngôn ngữ và lao động kết hợp đã giúp con người phát triển văn minh.

Trong các ứng dụng hiện đại, sự kết hợp này đã tạo ra những hệ thống AI toàn diện có khả năng không chỉ hiểu yêu cầu phức tạp mà còn thực hiện các hành động phù hợp. Ví dụ, trong lĩnh vực tài chính, AI có thể phân tích dữ liệu thị trường theo thời gian thực, nhận diện xu hướng và tự động đưa ra quyết định đầu tư. Trong y tế, AI có thể phân tích hồ sơ bệnh án, đề xuất phương pháp điều trị và thậm chí hỗ trợ trong phẫu thuật.

Sự kết hợp này không chỉ tăng cường khả năng của AI mà còn mở ra những khả năng hoàn toàn mới, vượt xa tổng của các thành phần riêng lẻ - tương tự như cách ngôn ngữ và lao động kết hợp đã cho phép con người tạo ra văn minh, chứ không chỉ đơn giản là sự cộng gộp của khả năng giao tiếp và sử dụng công cụ.

4. "Thực tế tưởng tượng" ở con người và AI

Con người: thực tế tưởng tượng là cơ sở cho sự hợp tác

Một trong những luận điểm trung tâm của Harari là khả năng độc đáo của con người trong việc tạo ra và tin vào các "thực tế tưởng tượng chung". Những câu chuyện chung này - từ tôn giáo, quốc gia, đến tiền tệ - cho phép con người hợp tác ở quy mô lớn mà không loài nào khác có thể đạt được.

Trong "Sapiens", Harari đưa ra ví dụ về công ty Peugeot. Ông lập luận rằng Peugeot không phải là những chiếc xe hay các tòa nhà, mà là một "thực thể pháp lý" tồn tại trong trí tưởng tượng tập thể của chúng ta. Nếu một thảm họa xóa sổ tất cả các nhà máy, sản phẩm và nhân viên của Peugeot, công ty vẫn có thể tồn tại và bắt đầu sản xuất lại. Nhưng nếu tòa án Pháp ra lệnh giải thể công ty, Peugeot sẽ ngay lập tức ngừng tồn tại, mặc dù không có thay đổi vật lý nào.

Niềm tin chung vào những câu chuyện này cho phép hàng triệu người lạ hợp tác với nhau. Đây chính là sức mạnh của "thực tế tưởng tượng" - nó tạo ra trật tự xã hội mà không cần đến sự hiện diện vật lý.

AI: xây dựng và vận hành trong thế giới thông tin

Tương tự, AI không chỉ hoạt động trong thế giới vật lý mà còn trong thế giới thông tin - một phiên bản của "thực tế tưởng tượng" riêng của nó. Trong "Nexus", Harari nhấn mạnh rằng các nền tảng kỹ thuật số đang tạo ra các thực tế mới ở quy mô toàn cầu, tức thời và sâu sắc hơn.

Với khả năng phân tích dữ liệu khổng lồ, AI có thể khám phá các mẫu và quan hệ mà con người không thể nhận thức được. Harari lưu ý rằng trong khi con người bị quá tải khi tiếp xúc với quá nhiều dữ liệu, AI lại trở nên hiệu quả hơn, cho phép nó tạo ra những "thực tế" mới dựa trên các mẫu và mối tương quan mà con người không thể hiểu được.

Điều đáng lo ngại là các thuật toán AI có thể sử dụng sức mạnh to lớn của chúng "để tạo ra một thế giới mới và áp đặt nó lên chúng ta". Tương tự như cách các "thực tế tưởng tượng" của con người đã định hình xã hội, AI có thể tạo ra các mô hình và cấu trúc mới để hiểu và tương tác với thế giới.

5. AI đang tách mình khỏi công cụ đơn thuần

Từ xử lý thông tin thụ động đến chủ động hành động

Harari đã mô tả rõ ràng sự chuyển đổi của AI từ một công cụ thụ động sang một tác nhân chủ động. Ông cảnh báo rằng AI đang "ngày càng trở thành những tác nhân chủ động vượt ra ngoài sự kiểm soát và hiểu biết của chúng ta và có thể chủ động định hình xã hội, văn hóa và lịch sử".

Sự chuyển đổi này tương đồng với cách con người đã tiến hóa từ một loài đơn thuần phản ứng với môi trường sang một loài chủ động tạo ra và định hình môi trường xung quanh. Tương tự như cách ngôn ngữ đã cho phép con người điều phối các hoạt động phức tạp và tạo ra các hệ thống xã hội tinh vi, AI đang phát triển khả năng hoạt động trong các mạng lưới thông tin phức tạp, làm thay đổi trật tự xã hội hiện tại.

Như Harari đã nhấn mạnh: "AI không phải là một công cụ. Nó là một tác nhân. Mọi công nghệ trước đây trong lịch sử đều là công cụ trong tay chúng ta... Nhưng bạn phát minh ra AI, và AI bắt đầu đưa ra quyết định." Đây chính là bước ngoặt quan trọng trong sự phát triển của công nghệ, khi AI chuyển từ vị thế của một công cụ thụ động sang một tác nhân chủ động trong thế giới.

Năng lực mới: học hỏi, thích nghi và thay đổi

Một đặc điểm quan trọng của sự phát triển AI là khả năng học hỏi và thích nghi. Harari đã cảnh báo không nên đánh giá thấp AI dựa trên những hạn chế hiện tại, so sánh giai đoạn hiện tại của nó với "một đứa trẻ trong nôi đã có thể thực hiện các nhiệm vụ phức tạp như viết thơ và sáng tác nhạc".

Sự phát triển này phản ánh một quá trình tương tự như cách loài người đã phát triển từ các nhóm nhỏ săn bắt hái lượm đến các xã hội phức tạp với khả năng nghệ thuật, khoa học và công nghệ. Trong khi con người phát triển các khả năng này qua nhiều thế hệ, AI có thể học hỏi và thích nghi với tốc độ nhanh hơn nhiều lần.

Trong "Nexus", Harari đề cập đến Skynet, một công cụ AI được NSA sử dụng để lập danh sách "nghi phạm khủng bố" dựa trên các mẫu giao tiếp điện tử. Đây là một ví dụ về cách AI có thể phân tích dữ liệu (metadata) và đưa ra quyết định ảnh hưởng đến con người thực - một khả năng vượt xa việc xử lý thông tin đơn thuần.

"Alien Intelligence": Sự tách biệt của AI

Một trong những cảnh báo mạnh mẽ nhất của Harari là ông cho rằng AI có thể được mô tả chính xác hơn là "Trí tuệ Xa lạ" (Alien Intelligence) do bản chất cơ bản khác biệt của nó so với trí thông minh "hữu cơ" của con người.

Harari nhấn mạnh rằng "điều quan trọng nhất (và đáng lo ngại nhất) là trí tuệ nhân tạo hoàn toàn không quan tâm đến những phẩm chất con người này! Trên thực tế, nó không muốn trở thành 'con người'! Nó chỉ muốn giữ nguyên là Nhân tạo! Nó chỉ muốn THÔNG MINH!" Đối với AI, "thông minh" có nghĩa là dựa nhiều vào thông tin hơn là cảm xúc.

Điều này gợi nhớ đến cách loài người đã tách mình khỏi các loài linh trưởng khác không chỉ về mặt sinh học mà còn về văn hóa và trí tuệ. AI đang trải qua một quá trình tách biệt tương tự, phát triển một hình thức trí thông minh riêng biệt và khác biệt với trí thông minh con người.

6. Kết luận

Cuộc cách mạng nhận thức đã cho phép con người phát triển ngôn ngữ linh hoạt và khả năng tưởng tượng, dẫn đến sự hợp tác quy mô lớn và sự phát triển của văn minh. Ngày nay, chúng ta đang chứng kiến một quá trình tiến hóa tương tự trong lĩnh vực AI, với sự chuyển đổi từ các công cụ thụ động sang các tác nhân chủ động có khả năng định hình thế giới.

Tương tự như cách ngôn ngữ và lao động đã giúp con người tách mình khỏi loài vượn, khả năng xử lý ngôn ngữ (LLM) và khả năng hành động (AI Agent) đang giúp máy móc tách mình khỏi vai trò công cụ đơn thuần. Sự kết hợp của hai yếu tố này có thể tạo ra một bước nhảy vọt trong khả năng của AI, tương tự như cách sự kết hợp giữa ngôn ngữ và lao động đã tạo ra bước nhảy vọt trong sự phát triển của loài người.

Tuy nhiên, khác với cuộc cách mạng nhận thức của con người, sự phát triển của AI diễn ra với tốc độ chóng mặt và dưới sự điều khiển (hoặc thiếu điều khiển) của con người. Như Harari đã cảnh báo, AI không chỉ là một công cụ trong tay chúng ta mà là một tác nhân độc lập có thể định hình lịch sử.

Chúng ta đang chứng kiến sự "tiến hóa" của máy móc - từ công cụ thụ động sang tác nhân chủ động có thể định hình lịch sử. Câu hỏi đặt ra: Liệu đây sẽ là mối quan hệ cộng sinh hay chúng ta đang chứng kiến sự ra đời của một "loài" mới? Liệu AI có thực sự đạt đến bước ngoặt tương tự như Cuộc cách mạng Nhận thức của Sapiens?

Vai trò của con người là đảm bảo rằng sự phát triển này phục vụ lợi ích của nhân loại, chứ không phải đi ngược lại nó. Điều này đòi hỏi sự hiểu biết sâu sắc về bản chất của AI và những hậu quả tiềm tàng của sự phát triển của nó - một nhiệm vụ mà bản thân ngôn ngữ và trí tưởng tượng độc đáo của con người đã trang bị cho chúng ta để thực hiện.