Robot hình người là lựa chọn kém hiệu quả — vậy vì sao cả thế giới vẫn lao vào làm?

Hãy tưởng tượng một ngày bạn đi làm về mệt mỏi, mở cửa nhà, và có một robot bước ra đón bạn. Hai chân, hai tay, chuyển động chưa thật sự hoàn hảo nhưng đủ tự nhiên để bạn nhận ra: nó được thiết kế để giống con người. Nó nói rằng bữa tối đã sẵn sàng.

Nghe như khoa học viễn tưởng? Không hẳn. Những cỗ máy như vậy đang được phát triển ngay lúc này.

Và điều thú vị là: về mặt kỹ thuật thuần túy, robot hình người gần như không phải lựa chọn tối ưu.

Robot bánh xe di chuyển nhanh và ổn định hơn. Cánh tay robot công nghiệp chính xác hơn rất nhiều. Robot bốn chân có thể vượt địa hình phức tạp tốt hơn. Còn cấu trúc hai chân — thứ làm nên dáng đứng của con người — lại là một trong những cơ chế khó điều khiển nhất trong robotics.

Vậy tại sao người ta vẫn đổ hàng tỷ đô vào việc chế tạo robot giống chính mình?

Câu trả lời không chỉ nằm trong kỹ thuật. Nó nằm ở kinh tế, trí tuệ nhân tạo, tâm lý học — và cả cách xã hội loài người được xây dựng.

Thế giới này được thiết kế cho con người

Toàn bộ hạ tầng nhân loại được xây dựng xoay quanh cơ thể con người: chiều cao bàn ghế, tay nắm cửa, cầu thang, phương tiện giao thông, công cụ cầm tay.

Một robot bước vào thế giới này không chỉ phải hoàn thành nhiệm vụ, mà còn phải tương thích với môi trường vật lý đã tồn tại hàng trăm năm.

Trong robotics, có khái niệm “environment compatibility” — mức độ tương thích giữa hình dạng cơ thể và môi trường: hình thái cơ thể càng phù hợp với môi trường, chi phí triển khai càng thấp. Nếu một robot có thể mở cửa, leo cầu thang, cầm chảo, vặn ốc bằng chính những công cụ con người đang dùng, chúng ta không cần thiết kế lại toàn bộ thế giới cho nó.

Nói đơn giản: rẻ hơn khi làm một cỗ máy giống người, hơn là tái thiết kế cả hành tinh cho máy móc.

Đó là lý do các dự án robot hình người như Optimus của Tesla hay Atlas của Boston Dynamics thu hút sự chú ý lớn: chúng được xây dựng với tham vọng hoạt động ngay trong môi trường của con người, thay vì trong những không gian chuyên biệt.

Robot chuyên dụng thắng về hiệu suất — nhưng thua về tính linh hoạt

Trong nhà máy, cánh tay robot công nghiệp có thể hàn chính xác đến từng milimet. Trong kho hàng, robot tự hành bánh xe tối ưu hóa tốc độ và năng lượng. Những hệ thống này cực kỳ hiệu quả — nhưng chỉ trong phạm vi nhiệm vụ được thiết kế sẵn.

Con người thì ngược lại. Chúng ta không phải là sinh vật tối ưu cho bất kỳ công việc nào. Nhưng chúng ta làm được rất nhiều việc ở mức “đủ tốt”.

Chính khả năng đa năng này mới có giá trị kinh tế khổng lồ.

Một robot hình người với bàn tay tương tự con người có thể sử dụng ngay các công cụ hiện có: búa, tua vít, máy khoan, thậm chí thiết bị nhà bếp. Thay vì xây dựng một robot riêng cho từng nhiệm vụ, người ta hy vọng tạo ra một nền tảng chung có thể thích nghi với nhiều loại công việc khác nhau.

Về mặt chiến lược, đây giống như sự khác biệt giữa một thiết bị chỉ làm được một việc và một chiếc smartphone — thứ có thể thay thế hàng chục công cụ khác.

AI học từ con người — và cơ thể giống người giúp việc học dễ hơn

Trí tuệ nhân tạo hiện đại không chỉ dựa vào lập trình thủ công mà còn dựa vào học từ dữ liệu, đặc biệt là học bắt chước (imitation learning).

Nguồn dữ liệu hành vi phong phú nhất trên thế giới chính là… con người. Hàng tỷ video ghi lại cách chúng ta nấu ăn, sửa đồ, lắp ráp, sử dụng công cụ. Nếu robot có cấu trúc cơ thể tương tự, việc chuyển giao kỹ năng từ dữ liệu con người sang robot trở nên tự nhiên hơn.

Một minh chứng rõ ràng đến từ nghiên cứu “One-Shot Imitation from Watching Videos” của nhóm Berkeley Artificial Intelligence Research (BAIR). Trong nghiên cứu này, các nhà khoa học cho thấy robot có thể học một nhiệm vụ mới chỉ bằng cách quan sát một video con người thực hiện nhiệm vụ đó — mà không cần được lập trình chi tiết từng bước.

Ý tưởng cốt lõi ở đây là: thay vì dạy robot bằng mã lệnh, ta cho nó “xem” cách con người làm — và để hệ thống học cách ánh xạ hành động đó sang cơ thể của mình.

Nhưng quá trình ánh xạ này không hề đơn giản. Nếu cấu trúc robot khác xa con người, hệ thống phải giải một bài toán phức tạp: chuyển đổi từ chuyển động tay người sang một cơ chế hoàn toàn khác. Ngược lại, nếu robot có khớp, tay và phạm vi vận động tương đồng, việc chuyển giao trở nên trực tiếp và ít tốn dữ liệu hơn.

One-Shot Imitation from Watching Videos – The Berkeley Artificial Intelligence Research Blog

Cơ thể càng giống → ánh xạ chuyển động càng đơn giản → quá trình huấn luyện hiệu quả hơn.

Nếu robot có hình dạng hoàn toàn khác, mọi hành vi của con người phải được “dịch” lại từ đầu — một bài toán phức tạp hơn nhiều.

Chúng ta tin vào những thứ trông giống mình

Có một yếu tố khác không thuần kỹ thuật: tâm lý học.

Con người có xu hướng nhân hóa (anthropomorphism) mọi thứ xung quanh. Khi một vật thể có mắt, có khuôn mặt, có cử động giống chúng ta, não bộ tự động kích hoạt cơ chế xã hội — chúng ta phản ứng với nó như với một cá thể.

Một robot có hình dạng giống người dễ tạo cảm giác gần gũi và tin tưởng hơn — đặc biệt trong các lĩnh vực như chăm sóc người già, giáo dục hay dịch vụ khách hàng. Ví dụ như Pepper của SoftBank Robotics được thiết kế rõ ràng để tương tác cảm xúc với con người.

Tuy nhiên, sự giống nhau này cũng có rủi ro. Hiện tượng “Uncanny Valley” do nhà nghiên cứu Masahiro Mori đề xuất cho thấy: khi một cỗ máy gần giống người nhưng chưa hoàn toàn tự nhiên, nó có thể tạo cảm giác khó chịu. Điều đó khiến thiết kế robot hình người không chỉ là bài toán kỹ thuật, mà còn là bài toán thẩm mỹ và tâm lý.

Nhưng hiện tượng này có một ranh giới rất kỳ lạ.

Năm 1970, nhà nghiên cứu Masahiro Mori đưa ra khái niệm Uncanny Valley (thung lũng kỳ quặc). Ông quan sát thấy rằng khi một cỗ máy ngày càng giống con người, mức độ cảm tình của chúng ta tăng lên — cho đến một điểm nhất định.

Vượt qua điểm đó, nếu sự giống nhau chưa hoàn hảo, cảm giác thân thiện đột ngột sụp xuống và biến thành khó chịu, thậm chí ghê rợn.

Biểu đồ của Mori mô tả một “thung lũng”:

- Robot trông rõ ràng là máy → chúng ta thấy ổn.

- Robot hơi giống người → chúng ta thấy thú vị.

- Robot gần như là người nhưng ánh mắt “đơ”, da thiếu tự nhiên, chuyển động hơi lệch → chúng ta thấy bất an.

Vì sao lại như vậy? Có nhiều giả thuyết:

- Xung đột nhận thức: Não bộ không biết nên xử lý đối tượng này như “người” hay “máy”.

- Tín hiệu bệnh lý: Những chuyển động bất thường gợi liên tưởng đến bệnh tật hoặc tử thi.

- Sai lệch kỳ vọng xã hội: Khi một thứ trông giống người, chúng ta kỳ vọng hành vi của nó phải hoàn toàn tự nhiên. Chỉ một sai lệch nhỏ cũng bị phóng đại.

Điều này tạo ra một nghịch lý thú vị:

Robot càng giống người → càng dễ được tin tưởng. Nhưng nếu chưa đủ hoàn hảo → lại càng dễ gây phản cảm.

Đó là lý do nhiều công ty cố tình thiết kế robot “vừa đủ người”, thay vì cố làm chúng trông hoàn toàn như con người thật. Ví dụ như Pepper của SoftBank Robotics có hình dáng thân thiện, nhưng không cố giả làm con người thực sự.

Uncanny Valley vì thế không chỉ là vấn đề thẩm mỹ. Nó là giới hạn tâm lý mà công nghệ phải vượt qua — hoặc né tránh.

Và nếu một ngày robot có thể vượt qua hoàn toàn thung lũng đó, khi chúng ta không còn phân biệt được máy và người bằng cảm giác trực quan…

Tham vọng lớn hơn một cỗ máy

Những người như Elon Musk từng gợi ý rằng robot hình người có thể nhân bản năng suất lao động của nhân loại. Một cá nhân có thể sở hữu nhiều “phiên bản lao động” của chính mình.

Nếu viễn cảnh đó xảy ra, nó không chỉ thay đổi thị trường lao động. Nó đặt ra những câu hỏi về kinh tế, phân phối giá trị, và cả bản sắc con người.

Robot hình người vì thế không đơn thuần là công cụ. Nó là tham vọng mở rộng khả năng của loài người vượt ra khỏi giới hạn sinh học.

Tương lai có thể không như ta tưởng

Có thể robot hình người sẽ trở nên phổ biến. Cũng có thể chúng chỉ tồn tại song song với một hệ sinh thái đa dạng các loại robot chuyên dụng.

Robot phẫu thuật không cần chân. Robot kho hàng không cần đầu. Robot hút bụi không cần bàn tay.

Hiệu quả vẫn là yếu tố quan trọng.

Nhưng việc con người liên tục theo đuổi hình mẫu humanoid tiết lộ một điều thú vị: chúng ta không chỉ muốn tạo ra công cụ tối ưu. Chúng ta muốn tạo ra thứ phản chiếu chính mình.

Nếu một ngày robot giống con người hoàn toàn — từ ngoại hình đến hành vi — câu hỏi thú vị nhất có lẽ không còn là “nó làm việc hiệu quả đến đâu”.

Mà là:

Điều gì thực sự định nghĩa con người?

Vậy bạn nghĩ sao?