Tại sao robot phải học chơi thể thao trước khi học làm người?

Tháng 4 năm 2026, tại Toyota Arena Tokyo, một robot cao 2,19 mét bước ra giữa sân trong giờ giải lao của một trận B.League. Nó dribble ba lần, ném một cú phạt đền sạch không chạm vành, rồi thử một cú ba điểm — bóng chạm vành, không vào. Khán giả vỗ tay. Đó là CUE7, thế hệ thứ bảy của dòng robot bóng rổ Toyota.

Ngay sau màn trình diễn, Toyota đưa ra một tuyên bố mà hầu hết các bài báo đưa tin đều bỏ qua trong phần dẫn. Đại ý: bóng rổ, với Toyota, chỉ là một bài kiểm tra tiêu chuẩn hóa. CUE7 không được tạo ra để chơi bóng rổ. Nó được tạo ra để kiểm tra thị giác máy tính, điều khiển thăng bằng, và độ chính xác của các khớp — những năng lực mà Toyota muốn đưa vào robot chăm sóc người già, robot hỗ trợ phục hồi chức năng, các ứng dụng mà hãng xe này đang đặt cược vào trong thập kỷ tới. Bóng rổ được chọn vì nó là môi trường lý tưởng để đo những năng lực đó: có luật rõ, có thể đo sai số bằng milimet, và kết quả tuyệt đối không thể tranh cãi — bóng vào rổ, hay không.

CUE7 chơi bóng rổ

Tuyên bố đó, bị lướt qua vì nghe quá bình thường, thực ra là chìa khóa để đọc toàn bộ câu chuyện này. Nó đặt ra hai câu hỏi nối tiếp nhau: tại sao thể thao lại là bài kiểm tra tốt nhất cho một robot hình người — thay vì một vị trí lắp ráp trong nhà máy?

Và câu trả lời cho câu hỏi đó dẫn đến một câu hỏi lớn hơn: tại sao các công ty lại muốn xây robot hình người ngay từ đầu, thay vì những cỗ máy chuyên dụng luôn rẻ hơn, đơn giản hơn, và dễ triển khai hơn?

Tại sao PHẢI là hình người?

Câu hỏi thứ hai xứng đáng được hỏi thẳng, vì câu trả lời không hiển nhiên.

Thế giới đã có máy móc chuyên biệt làm tốt hàng nghìn việc mà con người làm: cánh tay robot hàn trong nhà máy ô tô, máy đóng gói hàng hóa trong kho logistics, hệ thống tự động phân loại kiện hàng. Những cỗ máy đó không có hình người, không có hai chân, không cần thăng bằng — và chúng làm nhiệm vụ của mình tốt hơn con người ở tốc độ, độ chính xác, và sự ổn định. Tại sao lại cần xây thêm một thứ trông như người?

Câu trả lời nằm ở chỗ những cỗ máy đó, dù hiệu quả đến đâu, đều làm được một việc trong một ngữ cảnh hẹp. Cánh tay robot hàn trong nhà máy Toyota hoạt động tốt vì mọi thứ xung quanh nó được thiết kế cho nó: phôi được đặt đúng vị trí, ánh sáng không thay đổi, nhiệt độ được kiểm soát, không có người đi vào khu vực làm việc bất ngờ. Thay đổi bất kỳ biến số nào trong số đó, cỗ máy ngừng hoạt động — hoặc tệ hơn, hoạt động sai.

Thế giới con người không có cấu trúc như vậy. Một phòng bệnh nhân không được thiết kế cho robot. Một ngôi nhà của người già không có vị trí chuẩn hóa cho từng đồ vật. Một hiện trường cứu hộ sau động đất không có gì ở đúng chỗ cả. Để robot hoạt động trong những môi trường đó — những nơi mà giá trị thực sự của robot nằm ở, vì đó là những nơi con người khó làm nhất — robot cần một thứ mà máy chuyên dụng không có: khả năng xử lý môi trường không có cấu trúc, không thể đoán trước, và thay đổi theo thời gian thực.

Và đây là lý do hình dạng người trở nên quan trọng. Thế giới vật lý — tay nắm cửa, bậc thang, giường bệnh, bàn ghế, công cụ — được thiết kế cho cơ thể người: hai tay, hai chân, chiều cao khoảng 1,7 mét, tầm với nhất định. Một robot muốn hoạt động trong thế giới đó mà không cần cải tạo toàn bộ môi trường xung quanh nó, robot đó cần có hình dạng tương đương. Không phải vì hình dạng người là tối ưu về mặt kỹ thuật — nó không phải vậy — mà vì hình dạng người là tương thích với thế giới đã tồn tại.

Đây là lý do Goldman Sachs ước tính thị trường humanoid robot đạt 38 tỷ đô la vào năm 2035, và đây là lý do Tesla, Figure AI, Boston Dynamics, và ít nhất một chục công ty Trung Quốc đang đặt cược hàng tỷ đô la vào một thứ trông như người đi bằng hai chân. Không phải vì nó ấn tượng. Mà vì đó là cách duy nhất để máy móc đi vào những nơi máy móc chưa bao giờ vào được.

Cơ thể người là một bài toán chưa được giải

Nhưng muốn xây robot hình người, trước tiên phải giải được bài toán mà cơ thể người đặt ra — và bài toán đó khó hơn bất kỳ ai tưởng ban đầu.

Năm 1972, tại Đại học Waseda, Tokyo, kỹ sư Ichiro Kato ra mắt WABOT-1 — robot hình người đầu tiên trên thế giới có khả năng đi lại bằng hai chân và giao tiếp bằng tiếng Nhật. Nó di chuyển chậm, cứng nhắc, và mỗi bước chân mất vài giây để tính toán. Nhưng bằng chứng về nguyên lý đã được thiết lập: máy có thể có hình dạng con người và tự di chuyển.

Điều mà WABOT-1 lộ ra, ngoài những gì nó làm được, là khoảng cách khổng lồ giữa "đi được" và "di chuyển như người." Bước chân của WABOT-1 cần một hệ thống tính toán kiểm soát cẩn thận từng khớp theo trình tự tuyến tính. Bước chân của con người, trong khi đó, là kết quả của hàng chục cơ, khớp, và phản xạ thần kinh hoạt động đồng thời, phản hồi theo thời gian thực với mặt đất, với trọng lực, với vận tốc — theo những cách mà không ai lúc đó có thể mô hình hóa đầy đủ.

Đây là vấn đề cốt lõi của robotics hình người: cơ thể người không phải là một cỗ máy đơn giản. Nó là một hệ thống phân tán, phi tuyến tính, hoạt động trong một môi trường liên tục thay đổi với hàng trăm biến số đồng thời. Mỗi chuyển động — từ nhặt một chiếc cốc đến chạy qua một bề mặt không bằng phẳng — đòi hỏi sự phối hợp giữa cảm biến, khớp, cơ bắp, và não bộ theo những cách mà ngay cả con người cũng không thể mô tả rõ ràng bằng ngôn ngữ.

Và đây là chỗ thể thao xuất hiện như một giải pháp tự nhiên.

Tại sao thể thao, không phải nhà máy

Để kiểm tra một humanoid, cần một môi trường có ba tính chất đồng thời: đủ phức tạp để thách thức toàn bộ hệ thống, đo lường được để biết robot đang tiến bộ hay không, và nhất quán đủ để so sánh giữa các thế hệ.

Nhà máy thỏa mãn điều kiện thứ hai và thứ ba — đo lường được, nhất quán — nhưng không thỏa mãn điều kiện đầu tiên theo đúng nghĩa. Phần lớn tác vụ nhà máy yêu cầu độ chính xác cao trong một không gian hạn chế với điều kiện cố định. Đó là lý do cánh tay robot chuyên dụng xử lý tốt những nhiệm vụ đó mà không cần hình dạng người. Cuộc sống thực — chăm người già, cứu hộ, nấu ăn — thì ngược lại: đủ phức tạp và biến đổi, nhưng không có thước đo rõ ràng để so sánh tiến độ từ thế hệ này sang thế hệ tiếp theo.

Thể thao giải quyết cả ba. Và cách nó làm điều đó giải thích tại sao từ RoboCup đến CUE, từ DeepMind bóng bàn đến Atlas parkour, các nhà nghiên cứu đều quay lại cùng một loại môi trường.

Lấy bóng rổ làm ví dụ cụ thể. Để ném được một quả bóng vào rổ từ xa, CUE7 phải giải quyết đồng thời ít nhất năm lớp bài toán. Thứ nhất: nhận thức không gian — xác định vị trí của rổ, khoảng cách, góc, trong thời gian thực bằng camera và cảm biến. Thứ hai: lập kế hoạch quỹ đạo — tính toán góc ném, lực, và spin cần thiết cho bóng đi từ tay đến rổ, điều chỉnh cho trọng lực và sức cản không khí. Thứ ba: điều phối đa khớp — dịch kế hoạch đó thành chuỗi lệnh đồng thời cho vai, khuỷu tay, cổ tay, ngón tay, thân người, và chân — các bộ phận mà trong một cỗ máy chuyên dụng không bao giờ cần phối hợp cùng nhau. Thứ tư: duy trì thăng bằng — trong khi toàn bộ những điều trên đang xảy ra, robot không được ngã hay mất kiểm soát tư thế. Thứ năm: học và hiệu chỉnh — phân tích sai số sau mỗi cú ném và điều chỉnh cho cú tiếp theo, không phải theo một công thức cố định mà theo vòng lặp phản hồi thích nghi.

Đây chính xác là những gì robot chăm sóc người già cũng cần: nhận thức không gian (đọc môi trường thay đổi), lập kế hoạch động tác (điều chỉnh theo từng tình huống), điều phối đa khớp (tay, thân, chân hoạt động cùng nhau để nâng, đỡ, dìu), thăng bằng (không ngã khi mang tải), và học từ phản hồi (cải thiện theo thời gian). Bóng rổ và chăm sóc người già nhìn qua không liên quan gì đến nhau. Về mặt bài toán kỹ thuật, chúng là cùng một thứ — chỉ khác ở mức độ phức tạp và ở chỗ bóng rổ có thước đo tuyệt đối: bóng vào rổ, hay không. Chăm sóc người già thì không có thước đo như vậy.

Đây là logic đằng sau tuyên bố bị bỏ qua của Toyota. Khi CUE7 dribble và ném bóng, Toyota không đang xây đội bóng rổ. Họ đang chạy một bài thi chuẩn hóa cho những năng lực mà họ thực sự cần — và thể thao là môi trường duy nhất cho phép họ đo những năng lực đó một cách rõ ràng và lặp lại được.

Năm mươi năm để học đi, một thập kỷ để học chạy

Lịch sử robot hình người, đọc lại qua lăng kính đó, là chuỗi những bài toán được giải dần từng lớp.

Từ WABOT-1 năm 1972 đến ASIMO năm 2000, nhân loại mất gần ba thập kỷ chỉ để giải bài toán đi lại ổn định. Honda bắt đầu chương trình nghiên cứu bí mật năm 1986, với prototype E0 mất 5 giây cho mỗi bước chân. Mười bốn năm và nhiều thế hệ prototype sau, ASIMO đi được 1.6 km/h, nhận diện khuôn mặt, và trả lời lệnh thoại. Năm 2002, ASIMO chạy — hai chân rời khỏi mặt đất đồng thời — lần đầu tiên trong lịch sử robot hình người. Bài toán đi lại cơ bản được giải ở mức đủ dùng.

Bài toán tiếp theo là linh hoạt động lực học: di chuyển trong môi trường không có cấu trúc, phục hồi sau va chạm bất ngờ, leo qua vật cản không biết trước. Boston Dynamics theo đuổi điều này với Atlas từ năm 2013, được DARPA tài trợ cho các nhiệm vụ tìm kiếm và cứu hộ. Atlas qua nhiều năm học cách leo cầu thang gạch vụn, nhảy qua vật cản, và thực hiện backflip hoàn chỉnh vào năm 2017 — không phải để làm xiếc, mà để chứng minh rằng robot có thể kiểm soát toàn bộ cơ thể trong một chuyển động đòi hỏi nhiều khớp phối hợp chính xác theo thứ tự miligiây. Tháng 4 năm 2024, phiên bản thủy lực của Atlas được cho nghỉ hưu; phiên bản điện hoàn toàn mới ra mắt với 56 bậc tự do và khả năng xoay thân 360 độ.

Và hiện tại — giai đoạn mà CUE7 xuất hiện trong đó — là về bài toán thứ ba: tất cả những thứ trên hoạt động cùng nhau, trong thế giới thực, với một hệ thống AI có thể học và thích nghi thay vì chỉ thực thi kịch bản được lập trình sẵn. Tesla Optimus đang trong giai đoạn sản xuất thí điểm. Figure 02 đã triển khai trong nhà máy BMW. Electric Atlas đang được thử nghiệm trong cơ sở Hyundai. Cùng lúc đó, ở Trung Quốc, ít nhất một chục công ty đang đẩy ra các prototype của riêng mình trong cuộc cạnh tranh mà Toyota gọi thẳng là "câu trả lời của Nhật Bản trước sự thống trị của Trung Quốc trong physical AI."

CUE3 ném 2.020 lần không trượt, rồi kỹ sư phải tự tay dừng lại

Trong bức tranh toàn cảnh đó, dòng CUE của Toyota kể một câu chuyện riêng về tốc độ của tiến bộ.

Năm 2017, chín kỹ sư Toyota bắt đầu dự án CUE trong giờ tự do — không theo đơn hàng của ban lãnh đạo, không vì Toyota muốn xây đội bóng rổ. Bóng rổ là bài thi họ tự đặt ra để kiểm tra thị giác máy tính và điều khiển chuyển động.

Năm 2019, CUE3 ném 2.020 cú phạt đền liên tiếp và ghi vào Kỷ lục Guinness. Các kỹ sư tự tay dừng máy — không phải vì robot mắc lỗi, mà vì họ đã thu đủ dữ liệu. Phỏng đoán chính thức: nó có thể tiếp tục vô thời hạn.

Năm 2024, CUE6 ném từ 24,55 mét — hơn 80% chiều dài sân NBA — ở lần thử thứ hai, sau khi lần đầu chạm vành. Chi tiết đáng chú ý ở đây không phải là cú ném thành công, mà sự khác nhau giữa lần một và lần hai: robot phân tích sai số, tính toán điều chỉnh, và ném lại với thông số khác. Closed-loop learning — vòng lặp phản hồi thích nghi — trong thời gian thực, như một vận động viên đang luyện tập.

CUE7, tháng 4 năm 2026, nhẹ hơn gần một nửa (74kg so với 120kg), dùng hệ thống kết hợp reinforcement learning và model predictive control, và lần đầu tiên dribble — thao tác đòi hỏi phối hợp tay và di chuyển thân người đồng thời trong khi dự đoán hành vi của quả bóng đang nảy. Đây là bước nhảy từ bài toán tĩnh (ném từ một điểm cố định) sang bài toán động lực học đầy đủ: di chuyển, phán đoán, tương tác với vật thể đang thay đổi liên tục. Cùng bài toán mà robot chăm sóc người già sẽ phải giải khi đỡ một bệnh nhân đang cử động.

Với quỹ đạo đó — mỗi thế hệ giải được một lớp phức tạp hơn, trong khoảng thời gian ngày càng ngắn hơn — câu hỏi về khi nào humanoid vượt qua cầu thủ NBA ở một số chỉ số cụ thể không còn là câu hỏi của tương lai xa. Nó là câu hỏi của vài thế hệ CUE nữa.

Câu hỏi mà không ai đặt ra

Và đây là nơi bài kiểm tra tiêu chuẩn hóa của Toyota gặp một câu hỏi mà không kỹ sư nào đặt ra — vì nó không phải câu hỏi kỹ thuật.

Khi humanoid robot chơi bóng rổ tốt hơn con người — không chỉ ném chính xác hơn, mà di chuyển linh hoạt hơn, phản ứng nhanh hơn, không bao giờ mệt — điều gì xảy ra với thể thao? Không phải câu hỏi về luật lệ hay tổ chức giải đấu. Câu hỏi thực sự là: liệu người ta có muốn xem không?

Đây không phải câu hỏi kỳ cục. Khi máy tính đánh cờ tốt hơn con người từ năm 1997, người ta vẫn xem giải đấu cờ vua của con người. Khi máy tính soạn nhạc tốt hơn, người ta vẫn mua vé nghe nhạc sĩ trình diễn. Có gì đó trong cách con người tiêu thụ thể thao và nghệ thuật không phụ thuộc đơn thuần vào chất lượng kỹ thuật của đầu ra — và cái đó, bất kể nó là gì, robot chưa được kiểm tra bởi bất kỳ bài thi chuẩn hóa nào.

Toyota đã giải được bài toán kỹ thuật của bóng rổ. Bài toán tiếp theo không có thước đo tuyệt đối, và câu trả lời của nó không nằm trong phòng thí nghiệm.