Trong tương lai, điện thoại AI sẽ trông thế nào?

Hiện nay hẳn chúng ta đã nghe quảng cáo nhiều về tính năng AI trên điện thoại, đặc biệt là các dòng Samsung Galaxy S hay Apple Intelligence trên iPhone. Và nếu bạn thấy chúng cũng không có gì quá ấn tượng, và các quảng cáo này bị thổi phồng quá nhiều thì thật ra đó là điều đúng.

Một khảo sát được TechRadar dẫn lại từ SellCell cho thấy 73% người dùng iPhone nói các tính năng Apple Intelligence đem lại rất ít hoặc gần như không đem lại giá trị; con số này với người dùng Samsung còn cao hơn, 87% nói Galaxy AI không cải thiện đời sống hằng ngày của họ. Trên các diễn đàn như Reddit, nhiều người dùng đồng ý rằng một số tính năng như Click to Search hay hỗ trợ tóm tắt văn bản có ích nhưng chúng không đến mức gọi là "Wow, amazing". Chúng chỉ là các tính năng rời rạc, giống như các phần trang trí chung quanh một món chính, hơn là một cách nấu ăn mới.

Nhưng nguyên nhân ở đây không phải là do các mô hình AI yếu. Vấn đề là cái mà chúng ta đang gọi là “điện thoại AI” phần lớn vẫn chưa thật sự là điện thoại AI. Nó chỉ là điện thoại cũ, được nhét thêm vài tính năng AI vào bên trên.

Đây cũng là lý do góp phần khiến nhiều người đến giờ vẫn cho rằng AI đang bị thổi phồng quá mức. Chúng ta chi cả trăm tỷ đô la xây các trung tâm dữ liệu khổng lồ chỉ để tóm tắt văn bản hay chỉnh sửa hình, và đã vậy chúng còn không thực sự làm tốt nữa?

Vì người dùng đã hơi thất vọng với những quảng bá về điện thoại AI, thế nên cái tin OpenAI đang dồn lực để ra mắt điện thoại AI cũng không được mấy ai để ý. Tin này được đăng lên bởi Ming-Chi Kuo, một nhà phân tích chuỗi cung ứng nổi tiếng nhờ nhiều năm đưa ra phân tích sâu sắc về Apple. Theo các “nguồn tin nội bộ” của Kuo, OpenAI không phải đang làm một thiết bị AI mơ hồ với Jony Ive, mà đang phát triển một “điện thoại cho tác nhân AI” (AI agent phone). Ông nói rằng trong dự án này hai công ty MediaTek và Qualcomm sẽ là đối tác làm chip, Luxshare là đối tác sản xuất, và việc sản xuất hàng loạt có thể bắt đầu từ năm 2027. Chi tiết quan trọng nhất trong bài đăng không phải là con chip nào, mà là cách Kuo mô tả lý do tồn tại của thiết bị: smartphone vẫn là vật duy nhất luôn đi cùng người dùng, nắm giữ vị trí, hoạt động, giao tiếp và ngữ cảnh thời gian thực. Để AI agent thực sự hiểu đời sống người dùng để hành động thay họ, chiếc điện thoại cần được phát minh lại.

Có thể nói trong vài năm tới chúng ta sẽ thấy bước tiến hóa tiếp theo của điện thoại di động, có lẽ là bước nhảy vọt lớn nhất kể từ khi iPhone ra đời năm 2007.

Để hiểu được tại sao, chúng ta cần quay lại vấn đề đã nêu ở trên, đó là điện thoại hiện tại chỉ là được nhồi nhét thêm AI chứ không phải là dành cho AI.

Suốt gần 40 năm qua, điện thoại, máy tính, tablet, smartwatch, toàn bộ hệ sinh thái thiết bị cá nhân của chúng ta đều được thiết kế quanh một giả định rằng: người dùng là con người. Màn hình để mắt người nhìn. Nút bấm để ngón tay người chạm. Ứng dụng được tách thành từng ô để con người tự mở, tự đọc, tự chọn, tự copy, tự gửi, tự xác nhận. Hệ điều hành được xây dựng như một thành phố có nhiều căn phòng, để cho con người đi từ phòng này sang phòng khác.

AI hiện nay đang phải sống trong thành phố đó như một vị khách bị trói tay.

Lần đầu tiên trong lịch sử, chúng ta có một thứ không phải con người nhưng cũng biết dùng thiết bị của con người. Nó có thể đọc email, hiểu lịch, nhìn hình, nghe giọng nói, phân tích văn bản, viết phản hồi, đặt lịch, soạn tin nhắn, tra cứu, tổng hợp, và thậm chí thay ta ra quyết định nhỏ. Nhưng nó vẫn phải làm tất cả những việc đó trong một môi trường vốn không được thiết kế cho nó.

Nói cách khác, chúng ta đang cố nhét một tác nhân AI vào một chiếc điện thoại dành cho ngón tay, con mắt và thói quen của con người. Rồi khi nó thao tác chậm, hiểu thiếu ngữ cảnh, phải xin quyền liên tục, không đi xuyên được giữa các ứng dụng, không nhớ đủ những gì người dùng đang làm, ta kết luận rằng AI chưa đủ thông minh.

Các lãnh đạo tập đoàn công nghệ tin rằng vấn đề cốt lõi không nằm ở khả năng của AI mà nằm ở cái nhà mà ta bắt nó sống bên trong. Do đó trong thời gian qua, chúng ta thấy họ dồn sức để thiết kế lại toàn bộ hệ sinh thái điện tử sao cho AI có thể tồn tại và hoạt động hiệu quả nhất.

Hiện tại chưa có một chiếc điện thoại AI thuần nào thực sự ra đời nên chúng ta chỉ có thể phỏng đoán chúng sẽ hoạt động thế nào. Dưới đây là 5 tính năng cốt lõi của một chiếc điện thoại AI mà tôi phỏng đoán dựa trên những xu hướng phát triển AI trên thị trường.

1. AI hiểu ý định

Tính năng đầu tiên của một chiếc điện thoại AI đúng nghĩa không phải là camera biết xóa vật thể, hay bàn phím biết viết lại câu văn. Nền tảng cho nó hoạt động là khả năng hiểu ý định. Điện thoại hiện nay được thiết kế quanh ứng đụng, nên mỗi khi muốn làm gì, người dùng phải tự hỏi: việc này nằm trong app nào? Ví dụ khi muốn đi du lịch thì bạn mở Traveloka, Booking, Google Maps, Calendar, Gmail. Muốn ăn tối thì mở Grabfood, ShopeeFood, TikTok để đọc review, menu. Muốn chuẩn bị họp thì mở email, file, lịch, note.

Một chiếc AI agent phone sẽ đảo ngược luồng này. Giờ đây người dùng không bắt đầu một thao tác bằng app, mà bắt đầu bằng mục tiêu. Thay vì mở Traveloka rồi tự lọc hàng trăm chuyến bay, bạn sẽ nói với AI: “Tìm giúp tôi vé đi Tokyo tháng 10 cho gia đình, đừng bay quá khuya vì có trẻ nhỏ, transit dưới ba tiếng, nếu chênh dưới 150 đô thì ưu tiên chuyến ít mệt hơn.” Ở đây, AI không chỉ nhận một câu lệnh mà nó hiểu tiêu chí thật sự phía sau câu lệnh: rẻ không phải là tất cả, giờ bay cũng quan trọng, việc có trẻ nhỏ đòi hỏi thêm nhiều tiêu chí, và kết quả nên là vài phương án đáng chọn chứ không phải là một danh sách 200 vé để bạn vuốt xuống liên tục.

Điều này thay đổi hoàn toàn cách chúng ta dùng điện thoại, và có thể là cả laptop nữa. Điện thoại hiện nay cho ta công cụ để đạt được một ý định. Điện thoại AI hiểu việc ta đang muốn hoàn thành và giúp ta làm việc đó. Hiện tại chúng ta mở điện thoại và bắt đầu bằng câu hỏi “mở app nào?” Trong kỷ nguyên AI, chúng ta bắt đầu bằng câu hỏi “mục tiêu là gì?” Và một khi điểm bắt đầu thay đổi, toàn bộ trải nghiệm dùng điện thoại cũng thay đổi theo.

2. AI hiểu đời sống của bạn

Thật ra AI không hiểu ý định vì chúng ta nói rõ chúng ta muốn gì. Con người chúng ta thường nói chuyện rất mơ hồ. Câu đùa trong mấy chuyện tình cảm thường xoay quanh việc bạn gái khi được hỏi muốn ăn gì thì hay trả lời: "Ăn gì cũng được". Còn chúng ta, khi muốn làm gì đó thường chỉ có ý định mơ hồ như: “tìm chuyến bay đỡ mệt”, “ăn gì đó nhẹ.”, “chuẩn bị cho cuộc họp”, “đặt lịch khám cho bé”, “xử lý mớ email này”, “giúp tôi lên kế hoạch cuối tuần”.

Dù AI có thông minh đến mấy cũng không thể hiểu được các câu từ đầy chung chung này. Nó cần lệnh cụ thể: mở app nào, nhập gì, bấm đâu, lọc thế nào. Để biến câu nói mơ hồ của con người thành một kế hoạch mà máy có thể thực hiện, AI cần phải xử lý nhiều bước nhỏ.

Do đó cơ chế quan trọng thứ hai của một điện thoại AI là hiểu được đời sống của bạn, bằng việc truy cập vào các ứng dụng trên điện thoại để nắm ngữ cảnh.

Quay lại vấn đề đặt vé máy bay. Có thể bạn chỉ nói những điều mơ hồ như: "Cần vé máy bay đi Tokyo cho cả nhà 4 người vào cuối năm nay'.

Ở thời điểm hiện tại, bạn phải mở Traveloka, nhập ngày bay, số người, lọc giờ, kiểm tra hành lý, so thêm với Google Flights hoặc website hãng bay, mở Calendar xem có vướng lịch không, rồi tự cân nhắc giữa giá, giờ đáp, thủ tục quá cảnh và liệu bạn có đủ sức chờ lâu hay không. Điện thoại không hiểu toàn bộ việc này như một luồng công việc Nó chỉ đưa cho bạn nhiều app, còn bạn tự làm người điều phối.

Trên một chiếc AI phone, luồng thao tác sẽ hoàn toàn khác. Vì đã đọc được email, lịch, tệp, ảnh, vị trí, tài khoản, lịch sử đặt mua, thói quen và các ràng buộc cá nhân, AI biết “bốn người” ở đây gần như chắc chắn là vợ chồng bạn và hai đứa nhỏ, và thậm chí biết cả tuổi của từng bé.

Từ đó, agent tự kiểm tra các nguồn phù hợp, lọc chuyến bay, loại bỏ những phương án không đáp ứng tiêu chí, tính giá sau hành lý, đối chiếu với lịch của bạn, rồi chắt lọc thành ba lựa chọn dễ hiểu. Nó sẽ tránh chuyến bay quá dài để bạn không bị ngắt quãng công việc. Nó sẽ dựa vào chi tiêu để biết mức giá nào phù hợp với ngân sách của bạn dù bạn không nói rõ. Nó sẽ đọc đánh giá xem hãng bay nào thân thiện với trẻ em. Nó sẽ cân nhắc xem thời gian quá cảnh bao nhiêu là phù hợp để tránh việc bạn cảm thấy bị mắc kẹt với hai con nhỏ suốt 8 tiếng đồng hồ.

Từ việc phân tích các thông tin đó nó có thể đưa ra các lựa chọn như: chuyến bay A rẻ nhất nhưng đáp quá khuya; chuyến B đắt hơn một chút nhưng ít mệt hơn; chuyến C tiết kiệm chi phí nếu bạn lùi ngày bay.

Như thế lợi ích mà AI agent mang lại là người dùng không còn phải tự làm hàng chục thao tác nhỏ. Người dùng chuyển từ vai trò thực thi, điều phối sang vai trò đánh giá, ra quyết định và để cho AI làm hết các phần tìm, lọc, so sánh, chuẩn bị.

Nhưng chính vì cơ chế có thể tự hành động, chúng ta cũng cần đặt giới hạn rõ. Một AI phone tốt không nên âm thầm mua vé, gửi email hay đăng bài thay bạn. Nó phải biết dừng lại ở các điểm nhạy cảm và xin xác nhận. Tương lai hợp lý không phải là chiếc điện thoại tự làm mọi thứ sau lưng ta, mà là chiếc điện thoại làm gần hết phần việc lặp lại, rồi đưa cho chúng ta xem các phương án cuối cùng và nút "Xác nhận"

3. AI phá vỡ giới hạn ứng dụng

Khi một AI đã được phép tự động thao tác như thế, một hệ quả sẽ đến đó là nó phá vỡ giới hạn bị vạch ra bởi các ứng dụng cài đặt trên máy của người dùng. Nếu coi mỗi ứng dụng là một công cụ để giúp bạn hoàn thành một tác vụ nào đó, thì AI sẽ không chỉ biết cách dùng các công cụ đó để giúp bạn, mà nó sẽ còn biết tìm thêm các công cụ khác để trợ giúp.

Hiện nay, hành vi của chúng ta bị định hình rất mạnh bởi những app đã cài sẵn. Nếu một người quen dùng Traveloka, người đó sẽ mở Traveloka. Còn nếu đã quen dùng Booking.com thì sẽ mở Booking.com. Nếu người đó không cài Agoda, Trip.com, Skyscanner, Hopper, Expedia, hoặc app của một hãng bay nào đó, thì trong thực tế những dịch vụ đó gần như biến mất khỏi luồng ra quyết định của họ.

Đó là một điểm rất quan trọng. Smartphone hiện tại không cho chúng ta toàn bộ thị trường. Nó cho chúng ta phần thị trường mà chúng ta đã cài đặt, đã đăng nhập, đã quen bấm vào.

Với một chiếc điện thoại AI, logic này khả năng cao sẽ bị thay đổi.

Quay lại tình huống: "Tìm vé đi Tokyo cho cả nhà cuối năm nay”, agent bây giờ sẽ không bị giới hạn bởi hai icon Traveloka và Booking.com trên màn hình của bạn. Nếu nó biết rằng một nền tảng khác đang có ưu đãi tốt hơn, chẳng hạn giảm giá khi thanh toán bằng ví điện tử MoMo, hoàn tiền qua thẻ ngân hàng, voucher theo hãng bay, hoặc combo vé máy bay + khách sạn rẻ hơn, thì nó nên được phép đưa lựa chọn đó vào so sánh.

Tất nhiên, “được phép” ở đây không có nghĩa là agent tự ý tải app, tự tạo tài khoản, tự nhập thông tin cá nhân và tự thanh toán. Một AI phone tốt vẫn phải xin quyền. Nhưng về mặt tư duy sản phẩm, nó không nên nghĩ theo kiểu: “Máy bạn có app nào thì tôi chỉ được dùng app đó.” Nó nên nghĩ theo kiểu: “Để hoàn thành mục tiêu này tốt nhất, tôi cần truy cập những nguồn nào?”

Tất nhiên rằng đến đây sẽ có câu hỏi: "Nếu tôi chưa cài app đó trên máy, làm sao AI lấy được thông tin?"

Ở đây có vài khả năng.

Khả năng đơn giản nhất là agent dùng web thay vì app. Chúng ta thường nghĩ dịch vụ số đồng nghĩa với app, nhưng thực ra rất nhiều dịch vụ vẫn có website. Bạn không cài Trip.com, Agoda hay một hãng bay nào đó, nhưng bạn vẫn có thể mở website của họ trên Chrome hoặc Safari. Agent cũng vậy. Nó không nhất thiết cần icon của app nằm trên màn hình. Nếu được cấp quyền dùng trình duyệt, nó có thể truy cập website, đọc giá, kiểm tra điều kiện vé, so sánh hành lý, xem phương thức thanh toán, rồi đưa thông tin đó vào bảng so sánh.

Trong trường hợp này, app không còn là cánh cửa duy nhất. Browser trở thành một lớp hành động. Agent có thể báo cho bạn theo kiểu: “Bạn không cài ứng dụng này, nhưng website của họ đang có giá tốt hơn. Tôi có thể mở trang đó để bạn kiểm tra hoặc tiếp tục đặt qua Traveloka cho quen thuộc hơn.”

Khả năng thứ hai là các dịch vụ sẽ cung cấp API hoặc công cụ riêng cho agent. Đây mới là hướng quan trọng hơn và khả năng xảy ra cao hơn. Trong tương lai, Traveloka, Booking.com, Agoda, Trip.com, hãng bay, khách sạn, ngân hàng, ví điện tử có thể không chỉ xây app cho con người bấm, mà còn xây “cổng riêng” cho AI agent truy cập. Agent không cần tải app. Nó chỉ cần gọi đúng công cụ: hỏi giá vé, kiểm tra tồn chỗ, tính phí hành lý, kiểm tra voucher, giữ chỗ tạm thời, hoặc đưa người dùng đến bước thanh toán.

Đây là khác biệt lớn giữa thời đại của ứng dụng và thời AI agent. Thời ứng dụng, doanh nghiệp phải thuyết phục người dùng tải ứng dụng về. Thời AI agent, doanh nghiệp phải thuyết phục AI agent rằng dịch vụ của mình là nguồn đáng tin, dễ gọi, dữ liệu rõ ràng, giá minh bạch và có lợi cho người dùng.

Khả năng thứ ba là agent dùng công cụ tìm kiếm và các trang tổng hợp như một lớp radar thị trường. Giả sử bạn chỉ cài Traveloka và Booking.com, nhưng một hãng bay đang có khuyến mãi riêng trên website, hoặc một ví điện tử đang hoàn tiền cho vé máy bay trong ba ngày. Agent có thể phát hiện qua việc tìm kiếm, qua quảng cáo, qua email khuyến mãi bạn nhận được, qua thông báo ngân hàng, hoặc qua các nguồn giá vé công khai. Nó không cần bạn đã cài app đó từ trước. Nó chỉ cần biết rằng nguồn đó tồn tại và có thể kiểm chứng được.

Điểm hay ở đây là AI không chỉ tìm giá thấp nhất. Nó phải giúp bạn hiểu giá thấp đó có đáng đổi lấy sự phiền phức hay không. Một app lạ có thể có dịch vụ rẻ hơn, nhưng bạn phải tạo tài khoản mới, nhập thông tin thẻ, xử lý hoàn tiền khó hơn, hoặc dịch vụ chăm sóc khách hàng tệ hơn. Với chuyến đi gia đình, rẻ hơn 50–100 USD chưa chắc đáng nếu đổi lại nhiều rủi ro, và một AI tốt phải biết cân nhắc cả phần đó.

Khả năng thứ tư là AI agent học từ chính đời sống số của bạn. Có thể bạn chưa cài một app du lịch nào đó, nhưng trong email của bạn có mã giảm giá từ ngân hàng. Hoặc trong tin nhắn có chương trình hoàn tiền qua ví điện tử. Hoặc trong app ngân hàng có ưu đãi thẻ tín dụng khi đặt vé qua một đối tác cụ thể. Hoặc trước đây bạn từng đặt khách sạn qua một nền tảng khác trên web, dù chưa tải app của họ. Nếu được cấp quyền, agent có thể gom những mảnh thông tin rải rác này lại.

Đây là thứ con người rất dễ bỏ sót. Chúng ta có thể nhận hàng chục email khuyến mãi, thông báo ngân hàng, voucher, popup ưu đãi, nhưng hiếm khi nhớ đúng lúc cần dùng. AI Agent thì có thể biến những thông tin tưởng như rác đó thành tín hiệu hữu ích trong đúng bối cảnh.

4. AI có thể tạo ra giao diện tùy biến cho điện thoại

Với sự thay đổi của cách bạn ra quyết định thì một thay đổi quan trọng khác đi kèm sẽ là giao diện. Nếu bây giờ mọi thứ đều xoay quanh việc phục vụ cho ý định của bạn, thì AI agent cũng sẽ tạo ra một lớp giao diện phù hợp nhất để bạn ra quyết định.

Điện thoại hiện nay không chỉ giới hạn chúng ta trong các app đã cài, mà còn "nhốt" chúng ta trong giao diện do từng app thiết kế sẵn. Nếu bạn học ngoại ngữ, trải nghiệm hiện tại thường rất rời rạc. Bạn có thể dùng Duolingo để luyện từ vựng, Anki để ôn flashcard, YouTube để nghe video, Google Translate để tra nghĩa, ChatGPT để hỏi ngữ pháp, Elsa hoặc một app phát âm để luyện nói, Spotify để nghe podcast, Notes để ghi lại từ mới. Mỗi app có một giao diện riêng, một hệ thống bài học riêng, một cách chấm điểm riêng, một lịch ôn tập riêng.

Vấn đề là mục tiêu của bạn không phải “dùng Duolingo”, “mở Anki”, hay “xem YouTube”. Mục tiêu thật sự của bạn là: tôi muốn giỏi tiếng Anh, tiếng Trung, tiếng Pháp hơn. Nói cụ thể hơn thì mục tiêu của bạn là: "Tôi muốn nói tiếng Anh tự nhiên hơn trong cuộc họp", "Tôi muốn luyện tiếng Nhật để qua Nhật làm việc 6 tháng", "Tôi muốn nghe podcast tiếng Pháp mà không bị mất nhịp", "Tôi muốn học 20 từ tiếng Hàn mới hôm nay và dùng được chúng trong câu".

Nhưng điện thoại hiện tại bắt bạn tự gom các mảnh đó lại. Nó cho bạn nhiều app, nhưng không cho bạn một lớp học cá nhân thống nhất.

Một AI phone đúng nghĩa sẽ làm khác. Giờ đây khi đã hiểu được ý định của bạn, hiểu được tính cách của bạn vì đã tương tác với bạn qua nhiều nă, có thể gom được nhiều tính năng khác nhau của các app khác nhau, nó có thể tạo ngay một giao diện học ngoại ngữ phù hợp với bạn, thay vì bắt bạn đi qua từng app.

Giao diện này không nhất thiết thuộc về một app duy nhất. Nó là một giao diện thống nhất do agent dựng lên dựa trên mục tiêu học của bạn ngay tại thời điểm đó, sao cho phù hợp với trình độ của bạn, thời gian rảnh của bạn và các nguồn nội dung phù hợp.

Ví dụ, bạn nói: “Tôi muốn luyện tiếng Anh về chủ đề trong tài liệu này để thuyết trình với đối tác.”

Sau khi nhận được tài liệu bạn gửi lên, AI agent sẽ đọc nó, nắm yêu cầu của bạn rồi tạo ngay một màn hình học riêng cho buổi hôm nay. Màn hình đó có thể gồm bốn phần: một đoạn hội thoại ngắn về chủ đề buổi thuyết trình, năm từ/cụm từ nên học, một bài nghe 3 phút, và một phần luyện nói nơi bạn trả lời như đang trong cuộc họp thật. Sau khi bạn nói, AI chấm phát âm, sửa câu, giải thích lỗi ngữ pháp, rồi biến những lỗi lặp lại thành flashcard cho ngày mai.

Khi làm những điều này, AI lấy những năng lực vốn đang nằm rải rác trong nhiều app và gom lại thành một trải nghiệm duy nhất: tra từ như Google Translate, luyện lặp lại như Anki, nghe nội dung thật như YouTube/podcast, chấm phát âm như app luyện nói, giải thích ngữ pháp như tutor, tạo bài tập cá nhân như giáo viên riêng, và theo dõi tiến độ như Duolingo.

Đây là điểm khác biệt giữa app UI và UI tạo bởi AI.

App UI mà chúng ta vẫn thấy hằng ngày là giao diện cố định. Nhà phát triển thiết kế sẵn menu, tab, các nút bấm, logic cho các bài học, và thanh đo quá trình học. Bạn phải học cách dùng app theo logic của app.

AI-generated UI là giao diện được sinh ra theo nhiệm vụ. Nếu hôm nay bạn yếu nghe, giao diện ưu tiên nghe. Nếu bạn phát âm sai âm /θ/, giao diện hiện bài luyện phát âm. Nếu ngày mai bạn có cuộc họp với khách hàng, giao diện tự chuyển sang role-play theo tình huống công việc. Nếu bạn chỉ có 7 phút trước khi đi ngủ, giao diện rút gọn thành ôn nhanh từ vựng và một bài nói ngắn.

Nói cách khác, điện thoại cũ bắt bạn thích nghi với giao diện của app. Còn với điện thoại AI, giao diện trở thành một bảng điều khiển học tập cá nhân.

Đây là lý do generative UI là một tính năng cốt lõi của AI phone. Nếu AI chỉ trả lời bằng văn bản, nó vẫn giống chatbot. Nhưng nếu AI có thể tạo ra giao diện đúng lúc, đúng việc, đúng người, thì điện thoại bắt đầu thoát khỏi cấu trúc app truyền thống.

Điều này khả năng cũng sẽ tạo ra xung đột lớn với các bên phát triển app. Vì nếu AI phone tạo một lớp giao diện mới nằm trên Duolingo, YouTube, Translate, Anki, podcast và các nguồn học khác, thì app gốc sẽ mất bớt quyền kiểm soát trải nghiệm người dùng. Người dùng không còn nhớ mình đang dùng app nào. Họ chỉ nhớ: “Tôi đang học tiếng Anh với agent của tôi.”

Tuy nhiên chúng ta sẽ bàn về sự xung đột này trong một dịp khác.

Bây giờ chúng ta sẽ đi đến tính năng cốt lõi thứ 5 của AI phone, đó là sự tin tưởng và kiểm soát.

Ví dụ cho 1 UI mà AI tự tạo để học tiếng Anh

Ví dụ cho UI AI tạo ra để chọn chuyến bay

5. AI phone phải là một chiếc điện thoại đáng tin

Sau khi đọc qua 4 ý trên, hẳn bạn cũng hiểu được tại sao AI agent phải là thứ đáng tin tưởng. Một chatbot trả lời sai thì bạn chỉ khó chịu, nhưng một agent hành động sai thì hậu quả lớn hơn nhiều. Nó có thể đặt nhầm vé, gửi nhầm email, xóa nhầm file, mua nhầm món đồ, chia sẻ nhầm ảnh, đặt lịch trùng giờ, dùng sai voucher, hoặc tự điền thông tin cá nhân vào một website mà bạn chưa kịp kiểm tra. Do đó, các kỹ sư không chỉ thiết kế điện thoại AI quanh câu hỏi: “AI làm được gì?” mà còn phải quan tâm đến câu hỏi quan trọng hơn: “AI được phép làm tới đâu?”

Tôi nghĩ đây là thử thách lớn nhất mà những người phát triển điện thoại AI phải giải quyết được nếu muốn dự án này thành công về mặt thương mại. Ở điểm này, điện thoại hiện nay có nhiều ưu thế hơn hẳn do nó cho phép bạn quản lý quyền truy cập của từng app. Một app luôn phải xin quyền camera, vị trí, danh bạ, ảnh, microphone và bạn bấm cho phép hoặc không cho phép. Và khi đã bật lên rồi bạn có quyền tắt đi.

Còn với một chiếc điện thoại AI, bạn bắt buộc phải cho nó truy cập hết mọi thứ nếu muốn nó có thể làm việc cho bạn. Bạn rất khó để cấp quyền nửa vời. Hình dung mẹ của bạn nhờ bạn xử lý việc gì đó trên điện thoại, thì sẽ có vài lúc bạn buộc phải truy cập hết vào những ứng dụng cần thiết để làm cho xong việc. Nếu mẹ bạn bảo rằng ứng dụng này bạn không có quyền bật lên, thì bạn sẽ bế tắc và bảo: "Vậy khúc này mẹ tự làm đi".

Như vậy ở đây AI agent sau khi được quyền truy cập các ứng dụng, nó phải có khả năng đánh giá được mức độ rủi ro cho từng thao tác. Ví dụ quay lại vấn đề đặt vé máy bay, nó phải đánh giá được như sau: - Đọc thông tin công khai: rủi ro thấp. - So sánh giá: rủi ro thấp. - Đọc email cá nhân: rủi ro trung bình. - Điền form với thông tin cá nhân: rủi ro cao hơn. - Gửi email, đăng bài, tạo tài khoản, đặt chỗ, thanh toán: rủi ro cao. - Chuyển tiền, ký hợp đồng, chia sẻ dữ liệu nhạy cảm: bắt buộc phải có xác nhận rõ ràng.

Nếu không có khả năng này thì AI phone sẽ không đủ tin cậy để dùng cho phần lớn công việc. Người dùng sợ nhất cảnh AI chơi ngu và phát tán những thông tin nhạy cảm của mình đi khắp nơi.

Vì vậy, ngoài việc hiểu ý định và hành động, AI phone phải có một thứ giống như bảng điều khiển của agent để hiển thị các thông tin như:

- Agent đang làm nhiệm vụ gì. - Nó đang dùng nguồn nào. - Nó đã đọc dữ liệu gì. - Nó đã loại bỏ lựa chọn nào. - Nó đang chuẩn bị hành động nào. - Bước nào cần người dùng xác nhận. - Bước nào có thể undo. - Bước nào không thể undo.

Ví dụ khi AI đang giúp bạn đặt vé, trên màn hình không nên chỉ hiện một vòng xoay “đang xử lý”. Nó nên hiện một timeline dễ hiểu:

- Đang kiểm tra lịch gia đình. - Đang so giá và điều khoản hoàn tiền trên Traveloka, Booking.com, Agoda và website hãng bay. - Đang kiểm tra ưu đãi thẻ ngân hàng. - Đã loại các chuyến bay trước 7h sáng và chuyến đáp sau nửa đêm. - Đã tìm được ba phương án. - Cần xác nhận trước khi điền thông tin hành khách.

Người dùng khi thấy được tiến trình sẽ có cảm giác kiểm soát hơn. Nếu AI chỉ biến mất vài phút rồi quay lại với một câu trả lời, người dùng sẽ không biết nên tin đến đâu. Do đó nó bắt buộc phải cho thấy từng bước, từng nguồn, từng lý do, người dùng sẽ dễ chấp nhận hơn.

Nhìn rộng ra, một AI phone thật sự cần ba lớp kiểm soát là:

Lớp thứ nhất: xin cấp quyền. AI phải xin phép khi đọc dữ liệu nhạy cảm, dùng nguồn mới, điền thông tin cá nhân, gửi nội dung, đặt chỗ hoặc thanh toán.

Lớp thứ hai: minh bạch. Người dùng phải thấy AI đang làm gì, dùng nguồn nào, vì sao loại phương án này, vì sao chọn phương án kia.

Lớp thứ ba: đối soát. Người dùng phải xem lại được AI đã làm gì. Nếu nó tạo lịch, gửi email, sửa file, đặt nhắc nhở, lưu flashcard, hay thêm món vào giỏ hàng, tất cả nên nằm trong một lịch sử hành động rõ ràng. Tức phải có audit trail. Không có nó, AI phone sẽ rất khó dùng trong công việc nghiêm túc. Người dùng sẽ hỏi: “Nó vừa gửi cái gì?”, “Nó lấy thông tin này từ đâu?”, “Nó có đọc file riêng tư không?”, “Nó có tự thêm ai vào email không?”, “Nó có dùng voucher nào không?”

Một chiếc điện thoại AI phải đảm bảo người dùng có thể tìm thấy được câu trả lời cho những câu hỏi đó.

Điện thoại AI không chinh phục người dùng bằng việc làm thay con người mọi thứ. Nó chinh phục bằng việc biết làm thay phần phiền phức, dừng lại trước phần rủi ro, và để con người luôn giữ quyền quyết định cuối cùng.

Thực tế đang diễn ra đến đâu?

Những gì chúng ta bàn ở trên đang là lý thuyết, vậy thực tế thì các công ty đã triển khai tới đâu rồi? Có thể nói các công ty công nghệ hiện nay đang ở giai đoạn xây dựng hệ điều hành, thể hiện rõ nhất qua sự kiện mới nhất của Google là The Android Show: I/O Edition 2026, diễn ra vào ngày 12–13 tháng 5 năm 2026.

Trong sự kiện này, Google tuyên bố một bước ngoặt lớn: Android không còn đơn thuần là một hệ điều hành nữa, mà đang chuyển mình thành một "hệ thống thông minh" (Intelligence System), với Gemini là hạt nhân vận hành xuyên suốt.

Giải thích ngắn gọn thì hiện tại, Android đang là nền tảng để quản lý và khởi chạy ứng dụng. Nhưng trong tương lai gần, Google sẽ tái định vị nó thành một nền tảng mà AI chủ động dự đoán nhu cầu người dùng và tự thực thi hành động, thay vì chỉ phản hồi lệnh. Thông điệp chính là: bạn không còn cần mở từng ứng dụng để làm việc vì giờ Gemini sẽ làm thay bạn, xuyên suốt tất cả ứng dụng cùng lúc.

Với hệ thống thông minh này, giờ AI trong điện thoại của bạn có khả năng:

Tự động hóa tác vụ đa bước: Ví dụ, Gemini có thể đặt latte tại quán cà phê, tạo giỏ hàng từ danh sách tạp hóa trong app ghi chú, hay phối hợp chuyến đi chung nhiều điểm — tất cả chỉ bằng một yêu cầu ngôn ngữ tự nhiên.

Quan sát màn hình và gợi ý chủ động: AI đọc nội dung đang hiển thị, hiểu ngữ cảnh, rồi chủ động đề xuất hoặc thực thi mà không cần lệnh kích hoạt thủ công.

Tạo widget động bằng văn bản: Người dùng chỉ cần hỏi Gemini là có thể tạo ra các tiện ích màn hình tuỳ chỉnh — lịch tập luyện, kế hoạch bữa ăn, widget thời tiết chuyên biệt.

Tính năng Gboard Rambler: Tích hợp AI vào bàn phím để tự động lọc từ đệm, chỉnh sửa câu nói ngập ngừng và xử lý ngôn ngữ pha trộn.

Họ cũng giới thiệu một cơ chế gọi là AppFunctions. Hãy tưởng tượng mỗi ứng dụng trên điện thoại của bạn như Samsung Gallery, Shopee, Grab, Gmail… đều có một “tấm danh thiếp” ghi rõ:

- Tôi biết làm gì

- Tôi có thể xuất ra các loại dữ liệu nào

- Tôi hiểu những câu lệnh nào từ người dùng

AppFunctions chính là cái “danh thiếp” đó, nhưng viết bằng ngôn ngữ tự nhiên, để AI Gemini đọc và hiểu. Với điện thoại hiện nay, khi bạn ra lệnh cho điện thoại: “Cho tôi xem ảnh mèo.” thì nó không hiểu phải mở app nào, không biết “ảnh mèo” nằm ở đâu, và thường chỉ mở ứng dụng mặc định hoặc tìm trên web.

Nhưng thông qua AppFunctions thì ứng dụng xem ảnh Samsung Gallery sẽ tự khai báo: “Tôi có thể tìm ảnh theo nội dung, ví dụ: mèo, chó, biển, đồ ăn…”. Gemini đọc được khả năng đó và gọi đúng chức năng trong Samsung Gallery mà không cần mở app

Google tuyên bố họ thiết kế hệ thống này với quyền kiểm soát của người dùng là ưu tiên, tức là khi Gemini đang thực thi tác vụ ngầm, người dùng luôn có thể theo dõi tiến trình qua thông báo hoặc "chế độ xem trực tiếp", và chuyển sang điều khiển thủ công bất cứ lúc nào. Với các thao tác nhạy cảm như thanh toán, Gemini bắt buộc phải xin xác nhận trước khi hoàn tất.

Nhưng Google không chỉ dừng lại ở x6ay hệ điều hành. Như tôi đã nói ở trên, mọi thứ nhỏ nhất bao gồm cả con trỏ chuột cũng sẽ cần được thiết kế lại để cho AI dùng được. Deepmind, công ty AI hàng đầu thế giới trực thuộc Google, trong sự kiện đó cũng đã nâng cấp con trỏ chuột. Theo họ công bố, con trỏ mới có khả năng hiểu vật thể, văn bản, bảng biểu, hình ảnh mà bạn đang trỏ vào. Chúng cũng hiểu mục đích (“tại sao bạn trỏ vào đó”) và có thể thực thi hành động bằng giọng nói hoặc câu lệnh ngắn như "tóm tắt đoạn này", “Chuyển bảng này thành biểu đồ tròn.” Điều quan trọng ở đây là họ tuyên bố người dùng không cần copy–paste đoạn văn vào chatbot, không cần mô tả lại ngữ cảnh bởi vì AI đã tự nhìn thấy và hiểu.

Sau Google thì khả năng cao Apple cũng sẽ công bố các thay đổi trong hệ điều hành iOS và MacOS của họ để thích nghi với thời kỳ AI agent. Nhưng Apple là công ty rất coi trọng vấn đề riêng tư và hệ sinh thái khép kín. Việc một AI của công ty khác có thể truy cập được hết tất cả ứng dụng và thông tin riêng tư của khách hàng là một điều đi ngược lại với tôn chỉ của họ. Cách họ xử lý thế nào sẽ quyết định xem iPhone có còn thành công trong kỷ nguyên AI agent hay không.

Còn OpenAI, họ cũng hiểu rằng Google và Apple đang cố gắng chuyển đổi hệ sinh thái cũ sang AI và họ phải bắt kịp thật nhanh. Đó là lý do khả năng họ ra mắt một thiết bị thuần AI vào năm 2027 là hợp lý. Chúng ta chưa chắc được liệu đó có phải là một chiếc điện thoại hay không, tại trước đó đã có thông tin rằng họ muốn làm tai nghe. Nhưng bắt đầu từ một chiếc điện thoại sẽ là hướng đi hợp lý.

Vấn đề OpenAI phải đối mặt cho dự án làm điện thoại là lấy đủ nguồn cung cho mình. Hiện tại linh kiện để làm điện thoại đang rất khan hiếm và đắt đỏ, đặc biệt là chip CPU và chip nhớ. Cả hai linh kiện này đều bị gom mạnh bởi các tay chơi hiện tại như Google, Apple và Samsung. Điện thoại AI được kỳ vọng sẽ có lượng chip nhớ khá lớn để nhớ được lượng thông tin khổng lồ của người dùng. Theo dự đoán, các tác vụ AI sẽ được chia ra xử lý, một phần xử lý trên điện thoại và một phần gửi về các trung tâm dữ liệu để xử lý. Nhưng chúng phải có khả năng xử lý ngay tại thiết bị để đảm bảo AI vẫn "sống" dù không được kết nối Internet. Do đó, AI càng nhớ được nhiều, chúng sẽ càng đưa ra quyết định chính xác hơn.

Chúng ta cùng chờ xem vài năm nữa cuộc cách mạng AI trên điện thoại, và sau này là laptop nữa, sẽ đưa chúng ta đến đâu. Tôi tin rằng nếu mọi thứ diễn ra đúng kế hoạch của các công ty công nghệ, chúng ta sẽ chứng kiến một sự thay đổi lớn tương đương với việc phát minh ra laptop hay điện thoại di động vậy.