img_0
Thời gian gần đây, DeepSeek trở thành một từ khóa cực kỳ hot và viral ở trên mạng xã hội và các phương tiện truyền thông như là một công cụ thay thế cho chat GPT với những ưu điểm vượt trội. Mọi người bắt đầu truyền tai nhau về sự sụp đổ của Open AI và sự đi xuống của Nvidia, rộng hơn là suy đoán về câu chuyện các bong bóng AI thời gian tới sẽ dần vỡ ra và trở về giá trị ban đầu của chúng. Vậy cụ thể câu chuyện về AI mới này là gì, điều gì đã khiến nó trở thành một “nỗi sợ” đối với các công ty AI thời gian qua và liệu tương lai nào cho thị trường trí tuệ nhân tạo trong thời gian tới?

DeepSeek là gì? 

Đầu tiên, ta nắm một vài thông tin về con AI mới này. DeepSeek là công ty về trí tuệ nhân tạo được thành lập vào năm 2023 bởi Liang Wenfeng (hiện tại đang nắm vai trò CEO). Thêm vào đó, Wengfeng còn là đồng sáng lập của quỹ phòng hộ định lượng High-Flyer (chủ đầu tư và sở hữu của DeepSeek hiện tại). 
Sản phẩm chủ đạo của công ty ở thời điểm năm 2024 và 2025 là chatbot AI được xây dựng trên mô hình ngôn ngữ lớn (LLM) với mô hình gần đây nhất là DeepSeek - R1 chính là chủ nhân của những cơn sốt gần đây về sự vươn lên của các mô hình trí tuệ nhân tạo đến từ đất nước tỉ dân.
Phần còn lại về công ty này vẫn chưa được tiết lộ quá nhiều, CEO và Founder của DeepSeek cũng chưa được ghi nhận là xuất hiện thường xuyên trước truyền thông hay thông tin về bộ máy lãnh đạo hay phát triển vẫn còn đang rất bỏ ngỏ, cho nên ta hay chỉ tập trung vào sản phẩm của công ty này là những model AI chat bot.

Tại sao DeepSeek lại được quan tâm?

Lý do mô hình AI này dạo gần đây nhận được nhiều sự quan tâm đó là sự tối ưu trong quá trình huấn luyện và xây dựng chatbot này đang được báo cáo là vượt trội so với những model AI trước đó và đối tượng mọi người vãn đang đưa lên bàn cân đó chúng là model AI phổ biến nhất hiện nay là chat GPT, vậy DeepSeek có những thông tin gì đặc biệt?
Theo các báo cáo từ model DeepSeek V3 vào cuối 2024 (là model trước của R1) thì đây là một mô hình ngôn ngữ với tổng số lượng tham số là 671 tỷ tham số, trong đó mỗi token (tức mỗi từ hoặc ký tự) từ câu trả lời được trả ra sẽ sử dụng 37 tỷ tham số để tạo ra. Điều này chứng minh được gì? Vì DeepSeek là một mô hình ngôn ngữ lớn (hiểu đơn giản là mô hình sử dụng lượng dữ liệu khổng lồ trên thế giới để làm các nguyên liệu cho câu trả lời của mô hình AI này); cho nên việc giảm thiểu được lượng tham số cần cho mỗi ký tự trả ra của model AI sẽ khiến việc phản hồi của AI trở nên nhanh và tiết kiệm thời gian cũng như tài nguyên đáng kể so với những model sử dụng quá nhiều tham số nhưng không có giá trị. 
Ngoài ra, DeepSeek V3 không chỉ gây ấn tượng bởi sự tối ưu hóa tham số, cũng trong báo cáo về model này, chỉ mất 2.788 triệu giờ GPU H800 để có thể hoàn tất việc huấn luyện. Ta cần hiểu một chút đây là số giờ liên tục để chạy 1 GPU H800 đơn lẻ để huấn luyện model AI nhưng trong các công ty trí tuệ nhân tạo, số lượng GPU sử dụng có thể lên đến hàng chục nghìn GPU hiệu năng cao để huấn luyện AI, nếu công ty DeepSeek sử dụng 10 000 GPU (đây chỉ là ví dụ chứ DeepSeek không công bố họ đã sử dụng bao nhiêu GPU) trên để huấn luyện thì sẽ chỉ cần 278.8 giờ chạy liên tục để huấn luyện. Đưa lên bàn cân so sánh với GPT-4 của Open AI, 60 triệu giờ GPU là con số được tính toán khi công ty này sử dụng 25,000 GPU Nvidia A100 và họ đã chạy từ 90 đến 100 ngày liên tục để huấn luyện GPT-4 với mức giá chỉ riêng phần cứng là 63 triệu USD. Cần lưu ý rằng GPU H800 là một dòng thấp cấp được giảm hiệu năng so với A100 để có thể được tiêu thụ tại thị trường Trung Quốc do các điều khoản thương mại ngặt nghèo của Mỹ trong quá khứ.
img_1
Vậy thì với những gì mà DeepSeek đã sử dụng để huấn luyện mô hình V3 của mình, sức mạnh của AI này có những gì đáng chú ý? Ở tất cả các tác vụ từ toán học, lập trình đến các tác vụ đa nhiệm, DeepSeek V3 tỏ ra vượt trội so với GPT 4o-0513 và các model khác của Qwen à Llama tuy nhiên vẫn còn thua thiệt tương đối so với model của Sonet (Claude AI 3.5) ở các tác vụ đa nhiệm. Như vậy ta có thể thấy dù chỉ có mức độ tiêu tốn tài nguyên là thấp hơn vài lần so với Open AI, sức mạnh của DeepSeek V3 vẫn là cực kỳ đáng nể phục cho thấy trình độ và giới hạn của thị trường trí tuệ nhân tạo tại Trung Quốc dần cho thấy một sự khác biệt nhất định so với thế giới. 
Giờ ta hãy lướt qua một chút đến DeepSeek-R1, phiên bản mới nhất được ra mắt vào tháng 1 vừa rồi đã trở thành thế hệ đầu tiên của công ty sử dụng mô hình có khả năng lý luận. Để đạt được điều này, ngoài giữ được phong độ về tối ưu tài nguyên như V3, DeepSeek đã thành công triển khai kỹ thuật học tăng cường (Reinforcement Learning-RL) lên trên model R1 (có thể hiểu đơn giản là kỹ thuật học bao gồm các chuỗi “thử và sai” cho đến khi đạt được phương án tối ưu nhất trong khả năng xử lý của AI. Nhờ khả năng lý luận và phương pháp học tăng cường, DeepSeek R1 được kỳ vọng trở thành một bước tiến trong cuộc đua về trí tuệ nhân tạo và dần hướng đến AGI (hay siêu trí tuệ nhân tạo).
img_2
Về sức mạnh và năng lực tính toán DeepSeek R1 tương đương với Model o1-1217 của Open AI ởi các tác vụ về toán, coding và các tác vụ đa nhiệm, tuy nhiên vẫn có sự thua thiệt ở tác vụ liên quan đến lý luận và suy luận sâu so với đối thủ đến từ Open AI.
Tổng quan, ta có thể thấy rằng DeepSeek đang không chỉ có lượng tài nguyên huấn luyện tiết kiệm hơn các model khác, DeepSeek V3 vốn đã là một AI có năng lực xử lý cực kỳ mạnh mẽ so với các model cùng thời điểm và bây giờ là R1 với khả năng lý luận được cải tiến bằng Reinforcement Learning hứa hẹn cho những kết quả còn tốt hơn. Nhưng đó không chỉ là những gì chúng ta bàn luận với nhau, hãy đi ra ngoài lề chuyên môn để hướng đến những thứ mà DeepSeek đã tác động đến thế giới trong hiện tại và tương lai.

Những thứ DeepSeek đang thách thức thế giới

Đầu tiên, với sự tối ưu trong cách sử dụng tài nguyên phần mềm và phần cứng như đã nói ở trên, DeepSeek đang cho thấy rằng chúng ta đang không quá cần những GPU quá mạnh mẽ hay những bộ máy huấn luyện AI khổng lồ như thời gian đầu của thị trường trí tuệ nhân tạo. Đó cũng là lý do vì sao cổ phiếu của Nvidia, nhà cung cấp GPU cho hầu hết các công ty trí tuệ nhân tạo ngày nay đã chứng kiến cú giảm trầm trọng nhất lịch sử khi mất 17% giá trị cổ phiếu trong duy nhất 1 ngày, khiến tổng vốn hóa của công ty biến mất 589 tỷ USD vào thời điểm DeepSeek R1 được ra mắt. Không chỉ Nvidia, những công ty khác có liên quan trong lĩnh vực AI như Meta, Google và Oracle cũng đã chứng kiến những phản ứng nhất định khi các chỉ số như S&P 500 đã giảm 1.5% và các chỉ số của các công ty công nghệ trên sàn Nasdaq giảm 3.1%.
Mọi người đang bắt đầu đặt ra những nghi vấn rằng liệu đã đến lúc  cơn sốt phần cứng cần được nguội lại, những gì tốn kém ta vẫn thường biết về AI (những trung tâm dữ liệu hàng tỷ đô hay những chiếc máy được thiết kế riêng với hàng chục nghìn GPU) sẽ dần được thay thế bởi những mô hình vừa tiết kiệm vừa mạnh mẽ như DeepSeek. 
img_3
Ngoài ra, những gì DeepSeek đưa ra cho người dùng đang thách thức một cách mạnh mẽ cách mà thị trường trong tương lai có thể tiếp cận với trí tuệ nhân tạo theo một cách dễ dàng hơn. Cụ thể, dưới đây là bảng giá API của các tài nguyên được DeepSeek cung cấp cho những nhà phát triển công nghệ, ta có thể thấy mức giá DeepSeek đề ra là thấp hơn rất nhiều so với những nhà cung cấp API khác như Open AI với các model o1, o1 preview và o1 mini. 
img_4
img_5
Điều này thách thức đến những công ty AI vẫn đang sống dựa trên đáng kể lợi nhuận từ việc bán API cho các nhà phát triển web và ứng dụng khi Open AI đã thu về hơn nửa tỷ USD từ hoạt động trên
img_6
Như vậy ta có thể thấy rằng DeepSeek đang thách thức thế giới theo một cách rất “Trung Quốc” đó là câu chuyện đấu nhau về giá và hiệu quả trong sản xuất. Tuy nhiên, câu hỏi lớn nhất cần được đặt ra đó là “Làm sao họ có thể đạt được điều ấy?”. Ta hãy cùng xuống phần tiếp theo của bài viết.

“Giải mã” cơn sốt DeepSeek

Trước những gì mà chúng ta đã biết về DeepSeek và thị trường AI nói chung, sẽ là phù hợp để bây giờ chúng ta bắt đầu chỉ ra hoặc trả lời cho những điều vẫn còn mơ hồ về start-up AI này. 
Đầu tiên, điều ta có thể thắc mắc rõ nhất đó là vì sao DeepSeek lại có thể thấp đến không ngờ như vậy? Đây là bảng so sánh chi phí để đào tạo các model AI trên thị trường, có thể thấy mức giá thấp đến không ngờ của DeepSeek khi chỉ với hơn 5 triệu USD là đã có thể tạo ra được chat bot có sức mạnh ngang với các mô hình khác tốn hàng chục triệu USD (Mặc dù vẫn còn đang có rất nhiều tranh cãi xoay quanh con số trên nhưng có thể chắc chắn rằng chi phí để xây dựng DeepSeek vẫn sẽ là thấp hơn so với các Models khác). Nhưng câu hỏi đặt ra là làm như thế nào? 
img_7
Có thể sẽ có nhiều phương pháp tối ưu nhưng thứ tôi tìm hiểu được đó là DeepSeek đã sử dụng một phương pháp huấn luyện AI đó là phương pháp “chưng cất kiến thức”. 
Để giải thích đơn giản, hãy tưởng tượng rằng việc huấn luyện model AI giống như việc dạy học cho một học sinh không có bất kỳ hiểu biết gì; Sẽ có 2 hướng để cho người học sinh có thể học được đó là ném cho người học sinh đó hàng chục cuốn sách giáo khoa và để sự học tự xảy ra. Một cách khác là sử dụng một người giáo viên (người đã nằm lòng, hiểu rõ từng câu chữ trong sách giáo khoa cũng như hiểu được các phương án giải quyết các thông tin trong sách một cách thuần thục). Người giáo viên này có tác dụng trở thành hình mẫu đáng tin cậy để có thể học hỏi cho người học trò, đối tượng học sẽ bắt chước tất cả những khả năng và kiến thức của người giáo viên khiến quá trình học trở nên dễ dàng hơn khi được tập trung vào người giáo viên thay vì là vào những cuốn sách.
Huấn luyện AI bằng phương pháp chưng cất kiến thức (gọi ngắn gọn là chưng cất hay distillation) cũng vậy, một mô hình AI thay vì được huấn luyện trên những thông tin cứng và thô từ kho dữ liệu lớn sẽ được xây dựng dựa trên khả năng, hiểu biết và thậm chí là hành vi của một model khác có khả năng xử lý lớn hơn và đáng tin cậy hơn. Điều này tiết kiệm được rất nhiều công sức cũng như tài nguyên trong việc huấn luyện AI dù kết quả cho ra của AI "học sinh” vẫn là tương đồng với AI “giáo viên”. 
Nghe thì có vẻ là một điều gì đó đột phá trong ngành trí tuệ nhân tạo nhưng chính vì hành vi "sao chép” trên mà OpenAI đã và đang tố cáo nhà sản xuất AI đến từ Trung Quốc rằng họ đã vi phạm điều khoản sử dụng của nhà phát hành khi sử dụng chat GPT để tạo ra một chat bot đối đầu với chính nó ở trên thị trường. Theo một báo cáo đến từ Bloomberg, Open AI và các đối tác của họ tại Microsoft đã và đang truy tìm cũng như khóa truy cập các tài khoản sử dụng API bị nghi ngờ là để chưng cất tri thức cho DeepSeek trong một số cuộc điều tra gần đây. Chưa biết rằng vụ việc này sẽ đến đâu nhưng đây sẽ là thách thức cho các nhà phát triển AI về bản quyền và sở hữu trí tuệ, thứ đã vốn rất nhập nhằng và phức tạp kể từ khi những chatbot đầu tiên được công bố. Từ những vụ tố cáo ngày trước từ các nghệ sĩ rằng Open AI đã sử dụng thông tin của họ một cách không được cấp phép để huấn luyện AI của mình theo cách miễn phí, giờ đây, chính Open AI đã và đang đối mặt với việc khi trở thành ông lớn trong ngành, việc bị sao chép là điều khó có thể tránh khỏi và cần các điều khoản thích nghi. 
Không chỉ chưng cất kiến thức, DeepSeek còn được hưởng lợi rất nhiều đến từ cơ sở dữ liệu có sẵn của thế giới AI, thứ đã ngốn của các nhà phát triển trước đó như Open AI, Meta và Google hàng tỉ USD để có thể thu thập và xây dựng. Cho nên không quá bất ngờ khi công sức bỏ ra của DeepSeek so với phần còn lại đã đi trước là không nhiều. Tuy nhiên, phải công nhận rằng trong khoản tối ưu lợi thế của người đi sau, DeepSeek vẫn đang làm rất tốt nhưng chưa đồng nghĩa với việc đây sẽ là “tấm gương” trong ngành dành cho cả thế giới AI sau này với những phương thức huấn luyện và sử dụng dữ liệu vẫn còn đang gây ra nhiều tranh cãi. 

Những vận động của thế giới trước “cơn bão” DeepSeek

Trước những làn sóng của công ty công nghệ mới nổi từ Trung Quốc, Hoa Kỳ đã và đang phải tích cực vận động và đổi mới với những kế hoạch mới trong ngành công nghệ trí tuệ nhân tạo này để có thể giữ được vị thế “anh lớn” trong thị trường ngỡ rằng vẫn còn đang thuộc về họ. Vào ngày 21 tháng 1, trong tuần đầu tiên của nhiệm kỳ mới, Donald Trump đã tập hợp các “anh tài” đến từ Open AI, Oracle, Softbank và MGX để bàn về một dự án khổng lồ đầy tầm vóc của xứ cờ Hoa là “Stargate”, một dự án được gọi là cơ sở hạ tầng AI lớn nhất trong lịch sử từ trước đến giờ với quy mô tổng cộng 500 tỷ USD với 100 tỷ USD vốn sẽ được đáp ứng ngay lập tức trong năm nay, dự kiến tạo ra hơn 100,000 việc làm. 
img_8
Trong dự án này, đối tượng chủ đạo các doanh nghiệp và chính phủ hướng đến vẫn đang là các trung tâm dữ liệu khổng lồ, thứ vẫn đang được nắm bởi Hoa Kỳ và cụ thể hơn là Oracle. Dự kiến, Texas sẽ là bang đầu tiên được xây dựng trung tâm dữ liệu thuộc dự án Stargate và sau đó sẽ là các tiểu bang khác trong tương lai nhằm mục tiêu thống trị thị trường thông tin của thế giới.
img_9
Ngoài ra, với việc DeepSeek vẫn đang phụ thuộc rất nhiều vào các tài nguyên của nước Mỹ, điển hình là các vi xử lý và bộ xử lý đồ họa của Nvidia, chính phủ của Trump đang cố gắng cân nhắc đến các hạn chế sâu hơn vào việc “xuất khẩu công nghệ” đến đất nước tỷ dân khi chip H20 của Nvidia sẽ vào tầm ngắm để trở thành quân cờ tiếp theo trong chiến tranh thương mại và công nghệ Mỹ - Trung. Chưa biết rằng liệu dự luật và hạn chế này có được thông qua không và nếu có thì sẽ hiệu quả đến đâu nhưng trước mắt với những gì Nvidia đã và đang trải qua sau cú sốc trước DeepSeek, việc giới hạn doanh số vào một thị trường cực lớn như Trung Quốc vẫn còn đang bỏ ngỏ là lành ít dữ nhiều cho doanh nghiệp của Jensen Huang.
img_10
Không chỉ trong vấn đề về công nghệ, DeepSeek còn đang thách thức cả giới chính trị khi những lo ngại về bảo mật thông tin và điều hướng dư luận thông qua AI có thể được thực hiện như một ý đồ chính trị của chính phủ Trung Quốc khi DeepSeek đang là công cụ kiểm duyệt và kiểm soát thông tin cho Đảng Cộng Sản nước này. Đã có nhiều dự luật mong muốn được cấm DeepSeek tại Mỹ đặc biệt là trong việc sử dụng AI này trong các thiết bị phục vụ cho chính phủ biến đây dần trở thành mục tiêu lớn nhất bị Nhà Trắng theo sát sau sự kiện của mạng xã hội Tik Tok. Texas đã trở thành bang đầu tiên tại Mỹ cấm tất cả các thiết bị được chính quyền tiểu bang cung cấp sử dụng DeepSeek, ông Greg Abbott cũng nhấn mạnh rằng nước Mỹ cần phải tích cực hơn trong việc bảo vệ các tài nguyên quan trọng và thông tin cá nhân của người dân trước Đảng Cộng Sản Trung Quốc. Không chỉ Mỹ, các quốc gia như Úc, Đài Loan và một số nước châu Âu khác cũng bắt đầu đi theo xu hướng trên nhằm đảm bảo tính toàn vẹn của thông tin quốc gia dự báo đây sẽ còn tiếp tục trở thành một cuộc chiến dài hơi về công nghệ và chính trị.
img_11
Có thể nói. DeepSeek đang khá giống với khoảnh khắc Nga phóng vệ tinh Sputnik 1 vào năm 1957, mở đầu cho cuộc chạy đua vào không gian một cách nghiêm túc và mạnh mẽ giữa Mỹ và Liên Xô thời đó. Ngày nay, với sự xuất hiện của đối trọng DeepSeek, ngành công nghiệp AI của Mỹ sẽ bị thách thức và buộc phải phát triển nhanh và mạnh hơn để đảm bảo không bị đất nước tỷ dân bỏ lại trong cuộc đua AI vào thế kỷ 21.

Nguồn tham khảo: