Server của lab bị shutdown và tôi không muốn trở thành vô công rồi nghề. Thế là tôi hỏi claude nên xem viết về cái gì đơn giản thôi mà nó liên quan tới mớ bòng bong của mình.

Tại sao AI cứ phải "to" hơn?

Nếu bạn theo dõi tin tức AI vài năm gần đây, bạn sẽ thấy một pattern lặp đi lặp lại: GPT-3 có 175 tỷ tham số, GPT-4 lớn hơn nữa, rồi mỗi công ty đua nhau xây dựng data center khổng lồ, mua GPU như thể ngày mai không còn hàng. Câu hỏi tự nhiên nhất là: Tại sao? Đổ tiền vào làm model to hơn thì chắc gì đã tốt hơn? Hay đây chỉ là trò "flex" của các ông lớn công nghệ như cái trend gần đây ngta flex với nhau mỗi cuối tuần? Hóa ra, đằng sau cuộc chạy đua này không phải là sự liều lĩnh, mà là một công thức toán học đơn giản đến bất ngờ. Người ta gọi nó là Scaling Laws.
Hình 1: Đây là bức hình "cổ điển tôn trọng" của ngành. Đọc và hiểu nó gần như là cốt lõi để hiểu về Scaling Laws. Hình trích từ [1].
Hình 1: Đây là bức hình "cổ điển tôn trọng" của ngành. Đọc và hiểu nó gần như là cốt lõi để hiểu về Scaling Laws. Hình trích từ [1].

Scaling Laws là gì?

Năm 2020, một nhóm nghiên cứu tại OpenAI (dẫn đầu bởi Jared Kaplan) phát hiện ra một điều đáng kinh ngạc: hiệu năng của mô hình ngôn ngữ cải thiện theo một quy luật có thể dự đoán được [1], khi bạn tăng ba thứ:
1. Kích thước model: số lượng tham số (parameters). Càng nhiều tham số, model càng "rộng" và "sâu". 2. Lượng data: bao nhiêu text mà model được huấn luyện trên đó. 3. Compute: tổng sức mạnh tính toán (đo bằng FLOPs) dùng để train.
Và mối quan hệ giữa chúng không phải ngẫu nhiên hay lộn xộn. Nó tuân theo một power law. Tức là nếu bạn vẽ trên đồ thị log-log, nó gần như là một đường thẳng. Cụ thể, loss giảm theo power-law với model size, dataset size, và compute, với một số trend trải dài hơn bảy bậc độ lớn (seven orders of magnitude) [1].
Loss ≈ C / N^α N = số tham số (hoặc data, hoặc compute), α ≈ 0.07, C = hằng số.
*Tôi không khuyến khích bạn đọc nhớ công thức này.
Nói nôm na: bạn tăng gấp 10 lần kích thước model, bạn sẽ được cải thiện một lượng nhất định, mà lượng này có thể dự đoán trước. Không cần train xong mới biết. Không cần cầu nguyện. Toán học nói trước cho bạn rồi. Một điều thú vị nữa: các chi tiết kiến trúc khác như chiều rộng hay chiều sâu của network hầu như không ảnh hưởng đáng kể, miễn là trong một phạm vi hợp lý [1]. Tức là "to" quan trọng hơn "to kiểu gì". Nếu cần một phép so sánh: giống như bạn biết rằng nếu một học sinh tăng thời gian ôn thi gấp đôi, điểm sẽ tăng thêm khoảng X điểm. Không chính xác tuyệt đối, nhưng đáng tin cậy đến mức bạn dám đặt cược tiền thật vào đó. Và đó chính xác là điều mà các công ty AI đang làm, đặt cược hàng tỷ đô.

Vì sao phát hiện này quan trọng?

Đọc đến đây, bạn đọc thấy nó khá đơn giản đúng không? Thật ra, trước Scaling Laws, việc nghiên cứu AI có cảm giác khá là mò mẫm và may rủi theo một cách nào đó. Bạn thử một kiến trúc mới, train nó, rồi hy vọng kết quả tốt. Đôi khi tốt, đôi khi không. Không ai biết trước model tiếp theo nên to bao nhiêu, cần bao nhiêu data.
Scaling Laws thay đổi hoàn toàn cách chơi. Giờ đây, bạn có thể lập kế hoạch. Bạn train một model nhỏ, đo loss, rồi ngoại suy ra model lớn sẽ đạt bao nhiêu. Giống như có một bản đồ trong tay thay vì đi trong sương mù. Kaplan et al. cũng chỉ ra rằng model lớn hơn thì hiệu quả hơn đáng kể về mặt data (sample-efficient), nên việc train tối ưu về compute nghĩa là train model rất lớn trên lượng data vừa phải và dừng sớm trước khi hội tụ [1].
Ví dụ thực tế: OpenAI được cho là đã dùng scaling laws để dự đoán hiệu năng của GPT-4 trước khi bỏ ra hàng trăm triệu đô để train nó. Tức là họ biết nó sẽ "tốt đến mức nào" trước khi nhấn nút Start.

Chinchilla: Plot twist lớn nhất

Nhưng, Scaling Laws nếu chỉ có thế thì cũng đơn giản thôi. Nhưng không, vào năm 2022, một nhóm từ DeepMind (dẫn đầu bởi Jordan Hoffmann) tung ra bài báo mang tên Chinchilla [2], và mọi thứ lại thay đổi. Scaling laws ban đầu của Kaplan cho rằng: nếu bạn có thêm compute, hãy ưu tiên làm model to hơn. Data thì... ít quan trọng hơn một chút.
Chinchilla nói: "Hold up! Wait a minute!"
Nhóm DeepMind chứng minh rằng các model trước đó đang thiếu data trầm trọng. Bằng cách train hơn 400 model từ 70 triệu đến hơn 16 tỷ tham số trên 5 đến 500 tỷ tokens, họ kết luận rằng kích thước model và lượng training tokens nên được scale ở tỷ lệ bằng nhau: mỗi khi tăng gấp đôi model size, lượng training tokens cũng nên tăng gấp đôi [2].
Ví dụ dễ hình dung: thay vì thuê một thiên tài rồi chỉ cho đọc 10 cuốn sách, tốt hơn là thuê một người thông minh vừa phải và cho đọc 1000 cuốn. Kết quả sẽ tốt hơn và rẻ hơn.
Để chứng minh, họ train Chinchilla, đây là một một model 70B tham số nhưng với gấp 4 lần data so với Gopher (280B) của chính DeepMind, sử dụng cùng một compute budget. Kết quả? Chinchilla vượt trội đáng kể so với Gopher, GPT-3 (175B), Jurassic-1 (178B), và Megatron-Turing NLG (530B) trên hàng loạt downstream tasks [2]. Đặc biệt, Chinchilla đạt 67.5% trên benchmark MMLU, cao hơn Gopher tới 7% [2].
Bài báo Chinchilla có ảnh hưởng cực lớn. Sau đó, Meta ra mắt LLaMA [3], một bộ foundation language models từ 7B đến 65B tham số, được train trên hàng nghìn tỷ tokens chỉ từ dữ liệu công khai. LLaMA-13B vượt GPT-3 (175B) trên hầu hết benchmark, và LLaMA-65B đạt hiệu năng ngang ngửa Chinchilla-70B và PaLM-540B [3]. Chinchilla đã đúng và LLaMA là bằng chứng sống.

Hành trình của Scaling Laws

2020 - Kaplan et al. (OpenAI) công bố scaling laws cho language models [1]. Lần đầu tiên, người ta thấy rằng hiệu năng AI tuân theo quy luật toán học rõ ràng.
2022 - Chinchilla (DeepMind) sửa lại luật chơi [2]: data quan trọng hơn người ta nghĩ. Cân bằng model và data mới là tối ưu.
2023 - LLaMA (Meta) áp dụng triết lý Chinchilla [3]: model nhỏ hơn, data nhiều hơn. Mở ra kỷ nguyên open-source LLM.
2024–2025 - Các nghiên cứu mới mở rộng scaling laws sang inference-time compute: không chỉ train to hơn, mà còn "suy nghĩ" lâu hơn khi trả lời. Cuộc chơi tiếp tục mở rộng.

Thế thì có giới hạn không?

Đây là câu hỏi triệu đô, chắc chắn là theo nghĩa đen, vì nó quyết định hàng tỷ đô đầu tư. Cho đến nay, scaling laws vẫn đang hoạt động. Model lớn hơn, data nhiều hơn, compute mạnh hơn, và kết quả vẫn tốt hơn. Nhưng có vài điều đáng suy nghĩ:
Data có giới hạn. Internet tuy lớn nhưng không phải vô hạn. Một số nghiên cứu ước tính rằng lượng text chất lượng cao trên internet có thể "cạn" trong vài năm tới nếu tốc độ train tiếp tục tăng. Data tổng hợp (synthetic data) là một hướng giải quyết, nhưng vẫn còn nhiều tranh cãi.
Loss giảm ≠ model thông minh hơn ở mọi thứ. Scaling laws đo loss, tức là khả năng dự đoán token tiếp theo. Nhưng "thông minh" theo cách con người hiểu (suy luận logic, hiểu ngữ cảnh sâu, không bịa thông tin) có thể cần nhiều hơn việc chỉ scale up.
Chi phí tăng nhanh kinh khủng. Tăng gấp 10 lần compute không cho bạn gấp 10 lần kết quả, mà chỉ một cải thiện nhỏ (vì power law). Nên mỗi bước tiến tiếp theo đều đắt hơn bước trước. Tôi gọi đây là "cái giá của sự hoàn hảo", càng gần đỉnh, mỗi bước leo lên càng tốn sức.

Tóm lại

Scaling Laws không phải là một khái niệm hào nhoáng. Không có kiến trúc mới lạ, không có thuật toán đột phá. Nó chỉ là một quan sát thực nghiệm: model lớn hơn + data nhiều hơn + compute mạnh hơn = kết quả tốt hơn, một cách có thể dự đoán. Nhưng đừng đánh giá thấp sức mạnh của sự đơn giản. Chính nhờ scaling laws mà toàn bộ ngành AI chuyển từ "thử nghiệm và hy vọng" sang "lập kế hoạch và thực thi". Và lần tới khi bạn đọc tin ai đó bỏ 10 tỷ đô để xây một data center mới, bạn sẽ biết: họ không điên. Họ chỉ đang tin vào toán.
(Tất nhiên, toán có thể sai. Nhưng cho đến giờ thì chưa. who knows? Hoặc là bạn có thể chứng minh nó sai.)

AI Disclosure:

Claude được dùng trong bài viết này như một trợ lý viết.

Tài liệu tham khảo

[1] Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361. https://arxiv.org/abs/2001.08361
[2] Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., de Las Casas, D., Hendricks, L. A., Welbl, J., Clark, A., et al. (2022). Training Compute-Optimal Large Language Models. NeurIPS 2022. arXiv:2203.15556. https://arxiv.org/abs/2203.15556
[3] Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F., Rodriguez, A., Joulin, A., Grave, E., & Lample, G. (2023). LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971. https://arxiv.org/abs/2302.13971