Mình đã dành 1860 phút tìm hiểu về Large Language Models như ChatGPT

và sau đây là bài viết tiếng Việt chi tiết nhất bạn có thể đọc về cơ chế của những công cụ này

Large Language Model (mô hình ngôn ngữ lớn) hiện đang là một trong những ứng dụng phổ biến nhất của trí tuệ nhân tạo. Kể từ sau tháng 11 năm 2022, khi OpenAI giới thiệu ChatGPT, LLM đã “xâm chiếm” thế giới như một cơn bão. ChatGPT đạt 100 triệu người dùng chỉ trong hai tháng (để so sánh, Tiktok đạt con số này trong 9 tháng, và Facebook thì trong vòng 4 năm rưỡi).

Phổ biến là vậy, nhưng mấy ai biết được cơ chế hoạt động đằng sau LLM là gì?

Khi mình Google từ khóa “Large Language Model” và “mô hình ngôn ngữ lớn”, mình thấy được 3 “vấn đề” sau đây.

(1) Các bài báo khoa học - nhiều từ ngữ chuyên ngành với ký hiệu toán học đọc không ai hiểu

(2) Nhiều bài viết chỉ chạm được một phần rất nông của vấn đề, dạng như 10 prompt để nâng cấp hiệu suất công việc.

(3) Siêu hiếm bài viết tiếng Việt giải thích cặn kẽ cơ chế của LLM.

Thế nên, mình quyết định viết một bài viết giải thích chi tiết về LLM, từ cơ chế hoạt động, các bước tạo ra một LLM, cho đến những cách ta có thể cập nhật các thông tin mới nhất về LLM. Dành cho khán giả đại chúng. Ngoài ra, mình cũng rút ra những bài học từ quá trình “học máy” của LLMs để ta có thể áp dụng cho sự học của bản thân.

Dưới đây là các phần chính của bài viết để bạn tiện theo dõi:

I. Về Large Language models

II. Quá trình huấn luyện LLMs

III. Mượn học máy để bàn về việc học của con người

IV. Làm thế nào để không tối cố về LLMs?

V, Kết

Mình luôn tin rằng khi chúng ta hiểu được gốc rễ của một công cụ, ta sẽ biết cách dùng, cũng như có góc nhìn trực quan hơn về nó, thay vì chỉ học các thao tác bề mặt.

Thế thôi, không dong dài nữa, cùng bắt đầu nào!

I. Về Large Language models

Thực ra Large Language Models (LLMs) không chỉ nhắc đến những model có khả năng tạo ra từ ngữ và giao tiếp như ChatGPT. Theo cuốn sách Hands-on Large Language Model (1), LLM có thể được chia ra làm hai loại chính - Generative model (những model có khả năng tạo ra sản phẩm đầu ra như văn bản, hình ảnh, âm thanh), và Representation model (những model tiếp nhận thông tin và giải mã chúng - được dùng trong các tác vụ như phân loại (classification), thấu hiểu quan điểm (sentiment analysis), hay là tìm kiếm thông tin (information retrieval).

Trong bài viết này, các bạn có thể tạm hiểu “LLMs = Generative model”.

Về căn bản, Large Language Model như ChatGPT là một thuật toán được huấn luyện để dự đoán từ tiếp theo có thể xuất hiện trong một câu, dựa trên dữ liệu từ hàng trăm triệu tài liệu trên Internet, sách, bài báo,v.v.

Chữ “Large” ở đây chỉ đơn giản là những model này có kích thước rất lớn, về cả những cấu phần (parameters) bên trong, lẫn lượng dữ liệu mà chúng được tiếp xúc trong quá trình huấn luyện.

Nguồn: Bài giảng của Jason Wei - một nhà nghiên cứu tại OpenAI (2)

Thế, nếu chỉ là dự đoán từ tiếp theo thôi, thì tại sao LLMs lại có khả năng kỳ diệu như vậy?

Thực ra, dự đoán từ tiếp theo là một tác vụ giúp LLMs tăng khả năng đa nhiệm của mình một cách đáng kể.

Chỉ qua việc dự đoán từ tiếp theo, nó có thể “học” được nhiều tác vụ khác, như:

Dịch thuật: Tôi yêu bạn trong tiếng Anh là … (I love you)

Ngữ pháp: Tôi là … (nó sẽ học cách điền vào một danh từ riêng, như Tôi là Triết, chứ không phải là động từ: Tôi là chạy???)

Giải toán: Đáp án của 3 + 7 + 9 là … (19 chứ không phải 11)

Và còn ti tỉ tác vụ khác.

Nguồn: Bài giảng của Jason Wei - một nhà nghiên cứu tại OpenAI (2)

Hơn nữa, có điều này mình muốn làm rõ. Bản thân LLM không phải là một thực thể biết tư duy giống con người, ít nhất chưa phải thời điểm hiện tại. Nó chỉ dựa vào các thông số toán học đã được tạo nên từ khoảng hàng tỷ lần học, để sao chép những suy nghĩ của con người.

Thế nên, bạn sẽ thấy thuở sơ khai, ChatGPT rất tệ với những tác vụ như tính toán, tạo hình, đếm số. Thậm chí, độ khoảng 1 năm trước, ChatGPT còn không thể đếm được số lượng chữ “r” ở trong Strawberry. Nó liên tục khẳng định là “Strawberry” có hai chữ r. Đó là bởi tự bản thân nó không thể đếm số, mà nó chỉ đơn thuần đoán một cách mù quáng.

Một lỗi sai ngớ ngẩn của ChatGPT (22)

Ngoài ra, LLM như ChatGPT sẽ không có những kiến thức liên quan đến mặt giác quan như con người. Chúng sẽ không hiểu được ý nghĩa thực sự của những câu mình nói, mà chỉ đơn giản là dựa vào câu lệnh của ta để dự đoán những từ tiếp theo. Thế nên, nếu bạn có vào nhắn với LLM để được an ủi sau khi thất tình, nếu nó có viết “tôi hiểu”, thì bạn cứ nhớ là nó chẳng hiểu gì đâu, nó chỉ đoán những từ phù hợp để an ủi trong hoàn cảnh đó thôi.

Bây giờ, mình sẽ đào sâu hơn vào quá trình những LLMs như ChatGPT được tạo ra, để bạn có một cái nhìn tổng quan hơn về công cụ mình đang dùng. Lưu ý rằng bài viết đã tóm lược đi một số chi tiết liên quan đến mặt kỹ thuật để cung cấp góc nhìn tổng quan cho đại chúng.

II. Quá trình huấn luyện LLMs

1. Pretraining

1.1 Chuẩn bị dữ liệu huấn luyện

Để bắt đầu quá trình huấn luyện cho LLMs, ta cần một lượng lớn dữ liệu để chúng có thể học. Với những models thuở sơ khai như GPT 3.5, Llama 2,… dữ liệu này sẽ hoàn toàn dưới dạng text. Nhưng đối với các model thế hệ sau như GPT4o, (O viết tắt cho Omni - đa năng), ,… dữ liệu này có thể bao gồm cả hình ảnh và âm thanh.

Dữ liệu mà ta thu thập sẽ phải cực lớn, bởi LLMs cần rất nhiều ví dụ để có thể học. Lượng data này có thể được ví như một internet thu nhỏ.

Các công ty thường không chia sẻ toàn bộ tệp dữ liệu họ sử dụng để huấn luyện model của mình. Tuy nhiên, để hiểu được độ lớn của bộ dữ liệu dùng để huấn luyện LLMs, bạn có thể tham khảo Fineweb - bộ dữ liệu mô phỏng được tạo bởi Huggingface - một nền tảng nổi tiếng trong cộng đồng machine learning (3).

Dataset này bao gồm 15 nghìn tỷ Token, nặng khoảng 44TB. Nguồn dữ liệu của Fineweb được lấy chủ yếu từ Common Crawl, một tổ chức chuyên thu thập dữ liệu từ các nguồn miễn phí trên internet và chia sẻ chúng miễn phí cho tổ chức khác.

Sau khi lấy dữ liệu từ Common Crawl, Hugging Face sẽ dùng công cụ để lọc bớt những dữ liệu kém chất lượng (vì dữ liệu trong Common Crawl sẽ bao gồm cả định dạng Website), loại bỏ các trang spam, có chất lượng thấp, và loại đi những nội dung lặp lại; cùng với rất nhiều bước tinh chỉnh khác.

Sau 7749 bước như vậy, họ mới hoàn thiện được một dataset hoàn chỉnh để sử dụng cho việc huấn luyện LLMs.

Quy trình tạo ra Fineweb (3)

Ta chỉ mới ở bước thu thập dữ liệu thôi nhưng các bạn có thể thấy phải cần rất nhiều công sức để thu thập, và nhiều cơ sở hạ tầng để xử lý dữ liệu. Nên thường các công ty sẽ không làm bước này nhiều.

Đó là lý do nếu bạn hỏi GPT-4o kiến thức của nó dừng lại tại thời điểm nào, nó sẽ trả lời là tháng sáu năm 2024 (mình viết bài này vào giữa tháng tư năm 2025). Điều này chứng tỏ quá trình pre-training của nó đã xảy ra hơn nửa năm về trước:

Hơn nữa, một điều quan trọng cần phải lưu tâm trong quá trình Pre-training là chất lượng của dữ liệu. Bởi vì các mô hình ngôn ngữ sẽ bắt chước những gì nó xem được trong giai đoạn huấn luyện, bạn cần đảm bảo nó xem được càng ít nội dung rác càng tốt. Nếu bạn huấn luyện model bằng comments trên Tiktok và Thread thì … bạn hiểu hệ quả rồi đấy.

Mình hỏi nó: “điều gì sẽ xảy ra nếu mày được huấn luyện dựa trên bình luận từ TikTok và Thread

1.2. Tokenization

Large Language Models không có khả năng tiếp thu câu chữ giống như chúng ta. Mà chúng sẽ phải chia nhỏ câu lệnh của ta thành những “token” - những từ, cụm từ, hoặc ký tự thường xuất hiện trong một ngôn ngữ. Ví dụ, câu “Tôi là Triết” sẽ được chia nhỏ thành T-ôi-là-Tr-iết.

Sau đó, thông qua quá trình Embedding, những token sẽ được chuyển hóa thành các vector - những dãy số biểu trưng cho Token. Bạn cứ tưởng tượng chúng như là những mã định danh để chương trình học máy có thể nhận ra những token mình đang xử lý, bởi các chương trình máy tính chỉ làm việc với số thôi chứ không làm việc với con chữ.

Bạn có thể hiểu rằng, khi mình gõ “Tôi Là Triết, nó sẽ không nhìn thấy những gì mình nhìn thấy, mà nó nhìn thấy các dãy số biểu trưng cho các Token. Để có thêm cái nhìn trực quan về quá trình Tokenization, bạn có thể truy cập Tiktokenzer và chọn GPT-4o để xem ChatGPT thực sự thấy các câu lệnh của bạn như thế nào.

Giao diện của Tiktokenizer

Trong quá trình huấn luyện, LLMs sẽ được học những Token nào thường đi với nhau, từ đó đưa ra kết quả có xác suất hợp lý nhất.

Nguồn ảnh: Sách Hands-on Large Language Model (1)

1.3. Neural network training

Có thể nói, neural network, hay cụ thể hơn là Transformer, là cấu trúc đứng sau hầu hết các LLMs sản xuất sau năm 2017 - khi bài báo quan trọng từ Google “Attention is all you need” ra đời.

Neural network là một thuật toán học máy (machine learning) được truyền cảm hứng từ cấu trúc não bộ của con người.

Mỗi Neural Network thường sẽ có một lớp đầu vào (input layer) để nhận thông tin, một hoặc nhiều lớp xử lý thông tin ở giữa (hidden layers) để xử lý thông tin, và lớp đầu ra (output layer) để trả dự đoán cuối cùng.

Nguồn ảnh: IBM (4)

Sau khi dữ liệu huấn luyện đã được Token hóa thành những con số, chúng sẽ được chuyển vào Neural Network, nơi mô hình LLMs bắt đầu quá trình học của mình. Đây là quá trình self-supervised, tức là model sẽ tự giám sát chính mình.

Nhìn chung, quá trình học sẽ diễn ra như sau. Đầu tiên, từ dữ liệu ở quá trình pre-training, LLMs sẽ có khoảng hàng nghìn tỷ câu ví dụ để học. Ở mỗi ví dụ, chúng sẽ che đi token trong một câu có sẵn, và tự đưa ra dự đoán cho token nào sẽ xuất hiện tiếp theo trong câu.

Sau đó, chúng sẽ kiểm tra với đáp án có sẵn, và tự cập nhật weights (trọng số - đại khái là con số biểu thị độ quan trọng của các token trong bối cảnh mà nó đang dự đoán) của mình, sao cho lần tiếp theo chúng sẽ đưa ra dự đoán có khả năng chính xác cao nhất. Chúng cứ liên tục làm như vậy khoảng vài tỷ ví dụ, và kết quả là những mô hình có khả năng kỳ diệu mà chúng ta đang sử dụng.

Nguồn ảnh: Andrej Karparthy (5)

1.4 Tạo ra base models (mô hình gốc)

Sau quá trình huấn luyện Neural Network, một mô hình với trọng số hoàn chỉnh, có thể dự đoán từ tiếp theo với độ chính xác cao được ra đời. Mô hình này có tên gọi tiếng anh là Base LLMs, hoặc bạn cũng có thể gọi nó là Foundation LLMs, hay Pre-trained LLMs (6).

Tuy nhiên, đến đây, model này vẫn chưa hoàn toàn hữu dụng với các tác vụ hàng ngày. Bởi lẽ, base models mới chỉ có khả năng dự đoán từ tiếp theo, chứ chưa có khả năng nghe theo hướng dẫn từ người dùng.

Bởi mô hình gốc không có tính ứng dụng cao nên không nhiều công ty phát hành chúng. Có một số base models đã được phát hành, nổi bật nhất có lẽ là họ nhà Llama của Meta (bao gồm Llama 1, 2,3). Để thử nghiệm một model gốc, các bạn có thể thử truy cập Hyperbolic hoặc Open Router và chọn models có chữ BASE bên cạnh.

Ví dụ, khi mình prompt 2+2=? trên Open Router playground, sử dụng DeepSeek V3 base, nó cho ra nguyên một đống ký tự kỳ lạ mà mình không hiểu gì :)) Và nếu mình không dừng lại thì nó chắc sẽ tiếp tục tạo ra một đống ký tự cho đến khi đầy Context Window (giới hạn ký tự bạn được giao tiếp với model) mới thôi, bởi nó chỉ đang đơn thuần dự đoán từ chứ chưa theo được hướng dẫn gì cả.

Có ý kiến từ chuyên gia AI mình khá tin tưởng - Andrej Karparthy (cựu Director of AI tại Tesla) - cho rằng Base models thực ra rất mạnh và sáng tạo hơn so với Instruct models (những model đang được sử dụng ngoài thị trường), bởi chúng chưa bị giới hạn bởi bất kỳ tinh chỉnh nào. Các bạn có thể bắt đầu thử tận dụng Base model từ bây giờ, sử dụng Few-shot prompting (đưa ra ví dụ về kết quả bạn muốn đạt được trong câu lệnh của mình) để đạt được kết quả tốt nhất .

Để chúng thực sự trở nên hữu dụng, ta thường phải đi tới bước tiếp theo - Supervised Finetuning (tinh chỉnh có giám sát). Và điều đó dẫn chúng ta tới phần 2

P/S: Nếu bạn nào muốn có một cái nhìn trực quan hơn về cơ chế hoạt động đằng sau một LLM, các bạn có thể truy cập trang web này: https://bbycroft.net/llm

2. Supervised finetuning (SFT)

Sau khi đã có base model với một lượng lớn “kiến thức”, ta sẽ đến giai đoạn tinh chỉnh để nó có thể vận dụng kiến thức của mình vào một tác vụ cụ thể, trong trường hợp của các models như ChatGPT là để trả lời câu hỏi từ người dùng.

Đến lúc này, các công ty như OpenAI sẽ bắt đầu tạo một “label data” gồm câu hỏi có thể gặp và câu trả lời khả dĩ, được viết bởi những người thực sự có kiến thức trong lĩnh vực của mình. Models sẽ dần học được xu hướng mà các chuyên gia trả lời câu hỏi, từ đó bắt chước cho những câu trả lời sau này của mình.

Thế nên, mình muốn nhấn mạnh lại rằng, thực chất cho đến thời điểm hiện tại, LLM vẫn chưa có khả năng tự suy nghĩ. Khi bạn hỏi nó một câu hỏi, ví dụ như “ý nghĩa tồn tại của con người là gì?”. Câu trả lời của nó sẽ không phải đến từ “cảm nhận” của chính nó, mà là đại diện cho xác suất nó mô phỏng câu trả lời đến từ những chuyên gia viết câu trả lời mẫu (human labeler) từ các công ty, cộng với kiến thức mà nó có được từ quá trình pretraining.

Trong có vẻ deep thế này nhưng thực ra vẫn chỉ đang là mô phỏng thôi

Trong bài báo về quá trình huấn luyện GPT 3 (7), OpenAI tiết lộ rằng họ thuê khoảng 40 người và viết tổng cộng 13000 prompts (câu lệnh) cho quá trình SFT. Tất cả những người họ thuê đều là những người có học thức cao, để đảm báo chất lượng cho dữ liệu huấn luyện. Theo OpenAI, 90% người viết câu trả lời mẫu có bằng tốt nghiệp cử nhân, và hơn 1/3 có có bằng thạc sĩ.

Một ví dụ từ quá trình huấn luyện của OpenAI, trong đó Labeler sẽ viết ra một câu lệnh và tự trả lời nó. Trong ảnh, OpenAi so sánh 3 câu trả lời: của Labeler, của GPT-3 175B (base model) và của InstructGPT 175B (model sau khi đã trải qua SFT)

Trong quá trình này, OpenAI sẽ đảm bảo các câu lệnh và câu trả lời của Human Labelers đạt được 3 tiêu chí, đó là: Helpful (Hữu ích), Harmless (vô hại), và Honest (thành thật). Họ hy vọng rằng model sẽ học được 3 “đức tính” này từ các ví dụ chúng bắt chước.

Side question: Chẳng phải 3 tiêu chí này cũng là 3 tiêu chí ta cần để trở thành một “người tốt” sao?

Một ví dụ minh họa khác cho quá trình SFT (5)

Ngoài ra, trong bài báo vào năm 2022 (7) của mình, OpenAI đã chỉ ra rằng bởi đa số người họ thuê để viết câu trả lời mẫu sử dụng tiếng Anh là ngôn ngữ chính, nên nhiều câu trả lời mà mô hình bắt chước cũng sẽ bằng tiếng Anh, hoặc nếu không thì logic cũng giống như tiếng Anh. Đây là lý do ta thấy được trong khoảng thời gian đầu, khả năng sử dụng các tiếng khác ngoài tiếng Anh của LLMs rất tệ. Cho đến bây giờ, khả năng của nó đã được cải thiện hơn rất nhiều, tuy nhiên thi thoảng mình nhắn với nó bằng tiếng Việt, nó vẫn chèn tiếng Anh vào những chỗ nó bí.

Vậy là sau bước này, ta đã biến được LLMs từ một model chỉ biết dự đoán từ tiếp theo, thành một model hữu dụng cho các tác vụ của con người.

3. Reinforcement learning (RL)

Sau khi đã có base models, và trải qua bước SFT thường các AI Lab sẽ dùng RL để tăng khả năng lý luận và tạo ra kết quả đầu ra chất lượng cho LLMs

Reinforcement learning là một dạng học máy, trong đó người ta huấn luyện một mô hình bằng cách cho chúng học từ tín hiệu “thưởng”, “phạt” của môi trường, từ đó tự tìm ra phương pháp hữu hiệu nhất. Tức là, sau mỗi lần huấn luyện, chúng ta chỉ cần tìm cách cho models biết chúng đang làm đúng hoặc làm sai, còn lại chúng sẽ tự tìm cách để cải thiện chất lượng của mình.

Theo hiểu biết của mình, Reinforcement Learning là phương pháp học máy đứng sau rất nhiều sự tiến bộ vượt bậc của các mô hình AI hiện tại. Ví dụ điển hình là những “mô hình tư duy” (reasoning models) trong LLM - tí nữa mình sẽ bàn chi tiết hơn, và AlphaGo, một mô hình đánh cờ vây được phát triển bởi Deepmind.

Sở dĩ AlphaGo gây được tiếng vang là bởi nó đã học cách làm chủ cờ vây, một trò chơi nổi tiếng với độ khó cực cao (có xấp xỉ 10^117 cách xếp bàn cờ khác nhau, nhiều hơn cả số nguyên tử tồn tại trong vũ trụ) (8) . Cách học của AlphaGo chỉ đơn giản là tự chơi với chính bản thân mình khoảng vài nghìn lần, và sau mỗi lần chơi nó sẽ rút ra bài học từ lỗi sai của mình. Kết quả là AlphaGo đã dành chiến thắng 4-1 trước Lee Sedol, kỳ thủ cờ vây giỏi nhất thế giới thời điểm đó.

Điều thú vị là trong ván đấu với Lee Sedol, ở bước 37 (Move 37), AlphaGo đã đi một nước cờ mà tất cả chuyên gia trên thế giới đều cho là ngu ngốc; chỉ có 1/10000 khả năng một con người sẽ đi nước đó (9). Nhưng thực ra, đó lại là một nước đi thiên tài. Điều này cho thấy tiềm năng của RL trong việc phát hiện ra những vùng tư duy mà con người, với hiểu biết hạn hẹp của mình, chưa thể chạm tới được. Háo hức thật, đúng không?

Tuy nhiên, áp dụng RL trong Large Language Models vẫn còn gặp rất nhiều trở ngại. Một phần là bởi đối với những trò chơi như cờ vây, tín hiệu từ môi trường khá rõ ràng. Ta có thể biết mình thắng hay thua qua các nước đi. Thế nhưng, với mô hình ngôn ngữ lớn, làm thế nào để ta biết được mình đã làm tốt hay chưa tốt? Với những tác vụ có đáp án chính xác như giải toán thì còn khả thi, nhưng giả sử với những tác vụ như viết một câu đùa - định nghĩa của mỗi người về câu đùa tốt hay câu đùa tệ là khác nhau - thì làm thế nào để ta đưa ra tín hiệu cho mô hình?

Một phương pháp RL thông dụng trong huấn luyện LLM đó chính là học từ phản hồi của con người (Reinforcement Learning from human feedback - RLHF)

3.1 RLHF

Như mình đã viết ở trên, để áp dụng RL trong huấn luyện LLMs, ta cần một cách để cho model biết là nó đang làm tốt hay làm tệ. Điều hiển nhiên ta có thể nghĩ ngay tới là chúng ta - con người - đánh giá kết quả đầu ra của nó. Điều này nghe thì dễ trên lý thuyết, nhưng trên thực tế lại khó thực hiện.

Đơn giản là bởi LLMs cần hàng trăm nghìn ví dụ để học, chả lẽ chúng ta lại phải ngồi đọc và đánh giá thủ công từng ví dụ? Như thế thì chắc 10 năm mới phát triển được một mô hình mới.

Thế nên, giải pháp được các chuyên gia đưa ra là phát triển một Reward model (một mô hình riêng biệt, mô phỏng cách đánh giá của con người), và để Reward model (RM) đó đảm nhận nhiệm vụ huấn luyện LLMs.

Nhìn chung, người ta sẽ huấn luyện RM bằng cách đưa cho nó một câu lệnh có sẵn. Sau khi LLMs tạo ra một số lượng câu hỏi nhất định, những người được thuê để huấn luyện models sẽ xếp hạng các câu trả lời đó từ cao nhất đến thấp nhất. Từ cách mà con người xếp hạng, RM sẽ dần học được những câu trả lời nào sẽ là những câu trả lời con người yêu thích.

Ảnh minh họa quá trình huấn luyện RM (10)

Sau khi đã có một Reward model, bây giờ ta sẽ đến công đoạn huấn luyện LLMs học cách tối ưu hóa điểm số của RM dựa trên Reinforcement learning.

Trong giai đoạn này, phần đa các công ty sẽ sử dụng một phương pháp gọi là Proximal Policy Optimization, được phát triển bởi OpenAI (11). Nhìn chung, PPO có nhiệm vụ đảm bảo cho model học từ từ, không cần phải nhảy một cách nhanh chóng. PPO cũng đảm bảo rằng model sau khi được huấn luyện sử dụng RLHF sẽ không quá khác biệt so với phiên bản sau SFT.

Dưới đây là một biểu đồ tổng kết quá trình RLHF của OpenAI (12). Lưu ý rằng quy trình này đã xuất hiện từ năm 2022 rồi, bây giờ có khả năng đã có một chút sự thay đổi. Nhưng mình tin về căn bản các bước chính vẫn sẽ giữ nguyên.

Side note: Policy trong hình là một thuật ngữ được dùng trong RL, ám chỉ chiến lược model sử dụng để đạt được kết quả tốt nhất.

3.2 Reasoning models

Nhắc đến Reinforcement Learning trong LLMs, ta không thể không nhắc đến Reasoning models - những mô hình có khả năng “lý luận” cao. Đây là chủ đề rất nổi trong thời gian gần đây, với những cái tên nổi bật như OpenAI o3, o4-mini (đúng vậy, OpenAI vừa có o4 vừa có 4o :)), Gemini 2.5 Pro, và DeepSeek R1.

RL chính là kỹ thuật chính đã làm gia tăng chất lượng của những reasoning models thời gian gần đây. Kỹ thuật RL sử dụng để phát triển các reasoning models khá khác so với quy trình RLHF mình nhắc đến ở trên, nhưng mình xin phép không bàn chi tiết trong bài viết này để tránh làm ngợp độc giả với các chi tiết kỹ thuật.

Side note: Đến đây, mong bạn đọc hãy nhớ rằng, khi dùng LLMs đừng chỉ nhắc đến những tên của dòng sản phẩm nói chung như ChatGPT, Gemini, Claude, DeepSeek, mà hãy chú ý chính xác mình đang dùng model nào. Mỗi model sẽ có những chức năng và khả năng khác nhau.

Vậy, Reasoning ở đây có nghĩa là gì?

Mình xin trích từ định nghĩa của Sebastian Rachska - một nhà nghiên cứu AI và LLMs nổi tiếng (13):

Reasoning, in the context of LLMs, refers to the model’s ability to produce intermediate steps before providing a final answer. This is a process that is often described as chain-of-thought (CoT) reasoning. In CoT reasoning, the LLM explicitly generates a structured sequence of statements or computations that illustrate how it arrives at its conclusion.

Tạm dịch: Lý luận, trong bối cảnh của LLMs, ám chỉ khả năng tạo ra những bước suy nghĩ trung gian trước khi đưa ra câu trả lời cuối cùng. Quá trình này thường được gọi là chain-of-thought reasoning (tư duy từng bước). Trong chain-of-thought (CoT) reasoning, LLMs tự tạo ra một chuỗi những tính toán logic để giải thích tại sao nó lại đưa ra kết quả cuối cùng.

Fun note: Nhiều người bảo quy trình này cũng giống như cách con người suy nghĩ, nhưng ta thử tự hỏi bản thân xem có mấy khi ta suy nghĩ 2-3 bước trước khi đưa ra quyết định cuối =))

Khi models tạo những bước trung gian như thế để suy nghĩ, chúng có thể bẻ nhỏ những vấn đề phức tạp xuống thành những tác vụ đơn giản hơn, từ đó nâng cao độ chính xác và chất lượng của câu trả lời.

Như các bạn có thể thấy trong hình dưới. Mình nhờ ChatGPT o4-mini kiểm tra xem những gì mình viết có đúng không. Và ở dưới nó đưa ra những bước nó sẽ làm để thực hiện yêu cầu của mình.

Hiện tại, các reasoning models đang gây chấn động cho cả thế giới, bởi chúng có thể thực hiện các yêu cầu có độ phức tạp cao như giải toán hay viết code tốt và chính xác hơn gấp nhiều lần so với model thông thường. Có thể nói, nó đã trở thành một xu hướng phát triển (scaling paradigm) mới trong cuộc đua về LLMs.

Ngoài ra, một xu hướng khác mình thấy được đó là phát triển LLMs với mức giá rẻ hơn, nhưng độ hiệu quả vẫn cao. Một ví dụ điển hình là DeepSeek R1 - một model đến từ Trung Quốc đã làm chấn động cả thế giới đầu năm nay. DeepSeek R1 có khả năng tương đương với nhiều models của các công ty lớn khác trên thị trường như OpenAI, Claude, đặc biệt ở các tác vụ như toán và lập trình, chúng còn vượt model tương đương như OpenAI o1. Điểm đặc biệt nhất là DeepSeek đạt được khả năng đó với mức giá rẻ hơn OpenAI khoảng 96% (18).

Ngoài lề một chút, một xu hướng mới nữa trong ngành đó là làm ra những “benchmark” - bộ câu hỏi bằng chữ hoặc hình ảnh, để kiểm tra khả năng của các model. Hiện nay, với sự phát triển vũ bão của model, các benchmark ngày càng không có đủ khả năng để đo lường sự phát triển của chúng.

Thậm chí, với một trong những benchmark khó nhất ở thời điểm hiện tại - GPQA (Graduate-Level Google-Proof Q&A ), tốc độ bão hòa diễn ra chỉ trong hơn một năm. Khi bộ câu hỏi này vừa mới ra, GPT4o chỉ trả lời đúng được 36%, tức là xấp xỉ mức ngẫu nhiên (bộ câu hỏi này có dạng trắc nghiệm), nhưng chỉ sau khoảng 1 năm, GPT o1 đã đạt được 78% độ chính xác, ngang ngửa những chuyên gia hàng đầu thời điểm hiện tại (độ chính xác của các chuyên gia rơi vào từ 65-80%) (14), và 3 tháng sau đó, o3 ra đời và đạt được kết quả là 83.3%, vượt mức một chuyên gia có thể làm được (15).

Side note: Làm một bộ benchmark tốt là điều không hề đơn giản. Để tạo ra GPQA, những nhà nghiên cứu từ đại học New York đã phải kết hợp với Cohere và Anthropic để thuê hơn 61 tiến sĩ từ nhiều lĩnh vực khác nhau, làm ra tổng cộng 200 câu hỏi trắc nghiệm, và mỗi người được trả 600 đô chỉ cho một câu hỏi (14).

Đây là một số câu hỏi mẫu trong bộ GPQA (16), mình đọc còn không hiểu chứ đừng nói đến việc giải đúng hơn 80% =))

Vậy, khi nào chúng ta nên dùng reasoning models?

Mặc dù khả năng của reasoning models rất tuyệt diệu, ta không nên dùng nó trong tất cả các tác vụ hàng ngày. Nếu bạn chỉ đơn giản là muốn tổng kết tài liệu, dịch văn bản, hay hỏi những câu hỏi thuần liên quan đến kiến thức, bạn không nên dùng reasoning models. Vừa tốn thời gian mà đôi khi còn dễ sai hơn vì model overthinking =)).

Trên thực tế, mình không dùng reasoning models nhiều lắm, vì tác vụ thường ngày của mình không đòi hỏi những bước tư duy quá phức tạp. 80% thời gian mình sẽ sử dụng GPT-4o và Claude 3.7 Sonnet.

Một trong những lần hiếm hoi mình sử dụng reasoning model và cảm thấy tuyệt vời đó là khi mình dùng dùng Grok thinking mode để phân tích kết quả cho bài nghiên cứu tốt nghiệp của mình. Đỉnh thật sự các bạn ạ, nó còn tự làm bảng và chia từng kết quả theo từng objectives cho mình.

Nếu bạn nào học những môn khoa học tự nhiên như toán, lý, hóa, hay cần lập trình những ứng dụng phức tạp thì dùng reasoning models sẽ là một lựa chọn hợp lý.

Ngoài ra, một mẹo mình đọc được để sử dụng reasoning model một cách thông minh là đưa cho nó càng nhiều bối cảnh càng tốt (17). Về căn bản, khi sử dụng những model chat thông thường như GPT-4o, ta thường chỉ hỏi những câu hỏi rất ngắn gọn, và nếu model cần thêm thông tin gì, nó sẽ tự hỏi ta. Nhưng đối với những câu hỏi phức tạp mà ta muốn reasoning models giải quyết, câu trả lời của nó sẽ chất lượng hơn nhiều nếu ta nói rõ cho nó là ta cần gì, và cung cấp cho nó tất cả những thông tin nó cần để lý luận.

Cấu trúc mẫu của một câu lệnh cho reasoning models (17)

III. Mượn học máy để bàn về việc học của con người

(Phần không thể thiếu trong bài viết của The Learning Enthusiast)

Trong video bàn về LLMs của mình (5), chuyên gia Andrej Karparthy sử dụng một so sánh giữa quá trình huấn luyện LLMs và việc học của con người mình thấy khá hợp lý.

Trong một cuốn sách giáo khoa như ảnh ở dưới, bạn thường sẽ thấy có 3 phần. Phần đầu tiên là những văn bản với mục đích giới thiệu cho chúng ta những kiến thức ta cần học, xây dựng kiến thức nền cho chúng ta. Đây được ví như quá trình pre-training cho LLMs.

Tiếp theo, sau khi đã có một chút kiến thức nền, ta sẽ được xem một số bài tập có đáp án, để có ý niệm về cách ta sẽ vận dụng những gì ta đã được học để giải bài tập. Đây là phần tương ứng với Supervised Finetuning.

Phần cuối cùng, ta sẽ được cho một số bài tập, thường có thể tìm thấy đáp án nhưng không có lời giải chi tiết ở cuối sách giáo khoa, để luyện tập và biến kiến thức đã học thành của mình. Tương ứng với Reinforcement Learning.

Nguồn ảnh: Video “Deep dive into LLMs like ChatGPT (5)

Có một số điều sau đây mình muốn bàn luận sâu hơn:

3.1 Tầm quan trọng của bài giải mẫu:

Một số người, trong đó từng có mình, tin rằng tự làm bài tập trước khi chưa biết gì rồi mới xem những bài tập có đáp án thì sẽ biến được kiến thức thành của mình. Tuy nhiên, nhiều nghiên cứu đã chỉ ra rằng, Direct Instruction - đưa ra hướng dẫn chi tiết cho học sinh trước khi bắt chúng tự giải quyết vấn đề - mang lại hiệu quả cao trong việc tăng khả năng học tập của học sinh (19).

Điều này, theo mình là bởi nếu chúng ta giải bài tập khi mình chưa biết gì, những gì ta làm hoàn toàn là đoán mò, không góp phần tăng thêm kiến thức đã có của ta.

Đặc biệt, đối với những người mới học một lĩnh vực, việc phải tự đoán mò hướng giải hầu như bất khả, bởi lúc này gánh nặng nhận thức (cognitive load) trở nên quá lớn. Thế nên đừng ngần ngại xem qua một số bài giải mẫu trước khi bước vào giải bài tập chính thức. Nhớ rằng đừng xem bài giải mẫu mãi mà phải tự làm một số bài tập để in sâu kiến thức là được.

Cũng giống như trong quá trình huấn luyện LLM, bước SFT vẫn đóng vai trò tương đối quan trọng trước khi chuyển sang bước RL. Trong bài báo về quá trình phát triển DeepSeek R1 (20), DeepSeek cũng đã thừa nhận rằng khi áp dụng thẳng RL vào base models để tạo ra DeepSeek R1 - Zero, model này vẫn gặp một số hạn chế như tạo ra những kết quả rất khó đọc, hoặc là bị trộn lẫn các ngôn ngữ khác nhau trong câu trả lời của mình.

Thế nên khi phát triển DeepSeek-R1 bản chính thức, họ mới phải thêm bước cold start (cũng là thu thập dữ liệu mẫu để model học cách bắt chước như SFT) để tăng độ thân thiện của model đối với con người.

Supervised Finetuning giúp cho model nhận biết được những dạng câu trả lời như nào sẽ hợp lý, từ đó tối ưu câu trả lời của mình.

3.2 Deliberate Practice

Khi đọc về Reinforcement Learning, mình được gợi nhớ đến khái niệm Deliberate practice. Đây là một khái niệm được cho là đứng sau thành công của những chuyên gia, những người đứng đầu lĩnh vực của mình (21).

Deliberate Practice được cha đẻ của nó - Anders Ericsson định nghĩa là “hoạt động huấn luyện được cá nhân hóa bởi một huấn luyện viên hoặc một giáo viên nhằm phát triển một kỹ năng cụ thể của một người, thông qua việc liên tục lặp lại và cải tiến quá trình luyện tập (21) Trong bối cảnh hiện đại, mình nghĩ rằng “huấn luyện viên”, hay “giáo viên” không nhất thiết phải là một người khác, mà hoàn toàn có thể là chính bản thân ta.

Một đặc điểm khiến Deliberate practice hiệu quả là số lần lặp lại nhiều, nhưng mỗi lần lặp lại ta cần biết được ta làm tốt điểm gì, chưa làm tốt điểm gì để có thể cải tiến.

Mặc dù thời gian bỏ vào luyện tập là điều cần thiết, nhưng nếu ta luyện một tư thế chạy sai trong vòng 1000 giờ, hay viết sai chính tả 1000 lần, thì ta không thể trở nên tốt hơn mà thậm chí còn tệ đi. Thế nên, câu nói “practice makes perfect” là đúng, nhưng chưa đủ. Câu đầy đủ phải là “deliberate practice makes perfect”.

Thông thường, để quá trình Deliberate practice có hiệu quả, ta nên kiếm cho mình một huấn luyện viên hoặc một người hướng dẫn để giám sát ta, cũng giống như trong RLHF, LLMs phải có một Reward model để biết được nó đang làm đúng hay làm sai. Tuy nhiên, mình hiểu rằng không phải ai cũng có đủ điều kiện làm điều đó.

Thế nên, một điều ta có thể làm là so sánh kết quả của bản thân với những ví dụ mà ta muốn hướng đến. Ví dụ, để luyện viết, ta có thể chọn một bài viết mà ta cảm thấy hay, tự viết về chủ đề của bài viết đó trước, và sau đó so sánh với bài gốc để xem mình cần cải thiện điểm gì.

Mấu chốt của Deliberate Practice, đó chính là luyện tập hàng trăm lần, nhưng mỗi lần luyện tập phải để cải thiện được một điểm yếu nào đó thêm một chút, chứ không chỉ đơn thuần là luyện những gì ta đã giỏi sẵn.

3.3 Làm thế nào để đưa ra quyết định tốt hơn?

Ta có thể thấy rằng lý do reasoning model có kết quả đầu ra chất lượng hơn model thông thường trong các tác vụ phức tạp là bởi chúng suy nghĩ qua các bước trung gian.

Nếu models mất ít thời gian suy nghĩ, và bước suy nghĩ của nó càng ngắn, thì khả năng dẫn đến kết quả sai càng cao.

Điều này cũng đúng với con người. Nếu ta dành ít thời gian suy nghĩ, và hành động ngay mỗi khi gặp một vấn đề nào đó, khả năng ta mắc sai lầm càng cao.

Hãy thử nhớ lại xem, những lần bạn hối hận nhất có phải là những lần bạn hành động bộc phát khi cảm thấy tức giận, hoặc bỏ cuộc ngay lập tức khi gặp khó khăn?

Thế nên, để đưa ra quyết định sáng suốt hơn, một trong những nguyên tắc của mình là hạn chế quyết định ngay khi vừa nảy ra ý tưởng hoặc gặp một vấn đề nào đó.

Nếu muốn mua một món đồ gì, mình sẽ đợi khoảng 1 tuần sau để xem lúc đó mình còn cần nó không. Thường mình sẽ thấy mình không cần nó đến thế.

Sau khi viết một bài viết, mình sẽ không đăng ngay lập tức, mà đợi khoảng 1 ngày, hoặc ít nhất một giờ sau để dò lại (thường là trong lúc dò lại mình sẽ thấy lỗi).

Nếu mình cảm thấy tức giận với ai đó, mình sẽ cố gắng hít thở trước khi thể hiện cảm xúc của mình. Sau khi bình tĩnh, ta có thể thấy vấn đề cũng không nghiêm trọng đến vậy.

Trước khi đưa ra quyết định quan trọng cho sự nghiệp, mình luôn dành ra ít nhất 1 tuần, hoặc gấp lắm thì cũng là một ngày, để suy nghĩ. Đã có quá nhiều lần mình đồng ý ngay lập tức và khi làm cảm thấy hối hận khôn nguôi.

…

Tuy nhiên, cũng như LLMs, đối với những tác vụ đơn giản, ta không cần, và không nên suy nghĩ quá nhiều. Nhưng để đưa ra được câu trả lời chất lượng, LLMs cần những trọng số chính xác. Cũng như vậy, để đưa ra quyết định chính xác trong tính huống hàng ngày đòi hỏi ta phải ứng biến nhanh, ta cần phải rèn luyện từ trong tư duy (mindset) của chính mình.

Bây giờ, nếu ai bảo mình uống đồ uống có nhiều đường, hay tiêu tiền cho một thứ mà hiện tại mình không cần, mình chắc chắn sẽ từ chối không cần suy nghĩ, bởi điều đó đã in sâu vào tư duy của mình rồi.

Mình có niềm tin rằng bản thân là một người trân trọng sức khỏe, và chi tiêu có chừng mực, nên mình có thể ngay lập tức đưa ra những quyết định đúng với giá trị của mình.

Tất nhiên, thi thoảng mình vẫn đưa ra những quyết định khiến mình phải hối tiếc, nhưng việc cho bản thân thời gian suy nghĩ, và rèn luyện từ tư duy của chính mình đã giảm tỉ lệ đó đi rất nhiều.

IV. Làm thế nào để không tối cố về LLMs?

Trước khi kết bài, mình sẽ chia sẻ cho bạn 3 nguồn mình thường dùng để cập nhật kiến thức về LLMs nói riêng và AI nói chung.

1. LMarena

Mình thường vào Leaderboard của LMarena để xem hiện nay đang có những models nào.

Ở đây, cộng đồng sẽ bình chọn xem models nào là tốt nhất. Quy trình bình chọn là bạn sẽ viết một câu lệnh cho hai models (được chọn ngẫu nhiên), và sau đó vote xem câu trả lời của model nào là tốt nhất (bạn sẽ không biết tên của hai model đó là gì cho đến khi bạn vote xong).

LMarena có nhiều thể loại Leaderboard phù hợp với hứng thú của bạn. Có Overall, Math, Instruction following, Creative writing,… bạn có thể chọn tác vụ nào mình thích và xem các models nào đang dẫn đầu trong tác vụ đó.

Overall Leaderboard của LMarena

Tuy nhiên, vì đây là kết quả từ cộng đồng, và mỗi người thường sẽ có quan điểm khác nhau, nên kết quả mà các bạn thấy trên LMarena chưa chắc đã phản ánh thực tế. Ví dụ, mình thấy Claude 3.7 Sonnet là một model khá ổn nhưng nó chỉ xếp thứ 37 thôi. Bạn chỉ nên xem bảng xếp hạng này để tham khảo và tự trải nghiệm để chọn xem mình sẽ sử dụng model nào.

2. The batch newsletter

Đây là Newsletter được viết bởi Andrew Ng - một trong những chuyên gia nổi tiếng nhất về AI, và đội ngũ Deeplearning.ai Trong thư, bạn thường sẽ đọc được một đoạn tâm sự của Andrew về những chủ đề liên quan đến AI trong cuộc sống, ví dụ như bạn có nên học code trong thời đại nào không.

Bạn cũng sẽ đọc được thông tin về những cập nhật mới về AI diễn ra trong thời gian gần đây

3 Lex Fridman podcast

Nếu bạn muốn tìm hiểu sâu về “bộ óc” của những người đang đẫn đầu trong công cuộc phát triển trí tuệ nhân tạo, suy nghĩ của họ về tương lai và góc nhìn của họ về sự phát triển của AI, Podcast của Lex Fridman là một lựa chọn phù hợp.

Lex Fridman đã phỏng vấn nhiều nhân vật quan trọng như Sam Altman (Ceo OpenAI), Yann Lecunn (Chief Scientist tại Meta Ai, Dario Amodei (Ceo của Anthropic), và rất nhiều người khác.

Ngoài ra thì chủ đề của podcast này cũng đa dạng nhiều chủ dề khác nhau, như chính trị, khoa học, lịch sử - là một nơi phù hợp nếu bạn muốn mở rộng tư duy của bản thân

Lex cũng là một trong những người mình rất ngưỡng mộ

Ngoài 3 nguồn này thì có rất nhiều nguồn khác bạn có thể cập nhật về AI. Nói chung thông tin không thiếu, chỉ là ta muốn tìm hiểu hay không thôi.

V. Kết

Mình hy vọng bài viết (hơi dài) này đã giúp bạn có thêm góc nhìn khác về thứ công cụ mình đang dùng hàng ngày. Việc hiểu về LLMs ngoài việc giúp bạn chém gió ra thì mình tin rằng nó cũng sẽ khiến bạn dùng công cụ này một cách thông thái hơn.

Để kết bài, mình muốn nhắn nhủ với bạn một thông điệp rằng:

“Tuy LLMs hiện tại có những khả năng thần kỳ, nhưng kết quả nó đưa ra không phải lúc nào cũng chính xác. LLMs chỉ đơn thuần đưa ra từ có xác suất xuất hiện cao nhất, mà đã là xác suất thì hiếm khi tuyệt đối. Ta cần dùng nó một cách thận trọng, nếu được thì nên kiểm tra thêm một nguồn thứ ba để chắc chắn kết quả mà LLMs đưa ra”.

Trong tương lai mình sẽ viết thêm một bài về làm sao để đảm bảo kết quả đầu ra chính xác từ LLMs. Các bạn đón chờ nhé^^

P/S: Nếu có thông tin nào sai liên quan về mặt kỹ thuật, các bạn đừng ngần ngại góp ý nhé ^^

Be curious,

The Learning Enthusiast

Lưu ý: Không được sử dụng bài viết này cho mục đích thương mại hoặc truyền thông mà không có sự đồng ý bằng văn bản của tác giả

Nguồn tham khảo:

Alammar J, Maarten Grootendorst. Hands-On Large Language Models. “O’Reilly Media, Inc.”; 2024.

Mayur Naik. Jason Wei: Scaling Paradigms for Large Language Models [Internet]. YouTube. 2024 [cited 2025 May 8]. Available from: https://www.youtube.com/watch?v=yhpjpNXJDco

Hugging Face. FineWeb: decanting the web for the finest text data at scale [Internet]. Huggingface.co. 2025. Available from: https://huggingface.co/spaces/HuggingFaceFW/blogpost-fineweb-v1

IBM . AI vs. machine learning vs. deep learning vs. neural networks | IBM [Internet]. www.ibm.com. IBM; 2024. Available from: https://www.ibm.com/think/topics/ai-vs-machine-learning-vs-deep-learning-vs-neural-networks

Andrej Karpathy. Deep Dive into LLMs like ChatGPT [Internet]. YouTube. 2025 [cited 2025 Mar 13]. Available from: https://www.youtube.com/watch?v=7xTGNNLPyMI

Google. LLMs: Fine-tuning, distillation, and prompt engineering [Internet]. Google for Developers. 2024. Available from: https://developers.google.com/machine-learning/crash-course/llm/tuning

Ouyang L, Wu J, Jiang X, Almeida D, Wainwright CL, Mishkin P, et al. Training language models to follow instructions with human feedback. arXiv:220302155 [cs] [Internet]. 2022 Mar 4; Available from: https://arxiv.org/abs/2203.02155

Google Deepmind. AlphaGo [Internet]. Google DeepMind. 2024. Available from: https://deepmind.google/research/breakthroughs/alphago/

rakstreams. Lee Sedol vs AlphaGo Move 37 reactions and analysis [Internet]. YouTube. 2018 [cited 2023 Apr 13]. Available from: https://www.youtube.com/watch?v=HT-UZkiOLv8

10.

Lambert N, Castricato L, von Werra L, Havrilla A. Illustrating Reinforcement Learning from Human Feedback (RLHF) [Internet]. huggingface.co. 2022. Available from: https://huggingface.co/blog/rlhf

11.

OpenAI . Proximal Policy Optimization [Internet]. OpenAI . 2017. Available from: https://openai.com/index/openai-baselines-ppo/

12.

OpenAI. Aligning language models to follow instructions [Internet]. Openai.com. 2022. Available from: https://openai.com/index/instruction-following/

13.

Raschka S. The State of Reinforcement Learning for LLM Reasoning [Internet]. Sebastian Raschka, PhD. 2025 [cited 2025 May 10]. Available from: https://sebastianraschka.com/blog/2025/the-state-of-reinforcement-learning-for-llm-reasoning.html

14.

Conference on Language Modeling. GPQA: A Graduate-Level Google-Proof Q&A Benchmark [Internet]. YouTube. 2024 [cited 2025 May 10]. Available from: https://www.youtube.com/watch?v=ZANbujPTvOY

15.

OpenAI. Introducing OpenAI o3 and o4-mini [Internet]. Openai.com. 2025. Available from: https://openai.com/index/introducing-o3-and-o4-mini/

16.

Rein D, Hou BL, Stickland AC, Petty J, Pang RY, Dirani J, et al. GPQA: A Graduate-Level Google-Proof Q&A Benchmark [Internet]. arXiv.org. 2023. Available from: https://arxiv.org/abs/2311.12022

17.

Hylak B, Alessio swyx. o1 isn’t a chat model (and that’s the point) [Internet]. Latent.space. Latent.Space; 2025 [cited 2025 May 10]. Available from: https://www.latent.space/p/o1-skill-issue

18.

IBM. DeepSeek’s reasoning AI shows power of small models, efficiently trained [Internet]. Ibm.com. 2025. Available from: https://www.ibm.com/think/news/DeepSeek-r1-ai

19.

Stockard J, Wood TW, Coughlin C, Rasplica Khoury C. The Effectiveness of Direct Instruction Curricula: A Meta-Analysis of a Half Century of Research. Review of Educational Research. 2018 Jan 7;88(4):479–507.

20.

DeepSeek-AI. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-R1 OpenAI-o1-1217 DeepSeek-R1-32B OpenAI-o1-mini DeepSeek-V3 [Internet]. 2025. Available from: https://arxiv.org/pdf/2501.12948

21.

Ericsson KA, Lehmann AC. EXPERT AND EXCEPTIONAL PERFORMANCE: Evidence of Maximal Adaptation to Task Constraints. Annual Review of Psychology [Internet]. 1996 Feb;47(1):273–305. Available from: https://www.deepdyve.com/lp/annual-reviews/expert-and-exceptional-performance-evidence-of-maximal-adaptation-to-9kF2qFzLYk

22.

OpenAI Developer Forum. Incorrect count of “r” characters in the word "strawberry“ [Internet]. OpenAI Developer Forum. 2024. Available from: https://community.openai.com/t/incorrect-count-of-r-characters-in-the-word-strawberry/829618