Nếu muốn hiểu về AI, thì đây những thứ bạn cần học
Mục tiêu của lộ trình này là giúp bạn phân biệt rõ ba khái niệm thường bị nhầm lẫn: "Đoán mò ngẫu nhiên", "Ước tính phân phối xác suất"...
Mục tiêu của lộ trình này là giúp bạn phân biệt rõ ba khái niệm thường bị nhầm lẫn: "Đoán mò ngẫu nhiên", "Ước tính phân phối xác suất" và "Tạo văn bản".
Tầm nhìn cốt lõi
Một chatbot không "có trực giác" hay "đoán mò". Nó thực hiện một đồ thị tính toán để tạo ra phân phối xác suất cho từ tiếp theo, sau đó thuật toán giải mã (decoding) sẽ quyết định từ nào được xuất ra.
Các giai đoạn học tập
Giai đoạn 0: Nền tảng Toán học (Xác suất & Thông tin)
Mục tiêu: Hiểu xác suất là "logic mở rộng" và các khái niệm entropy không phải là "sự hỗn loạn" mà là thước đo sự bất ngờ.
Tài liệu trọng tâm: Probability Theory: The Logic of Science (Jaynes) và Information Theory (Shannon).
Điểm mấu chốt: Xác suất là cách mã hóa "mức độ hợp lý" khi có sự không chắc chắn.
Giai đoạn 1: Mô hình ngôn ngữ cổ điển
Mục tiêu: Nhận ra việc "dự đoán từ tiếp theo" là một bài toán thống kê lâu đời.
Khái niệm: Mô hình N-gram, kỹ thuật làm mượt (smoothing) để tránh xác suất bằng 0.
Điểm mấu chốt: Không có "trực giác", chỉ có tối ưu hóa xác suất dựa trên dữ liệu.
Giai đoạn 2: Mô hình ngôn ngữ Neural (Từ đếm số đến biểu diễn)
Mục tiêu: Hiểu về "học biểu diễn" (representation learning).
Khái niệm: Word Embeddings (từ ngữ trở thành các điểm trong không gian liên tục), Word2Vec.
Điểm mấu chốt: Học không phải là ghi nhớ từng chữ, mà là nén phân phối dữ liệu vào các tham số.
Giai đoạn 3: Cơ chế Chú ý (Attention) & Transformer
Mục tiêu: Thấy rõ Attention là một phép toán (tra cứu có trọng số), không phải "sự tập trung tinh thần".
Tài liệu: Attention Is All You Need (Vaswani et al.).
Điểm mấu chốt: Transformer là một chuỗi các phép toán ma trận (projections, FFN, layer norm).
Giai đoạn 4: Tiền huấn luyện (Pre-training)
Mục tiêu: Phân biệt rõ "Huấn luyện" (có phản hồi/cập nhật trọng số) và "Suy luận" (tính toán với trọng số cố định).
Khái niệm: GPT-1, GPT-2 và các định luật tỷ lệ (Scaling Laws).
Giai đoạn 5: Sự trỗi dậy (Emergence) & Học trong ngữ cảnh (In-context Learning)
Mục tiêu: Giải thích tại sao AI "có vẻ như hiểu bài" mà không cần giả định nó có ý thức.
Điểm mấu chốt: Khả năng mới trỗi dậy từ quy mô dữ liệu và tính toán, không phải phép màu.
Giai đoạn 6: Quá trình Tạo (Generation) & Giải mã (Decoding)
Mục tiêu: Đập tan lầm tưởng "AI đoán mò".
Khái niệm: Nucleus sampling, Nhiệt độ (Temperature), Greedy decoding.
Điểm mấu chốt: Cùng một mô hình nhưng thay đổi cách giải mã sẽ cho ra kết quả khác biệt hoàn toàn.
Giai đoạn 7: Cơ chế Suy luận (Mở "hộp đen")
Mục tiêu: Xem các "mạch" (circuits) và mẫu chú ý là các cơ chế tính toán có thể truy vết.
Điểm mấu chốt: Các hành vi của LLM là hệ quả của cấu trúc tính toán (KV-cache, độ ổn định số học), không phải do "ý định".
Giai đoạn 8 - 10: Động lực huấn luyện & Lý thuyết nền tảng
Nội dung: Tìm hiểu về cảnh quan tổn thất (loss landscape), khả năng tổng quát hóa và tính phổ quát của các bộ dự đoán từ tiếp theo.
Giai đoạn 11: Căn chỉnh (Alignment) & RLHF
Mục tiêu: Hiểu rằng chatbot khác với mô hình ngôn ngữ thô nhờ quá trình căn chỉnh, không phải vì nó "có tính cách".
Khái niệm: Instruction tuning (FLAN), RLHF (InstructGPT).
Các luận điểm dựa trên bằng chứng (Để xóa bỏ ảo tưởng)
"Tính toán phân phối" khác với "Đoán mò": Việc thay đổi kỹ thuật giải mã làm thay đổi đầu ra chứng minh rằng mô hình tính toán một phân phối xác suất có cấu trúc.
Huấn luyện khác với Suy luận: Huấn luyện dựa trên phản hồi để cập nhật trọng số; suy luận chỉ là tính toán lan truyền xuôi với trọng số tĩnh.
Sự trỗi dậy không phải là phép thuật: Các khả năng mới xuất hiện khi đạt đến ngưỡng quy mô nhất định và có thể phân tích một cách máy móc.
Ảo giác (Hallucination) có tính cấu trúc: Ảo giác có nguyên nhân từ dữ liệu/kiến trúc và có thể tái lập (với $temp = 0$), không phải là sự ngẫu nhiên vô nghĩa.
Gợi ý lộ trình học nhanh (1-2 tháng)
Transformer: Vaswani (2017).
GPT-3 & Few-shot: Brown (2020).
Decoding: Holtzman (2020) & Wiher (2022).
RLHF: Ouyang (2022).
Link PDF:

Khoa học - Công nghệ
/khoa-hoc-cong-nghe
Bài viết nổi bật khác
- Hot nhất
- Mới nhất
