Nhờ một người bạn làm kiến trúc mà tôi biết đến một cụm từ: Wabi-sabi. Thực tế thì tôi thấy say mê với việc nhìn ngắm phòng khách, phòng ngủ, phòng bếp, và đặc biệt là bàn làm việc được sắp xếp gọn gàng theo phong cách này. Và thế là một cuộc cách mạng ngắn nổ ra trên bàn làm việc của tôi để nó "wabi-sabi" hơn. Ngoài các dụng cụ thường có trên bàn của một người làm việc văn phòng bình thường, thì researcher chúng tôi có một lô một lốc paper trên bàn. Sau 2 năm ngồi ở lab thì số paper được in ra mà tôi tích trữ trên bàn đã cao được đến đầu gối chân. Thường thì chúng tôi chỉ in các paper mà mình thật sự hứng thú và đọc online các paper hàng ngày trực tiếp trên máy tính và iPad. Thế rồi ký ức về lần đầu đọc paper của tôi ùa về: nó thực sự tồi tệ, vì khi đó tiếng anh của tôi rất yếu, đọc paper lại toàn là các từ khoá mới toanh. Về cơ bản là đọc đến chục lần cũng không hiểu. Thế là ý định viết về việc đọc paper nảy ra trong đầu. Vì vậy, bài viết tuần này rất ít yếu tố kỹ thuật thuần tuý nhưng là về một soft skill có thể coi là hard skill trong việc làm việc với AI ở thời điểm hiện tại. (Các kiến thức cao siêu của ChatGPT 4 hay là DeepSeek thật ra đều được viết rất nhiều trong các technical report của họ theo phong cách scientific paper và công khai trên các nên tảng truy cập dễ dàng. Nhưng rất nhiều người phải trả tiền đi học để thực tế là nghe người ta nói lại về những điều này.)

Vì sao nên đọc báo?

Hình 1. Đọc paper là một công việc hàng ngày của Researcher, nhưng ai cũng nên đọc các nghiên cứu mới về chủ đề liên quan đến chính mình. (hình trích từ phim The Big Bang Theory)
Hình 1. Đọc paper là một công việc hàng ngày của Researcher, nhưng ai cũng nên đọc các nghiên cứu mới về chủ đề liên quan đến chính mình. (hình trích từ phim The Big Bang Theory)
Trong tuần vừa rồi, có một vụ lùm xùm gọi tên kẹo rau Kera làm mình khá ngạc nhiên về độ lớn của nó. Có cảm giác như những KOL, KOC đang nhờ hiệu ứng hào quang mà đưa ra các kết luận mang tính "khoa học" mà người ta rất tin tưởng. Thay vì tin vào những nhà khoa học có uy tín khác. Thậm chí, mình tin rằng nếu làm một cuộc khảo sát các bạn trẻ (lớp 12 chẳng hạn) kể tên 3 vị giáo sư còn sống mà các bạn ấy biết thì tỉ lệ rất cao là không thể trả lời được. Nguyên nhân thì có lẽ đến từ rất nhiều vấn đề hiện đại nhưng một phần rất lớn là thiếu khả năng làm nghiên cứu tự thân.
Tự mình làm nghiên cứu không phải là phải làm cái gì đó đao to búa lớn nhưng có thể làm từ việc rất nhỏ thôi. Chẳng hạn như sau một tuần tết bạn ăn rất nhiều đồ ngọt, đến hôm nay đi học trở lại và không ăn nhiều đường như thế nữa thì đột nhiên cơ thể uể oải, dễ mất tập trung, mood swing thì khó lường. Đây là vấn đề liên quan trực tiếp đến cơ thể của bạn, nó rất thường với bạn - "hấp thụ đường". Tại sao cơ thể của bạn bị như thế? Người khác có bị như thế chăng? Có bao nhiêu loại đường? Loại đường nào thì sẽ bớt triệu chứng như trên? etc. Có một tỉ câu hỏi nếu bạn có trí "TÒ MÒ".
Tự mình làm nghiên cứu không nhất thiết cần những thiết bị khoa học công nghệ tiến tiến như là máy gia tốc hạt. Một chiếc điện thoại và internet là đủ rồi, hoặc nếu bạn có may mắn ở gần một cái thư viện đủ tốt thì sẽ có sách để đọc luôn mà không cần internet. Và bạn có thể bắt đầu ngay với những bài blog ngắn như thế này đến từ Havard Medical School. Tuy nhiên, đây chỉ là các bài blog rất ngắn, rất khái quát, và NGAY CẢ KHI NÓ ĐƯỢC NÓI RA BỞI MỘT TIẾN SĨ/GIÁO SƯ, ĐỘ TIN CẬY CỦA NÓ VẪN CẦN ĐƯỢC ĐẶT RA PHÂN TÍCH. Và vì thế, chúng ta cần phải gom góp thông tin "khoa học", tổng hợp một cách "khoa học" để đi đến "tri thức đúng". Và hãy luôn có một câu hỏi trong đầu với tất cả các kết luận cao siêu: "Điều này đúng không?".
Trên thực tế thì chúng ta có một khái niệm tên là "Chu kỳ bán rã của kiến thức" (The half-life of knowledge). Đây là khái niệm để chỉ thời gian cần thiết để một nữa lượng kiến thức bị sai. Ở một số ngành như toán học thì chu kỳ này diễn ra khá chậm, nhưng ở các ngành như computer science thì lại khá nhanh. Điều này cũng yêu cầu việc tiếp thu thông tin khoa học hiện đại một cách nhanh chóng. Đọc sách không thực sự là một cách hay để tiếp thu kiến thức mới của ngành. Những cuốn sách khoa học về ngành cụ thể thường được chắp bút, nung nấu trong một khoảng thời gian khá lâu để cung cấp kiến thức "nền tảng". Khi đã có kiến thức nền và muốn tiếp cận với các thông tin khoa học ngay tại thời điểm hiện tại thì chỉ có đọc các nghiên cứu được công bố gần nhất mới có thể đáp ứng.
Vì vậy, đọc paper hay journal là các kĩ năng thực sự cần thiết cho mọi người, đặc biệt là cho các researcher (dù là mới tập sự). Trong bài viết này, tôi sẽ cố gắng trình bày các điểm mấu chốt mà tôi đã học ra được từ quá trình đau khổ của mình một cách mạch lạc để người đọc có thể bắt đầu đọc tiếp cận với các paper. Tôi hi vọng là bài viết có thể làm một tham khảo cho các nhà nghiên cứu ở mọi lĩnh vực, tuy nhiên không thể tránh được các thiên kiến mà tôi tích góp khi làm việc trong ngành của mình là AI.

Báo có thể "báo"

Mặc dù trong tiếng Việt, chúng tôi vẫn gọi các scientific paper hoặc scientific journal là các bài báo, tạp chí. Song, mong độc giả không tính nó vào phạm trù các bài báo (news) trên mạng, trên báo thường nhật. Một bài báo khoa học "bảnh" và "chất" thường sẽ có đủ các phần sau đây: Abstract, Introduction, Related Works, Methods, Experiences, Analysis, Conclusion, và References. Tuy nhiên, các bài báo "ra vẻ" cũng sẽ có các phần tương tự vì "không có thứ gì giống thật cho bằng thứ giả". Cho nên ở cái thời buổi mà báo khoa học "thượng vàng hạ cám" như thế này, các "nhà nghiên cứu mới vào nghề" rất dễ mắc kẹt trong các bài báo "dởm" để vừa mất thời gian và thậm chí là có cái nhìn sai lệch về tiến trình của ngành. "Báo có thể báo".
Cách tốt nhất để tìm báo tốt để đọc là nhờ lời khuyên của các chuyên gia trong ngành. Thật sự thì các anh chị mình biết là giảng viên của một vài đại học rất muốn được nghe sinh viên hỏi về các công việc nghiên cứu. Nhưng vì phong cách học ở cấp 3 mà hầu hết các bạn sinh viên hiện tại muốn có được phương thức "trắc nghiệm" thay vì tìm hiệu cặn kẽ. Và nếu bạn đọc được bài viết này, hãy mạnh dạn liên hệ với các anh chị làm nghiên cứu, hoặc chính các giảng viên của các bạn để hỏi về "những bài báo" nên đọc để tránh bị "báo". Mình cũng biết được những "thầy/cô" chia sẻ báo lên tường nhà liên tục, nhưng chẳng mấy khi đọc. Nên mình nghĩ, quá trình chọn người để hỏi cũng có một phần nhân phẩm.
Ngoài cách tin tưởng vào con người thì các bạn có thể tìm hiểu các nghiên cứu tốt ở những nơi cực kỳ uy tín như Nature cho khoa học nói chung (Ví dụ như Nature Medical) hoặc là IEEE cho ngành điện nói riêng (AI thực tế là nhánh của computer science, mà computer science có thể coi là con cái của ngành điện). Ngoài các journal uy tín, thì nếu đặc thù ngành của các bạn quá nhanh như ngành Computer Science hiện tại thì việc chọn đọc paper từ các hội nghị, công ty lớn sẽ tốt hơn cho quá trình nghiên cứu: ICML, NeurIPS, ICLR, ICASSP, SIGGRAPH, CVPR, ICCV, InterSpeech, ACL, etc. hoặc như research.facebook.com etc. Hầu hết papers ở các hội nghị này đều được công bố mở (open access). Vì thế việc lấy paper ở đây là an toàn hơn cho bộ não của bạn vì chúng đã được sàng lọc và chấp nhận bởi cộng đồng khoa học thông qua quá trình peer-review.
Tuy nhiên, các nghiên cứu sau khi được publish đã quá muộn, vì dụ một số journal mất một năm đến 6 tháng để duyệt bài, đối với conference thì mất khoảng 2-4 tháng để duyệt bài. Thì thực tế, đến lúc mình tiếp cận được các bài báo đó thì chúng cũng đã quá muộn rồi (đặc biệt là ngành AI hiện tại). Vì thế, khi các bạn đã đủ "trường thành" hãy sẵn sàng sàng lọc tất cả các "thượng vàng hạ cám" và tìm đến một nơi mà hầu hết các nhà khoa học sẽ publish bài báo của họ sớm nhất có thể: ArXiv hoặc Google Scholar và tìm kiếm cụm từ khoá của đề tài các bạn cần nghiên cứu.
Hình 2. Trang chủ ArXiv.
Hình 2. Trang chủ ArXiv.
Hình 3. Google Scholar khi search cụm từ "sugar with brain".
Hình 3. Google Scholar khi search cụm từ "sugar with brain".
Để đọc báo mà bớt bị báo thì tôi có một cách khá đơn giản và trực tiếp đó là tìm hiểu về tác giả của bài báo. Đối với các bài báo khoa học, có hai tác giả chính mà người đọc cần chú ý: first author (người đứng đầu tiên trong list tác giả) và corresponding author (người đứng cuối cùng trong list tác giả nếu không có chú thích gì thêm). Đối với first author, đây là người chịu trách nhiệm trực tiếp và lớn nhất cho nghiên cứu. Vì thế, nếu first author là một người uy tín thì tỉ lệ cao đây là một bài báo không tệ. Tuy nhiên, có rất nhiều bài báo mà first author là lần đầu tiên, hoặc thứ 2 chẳng hạn ra báo, họ chưa có đủ uy tín trên cộng đồng nghiên cứu cho lắm. Trong trường hợp này, chúng ta sẽ quan sát đến corresponding author. Đây thường là giáo sư trưởng của nghiên cứu, hoặc trưởng phòng nghiên cứu, etc. là người chịu trách nhiệm kiểm duyệt bài báo đó trước khi công bố đến cộng đồng khoa học để đánh giá. Vị corresponding author này thường là dẫn dắt first author nên có thể đánh giá được khá nhiều về bài báo thông qua corresponding autho nếu first author chưa có quá nhiều uy tín.

Đọc như thế nào?

Đọc paper không phải là chuyện dễ, nhưng với một chút mẹo, một chút hài hước, và một tách cà phê (hoặc trà, tùy bạn), bạn sẽ thấy nó bớt đáng sợ hơn. Hãy cùng tôi khám phá cách tiếp cận paper sao cho hiệu quả, nơi tìm chúng, và làm sao để phân biệt "hạt vàng" với "cát bụi" trong đống tài liệu ngập mặt này nhé!
Có một ưu tiên hàng đầu khi đọc paper cho người người mới bắt đầu nghiên cứu là thực sự hiểu được phần Introduction của bài báo. Đối với người mới, phần này sẽ cung cấp cho bạn background, recent works, và gap (tức phần yếu mà paper này sẽ giải quyết). Tuy nhiên, khi bạn đã đủ rành về ngành rồi và có thể nhìn vào tên các references là biết bài báo được nhắc đến làm cái gì rồi. Thì bạn không hẳn phải đọc hết Introduction nữa. Thực tế thì chỉ cần đọc phần Method để lấy ý tưởng thôi và xem liệu kết quả có tốt hay không? Và nếu nó thực sự làm bạn thấy hấp dẫn thì đã đến lúc đọc nó thật cẩn thận, từng câu từng chữ!!!
Đối với bất cứ một câu, một chữ có tính khẳng đỉnh, phủ định trong một paper, luôn phải đặt câu hỏi: Why? Và nếu bạn đủ may mắn để phát hiện ra lỗi sai của một nghiên cứu, hãy chứng minh nó và bạn sẽ có một bài báo khoa học cho riêng mình.
Hình 4. Why, Why, Why???
Hình 4. Why, Why, Why???

Bước 1: Đừng Đọc Hết – Hãy "Scan" Như Dân Chuyên

Đầu tiên, hãy bỏ ngay cái suy nghĩ "phải đọc từ đầu đến cuối" đi. Paper Deep Learning không phải tiểu thuyết của Nguyễn Nhật Ánh mà bạn cần thấm từng chữ. Một paper điển hình có cấu trúc: Abstract, Introduction, Related Work, Method, Experiment, Conclusion. Nhưng bạn không cần đi theo thứ tự đó đâu.
Abstract: Đây là "trailer phim". Đọc để biết paper nói về cái gì, có đáng để bạn bỏ thời gian không. Nếu thấy từ khóa như "state-of-the-art" hay "outperform", cứ tạm tin là nó ngon, nhưng đừng vội mê. Conclusion: Coi như đoạn "spoiler" – đọc để biết họ đạt được gì. Nếu kết quả không ấn tượng, bạn có thể dừng luôn. Figures và Tables: Đây là "highlight" của paper. Nhìn vào accuracy, loss curve, hay biểu đồ so sánh với đối thủ để đoán xem họ có đang "chém gió" không. Method: Chỉ đọc kỹ khi bạn cần code lại hoặc hiểu sâu. Còn không, cứ lướt qua để nắm ý chính. Trong trường hợp cần code lại, thường thì tôi sẽ in báo ra và viết chú thích rất kĩ từng câu chữ để chắc chắn mình code đúng ý của tác giả.
Mẹo: Nếu bạn thấy paper nào viết kiểu "dài dòng văn tự" mà không có hình minh họa, coi chừng – có khi tác giả đang cố che giấu cái gì đó! Trình tự đọc của tôi khi bắt đầu một hướng nghiên cứu mới: Đọc thật nhiều báo có thể với trình tự như sau: Introduction -> Method -> Figures và Tables
Trình tự đọc của tôi khi tìm ý tưởng để làm nghiên cứu: Đọc thật nhiêu báo có thể với trình tự như sau: Abstract -> Đoạn văn cuối cùng của Introduction -> Tables + Figures -> Methods -> Experiences -> Analysis.

Bước 2: Nguồn Lấy Paper Ở Đâu?

Paper không mọc trên cây, nhưng may mắn là thời đại 4.0 giúp ta dễ dàng "hái" chúng hơn. Dưới đây là vài "mỏ vàng" bạn nên bookmark ngay:
ArXiv: "Chợ trời" của paper AI. Miễn phí, cập nhật nhanh, nhưng hơi hỗn loạn – từ thiên tài đến "thảm họa" đều có. Google Scholar: Công cụ tìm kiếm "đỉnh của chóp". Gõ từ khóa, lọc theo năm, và bạn sẽ thấy cả đống paper liên quan. Hội nghị xịn: Các hội nghị như NeurIPS, ICML, ICLR, CVPR là nơi paper chất lượng cao thường xuất hiện. Đọc paper từ đây giống như ăn buffet nhà hàng 5 sao – không phải món nào cũng hợp khẩu vị, nhưng ít ra là đáng tiền (hoặc đáng thời gian). Tạp chí: IEEE Transactions, Journal of Machine Learning Research (JMLR) là những nơi paper được "chỉnh chu" hơn, nhưng thường khô khan và chậm hơn hội nghị. Big Tech: Các ông lớn như Google Research, DeepMind, Meta AI, NVIDIA thường tung ra paper kèm code luôn. Đọc mấy cái này yên tâm hơn vì họ có tiền, có đội ngũ, và thường không thích "bốc phét" để mất uy tín.

Bước 3: Phân Biệt Paper "Xịn" Với Paper "Xạo"

Không phải paper nào cũng đáng để bạn bỏ công sức. Thế giới Deep Learning đầy rẫy những "ngôi sao băng" – sáng một lúc rồi vụt tắt. Vậy làm sao để nhận diện?
Ranking Hội Nghị/Tạp chí: Paper từ NeurIPS, ICML, AAAI thường có chất lượng cao vì quá trình review khắt khe. Còn mấy hội nghị nhỏ lẻ, ít tên tuổi thì cẩn thận – có khi là "hội nghị ma" do mấy tay nghiệp dư tự tổ chức để kiếm CV. Tác giả: Nếu thấy tên Yann LeCun, Geoffrey Hinton, hay Andrew Ng, cứ yên tâm mà đọc (dù đôi khi họ cũng "hợp tác" với người khác để "đỡ mệt"). Check xem tác giả có lịch sử publish ở đâu, có bị "bóc phốt" bao giờ chưa. Big Tech Factor: Paper từ Google hay DeepMind thường đáng tin vì họ có tài nguyên thực nghiệm khủng. Nhưng đừng mê quá – đôi khi họ chỉ khoe mô hình mà bạn không bao giờ chạy được trên cái laptop cùi nhà mình. Code đi kèm: Paper ngon thường có GitHub link. Nếu không có code, không có số liệu rõ ràng, khả năng cao là "hàng fake".
Ví dụ: Một paper tự xưng "đánh bại Transformer" nhưng không có code, không so sánh với baseline tử tế, thì 80% là "chém gió". Đừng để bị lừa bởi mấy tiêu đề giật tít kiểu "The Next Big Thing in AI".

Bước 4: Đọc Sao Cho Vui?

Đọc paper mà mặt nhăn mày nhó thì chẳng khác gì đi học thêm môn Toán hồi cấp 3. Hãy làm nó vui hơn:
Đọc cùng bạn: Rủ một người bạn cùng ngành, vừa đọc vừa bình luận. "Trời ơi, cái loss function này nhìn như công thức nấu phở!" – thế là cười cả ngày. Tự thưởng: Đọc xong một section khó nhằn, tự cho phép ăn một miếng bánh hay xem một tập phim. Học mà không vui thì học làm gì? Ghi chú hài hước: Thay vì ghi "mô hình này phức tạp", thử ghi "mô hình này chắc sinh ra để hành người đọc". Đọc lại sẽ thấy đời bớt khổ.

Lời Kết: Bạn Không Cô Đơn

Đọc paper Deep Learning là một hành trình dài, và không ai giỏi ngay từ đầu. Mình từng mất 3 ngày để hiểu một paper 5 trang, chỉ để phát hiện nó chẳng liên quan gì đến dự án đang làm. Nhưng càng đọc, bạn sẽ càng quen. Hãy bắt đầu với những paper ngắn, từ hội nghị uy tín, hoặc của big tech, rồi từ từ "lên level".
Còn bây giờ, cầm cốc cà phê lên, mở ArXiv, và bắt đầu "cuộc chiến" nào!
Tiếng Anh là công cụ cực kỳ quan trọng để đọc paper. Nhưng đừng sa đà vào việc học tiếng anh quá nhiều. Việc chính của bạn là nghiên cứu!