Bài viết của G.S Nguyễn Văn Tuấn về chất lượng thật sự của các nhà khoa học Việt Nam.
Hôm qua, một nhóm bạn chuyền nhau thông tin vui về một số (n = 28) nhà khoa học Việt Nam hay gốc Việt Nam (như tôi chẳng hạn, n = 80) có tên trong "top 10.000 nhà khoa học hàng đầu thế giới" [1]. Tôi thử tò mò phân tích dữ liệu từ danh sách này thì phát hiện 25 trong số 28 người ở Việt Nam có tỉ lệ tự trích dẫn quá cao, và báo chí không biết vấn đề này.
Có bao nhiêu nhà khoa học trong danh sách?
Danh sách năm nay có 186,177 nhà khoa học trên thế giới. Trong số này, Việt Nam có 53 người. Nhưng trong số 53 người, 25 người là người ngoại quốc đang công tác hay có hợp đồng làm việc ở các đại học Việt Nam. Do đó, tính đúng ra, Việt Nam có 28 nhà khoa học Việt trong danh sách.
Ngoài ra, còn có 80 nhà khoa học gốc Việt ở nước ngoài. Trong số này, phân nửa (n = 40) là từ Mĩ. Số còn lại là từ Úc (12 người), Canada (8 ), Pháp (6), Anh (3), v.v. Như vậy, tính chung thì có chừng 108 [3] nhà khoa học Việt Nam hay gốc Việt Nam có tên trong danh sách 100,000 nhà khoa học được xem là đỉnh. Các bạn có thể download danh sách từ đường link dưới đây:
https://github.com/tuanvnguyen/General-datasets/tree/main (tên file: "2021 Fin VNese authors career for R.xlsx")
Trong số 108 người, chủ yếu phân bố theo 6 chuyên ngành chánh như sau:
• Công nghệ thông tin & viễn thông: 23 người
• Kĩ thuật (engineering): 21
• Enabling & Strategic Technologies: 17
• Y học lâm sàng: 12
• Vật lí và thiên văn học: 11
• Hoá học: 7
Đằng sau danh sách:
Nguyên văn tác giả viết là "100,000 top scientists" [4], hay có khi là "most-cited scientists" (tức những nhà khoa học được trích dẫn nhiều). Theo tôi thì cách định danh 'most cited' chính xác hơn là 'top', vì quả thật nhóm xếp hạng dựa vào những con số về trích dẫn (tức citation).
Chính vì dựa vào số trích dẫn nên danh sách này có cái khiếm khuyết của nó. Thông thường thì một công trình nghiên cứu sau khi công bố và được nhiều đồng nghiệp trích dẫn sau đó, thì đó là tín hiệu công trình nghiên cứu có phẩm chất cao. 'Phẩm chất' ở đây hiểu theo nghĩa công trình nghiên cứu có tính khoa học cao (như thiết kế, phân tích), ý tưởng hay, kết quả quan trọng, và do đó có tác động đến chuyên ngành. Nếu không có tác động hay tánh khoa học kém thì chẳng ai trích dẫn. Trong thực tế, rất nhiều (có thể lên đến 70%) những bài báo công bố chưa bao giờ được trích dẫn.
Nhưng số trích dẫn rất dễ bị lạm dụng, và trong thực tế đã bị lạm dụng rất nhiều. Điều này thì tôi đã nói và viết cả 10 năm nay rồi, nhưng lúc đó ít người chú ý (vì lúc đó Việt Nam chưa quan tâm đến công bố khoa học). Trong mấy năm gần đây, sự lạm dụng này trở thành một hiện tượng khi các nước đang phát triển ở Á châu, Trung Đông, và Nam Mĩ cố gắng đuổi kịp các đồng nghiệp phương Tây nên họ sáng tạo ra rất nhiều cách thức để nâng số trích dẫn. Những cách này có khi trở thành một nét văn hoá ở vài nhóm, và nó không nhứt quán với qui ước đạo đức nghiên cứu khoa học.
Tự trích dẫn
Cách để lạm dụng citation thì rất nhiều, nhưng cách phổ biến nhứt là tự mình trích dẫn bài của mình! Thông thường, tác giả có thể tự trích dẫn bài của mình để làm tiền đề cho nghiên cứu hiện hành, hoặc vì lãnh vực mà tác giả làm là tiên phong (ít ai làm), thì tự trích dẫn không có vấn đề gì. Ví dụ như công trình nghiên cứu "Vietnam Osteoporosis Study" (VOS) của chúng tôi được trích dẫn vài lần là do những bài báo lấy dữ liệu từ đó phải trích dẫn VOS, và điều này hoàn toàn hợp lí. Tuy chẳng có qui định cụ thể, nhưng đa số người trong giới khoa học cho rằng tỉ lệ tự trích dẫn có thể chấp nhận được là dưới 12%.
Thế nhưng trong thực tế, có khá nhiều nhà khoa học tự trích dẫn hơn 15%. Theo danh sách 'most-cited scientists' năm 2019 có đến 250 người với tỉ lệ tự trích dẫn cao hơn 50%. Nói cách khác, cứ 100 trích dẫn họ có được là từ ... chính họ. Theo bài báo trên Nature [5], người vô địch về tự trích dẫn là Sundarapandian Vaidyanathan (nhà khoa học máy tính từ Ấn Độ) vì ông tỉ lệ tự trích dẫn lên đến 94%!
Nhìn chung, các nước như Iran, Ấn Độ (và nay là Việt Nam) có tỉ lệ tự trích dẫn cao hơn thế giới
Còn tình hình Việt Nam thì sao? Trong số 28 người có tên trong danh sách năm 2021, thì 25 (gần 90%) người có tỉ lệ tự trích dẫn cao hơn 12%. Tỉ lệ tự trích dẫn trung bình của các nhà khoa học từ Việt Nam là 25.6%, cao gấp hơn 2 lần so với tỉ lệ ở người gốc Việt Nam ở Mĩ (13.6%). Có vài người có tỉ lệ tự trích dẫn trên 40%.
Ép trích dẫn
Chiêu trò này được gọi là coercive citation. Nó thường xảy ra ở những kẻ có quyền thế trong thế giới xuất bản khoa học. Chẳng hạn như các chuyên gia bình duyệt vì muốn nâng cao số trích dẫn, khi bình duyệt bài báo của tác giả khác, họ yêu cầu hay gợi ý tác giả phải trích dẫn bài báo của họ. Tác giả vì không muốn làm phật lòng chuyên gia bình duyệt nên đành phải trích dẫn. Có khi bài báo được trích dẫn chẳng liên quan gì đến chủ đề bài báo của tác giả. Đây là chiêu trò khá phổ biến, đặc biệt là các chuyên gia từ các nước đang phát triển.
Một chiêu trò khác là dùng vị trí biên tập để nâng cao số trích dẫn cho tập san. Chẳng hạn như các ban biên tập ra yêu cầu hay gợi ý tác giả phải trích dẫn những bài báo được công bố trên tập san của họ. Cách làm này nâng cao chỉ số trích dẫn cho tập san và tăng chỉ số gọi là 'Impact Factor' (IF). Đây là một cách thức gian lận, và rất phổ biến ở những tập san mới từ các nước đang phát triển. Có những tập san mới ra đời chưa đầy 5 năm nhưng trở thành tập san Q1 (top 25% trong ngành) trong khi các tập san ra đời của 50 năm có khi chưa đạt vị trí đó.
Citation cartel -- tập đoàn trích dẫn
Một hình thức khác để nâng số lần trích dẫn là dùng tập đoàn, giống như tập đoàn buôn bán á phiện, nên mới có tên là 'citation cartel'. Theo chiêu này, các tác giả liên kết với nhau thành một mạng, và họ trích dẫn lẫn nhau. Anh trích dẫn bài của tôi; tôi trả nghĩa bằng cách trích dẫn bài của anh; đôi bên cùng có lợi.
Hiện tượng 'Tập đoàn trích dẫn' này đã diễn ra hơn 10 năm qua, nhưng chỉ phổ biến trong thời gian gần đây khi các nhà phân tích phát hiện. Cách làm này được xem như là một mafia trong khoa học.
Salami publication -- tăng số bài công bố
Một hiện tượng khác có liên quan đến tăng trích dẫn là tăng số bài báo khoa học. Họ hi vọng rằng số bài báo càng nhiều thì số trích dẫn trước sau gì thì cũng gia tăng. Những người này không quan tâm đến chất lượng. Do đó, con số trích dẫn nhiều khi không phản ảnh chất lượng nghiên cứu khoa học.
Trong nghiên cứu khoa học, có khái niệm 'least publishable unit' (LPU) để xác định cái gì có thể công bố và cái gì không nên công bố. Nói một cách nôm na, LPU là lượng thông tin tối thiểu cần thiết cho một bài báo khoa học.
Các nhà khoa học nghiêm chỉnh và được huấn luyện bài bản không công bố những nghiên cứu mà họ xem là chưa đủ thông tin. Họ chờ đến khi nghiên cứu xong hay thí nghiệm đã hoàn tất rồi mới công bố một bài đầy đủ. Do đó, những người này thuờng công bố ít bài báo, nhưng bài nào cũng có tầm vóc quan trọng của nó. Người trong ngành chỉ đọc là biết tính công phu và qui mô ra sao. Những công trình này thường chỉ công bố trên các tập san lớn trong chuyên ngành hay trong khoa học.
Nhưng ngày nay, có những người (không biết nên gọi là 'nhà khoa học') không hiểu gì về LPU, hay hiểu chút chút, và lạm dụng công bố khoa học. Họ có xu hướng công bố những bài báo mà thông tin rất ít, hay những bài báo mà nói theo cách nói dân dã là 'không mợ thì chợ vẫn đông' (ý nói chẳng có tác động gì đáng kể). Tôi đã từng thấy những người như thế ở Úc này. Có người chưa xong luận án tiến sĩ nhưng trong vòng 3 năm họ đã công bố hơn 30 bài báo! Không cần nói ra, 30 bài đó không bằng 1 bài nghiêm chỉnh.
Có người thì áp dụng chiến thuật 'salami publication'. Salami là một loại nem chua cay xônh khói của Ý được gói thành một thỏi như chả lụa của chúng ta. Người ta hay cắt thành từng khoanh nhỏ để ăn với bánh mì. Một thỏi salami có thể cho ra 20-30 khoanh nhỏ. Chiến thuật công bố kiểu salami có nghĩa là nhà khoa học cắt một nghiên cứu thành nhiều mảng nhỏ nhỏ, và mỗi mảng là một bài báo.
Có những người quá tuyệt vọng để có nhiều bài báo, nên họ công bố hàng chục bài báo nhỏ (kiểu tiểu đường và hút thuốc lá, tiểu đường và bia rượu, tiểu đường và vận động thể lực, tiểu đường và gen A, tiểu đường và gen B, v.v.) thay vì theo thông lệ chỉ 1 bài báo là đủ.
Tuy nhiên, cần phân biệt với những trường hợp nghiên cứu lớn, và người ta có thể công bố hàng trăm bài báo khác nhau. Mỗi bài báo giải quyết một giả thuyết khác nhau và phương pháp khác nhau. Công bố trong trường hợp đó là hợp lí, không phải là salami publication.
"Research parasite"
Lại có người không trực tiếp làm nghiên cứu, nhưng công bố rất nhiều nhờ vào dữ liệu của người khác. Họ không có ý tưởng gì mới, họ chỉ thu thập những bài báo đã công bố về một chủ đề trong quá khứ, rồi làm dùng phương pháp thống kê tổng hợp thành một bài báo khoa học và công bố dưới dạng gọi là 'meta-analysis'. Có những người công bố hàng trăm bài báo loại này!
Cách làm này phổ biến đến độ người ta (ở China) lập ra công ti để bán bài báo. Họ chuyên làm những meta-analysis, viết thành bản thảo, và bán bản thảo cho những người có nhu cầu. Một bài như thế có giá từ 2000 USD đến 5000 USD, và công ti bảo đảm chỉ lấy phí khi bài báo đã được công bố.
Thành ra, meta-analysis đã bị lạm dụng và lợi dụng quá nhiều. Thoạt đầu, meta-analysis được xem là một 'bài báo khoa học', nhưng sau này nó bị lạm dụng quá nên các tập san không xem đó là một nghiên cứu. Trong khoa học, người ta gọi hiện tượng này là 'research parasite'.
Tuy nhiên, cần phân biệt những bài báo tuy dùng dữ liệu của người khác, nhưng tác giả có ý tưởng mới hay cách tiếp cận mới hay phương pháp mới, thì vẫn xem là một bài báo khoa học. Có thể xem đây là một dạng 'research parasite' nhưng là dạng đáng kính nể, không giống như loại chỉ chuyên ăn bám dữ liệu người khác mà không có ý tưởng mới.
Tóm lại
Những dữ liệu về trắc lượng khoa học năm nay (2021) cho thấy Việt Nam đã tăng số lượng nhà khoa học có tên trong danh sách những người được trích dẫn nhiều trên thế giới. Tuy nhiên, tỉ lệ tự trích dẫn của các nhà khoa học trong danh sách này (26%) cao hơn gấp 2 lần so với tỉ lệ có thể chấp nhận được (12%). Tự trích dẫn quá cao cũng giống như chứng ái kỉ (narcissism), tức tự thấy mình đẹp, và điều này cần phải tránh trong khoa học nghiêm chỉnh.
Bản trên blog:
________________________
[1] https://dantri.com.vn/.../5-nha-khoa-hoc-viet-nam-vao-top...
[2] https://elsevier.digitalcommonsdata.com/data.../btchxktzyw/3
[3] Tôi viết 'chừng 108' là vì chắc không đủ do chỉ đếm họ mà chưa tính đến những người dùng tên (thay vì họ) trong bài báo
[4] https://journals.plos.org/plosbiology/articleid=10.1371/journal.pbio.3000384[5] https://www.nature.com/articles/d41586-019-02479-7[6] https://github.com/tuanvnguyen/General-datasets/tree/main