Làm sao để đọc kết quả nghiên cứu khoa học? (P. 1)
Giải ảo 1: Phân biệt tương quan và nhân quả
Xã hội loài người từ xưa đến nay vẫn luôn bị chia rẽ bởi các hệ thống tư tưởng và niềm tin khác nhau; Nhưng ở mỗi thời kỳ và mỗi cộng đồng sẽ lại có một luồng tư tưởng đơn nhất nổi bật hẳn lên, mang vai trò thống trị để cung cấp cho mọi thành viên sự định hướng trong tư duy và hành động, cũng là đầu mối kết nối, chất keo kết dính và là công cụ duy trì sự ổn định.
Ở phương Đông, Nho Giáo đã nổi lên và thống trị xã hội Trung Hoa thời hậu kỳ cổ đại, chấm dứt giai đoạn Xuân Thu Chiến Quốc loạn lạc mà được sử sách miêu tả là "tôi giết vua, con giết cha, em giết anh, bạn bè lấn át nhau"; từ đó lan ra khắp Đông Á tạo nên khối Đồng Văn Hoa Hạ hùng mạnh. Cùng thời gian đó ở Phương Tây là sự thành công rực rỡ của nền văn minh Hy-La, mà tư tưởng thống trị là thần thoại Hy Lạp cùng sự nhen nhóm của chủ nghĩa duy lý. Còn ở Việt Nam thì truyền thuyết về Âu Cơ - Lạc Long Quân và nguồn gốc con rồng cháu tiên đã giúp những bộ lạc sinh sống rời rạc ở phía nam sông Trường Giang tụ họp lại với nhau, hình thành nên nhà nước sơ khai Xích Quỷ - thủy tổ của chúng ta.
Đến thời đại ngày nay, người ta miêu tả như một thời kỳ siêu chia rẽ, được thúc đẩy bởi sự phổ biến của internet - khiến những cá nhân với những tư tưởng kỳ quái nhất cũng có thể tìm thấy đồng đội của mình trong một góc khuất đâu đó trên mạng xã hội, và có thể nuôi dưỡng niềm tin hoàn toàn tách biệt với những luồng tư tưởng chủ lưu của thế giới. Tuy nhiên, một góc nhìn ngược lại cũng hoàn toàn hợp lý, đặc biệt là khi bằng chứng của nó hiện ra là rõ ràng và không thể chối cãi.
Hệ hình nhận thức luận của khoa học thực nghiệm phủ bóng bao trùm tinh thần thời đại. Những nền văn hóa khác nhau có thể bất đồng về quan điểm tôn giáo và nhân quyền, nhưng không thể không đồng ý với nhau về tầm quan trọng của sự thực chứng. Ngay cả các tổ chức tôn giáo - hệ thống thế giới quan được cho là hoàn toàn trái ngược với quan điểm duy vật của khoa học - cũng tìm mọi bằng chứng thực tế để chứng minh cho sự tồn tại của vị chúa của mình. Các hội nhóm thuyết âm mưu tách biệt với phần còn lại của xã hội cũng sử dụng các hình ảnh và số liệu như một phương thức để củng cố niềm tin của mình và bác bỏ những quan điểm trái ngược. Chưa bao giờ trong lịch sử, nhân loại lại có thể đồng lòng như vậy. Thậm chí, khoa học, dữ liệu thực chứng và số liệu còn được đẩy xa đến mức mà dường như trở thành công cụ đáng tin duy nhất để đạt tới sự thật. Mặc dù chắc chắn rằng quan điểm này là quá cực đoan để có thể là đúng đắn, chúng ta không thể nào chống lại được tinh thần thời đại. Nếu có bất kỳ khẩu quyết nào cho thời đại này thì đó hẳn phải là: “Không có số liệu thì tốt nhất đừng đưa ra bất kỳ quan điểm nào cả”.
Trong bối cảnh như vậy, việc lạm dụng và sử dụng sai các kết quả nghiên cứu khoa học và số liệu thống kê cũng trở nên hết sức phổ biến. Bản thân tôi là người viết khá nhiều, tôi có thể cảm thấy một áp lực rất hữu hình đang gò lấy ngòi bút của mình, ép nó phải đưa ra những con số và bằng chứng ủng hộ để chống lưng cho mọi kết luận mình đưa ra. Đây không phải là việc dễ dàng; thực tế thì không ít lần tôi đã sử dụng những dữ liệu không mấy chất lượng cho bài viết của mình. Nhưng để biện minh, thì chí ít là tôi có ý thức về những hạn chế này và cố gắng giảm thiểu hậu quả bằng những kết luận khiêm tốn nhất.
Tuy nhiên, rất nhiều nội dung với mức độ lan tỏa cao có vẻ như không ý thức được về hạn chế của chính họ. Những bài viết trích dẫn các nghiên cứu khoa học và sử dụng số liệu một cách sai lệch, dẫn đến những ý tưởng sai lệch được lan truyền rộng rãi trong đại chúng. Nguy hiểm hơn là những ý tưởng sai lệch này phù hợp với một số định kiến có sẵn của xã hội, thành ra chúng được tích hợp vào và củng cố một thế giới quan sai lệch có sẵn, lớn hơn, mang tính hệ thống của tập thể.
Đây là một series bài viết về một số khái niệm nền tảng của nghiên cứu khoa học (định lượng) mà tôi cảm thấy thú vị và cần thiết cho việc tư duy một cách rõ ràng trong thời đại lẫn lộn giữa “Dữ liệu lớn” và “Phế liệu lớn” này.
Chùm bài viết được chia làm 4 phần, tương ứng với 4 nhóm sai lầm thường gặp khi đọc hiểu các số liệu và các kết quả nghiên cứu khoa học:
1) Phân biệt tương quan và nhân quả - Hiểu về mối quan hệ giữa hai biến . Học được gì từ những người nông dân Mỹ của thế kỷ trước? . Rủi ro đạo đức của các mối quan hệ nhân quả. . Từ tương quan đến nhân quả thì cần thêm những yếu tố gì? 2) Sự nghèo nàn của phép đo lường - Hiểu về phương thức thao tác hóa khái niệm . Người ta đo lường nhân cách, lòng tốt và trí thông minh như thế nào? . Khoa học xã hội giống như “tìm chiếc chìa khóa nơi có ánh đèn chứ không phải nơi đánh rơi nó” như thế nào? . Seth Stephens-Davidowitz đang khởi động một cuộc cách mạng trong khoa học xã hội (tâm lý học) như thế nào? Liệu Freud và các thuyết gia khác có lấy lại được tiếng nói của mình? 3) Tại sao thí nghiệm càng hoàn hảo lại càng ít có giá trị - Hiểu về nội hiệu lực và ngoại hiệu lực . Khủng hoảng tái lập và tại sao tâm lý học đang muốn trở thành một ngành sinh học ứng dụng? 4) Cẩn thận với những con số . Cẩn thận với những con số đứng một mình. . Cẩn thận với những “visualization” đẹp đẽ. . Biểu đồ hình chuông - vị thánh toàn năng của khoa học xã hội. . Một lập luận “kỳ lạ” của William MacAskill trong "Làm việc thiện đúng cách". 5) Đừng trở thành một con quái vật khoa học (sẽ gộp chung với phần 4) . Số liệu và khoa học thực nghiệm không phải là tất cả. . Không phải mọi bài viết sử dụng dữ liệu không hoàn hảo đều là ngụy khoa học.
Giải ảo 1: Phân biệt tương quan và nhân quả - Hiểu về mối quan hệ giữa hai biến
Nông trại thuở bé của Carl Rogers
Carl Rogers (1902 – 1987) là một trong hai tác giả đã sáng lập lên phòng trào tâm lý học nhân văn mà đã đạt đỉnh vào những năm 60 của thế kỷ trước, bên cạnh Abraham Maslow. Trái ngược với niềm tin thông thường, cả Rogers và Maslow đều rất quan tâm tới các phương pháp đo lường khoa học áp dụng vào tâm lý. Trong đó, Carl Rogers đã đặt nền móng quan trọng cho việc đánh giá hiệu quả của các biện pháp can thiệp tâm lý, như trị liệu và tham vấn. Phương pháp mà ông áp dụng khi đó có nhiều nét tương đồng với quy chuẩn vàng “Thử nghiệm lâm sàng đối chứng ngẫu nhiên” (Randomized controlled clinical trials/RCT) trong việc thử nghiệm thuốc ngày nay.
Trong cuốn “Tiến trình thành nhân”, Rogers (1961) đã chia sẻ về tuổi thơ theo cha mẹ về sinh sống tại một trang trại vùng quê. Đây chính là nơi ông học được quy trình làm thí nghiệm đối chứng mà sẽ giúp ông làm thay đổi ngành tâm lý trị liệu nửa thế kỷ về sau.
Cha ông lúc đó dành một khoảng đất rộng để thử nghiệm hiệu quả của các loại hạt giống. Ông chia khu đất thành các thửa đất nhỏ, mỗi thửa gieo trồng một loại hạt giống khác nhau, và giữ nguyên điều kiện chăm sóc, tưới tiêu, phân bón cho các mảnh đất. Nhờ vậy, đến mùa thu hoạch, nếu mảnh đất nào cho năng suất cao nhất thì ông có thể kết luận chắc chắn rằng là do chất lượng hạt giống.
Quy trình thí nghiệm này có thể áp dụng để so sánh hiệu quả của các loại phân bón khác nhau, các chế độ tưới tiêu khác nhau, các kiểu chăm sóc khác nhau, ... - Chỉ cần giữ nguyên mọi yếu tố khác và thay đổi yếu tố cần so sánh; khác biệt trong kết quả cuối cùng có thể được kết luận rằng là do sự khác biệt trong yếu tố được thay đổi.
Chỉ là một quy trình đơn giản, nhưng nó đã đảm bảo được những yêu cầu của một “thí nghiệm phòng lab” - loại thí nghiệm đạt tiêu chuẩn cao nhất về độ nội hiệu lực và cũng là loại thí nghiệm duy nhất có thể đưa ra được kết luận nhân quả: (1) Có ít nhất hai nhóm mẫu, (2) Có lý do để tin rằng điều kiện ban đầu là giống nhau đối với các nhóm, (3) Thao túng/Tác động lên một yếu tố, (4) Hằng định các yếu tố còn lại. Nếu đảm bảo đầy đủ được cả 4 tiêu chí thì có thể kết luận rằng bất kỳ khác biệt nào trong kết quả sau cùng đều đến từ sự khác biệt trong yếu tố được thao túng.
Nếu số liệu thống kê chỉ ra hai biến có mối liên hệ với nhau, nhưng không được kiểm định thông qua quy trình đầy đủ 4 tiêu chí trên thì không được kết luận là một mối quan hệ nhân quả, thay vào đó chỉ được kết luận là một mối quan hệ tương quan.
Bài đăng của VnExpress và VTV
Nhầm lẫn giữa mối quan hệ nhân quả và tương quan có lẽ là lỗi kiến thức căn bản thường gặp nhất trong truyền thông và cũng được khai thác nhiều nhất trong các bài vạch trần và bóc mẽ.
Vậy thì hãy duy trì truyền thống này bằng cách đấu tố hai tờ báo lớn nhất nhì Việt Nam:
“Bạo lực ngôn ngữ có thể ảnh hưởng đến chỉ số IQ của trẻ” và “Nước ngọt có thể gây tổn hại não của trẻ nhỏ” - Mặc dù đã rất cố gắng phát biểu một cách thận trọng thông qua phó từ thần kỳ “có thể”, hai mệnh đề trên vẫn gợi ý về các mối quan hệ nhân quả: tuyến tính từ bạo lực ngôn ngữ đến IQ thấp và từ việc uống nước ngọt đến não bị tổn hại. Nếu từng tìm hiểu qua các phương pháp nghiên cứu khoa học, chưa cần đọc bài cũng có thể nói ngay rằng hai phát biểu trên gần như chắc chắn là (cố tình) gây nhầm lẫn.
Nói là "gần như" bởi vì không hẳn là không thể rút ra được các kết luận như vậy thông qua nghiên cứu khoa học, nhưng kể từ khi các vấn đề về đạo đức trong thực nghiệm tâm lý được đưa ra ánh sáng, thì gần như không còn ai dám tiến hành những thí nghiệm để cho ra những kết luận như thế.
Cụ thể, nếu muốn khẳng định bạo lực ngôn ngữ gây ảnh hưởng lên chỉ số IQ của trẻ, người nghiên cứu phải chọn ngẫu nhiên (ví dụ là) 100 trẻ, sau đó bốc thăm ngẫu nhiên 50 trẻ cho vào nhóm 1 và 50 trẻ còn lại cho vào nhóm 2; nếu kỹ hơn thì có thể đưa hai nhóm đi đo lường chỉ số IQ trước nhằm đảm không có sự chênh lệch sẵn có nào khi chia nhóm. Tiếp đến, cho trẻ ở nhóm 1 thường xuyên tiếp xúc với những lời chửi bới và hạ nhục, đồng thời đảm bảo trẻ ở nhóm 2 không bị phơi nhiễm bởi những lời chửi bới và hạ nhục như vậy. Nếu khi lớn lên, chỉ số IQ của trẻ nhóm 1 thấp hơn trẻ nhóm 2 (được các kiểm định thống kê chấp nhận), thì lúc này mới có thể đưa ra được một kết luận mang tính nhân quả. Tương tự với trường hợp của nước ngọt: Cần tìm ra 100 trẻ ngẫu nhiên và chia thành 2 nhóm ngẫu nhiên, một nhóm cho uống nước ngọt hằng ngày, nhóm còn lại không cho uống - sau một thời gian dài, nếu não của trẻ nhóm 1 bị tổn hại trong khi não của trẻ nhóm 2 không có vấn đề gì, thì mới có thể rút ra quan hệ nhân quả.
Quá trình tiến hành thí nghiệm như trên đảm bảo được: Thứ nhất là tính ngẫu nhiên khi chọn mẫu - để chắc chắn nghiệm thể không khác biệt gì với những đứa trẻ bình thường khác, có tính đại diện cho dân số chung và có thể sử dụng kết quả thí nghiệm trên mẫu để khái quát lên dân số chung; Thứ hai là có hai nhóm để quan sát sự khác biệt; Thứ ba là chia nhóm ngẫu nhiên và kiểm tra IQ trước để chắc chắn không có khác biệt mang tính hệ thống nào giữa hai nhóm ngay từ ban đầu - như vậy có thể tin rằng sự khác biệt trong chỉ số IQ sau cùng không phải là do khác biệt từ ban đầu khi chia nhóm; Thứ tư là có sự thao túng (can thiệp) một yếu tố - bạo lực ngôn ngữ (một nhóm có, một nhóm không) - để quan sát xem có sự khác biệt trong chỉ số IQ sau cùng hay không. So sánh với 4 tiêu chí phía trên thì đã đáp ứng được 3 tiêu chí đầu, chỉ còn tiêu chí cuối cùng - hằng định mọi yếu tố khác; Nếu như vậy thì rất nên nhốt cả 100 đứa trẻ này vào một trại tập trung để chúng được nuôi dạy trong điều kiện giống hệt nhau. Như vậy là xong một thí nghiệm phòng lab hoàn hảo để đưa ra kết luận “Bạo lực ngôn ngữ có thể ảnh hưởng đến chỉ số IQ của trẻ”.
Nhưng tất nhiên thì con người khác với các loại ngũ cốc trong khu vườn thuở nhỏ của Carl Rogers. Ngày nay, nghiên cứu như vừa được miêu tả sẽ không có cách gì lách qua được phê chuẩn của hội đồng đạo đức - chúng vi phạm nghiêm trọng nguyên tắc "không gây hại cho nghiệm thể" của thực hành khoa học. Quả đúng là vậy, khi đọc kỹ hai bài đăng của VnExpress và VTV có thể thấy rằng phương pháp của các nhà nghiên cứu chỉ đơn giản là tìm những đứa trẻ khớp với điều kiện của hai nhóm, sau đó cho đi đo lường IQ và các chức năng khác của não bộ và chạy thống kê kết luận. Phương pháp đó được gọi là “quan sát thực địa” - vốn không thể đưa ra kết luận nhân quả được vì thiếu mất sự ngẫu nhiên khi chia nhóm và thiếu mất sự can thiệp một yếu tố trong khi hằng định các yếu tố còn lại.
Thiếu mất đi sự ngẫu nhiên khi chia nhóm thì không gì có thể đảm bảo được liệu hai nhóm có một sự khác biệt mang tính hệ thống ngay từ đầu không - Biết đâu những đứa trẻ bị bạo lực ngôn ngữ có hoàn cảnh và điều kiện đặc biệt, khác hẳn những đứa trẻ không bị? Trong khi đó, thiếu mất đi quy trình can thiệp (có hằng định các yếu tố khác) thì không thể chắc được là do bạo lực ngôn ngữ dẫn đến IQ thấp, hay ngược lại - do IQ thấp mới dẫn đến bị mắng chửi nhiều, hay là có một biến nhiễu (confounding variable) bên ngoài nào khác nữa đang tác động đến cả việc bị bạo lực ngôn ngữ lẫn việc IQ thấp? Tôi thì nghiêng hẳn về trường hợp cuối cùng: Các bậc cha mẹ có IQ thấp thường có khả năng kiểm soát xung động (impulse control) không tốt (xem Block, 1995*), từ đó dẫn đến việc mắng chửi con nhiều hơn (không thể kiềm chế được cơn giận) và đồng thời cũng truyền cho con chỉ số IQ không cao của mình; tất nhiên đây chỉ là giả thuyết riêng của tôi.
Sự cám dỗ của mối quan hệ nhân quả
Tại sao hiện tượng nhầm lẫn giữa mối quan hệ nhân quả và tương quan lai xảy ra nhiều đến vậy; mà trong hầu hết các trường hợp đều là nhầm lẫn từ tương quan lên nhân quả, gần như không thấy trường hợp nào nhầm lẫn ngược lại. Và tôi khá chắc rằng cũng có những trường hợp mà người nắm rõ sự khác biệt giữa hai loại mối quan hệ này, nhưng vẫn làm bộ không biết và cố tình kết luận nhân quả bằng một nghiên cứu tương quan.
Bởi vì việc rút ra một mối quan hệ nhân quả rất cám dỗ; không chỉ nằm sẵn trong bản năng kể một câu chuyện hấp dẫn của loài người, mà ý nghĩa của nó còn mang tính định hướng mạnh mẽ, có khả năng gây ảnh hưởng sâu rộng và có thể sử dụng để đưa ra các kiến nghị hành động thuyết phục.
Đó là lý do J. B. Watson bất chấp rủi ro đạo đức để làm thí nghiệm “điều kiện hóa cổ điển” trên bé Albert; có thể nói ngành tâm lý học hiện đại đã xây dựng nền tảng trên sự ám ảnh cả đời của một cậu bé mới chỉ 9 tháng tuổi. Đó cũng là lý do các thí nghiệm vô nhân đạo được tiến hành hàng loạt trong thời kỳ chiến tranh lạnh. Với những lý do như vậy, cũng không khó hiểu tại sao các tờ báo lại muốn đưa ra một kết luận mang tính nguyên nhân - kết quả trong các bài viết của mình; để thỏa mãn người viết, để tạo ra sự chú ý, hoặc để định hướng thế giới quan của độc giả.
Trong khi đó, người anh em của mối quan hệ nhân quả - mối quan hệ tương quan lại mang một ý nghĩa khiêm tốn hơn rất nhiều. Một mối quan hệ tương quan đơn giản chỉ nói đến việc hai yếu tố có liên hệ với nhau, khi yếu tố này thay đổi thì yếu tố kia cũng thay đổi tương ứng, hay gọi theo thuật ngữ chuyên môn (có phần lãng mạn) là “biến thiên cùng nhau”.
Một mối quan hệ tương quan thì không thể sử dụng để đưa ra kiến nghị can thiệp hay xây dựng một học thuyết khoa học như mối quan hệ nhân quả. Nó chỉ đơn giản nói lên biểu hiện của hai sự việc trông có vẻ liên quan đến nhau, không có gì đảm bảo nếu cố tình tác động lên một yếu tố thì yếu tố kia có thay đổi hay không. Có một nghiên cứu chỉ ra có sự tương quan thuận chiều giữa cháy rừng và doanh số bán kem, nhưng tất nhiên nếu các nhà bán kem cho thực hiện một chiến dịch đốt rừng lớn nhất lịch sử thì doanh số bán kem năm đó của họ chưa chắc đã tăng trưởng mạnh mẽ. Tương tự, chỉ số IQ tương quan với trình độ học vấn, nhưng việc một người cố gắng học thật cao chưa chắc đã làm tăng chỉ số IQ của người đó.
Mối quan hệ tương quan không kém phần giá trị
Nhưng không phải vì vậy mà mối quan hệ tương quan kém giá trị. Ứng dụng quan trọng nhất của nó là để đưa ra dự đoán.
Có những thứ chúng ta không cần biết nguyên nhân là sao hay kết quả như thế nào, tất cả những gì chúng ta cần là một tín hiệu để báo trước một điều gì đó. Đó là thứ giúp Jeff Seder trở thành người buôn ngựa huyền thoại vì phát hiện ra những con ngựa đua nhanh nhất thường có tâm thất trái lớn hơn bình thường; giúp Walmart tăng gấp 7 lần doanh số vì phát hiện ra mọi người ăn nhiều bánh dâu hơn khi bão đến; giúp Orley Ashenfelter thưởng thức những chai rượu vang thơm ngon hơn vì xác định đượng lượng mưa mùa đông, lượng mưa lúc thu hoạch và nhiệt độ trung bình mùa trồng nho có tương quan với giá bán**.
Những mối liên hệ tương quan này, đôi khi người ta lý giải được nguyên nhân của nó, phần lớn trường hợp thì không - Nhưng không thành vấn đề, đến chừng nào các mối liên hệ vẫn còn hoạt động tốt và vẫn đưa ra được những dự đoán hiệu quả, thì nguyên nhân chính xác là gì không còn mấy quan trọng. Đó cũng là lý do hiện nay, các công việc khoa học dữ liệu ứng dụng trong đủ mọi ngành nghề - từ kinh doanh, y tế đến quản lý công - chủ yếu khai thác mối liên hệ tương quan kiểu này.
Tóm tắt:
Một mối quan hệ nhân quả chắc chắn là một mối quan hệ tương quan, nhưng một mối quan hệ tương quan chưa chắc là một mối quan hệ nhân quả.
Một mối quan hệ tương quan giữa 2 biến A và B có thể: (1) A là nguyên nhân, B là kết quả; (2) B là nguyên nhân, A là kết quả; (3) A và B không liên hệ trực tiếp với nhau, mà thông qua một biến không có mặt trong mô hình.
Để một mối quan hệ tương quan trở thành mối quan hệ nhân quả cần nhất là phải thiết kế một quy trình thí nghiệm, trong đó có 4 tiêu chí:
. Ít nhất 2 nhóm (thường là một nhóm can thiệp và một nhóm đối chứng)
. Có lý do tin rằng các nhóm có điều kiện ban đầu tương tự nhau
. Thao túng/can thiệp một yếu tố (biến độc lập) để quan sát sự thay đổi trong kết quả cuối cùng (biến phụ thuộc).
. Hằng định những biến nhiễu khác.
Mối quan hệ tương quan chỉ có thể sử dụng để dự báo, trong khi mối quan hệ nhân quả có thể sử dụng để đưa ra các quyết định can thiệp trực tiếp.
Lần sau khi đọc một bài viết có đề cập tới một mối quan hệ nhân quả, hãy cân nhắc.
* Block J. On the relation between IQ, impulsivity, and delinquency: remarks on the Lynam, Moffitt, and Stouthamer-Loeber (1993) interpretation. J Abnorm Psychol. 1995 May;104(2):395-8; discussion 399-401. doi: 10.1037//0021-843x.104.2.395. PMID: 7790643.
** Ví dụ trích trong "Ai cũng nói dối" của Seth Stephens-Davidowitz (2017)
P/s: Lúc đầu thì mình chỉ tính giới thiệu nhanh các khái niệm cần thiết để đọc kết quả nghiên cứu khoa học. Nhưng ai ngờ vì cái tính dài dòng mà viết xong phần 1 đã 4.000 từ, thế nên mới phát triển thành nguyên một series; một phần là để mỗi bài trở nên dễ tiêu hóa hơn, một phần là để tăng diện tiếp xúc với độc giả nhà Nhện, giảm thiểu rủi ro bài viết bị lặn ngụp trong đại dương các bài viết một upvote không bao giờ được bất kỳ ai dòm ngó trong mục "MỚI" - một rủi ro rất thật đối với tài khoản mới như mình.
Khoa học - Công nghệ
/khoa-hoc-cong-nghe
Bài viết nổi bật khác
- Hot nhất
- Mới nhất