Một buổi chiều êm đềm cùng trời xanh, nắng nhẹ và gió hiu hiu…
Đang ngồi lướt điện thoại trong một khung cảnh êm đềm của ngày Vía Thần Tài, tôi bắt gặp một bài viết trên VnExpress có tựa “Điều gì khiến nCoV lấy nhiễm nhanh hơn?” làm tôi không khỏi tò mò.
Bài viết có đưa ra kết luận như sau: “Béo phì, tuổi tác và tình trạng bệnh là các yếu tố làm tăng số lượng giọt bắn khi thở, từ đó làm tăng mức độ lây nhiễm nCoV” cùng một “thần chú” để tạo độ uy tín: “Nghiên cứu được thực hiện bởi các nhà khoa học của Đại học Harvard, Đại học Tulane, MIT và Bệnh viện Đa khoa Massachusetts. Kết quả công bố trên Proceedings of the National Academy of Sciences đầu tháng 2”. Đọc đến đây có thể nhiều người trong chúng ta sẽ cho rằng thông tin này có cơ sở và hoàn toàn chính xác. Sự việc sẽ dừng ở đây cho đến khi tôi đọc được thông tin rằng nghiên cứu sử dụng dữ liệu quan sát trên 194 tình nguyện viên từ 19 đến 66 tuổi sống ở Bắc Carolina Michigan và thử nghiệm trên động vật linh trưởng.
Oh, đó là 194 người sống ở Bắc Carolina Michigan, chỉ 194 người thôi sao?
Điều này làm tôi nhớ lại Quy luật số nhỏ được nêu ra trong cuốn Tư duy nhanh và chậm của Daniel Kahneman.
(À, bài viết này chỉ bàn về Quy luật số nhỏ trong lựa chọn mẫu và tính xác thực của thông tin được nêu ra, sẽ không bàn về các khía cạnh chuyên môn trong ngành Y học, Sinh vật học, …)
Định nghĩa về quy luật số nhỏ là nhận định các đặc tính của một quần thể chỉ dựa trên quan sát hoặc ước lượng từ một lượng mẫu nhỏ dữ liệu. Nói cách khác, chúng ta mong muốn một ngẫu nhiên chọn từ quần thể có thể đại diện và có đầy đủ mọi đặc tính cơ bản của quần thể đó. Với số mẫu quá nhỏ thì những kết quả thu được thường chẳng có ý nghĩa gì.
Xét ví dụ sau:
Một cuộc thăm dò qua điện thoại gồm 300 người cao tuổi mà 60% trong số đó bầu cho tổng thống.
Nếu bạn phải tổng kết thông điệp của tuyên bố này trong vẻn vẹn ba từ, liệu chúng có thể là gì? Gần như chắc chắn bạn sẽ chọn “Người già ủng hộ Tổng thống” (Elderly support President). Những từ này đưa ra lý do chính cho câu chuyện. Chi tiết bị bỏ qua trong cuộc bầu cử, vốn được tiến hành qua điện thoại với một mẫu là 300 người, đó là không quan tâm tới bản thân những người già; họ cung cấp thứ thông tin nền tảng không mấy cuốn hút. Tổng kết của bạn có thể sẽ tương tự vậy nếu kích cỡ mẫu trở nên khác biệt. Dĩ nhiên, một con số vô lý nào đó hoàn toàn có thể thu hút được sự quan tâm của bạn (“một cuộc bầu cử qua điện thoại đối với 6 hoặc 60 ngàn cử tri già yếu…”). Tuy nhiên, trừ khi bạn là một chuyên gia, bạn không thể tác động trở lại một cách khác biệt với một mẫu gồm 150 người và với một mẫu gồm 3.000 người. Đây chính là ý nghĩa của lời tuyên bố rằng “con người không đủ nhạy bén với kích cỡ mẫu.”
Quay trở lại vấn đề về bài báo kia, việc lấy mẫu gồm 194 tình nguyện viên từ 19 đến 66 tuổi sống ở Bắc Carolina Michigan có vẻ giống như việc lấy mẫu ở ví dụ nêu trên.
Điều gì sẽ xảy ra với kết luận của của dự án này nếu lấy mẫu là 6 hoặc 60 ngàn người thay vì 194. Liệu kết quả này có còn được chấp nhận nữa hay không. Hay sẽ ra sao nếu họ lấy mẫu trên toàn cầu thay vì lấy mẫu chỉ sống tại Bắc Carolina Michigan. Người sống ở Việt Nam khác hoàn toàn so với người sống tại Bắc Carolina Michigan chứ!
Kết luận: Con người ta thường không đủ nhạy bén với kích cỡ mẫu do đó vô tình lờ đi tính chính xác của một nghiên cứu. Nghiên cứu với mẫu nhỏ là việc người nghiên cứu đang mong chờ vào sự may mắn, mong chờ vào việc mẫu ngẫu nhiên này đại diện cho các đặc trưng của tổng thể. Họ đã tự đẩy bản than vào nguy cơ thất bại tới 50% trong việc kiểm chứng những giả thiết của mình!
Nguồn tham khảo: Sách “Tư duy nhanh và chậm” Daniel Kahneman