Mọi người cần biết cách đọc số liệu

Dịch từ bài viết Citizens need to know numbers của tác giả David Spiegelhalter, đăng trên tạp chí Aeon, ngày 16/9/2019.

Ảnh bởi

Markus Winkler

trên

Unsplash

Có thể thấy rằng nước Anh đang gặp nhiều khó khăn với Brexit. Cuộc trưng cầu dân ý về việc liệu Anh có nên rời EU đã được tổ chức vào tháng 6 năm 2016, và chiến dịch Leave tạo ra một hình ảnh biểu tượng: chiếc xe buýt đỏ dán thông điệp "Nước Anh gửi EU 350 triệu bảng mỗi tuần - thay vào đó hãy tài trợ cho Dịch vụ Y tế Quốc gia". Thông điệp mạnh mẽ đó đã thực sự hiệu quả do được kết hợp với lượng tiền lớn, cùng lời ủng hộ Dịch vụ Y tế Quốc gia, một tổ chức được coi là thiêng liêng ở Anh. Việc sử dụng các con số này phần nào đã làm nghiêng cán cân về phía chiến dịch Leave, và mọi người đều bất ngờ khi họ giành chiến thắng với tỉ lệ sát nút 52%.

Vậy thông điệp dán trên xe buýt đáng tin tới đâu? Giống như hầu hết các con số được sử dụng trong trò chơi chính trị, con số 350 triệu bảng không hề ngẫu nhiên hoặc bịa đặt - nó có một số bằng chứng thực tế. Mức đóng góp thỏa thuận cho EU vào năm 2017 là 18.6 tỷ bảng, vị chi là 357 triệu bảng mỗi tuần, một con số dễ tìm thấy trong các file báo cáo công khai từ chính phủ. Tuy nhiên, nước Anh được hoàn lại 5.6 tỷ bảng trước khi thực sự đóng tiền cho EU. Vậy con số thực tế mà Anh đóng góp cho EU là 13 tỷ bảng. Hơn nữa, khoảng 4 tỷ bảng nữa được trả lại từ phía EU, dưới hình thức tài trợ khoa học và nông nghiệp. Có lẽ, nếu rời EU, nước Anh sẽ cần phải tự chi trả cho những khoản này.

Nhiều người chỉ trích chiến dịch Leave vì cho rằng Anh gửi cho EU 350 triệu bảng mỗi tuần. Khi Boris Johnson nhắc lại điều đó vào năm 2017 (lúc đó Johnson là Ngoại trưởng), vị chủ tịch Cơ quan Thống kê Vương quốc Anh đã chỉ trích Johnson, bảo rằng đó là "sự lạm dụng số liệu thống kê chính thức". Thậm chí đã có một cuộc truy tố hình sự chống lại Johnson vì "hành vi sai trái tại cơ quan công cộng", nhưng nó đã bị dừng bởi Tòa án tối cao.

Thông điệp trên xe buýt đã gợi được cảm xúc mạnh mẽ với hàng triệu người, mặc dù thực chất nó là thông tin sai lệch. Việc này thể hiện cả sức mạnh lẫn điểm yếu của số liệu thống kê: chúng có thể được dùng để mở rộng thế giới quan, nhưng chúng thường không đứng vững dưới sự kiểm tra kỹ lưỡng. Đó là lý do mà hiểu biết về thống kê lại quan trọng tới vậy: trong thời đại mà dữ liệu đóng vai trò ngày càng quan trọng, khả năng phát hiện sự lạm dụng số liệu và khả năng phân tích sự việc dựa trên số liệu thống kê, phải kỹ năng công dân cần có.

Số liệu thống kê không phải là những sự thật lạnh lùng - như Nate Silver viết trong cuốn The Signal and the Noise:

Các con số không biết cất lời. Con người nói thay chúng. Con người gán ý nghĩa cho chúng.

Những người thống kê không chỉ sử dụng khả năng phán đoán trong việc chọn cái gì để đo lường, xác định các ý tưởng nào quan trọng, cách phân tích chúng, mà cách giao tiếp của chỗ dữ liệu đó với người tiếp nhận có thể thay đổi hoàn toàn tác động về mặt cảm xúc.

Giả sử 350 triệu bảng là khoản đóng góp thực tế hàng tuần cho EU. Tôi thường nhờ khán giả gợi ý thông điệp trên xe buýt nếu họ về phe Remain (ND: ở lại EU). Một cách cơ bản để làm cho số lớn trông nhỏ đi là coi nó như tỷ lệ của một con số lớn hơn: ví dụ, GDP của Anh hiện vào khoảng 2.3 nghìn tỷ bảng, do đó lượng tiền đóng góp này sẽ chỉ chiếm dưới 1% GDP, bằng lượng tăng trưởng thường thấy trong sáu tháng. Một cách khác là chia nhỏ số tiền này thành các mẩu nhỏ và dễ nắm bắt hơn, ví dụ: có 66 triệu người ở Anh, 350 triệu bảng một tuần tương đương với khoảng 75p (ND: 75 penny, tức là 3/4 bảng) một ngày, còn ít hơn 1 đô la, tương đương giá của một gói khoai chiên nhỏ. Nếu xe buýt có thông điệp “mỗi người Anh gửi cho EU một gói khoai chiên mỗi ngày” thì chiến dịch có thể đã không thành công như vậy.

Làm sao để đọc kết quả nghiên cứu khoa học? (P. 1)

Giải ảo 1: Phân biệt tương quan và nhân quả

spiderum.com

Các con số thường được sử dụng để thuyết phục hơn là cung cấp thông tin, vậy nên trình độ dân trí về thống kê cần được cải thiện. Vậy có chắc rằng chúng ta cần thêm các khóa học thống kê trong trường học? Ừ thì có, nhưng không có nghĩa là với chất lượng như bây giờ. Sau nhiều năm nghiên cứu và dạy thống kê, tôi nghĩ mình không đơn độc trong việc kết luận rằng cách chúng ta dạy thống kê có thể phản tác dụng, tập trung quá nhiều vào toán học thông qua lý thuyết xác suất, đi kèm hàng loạt bài kiểm tra và công thức, các bài toán ít hữu dụng, như là tính toán độ lệch chuẩn của trọng lượng cá tuyết. Tài liệu Hướng dẫn Đánh giá và Giảng dạy trong Giáo dục Thống kê của Hiệp hội Thống kê Hoa Kỳ đặc biệt khuyến nghị việc đổi mới phương pháp sư phạm của môn thống kê thành phương pháp dựa trên việc giải quyết vấn đề, có các ví dụ thực tế và chú trọng vào giao tiếp.

Nếu chúng ta định sử dụng các câu hỏi thực tế để giới thiệu các khái niệm thống kê, thì chúng ta cần dạy một cấu trúc cơ bản về cách giải quyết vấn đề bằng dữ liệu. Tôi đã được truyền cảm hứng đặc biệt bởi cách nền giáo dục New Zealand dạy thống kê ở trường học; bên dưới là poster của họ.

Quy trình giải quyết vấn đề: Vấn đề (problem) -> kế hoạch (plan) -> dữ liệu (data) -> phân tích (analysis) -> kết luận (conclusion)

Lấy ví dụ từ tiêu đề bài báo trên CNN năm 2019: "Nghiên cứu cho biết chỉ ăn một lát thịt xông khói trong ngày cũng có nguy cơ mắc ung thư đại tràng cao hơn". Tờ báo lá cải The Sun của Anh thì giật tít hơn: "Một lát thịt xông khói là chí tử". Vậy vấn đề (problem) sẽ là: tôi có nên quan tâm đến mối rủi ro này và từ bỏ món thịt xông khói không? Kế hoạch (plan) là nghiên cứu sâu hơn các tuyên bố được đưa ra trong bài báo, trong đó nói rằng rằng một nghiên cứu ước tính rằng ăn 25g thịt đã qua chế biến mỗi ngày (tương đương với một chiếc bánh mì thịt xông khói lớn mỗi ngày) làm tăng 19% nguy cơ mắc ung thư đại tràng.

Đối với người được đào tạo cơ bản về kiến thức thống kê, hai câu hỏi nên được đặt ra ngay lập tức:

Đầu tiên, đây có thực sự là mối quan hệ nhân quả - nói cách khác, nếu mọi người bắt đầu ăn thịt xông khói, liệu nguy cơ mắc bệnh của họ có tăng lên không? Hay đó chỉ là sự liên tưởng, rằng những người có xu hướng ăn thịt xông khói cũng có xu hướng bị ung thư đại tràng? Hóa ra là Cơ quan Nghiên cứu Ung thư Quốc tế đã xác nhận mối quan hệ nhân quả từ thịt chế biến sẵn đến ung thư đại tràng, vì vậy chúng ta có thể tin tưởng phần này.

Câu hỏi thứ hai là liệu hiệu ứng này có đủ lớn để tôi để tâm hay không. Mức tăng 19% là một con số tương đối, và cách thể hiện sự liên kết này là để phóng đại tác động rõ ràng của việc để bản thân tiêu thụ một thứ có rủi ro như thịt xông khói. Câu hỏi quan trọng là: 19% của cái gì? Nếu không biết mức độ rủi ro cơ bản, chúng ta không thể biết liệu sự gia tăng này có đáng lo ngại hay không. Xét cho cùng, 19% của một thứ nhỏ xíu thì vẫn bé xíu. Vì vậy, dữ liệu bổ sung mà chúng ta cần là những rủi ro cơ bản, và hóa ra là khoảng 6% dân số sẽ bị ung thư đại tràng, ngay cả khi họ không ăn thịt xông khói. Vậy mức tăng 19% trên 6% là bao nhiêu?

Nhiều thí nghiệm tâm lý uy tín cho thấy rằng những tính toán như vậy sẽ được thể hiện tốt hơn bằng cách sử dụng ý tưởng về tần số mong đợi. Nói cách khác, nó có ý nghĩa gì với 100 người? Trong số 100 người không ăn thịt xông khói, chúng tôi dự đoán sẽ có 6 người bị ung thư đại tràng trong suốt cuộc đời của họ. Trong khi đó, trong số 100 người ăn 25g thịt xông khói mỗi ngày - ví dụ như ăn một chiếc bánh mì kẹp thịt xông khói lớn cách ngày - thì chúng tôi dự đoán sẽ có thêm 19% mắc bệnh ung thư đại tràng: đó là 19% của 6%, tức là tổng cộng 7%. Vì vậy, để có thêm một trường hợp ung thư đại trang, 100 người sẽ cần ăn khoảng 180 chiếc bánh mì kẹp thịt xông khói mỗi năm trong suốt cuộc đời của họ. Tính ra mỗi người ăn 10000 bánh trong đời, hoặc tổng cộng 1 triệu chiếc bánh mỳ kẹp thịt xông khói béo ngậy cho 100 người này.

Tất nhiên, tôi đã cố tình trình bày những kết quả này làm cho rủi ro có vẻ không đáng kể, nhưng phương pháp này thực sự đưa những tuyên bố và tiêu đề về thịt xông khói sát thủ vào góc nhìn thực tế hơn. Thật không may, rất ít người trong giới truyền thông có thể tự mình thực hiện những phân tích này.

Có phải cứ có nhiều dữ liệu thì được gọi là Dữ liệu lớn?

Cũng lâu quá rồi không có thời gian viết bài, dạo gần đây công ty mình có lập một cái blog chuyên viết bài về công nghệ, sếp có giao...

spiderum.com

Harold Shipman là kẻ sát nhân bị kết án nhiều nhất ở Anh, mặc dù có vẻ anh ta không thuộc dạng giết người hàng loạt điển hình. Anh ta, một bác sĩ gia đình (hoặc bác sĩ đa khoa), sống ở ngoại ô Manchester từ năm 1975 đến 1998, đã tiêm quá liều thuốc mê cho ít nhất 215 bệnh nhân chủ yếu là người cao tuổi. Anh ta đã phạm sai lầm khi giả mạo di chúc của một trong những nạn nhân để cuỗm tiền thừa kế. Con gái của bà cụ ấy là một luật sư và đã đưa ra những nghi ngờ, để rồi điều tra dữ liệu trên máy tính của anh ta cho thấy anh ta đã sửa hồ sơ bệnh án nhằm làm nạn nhân có vẻ ốm yếu hơn so với thực tế. Anh ta nổi tiếng là một người nhiệt tình tiếp nhận công nghệ, nhưng anh ấy không đủ hiểu biết về công nghệ để nhận ra rằng mọi thay đổi anh ấy thực hiện đều bị ghi lại.

Trong số những bệnh nhân chưa được hỏa táng của anh ta, 15 bệnh nhân đã được đào lên, và lượng thuốc mê quá liều đã được tìm thấy trong cơ thể họ. Shipman sau đó bị xét xử vì 15 vụ giết người vào năm 1999, nhưng đã không đưa ra bất kỳ lời bào chữa nào và không nói một lời nào trong phiên tòa xét xử. Anh ta bị kết tội và nhận án tù chung thân, rồi một cuộc điều tra công khai được triển khai để xác định những tội ác khác của anh ta mà có thể chưa được phát hiện, và đặt ra câu hỏi liệu anh ta có thể bị bắt sớm hơn hay không. Tôi là một trong số các nhà thống kê tham gia đưa ra bằng chứng tại cuộc điều tra công khai này.

Vấn đề (problem) đầu tiên ở đây chỉ đơn giản là hiểu cách anh ta hoạt động: chúng ta có thể coi loại công việc tìm hiểu lặp đi lặp lại này là thống kê "pháp y": không toán học, không lý thuyết, chỉ là tìm kiếm các quy luật có thể dẫn đến nhiều câu hỏi thú vị hơn. Kế hoạch (plan) là kiểm tra bất kỳ dữ liệu nào có sẵn công khai, bao gồm các chi tiết về tuổi, giới tính và ngày chết của từng nạn nhân. Hình dưới đây là hình ảnh dữ liệu trực quan, hiển thị biểu đồ tuổi của từng nạn nhân so với ngày chết. Biểu đồ thanh đã được xếp chồng lên các trục hiển thị mô hình độ tuổi (trong các dải 5 năm) và năm.

Có thể được rút ra vài kết luận đơn giản. Có nhiều chấm màu đỏ hơn là màu xanh lam, có nghĩa là nạn nhân chủ yếu là nữ. Biểu đồ cột bên phải cho thấy hầu hết các nạn nhân ở độ tuổi 70 tới 80, nhưng nhìn vào các điểm dữ liệu cho thấy, mặc dù ban đầu họ đều là người cao tuổi, một số trường hợp trẻ hơn cũng dần dần gia tăng theo thời gian. Biểu đồ thanh ở trên cùng cho thấy rõ khoảng trống vào khoảng năm 1992 khi không có vụ giết người nào. Hóa ra Shipman trước đây đã từng làm việc trong một phòng khám cùng với các bác sĩ khác, nhưng sau đó, có thể do cảm thấy bị nghi ngờ, anh ta đã rời đi để thành lập phòng khám đa khoa của riêng mình. Sau đó, các hoạt động giết chóc của anh ta tăng lên.

Việc phân tích các nạn nhân được xác định trong cuộc điều tra này đặt ra câu hỏi về cách Shipman thực hiện các vụ giết người. Một số bằng chứng thống kê được cung cấp bởi dữ liệu thời gian tử vong trên giấy chứng tử của nạn nhân. Dưới đây là biểu đồ so sánh thời gian trong ngày mà bệnh nhân của Shipman chết với thời gian bệnh nhân bình thường khác tử vong. Kết luận đập ngay vào mắt. Các bệnh nhân của Shipman có xu hướng chết vào đầu giờ chiều.

Điều tra sâu hơn cho thấy Shipman sang nhà bệnh nhân sau bữa trưa, khi anh ta thường ở một mình với các bệnh nhân lớn tuổi. Anh ta sẽ tiêm cho họ một mũi tiêm mà anh ta bảo là giúp họ thoải mái hơn, nhưng thực chất đó là liều thuốc mê chết người: bệnh nhân sẽ chết một cách yên bình trước mặt anh ta. Dame Janet Smith, người chủ trì cuộc điều tra công khai, đã nói:

Tôi vẫn cảm thấy điều đó thật khủng khiếp một cách không thể diễn tả và không thể tưởng tượng được, rằng anh ta, ngày này qua ngày khác, giả vờ là một bác sĩ chăm sóc tuyệt vời và mang theo trong túi vũ khí sát thương… thứ mà anh ta sẽ lấy ra một cách hiển nhiên nhất.

Anh ta đang mạo hiểm, vì chỉ cần một cuộc khám nghiệm tử thi cũng có thể làm anh ta bại lộ. Nhưng với số tuổi của bệnh nhân và nguyên nhân tử vong rõ ràng, không có cuộc khám nghiệm nào được thực hiện. Anh ta chưa bao giờ giải thích lý do giết người. Anh ta chưa bao giờ nói về hành vi sai trái của mình với bất kỳ ai, kể cả gia đình, và rồi tự sát trong tù, đúng lúc vợ anh ta được nhận khoản lương hưu của anh ta.

Câu hỏi lớn mà các nhà thống kê luôn thường trực là: liệu anh ta có thể được phát hiện sớm hơn không?

Trước cuộc điều tra, số lượng giấy chứng tử mà Shipman ký cho những người chết tại nhà của họ hoặc trong quá trình hành nghề của anh ta kể từ năm 1977 tăng dần. Chúng tôi đã so sánh nó với con số dự kiến, dựa trên thành phần tuổi của tất cả các bệnh nhân được Shipman ‘chăm sóc’ và tỷ lệ tử vong của bệnh nhân của các bác sĩ địa phương khác. Loại so sánh này sẽ tính cả các điều kiện địa phương như thay đổi nhiệt độ và bùng phát dịch cúm. Hình dưới đây cho thấy con số dự kiến trừ đi số lượng giấy chứng tử thực tế, được tính từ năm 1977 cho đến khi Shipman bị bắt vào năm 1998. Sự khác biệt này có thể được gọi là tỷ lệ tử vong “vượt mức” của anh ta.

Đến năm 1998, ước tính tỷ lệ tử vong vượt mức của anh ta đối với những người từ 65 tuổi trở lên là 174 phụ nữ và 49 nam giới. Đây gần như chính xác là số người lớn tuổi được xác nhận là nạn nhân, cho thấy độ chính xác đáng kể của phân tích thống kê thuần túy này, khi mà không có trường hợp riêng lẻ nào được đưa vào.

Giả sử, trong một viễn cảnh hư cấu nào đó, ai đó đã theo dõi số nạn nhân của Shipman hàng năm và thực hiện các tính toán cần thiết để đưa ra hình vừa rồi, thì họ có thể đã "thổi còi" ở thời điểm nào? Câu hỏi tưởng như vô hại này đặt ra nhiều vấn đề thống kê đầy thách thức liên quan đến các thử nghiệm chính thức về ‘giả thuyết thống kê’. Cuốn sách The Art of Statistics chứa một cuộc thảo luận đầy đủ (nhưng không mang tính toán học) về vấn đề này, được tóm tắt ngắn gọn trong các đoạn tiếp theo.

Xin cảnh báo trước, phần sau sẽ hơi mang tính kỹ thuật.

Cách tiếp cận tiêu chuẩn là thiết lập một giả thuyết rỗng, chẳng hạn như Shipman có tỷ lệ bệnh nhân tử vong cơ bản giống như các đồng nghiệp của mình, và điều đó là hoàn toàn bình thường. Sau đó, chúng tôi tính toán số liệu để tìm ra bằng chứng chống lại giả thuyết đó, và tìm ra xác suất để làm cho giả thuyết rỗng đúng: giá trị P-value sẽ được so sánh với một ngưỡng đã thiết lập, chẳng hạn 0.05 hoặc 0.01, và các giá trị P-value nhỏ hơn sẽ dẫn đến tuyên bố Shipman có tỷ lệ bệnh nhân tử vong cao hơn nhiều về mặt thống kê. Về cơ bản, nếu dữ liệu không thể được giải thích một cách tình cờ, và do đó dường như không tương thích với giả thuyết rỗng, thì chúng tôi tuyên bố rằng có điều gì đó kỳ lạ đang xảy ra.

Nếu quá trình này thực sự được thực hiện, thì vào năm 1979 - chỉ sau ba năm theo dõi - sẽ có giá trị P-value là 0.004 phát sinh từ việc có 40 trường hợp tử vong trong khi đáng lẽ chỉ có tầm 25.3. Kết quả có thể được tuyên bố là "dị thường về mặt thống kê", và Shipman sẽ bị điều tra và phát hiện.

Phương pháp tiếp cận được gọi là 'thử nghiệm ý nghĩa giả thuyết vô hiệu' này tạo cơ sở cho hầu hết các tuyên bố khoa học, bao gồm cả những khám phá lớn như hạt Higgs boson trong vật lý, mặc dù nó đã là một vấn đề tranh luận trong nhiều năm. Nhưng có hai lý do tại sao một quy trình thống kê như vậy sẽ hoàn toàn không phù hợp trong việc theo dõi tỷ lệ bệnh nhân tử vong của các bác sĩ.

Đầu tiên, trừ khi có một số lý do để nghi ngờ Shipman và thiết lập quy trình giám sát cho riêng anh ta, chúng tôi sẽ tính toán các giá trị P-value như vậy cho tất cả các bác sĩ ở Anh - vào thời điểm đó khoảng 25.000 người. Chúng tôi biết rằng nếu chúng tôi thực hiện đủ nhiều thử nghiệm, chúng tôi sẽ nhận được tín hiệu sai. Với 25.000 bác sĩ được kiểm tra ở ngưỡng 0.05, chúng tôi dự đoán có 1 trong 20 bác sĩ sẽ có mức bệnh nhân chết "cao đáng kể", tức là tầm 1300 người, và điều tra tất cả những người này không hề thực tế và khả thi. Và Shipman có thể nằm trong số dương tính giả này.

Vấn đề thứ hai là chúng tôi thực hiện các bài kiểm tra lặp đi lặp lại, vì dữ liệu mới mỗi năm được thêm vào và một bài kiểm tra khác được thực hiện. May mắn thay, hóa ra có một số lý thuyết đáng chú ý nhưng phức tạp, được biết đến một cách thú vị là "định luật logarit lặp lại". Điều này nói rằng nếu chúng ta thực hiện thử nghiệm lặp đi lặp lại như vậy, ngay cả khi giả thuyết rỗng là đúng, thì cuối cùng chúng ta chắc chắn sẽ bác bỏ giả thuyết rỗng đó ở bất kỳ mức ý nghĩa nào mà chúng ta chọn.

Đây là điều rất đáng lo ngại. Nếu chúng ta tiếp tục kiểm tra bác sĩ trong thời gian đủ lâu, thì chúng ta được đảm bảo rằng cuối cùng chúng ta đã tìm thấy bằng chứng về tỷ lệ tử vong vượt mức, ngay cả khi trong thực tế là không có. May mắn thay, có các phương pháp thống kê để giải quyết vấn đề kiểm tra tuần tự này. Chúng được phát triển lần đầu tiên trong Chiến tranh thế giới thứ hai bởi các nhóm thống kê làm việc về kiểm tra chất lượng công nghiệp của vũ khí và vật tư chiến tranh khác.

Các vũ khí rời khỏi dây chuyền sản xuất được theo dõi bằng cách tích lũy đều đặn tổng sai lệch so với tiêu chuẩn, giống như cách theo dõi tỷ lệ tử vong quá mức. Các nhà khoa học nhận ra rằng kiểm tra lặp đi lặp lại sẽ luôn dẫn đến cảnh báo rằng quy trình đang có vấn đề, ngay cả khi trên thực tế mọi thứ đều hoạt động tốt. Về cơ bản, nếu chúng ta cứ tiếp tục kiểm tra một quy trình, thì cuối cùng một điều gì đó sẽ tình cờ trở nên kỳ quặc.

Các nhà thống kê ở Mỹ và Anh, làm việc độc lập, đã phát triển cái được gọi là kiểm tra tỷ lệ xác suất tuần tự (SPRT), là một thống kê theo dõi bằng chứng về sự sai lệch. Điều quan trọng là nó có thể được so sánh với các ngưỡng đơn giản bất cứ lúc nào - ngay khi một trong những ngưỡng này bị vượt qua, nó sẽ kích hoạt cảnh báo để điều tra dây chuyền sản xuất. Abraham Wald ở Mỹ và George Barnard ở Anh đã chỉ đạo các nhà thống kê. Barnard là một người đàn ông thú vị, một nhà toán học thuần túy (và cộng sản) trước chiến tranh, người sau này đã phát triển Tiêu chuẩn Anh 3704 chính thức cho bao cao su. Những kỹ thuật như vậy đã dẫn đến các quy trình công nghiệp hiệu quả hơn, và sau đó được sử dụng trong cái gọi là thử nghiệm lâm sàng tuần tự, trong đó các kết quả được theo dõi nhiều lần để xem liệu có vượt qua ngưỡng cho thấy một phương pháp điều trị có lợi hay không.

Một nhóm của chúng tôi đã phát triển một phiên bản SPRT để áp dụng trong cuộc điều tra Shipman. Chúng tôi kết luận rằng nếu ai đó thực hiện việc giám sát này, chỉ nhìn vào những cái chết của phụ nữ, Shipman sẽ vượt ngưỡng vào năm 1984. Một cuộc điều tra và truy tố vào thời điểm đó có thể đã cứu sống khoảng 175 người, nhưng ban điều tra nghĩ rằng không ai nên bị đổ lỗi cho việc không áp dụng thiết bị giám sát thống kê đơn giản này sớm hơn, do dữ liệu không có sẵn. Hơn nữa, ai có thể nghĩ rằng một bác sĩ giỏi lại giết bệnh nhân của mình một cách có hệ thống?

Sau đó, một hệ thống giám sát dành cho bác sĩ đa khoa đã được thử nghiệm, hệ thống này ngay lập tức xác định một bác sĩ có tỷ lệ bệnh nhân tử vong thậm chí cao hơn Shipman! Điều tra cho thấy vị bác sĩ này hành nghề ở một thị trấn ven biển có rất nhiều nhà dưỡng lão, và ông đã tận tâm giúp đỡ nhiều bệnh nhân của mình để không phải nằm viện khi qua đời. Sẽ vô cùng oan uổng cho người bác sĩ này nếu ông ấy nhận được bất kỳ sự nghi ngờ nào vì tỷ lệ ký giấy chứng tử dường như rất cao. Bài học quan trọng là, trong khi các hệ thống thống kê có thể phát hiện ra các kết quả nổi bật, chúng không thể đưa ra lý do tại sao những kết quả này có thể xảy ra. Chuyện gì đã xảy ra là một chuyện, tại sao nó xảy ra lại là chuyện khác. Vì vậy việc đánh giá thống kê đòi hỏi phải được thực hiện cẩn thận để tránh cáo buộc sai lầm, một lý do nữa để thận trọng với các thuật toán.

Câu chuyện Shipman minh họa hai thành phần của kiến thức thống kê. Đầu tiên là khả năng thực hiện các cuộc điều tra thống kê dẫn đến việc truyền đạt thông tin rõ ràng về những gì dữ liệu tiết lộ. Thành phần quan trọng thứ hai là khả năng tìm ra kết luận dựa trên dữ liệu, đồng thời cân nhắc các con số và đặt ra những câu hỏi. Số liệu thống kê thường đưa ra một vài câu trả lời, nhưng chúng thường đặt ra nhiều câu hỏi hơn.

Loại kiến thức thống kê này rất khó dạy. Nó không thể được rút gọn thành các công thức và thuật toán - tốt nhất là nên được học thông qua kinh nghiệm lặp đi lặp lại, cùng sự chỉ bảo sát sao. Tốn rất nhiều thời gian và nỗ lực để học được nghệ thuật thống kê.

Khoa học và công nghệ khác