Số người chết vì cảnh sát ở Mỹ

Sriraman Madhavan, thực tập sinh về mảng phân tích dữ liệu của Facebook, sinh viên ngành phân tích dữ liệu của Đại học Stanford chia sẻ trên Quora như sau:
a. Khả năng một người Mỹ gốc Phi bị bắn chết bởi cảnh sát thì cao hơn người Mỹ da trắng 2.7 lần.
b. Số người Mỹ da trắng bị giết bởi cảnh sát thì nhiều gấp đôi số người Mỹ gốc Phi bị giết bởi cảnh sát.
c. Các thống kê cho thấy không có sự khác biệt rõ ràng về số lần cảnh sát Mỹ sử dụng biện pháp chết người khi đụng độ với người da trắng, gốc Phi hay Hispanic.
Theo bạn trong ba câu trên câu nào đúng?
Đáp án là cả ba.
Nghiên cứu của tổ chức American Public Health Association dựa trên 2285 cái chết liên quan đến vụ đụng độ của người dân với cảnh sát từ năm 2010 đến năm 2014 cho thấy 50% nạn nhân là người da trắng, 25.24% nạn nhân là người da đen và 20% là người Hispanic. Do đó câu b là đúng.
Tuy nhiên nếu chúng ta tính theo tỷ lệ trên số dân, tức lấy số người da trắng bị bắn chết chia cho tổng số người da trắng, thì tỷ lệ người Mỹ gốc Phi bị bắn chết là 6.8 trên 1 triệu người, còn của người Mỹ da trắng là 2.5 trên 1 triệu người. Do đó câu a đúng.
Một nghiên cứu của Đại học Harvard cho thấy khi đụng độ với cảnh sát, xác suất bị cảnh sát bắn của người da trắng, da đen và Hispanic là bằng nhau. Do đó câu c là đúng. 
Vậy điều khác biệt ở ba câu a, b, c trên là gì? Tại sao chúng thoạt đầu nghe như cả ba cùng nói về một vấn đề nhưng hóa ra chúng lại khác nhau? Sự khác biệt là bối cảnh của dữ liệu. Câu a là so sánh dữ liệu trên đầu người, câu b là so sánh trên tổng số dân, câu c thì nói về một thứ hoàn toàn khác, đó là kết quả của việc đụng độ với cảnh sát. Thậm chí đào sâu vào chúng ta còn thấy một sự khác biệt nhỏ khác, việc cảnh sát dùng biện pháp chết người với nghi phạm chưa chắc đã dẫn đến cái chết của nghi phạm đó, và biện pháp chết người không chỉ bao gồm súng mà có thể là đánh đập. Đó là lý do tại sao tỷ lệ bị cảnh sát dùng biện pháp mạnh là như nhau nhưng tỷ lệ chết lại khác nhau.
Phân tích ở trên cho thấy:
-Chúng ta dễ dàng hiểu sai số liệu nếu không hiểu được bối cảnh của số liệu đó.
-Những người chỉ đưa ra số liệu mà không đưa ra được bối cảnh chung của số liệu đó thì hoặc là chính họ cũng không hiểu số liệu đó, hoặc là họ đang cố đánh lừa chúng ta.
Sau khi đã hiểu được điều này, chúng ta hãy cùng tìm hiểu về bảng xếp hạng đại học đang gây tranh cãi ở Việt Nam.

Xếp hạng đại học Việt Nam

Vừa rồi ở Việt Nam, một nhóm nghiên cứu độc lập gồm 6 chuyên gia là: TS Lưu Quang Hưng (Melbourne, Australia); TS Nguyễn Ngọc Anh (DEPOCEN, Việt Nam); TS Giáp Văn Dương (GiapGroup, Việt Nam); TS Ngô Đức Thế (Đại học Manchester, Anh quốc); ThS Trần Thanh Thủy (DEPOCEN, Việt Nam) và ThS Nguyễn Thị Thu Huyền (Đại học Sư phạm TPHCM, Việt Nam), đã công bố bảng xếp hạng các trường Đại học Việt Nam. 
Bảng xếp hạng bao gồm 49 trường và đã gây ra nhiều bất ngờ vì nhiều trường được xem là hàng đầu ở Việt Nam như Ngoại Thương, Y dược Thái Bình đã nằm ngoài nhóm 20 trường tốt nhất. Và lập tức chủ đề này nhanh chóng được khai thác bởi các kênh truyền thông để "câu view", "giật tít":



Những bài báo trên cố gắng viết những tựa đề thật giật gân để hút người đọc, khiến họ tức tối (nếu là sinh viên Ngoại Thương) vào tranh luận, biện hộ. Những bài báo rác như thế không giúp ích được gì cho độc giả cả. 
Câu hỏi chúng ta cần đặt ra với bảng xếp hạng này là "Họ xếp hạng cái gì?"
Rất nhiều người luôn nhầm tưởng rằng bảng xếp hạng này là xếp hạng "chất lượng giảng dạy", theo kiểu trường càng cao tức càng dạy tốt. Điều này là hoàn toàn không đúng. Chúng ta cần hiểu rằng các nhà xếp hạng không xếp hạng chất lượng giảng dạy. Lý do này, nếu ai học chuyên về phân tích dữ liệu, sẽ thấy rất rõ: chúng ta ưu tiên xếp hạng và phân tích những gì chúng ta đong, đo đếm được. Điều đó không có nghĩa là những khái niệm như trừu tượng như hạnh phúc, lạc quan không thể xếp hạng được, chỉ là rất khó để lấy dữ liệu được dữ liệu cần thiết để làm điều đó, sẽ tốn nhiều công sức và tiền bạc mà kết quả thu được chưa chắc đã tốt. Ví dụ như lấy được dữ liệu số người tự tử thì dễ hơn nhiều là dữ liệu về số người đang...buồn.
Ở trong mảng giáo dục cũng tương tự. Làm sao có thể so sánh được chất lượng giảng dạy? Thế nào là dạy tốt? Thế nào là phương pháp dạy tuyệt vời? Và khó hơn, làm sao đo được phương pháp dạy nào thì tốt hơn phương pháp nào? Nếu so sánh giữa hai trường có thứ hạng chênh nhau quá lớn như Đại học Cambridge so sánh với Đại học Quốc gia Việt Nam thì so sánh được nhưng liệu bạn có thể so sánh được phương pháp giảng dạy của Đại học Cambridge và Đại học Oxford, phương pháp nào tốt hơn? 
Do đó khi so sánh về giáo dục và đào tạo, thường các nhà nghiên cứu sẽ dùng biện pháp gián tiếp. Hãy xem tiêu chí xếp hạng của Times Higher Education (THE), một trong những tổ chức xếp hạng đại học uy tín hàng đầu thế giới hiện nay:

Như chúng ta thấy, chất lượng giảng dạy chỉ chiếm 30% tổng số điểm xếp hạng của một trường Đại học theo tiêu chí của THE, và khi đánh giá tiêu chí đó, họ dùng các số liệu như danh tiếng của trường (15%), tỷ lệ giảng viên và học sinh (4.5%), tỷ lệ bằng tiến sĩ và bằng cử nhân cấp bởi trường (2.25%), tỷ lệ trao bằng tiến sĩ trên số lượng nhân viên trường (6%) và thu nhập của trường (2.25%). Không có một tiêu chí nào trực tiếp cho thấy trường đó có dạy tốt hay không.  
Như vậy khi đã hiểu các chuyên gia xếp hạng tiêu chí gì, không khó để thấy rằng bảng xếp hạng không giúp cho người xem đảm bảo rằng trường của họ dạy tốt hơn trường khác. Chính xác hơn là bảng xếp hạng chỉ giúp đảm bảo rằng môi trường học của trường có thứ hạng cao như Harvard (Mỹ) thì khả năng cao là tốt hơn của trường có thứ hạng thấp hơn là New South Wales (Úc). 
Và tương tự như THE, bảng xếp hạng của các chuyên gia Việt Nam đặt nặng tiêu chí nghiên cứu (40%), và chỉ nghiên cứu không thôi thì không đủ, các nghiên cứu này phải đạt được chuẩn quốc tế. Chúng ta nên hiểu rằng trong lĩnh vực nghiên cứu, các trường khoa học tự nhiên và kỹ thuật thường có xu hướng ra nhiều bài báo nghiên cứu khoa học hơn các trường thuần về quản trị kinh doanh. Thậm chí có thể nói các trường chuyên về dạy quản trị kinh doanh ở Việt Nam hiện nay hầu như chỉ tập trung giảng dạy, chỉ có trường về khoa học, kỹ thuật mới tập trung nghiên cứu.
Ví dụ như vào website của Đại học Khoa Học Tự Nhiên, mục giới thiệu, có thể thấy trường này đặt nặng vấn đề nghiên cứu lên đầu.
Còn trường Ngoại Thương thì tự hào về mảng đào tạo và giáo dục nhưng mảng nghiên cứu hiện giờ chưa được tập trung, mà là tương lai sau này, như ghi trên website của trường:
"Mục tiêu chiến lược 3: Nâng cao năng lực nghiên cứu, phấn đấu trở thành trường đại học nghiên cứu vào năm 2030."
Như vậy phải đến năm 2030, trường mới thực sự là trường nghiên cứu. 
Khi đã hiểu về các tiêu chí xếp hạng, không khó để thấy các trường nổi tiếng về chất lượng giảng dạy lại nằm thứ hạng thấp vì hầu như không có công trình nghiên cứu tầm cỡ quốc tế. Và các bài báo liên tục nhắc đi nhắc lại về thứ hạng của trường mà không giúp giải thích về ý nghĩa các con số chỉ là đang vô tình hay cố ý làm người đọc hiểu sai vấn đề.

Sự giới hạn của dữ liệu

Cũng cần nói rộng ra là mọi người nên hoan nghênh nỗ lực của 6 vị chuyên gia đã bỏ công sức, thời gian và tiền bạc để làm bảng xếp hạng này. Mình đang học trong ngành phân tích dữ liệu và mình sẽ giải thích vài điều mình thấy được trong ngành để giúp mọi người hiểu rõ:
-Lấy được dữ liệu là rất khó khăn. Không hề dễ dàng để lấy được một lượng lớn dữ liệu. Đầu tiên người thu thập dữ liệu phải mất rất nhiều thời gian để lên kế hoạch lấy dữ liệu. Như đã nói ở trên, nếu muốn xếp hạng về chất lượng giảng dạy thì phải xác định: thế nào là dạy tốt, thế nào là môi trường học tốt, dữ liệu đó có thể lấy được không? Có những dữ liệu vô cùng cần thiết nhưng khó lấy, ví dụ như thu nhập của trường. Liệu trường có chịu cho người ngoài biết thu nhập thực sự của trường là bao nhiêu? Và nếu có nhiều trường từ chối cung cấp thông tin, người nghiên cứu phải thay đổi kế hoạch nghiên cứu và mô hình dữ liệu bằng một thứ mới, và việc này rất tốn thời gian và rất mệt.
-Thứ hai là rất khó để kiểm tra chất lượng dữ liệu. Làm sao để có thể chắc chắn là dữ liệu mình đang có là đúng, là chân thật và đầy đủ? Ví dụ như báo cáo về số sinh viên có việc làm sau khi ra trường, các trường sẽ có xu hướng nói quá lên. Hay là họ tính cả những bài nghiên cứu được công bố ở một tạp chí khoa học nhỏ nước ngoài (như của Ấn Độ chẳng hạn) là bài nghiên cứu đạt chuẩn quốc tế. 
Đó chỉ là hai trong số nhiều khó khăn các chuyên gia nghiên cứu dữ liệu gặp. Các chuyên gia cũng hiểu rằng họ đã bỏ ra nhiều công sức nhưng kết quả nghiên cứu sẽ gặp nhiều chỉ trích, do đó càng khiến họ căng thẳng hơn. Do đó chúng ta cần trân trọng đội ngũ làm việc, họ chỉ có 6 người, được thêm 2 người cố vấn, và làm một công việc không hề dễ mà lại chưa chắc được lời gì. Họ làm vì tinh thần cống hiến cho cộng đồng. Chúng ta cần ủng hộ họ để họ từ từ cải tiến phương pháp đánh giá của họ. Ngay cả THE hay QS Rankings, hai tổ chức xếp hạng Đại học hàng đầu thế giới, cũng liên tục cải tiến phương pháp đánh giá hằng năm để nâng cao chất lượng xếp hạng hơn.
Do đó chúng ta hãy cám ơn 6 chuyên gia đã làm dự án này.
Husky

Bài viết có sử dụng các nguồn đã ghi trong bài và dưới đây:

Bài viết tương tự: