Xếp hạng Đại học Việt Nam: Hiểu đúng về con số thống kê, xếp hạng
Số người chết vì cảnh sát ở Mỹ Sriraman Madhavan, thực tập sinh về mảng phân tích dữ liệu của Facebook, sinh viên ngành phân tích...

Số người chết vì cảnh sát ở Mỹ
Sriraman Madhavan, thực tập sinh về mảng phân tích dữ liệu của Facebook, sinh viên ngành phân tích dữ liệu của Đại học Stanford chia sẻ trên Quora như sau:
a. Khả năng một người Mỹ gốc Phi bị bắn chết bởi cảnh sát thì cao hơn người Mỹ da trắng 2.7 lần.
b. Số người Mỹ da trắng bị giết bởi cảnh sát thì nhiều gấp đôi số người Mỹ gốc Phi bị giết bởi cảnh sát.
c. Các thống kê cho thấy không có sự khác biệt rõ ràng về số lần cảnh sát Mỹ sử dụng biện pháp chết người khi đụng độ với người da trắng, gốc Phi hay Hispanic.
Theo bạn trong ba câu trên câu nào đúng?
Đáp án là cả ba.
Nghiên cứu của tổ chức American Public Health Association dựa trên 2285 cái chết liên quan đến vụ đụng độ của người dân với cảnh sát từ năm 2010 đến năm 2014 cho thấy 50% nạn nhân là người da trắng, 25.24% nạn nhân là người da đen và 20% là người Hispanic. Do đó câu b là đúng.
Tuy nhiên nếu chúng ta tính theo tỷ lệ trên số dân, tức lấy số người da trắng bị bắn chết chia cho tổng số người da trắng, thì tỷ lệ người Mỹ gốc Phi bị bắn chết là 6.8 trên 1 triệu người, còn của người Mỹ da trắng là 2.5 trên 1 triệu người. Do đó câu a đúng.
Một nghiên cứu của Đại học Harvard cho thấy khi đụng độ với cảnh sát, xác suất bị cảnh sát bắn của người da trắng, da đen và Hispanic là bằng nhau. Do đó câu c là đúng.
Vậy điều khác biệt ở ba câu a, b, c trên là gì? Tại sao chúng thoạt đầu nghe như cả ba cùng nói về một vấn đề nhưng hóa ra chúng lại khác nhau? Sự khác biệt là bối cảnh của dữ liệu. Câu a là so sánh dữ liệu trên đầu người, câu b là so sánh trên tổng số dân, câu c thì nói về một thứ hoàn toàn khác, đó là kết quả của việc đụng độ với cảnh sát. Thậm chí đào sâu vào chúng ta còn thấy một sự khác biệt nhỏ khác, việc cảnh sát dùng biện pháp chết người với nghi phạm chưa chắc đã dẫn đến cái chết của nghi phạm đó, và biện pháp chết người không chỉ bao gồm súng mà có thể là đánh đập. Đó là lý do tại sao tỷ lệ bị cảnh sát dùng biện pháp mạnh là như nhau nhưng tỷ lệ chết lại khác nhau.
Phân tích ở trên cho thấy:
-Chúng ta dễ dàng hiểu sai số liệu nếu không hiểu được bối cảnh của số liệu đó.
-Những người chỉ đưa ra số liệu mà không đưa ra được bối cảnh chung của số liệu đó thì hoặc là chính họ cũng không hiểu số liệu đó, hoặc là họ đang cố đánh lừa chúng ta.
Sau khi đã hiểu được điều này, chúng ta hãy cùng tìm hiểu về bảng xếp hạng đại học đang gây tranh cãi ở Việt Nam.
Xếp hạng đại học Việt Nam
Vừa rồi ở Việt Nam, một nhóm nghiên cứu độc lập gồm 6 chuyên gia là: TS Lưu Quang Hưng (Melbourne, Australia); TS Nguyễn Ngọc Anh (DEPOCEN, Việt Nam); TS Giáp Văn Dương (GiapGroup, Việt Nam); TS Ngô Đức Thế (Đại học Manchester, Anh quốc); ThS Trần Thanh Thủy (DEPOCEN, Việt Nam) và ThS Nguyễn Thị Thu Huyền (Đại học Sư phạm TPHCM, Việt Nam), đã công bố bảng xếp hạng các trường Đại học Việt Nam.
Bảng xếp hạng bao gồm 49 trường và đã gây ra nhiều bất ngờ vì nhiều trường được xem là hàng đầu ở Việt Nam như Ngoại Thương, Y dược Thái Bình đã nằm ngoài nhóm 20 trường tốt nhất. Và lập tức chủ đề này nhanh chóng được khai thác bởi các kênh truyền thông để "câu view", "giật tít":



Những bài báo trên cố gắng viết những tựa đề thật giật gân để hút người đọc, khiến họ tức tối (nếu là sinh viên Ngoại Thương) vào tranh luận, biện hộ. Những bài báo rác như thế không giúp ích được gì cho độc giả cả.
Câu hỏi chúng ta cần đặt ra với bảng xếp hạng này là "Họ xếp hạng cái gì?"
Rất nhiều người luôn nhầm tưởng rằng bảng xếp hạng này là xếp hạng "chất lượng giảng dạy", theo kiểu trường càng cao tức càng dạy tốt. Điều này là hoàn toàn không đúng. Chúng ta cần hiểu rằng các nhà xếp hạng không xếp hạng chất lượng giảng dạy. Lý do này, nếu ai học chuyên về phân tích dữ liệu, sẽ thấy rất rõ: chúng ta ưu tiên xếp hạng và phân tích những gì chúng ta đong, đo đếm được. Điều đó không có nghĩa là những khái niệm như trừu tượng như hạnh phúc, lạc quan không thể xếp hạng được, chỉ là rất khó để lấy dữ liệu được dữ liệu cần thiết để làm điều đó, sẽ tốn nhiều công sức và tiền bạc mà kết quả thu được chưa chắc đã tốt. Ví dụ như lấy được dữ liệu số người tự tử thì dễ hơn nhiều là dữ liệu về số người đang...buồn.
Ở trong mảng giáo dục cũng tương tự. Làm sao có thể so sánh được chất lượng giảng dạy? Thế nào là dạy tốt? Thế nào là phương pháp dạy tuyệt vời? Và khó hơn, làm sao đo được phương pháp dạy nào thì tốt hơn phương pháp nào? Nếu so sánh giữa hai trường có thứ hạng chênh nhau quá lớn như Đại học Cambridge so sánh với Đại học Quốc gia Việt Nam thì so sánh được nhưng liệu bạn có thể so sánh được phương pháp giảng dạy của Đại học Cambridge và Đại học Oxford, phương pháp nào tốt hơn?
Do đó khi so sánh về giáo dục và đào tạo, thường các nhà nghiên cứu sẽ dùng biện pháp gián tiếp. Hãy xem tiêu chí xếp hạng của Times Higher Education (THE), một trong những tổ chức xếp hạng đại học uy tín hàng đầu thế giới hiện nay:

Như chúng ta thấy, chất lượng giảng dạy chỉ chiếm 30% tổng số điểm xếp hạng của một trường Đại học theo tiêu chí của THE, và khi đánh giá tiêu chí đó, họ dùng các số liệu như danh tiếng của trường (15%), tỷ lệ giảng viên và học sinh (4.5%), tỷ lệ bằng tiến sĩ và bằng cử nhân cấp bởi trường (2.25%), tỷ lệ trao bằng tiến sĩ trên số lượng nhân viên trường (6%) và thu nhập của trường (2.25%). Không có một tiêu chí nào trực tiếp cho thấy trường đó có dạy tốt hay không.
Như vậy khi đã hiểu các chuyên gia xếp hạng tiêu chí gì, không khó để thấy rằng bảng xếp hạng không giúp cho người xem đảm bảo rằng trường của họ dạy tốt hơn trường khác. Chính xác hơn là bảng xếp hạng chỉ giúp đảm bảo rằng môi trường học của trường có thứ hạng cao như Harvard (Mỹ) thì khả năng cao là tốt hơn của trường có thứ hạng thấp hơn là New South Wales (Úc).
Và tương tự như THE, bảng xếp hạng của các chuyên gia Việt Nam đặt nặng tiêu chí nghiên cứu (40%), và chỉ nghiên cứu không thôi thì không đủ, các nghiên cứu này phải đạt được chuẩn quốc tế. Chúng ta nên hiểu rằng trong lĩnh vực nghiên cứu, các trường khoa học tự nhiên và kỹ thuật thường có xu hướng ra nhiều bài báo nghiên cứu khoa học hơn các trường thuần về quản trị kinh doanh. Thậm chí có thể nói các trường chuyên về dạy quản trị kinh doanh ở Việt Nam hiện nay hầu như chỉ tập trung giảng dạy, chỉ có trường về khoa học, kỹ thuật mới tập trung nghiên cứu.
Ví dụ như vào website của Đại học Khoa Học Tự Nhiên, mục giới thiệu, có thể thấy trường này đặt nặng vấn đề nghiên cứu lên đầu.
Còn trường Ngoại Thương thì tự hào về mảng đào tạo và giáo dục nhưng mảng nghiên cứu hiện giờ chưa được tập trung, mà là tương lai sau này, như ghi trên website của trường:
"Mục tiêu chiến lược 3: Nâng cao năng lực nghiên cứu, phấn đấu trở thành trường đại học nghiên cứu vào năm 2030."
Như vậy phải đến năm 2030, trường mới thực sự là trường nghiên cứu.
Khi đã hiểu về các tiêu chí xếp hạng, không khó để thấy các trường nổi tiếng về chất lượng giảng dạy lại nằm thứ hạng thấp vì hầu như không có công trình nghiên cứu tầm cỡ quốc tế. Và các bài báo liên tục nhắc đi nhắc lại về thứ hạng của trường mà không giúp giải thích về ý nghĩa các con số chỉ là đang vô tình hay cố ý làm người đọc hiểu sai vấn đề.
Sự giới hạn của dữ liệu
Cũng cần nói rộng ra là mọi người nên hoan nghênh nỗ lực của 6 vị chuyên gia đã bỏ công sức, thời gian và tiền bạc để làm bảng xếp hạng này. Mình đang học trong ngành phân tích dữ liệu và mình sẽ giải thích vài điều mình thấy được trong ngành để giúp mọi người hiểu rõ:
-Lấy được dữ liệu là rất khó khăn. Không hề dễ dàng để lấy được một lượng lớn dữ liệu. Đầu tiên người thu thập dữ liệu phải mất rất nhiều thời gian để lên kế hoạch lấy dữ liệu. Như đã nói ở trên, nếu muốn xếp hạng về chất lượng giảng dạy thì phải xác định: thế nào là dạy tốt, thế nào là môi trường học tốt, dữ liệu đó có thể lấy được không? Có những dữ liệu vô cùng cần thiết nhưng khó lấy, ví dụ như thu nhập của trường. Liệu trường có chịu cho người ngoài biết thu nhập thực sự của trường là bao nhiêu? Và nếu có nhiều trường từ chối cung cấp thông tin, người nghiên cứu phải thay đổi kế hoạch nghiên cứu và mô hình dữ liệu bằng một thứ mới, và việc này rất tốn thời gian và rất mệt.
-Thứ hai là rất khó để kiểm tra chất lượng dữ liệu. Làm sao để có thể chắc chắn là dữ liệu mình đang có là đúng, là chân thật và đầy đủ? Ví dụ như báo cáo về số sinh viên có việc làm sau khi ra trường, các trường sẽ có xu hướng nói quá lên. Hay là họ tính cả những bài nghiên cứu được công bố ở một tạp chí khoa học nhỏ nước ngoài (như của Ấn Độ chẳng hạn) là bài nghiên cứu đạt chuẩn quốc tế.
Đó chỉ là hai trong số nhiều khó khăn các chuyên gia nghiên cứu dữ liệu gặp. Các chuyên gia cũng hiểu rằng họ đã bỏ ra nhiều công sức nhưng kết quả nghiên cứu sẽ gặp nhiều chỉ trích, do đó càng khiến họ căng thẳng hơn. Do đó chúng ta cần trân trọng đội ngũ làm việc, họ chỉ có 6 người, được thêm 2 người cố vấn, và làm một công việc không hề dễ mà lại chưa chắc được lời gì. Họ làm vì tinh thần cống hiến cho cộng đồng. Chúng ta cần ủng hộ họ để họ từ từ cải tiến phương pháp đánh giá của họ. Ngay cả THE hay QS Rankings, hai tổ chức xếp hạng Đại học hàng đầu thế giới, cũng liên tục cải tiến phương pháp đánh giá hằng năm để nâng cao chất lượng xếp hạng hơn.
Do đó chúng ta hãy cám ơn 6 chuyên gia đã làm dự án này.
Husky
Bài viết có sử dụng các nguồn đã ghi trong bài và dưới đây:
AN EMPIRICAL ANALYSIS OF RACIAL DIFFERENCES IN POLICE USE OF FORCE - Havard University
Bài viết tương tự:

Quan điểm - Tranh luận
/quan-diem-tranh-luan
Bài viết nổi bật khác
- Hot nhất
- Mới nhất

Nguyễn Bảo Trung

Hợp lý.
Cũng có thể nói là những báo giật tít để câu view đang lợi dụng vào những dữ liệu này để đưa ra phát biểu ngụy biện sử dụng dữ liệu.
Tất cả các cơ sở nghiên cứu trên đều đúng trên một góc độ nào đó, chưa kể đến tỷ lệ sai số nhất định.
Cũng nên thông cảm rằng VN bây giờ mới chớm bước vào thời kỳ "biết sử dụng cơ sở nghiên cứu" để làm dẫn chứng cho phát biểu đi... Nhưng dùng kiểu "dốt"
- Báo cáo

Huskywannafly

Bạn nói hơi nặng nhưng mà ý thì đúng
Do đó nền giáo dục cần đổi mới gấp để học sinh bắt kịp đúng sự thay đổi của thời đại số. Chứ mọi người cứ trích dẫn số liệu tùm lum mà không hiểu nó thì chỉ gây ra nhiều vấn đề chứ không giúp ích được gì.

- Báo cáo

Nguyễn Bảo Trung

Mình cứ nói thẳng nói thật thôi...
Giống như trưởng giả học làm sang, hoặc kiểu như là ti toe biết 1-2 chữ là đi nói vô tội vạ, nói như đúng rồi...
Và mình cảm thấy điều đó kệch cỡm kinh khủng...
- Báo cáo
hnphuoc
thực ra thì báo chí hiện tại nói 1 cách tiêu cực thì là giật tít câu view, nhưng nhìn 1 cách nhìn khác thì họ chưa thật sự nhìn thấy được những vấn đề đặc biệt quan trọng cần phải cho người đọc biết. Khi diễn giải 1 kết quả nghiên cứu, những vấn đề về cỡ mẫu, thiết kế, outcome chính, các vấn đề gây nhiễu cũng là những cái mà những người không đọc trực tiếp cái research đó cần biết. Từ đó người ta sẽ nhìn nhận đúng hơn về kết quả nghiên cứu, về số liệu đó.
Cái này cũng là con đường dài của báo chí.
- Báo cáo

Nguyễn Bảo Trung

dữ liệu không biết nói dối
Nhưng tuỳ vào người đọc dữ liệu mà có thể nói theo hàng chục cách khác nhau, đưa ra những "statement" khác nhau.
Nhưng chung quy người có khả năng nhìn tổng quan tất cả số liệu, có khả năng tìm ra được nghiên cứu cần những số liệu nào, phân tích mean mode median ra sao để ra được cái statement đúng đắn cuối cùng, người ta gọi là "Data analyser", đã được đào tạo qua chuyên ngành data sciences, chứ không phải mấy tay bút đặt điều nói khống.
- Báo cáo

tnp709
Nchug thì trường mình học xếp trên FTU nên từ giờ tự tin gặp anh chị em FTU lắm. Dù sao cũng cảm ơn 6 tác giả thực hiện nghiên cứu này.
- Báo cáo

Huskywannafly

Mình đoán phần lớn là nhờ mảng nghiên cứu của trường bạn

- Báo cáo

tnp709
:ll mình thì mình nghĩ từ TỐT trong nghiên cứu trên nó phụ thuộc bởi nhiều yếu tố khác nhau ngoài chuyên môn vì vậy mấy ông BK, FTU chắc chắn cơ sở vật chất k bằng trường mình dc vì vậy có thua cũng k lạ. rất may tranh cãi nổ ra sau khi tuyển sinh đại học chứ k thì chắc còn cãi nhau nhiều.
- Báo cáo

Hachane
Em chỉ muốn khoe là em đã gặp 4/6 bác này và 1 bác nữa thì suýt được gặp, rất ngưỡng mộ các bác ấy ạ =))
- Báo cáo

Huskywannafly

chúc mừng em nhé
hehe có gì giới thiệu mấy bác đọc bài này giùm anh 


- Báo cáo

Thanh Phong
Cá nhân em thấy vấn đề chính bây giờ là bình tĩnh trước tiêu đề và thông tin. Trường em (BKHN) cũng dậy sóng sau một bài trên mạng đồn là của một vì giảng viên GTVT. Đa số các ý kiến biểu tình mạnh mẽ lần này là của các sinh viên, những người ngấm vào máu sự tự hào về ngôi trường và danh tiếng mình học mà ít quan tâm đến nghiên cứu. Cảm ơn tác giả #Huskywannafly về bài viết này. Mong sẽ đến với nhiều bạn đọc.
- Báo cáo

Huskywannafly

Cám ơn bạn đã ủng hộ và đóng góp ý kiến nhé 

- Báo cáo

Toruwantanabe
Theo dõi các bài viết của bác đã lâu,ngưỡng mộ Husky quá ạ.Mình có tìm hiểu về Big Data và rất hứng thú với lĩnh vực này,nhà khoa học dữ liệu thì khong kham nổi nhưng mình muốn trở thành nhà phân tích dữ liệu, bên đh Hoa Sen có đào tạo, tới 34tr thì mình không có khả năng học,mình muốn tự học mà thấy phải rành về khoa học máy tính,thống kê,toán học,kinh tê học,database(SQL..),lập trình(Python..).Thật sự là không biết bắt đầu từ đâu cả nên bác có thể tư vấn giúp mình không.Với lại đang hóng Husky cho ra lò 1 bài viết về cách tự học ák .Cám ơn bác nhiều.
- Báo cáo

Hoàng Trung
thực ra nếu tâm trí thực sự muốn làm việc gì đó thì bản thân sẽ tự làm theo thôi bác. Tình trạng của bác cũng giống với nhiều bạn hay đi hỏi về việc tự học hay tài liệu học,...v.v , trong khi những vấn đề này có thể được tìm thấy trên Google
À mà lĩnh vực về Big data, data scientist,..v.v.. còn khá mới ở Việt Nam, nên để có kết quả đầy đủ nhất thì bác nên tìm kiếm bằng tiếng Anh.


- Báo cáo

Toruwantanabe
Thanks bác
- Báo cáo

Mộ Ánh Sáng
Chào e Trung. :3
- Báo cáo

Hoàng Trung
Đi đâu cũng gặp người quen :v
- Báo cáo

Mộ Ánh Sáng
:v Thế giới nhỏ bé quá mà. :v
- Báo cáo

Huskywannafly

Để làm về mảng phân tích dữ liệu - Data Analytics, bạn cần:
1. Nắm chắc xác suất thống kê. Bạn có thể tìm học các giáo trình xác suất thống kê của các Đại học mà họ up lên mạng. Học xác suất thống kê thì cần nắm những phần như đạo hàm, tích phân, discrete mathematics, probability, statistical methods, Bayes, hypothesis testing.
2. Học dùng R hoặc Python. Có thể học thêm về phát triển Web.
3. Học dùng SQL và tìm hiểu về database, lý thuyết cũng như thực hành.
4. Học cơ bản về business như các mô hình kinh doanh này nọ, vì mảng phân tích dữ liệu là ngành áp dụng, không phải ngành học lý thuyết, và nó bám chặt với mảng kinh doanh, cho nên nếu chỉ học thiên về kỹ thuật mà ko rành về phần kinh doanh thì cũng khó.
Tất nhiên là khi đi làm sẽ có thêm yêu cầu khác, những thứ mình nói chỉ là cơ bản
Chúc bạn thành công hen.

- Báo cáo

Toruwantanabe
Cám ơn Husky nhiều
- Báo cáo