[BGM: Turning the page | Lionel Yu]
Trong cái mùa hè chói chang không chỉ từ cái nắng của xứ Đông Lào mà còn từ ánh hào quang trong đôi mắt hình viên đạn của các tiger mom xứ Á chiếu rọi vào bàn học của những nam thanh nữ tú trong một trong những hội thi quan trọng nhất của học sinh nơi đây - Kì thi tuyển sinh lớp 10, một thanh niên bỏ học cấp 3 bỗng bất bình (tủi thân) vì điểm các bạn cao quá, hào nhoáng quá. Thanh niên quyết định flex khả năng toán, coding và viết bài diss các bạn điểm cao :)
Năm của mình không được đi thi T.T
Năm của mình không được đi thi T.T
Disclaimer: 1. Bài viết chỉ dựa vào dữ liệu từ kì tuyển sinh lớp 10 trong niên khóa 2020-2021 [1], tuy nhiên, cũng phản ánh được phần nào thực trạng của việc chấm điểm trong kì thi tuyển sinh nói riêng và khi học bình thường vì năm 2020-2021 là năm xét tuyển ở TP.HCM. 2. Người viết mới tập tành học data analytic, nếu có các điểm gì sai sót mong các cao nhân chỉ bảo :)

1. Phân tích dữ liệu

Trong file excel tải về sẽ có 12 cột với số báo danh, ngày sinh, điểm từng môn, điểm được cộng thêm, tổng điểm thường và chuyên.
8 dòng đầu của file
8 dòng đầu của file
Phân tích qua pandas thì bảng điểm có 83524 dòng tức 83524 học sinh dự thi kì thi tuyển sinh.
Trong lần phân tích này, mình chỉ sẽ chú tâm vào cột điểm của 3 "môn chính" để tìm hiểu về khái niệm "điểm trung bình".

Môn Toán

Với môn toán thì mình plot được hình dưới
Điểm Toán qua một violin plot
Điểm Toán qua một violin plot
Từ hình mình có thể thấy được rằng chủ yếu các học sinh đều được điểm từ 6.5 (q1) đến 8.5 (q3) và số điểm trung bình (median) là 7.6 và 8.2 là số điểm đạt được nhiều nhất (mod). Hầu hết các học sinh đều có số điểm từ 3.5 đến 10. Rồi tiếp theo sẽ là môn Văn.

Môn Văn

Điểm Văn qua một violin plot
Điểm Văn qua một violin plot
Với môn Văn thì chủ yếu các học sinh đều đạt từ 6.5 đến 8.1, trung bình là 7.4. Hầu hết đều đạt từ 4.1 đến 9.9.

Môn Ngoại Ngữ

Điểm của môn Ngoại Ngữ
Điểm của môn Ngoại Ngữ
Sao thấp thế nhỉ? Hèn chi bị scale-down trước năm 2021 :) Với môn ngoại ngữ thì chủ yếu đều đạt được từ 6 đến 8.3, trung bình là 7.1. Hầu hết đều đạt từ 2.9 đến 10.

2. Điểm trung bình

Theo hệ thống giáo dục của Việt Nam thì điểm trung bình là 5, vì vậy nên mới có khái niệm "dưới trung bình" vốn để chỉ những điểm dưới 5. Cũng hợp lý thôi, vì thang điểm của nước mình đi từ 0 đến 10 thì theo phân phối chuẩn (normal distribution), tức trung bình cộng (mean), sô trung vị (median) và giá trị xuất hiện nhiều nhất (mod) phải gần như bằng 5, thì điểm trung bình phải là 5.
Normal distribution
Normal distribution
Nhưng câu hỏi mình đặt ra là, tại sao gọi điểm trung là 5 mà điểm trung bình từ các hình ở trên của mình lại lần lượt là 7.6, 7.4 và 7.1? Và nếu trung bình là 5 thì phổ điểm phải tương tự như hình trên chứ không phải bị lệch phải (negative skewed) như điểm trong bộ dữ liệu (dataset). Thêm nữa, là nếu điểm trung bình là 5 thì các số điểm đạt được chủ yếu (q1 - q3) phải ở khoảng 4 đến 6 hoặc 3 đến 8 nhưng những gì mình thấy được là khoảng 6.1 đến 8.3, một số điểm quá cao so với trung bình.
<Câu hỏi tu từ>
Có chăng học sinh Việt Nam cực xuất sắc hay là hệ quả của việc chạy điểm có hệ thống, vì theo mình được biết thì nếu dưới trung bình thì bị ở lại lớp?
</Câu hỏi tu từ>

3. Đưa điểm trung bình lại đúng chỗ của nó

Trước khi nói tiếp, mình muốn làm rõ vài thứ. Mình viết bài này không phải để làm màu gì cả, cá nhân mình thấy việc điểm trung bình nó càng ngày càng gần con số 10 có nhiều ảnh hưởng. Thứ nhất là việc phân loại học sinh sẽ trở nên khó khăn hơn vì phổ điểm bị dồn hết về bên phải khiến nhiều học sinh bị trùng điểm. Thứ hai là việc tính điểm như thế này sẽ tăng độ nghiêm trọng của các sai số ngẫu nhiên (random error) ví dụ như bị bệnh khi thi chẳng hạn, thì độ cạnh tranh của người dự thi sẽ tụt nhiều hơn so với phổ điển normal distribution chuẩn.

Giải pháp theo ý kiến của mình

1. Bỏ điểm chỉ tính đạt hoặc không đạt và Tính xếp hạng của học sinh khi thi
Ưu điểm: Không có vấn đề chạy điểm trong năm học và dễ phân loại.
Nhược điểm: Thiếu thông tin trong việc phản hồi cho học sinh vì chỉ có đạt hoặc không.
2. Tính điểm theo phần trăm tức số điểm của một học sinh cao hơn bao nhiêu phần trăm của lớp
Ưu điểm: vẫn là dễ phân loại.
Nhược điểm: dễ được phụ huynh so sánh hơn và vẫn tăng ảnh hưởng của các sai số ngẫu nhiên.
3. Tính điểm theo hệ số mũ (exponential) chứ không tuyến tính (linear) như hiện tại và nó trông như thế này:
Trục x là điểm thực còn y là điểm nhận được
Trục x là điểm thực còn y là điểm nhận được
Đường màu đen là đường thể hiện scale của điểm còn màu đỏ là đạo hàm (derivative) của đường màu đen. Đạo hàm của đường màu đen bằng 1 khi x = 6 nên mọi điểm trên 6 sẽ bị thưa (sparse) đi còn dưới 6 sẽ bị dày (dense) đi.
Ưu điểm: có tính phân loại cao hơn vì điểm trung bình bây giờ là 7.5 và các điểm cao hơn 7.5 sẽ bị thưa đi.
Nhược điểm: Vẫn sẽ tồn tại vấn đề chạy thành tích tuy nhẹ hơn và tính điểm sẽ khó hơn.
4. Đổi cách dạy
Bản thân mình biết cách này là tối ưu nhất nhưng thay đổi thế nào thì đó vẫn còn là một câu hỏi khó. Spiderum đã có bài viết bàn về vấn đề này rồi (mà mình quên tên mất rồi T.T). Sang năm sau, chương trình cải cách cho cấp 3 bắt đầu được đưa vào giảng dạy, mình hi vọng đây là một bước tiến nhất định trong nền giáo dục quê nhà. Tuy nhiên, cá nhân mình nghĩ, chừng nào một hệ thống giáo dục còn achievement-oriented thì bệnh thành tích vẫn còn đó thôi.
Mong mọi người thích bài viết và đóng góp ý kiến dưới phần bình luận. Cá nhân mình chỉ mới tập viết nên sẽ có nhiều lỗ hổng, mong mọi người chỉ bảo :)
[1] Data source:
Code cho bài viết: