Một kì thi tốt nghiệp THPT quốc gia nữa lại trôi qua. Nối tiếp bài viết phân tích điểm thi đại học năm 2021, đến hẹn lại lên, năm nay mình tiếp tục phân tích điểm thi năm 2022 với một số sự so sánh so với năm trước kèm theo một số insight thú vị khác, dĩ nhiên là không thể thiếu phần so sánh năng lực học tập thể hiện bằng kết quả kì thi giữa các tỉnh, vùng miền với nhau.

I. So sánh phổ điểm giữa năm 2020, 2021 và năm 2020

Biểu đồ Histogram điểm Toán giữa năm 2020, 2021 và 2022
Biểu đồ Histogram điểm Toán giữa năm 2020, 2021 và 2022
Điểm yếu vị (mode - giá trị xuất hiện nhiều nhất) của cả 3 năm đều giống nhau là 7,8. Phân bố điểm Toán năm nay không khác gì năm trước, đường lên cũng dốc mà đường xuống còn dốc hơn. Điều này có thể chỉ ra rằng tính phân loại thí sinh của đề Toán năm nay không được tốt, khi mà độ khó của các câu hỏi chỉ nằm ở hai thái cực: cực dễ và cực khó.
Biểu đồ Histogram điểm Văn giữa năm 2020, 2021 và 2022
Biểu đồ Histogram điểm Văn giữa năm 2020, 2021 và 2022
Biểu đồ Histogram điểm Văn giữa 3 năm không có nhiều sự khác biệt, và đều có đường cong khá chuẩn.
Biểu đồ Histogram điểm tiếng Anh giữa năm 2020, 2021 và 2022
Biểu đồ Histogram điểm tiếng Anh giữa năm 2020, 2021 và 2022
Còn nhớ, đề thi tiếng Anh năm 2021 gây rất nhiều tranh cãi trên báo chí và truyền thông khi tạo ra một phổ điểm vô cùng bất bình thường. Rút kinh nghiệm từ đó, đề thi năm nay tạo ra một phổ điểm bình thường hơn, khá giống phổ điểm năm 2020.

II. Phân tích toàn cảnh học lực và điểm thi

Phần này mình sẽ sử dụng 3 metrics là điểm thi trung bình toàn tỉnh, tỷ lệ học sinh giỏi (được điểm 9 trở lên), và phương sai của phổ điểm (dùng để đo mức độ phân tán thống kê của điểm thi, phương sai cao đồng nghĩa với sự bất bình đẳng giáo dục, nhiều thí sinh điểm cao học giỏi nhưng cũng có nhiều thí sinh điểm thấp học kém). Một biểu đồ sẽ gồm 3 bản đồ, theo thứ tự như trên từ trái qua phải và chỉ hiển thị top 15 tỉnh. Đầu tiên hãy đến với môn Toán.
Biểu đồ môn Toán theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
Biểu đồ môn Toán theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
Ta có thể thấy một xu hướng rất rõ rệt đó là những tỉnh có điểm TB môn toán cao nhất đều co cụm ở 2 trung tâm đất nước là Hà Nội và TP HCM, miền Trung đóng góp 1 đại diện duy nhất là thành phố cảng Đà Nẵng, chứng tỏ vị trí địa lý là nhân tố quan trọng quyết định học vấn, hay thậm chí là sự giàu mạnh của cả một vùng miền. Nhưng khi xét đến tỷ lệ số học sinh giỏi thì miền Bắc và miền Trung hoàn toàn áp đảo, miền Nam thậm chí không có một địa phương nào góp mặt trong top. Và sau khi xét cả bản đồ cuối cùng về phương sai thì chúng ta có thể rút ra được một số insight sau:
_ Miền Nam học Toán đều hơn miền Bắc, ít có hiện tượng bất bình đẳng môn Toán ở miền Nam.
_ Miền Bắc vùng xung quanh Hà Nội học Toán rất giỏi, đặc biệt là Nam Định dẫn đầu cả điểm trung bình lẫn tỷ lệ học sinh giỏi, mà lại không hề có sự bất bình đẳng ở đây. Lại thêm 1 năm nữa Nam Định dẫn đầu điểm thi môn Toán trên toàn quốc.
_ Thanh Hóa tiếp tục thể hiện sự bất bình đẳng giáo dục khi 3 năm liên tiếp đứng top 1 trong BXH phương sai của phổ điểm môn Toán.
_ Biểu đồ môn Toán năm 2022 gần như y hệt năm 2021 (các bạn có thể xem lại bài phân tích năm 2021 của mình để thấy rõ điều này), chứng tỏ giáo dục môn Toán ở các địa phương gần như không có mấy sự thay đổi (và có thể là cả các môn khác nữa, khi mà giáo dục VN chủ yếu dành sự tập trung cho môn Toán).
Biểu đồ môn Văn theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
Biểu đồ môn Văn theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
Qua biểu đồ môn văn thì ta có thể rút ra những insight sau:
_ Vào năm 2020 thì miền Nam có thành tích rất tốt về môn Văn, nhưng qua năm 2021 và đặc biệt là năm nay - 2022, thì miền Bắc hoàn toàn áp đảo về cả chỉ số điểm trung bình lẫn tỉ lệ HSG. Vị trí top 1 điểm trung bình lẫn tỉ lệ HSG năm nay thuộc về Hải Phòng, còn ngôi vương năm ngoái là tỉnh Hà Nam thì nay tụt xuống vị trí thứ 3. Thật lạ vì năm trước, Hải Phòng chỉ đứng ở vị trí 31 với điểm trung bình và 25 với tỉ lệ số HSG.
_ Điểm môn văn của các tỉnh qua các năm không đồng nhất như môn Toán, chứng tỏ yếu tố đề thi đóng một vai trò quan trọng trong điểm môn thi này.
_ Đối với miền Nam, vẫn như năm 2020 và 2021, chúng ta thấy rất ít sự bất bình đẳng về điểm môn Văn lẫn môn Toán, chứng tỏ học lực rất đều chứ không bị lệnh nhiều như miền Bắc.
Biểu đồ môn tiếng Anh theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
Biểu đồ môn tiếng Anh theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
Biểu đồ về điểm thi môn tiếng Anh cho ta thấy:
_ Các tỉnh giỏi tiếng Anh chủ yếu nằm xung quanh các trung tâm TP lớn và những địa điểm du lịch nổi tiếng có nhiều người nước ngoài.
_ Lại một môn nữa thể hiện sự đồng đều trong lực học của các tỉnh miền Nam (dựa vào bản đồ phương sai).
_ TP.HCM tiếp tục dẫn đầu nước về điểm trung bình, nhưng tỉ lệ HSG thì đã bị vượt mặt bởi Hà Nội.

Tổng kết lại:

_ Các tỉnh học giỏi thường co cụm xung quanh các TP lớn, cụ thể là thủ đô Hà Nội và TP HCM. Có thể thấy tình trạng bất bình đẳng giáo dục thể hiện rất rõ ràng ở miền Bắc, và ngược lại đối với miền Nam.
_ Nằm trong top điểm TB và tỷ lệ HSG của cả 3 môn và không hề có sự bất bình đẳng nào, chưa kể top 1 môn Toán với điểm số vượt xa phần còn lại, hoàn toàn chính xác khi gọi Nam Định là "đất học".
_ Hầu hết các phân tích ở trên đều tương đồng với năm 2021 và 2020. Có thể có những đặc điểm cố hữu về giáo dục, học vấn của các tỉnh, vùng miền gây ra bởi tính chất địa lý hoặc các sự kiện lớn trong lịch sử. Sở GD&ĐT các tỉnh thành có thể dựa vào đây để đề ra những chính sách nhằm cải thiện năng lực học vấn, giúp cho quê hương mình ngày một văn minh, giàu đẹp.

III. Phân tích thêm về môn Lịch sử

Môn này khá là đặc biệt, bởi vì năm nào cũng đội sổ về điểm thi, học sinh không mấy người thích học, thế nên mình quyết định phân tích thêm về môn này để xem có insight gì thú vị không.
Biểu đồ môn Lịch sử theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
Biểu đồ môn Lịch sử theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
_ Bản đồ điểm trung bình phân bổ khá rải rác. Nhìn cả 3 bản đồ thì top các tỉnh chủ yếu tập trung ở miền Bắc. Thể hiện việc học sử ở miền Bắc nghiêm túc hơn, và đồng thời lực học giữa các học sinh cũng lệch hơn so với miền Nam.
_ Kể cả là môn Lịch sử thì Nam Định vẫn nằm top cả điểm TB lẫn tỷ lệ HSG.

IV. Mối quan hệ tương quan giữa điểm các môn thi và chỉ số PCI

Chỉ số PCI là tên viết tắt tiếng Anh của Chỉ số Năng lực cạnh tranh cấp tỉnh (Provincial Competitiveness Index) – Chỉ số đo lường và đánh giá chất lượng điều hành kinh tế, mức độ thuận lợi, thân thiện của môi trường kinh doanh và nỗ lực cải cách hành chính của chính quyền các tỉnh, thành phố tại Việt Nam, qua đó thúc đẩy sự phát triển của khu vực kinh tế tư nhân. Được xây dựng từ dữ liệu điều tra doanh nghiệp thường niên có quy mô lớn nhất, thực hiện một cách công phu nhất tại Việt Nam hiện nay, Chỉ số PCI chính là “tập hợp tiếng nói” của cộng đồng doanh nghiệp dân doanh (là dạng doanh nghiệp ngoài Nhà nước) về môi trường kinh doanh tại các tỉnh, thành phố ở Việt Nam.
Dữ liệu PCI được sử dụng là của năm 2021 (mới nhất), và mình sẽ thử tính sự tương quan giữa các chỉ số PCI và điểm thi đại học các môn.
Hệ số tương quan giữa điểm thi và chỉ số thành phần PCI của các tỉnh
Hệ số tương quan giữa điểm thi và chỉ số thành phần PCI của các tỉnh
Ô vuông có màu càng xanh hoặc càng nâu thì tương quan càng mạnh. Như chúng ta có thể thấy, điểm số PCI có sự tương quan cao nhất với điểm trung bình môn tiếng Anh với hệ số tương quan bằng 0.67 - một con số thể hiện sự tương quan khá mạnh. Xếp thứ 2 là môn toán với sự tương quan ở mức độ khá. Ngoài ra thì môn tiếng Anh còn có sự tương quan cao với chỉ số "Chính sách hỗ trợ doanh nghiệp" và "Đào tạo lao động", thể hiện kinh tế tư nhân của một địa phương có sự tương quan với trình độ tiếng Anh của học sinh tỉnh đó.

V. Kết bài

Trên đây là bài phân tích của mình về điểm thi tốt nghiệp THPT năm 2022. Mong rằng sau bài viết này, các bạn có thể thấy được sự thú vị của Data Science, đặc biệt là ở mảng Data Analytic. Với những bạn muốn tham khảo cách mình xử lí data thì mình có để link Github (kèm với dữ liệu) ở phía dưới:
Sắp tới mình sẽ viết thêm nhiều bài viết về khoa học dữ liệu, phân tích insight từ các bộ dữ liệu hay, và cả những chủ đề thú vị khác nữa. Nếu không muốn bỏ lỡ thì hãy follow mình nhé :))