Nguồn: Internet
Trước khi vào bài viết, mình sẽ nói qua một chút về 2 bộ dữ liệu mình sử dụng. Bộ dữ liệu thứ nhất được crawl về từ các trang web tra cứu điểm thi, y đúc như dữ liệu mà các báo sử dụng để làm phổ điểm. Bộ thứ 2 là điểm thi của TP HCM, được sử dụng để tìm mối liên hệ giữa tháng sinh và điểm thi.
Bộ dữ liệu bị thiếu mất TP Đà Nẵng vì thi muộn. Và trong các bản đồ được sử dụng thì mình sẽ chỉ giữ phần đất liền để tăng sự trực quan (để cả Hoàng Sa và Trường Sa thì bản đồ sẽ quá to không thể nhét vào cùng một ảnh được).

I. Phân tích về các môn thi ngoại ngữ

Ngoài tiếng Anh ra thì học sinh được phép chọn 1 trong 5 ngoại ngữ khác là Trung, Nhật, Pháp, Nga, Đức. Sau đây là biểu đồ về số lượng và điểm thi trung bình của 5 môn thi đó.
Số lượng 5 môn thi ngoại ngữ
Điểm thi TB các môn thi ngoại ngữ






Nếu không tính tiếng Anh thì tiếng Trung là sự lựa chọn số một với 1200 thí sinh, theo sau là tiếng Nhật và tiếng Pháp. Tiếng Nga và tiếng Đức vẫn có người thi nhưng không đáng kể. Xét về điểm trung bình thì hầu như những học sinh chọn môn Ngoại ngữ khác tiếng Anh thì đều có kết quả tốt, trung bình mỗi môn đều trong khoảng 7 – 8 điểm, để lại người anh em tiếng Anh lọt thỏm ở cuối =)). Tiếp đến hãy nhìn qua top 15 tỉnh có nhiều thí sinh thi tiếng Trung nhất.
Top 15 tỉnh đông thí sinh thi tiếng Trung nhất
Lào Cai là tỉnh có đông học sinh thi tiếng Trung nhất, tiếp theo là Quảng Ninh, có thể là do đặc tính địa lý có cửa khẩu quốc tế với Trung Quốc, nhiều người học tiếng Trung để giao dịch làm ăn, ngoài ra thì có Hà Nội và TP HCM là 2 thành phố lớn và Đồng Nai là nơi có nhiều người Hoa Kiều sinh sống.









Đọc thêm:

II. Phân tích toàn cảnh học lực và điểm thi

Phần này mình sẽ sử dụng 3 metrics là điểm thi trung bình toàn tỉnh, tỷ lệ học sinh giỏi (được điểm 9 trở lên hoặc 8 với môn có điểm TB thấp), và phương sai của phổ điểm (dùng để đo mức độ phân tán thống kê của điểm thi, phương sai cao đồng nghĩa với sự bất bình đẳng giáo dục, nhiều thí sinh điểm cao học giỏi nhưng cũng có nhiều thí sinh điểm thấp học kém). Một biểu đồ sẽ gồm 3 bản đồ, theo thứ tự như trên từ trái qua phải và chỉ hiển thị top 15 tỉnh. Đầu tiên hãy đến với môn Toán
Biểu đồ môn Toán theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
Ta có thể thấy một xu hướng rất rõ rệt đó là những tỉnh có điểm TB môn toán cao nhất đều co cụm ở 2 trung tâm đất nước là Hà Nội và TP HCM, chứng tỏ vị trí địa lý là nhân tố quan trọng quyết định học vấn, hay thậm chí là sự giàu mạnh của cả một vùng miền (điều này cũng được giải thích trong cuốn sách kinh điển Súng, vi trùng và thép của Jared Diamond). Nhưng khi xét đến tỷ lệ số học sinh giỏi thì miền Bắc hoàn toàn áp đảo, đại diện duy nhất của miền Nam là TP HCM. Và sau khi xét cả bản đồ cuối cùng về phương sai thì chúng ta có thể rút ra được một số insight sau:
_ Miền Nam học Toán đều hơn miền Bắc, không có hiện tượng bất bình đẳng môn Toán ở miền Nam.
_ Miền Bắc vùng xung quanh Hà Nội học Toán rất giỏi, đặc biệt là Nam Định dẫn đầu cả điểm trung bình lẫn tỷ lệ học sinh giỏi, mà lại không hề có sự bất bình đẳng ở đây (cứ 5 học sinh thi Toán ở Nam Định lại có 1 học sinh được 9 điểm trở lên).
_ Hai tỉnh miền Trung là Thanh Hóa và Nghệ An mặc dù có tỷ lệ học sinh giỏi cao nhưng có sự bất bình đẳng rõ rệt (đặc biệt là Thanh Hóa với top 1). Thế nên nói dân miền Trung học giỏi là chỉ đúng một phần, bởi vì có một bộ phận học rất giỏi nhưng phần đông còn lại thì học lực ở mức bình thường hoặc kém.

Đọc thêm:

Biểu đồ môn Văn theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
Qua 3 bản đồ của môn văn thì ta có thể rút ra những insight sau:
_ Miền Bắc thống trị về điểm Toán thì miền Nam lại dẫn đầu về điểm Văn, đứng đầu là tỉnh An Giang với cả điểm trung bình lẫn tỷ lệ học sinh giỏi. Và quan trọng là miền Nam không hề có sự bất bình đẳng về môn Văn lẫn môn Toán, chứng tỏ lực học rất đều chứ không bị lệnh nhiều như miền Bắc.
_ Các báo sau khi phân tích điểm thi thì nghi ngờ có gian lận điểm môn Văn ở An Giang, nhưng điều này là khó có thể xảy ra khi dữ liệu trên biểu đồ cho ta thấy các tỉnh miền Nam giỏi môn Văn thật sự. Dấu hiệu của gian lận thường sẽ là tỷ lệ số học sinh giỏi cao kết hợp vs có sự bất bình đẳng, mà điểm trung bình lại thấp (vấn đề này sẽ được trình bày chi tiết ở môn Lịch sử).
Biểu đồ môn tiếng Anh theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai

Đọc thêm:

Biểu đồ về điểm thi môn tiếng Anh cho ta thấy:
_ Miền Nam lại một lần nữa vượt trội trong môn tiếng Anh nếu xét về điểm trung bình, ngược lại, với tỷ lệ học sinh giỏi thì miền Bắc vượt trội hơn.
_ Bản đồ cho thấy một quy luật rõ ràng: các tỉnh giỏi tiếng Anh nằm co cụm tại các trung tâm TP lớn và các địa điểm du lịch nổi tiếng có nhiều người nước ngoài. Dọc miền Trung không hề có một tỉnh nào nằm top (có thể có Đà Nẵng nếu dữ liệu đầy đủ).
_ Hà Nội và Sài Gòn là 2 TP trung tâm phát triển nhất của cả nước, quy tụ nhiều tầng lớp trí thức tinh hoa, chúng ta hãy xem họ đầu tư môn học gì nhất cho con cái, tất nhiên đó là tiếng Anh. Mặc dù số thí sinh dự thi cao nhất nước, kèm theo phương sai cao chứng tỏ cũng có rất nhiều học sinh học tiếng anh kém (có thể là ở vùng ngoại ô), nhưng điểm thi TB lẫn tỷ lệ HSG vẫn vượt xa các tỉnh thành còn lại.

Tổng kết lại:

_ Các tỉnh học giỏi thường co cụm xung quanh các TP lớn, cụ thể là thủ đô Hà Nội và TP HCM.
_ Định kiến các tỉnh miền Trung học giỏi chỉ là phần nổi của tảng băng chìm, tình trạng bất bình đẳng giáo dục ở các tỉnh này rất lớn (và cũng có thể là bất bình đẳng thu nhập), chưa nói đến trình độ tiếng Anh của các tỉnh này không ổn, mặc dù tiếng Anh có vai trò rất quan trọng trong xã hội hiện đại.
_ Có thể thấy tình trạng bất bình đẳng giáo dục rất rõ ràng ở miền Bắc, hầu như không có trong miền Nam, liệu có phải do sự bất bình đẳng thu nhập ở miền Bắc trầm trọng hơn ở miền Nam??? Chủ đề này có thể là một chủ đề hay cho các bạn nghiên cứu về giáo dục hoặc văn hóa vùng miền.
_ Nằm trong top điểm TB và tỷ lệ HSG của cả 3 môn và không hề có sự bất bình đẳng nào, chưa kể top 1 môn Toán với điểm số vượt xa phần còn lại, hoàn toàn chính xác khi gọi Nam Định là "đất học".

III. Mối quan hệ tương quan giữa các môn thi

Mối quan hệ tương quan
Chỉ số về mối quan hệ tương quan dao động từ -1 đến 1, càng gần 1 thì sự tương quan đồng biến càng mạnh, ngược lại với -1 là tương quan nghịch biến, và càng gần 0 thì càng không có liên hệ gì với nhau. Những môn có mối quan hệ tương quan đồng biến nghĩa là khi học giỏi môn này thì sẽ có tỉ lệ cao là học giỏi môn kia.
_ Môn Toán có mối quan hệ tương quan mạnh nhất với môn Lý và tiếng Anh. Đối với các môn còn lại thì Toán cũng có hệ số tương quan khá cao trừ môn Sinh.
_ Môn Văn, Anh, Hóa có mối quan hệ tương quan mạnh nhất với môn Toán.
Đây là một nghịch lý bởi Toán thuộc khối các môn tự nhiên, còn Văn với Anh là các môn xã hội. Điều này có thể do văn hóa giáo dục quá chú trọng và đề cao môn Toán của người Á Đông nói chung và Việt Nam nói riêng. Thế nên kể cả những học sinh theo các khối ngành xã hội cũng phải ra sức học môn Toán mặc dù không hề có sự đam mê.
_ Ngoài ra thì không có cặp môn học nào tương quan mạnh (> 0.7), mạnh nhất là Toán - Lý với 0.59 và Toán - Anh với 0.58.

IV. Phân tích thêm về môn Lịch sử

Môn này khá là đặc biệt, bởi vì năm nào nó cũng đội sổ về điểm thi, học sinh ai cũng ghét nó, thế nên mình quyết định phân tích thêm về môn này để xem có insight gì thú vị không.
Biểu đồ môn Lịch sử theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
_ Bản đồ phân bổ không thấy có quy luật gì, các tỉnh trong top điểm thi nằm rất rải rác.
_ Điều thú vị nằm ở sự bất bình đẳng một cách cực đoan ở một số tỉnh được thể hiện bằng điểm TB không cao lắm, nhưng nằm top về tỷ lệ HSG và sự bất bình đẳng (đây có thể là dấu hiệu cho sự gian lận). Có 2 tỉnh thỏa mãn điều kiện này là Cao Bằng và Điện Biên.
_ Kể cả là môn Lịch sử thì Nam Định vẫn nằm top cả điểm TB lẫn tỷ lệ HSG.

V. Sự ảnh hưởng của tháng sinh đến điểm thi

Cuốn sách "Những kẻ xuất chúng" của Malcolm Gladwell có nói về việc tháng sinh ảnh hưởng đến thành tích thi đấu thể thao như thế nào. Đại loại là nếu bạn muốn trở nên xuất chúng trong các môn thể thao ở Mỹ, bạn phải được sinh vào các tháng đầu năm, để khi đến mùa tuyển sinh của các lò đào tạo vào cuối năm thì bạn sẽ có lợi thế hơn với những người sinh đầu năm. Nên mình sẽ thử phân tích điểm thi trung bình 3 môn Toán, Anh, Văn của học sinh TP HCM theo tháng sinh để xem điều trên có đúng với học tập không.
Điểm thi TB
Tỷ lệ học sinh giỏi





Biểu đồ của điểm thi TB đã được thay đổi giá trị mốc với mục đích trực quan. Và như chúng ta thấy, quả thực là những học sinh sinh vào đầu năm có kết quả tốt hơn sinh vào cuối năm. Điều này cũng đúng nếu phân tích riêng từng môn thi một. Thế nhưng khác biệt đó không đáng kể. 
Đây chỉ là một thí nghiệm nhỏ vui vui bởi vì dữ liệu điểm thi ở TP HCM không mang tính đại diện cho tất cả học sinh Việt Nam, nên mình chỉ làm một cách đơn giản chứ đúng ra là phải thực hiện các kiểm định giả thuyết thống kê thì mới chuẩn chỉnh.

Kết bài

Trên đây là bài phân tích của mình về học lực và giáo dục của các tỉnh thành Việt Nam thông qua dữ liệu điểm thi đại học. Mong rằng sau bài viết này, các bạn có thể thấy được sự thú vị của Data Science, đặc biệt là ở mảng Data Analytic. Với những bạn muốn tham khảo cách mình xử lí data thì mình có để link Github ở phía dưới.

Các bài viết khác của tác giả:

Recommend thêm một kênh rất hay về khoa học, vừa mới viết series bài về Xác suất thống kê mình thấy rất hay:


Sắp tới mình sẽ viết thêm nhiều bài viết về khoa học dữ liệu, phân tích insight từ các bộ dữ liệu hay, và cả những chủ đề thú vị khác nữa. Nếu không muốn bỏ lỡ thì hãy follow mình nhé :))
Đọc thêm: