logo
Văn Khôi Ngô @khoilu95
Hiding within those mounds of data is knowledge that could change the life of a patient, or change the world
395 Followers
0 Followings
840 Spiders
  • logo

    miel123

    21 tháng 11
    Xin chào anh ^^
    Đầu tiên cảm ơn anh vì đã bỏ công sức research và execute một topic hay ho không kém các topic khác của anh nè
    Sau xin cảm ơn các tiền bối để lại cò men ạ, một số đúng nhưng một số em cũng không đồng tình, tất nhiên là với góc nhìn của mình, từ đó biết được thêm một vài cách tiếp cận vấn đề.
    Em nghĩ chúng ta có thể cân nhắc thay đổi một tí để mọi thứ được clear hơn, anh không phải communicate lại cho mọi người, ví dụ như
     - Thêm trường thông tin vào title: dữ liệu điểm thi TP HCM, góc nhìn cá nhân, dựa
    - Redefine một số terms sensitive, dễ bị hiểu sai mình dùng trong bài, ở đầu hoặc cuối bài, ví dụ như "học sinh giỏi" của mỗi môn là học sinh có điểm thi từ 9 trở lên,
    - Clarify dataset mình sử dụng: ở đây em thấy mình dùng dataset điểm đầu vào của ĐH Sài Gòn, một số hypothesis khác mình có dùng điểm thi của cả nước (nếu không tính các quần đảo)
    - Một câu trả lời cho title, để mọi người có thể keep title đó trong đầu, đỡ phải vất vả explain cho nhau (giả sử không đọc code của anh ở Github~~)
    - Em có hơi hụt hẫng một tẹo vì đọc vài dòng caption cuối của anh, cảm thấy như anh đang refuse công sức của mình và conclusion không work vậy. Nên sẽ rất tuyệt nếu anh có thể dành thêm chút thời gian thêm các kiểm định cho conclusion của mình ạ. Conclusion của anh work trong condition mà.
    Tóm lại thì em rất ngưỡng mộ thời gian và đầu óc có thể nghĩ ra những topic hay ho như này, hóng các bài viết tiếp theo của anh ạaa
    Btw thì em sinh tháng 8 và điểm chác của em thì cũng không khá khẩm mấy như graph của anh có indicate haha
    Another btw, em có request friend trên facebook, mong anh accept ạ. Viết dài dòng nhưng cũng chỉ để làm nền cho đoạn cuối này thôi nên yeah, pls :3
    2
    logo

    khoilu95

    21 tháng 11
    thank e đã góp ý :))
    1
  • logo

    acbaby

    18 tháng 11
    Mình thấy dân NĐ mình hay có kiểu bảo thủ truyền thống kiểu Nho học ngày xưa, đôi lúc thành ra giáo điều thái quá. Truyền thống khuyến học của NĐ rất mạnh, mạnh từ tỉnh đến phường xã xóm làng, đâu đâu cũng khuyến khích con em mình học lên cao nữa. Nhưng đến khi học được kiến thức rồi thì lại hoang mang không biết áp dụng vào đâu.
    Một điểm nữa mình thấy là có vẻ dân NĐ bộc trực quá, thẳng tính quá, không có cái chất "quái" như dân Hải Dương, hay không linh hoạt như dân Quảng Ninh vốn quen buôn bán. Điều này dẫn đến tư tưởng thủ phận, thích hợp để vào những đơn vị sự nghiệp kiểu nhà nước hơn là khối tư nhân cần đổi mới sáng tạo liên tục.
    NĐ có không thiếu những "làng tiến sĩ" như Hành Thiện (làng cụ Trường Chinh), cũng không thiếu những cá nhân kiệt xuất, nhưng cái người NĐ thiếu chính là sự mềm dẻo và linh hoạt trong tư duy.
    Chỉ là ý kiến cá nhân theo những gì mình quan sát được.
    2
    logo

    khoilu95

    18 tháng 11
    Y đúc vùng quê Nghệ An của mình =)). Thế nên mình viết bài này nhằm mục đích đề cao việc học hỏi những vùng miền phát triển khác, VD như HN hay SG với xu hướng đầu tư cho tiếng Anh. Chứ chỉ có mỗi học giỏi toán lý hóa thì như Nghệ An mình vẫn muôn đời nghèo vs tham nhũng
    2
  • logo

    khoilu95

    17 tháng 11
    The school of life thì xịn r, bài dịch của b cũng chất lượng :))
    5
  • logo

    acbaby

    17 tháng 11
    Dân NĐ không thiếu người giỏi, nhưng các thế hệ lãnh đạo của tỉnh quá bảo thủ, chậm tiến, không đổi mới, chỉ chăm chăm giữ ghế và vòi tiền khiến cho các doanh nghiệp cũng phải quay lưng lại mà bỏ chạy. Từng có những thời điểm gần 1 nửa số ghế của "Bộ ít người" là người Nam Định, nhưng rồi đâu cũng vào đấy, tỉnh nghèo vẫn hoàn nghèo.
    Xét đến số lượng giáo sư tiến sĩ thì NĐ cũng vượt trội so với phần còn lại nếu bỏ qua HN. Thậm chí TPHCM còn ít hơn về số lượng so với NĐ.

    1
    logo

    khoilu95

    17 tháng 11
    Đúng r Nghệ An quê mình cũng có tình trạng tương tự, âu đó cũng là tình trạng chung cho hầu hết địa phương ở VN, thế nên giờ về có muốn về quê sống cũng khó =))
    2
  • logo

    d23e9e

    17 tháng 11
    Mình đánh giá cao công sức thực hiện thí nghiệm và mong muốn đưa khoa học dữ liệu đến gần hơn với đại chúng của bạn, mình có vài gợi ý để bài viết/thí nghiệm này có thể được cải thiện thêm:

    1. Theo mình, bài viết bị kéo giãn một cách không cần thiết, lẽ ra bạn có thể viết ngắn đi còn khoảng 2/3 là đã đủ ý, tiết kiệm thời gian cho người đọc, hoặc đi sâu hơn vào ý nghĩa thống kê của kết quả xử lý dữ liệu.

    2. Chỉ dựa vào trung bình, phương sai, và tỉ lệ top performer đôi khi có thể bị lừa dối bởi kết quả phái sinh. Có thể đánh giá thêm phân bố là unimodal hay multimodal, tức là đánh giá xem tập mẫu có đang bị ghép nối địa lý/dân số một cách nhân tạo hay không. Ví dụ, Hà Nội mở rộng gần đây, miền núi và đồng bằng gần sát nhau, hay sự bất đồng nhất của cấu trúc nhân khẩu học… Việc làm này giúp có thêm một số kết luận hữu ích cho bài viết. 

    3. Mình chưa rõ cách bạn làm sạch dữ liệu, nhưng góp ý vài điểm nếu bạn chưa làm, nếu có thể, như, lọc thí sinh tự do (nơi thi và nơi học tập ít tương quan hơn nhóm còn lại), thí sinh bỏ thi (0 điểm)…

    4. Có một số ý được thêm vào bài viết không được hỗ trợ bởi dữ liệu trong bài, mà chủ yếu dựa vào thiên kiến cá nhân, bạn nên tách nó ra thành một bài viết khác sẽ hợp lí hơn, tránh làm loãng kết quả phân tích dữ liệu và hướng thảo luận, như:
     - Tầm quan trọng của ngoại ngữ/tiếng Anh.
     - Giải thích "nghịch lý" trong quan hệ tương quan giữa môn tự nhiên và xã hội. Thêm nữa, không có cặp môn học nào có tương quan mạnh (>0.7), đây cũng là điều nên ghi chú vào bài viết. 
    3
    logo

    khoilu95

    17 tháng 11
    1 và 4: Mình xin ghi nhận
    2: Nếu làm như bạn nói thì k đủ dữ liệu và sức người :)), bài này chỉ dừng ở mức phân tích chứ chưa đến mức NCKH
    3: Mình đã clean chuẩn chỉnh nhất có thể r

    Anw thank you đóng góp rất bổ ích của bạn :))
    1
  • logo

    Miyukachan

    17 tháng 11
    Đã xóa
    1
    logo

    khoilu95

    17 tháng 11
    Đà Nẵng thi muộn k có dữ liệu, các tỉnh miền Trung phía dưới toàn thấp thì phân tích gì hả e =)), e nhìn map là cũng thấy r đó, còn các tỉnh miền trung phía trên a có phân tích trên r
    1
  • logo

    tdbui1209

    17 tháng 11
    Em đang tự học data science trên edx với coursera, datacamp, kaggle, có bài viết của bác làm cho em thấy như vỡ ra được 1 số thứ. Mong bác ra nhiều bài viết hơn để em có thể học hỏi theo 🤭
    Mà nhân tiện bác có thể cho em xin data được không ạ? 🤭
    2
    logo

    khoilu95

    17 tháng 11
    bạn lục ở trong này nha: https://github.com/beecost/bee-university
    1
  • logo

    sam1996

    17 tháng 11
    Bài viết rất hay, nhưng mà 3 metrics được sử dụng: điểm thi trung bình toàn tỉnh, tỷ lệ học sinh giỏi và phương sai của phổ điểm, mình nghĩ chỉ mang tính chất tương đối. Bởi vì theo mình biết thì các trường học ở địa phương nhỏ thường không quá khắt khe trong việc canh thi, chưa kể một số trường học lại có nhược điểm xấu là bệnh thành tích. Những yếu tố này sẽ ảnh hưởng nhiều ít đến điểm thi trung bình của toàn tỉnh và cả tỉ lệ học sinh giỏi nữa. Vì vậy mà mình nghi ngờ sự chính xác của các insight trong bài viết. 

    Đây chỉ là ý kiến riêng của mình thôi, dù sao thì đây cũng là một bài viết hay và có sự đầu tư, cảm ơn bạn. 
    2
    logo

    khoilu95

    17 tháng 11
    mình cũng muốn làm như b ns đó nhưng chỉ có người của BGD ms có data đầy đủ, và nó sẽ k bao giờ được public nên làm như trên là chi tiết nhất r =))
    2
  • logo

    Crazyfox

    17 tháng 11
    ôi sao cái suy nghĩ bạn nó hợp với tôi quá chừng! Quan điểm của tôi là ko thể thay đồi tư duy người xung quanh nhưng cố gắng thay đổi mình và thế hệ sau mình.
    1
    logo

    khoilu95

    17 tháng 11
    có một cách là lên làm lãnh đạo tỉnh =)), nhưng cái này nghe no hope quá =))
    1
  • logo

    Crazyfox

    17 tháng 11
    haha, thôi thì biết để phấn đấu và thay đổi vậy. Sự racist và co cụm là có thật.
    1
    logo

    khoilu95

    17 tháng 11
    yeah, phấn đấu lo cho bản thân mình thôi chứ ước mơ thay đổi miền Trung nó là impossible r =)), riêng việc thay đổi cách tư duy của những ng xung quanh mình đã là điều k thể
    2
  • logo

    MonsterBox

    17 tháng 11
    Cám ơn bạn đã mentioned Monster Box nhé, bài viết của bạn rất đầu tư và trình bày rõ ràng.

    Tuy vậy, khi đặt vấn đề ở đầu bài về giải đáp định kiến, mình nghĩ bài viết này chưa thỏa mãn. Việc phân tích dữ liệu để chỉ ra hiện trạng và chỉ dừng lại ở đó thì quá ổn, nhưng sẽ là hời hợt nếu chỉ dùng dữ kiện để giải thích cho thứ tồn tại lâu đời là định kiến. Thậm chí nó còn có hại vì thường sẽ tiếp tục chứng minh tính đúng đắn cho định kiến dù không hề có quan hệ nhân quả trong dữ liệu.

    Tức có thể có tương quan về mặt dữ liệu, nhưng không nhất thiết trùng khớp với diễn ngôn thông thường trong đời sống. Nhưng người đọc phổ thông sẽ không nhận ra điều này. Vì vậy, để đưa đến kết luận "Nam Định là đất học" hay "miền Trung không giỏi như mọi người thường đồn thổi" (như đúng vấn đề được đặt ra ở phần mở đầu), mình nghĩ cần phân tích dữ liệu sâu hơn, đặc biệt chú trọng đến các quan hệ nhân quả.

    Cám ơn bài viết của bạn, và hi vọng sẽ có thêm các bài viết trong tương lai để cùng nhau bàn luận. Vì dữ liệu không biết nói dối, nhưng tâm trí của chúng ta thì có :D 
    12
    logo

    khoilu95

    17 tháng 11
    Thực ra phần đầu nhắc đến định kiến là do mình k nghĩ được cách mở bài nào khác =)), chứ thực ra bài viết chỉ dừng ở mức như MB nói ở đầu, là phân tích dữ liệu để chỉ ra hiện trạng và dừng lại ở đó. Dù sao cũng thank MB nhé :))
    2
  • logo

    hathnga

    16 tháng 11
    Hay suất sắc
    2
    logo

    khoilu95

    17 tháng 11
    thanks b, tên b ấn tượng đấy =)), b giờ đang làm DS ở đâu :))
    2
  • logo

    xuanhaihe140359

    17 tháng 11
    hay thật sự =))) ông theo data science lâu chưa?
    2
    logo

    khoilu95

    17 tháng 11
    Mình ms theo 1 năm thôi b :))
    1
  • logo

    thanhthanhngoc

    17 tháng 11
    1. Mình thắc mắc tại sao lại có mối liên hệ giữa tháng sinh và điểm thi. Đây là mối liên hệ nhân quả trực tiếp, hay đơn thuần chỉ là trừng hợp ngãu nhiên.
    2. MỘT SỐ KHÁI NIỆM
    Metrics: Số liệu
    Insight: Điểm nhấn
    Mối tương quan đồng biến: Khi học giỏi môn này cũng có xu hướng kéo theo môn kia giỏi, hai môn tương hỗ nhau.
    Mối tương quan nghịch biến: Khi học giỏi môn này có xu hướng đẩy môn kia kém hơn, hai môn triệt tiêu nhau
    2 VỀ MÔN SỬ
    Sự chênh lệch trong số liệu điểm môn sử không hẳn biểu hiện cho sự gian lận, mà là phản ánh quá trình học tập có sự chênh lệch. Nếu như phần nhiều học sinh không thích nó, thì có phần ít học sinh nghiên cứu say mê .
    Nếu rơi vào tình huống này thì cũng là điều đàng mừng, môn sử vẫn thu hút được một nhóm người tham gia nghiên cứu. Nhưng đáng buồn là khả năng phổ biến kiến thức lịch sử cho học sinh quá kém
    2
    logo

    khoilu95

    17 tháng 11
    1. Cái này mình chỉ làm một thí nghiệm nhỏ vui vui, nếu xét về thể thao thì có thể nói đó là mối quan hệ nhân quả trực tiếp, bạn đọc thêm về Những kẻ xuất chúng của Malcolm Gladwell

    2. Mình chỉ ns đó có thể là dấu hiệu cho gian lận, chứ k khẳng định chắc chắn. Những năm trước hà giang cũng phát hiện ra gian lận nhờ dấu hiệu này. Bây giờ thì ng ta có thể k dám gian lận bằng môn toán lý hóa nhưng sinh sử địa thì vẫn có thể. Mình k bao giờ tin là VN k có gian lận bởi vì thời mình đi học, chạy điểm thi đại học vào các ngành công an đã có r và cực kì tinh vi, nếu k phân tích như trên thì k bao giờ phát hiện được

    3. Metrics và insight k thể dịch như bạn được :)), những từ này mn đều dùng tiếng anh nên mình cũng k biết tiếng việt gọi là gì
    1
  • logo

    namaman

    17 tháng 11
    khá thú vị. bạn có thể phân tích thêm 1 chút về Nam Định được ko. tỉnh ko giầu, ko sát Hà Nội. ko có du lịch. sao lại học giỏi thế. 

    thanks.
    2
    logo

    khoilu95

    17 tháng 11
    cái này mình chịu :)), dân Nam Định học giỏi nhưng lên đại học k nổi trội, thời mình học ở HN thì mình thấy dân HN, thanh hóa, hải phòng là giỏi nhất
    1
  • logo

    Crazyfox

    17 tháng 11
    Tuyệt vời, xịn sò, ko quá công phu nhưng ăn đứt nhiều "báo cáo" lê thê khác. Qua tuyệt bạn ạ!
    Mình là người Trung và trước giờ cũng đau đáu suy nghĩ là miền trung mang tiếng học giỏi nhưng có lẽ chỉ là phần nổi, mang tính cá thể và ko đại diện được. Và phần lớn là do truyền thông thôi.
    2
    logo

    khoilu95

    17 tháng 11
    mình cũng là ng Nghệ An. Học sinh miền Trung từ lâu đã bám vào cái định kiến người miền Trung học giỏi, k chịu học những cái giỏi của dân HN hay SG thậm chí còn racist và co cụm lại chơi vs nhau, kết quả là cái tầm tư duy nó chả bao giờ thay đổi được, vẫn nghèo, vẫn tham nhũng, mỗi cái là nhiều xe hơi =))
    2
  • logo

    ngvanlyy

    16 tháng 11
    t thấy bất bình đẳng điểm còn do đầu vào cấp 3 nữa.Ở HN , chưa tính trường chuyên, các trường nội thành với trường điểm ngoại thành đầu điểm chuẩn từ khá đến rất cao.Còn ở ngoại thành phần lớn điểm khá thấp, chỉ cần thi điểm trung bình là vào đc.Trường cao nhất điểm gấp 3.25 lần trg cuối bảng thì chả chênh lệch mạnh.
    2
    logo

    khoilu95

    16 tháng 11
    yeah đúng r bạn, nhưng nó cũng có thể quy về bất bình đẳng thu nhập, vùng nội thành khả năng cao là thu nhập sẽ cao hơn vùng ngoại thành :))
    1
  • logo

    khoilu95

    16 tháng 11
    A đã đọc blog của e, sao e ms 96 mà giỏi vậy =))
    1
  • logo

    Onlya7adn

    16 tháng 11
    Những phân tích bằng kỹ thuật thực sự đơn giản, học sinh cấp 3 cũng có thể hiểu được. Cái đó là phần mình thấy môn toán THPT đáng học nhất (xác suất và thống kê). Mình đã đọc hết các bài phân tích của bạn trên spiderum, mong rằng sẽ có nhiều chủ đề hay ho hơn nữa 🙂
    2
    logo

    khoilu95

    16 tháng 11
    nhìn đơn giản nhưng làm cũng mất công lắm bạn =)), môn XSTK là một trong những môn ứng dụng nhiều nhất vào cs, chỉ là nó khó để hiểu được một cách rõ ràng
    2
  • logo

    khoilu95

    16 tháng 11
    vấn đề ở VN là ng VN xem cả porn lẫn jav, thế nên khá là khó để xác định keyword, và số liệu thất nghiệp ở VN thì k đáng tin cậy nên cũng k có số liệu chuẩn để đối chứng =))
    1