Sau đợt tech lay-offs thì một vài bạn trẻ tâm sự với mình về việc các bạn nhận ra thị trường Data Science (DS) không còn up-trend và sexy như xưa nữa. Có thể điều đó là đúng, thị trường việc làm của DS đang tự điều chỉnh, hoặc cũng có thể không đúng, vì thị trường chung đều như vậy chứ không chỉ riêng ngành DS. Mình và đồng nghiệp xung quanh thường nhận được rất nhiều câu hỏi liên quan tới việc nên học khoá gì hoặc trung tâm nào và review course/certificate v.v. nhằm tăng khả năng đậu vòng CV. Đột nhiên việc học thêm khoá online để lấy certificate hoặc đi học trung tâm dạy code trở thành một xu hướng, và nó đang có khả năng trở thành một cuộc chạy đua vũ trang của các bạn trẻ khi chỉ mới năm 2 năm 3 đại học.
Mình thì nghĩ flex CV bằng cấp code ciếc không có gì không ổn, càng học càng tốt, càng biết nhiều càng có thế mạnh, nhưng cái vấn đề ở đây là các bạn đang không hiểu mình học để làm gì. Cộng thêm việc các bạn nhồi nhét keywords liên quan tới DS kinh điển trong project Github như K-means Clustering (oigioioi), Customer Segmentation, Revenue Prediction, Linear Regression, hay là mấy cái thuật toán khu rừng ngẫu nhiên gì gì đấy :)) Nhưng khi đi mock interview thử chỉ hỏi vài câu cơ bản liên quan tới mean median interquartile với outlier thôi thì các bạn đã không hiểu vì sao nó liên quan tới các dự án của chính các bạn để trong CV.
Mình ủng hộ việc dạy và học về mảng Data Analytics của các trung tâm, nhưng mình không ủng hộ việc đào tạo gà công nghiệp bằng cách lùa gà đóng học phí đảm bảo có việc làm (làm gì đố biết), vì các dataset mà các bạn thực hành thường là các dataset đã “chuẩn hoá" (chạy distribution ra normal liền, ghê chưa ghê chưa), đề bài về business đã rất cụ thể (phân tích revenue, nhưng bối cảnh vì sao phải phân tích cũng không rõ), và có “đáp án" đúng/sai (k-means bao nhiêu clusters thì “đẹp", xong tự đặt tên segments kiểu light user vs hardcore user :)), vẽ data 3 chiều phân biệt màu theo segment các kiểu con đà điểu). Lúc đi làm mình chả bao giờ import numpy drop duplicate phát ra “clean" data cả, mà chắc do mình cùi bắp :)) Cái quá trình lấy và lọc data liên quan (lọc cho đã, lọc cho clean, lọc cho đúng tutorial xong còn dư lại toàn outlier thuộc hàng hardcore user xong chém lên bảo user quality cao…) để trả lời câu hỏi Business là một quá trình xuyên suốt dự án, nó không có tuyến tính đi từ step này (clean) sang step nọ (analyze), nó như một vòng lặp while True, thậm chí khi đã submit report xong còn phải nghĩ tiếp tới công đoạn follow-up analysis tiếp theo nữa.
Mình may mắn vì thời gian chập chững mới vào ngành mình có network với một vài người thầy/bạn dẫn dắt rất có tâm (không tiện nêu tên vì sợ các bạn nghĩ mình lùa gà). Nói chung muốn học thì tốt, nhưng vì sao học và học xong để làm gì thì nên nghĩ kĩ lại. Học có chủ đích là cái mà các bạn nên quan tâm khi đi học ở trung tâm, hơn là học tool kéo thả hoặc import library, trang bị buff Machine Learning cực mạnh lên full giáp python gáy inh ỏi trong CV.
Ngày xưa lúc mới vào ngành lúc sync 1-1 với sếp mình luôn gào khóc đòi mentorship. Mình thẳng thắn với sếp là mình không cần manager delegate task, mình cần người định hướng hơn. Thử hỏi phân tích ra p-value = 0.049 xong làm gì tiếp theo bây giờ? Mình cần một mentor có thể cho mình ý kiến, có thể combat và trao đổi góp ý mang tính xây dựng, chứ không phải chỉ đơn thuần “Em ơi xong chưa gửi email report đi". Mà bây giờ đi làm 3 năm rồi thì mình cũng thế, mình vẫn cần mentorship, có thể là từ sếp, từ đồng nghiệp, từ cross-team, từ stakeholders, v.v.
Có quá nhiều bài viết nói về thế giới màu hồng của Data Analyst (DA), nên để tạo nét thì mình sẽ đi ngược lại đám đông và kể lể một vài điểm mình không thích khi làm Data Analyst :v
1. Mind-reader, Translator, Analyst kiêm Consultant:
Thường thì các stakeholder hay đặt các câu hỏi mà không thực sự trực tiếp trả lời câu hỏi của chính họ, mà để trả lời cái mà họ muốn bet-in vào. Ví dụ: "Vì sao user thích dùng tính năng này". Câu hỏi này mắc lỗi nguỵ biện, vì lấy đâu ra việc user “thích" để có thể phân tích các yếu tố làm họ thích? Việc trả lời câu hỏi đã là một sự khẳng định ngầm là user "thích tính năng này" rồi. Cơ mà nếu tìm được yếu tố thích rồi thì sao? Chúng ta có ra được action gì không hay chỉ know for fun? Để trả lời các câu hỏi kiểu này thường sẽ yêu cầu các bạn DA chuẩn bị sẵn sàng các kĩ năng như thuật đọc tâm (stakeholder không nói ngữ cảnh phân tích nhưng chúng ta phải tự biết), khả năng phiên dịch từ insight ra action mà các stakeholder muốn (99% là insight không liên quan tới pre-defined action, nhưng bạn có muốn được tăng lương nhận thưởng cuối năm không nào?), sau đó mới tới khả năng phân tích. Thậm chí, khi trả lời được câu hỏi vì sao, ví dụ như user thích vì rẻ, vì nhiều voucher, thì chúng ta sẽ bị hỏi ngược lại: thế thì các bạn DA đề xuất team nên làm gì nữa. Vì lẽ đó DA còn cần phải mài giũa khả năng tư vấn và problem solving skills, tự mày mò data mining, tự đẻ ra insight lắp ráp vào bức tranh ngữ cảnh tự tưởng tượng, và tự nghĩ cách thổi hồn cho bức tranh đó có sức sống (nói sang mồm thì chính là data-driven recommendations based on actionable insights).
2. Fortune-teller:
Quay lại câu hỏi của stakeholder ở phần trên, khi chúng ta phân tích ra được các user survey chọn “Thích dùng tính năng” với hành vi áp mã giảm giá cao, từ đó “suy ra” user thích do có voucher, vậy tiếp theo team nên làm gì? Đúng vậy, DA sẽ bị hỏi những câu hỏi liên quan tới business forecast. Ví dụ: Nếu như tăng/giảm số lượng voucher hoặc tăng/giảm gía trị từng voucher, thì sẽ có các viễn cảnh gain/lose về số lượng User vs Rev như thế nào. Đâu là strategy cần được ưu tiên? Đây là lúc DA đóng vai trò như nhà tiên tri, bằng cách bóp méo các thuật toán predictive analytics dựa trên data không có thật (đúng vậy, data analysis nhưng không có historical data, ảo chưa), dân Analyst sẽ dummy data trên excel bằng các kĩ thuật kéo thả và bói toán ra được các con số nhằm thoả mãn nhu cầu nhìn số của stakeholder. Stakeholder muốn dự án có “potential growth"? Không lo, DA sẽ vẽ số tăng trưởng dương cho quý tới, dự án của team sẽ được cho ra đường vì “có tiềm năng được đánh giá bởi data-driven model". DA có khả năng bắt mạch, khám bệnh, chẩn bệnh, và sẵn sàng nhồi thuốc an thần cho bất kì stakeholder nào cần được confirm bias.
3. Góp ý để nhận task adhoc:
Trong các buổi họp, thường thì nếu Data Analyst có mặt và hỏi ngược lại về các assumption, đa số sẽ bị giao task để confirm cái assumption đấy :)) Ví dụ: Trong một buổi meeting về việc có nên cho mã giảm giá để acquire new user nhằm đánh cướp miếng bánh thị phần, một bạn DA ngây thơ giơ tay hỏi là có chắc là new user thích mã giảm giá không hay phải có cơ chế khác. Xin chúc mừng, cuộc họp kết thúc, và để có thể giúp các stakeholder đưa ra quyết định “sáng suốt" và xây dựng văn hoá "data mindset", bạn DA đấy sẽ là người đi cào data để tìm câu trả lời, và bạn có 2 ngày SLA :) Thường thì các cuộc họp vô nghĩa và các giả định vớ vẩn kiểu đấy xảy ra mỗi ngày, ai non tay thì ôm task về mà làm, ai già đời thì kêu cứ làm đi xong ABC testing nhiều cơ chế phát là biết fail hay không. Thậm chí, nhiều lần DA đã khuyên là kết quả test không significant, nhưng stakeholder vẫn cố đấm ăn xôi cho dự án ra đường, và 2 tháng sau quay lại nhờ DA phân tích vì sao dự án không hiệu quả (???).
Ngoài các ý này ra thì cũng còn nhiều điểm đen trong ngành. Cuộc sống của DA không màu hồng như nhiều người vẫn nghĩ, và yêu cầu rất nặng về tư duy chứ không phải dăm ba cái tutorial mình chuyển ngành Data Analytics trong 1 tháng như thế nào :)) Mình để ý một bạn DA công nghiệp thường mang title DA, nhưng task daily rất adhoc và mang tính report số hơn là analyse. Nhiều “chuyên gia” tự xưng cũng bưng tutorial mẫu đi dạy và vô tình nuôi dưỡng tư duy mì ăn liền cho các bạn trẻ, vì cần gì cũng chỉ google copy paste code xong cross finger and pray, chứ không thực sự hiểu công việc của mình. Làm thợ chạy số hay làm phân tích dữ liệu là tuỳ vào mỗi người, mình không nói cái vai trò nào hơn vai trò nào trong mắt xích công việc cả (suy cho cùng thì nhờ có các bạn thợ chạy số mà các bạn DA khác có thể chuyên tâm phân tích hơn là bị cuốn vào data adhoc request), nhưng bởi vì các bạn đi làm DA với tính chất công việc khác nhau và scope khác nhau, không có nghĩa là có thể đánh đồng chung chung về việc nghề này dễ vào lắm, từ đó tạo ảo giác về chuyển ngành tìm việc dễ cho newbie.
Nhưng các bạn mới vào nghề cũng không có gì phải sợ cả. Mình nghĩ cách nhanh nhất để phát triển là mắc lỗi, và ai cũng cần có một môi trường cho phép khả năng mắc lỗi và sửa lỗi của bản thân. Việc cọ xát với programming language cũng quan trọng như việc hiểu về business context, nên mình thấy không nhất thiết cứ tất tay hết vào các khoá học code mà quên mất business application. Cái quan trọng nhất vẫn là học cách tư duy giải quyết vấn đề, vì một bạn có thể hiểu business framework khủng nhưng không biết cách phân tích cũng sẽ bất lợi như một bạn có thể build thuật toán khủng mà không biết dùng Generative AI (cringe) giải quyết bài toán của stakeholder như thế nào. Một bạn background kinh tế cũng quan trọng như một bạn background tech, và việc của các manager là training các bạn và allocate task đúng người đúng việc, hơn là tìm kiếm các ứng cử viên giỏi toàn diện build all-stars team để rồi nhận ra 2 tháng sau bạn DA toàn diện ấy bỏ qua FAANG làm :)) Nobody is perfect, keep calm and love statistics.