Bạn có thể nghe thấy mọi người nói rất nhiều về big data, data-driven, ra quyết định dựa trên số liệu… Bạn cảm thấy đó dường như là cuộc chơi của các doanh nghiệp lớn, có luồng dữ liệu lớn, và có các chuyên gia thống kê chuyên nghiệp. Nhưng liệu, doanh nghiệp vừa và nhỏ của bạn có thể bắt đầu tham gia cuộc chơi data này ngay?
Client gần đây của tôi là một khu du lịch A, nằm ở tỉnh B. Trong buổi trao đổi, họ khá hài lòng với thông điệp truyền thông cho năm sắp tới, các kênh triển khai và ngân sách mà chúng tôi đề xuất. Tôi chắc mẩm đây sẽ là một buổi họp ngắn gọn và thành công. Nhưng đột nhiên, vị giám đốc của họ quay sang phía tôi và hỏi:
– Chúng tôi rất hài lòng, nhưng chỉ có một băn khoăn duy nhất. Thông qua phỏng vấn cá nhân (in-depth interview) và social media listening, chúng tôi có lắng nghe được khách hàng phàn nàn rằng mức giá vé vào khu du lịch của chúng tôi quá cao. Theo các anh, nếu giảm mức giá từ 350,000 VNĐ xuống còn 300,000 VNĐ, thì phản ứng của khách hàng sẽ ra sao? Nói cách khác, liệu số du khách sẽ tăng lên bao nhiêu?
Câu hỏi khiến account director của tôi khựng lại một chút. Sau một hồi ngẫm nghĩ, anh trả lời rằng khách hàng rằng:
– Tôi nghĩ sẽ là khoảng 20%
– Tại sao cậu nghĩ vậy? – vị khách hàng tò mò hỏi lại
– Ừ hừm, chỉ là phán đoán thôi. Tôi từng có 10 năm kinh nghiệm với các client ngành du lịch trong vùng này.
Quả thật, câu trả lời với 10 năm kinh nghiệm của mình, account director của chúng tôi đã khiến client tạm hài lòng (hoặc không thể chưa hài lòng nhưng tạm chấp nhận). Tuy nhiên điều này khiến tôi hơi băn khoăn đôi chút, liệu có cách nào có thể khiến client hoàn toàn hài lòng với câu trả lời không. Chỉ có một cách duy nhất: chứng minh bằng số liệu. Data không nói dối. Trong trường hợp này để dự đoán phản ứng của khách hàng với các mức giá, tôi sẽ sử dụng một phép toán rất nổi tiếng: Hàm hồi quy tuyến tính.
Chúng tôi bắt tay vào phỏng vấn giám đốc kinh doanh của client, CEO, CFO, rất nhiều khách hàng, để đưa ra các yếu tố ảnh hưởng đến lượng du khách. Thậm chí là khi di chuyển taxi tôi cũng tranh thủ đặt câu hỏi với người lái xe về du lịch địa phương. Kết quả, tôi có được hàm hồi quy:
Lượng khách hàng trong tháng = B1.Giá vé + B2.Tổng lượng mưa trong tháng + B3.Lượng khách quốc tế đến tỉnh B + B4. Lượng khách nội địa đến tỉnh + B5. Lượng khách đến khu du lịch bên cạnh + Ɛi
(Trong hàm hồi quy trên, Giá vé, Tổng lượng mưa, Lượng khách quốc tế, lượng khách nội địa, lượng khách của khu du lịch bên cạnh, là các yếu tố ảnh hưởng đến tổng lượng khách trong tháng)
Như vậy, nhiệm vụ của tôi sẽ là lấp đầy dữ liệu vào bảng dưới đây bằng dữ liệu trong quá khứ (hiện tại là tháng 10, nên tôi sẽ tìm dữ liệu của 9 tháng trước đó). Sau đó là sử dụng hồi quy trên excel, để tìm ra các ẩn số B1, B2, B3, B4, B5, từ đó dự đoán lượng khách các tháng trong tương lai.
Đây quả là một nhiệm vụ khó khăn. Lượng mưa là dữ liệu dễ nhất, tôi sử dụng dữ liệu trên accuweather.com và trang web của cục khí tượng thủy văn http://www.nchmf.gov.vn.
Giá và lượng khách của 9 tháng trước là dữ liệu client có sẵn, nhưng quả là phải rất nỗ lực, cộng với nhiều công sức giải thích, họ mới chấp nhận cho chúng tôi truy cập dữ liệu này.
Còn dữ liệu khách du lịch quốc tế (inbound) và nội địa (domestic)? Số liệu này nằm ở đâu đó ở Sở kế hoạch đầu tư và Sở Văn hóa Thể thao du lịch Tỉnh. Bằng rất nhiều cuộc gọi “nhờ vả”, cuối cùng tôi cũng có được bảng báo cáo… bằng Word dài gần 200 trang được trình bày theo phong cách tương đối nhà nước, tuy nhiên dữ liệu khá tốt.
Và phần khoai nhất, dữ liệu lượng khách của “hàng xóm”. Tôi vẫn xin được số liệu, với bài học rút ra là: Hãy sống tốt với hàng xóm, vì sẽ có lúc bạn cần nhờ họ giúp đỡ.
Phần hồi quy còn lại khá đơn giản trên excel, với số lượng mẫu N=9 (tương đương với 9 tháng). Kết quả thực sự bất ngờ, độ chính xác của hàm hồi quy là 94,38% !!!. (Nhân tiện, nếu bạn nào cần hướng dẫn chi tiết thao tác sử dụng hàm hồi quy trên excel, bạn có thể click vào đây).
Giá trị R bình phương càng cao càng cho thấy mô hình sử dụng có khả năng giải thích tốt sự biến động của biến phụ thuộc. Ở đây, R bình phương đạt tới 94,38% !!!
Với các kết quả B1, B2, B3, B4, B5, tôi dễ dàng dự đoán được lượng khách trong tháng 10. Khá hồi hộp, tôi nhấc máy lên và thông báo kết quả dự đoán của tháng 10. Và vị khách hàng đã thật sự bất ngờ và phấn khích: “OMG, cậu làm thế nào để biết được con số đó? Tình hình thực tế của chúng tôi đang tiến gần đến con số đó”.
Đó là một dự án thành công tương đối mỹ mãn. Sau dự án này, tôi có rút ra được một vài kinh nghiệm khi tập chơi data:
1, Chơi data là bạn đang đi trước đối thủ
Trước khi bắt tay vào xây dựng dashboard dự báo, tôi có gọi 2 cuộc điện thoại. Một cuộc cho đồng nghiệp cũ tại một công ty đa quốc gia của Nhật (bạn biết đấy, người Nhật suy nghĩ cực logic), và một cho người bạn tại một công ty FMCG lớn của Việt Nam. Tôi hỏi họ: tại công ty của anh, người ta có dùng… kinh tế lượng để dự đoán phản ứng của khách hàng tại mỗi mức giá không. Thật ngạc nhiên, họ đều trả lời là không.
Đó là một tin xấu, tôi không hề có người đi trước để hướng dẫn. Nhưng đó cũng là tin tốt: Ngay cả các công ty lớn, đủ lớn để phát sinh luồng dữ liệu chất lượng, họ cũng gặp khó khăn khi xử lý data để ra quyết định. Tức là các đối thủ trực tiếp của tôi cũng gặp khó khăn như thế. Càng hoàn thiện các dashboard với nhiều luồng dữ liệu, chúng tôi càng có nhiều cơ sở cho quyết định của mình
2, Data không hề khó như bạn nghĩ
Rõ ràng động lực đầu tiên để gia nhập ngành Marketing đều là vì sự sáng tạo và hấp dẫn của nó, chứ không phải là khía cạnh khô khan của những con số. Nếu ở phía client, bạn chắc chắn sẽ làm việc với con số nhiều hơn, nhưng nếu là dân creative, mọi chuyện sẽ có vẻ khó khăn.
Đặc biết khi nhìn bảng data raw của client dài… gần 300 cột và 50 dòng. Nhưng hóa ra mọi chuyện không hề phức tạp như tôi tưởng. Tôi chỉ mất một ngày để đọc hiểu và xử lý chúng, sau đó là bắt tay vào phân tích.
3, Dù không hề khó, nhưng chơi data đòi hỏi nhiều nỗ lực
Nỗ lực đầu tiên là bạn phải giải thích với khách hàng, đồng nghiệp về tầm quan trọng của chúng, từ đó bạn được trao quyền truy cập dữ liệu. Ngay cả tại các công ty có kiểu truyền thông nội bộ “open” như các công ty Nhật (everybody to know everything), thì tôi vẫn gặp một vài khó khăn khi truy cập các dữ liệu hơi nhạy cảm.
Điểm tiếp theo là bạn không được phép dễ dãi với những con số mình có được. Như ví dụ ở trên, chúng tôi có thể dễ dãi sử dụng dữ liệu tổng khách du lịch đến tỉnh B, thay vì phải vất vả tách ra thành khách nội địa và khách quốc tế. Sở dĩ như vậy, vì trong các buổi phỏng vấn CMO, CEO của client, và các buổi in-depht interview, chúng tôi khẳng định được rằng “khẩu vị” của du khách quốc tế rất khác so với du khách nội địa.
Nếu bạn sử dụng data theo cách nửa vời, không đi đến tận cùng con số đó nói gì; hay kết luận vội vã, mọi chuyện có thể còn nguy hiểm hơn cả ra quyết định dựa trên cảm tính.
Dĩ nhiên khi mới bắt đầu “lái” doanh nghiệp của mình theo hướng “data-driven”, sẽ có rất nhiều trở ngại. Tuy nhiên, thành quả cũng rất ngọt ngào. Bạn sẽ có nhiều dữ kiện hơn, ra quyết định về Marketing “chắc tay” hơn, và có khả năng tận dụng cơ hội trước đối thủ kinh doanh.
*Bài viết dựa trên câu chuyện có thật. Các tên gọi và tình tiết được thay đổi để đảm bảo bí mật danh tính của người trong cuộc
Để giúp mấy bạn thấy khó xơi thì tác giả trong bài đang dùng phương pháp Multiple Regression, hiểu nôm na là tìm mối liên hệ giữa nhiều yếu tố khác nhau. Ví dụ như Nam bảo rằng người nào càng ngủ nhiều, càng siêng tập thể dục thì học giỏi. Vậy là ta có 3 yếu tố: số giờ ngủ, số giờ tập thể dục, và điểm thi. Liệu 3 thứ đó có liên quan hay ko? Thì để kiểm tra điều đó các nhà phân tích sẽ dùng phương pháp Quy hồi nhiều biến (Multiple Regressions) như tác giả làm trong dự án trên.
Nếu kết quả là gần bằng 1, tức các yếu tố này tỷ lệ thuận với nhau.
Nếu nó bằng 0 hoặc gần 0 thì tức là các yếu tố này ko liên quan đến nhau.
Nếu kết quả là âm thì các yếu tố này nghịch nhau (ví dụ càng mưa nhiều thì quán trà sữa càng ế, yếu tố mưa đối nghịch với doanh thu trà sữa).
Mà bác có "plot" đồ thị trước khi làm regression ko vậy? :v Ko vẽ đồ thị mà làm regression là sai nhé.
Nói vui thôi chớ cám ơn bác chia sẻ bài này, chủ đề này gai góc, mình cũng có nhiều lần định viết nhưng chưa biết làm sao, vì nó thực sự là gai.
Bác dùng phần mềm gì để phân tích thế, mình giờ đang dùng R, sau này dùng thêm Python nữa Mà không biết mảng này ở VN có nhiều cơ hội việc làm ko bác nhỉ?
Cám ơn vì bài viết hen !
Cơ hội tại Việt Nam thì không nhiều lắm, có 2 chỗ đến nay mình biết là VNG và Vin E-commerce có vị trí kiểu chuyên trách chỉ làm mảng này. Cơ mà họ lại thực sự rất trân trọng và đãi ngộ tốt vị trí này bác ạ
Phần thu thập data raw tụi mình dùng một bảng excel có hơn 300 cột (tương ứng với số ngày kinh doanh trong năm), và 50 dòng tương ứng với các chỉ số.
Sau đó bọn mình làm một cái dashboard bằng các hàm excel (cũng không hẳn là dashboard lắm), để có thể truy xuất dữ liệu theo tuần, tháng, năm, hoặc bất kì giai đoạn nào (chỉ cần input thời gian vào một ô), với bất kì chỉ số nào. Và một vài biểu đồ minh họa.
Phần regression cũng excel như trong clip youtube mình có dẫn link.
Dashboard không xịn xò lắm, không code bằng Python hay có hệ thống cơ sở dữ liệu gì bác ạ. Được cái ưu điểm là nó rất dễ làm với doanh nghiệp nhỏ, để họ không ngại ứng dụng vào kinh doanh
excel thôi husky, bạn ấy có mô tả bằng hình ảnh đó. Excel có tích hợp một số hàm phân tích dữ liệu, về cơ bản thì có thể đủ dùng cho những mẫu dữ liệu đơn giản ở trong doanh nghiệp
Bố sung cho Khánh tại sao các tập đoàn lớn không áp dụng được data driven (ít nhất là tại Việt Nam).
Do bản chất là bên sản xuất (manufacturer) và nguồn lực có hạn, các tập đoàn này thường phân phối hàng hóa của mình qua một hoặc nhiều distributors khác nhau.
Các distributors này lại là một công ty độc lập, không chịu sự kiểm soát hoàn toàn của các tập đoàn đó. Việc thu thập và báo cáo dữ liệu từ các công ty này rất khó, nhất là khi các công ty này thuộc quyền quản lý của đội ngũ nhân viên thế hệ trước, thiếu kiến thức về data. Và họ cũng không phải lúc nào cũng báo cáo số đúng theo số sales (có khi để đầu cơ các kiểu).
Bạn anh trước đây làm data analyst cho ABI, làm model dự đoán các thứ, nhưng không bao giờ có số chính xác, vì dữ liệu sales từ nhà cung cấp không chính xác và fluctuate không dựa trên nhu cầu của thị trường.
Sự có mặt và power nằm trong tay distributors luôn là bài toán khó giải trong việc thu thập và phân tích dữ liệu.
Đúng rồi bác, cái khó trong ngành làm dữ liệu ở Việt Nam là thu thập dữ liệu. Việc thu thập và dọn dẹp dữ liệu chiếm ít nhất cũng phải 50% công việc rồi, rất mệt. Còn việc phân tích thì trừ khi phân tích vào sâu, còn để nắm gọi là tình hình tổng quát từ dữ liệu thì rất nhanh, rành về toán và lập trình thì làm lẹ lắm. Nhưng mà cái khâu dữ liệu đầu vào thì khó, thường do nhiều nguyên nhân:
-Hệ thống IT của các doanh nghiệp không đồng bộ, cho nên dữ liệu bị thiếu hụt hoặc sai định dạng.
-Các nhân viên trong doanh nghiệp không quan tâm đến quy tắc nhập liệu, lại hay sửa lên xuống cho đúng ý cấp trên nên sai nhiều lắm.
-Không muốn chia sẻ cho người khác vì sợ lộ thông tin mật hoặc chỉ chia sẻ một phần.
Ôi chuẩn luôn, là lí do đại lý không bao giờ báo cáo đúng số sale về công ty mẹ
Nhưng em nghĩ chắc bên Tây nó làm được. Không phải vì đại lý của Tây không nói dối, mà vì chắc họ có lịch sự phát triển đại lý lâu dài, nên có nhiều cách control đại lý tốt hơn.
Cuối cùng cao nhân Cường cũng xuất hiện trên spiderum ạ =))))
Họ có hệ thống IT chuẩn bạn, tức cái hệ thống IT nó hoàn thiện và nó ăn rơ với nhau, gọi là IT standardisation ấy, input đầu vào sao là lưu vào trong system vậy luôn, nhân viên đếch có chỉnh gì được hết. Nói chung là bài bản lắm Mình đang ở nước ngoài thì thấy vậy.
Đúng là có một ý thế.
Nhưng chắc ý của mình với anh Cường ở đây là dealer ở Việt Nam hay báo cáo... "láo"
Vì nhiều lí do lắm: khai man để dealer khác đỡ ganh, đầu cơ, giành khách, hoặc lúc cần thì khai lên để lấy hoa hồng v...v... Lúc thì fake lên lúc thì fake xuống :3
Anh không rõ bên Tây thế nào, còn khi các MNCs vào Việt Nam (năm 97-98), họ bắt buộc phải corporate với các distributors có sẵn trong nước, nhất là trong bối cảnh nước mình lúc đó cái gì cũng cần quan hệ để lo lót cho các quan + set up hệ thống với các đại lý, bách hóa.
Anh đọc spiderum được nửa năm rồi, nhưng chủ yếu để collect mấy cảm xúc vụn vặt phần tâm sự tình cảm và update mấy kiến thức mới thôi em.
Hôm nay thấy Khánh viết hay, anh phải lập account vào comment góp vui haha
Góp ý chút là bài viết đã lược qua hoặc phần lớn các bước + khó khăn trong việc xử lý dữ liệu và chạy mô hình.
Nên có thể làm người đọc chưa hiểu đc rõ các thách thức của lĩnh vực này :)).
@Husky: ở VN thì lĩnh vực tài chính ngân hàng đang cần nhiều nhân sự trong mảng này lắm. Nên ko sợ thất nghiệp đâu
Quả đúng là viết chi tiết hơn thì sẽ dễ hiểu hơn.
Mình cũng có cân nhắc đăng dashboard và cách bọn mình thu thập và xử lý dữ liệu, nhưng sau cùng thì thấy không nên. Cũng như phần mình có note ở dưới, để đảm bảo bí mật kinh doanh và một vài dữ liệu nhạy cảm của khách hàng.
Phần hồi quy với get data trong bài chỉ là phần ngọn, phần "chơi chơi" thôi.
Cảm ơn cmt của bác. Vì mình là tay "mơ" mới học trong vụ này nên rất hóng bài viết của các bác cao nhân, bác Husky đăng thêm về món này để học thêm
Hóng bài của các bác
Cám ơn anh vì bài viết rất hay và logic ạ. Nhờ có bài viết của anh mà làm em nhận ra tầm quan trọng của việc học các môn Kinh tế lượng, Dự báo kinh tế trong công việc. Đó giờ em chỉ ráng làm sao qua môn vì thật sự không nuốt nổi
Cảm ơn bạn
hehe thực ra hồi đại học, thi cuối kì xác suất thống kê mình cũng chỉ được... 3,5 điểm thôi (may vẫn qua =)))) )
Xong giờ làm lại lại lôi sách ra coi lại từ đâu