Chào các bạn, mình là Văn Khôi Ngô - tác giả của các bài viết về phân tích dữ liệu cho nhiều vấn đề trong cuộc sống. Nhận thấy rất nhiều bạn đọc hứng thú và quan tâm đến việc học và áp dụng Data Analytics cho công việc, nên mình quyết định viết một series Data Analytics mang tính ứng dụng cao trong các lĩnh vực Marketing, Sales, Finance, ... Vì lý thuyết đã có quá nhiều trên Google chỉ việc search là ra, nên mình sẽ tập trung vào thực hành, với các bộ dữ liệu được upvote nhiều nhất trên Kaggle, hoặc lấy từ các đầu sách hay. Hi vọng sẽ giúp được nhiều bạn đọc hiểu hơn về Data Analytics và những ứng dụng thiết thực của nó trong doanh nghiệp.
Bài viết đầu tiên sẽ là về Phân khúc khách hàng (Customer Segmentation) - một ứng dụng quan trọng của Data Analytics trong Marketing. Bộ dữ liệu được sử dụng là "Mall Customer Segmentation Data" được 1118 upvote trên Kaggle.

I. Một số đường link về Customer Segmentation và thuật toán K-means:

Các bạn có thể tìm kiếm thêm trên Google và YouTube (hoặc Medium và Towardsdatascience nếu máy bạn có thể truy cập, 2 trang này bị một số nhà mạng VN chặn).

II. Hiểu về dữ liệu

Dữ liệu khá đơn giản, gồm 200 khách hàng với các thông tin cơ bản như Customer ID, age, gender, annual income và spending score. Spending score là số điểm chi tiêu của khách hàng được công ty tính toán bằng các dữ liệu mua sắm. Vấn đề được đặt ra là chúng ta phải phân nhóm được số khách hàng này để có thể lên kế hoạch Marketing hiệu quả
5 khách hàng đầu
5 khách hàng đầu
Một chút trực quan hóa để hiểu hơn về dữ liệu
Histogram và Scatterplot của các biến định lượng
Histogram và Scatterplot của các biến định lượng
Số lượng khách hàng nam và nữ
Số lượng khách hàng nam và nữ

III. Tiến hành phân nhóm khách hàng

Bình thường sẽ dùng thuật toán K-means cho bài toán phân nhóm khách hàng, nhưng vì có một biến định tính (Gender) và mình nhận thấy kết quả sẽ tốt hơn khi cho biến Gender vào nên mình sẽ sử dụng thuật toán K-prototype - một thuật toán nâng cấp của K-means sử dụng được cho cả biến định tính (K-means chỉ sử dụng cho biến định lượng). Ta có biểu đồ để chọn số nhóm tối ưu như sau
The Elbow Method
The Elbow Method
Sử dụng Elbow Method, ta có thể chọn được k = 5 là số nhóm tối ưu
Tiến hành thuật toán K-prototype với k = 5, tính trung bình đặc trưng của từng nhóm, sau đó gán những cái tên có ý nghĩa thể hiện đặc tính của nhóm, ta có biểu đồ Radar sau:
Đặc điểm của từng nhóm
Đặc điểm của từng nhóm
Biểu đồ trên tương ứng với các mẫu hình khách hàng thường gặp khi tiến hành thuật toán phân nhóm
5 mẫu khách hàng điển hình
5 mẫu khách hàng điển hình
‎‎
Nhóm Most Valuable (Convenience seekers): là nhóm khách hàng có giá trị nhất (chiếm 19.5%) với đặc điểm là trẻ, thu nhập cao và chi tiêu rất nhiều.
‎‎‎‎
Nhóm Target (Brand Buyers): là nhóm khách hàng chúng ta hướng đến trong các chiến dịch Marketing (chiếm 17%), bởi các đặc điểm như là trẻ, thu nhập cao, nhưng chi tiêu lại rất ít, và chủ yếu là đàn ông.
Nhóm Valuable (Casual Buyers): là nhóm khách hàng có giá trị (chiếm 23.5%) với đặc điểm là trẻ, thu nhập bình thường, chi tiêu cũng bình thường nốt, chủ yếu là nữ.
Nhóm Very Valuable (Relationship Seekers): là nhóm khách hàng có nhiều giá trị (chiếm 11%) với đặc điểm là trẻ, thu nhập thấp nhưng lại mua sắm rất nhiều.
Nhóm Less Valuable (Bargain Hunters): là nhóm khách hàng ít giá trị (chiếm 29%) với đặc điểm giống nhóm Valuable chỉ khác mỗi cái là độ tuổi trung niên, nhóm này là đông nhất trong tập khách hàng.
Đồ thị biểu thị tỉ lệ giới tính trong các nhóm một cách rõ ràng hơn
Tỉ lệ giới tính trong các nhóm
Tỉ lệ giới tính trong các nhóm
Trong các nhóm thì chủ yếu là nữ giới chiếm phần cao hơn, duy chỉ có nhóm Target là đàn ông chiếm 60%. Từ đây, chúng ta có thể đề ra chiến lược Marketing cho nhóm khách hàng Nam giới trẻ tuổi nhưng thành đạt, thu nhập cao mà lại dành rất ít tiền cho mua sắm (Brand Buyers).

IV. Kết bài

Đây là bài viết đầu tiên của mình trong series "Data Analytics for Business" về chủ đề Phân khúc khách hàng. Hi vọng các bạn sẽ hiểu hơn về các ứng dụng thực tế của Data Analytics trong Business. Với những bạn muốn tham khảo cách mình xử lí data thì mình có để link Github ở phía dưới, còn solution và code của các cao thủ Kaggle thì ở đây.
Sắp tới mình sẽ viết thêm nhiều bài viết về khoa học dữ liệu, phân tích insight từ các bộ dữ liệu hay, và cả những chủ đề thú vị khác nữa. Nếu không muốn bỏ lỡ thì hãy follow mình nhé :))