Chào mọi người! "Data Driven Decision Making" đã không còn là một từ xa lạ với những người trong ngành tech, quản lý doanh nghiệp và cả marketing. Trong một thế giới mà data đang dần trở thành một thứ tài nguyên không thể thiếu của nền công nghiệp và cuộc sống của con người, việc phân tích data và áp dụng data vào các lĩnh vực (ở đây là marketing) sẽ giúp đưa ra những quyết định đúng đắn hơn, và phù hợp với thực tế doanh nghiệp.
Với ý nghĩ đó nên Sơn thử áp dụng 1 chút kiến thức từ code (Ở đây là ngôn ngữ R) để đưa vào phân tích đồ thị và áp dụng 1 số kiến thức cơ bản của xác suất thống kê để đưa ra 1 số chiến lược về marketing phù hợp.
Disclaim: Sơn chỉ mới học về data và coding sử dụng R thôi nên mọi người xem để tham khảo thôi nhé vì vẫn còn phải học nhiều :D

Đôi nét về R

R là ngôn ngữ lập trình chuyên dụng cho việc tính toán, machine learning, tính toán và vẽ đồ thị xác suất thống kê. Với R bạn có thể tính rất nhanh những chỉ số liên quan đến xác suất như p-value, t-test, correlation và vẽ đồ thị rất nhanh và đẹp. Bạn có thể tham khảo thêm về R ở đây: http://r-statistics.co

Sơ lượt về dataset được sử dụng

Lần này mình sẽ sử dụng data từ nguồn data công cộng, data ghi nhận đánh giá của người dùng ví điện tử dựa trên mức độ hài lòng, mức độ tin cậy, mức độ thấy hữu dụng và hành động của họ liên quan đến việc sử dụng, giới thiệu ví điện tử đến bạn bè của mình.
Data này được lấy từ thông tin của 300 đáp viên trong năm 2020. Link đến data ở đây
Credit to: Hoang, Ha (2020), “Dataset of factors influencing e-wallet behavioral intention in a transitional economy”, Mendeley Data, V1, doi: 10.17632/8m9y6jwfss.1
Các câu hỏi được đo trong data bao gồm:

Xác định mục đích:

Trong bộ câu hỏi, chúng ta có thể thấy một số hành vi của khách hàng khá là thú vị và có ý nghĩa về mặt doanh số với cty VDT như:
BI1: I intent to use e-wallet in the near future: Tôi có ý định dùng ví điện tử (VDT) trong tương lai gần. BI2: I am completely satisfied with using e-wallet: Tôi rất hài lòng với VDT của mình. BI3: I will recommend my e-wallet to my friends and relatives: Tôi sẽ giới thiệu VDT của tôi đến gia đình và bạn bè. BI4: I will continue to use e-wallet regularly in the future: Tôi sẽ dùng VDT thường xuyên trong tương lai.
Với kinh nghiệm đi làm nhiều năm thì tôi dám cá với các bạn là các anh CEO khi nghe đến BI3 mắt sẽ sáng như đêm Trung thu :D. Cho một công ty công nghệ thì việc tuyển khách hàng mới luôn nằm trong top các danh mục cần làm. Đồng thời, khi khách hàng này giới thiệu cho bạn bè của họ thì công ty cũng tiết kiệm hơn chi phí quản cáo đúng không nào :D.

Vì vậy mục đích của lần phân tích này là trả lời câu hỏi:

Làm sao để tăng mức khách hàng đồng ý giới thiệu VDT cho người thân, bạn bè? (BI3)Tập khách hàng nào nên được chú trọng? Người mới xài/người xài lâu năm, già/trẻ.

Bắt tay vào việc:

Vì phần lớn data của set này đều ở dạng số, nên việc tìm correlation (mối tương quan) giữa các trường giá trị sẽ không quá khó - nếu data set có thêm data dạng text thì sẽ phải sử dụng proxy data nữa :D (nhưng mà đó lại là câu chuyện khác). Để có một cái nhìn tổng quát, Sơn sử dụng "corrplot" để tạo thành một bản đồ matrix, trên đó thể hiện correlation giữa các data với nhau. Mục đích là: tìm xem những data nào có mối tương quan mạnh mẽ với nhau (strong correlation).
Khi tính toán hệ số tương quan mình nhớ kiểm tra xem p-value có < 0.05 không nhé để đảm bảo là kết quả có ý nghĩa thống kê (statistical significant) nhé. Như trong đoạn code bên dưới thì tất cả nhưng ô nào có p-value >0.05 đều sẽ để trắng, nhưng vì không có nên tất cả ô đều hiện đầy đủ.
Kết quả:
Đồ thị correlation
Đồ thị correlation
Cho một đứa trước giờ chỉ đọc barchart, piechart từ excel thì lần đầu tiếp xúc với công cụ vẽ chart của R thì cảm thấy là R hơi bị đỉnh - quả nhiên là chiến thần phân tích với vẽ chart.
Cách đọc chart này như sau:
Mỗi viên bi tượng trưng cho hệ số tương quan giữa 2 sự việc.Màu sắc của mỗi viên bi ứng với màu sắc của thanh bên dưới có giá trị từ -1 đến 1. Đôi nét về hệ số tương quan: nó là chỉ số thống kê đo lường quan hệ mạnh, yếu giữa 2 sự việc. Trong đó hệ số càng lớn (lớn nhất là 1) thể hiện mối quan hệ đồng biến (VD: nếu x tăng thì y cũng sẽ tăng, và ngược lại); hệ số càng nhỏ (nhỏ nhất là -1) thể hiện mối quan hệ nghịch biến (VD: nếu x tăng thì y giảm, và ngược lại). Để việc phân tích được gọn hơn, ta sẽ chỉ chú tâm đến những cặp biến số có hệ số tương quan > 0.5. Có một điều bạn sẽ thấy là những câu hỏi có cùng 1 chủ đề: ví dụ những câu hỏi về lòng tin của khách hàng với VDT; về việc họ có thấy VDT có lợi ích không đều có mối quan hệ tương quan khá cao với nhau. Do vậy những cặp nào có tương quan mạnh nhưng cùng 1 chủ đề thì tôi sẽ không cân nhắc vì nó không đem lại lợi ích gì cho việc phân tích (VD: nếu 1 khách hàng rất đồng ý (đánh 5 điểm) với việc họ thích VDT vì có nhiều khuyến mãi; thì tất nhiên họ cũng đồng ý với câu tôi thấy VDT có rất nhiều khuyến mãi).
Khi lọc lại những cặp có hệ số tương quan >0.5 thì ta sẽ được bản như bên dưới.
Vậy kết luận ở đây là: Việc giới thiệu VDT với bạn bè, người thân có mối tương quan mạnh mẽ với việc: 1) Họ sử dụng VDT như 1 thói quen, 2) Họ tin tưởng vào VDT đó sẽ quan tâm họ, 3) Nhà cung cấp VDT đáng tin cậy, 4) VDT đảm bảo về bảo mật và đáng tin cậy 5) VDT cho tôi nhiều lợi ích về tài chính.
Vì vậy để tăng chỉ số giới thiệu VDT với người thần, bạn bè. Nhà cung cấp VDT cần có chiến lược marketing và sản phẩm để:
Tạo niềm tin (4 trong 6 chỉ số đều nói về niềm tin của khách hàng) về hệ thống bảo mật, về thương hiệu của VDT và nhà cung cấp VDT, chăm sóc khách hàng. Luôn lôi kéo người dùng quay lại và biến VDT của mình thành thói quen sử dụng của khách hàng. Cho khách hàng, và chứng minh là dùng VDT có lợi ích tiền bạc cho khách hàng (tiết kiệm tiền, thời gian, etc...)
Vậy ta đã trả lời xong câu hỏi thứ 1.

Câu hỏi thứ 2 là: Tập khách hàng nào nên được chú trọng? Người mới xài/người xài lâu năm, già/trẻ ?

Chỗ này, nếu là Sơn của 5 năm trước thì sẽ vỗ ngực tự tin cho rằng "Những người sẵn sàng giới thiệu sản phẩm của chúng ta chắc chắn phải là những khách hàng xài lâu năm rồi. Không có gì bàn cải". Nếu vậy thì Sơn đã sai rồi. Dùng jitter plot trong R và một số dòng code bên dưới:
Ta sẽ có được đồ thị sau:
Đồ thị scatter
Đồ thị scatter
Các giá trị 1 đến 4 trong "Thời gian sử dụng" và "Tuổi" sẽ tương ứng với câu trả lời của đáp viên như sau.
Bảng câu hỏi
Bảng câu hỏi
Vậy từ đây ta thấy, những người sẵn sàng giới thiệu VDT đến người thân và gia đình (cho điểm 3,4,5) chủ yếu là những người có thời gian sử dụng dưới 12 tháng.
Nhìn vào màu sắc thể hiện của các đốm trong đồ thị ta thấy phần lớn họ là người trong tuổi từ 25 đổ xuống.
Kết luận: những khách hàng sẽ giới thiệu VDT của bạn đến bạn bè và người thân là những người mới sử dụng VDT của bạn từ 1 năm trở lại; họ là những người trẻ từ 25 trở xuống.
Có 1 điều cần lưu ý ở đây là nếu ta nhìn kỹ vào những người dùng lâu năm, đa số họ vẫn ủng hộ việc giới thiệu VDT đến người thân. Trong khi những người mới tuy đông, nhưng cũng có một phần không nhỏ nói là họ sẽ không giới thiệu. Tuy nhiên, vì số lượng người mới sử dụng nhìn chung vẫn đông hơn, và đại bộ phận họ cũng đồng ý với việc giới thiệu VDT nên tập khách hàng trẻ, mới dùng vẫn là tiềm năng nhất.
Vậy là qua 2 đồ thị và một số code cơ bản, ta đã xác định những yếu tố nào cần phải tập trung để gia tăng mức độ giới thiệu của khách hàng, và họ là ai. Tất nhiên là vẫn còn có nhiều thông tin cần nghiên cứu hơn, nhưng mà data miễn phí nên cũng khá là hạn chế ^^.
Sơn sẽ tìm thêm data để đào sâu hơn về những tactic mà mình có thể áp dụng để cải thiện những chỉ số trên là gì trong các bài sau.
Các anh, chị em đọc qua có gì đóng góp nhớ comment bên dưới nhé.