Một bài báo năm 2012 của tờ The New York Times nói về thuật toán dự đoán thai kỳ của Target. Trong đó có một câu truyện như sau:
Một ông bố tức giận đến quầy KH của Target và nói rằng: “Tại sao các anh lại gửi mã giảm giá sản phẩm sơ sinh và đồ trẻ em cho con gái tôi. Nó chỉ mới học cấp 3. Các anh đang khuyến khích nó có bầu hay sao?” Người quản lý xin lỗi và hứa sẽ không để điều này lặp lại. Vài ngày sau, ông ta gọi điện lại để xin lỗi thì người bố nói rằng: “Tôi có nói chuyện với con gái tôi, và quả thật có một số điều mà tôi chưa biết. Con gái tôi sẽ sinh vào tháng 8 này.”
Sự thực thì, đây không phải là điều ngẫu nhiên, mà Target đã xây dựng một thuật toán có thể dự đoán được khả năng một cô gái có thai! Họ dựa vào thông tin mua hàng của các cô gái trước cả khi cô bắt đầu quan tâm đến các sản phẩm về trẻ em. Chẳng hạn như, một chỉ báo là việc các cô gái thường gia tăng mua kem dưỡng da không mùi trong khoảng 3-6 tháng thai kỳ, hay tăng cường mua canxi, maggie và kẽm trong 20 tuần đầu. Bằng cách phân tích 25 món hàng thường được mua, họ có thể đưa ra một điểm số thể hiện khả năng có thai của một cô gái. Từ đây, các chiến dịch marketing có thể được tiến hành.
Sau bài báo của New York Times, rất nhiều lo ngại đã được đưa ra và khiến Target phải thay đổi lại kế hoạch marketing của mình để khiến nó bớt xâm phạm hơn tới khách hàng. Tuy vậy, nó khiến chúng ta phải quan tâm hơn tới ảnh hưởng của dữ liệu trong cuộc sống ngày nay.
Khi bạn mua một món hàng, bạn đang cung cấp những thông tin cho người bán để hiểu về cuộc sống của bạn. Kể cả khi bạn truy cập mạng xã hội. Những bài viết trên Facebook, Instagram tưởng chừng như vô hại, nhưng bằng cách tham gia chúng, bạn đang trở thành món hàng mà mạng xã hội dùng để tăng doanh thu quảng cáo.
Bạn có thể nghĩ đến mặt trái của dữ liệu khi thông tin cá nhân bị khai thác quá mức. Nhưng dữ liệu đang trở thành một công cụ rất tốt hiện nay để giúp chúng ta hiểu hơn về thế giới và có thể khiến cuộc sống của chúng ta tốt hơn.
Ví dụ trên được đưa ra trong cuốn sách "Nghệ thuật Tư Duy Dựa Trên Dữ Liệu". Đây là một cuốn sách đầu tiên về chủ đề dữ liệu bằng tiếng việt với các ví dụ thú vị về tư duy dữ liệu trong cuộc sống hằng ngày.
Mặt khác, nhiều khi dữ liệu có thể bị hiểu sai nếu bạn không đào sâu vào chúng. Một ví dụ là về việc tiêm vắc xin Covid-19 khi đại dịch đang hoành hành. Thông tin này cho rằng, những người tiêm vắc xin có nguy cơ cao hơn 6 lần sẽ tử vong do biến thể mới của COVID-19 so với một người không tiêm chủng.
Kết luận này được tính ra từ một báo cáo về biến thể COVID-19 phát hành vào ngày 18/6/2021 của Tổ chức Y tế Công cộng Anh (Public Health England). Các tác giả lấy tỉ lệ số người bị chết so với số người nhiễm bệnh do biến thể Delta và thấy rằng, tỉ lệ tử vong là 0,0957% cho người chưa tiêm và 0,6360% cho người đã được tiêm chủng. Vậy là, có một tỉ lệ tử vong cao hơn 6 lần với một người được tiêm phòng!
Những con số được đưa ra là hoàn toàn chính xác. Nếu vậy, phải chăng vắc xin gây hại cho chúng ta và không nên được nhân rộng?
Thực tế là, những con số mang tính chính xác và có vẻ rất thuyết phục này có thể gây hiểu nhầm khi đặt sai bối cảnh. Có một nhân tố quan trọng đứng đằng sau và chưa được đưa vào trong phân tích: Độ tuổi của người được tiêm vắc xin và người không được tiêm. Vắc xin được ưu tiên tiêm cho những người có độ tuổi cao hơn hoặc có bệnh nền, đồng thời đây lại là nhóm người có khả năng tử vong cao hơn nếu nhiễm bệnh. Sự khác biệt về độ tuổi, sức khỏe, tình trạng của người được tiêm và người không được tiêm đã gây ra kết luận sai lầm rằng tiêm vắc xin là có hại.
Vì vậy, dữ liệu có thể đem lại những thông tin hữu ích và giúp giảm sự không chắc chắn khi nhìn vào một vấn đề. Mặt khác, hãy cẩn trọng khi nhìn vào chúng và chú ý đến những mặt trái của nó!
Xem thêm ở đây: