Theo dõi, thu thập và phân tích dữ liệu - The internet upside down - INTERNET PRIVACY

Hai hệ thống trên là lĩnh vực nghiên cứu và phát triển của ngành Khoa học máy tính , vì vậy phần chia sẻ dưới đây sẽ mang nhiều kiến thức và từ ngữ chuyên ngành. Mình sẽ cố gắng dùng chúng càng ít càng tốt hoặc thay thế tạm bằng một từ dễ hiểu hơn cho mọi người, nếu bạn chuyên về mảng khác, không rõ về một số từ ngữ hoặc phần nào hoặc nếu bạn là dân IT và nếu mình có sai sót đó thì đừng trách mình và hãy đóng góp thêm nhé.

Phần 1: Liên kết, chia sẻ và cá nhân hóa.

The internet upside down là gì? Nếu như bạn đã xem loạt series phim đình đám trên Netflix là Stranger things thì sẽ biết đến một thế giới ngược lại với thế giới con người hiện tại, cả hai thế giới kết nối với nhau qua cổng không gian nào đó, Thế giới ngược ấy về bản chất thì ngược lại hoàn toàn so với thế giới chính. Nếu như chúng ta xem mục đích cách thức hoạt động của các trang web, người dùng là một thế giới thì các hệ thống theo dõi (tracking) là thế giới ngược lại. Vậy nó ngược lại như thế nào?

Trong khi bạn đang đọc những dòng này thì có thể máy tính của bạn đã lan tỏa ra hàng tỷ các bit dữ liệu ra mạng Internet qua các switch và router rồi lại qua switch và router, cuối cùng sẽ đến một máy tính nào đó trên thế giới mà mình không biết được. Tổng quát lên, chúng ta có thể xem các hoạt động bình thường của con người trên Internet là các quá trình tạo ra và lan tỏa dữ liệu.

Có thể các bạn cũng đã biết, máy tính là một bộ máy dùng để xử lí thông tin ở dạng dữ liệu, vì vậy những thứ tồn tại trên máy tính đều là dữ liệu: từ các chương trình đến các hành động, thao tác của chúng ta.

Ví dụ: Khi bạn đã cuộn trang để đọc bài viết của mình thì thao tác ấy chính là thông tin, và để máy tính hiểu được thì chúng phải được lưu trữ lại để tạo thành dữ liệu. Dữ liệu ấy có thể chỉ được lưu tạm thời nhưng cũng có thể được các hệ thống tracking lưu trữ lại.

Nhìn lại hình phía trên, theo hướng từ trên xuống chính là quá trình hình thành thông tin và chuyển hóa dữ liệu, đó chính là chiều chính của internet. Từ đây, bạn có thể hình dung được chiều ngược lại của internet rồi phải không? Đúng rồi đấy, đó chính là quá trình lưu trữ, chuyển hóa dữ liệu thành thông tin. Một máy tính của bạn cũng thể hiện quá trình này khi chúng nhận dữ liệu từ hệ thống Spiderum và thể hiện chúng lên màn hình.

Các hệ thống theo dõi (tracking) thể hiện bản chất (upside down) một cách rõ ràng hơn khi chúng cố gắng lưu trữ, xử lý thành thông tin càng nhiều dữ liệu trên internet càng tốt. Bạn có thể hình dung, các hệ thống ấy như một con bạch tuộc, với vô số vòi được gắn vào mỗi máy tính để cố gắng mang thức ăn (dữ liệu) về cái bụng của nó. Về thực tế, cái bụng của con bạch tuộc trên là các hệ thống lưu trữ dữ liệu với dung lượng cực lớn.

Chủ nghĩa tư bản như một con bạch tuộc có hai cái vòi: một cái vòi bòn rút xương tủy của người dân trong nước còn vòi kia hút máu của những nước khác.

Đó là ví dụ của Mác về CNTB, ở trên mình cũng ví dụ các hệ thống tracking như những con bạch tuộc vậy, tuy nhiên chúng có rất rất nhiều vòi và đối tượng duy nhất của những vòi ấy chính là thông tin của chúng ta - người sử dụng dịch vụ. Như mình đã đề cập ở phần cá nhân hóa, việc thu thập dữ liệu khách hàng sẽ là một cách hiệu quả để hiểu và cải thiện dịch vụ của chính nhà cung cấp và đây cũng chính là lý do hàng đầu mà các nhà cung cấp luôn đề cập tới khi nhắc đến việc thu thập dữ liệu khách hàng.

Một sản phẩm truyền thống ở thế giới hằng ngày như: một hộp thuốc sẽ đi kèm với “Hướng dẫn sử dụng”, một sản phẩm hay dịch vụ trên internet sẽ luôn đi kèm với “Term of service & privacy”. Điểm chung của cả hai là hầu hết chúng ta đều ít quan tâm chúng vì cái chúng ta muốn là sản phẩm và dịch vụ, không phải những đoạn chữ dài dòng và khó hiểu.

Chúng ta mong muốn được sử dụng những sản phẩm và dịch vụ có chất lượng tốt, nếu như các nhà cung cấp ấy muốn biết một số thông tin của chúng ta để cải thiện dịch vụ của họ thì chúng ta cũng không đắn đo hay khó chịu gì. Và đó là những điều đã diễn ra trong nhiều năm về trước. Mọi chuyện đã đi quá giới hạn của nó khi thế giới chúng ta đã bắt đầu nghiêng qua thế giới của internet, các người dân sử dụng máy tính, smartphone kết nối internet nhiều giờ hằng ngày và con số ấy không ngừng tăng lên, các chính phủ quốc gia triển khai nhiều chính sách “số hóa” hay “chuyển đổi số” nhằm nhanh chóng khai thác các tiềm năng của máy tính và internet mang lại. Sự chuyển đổi trên mang lại nhiều lợi ích về kinh tế, thông tin,... nhưng cũng đem lại nhiều tác hại đó chính là phụ thuộc vào nhiều vào máy tính và internet.

availability là một trong bộ ba AIC hoặc CAI (availability, integrity, confidentiality) trong bảo mật thông tin thể hiện tính khả dụng của một hệ thống trong một chu kì thời gian. Một hệ thống ngân hàng nếu bị sập trong một thời gian ngắn sẽ gây nên nhiều thiệt hại lớn.

Vậy việc tracking đã đi quá giới hạn của nó như thế nào? Có rất nhiều lý do, mình sẽ đề cập tới một số lý do chính thôi nhé.

Thật không may, việc tracking người dùng với dịch vụ của mình là một việc không đơn giản, hơn thế nữa chi phí cho việc tìm ra insight trong đống dữ liệu đã tracking lại tốn nhiều chi phí - các công việc về xử lý dữ liệu lớn và phân tích dữ liệu đang có mức lương hàng đầu trong mảng Công nghệ thông tin. Việc xây dựng hệ thống tracking và theo dõi có lẽ không khả quan đối với các doanh nghiệp nhỏ như các website bán hàng, các trang mạng điện tử,... Giải pháp hiệu quả nhất, đã và đang được sử dụng là sử dụng dịch vụ theo dõi và phân tích của một bên thứ ba.

Google Analytics chính là một ví dụ điển hình cho dịch vụ trên. Bạn muốn biết người dùng quan tâm những sản phẩm nào trên trang web của bạn - hãy sử dụng GA, bạn muốn biết những nút bấm hay phần tử không hiệu quả trên trang web - hãy sử dụng GA, bạn muốn biết tỉ lệ khách mua sản phẩm trên lượt xem sản phẩm, hãy sử dụng GA. Và cuối cùng GA miễn phí.

Vâng: GA miễn phí, việc theo dõi và phân tích khách hàng trở nên cực kì dễ dàng: gắn một đoạn script nhỏ vào trang web và như thế tất cả để GA lo. Không chỉ GA mà còn rất rất nhiều dịch vụ tracking và analytics miễn phí khác. Việc theo dõi và phân tích từ khó đã chuyển thành đơn giản vì vậy nhiều ứng dụng hay website đều sử dụng dịch vụ của bên thứ 3. Chính những hành động này đã giúp các bộ máy phân tích ấy trở nên ngày càng lớn, với những “cái vòi” ngày càng tiếp cận được nhiều người và đây chính là một lý do để việc thu thập dữ liệu trở nên quá giới hạn khi họ nắm quá nhiều dữ liệu của nhiều người. Những bộ máy ấy gán cho mỗi khách hàng sử dụng một “fingerprint” - một id để xác thực chúng ta khi sử dụng các dịch vụ khác nhau. Việc gán fingerprint cho người dùng chính là một cách dễ dàng nhất để tổng hợp thông tin trên internet của bạn.

Ví dụ: Khi bạn tìm kiếm sản phẩm đang cần mua như: “Quần sịp Superman” chăng hạn ở một trang web bán hàng nào đó. Nếu website đó sử dụng dịch vụ GA, thì bạn đã có một “chứng minh nhân dân” của riêng mình và kèm theo vài dữ liệu như: Vào lúc “xx/xx/2020” thằng ABC này tìm kiếm sản phẩm “Quần sịp Superman” ở trang xxx.xxx,......” Và kết quả, bạn vào các trang web khác và thấy quảng cáo về “quần sịp superman”??!!. Các trang web khác đều không biết bạn đã tìm kiếm sản phẩm trên, nhưng Google thì biết mặc dù bạn chả tìm kiếm nó trên google.

Việc định danh người dùng đem lại sự hiệu quả trong việc phân nhóm đối tượng sử dụng, nhưng chính việc lạm dụng chúng để khai thác thông tin đời tư, gây nên sự khó chịu cho chúng ta đã khiến cho việc tracking ngày càng bị phản đối. Các dịch vụ chặn quảng cáo như: Adblock, ghostery,... là một giải pháp được chúng ta sử dụng hằng ngày, nhưng có thể bạn chưa biết: Có thể đằng sau các công cụ chặn quảng cáo ấy lại là một công ty quảng cáo đấy!!!

Qua phần này, mình đã trình bày một số thông tin về việc tracking dữ liệu, ở phần tiếp theo chúng ta sẽ điểm qua một số cách để hạn chế việc tracking nhé.

Theo dõi, thu thập và phân tích dữ liệu - The internet upside down - INTERNET PRIVACY - Phần 2.