Dữ liệu đang làm thay đổi thế giới của chúng ta, cũng như cách chúng ta sống và làm việc, với tốc độ chưa từng có. Tùy thuộc vào quan điểm của bạn, chúng ta hoặc là đang bắt đầu một thứ gì đó hứng thú đến kinh ngạc, hoặc là đang bước vào một kỷ nguyên của Kẻ độc tài (Big Brother), nơi mà nhất cử nhất động của chúng ta đều có thể bị theo dõi – và thậm chí bị dự đoán (cả hai quan điểm đều có lý lẽ riêng). Tuy nhiên, các nhà lãnh đạo và các nhà quản lý doanh nghiệp có khá ít thời gian cho sự hoài nghi về dữ liệu. Dữ liệu đang cách mạng hóa cách thức hoạt động của các công ty và nó sẽ trở nên ngày càng quan trọng đối với các tổ chức trong những năm tới. Những công ty nhìn nhận dữ liệu như là một tài sản chiến lược là những công ty sẽ tồn tại và phát triển mạnh. Với sự tăng trưởng mạnh mẽ về dữ liệu lớn và Internet kết nối vạn vật (IoT), cộng với việc phát triển nhanh chóng của các phương thức phân tích dữ liệu, tầm quan trọng của dữ liệu đối với mọi mặt của doanh nghiệp sẽ chỉ tăng lên.
Nguồn: Marketing Land

Sự tăng trưởng đáng kinh ngạc của dữ liệu lớn và Internet kết nối vạn vật

Cứ mỗi hai ngày chúng ta lại tạo ra được lượng dữ liệu tương đương với lượng dữ liệu được tạo ra từ những ngày đầu cho đến năm 2003. Vâng, là mỗi-hai-ngày. Và với việc lượng dữ liệu chúng ta đang tạo ra tiếp tục tăng nhanh, đến năm 2020, lượng thông tin số sẽ tăng từ khoảng 5 zettabyte hiện nay lên tới 50 zettabyte. Hầu hết ở mỗi hoạt động, chúng ta đều để lại một dấu vết về dữ liệu số – lướt web trực tuyến, mua hàng trong một cửa hàng trực tiếp với thẻ tín dụng, gửi e-mail, chụp một bức ảnh, đọc một bài báo trực tuyến, thậm chí cả việc dạo phố nếu bạn đang mang theo điện thoại di động hoặc có hệ thống camera giám sát CCTV trong vùng lân cận.
Thuật ngữ “dữ liệu lớn” đề cập đến việc thu thập tất cả dữ liệu đó và khả năng của chúng ta trong việc tận dụng nó để mang lại lợi thế của mình trên nhiều lĩnh vực, bao gồm cả việc kinh doanh. Bản thân dữ liệu không phải là một phát minh mới. Quay lại thời điểm trước khi có máy tính và các cơ sở dữ liệu, chúng ta vẫn sử dụng dữ liệu để theo dõi những hoạt động và đơn giản hóa các quy trình – hãy nghĩ đến các bản ghi giao dịch bằng văn bản và các hồ sơ lưu trữ bằng giấy. Máy tính, đặc biệt là các bảng tính và cơ sở dữ liệu, đã mang đến cho chúng ta một phương pháp lưu trữ và tổ chức dữ liệu trên quy mô lớn, theo một cách dễ dàng tiếp cận. Đột nhiên, thông tin đã có sẵn chỉ với một cú nhấp chuột.
Cho đến gần đây, mặc dù dữ liệu đã được giới hạn trong bảng tính hoặc cơ sở dữ liệu – tất cả đều rất trật tự và rõ ràng. Bất kỳ dữ liệu nào không được sắp xếp thành hàng và cột một cách dễ dàng sẽ gây khó khăn cho việc xử lý và bị bỏ qua. Tuy nhiên, giờ đây, những tiến bộ trong việc lưu trữ và phân tích đã cho thấy chúng ta có thể thu thập, lưu trữ và làm việc với nhiều, rất nhiều loại dữ liệu khác nhau. Kết quả là, dữ liệu ngày nay có thể bao gồm mọi thứ từ bảng tính đến những hình ảnh, video, bản ghi âm, văn bản và dữ liệu cảm biến. 
Không còn nghi ngờ gì nữa khi cho rằng lượng dữ liệu tuyệt vời mà chúng ta đang tạo ra là rất lớn. Nhưng thành thật mà nói, tôi chưa bao giờ cảm thấy hoàn toàn dễ chịu với thuật ngữ “dữ liệu lớn”. Nó tạo ra cảm giác quá đơn giản đối với tôi, thuật ngữ này chỉ tập trung vào khối lượng của dữ liệu hơn là những cơ hội đáng kinh ngạc mà dữ liệu này tạo ra. Tôi ước gì có một thuật ngữ tốt hơn để mô tả sự dịch chuyển lớn lao này trong công nghệ, văn hóa và thế giới của chúng ta. Đó là lý do tại sao, trong cuốn sách này, tôi gọi nó là “dữ liệu” ở mọi ý nghĩa, dù lớn hay nhỏ – bởi vì không quan trọng là bạn có bao nhiêu dữ liệu, mà quan trọng là liệu bạn có sử dụng nó thành công hay không.

Một thế giới mới đầy thử thách (theo định hướng dữ liệu) 

Dữ liệu lớn biết rất nhiều điều về bạn. Nó vượt xa việc Google biết những gì bạn đã tìm kiếm trực tuyến, và việc Facebook biết ai là bạn bè của bạn. Nhà cung cấp dịch vụ Internet của bạn biết mọi trang web mà bạn đã từng truy cập. Đã từng. Ngay cả khi bạn duyệt web ở chế độ riêng tư. Google biết tuổi tác và giới tính của bạn (ngay cả khi bạn chưa bao giờ tiết lộ với họ về điều này) và bạn có thể chắc rằng họ có một hồ sơ toàn diện về bạn, cũng như những sở thích của bạn, để họ có thể quyết định hiển thị quảng cáo nào cho bạn. Facebook rõ ràng biết những người bạn của bạn là ai và bạn đang ở trong mối quan hệ với người nào. Nhưng bạn có biết rằng Facebook cũng có thể dự đoán mối quan hệ của bạn sẽ kéo dài trong bao lâu hay không, hoặc nếu bạn đang độc thân thì khi nào bạn sẽ có một mối quan hệ tình cảm (và với ai)? Facebook cũng có thể cho biết mức độ thông minh của bạn, dựa trên phân tích về những lần ấn “thích” (like) của bạn. 
Cảnh sát biết bạn đang lái xe ở đâu, điều này dĩ nhiên là ở nước Anh, nơi họ có thể truy cập hàng nghìn camera giám sát CCTV được kết nối mạng trên toàn quốc để quét biển số xe cũng như chụp lại hình ảnh của những chiếc xe hơi và tài xế của nó. Tại Mỹ, nhiều thành phố cũng sử dụng camera giao thông. Điện thoại của bạn cũng cho biết tốc độ khi bạn đang lái xe. Hiện tại, thông tin đó không được chia sẻ với cảnh sát, nhưng ngày càng có nhiều công ty bảo hiểm bắt đầu sử dụng dữ liệu điện thoại thông minh để suy đoán ai là người lái xe an toàn và ai là khách hàng tiềm năng với nhiều rủi ro hơn.
Thẻ khách hàng thân thiết từ cửa hàng tạp hóa của bạn theo dõi các thương hiệu mà bạn ưa thích và thu thập rất nhiều thông tin về các thói quen, sở thích mua hàng của bạn. Các nhà bán lẻ không những sử dụng dữ liệu này để cá nhân hóa trải nghiệm mua sắm của bạn, mà nó còn được sử dụng để dự đoán những sản phẩm mà bạn có thể muốn mua trong tương lai. Trong một trường hợp nổi tiếng, nhà bán lẻ Target tại Mỹ đã dự đoán một thiếu nữ đang mang thai (dựa trên thói quen mua hàng của cô gái này) và bắt đầu gửi cho cô ấy những lời chào hàng liên quan đến em bé sắp ra đời của cô ấy – vấn đề duy nhất trong trường hợp này là cha mẹ cô ấy vẫn chưa biết cô ấy đang mang thai.
Tuy nhiên, dữ liệu lớn lại có quyền lực hơn nhiều so với mạng truyền thông xã hội và phiếu giảm giá. Ảnh hưởng của nó lan rộng đến hầu như mọi khía cạnh của cuộc sống hiện đại, từ chăm sóc sức khỏe đến khám phá không gian vũ trụ, thậm chí đến các cuộc bầu cử chính trị của chúng ta.
Lấy ví dụ, trong một chiến dịch bầu cử theo định hướng phân tích, thì trọng tâm là nhắm đến các Swing Voters – những cử tri có khả năng bỏ phiếu cho bất kỳ ứng viên nào, hoặc những cử tri chưa có quyết định dứt khoát. Xét cho cùng, tại sao lại phải lãng phí thời gian vận động những người chắc chắn sẽ bỏ phiếu cho bạn, hay những người sẽ không bao giờ có ý định bỏ phiếu cho bạn dù trong một triệu năm? Kỹ thuật này được sử dụng lần đầu tiên trong chiến dịch vận động của Obama vào năm 2012 khi một nhóm gồm hơn 100 nhà phân tích dữ liệu được giao nhiệm vụ chạy hơn 66.000 mô phỏng máy tính mỗi ngày.

Đầu tiên, những nhà phân tích của Obama đã thu thập và hợp nhất tất cả dữ liệu họ có thể thu thập được từ dữ liệu đăng ký cử tri, các khoản đóng góp, những hồ sơ công khai và mua dữ liệu thương mại của bên thứ ba (bao gồm cả dữ liệu được khai thác từ truyền thông xã hội). Sau đó, tất cả những người đã được xác định được đánh giá về khả năng bỏ phiếu cho Obama, dựa trên hồ sơ dữ liệu của họ tương thích như thế nào với những người ủng hộ đã được biết đến trước đó. Với việc được trang bị thông tin nhân khẩu học phức tạp, nhóm nghiên cứu sau đó khởi chạy các chiến dịch vận động đã được nhắm mục tiêu. Những chiến dịch này nhắm vào việc tăng số cử tri đi bầu cử, cũng như số lượng đăng ký ở các khu vực mà khả năng bỏ phiếu ủng hộ cho ứng cử viên của họ là cao, đồng thời gây ảnh hưởng đến sự lựa chọn của cử tri thuộc các khu vực mà chỉ số ủng hộ ứng viên của họ cho thấy cử tri ở đây có thể bỏ phiếu cho bất kỳ ai. Điều này có nghĩa là các tin nhắn có chủ đích có thể được gửi đi – thông qua e-mail, các bài viết đăng trên phương tiện truyền thông xã hội và quảng cáo hiển thị hình ảnh trên trình duyệt – tùy thuộc vào việc một cá nhân có cần thiết phải được thuyết phục để đăng ký, bỏ phiếu, hoặc chọn ứng cử viên chính xác hay không.
Trong những năm sau đó, tất cả các đảng và hầu hết các ứng cử viên đều đã hăng hái đưa ra những chiến lược phân tích của riêng mình.
Dữ liệu lớn cũng giúp trả lời câu hỏi: “Liệu có tồn tại sự sống trên sao Hỏa hay không”. Phòng thí nghiệm Jet Propulsion của NASA, nơi điều hành việc lập kế hoạch nhiệm vụ hàng ngày cho tàu vũ trụ Mars Rover, hiện đang sử dụng công nghệ Elasticsearch (cũng được sử dụng bởi các công ty như Netflix và Goldman Sachs) để xử lý tất cả dữ liệu được truyền về hàng ngày từ tàu vũ trụ Rover trong suốt bốn lần cập nhật định kỳ của nó. Trong khi các quyết định lập kế hoạch nhiệm vụ từng được đưa ra dựa trên dữ liệu của ngày hôm trước, thì việc chuyển sang phân tích theo thời gian thực giúp tăng tốc thời gian cực nhanh, nhờ đó các quyết định có thể được thực hiện bằng việc kiểm soát nhiệm vụ. Các mô hình kiểu mẫu và bất thường trong các tập dữ liệu có thể được phát hiện nhanh hơn nhiều, và các mối tương quan mà có thể cung cấp những hiểu biết sâu sắc về những nhiệm vụ trọng yếu sẽ có khả năng trở nên rõ ràng hơn, dẫn đến tỷ lệ phát hiện có tính chính xác cao hơn, giảm thiểu nguy cơ trục trặc hoặc hỏng hóc.
Ngay cả việc chăm sóc sức khỏe đã không thoát khỏi sự liên quan đến dữ liệu lớn. Trong nhiều năm, cơ sở của hầu hết các nghiên cứu và phát minh y khoa đã được thu thập và phân tích dựa trên dữ liệu: người nào bị bệnh, họ bị bệnh như thế nào và lý do tại sao. Nhưng bây giờ, với các cảm biến trong điện thoại thông minh và việc các bác sĩ có thể chia sẻ thông tin giữa các chuyên khoa với nhau, số lượng và chất lượng dữ liệu có sẵn đã trở nên lớn hơn bao giờ hết, điều này có nghĩa là khả năng đột phá và thay đổi đang tăng lên theo cấp số nhân. Điện thoại thông minh và các thiết bị thông minh phổ biến khác (bao gồm Jawbone, Fitbit và những thiết bị khác) giờ đây có khả năng giúp mọi người theo dõi tiến trình của họ khi hướng đến một lối sống lành mạnh hơn. Các ứng dụng, thiết bị giúp theo dõi và giám sát các bệnh mãn tính (như tiểu đường, bệnh Parkinson hay bệnh tim) cũng đang được phát triển.
Ngành y tế đã thu thập một lượng lớn dữ liệu, nhưng nó thường được lưu giữ riêng biệt trong các văn phòng, bệnh viện và phòng khám của cá nhân các bác sĩ. Việc thống nhất dữ liệu đó – và kết hợp nó với dữ liệu được thu thập từ bệnh nhân thông qua các thiết bị thông minh – là rào cản lớn tiếp theo của ngành cần phải vượt qua. Các nhà cung cấp dịch vụ chăm sóc sức khỏe đang tập trung vào việc số hóa những hồ sơ bệnh án và đảm bảo quyền truy cập vào một bộ hồ sơ trong toàn hệ thống chăm sóc sức khỏe. Phần mềm nhận dạng các mô hình kiểu mẫu đã được sử dụng để hỗ trợ chẩn đoán. Cho đến nay, một số thuật toán đã được chứng minh là mang lại hiệu quả ngang bằng hoặc hiệu quả hơn cả những chẩn đoán của con người trong việc phát hiện ung thư. Từ đây đã tạo nên một tiềm năng đáng kinh ngạc trong việc nắm bắt nhiều căn bệnh hơn ở những giai đoạn sớm hơn, và nhờ đó làm tăng khả năng thành công trong việc điều trị. Dữ liệu lớn cũng được sử dụng để theo dõi, phân tích và điều trị những dịch bệnh trên toàn thế giới, bao gồm Ebola và Zika.
Tất cả điều này chỉ là phần nổi của tảng băng trôi, và khối lượng dữ liệu sẽ chỉ tiếp tục tăng lên. Thông thường, khi chúng ta đăng ký một sản phẩm hoặc dịch vụ mới, cho dù đó là một chiếc đồng hồ thể thao hay thẻ khách hàng thân thiết, chúng ta đều đã vui vẻ cấp quyền truy cập vào dữ liệu cá nhân của mình – để đổi lấy các lợi ích như cải thiện thể hình hoặc tích điểm cho một ly cà phê miễn phí. Khi càng nhiều công ty khai thác các khả năng của dữ liệu, và khi công nghệ dần cải tiến để thu thập được ngày càng nhiều thông tin, lượng dữ liệu có sẵn được dự đoán sẽ tăng theo cấp số nhân.
Chúng ta cũng sẽ hoàn thiện hơn trong việc phân tích khối dữ liệu này, với các công cụ mới được các công ty tung ra thị trường mỗi tuần. Thực tế, cả Microsoft và Salesforce gần đây đã công bố những công cụ cho phép những người không phải là dân lập trình tạo ra các phần mềm ứng dụng để theo dõi và phân tích dữ liệu kinh doanh. Và khi chúng ta đang dần cải thiện việc phân tích dữ liệu, khả năng của chúng ta khiến cho những dự đoán cũng được cải thiện. Công ty thông minh thị trường (market intelligence) International Data Corporation dự đoán rằng một nửa số phần mềm phân tích kinh doanh sẽ bao gồm khả năng phân tích dự đoán trước năm 2020 – điều này có nghĩa là các phần mềm không chỉ có thể dự đoán hành động của khách hàng hoặc người dùng, mà chúng còn có thể đưa ra các khuyến nghị cụ thể dựa trên những dự đoán đó. Chúng ta đang ở một giai đoạn rất thú vị trong thời kỳ dữ liệu và phân tích, và công nghệ có sẵn sau khoảng năm hoặc mười năm tới có thể cung cấp những khả năng mà chúng ta thậm chí chưa thể tưởng tượng ra được.
Một phần lý do cho sự bùng nổ dữ liệu này là mạng Internet kết nối vạn vật – Internet of Things (IoT), đôi khi được gọi là Internet of Everything (IoE). IoT đề cập đến các thiết bị thu thập và truyền dữ liệu thông qua Internet, bao gồm mọi thứ từ điện thoại thông minh, đồng hồ thông minh, vòng đeo tay theo dõi sức khỏe Fitbit, ngay cả tivi và tủ lạnh của bạn. IoT đã đạt được sự tăng trưởng rất lớn trong những năm gần đây và nó chỉ vừa mới bắt đầu. Ngày nay, có khoảng 13 tỷ thiết bị kết nối với Internet. Đến năm 2020, con số này được dự đoán sẽ tăng lên tới 50 – 70 tỷ. Riêng số lượng người dùng điện thoại thông minh được dự đoán sẽ vượt con số 6 tỷ vào năm 2020.

Các thiết bị thông minh đang biến đổi thế giới, xe hơi, nhà cửa và các doanh nghiệp của chúng ta. Đến năm 2020, 1/4 tỷ ô tô sẽ được kết nối với Internet, kích hoạt phạm vi cho toàn bộ các dịch vụ bên trong xe và việc điều khiển tự động. Điều trước kia đã từng là khoa học viễn tưởng nay đã trở thành hiện thực – xe tự lái của Google đã di chuyển được vài ngàn dặm một tuần.
Công nghệ thiết bị đeo, “Wearable”, là một phần quan trọng của IoT; và thị trường toàn cầu đối với thiết bị đeo (những thứ như điện thoại thông minh, Fitbit,…) đã tăng 223% trong năm 2015. Hiện cứ trong sáu người tiêu dùng lại có một người sở hữu và sử dụng công nghệ đeo bằng cách này hoặc cách khác. Tất cả các thiết bị này tạo ra một nguồn dữ liệu dồi dào và chúng ta chỉ vừa mới bắt đầu nhận ra được những tác động của điều này.
Các thiết bị được kết nối không chỉ có thể kết nối với Internet, chúng còn có thể kết nối và chia sẻ thông tin với nhau. Trong thực tế, các kết nối giữa máy móc với máy móc sẽ tăng lên 27 tỷ vào năm 2024. Vì vậy, trong tương lai gần, không có gì vô lý với viễn cảnh tủ lạnh của bạn sẽ biết được khi nào thì sữa trong tủ hết hạn sử dụng và tự động yêu cầu điện thoại thông minh của bạn đặt hàng nhiều hơn trong lần mua sắm trực tuyến tiếp theo.
Tổng hợp và trích đăng từ 
Chiến lược dữ liệu (Data Strategy) | Bernard Marr
MeoMapu