Cũng lâu quá rồi không có thời gian viết bài, dạo gần đây công ty mình có lập một cái blog chuyên viết bài về công nghệ, sếp có giao chỉ tiêu anh em phải có ít nhất một bài viết mỗi tháng, vậy nên không viết không được. 
Sau một hồi loay hoay tìm chủ đề thì mình nhận thấy ngay tại công ty, có nhiều anh em là lập trình viên nhưng cũng khá mơ hồ với khái niệm Dữ liệu lớn. Mọi người thường chỉ nghĩ dữ liệu nhiều thì sẽ là lớn, tức là chỉ cần tôi có hàng trăm hàng ngàn Gigabytes dữ liệu thì đó là dữ liệu lớn, nghĩ như vậy là sai bét, dữ liệu lớn hoàn toàn khác và trong bài viết này mình sẽ giúp mọi người trả lời câu hỏi: Dữ liệu lớn là gì?

1. Khái niệm

Để thực sự hiểu về dữ liệu lớn, chúng ta hãy cùng nhìn lại một chút về quá khứ. Theo như định nghĩa của Gartner, vào khoảng năm 2001 thì dữ liệu lớn là dữ liệu chứa nhiều loại dữ liệu hơn, không có cấu trúc cố định, có khối lượng ngày càng tăng và với tốc độ ngày càng cao. Điều này được tóm tắt thành ba chữ V, chúng ta sẽ nói rõ về từng chữ V một ở bên dưới.
Nói một cách đơn giản, dữ liệu lớn là các tập dữ liệu lớn hơn, phức tạp hơn, đặc biệt là từ các nguồn dữ liệu mới. Những tập dữ liệu này vô cùng lớn, đến nỗi phần mềm xử lý dữ liệu truyền thống chỉ có thể lưu trữ chứ không thể nào quản lý được theo cách thông thường. Tuy nhiên khối lượng dữ liệu khổng lồ này có thể được sử dụng để giải quyết các vấn đề kinh doanh, điều mà bạn không thể giải quyết trước đây.


2. Ba chữ V trong Big Data

- Volume: Khối lượng của dữ liệu là điều cực kỳ quan trọng. Với Dữ liệu lớn, bạn sẽ phải xử lý một lượng dữ liệu không có cấu trúc rõ ràng, với mật độ dày đặc. Những dữ liệu này có giá trị không xác định như là bảng tin của Twitter, một cú click trên một website bán hàng, ứng dụng di động hoặc cũng có thể đến từ cảm biến của một thiết bị bất kỳ. Đối với các tổ chức thu thập, lượng dữ liệu có thể lên đến hàng trăm terabytes, thậm chí là hàng hàng trăm pentabytes. Nếu chưa biết về petabytes thì bạn hãy xem thêm tại đây.
 
- Velocity: Để có thể thu thập được một khối lượng dữ liệu thì tốc độ thu thập phải rất rất nhanh. Velocity thể hiện tốc độ mà dữ liệu. có thể thu thập được hoặc có thể thực hiện được. Thông thường, tốc độ cao nhất là khi dữ liệu được trực tiếp ghi vào trong bộ nhớ thay vì ghi vào ổ đĩa. Một số sản phẩm thông minh hỗ trợ  internet thu thập dữ liệu theo thời gian thực hoặc gần sát thời gian thực để từ đó có thể đưa ra đánh giá và hành động tốt nhất với những dữ liệu đã thu thập được.

3. Variety: Variety được hiểu là sự đa dạng. Ngày nay có rất nhiều người bị nhầm lẫn giữa một khối lượng lớn dữ liệu và Dữ liệu lớn, đó là một sự nhầm lẫn tai hại. Họ cứ nghĩ, có nhiều dữ liệu thì có thể gọi là dữ liệu lớn, hoàn toàn sai lầm. Các kiểu dữ liệu truyền thống là loại dữ liệu có cấu trúc và thường nằm gọn trong các cơ sở dữ liệu quan hệ còn Dữ liệu lớn là những loại dữ liệu không có cấu trúc, bán cấu trúc và liên tục xuất hiện những kiểu dữ liệu phi cấu trúc mới, chẳng hạn như văn bản, âm thanh, video, hình ảnh hoặc những yêu cầu xử lý trước khi thu thập để tìm ra ý nghĩa và hỗ trợ cho siêu dữ liệu.

Tuy nhiên trong một vài năm trở lại đây, đã xuất hiện thêm hai chữ V mới đó là: Value - Giá trị nội tại  và Veracity - Tính xác thực


Dữ liệu có giá trị nội tại. Nhưng nó không có ích lợi gì cho đến khi được thu thập và xử lý. Một điều nữa cũng quan trọng không kém: Dữ liệu của bạn chính xác đến mức nào — và bạn có thể dựa vào nó ở mức độ nào?


Ngày nay, dữ liệu lớn đã trở thành vốn. Hãy nghĩ về một số công ty công nghệ lớn nhất thế giới. Một phần lớn giá trị mà họ cung cấp đến từ dữ liệu của họ. Dữ liệu này được họ liên tục phân tích để tạo ra hiệu quả hơn và phát triển các sản phẩm mới.


Những đột phá công nghệ gần đây đã làm giảm chi phí lưu trữ và tính toán dữ liệu theo cấp số nhân, khiến việc lưu trữ nhiều dữ liệu trở nên dễ dàng và ít tốn kém hơn trước đây rất nhiều. Với khối lượng dữ liệu lớn ngày càng gia tăng, giá thành rẻ hơn và dễ tiếp cận hơn, bạn có thể đưa ra các quyết định kinh doanh chính xác và chính xác hơn.


Tìm kiếm giá trị trong dữ liệu lớn không chỉ là phân tích nó (đó là một lợi ích hoàn toàn khác). Đó là toàn bộ quá trình khám phá đòi hỏi các nhà phân tích sâu sắc, người dùng doanh nghiệp và giám đốc điều hành, những người đặt câu hỏi phù hợp, nhận ra các mẫu, đưa ra các giả định sáng suốt và dự đoán hành vi của người tiêu dùng.


Rõ ràng lợi ích của Dữ liệu lớn là điều không cần phải bàn cãi những vấn đề đặt ra là làm thế nào để thu thập và xử lý dữ liệu một cách hiệu quả nhất.


Vậy sau cùng chúng ta phải bắt đầu từ đâu?

3. Lịch sử của Dữ Liệu Lớn

Mặc dù bản thân khái niệm dữ liệu lớn còn tương đối mới, nhưng nguồn gốc của tập dữ liệu lớn bắt nguồn từ những năm 1960 và 70 khi thế giới dữ liệu chỉ mới bắt đầu với các trung tâm dữ liệu đầu tiên và sự phát triển của cơ sở dữ liệu quan hệ.

Khoảng năm 2005, mọi người bắt đầu nhận ra lượng dữ liệu mà người dùng tạo ra thông qua Facebook, YouTube và các dịch vụ trực tuyến khác. Hadoop (một khuôn khổ mã nguồn mở được tạo ra đặc biệt để lưu trữ và phân tích các tập dữ liệu lớn) đã được phát triển cùng năm đó. NoSQL cũng bắt đầu trở nên phổ biến trong thời gian này.

Sự phát triển của các khuôn khổ nguồn mở, chẳng hạn như Hadoop (và gần đây là Spark) là điều cần thiết cho sự phát triển của dữ liệu lớn vì chúng làm cho việc lưu trữ dữ liệu lớn dễ trở nên rẻ hơn và cũng dễ dàng tiếp cập hơn tước rất nhiều. Kể từ đó, khối lượng dữ liệu lớn đã tăng vọt. Người dùng vẫn đang tạo ra một lượng lớn dữ liệu — nhưng không chỉ có con người làm việc đó.

Với sự ra đời của Internet of Things (IoT), nhiều đối tượng và thiết bị được kết nối với internet hơn, thu thập dữ liệu về cách sử dụng của khách hàng và hiệu suất sản phẩm. Sự xuất hiện của học máy đã tạo ra nhiều dữ liệu hơn.

Mặc dù dữ liệu lớn đã tiến xa, nhưng tính hữu ích của nó chỉ mới bắt đầu. Điện toán đám mây đã mở rộng khả năng của dữ liệu lớn hơn nữa. Đám mây cung cấp khả năng tự co dãn của dữ liệu một cách vô cùng dễ dàng, nơi các nhà phát triển chỉ cần một tài khoản và kết nối đến một máy chủ nào đó và tạo ra những dữ liệu cho riêng mình.

Lợi ích của Dữ liệu lớn và Phân tích dữ liệu
- Dữ liệu lớn giúp bạn có thể có được câu trả lời đầy đủ hơn vì bạn có nhiều thông tin hơn.
- Có nhiều câu trả lời đầy đủ hơn đồng nghĩa với việc dữ liệu cũng trở nên đáng tin cậy hơn — cung cấp cho chúng ta có nhiều cách tiếp cận hoàn toàn khác biệt để giải quyết vấn đề.


4. Ứng dụng của Dữ liệu lớn

Dù đã đọc qua các khác niệm và hầu hết đều thừa nhận những lợi ích mà Dữ liệu lớn mang lại, tuy nhiên thật khó để hình dung được dữ liệu lớn được ứng dụng như thế nào. Sau đây, mình sẽ liệt một vài tình huống ở những công ty hàng thể giúp bạn giải quyết một loạt các hoạt động kinh doanh, từ trải nghiệm khách hàng đến phân tích.

Big Data có thể ứng dụng trong tất cả mọi lĩnh vực

-  Phát triển sản phẩm: Các công ty như Netflix và Procter & Gamble sử dụng dữ liệu lớn để dự đoán nhu cầu của khách hàng. Họ xây dựng các mô hình dự đoán cho các sản phẩm và dịch vụ mới bằng cách phân loại các thuộc tính chính của sản phẩm hoặc dịch vụ trong quá khứ và hiện tại, đồng thời mô hình hóa mối quan hệ giữa các thuộc tính đó và thành công thương mại của dịch vụ. Ngoài ra, P&G sử dụng dữ liệu và phân tích từ các nhóm khách hàng đặc biệt, từ phương tiện truyền thông, thử nghiệm hị trường và triển khai mô hình sớm nhất tới các cửa hàng để lập kế hoạch sản xuất và tung ra sản phẩm mới.

- Dự báo lỗi: Bất cứ một hệ thống hay sản phẩm dù hoàn hảo đến đâu cũng sẽ xảy ra lỗi, đó là điều không thể tránh khỏi. Việc cần làm của các công ty hàng đầu là đối mặt với nó chứ không phải là lờ đi và coi những không có chuyện gì xảy ra. Tuy một sản phầm tốt là một sản phẩm có ít lỗi nhất, những không một người dùng nào cảm thấy thoải mái với một sản phẩm bị lỗi hết, dù đó là những lỗi nhỏ nhất, vậy nên việc đưa ra dự báo lỗi từ sớm và khắc phục chúng là điều vô cùng quan trọng. Các yếu tố có thể dự đoán lỗi cơ học có thể nằm sâu trong dữ liệu có cấu trúc, nó không gây ra lỗi ngay mà mất hàng năm trời mới gây ra lỗi, loại máy và kiểu thiết bị, cũng như trong dữ liệu phi cấu trúc bao gồm hàng triệu mục nhật ký, dữ liệu cảm biến, thông báo lỗi và nhiệt độ động cơ. Bằng cách phân tích những dấu hiệu này về các vấn đề tiềm ẩn trước khi sự cố xảy ra, các tổ chức có thể triển khai bảo trì hiệu quả hơn về chi phí và tối đa hóa thời gian hoạt động của các bộ phận và thiết bị.

- Trải nghiệm khách hàng: Cạnh tranh toàn cầu đang diễn ra vô cùng khốc liệt và cốt lỗi nằm ở việc lôi kéo và giữ chân khách hàng. Giờ đây, một cái nhìn rõ ràng hơn về trải nghiệm của khách hàng trở nên khả thi hơn bao giờ hết. Dữ liệu lớn cho phép bạn thu thập dữ liệu từ mạng xã hội, lượt truy cập web, nhật ký cuộc gọi và các nguồn khác để cải thiện trải nghiệm tương tác và tối đa hóa giá trị được cung cấp. Bắt đầu cung cấp các phiếu mua hàng được cá nhân hóa, giảm bớt sự rời đi của khách hàng và chủ động xử lý các vấn đề của khách hàng khi xảy ra.

- Gian lận và Tuân thủ: Bất cứ sự phát triển nào cũng có hai mặt và Dữ liệu lớn cũng vậy. Nó có thể rất hữu ích khi được phục vụ vào mục đích tốt nhưng cũng sẽ rất nguy hiểm khi dùng cho những mục đích không chính đáng, điều đáng quan ngại ở đây là ranh giới giữa những chuyện này thường vô cùng mong manh. Tất cả những công ty hàng đầu thế giới như Facebook, Google, Apple...đều theo dõi người dùng, lấy thông tin cá nhân của người sử dụng và sử dụng chúng để phục vụ cho mục đích kinh doanh, điều này là tốt hay xấu? Không thể chứng minh được dễ dàng. Các cơ quan quản lý tuy đã rất cố gắng bổ sung thêm các khung pháp lý, những buổi chất vấn nhưng xem ra những quy định đó không mang lại nhiều hiệu quả, hoặc quá chậm chạp và lạc hậu so với sự phát triển của những công nghệ mới. Dữ liệu của bạn chắc chắn sẽ bị đánh cắp khi dùng internet, đó là điều không cần phải bàn cãi, đừng cố gắng chống lại vì bạn không thể làm được đâu, điều bạn cần làm là giữ những thông tin cần thiết, quan trọng ở một nơi nào đó an toàn và dễ dàng tìm lại được và nếu không muốn bị hack thì tốt nhất là đừng kết nối internet.

- Machine Learning: Machine Learning là một trong những chủ đề nóng nhất hiện nay. Nếu chúng ta xem ML  những một chiếc xe thì dữ liệu lớn chính là nguyên liệu cho chiếc xe có thể vận hành. Không có Dữ liệu lớn, sẽ không thể có ML và hàng loạt những công nghệ khác cũng không thể phát triển (AI cần phải có Dữ liệu lớn nếu không chỉ là những thuật toán hết sức tầm thường), Dữ liệu lớn chính là nền tảng có sự phát triển của rất nhiều lĩnh vực khác trong tương lai. Nếu thế kỷ 20, cả thế giới xung đột vì dầu mỏ thì ở thế kỷ 21, dữ liệu chính là cuộc chiến tiếp theo.

- Hiệu quả hoạt động:  Với dữ liệu lớn, bạn có thể phân tích và đánh giá hoạt động sản xuất, phản hồi, tỷ lệ đổi trả sản phẩm của khách hàng cũng như các yếu tố khác để giảm sự cố và dự đoán nhu cầu trong tương lai. Dữ liệu lớn cũng có thể được sử dụng để cải thiện việc ra quyết định phù hợp với nhu cầu thị trường hiện tại.

- Thúc đẩy đổi mới: Dữ liệu lớn có thể giúp bạn đổi mới bằng cách nghiên cứu sự phụ thuộc lẫn nhau giữa con người, tổ chức, thực thể và quy trình, sau đó xác định các cách mới để sử dụng những thông tin chi tiết đó. Sử dụng thông tin chi tiết về dữ liệu để cải thiện các quyết định về cân nhắc tài chính và lập kế hoạch. Xem xét xu hướng và những gì khách hàng muốn cung cấp các sản phẩm và dịch vụ mới. Thực hiện định giá động. Có vô số khả năng và vô số công việc mà dữ liệu có thể mang lại, tiềm năng của Dữ liệu lớn là vô hạn.


5. Những thách thức

Mặc dù dữ liệu lớn có nhiều hứa hẹn, nhưng không phải không có những thách thức của nó.
Đầu tiên, dữ liệu lớn là… lớn, là rất rất lớn. Mặc dù các công nghệ mới đã được phát triển để lưu trữ dữ liệu, nhưng dung lượng dữ liệu đang tăng gấp đôi sau mỗi hai năm. Các tổ chức vẫn phải vật lộn để theo kịp dữ liệu của họ và tìm cách lưu trữ nó một cách hiệu quả. Nhưng nếu chỉ lưu trữ dữ liệu thì không đủ. Dữ liệu phải được sử dụng để có giá trị và điều đó phụ thuộc vào việc quản lý.

Dữ liệu sạch hoặc dữ liệu có liên quan đến khách hàng và được tổ chức theo cách cho phép phân tích có ý nghĩa, đòi hỏi rất nhiều công việc. Các nhà khoa học dữ liệu dành 50 đến 80 phần trăm thời gian của họ để quản lý và chuẩn bị dữ liệu trước khi nó thực sự có thể được sử dụng.

Cuối cùng, công nghệ dữ liệu lớn đang thay đổi với tốc độ nhanh chóng. Một vài năm trước, Apache Hadoop là công nghệ phổ biến được sử dụng để xử lý dữ liệu lớn. Sau đó, Apache Spark được giới thiệu vào năm 2014. Ngày nay, sự kết hợp của hai khuôn khổ dường như là cách tiếp cận tốt nhất. Theo kịp công nghệ dữ liệu lớn là một thách thức không hề dễ ở hiện tại và cả trong tương lai của nhân loại.

6.  Dữ liệu lớn hoạt động như thế nào


Dữ liệu lớn cung cấp cho bạn thông tin chi tiết mới, mở ra cơ hội và mô hình kinh doanh mới. Bắt đầu bao gồm ba hành động chính:


1. Khả năng tích hợp: Dữ liệu lớn tập hợp dữ liệu từ nhiều nguồn và ứng dụng khác nhau. Các cơ chế tích hợp dữ liệu truyền thống, chẳng hạn như ETL (trích xuất, chuyển đổi và tải) thường không phù hợp với việc thu thập dữ liệu. Nó đòi hỏi các chiến lược và công nghệ mới để phân tích các tập dữ liệu lớn ở quy mô terabyte hoặc thậm chí là petabyte.
Trong quá trình tích hợp, bạn cần đưa dữ liệu vào, xử lý và đảm bảo dữ liệu đó được định dạng và có sẵn ở dạng mà các nhà phân tích kinh doanh của bạn có thể bắt đầu công việc phân tích của mình.

2. Quản lý: Dữ liệu lớn yêu cầu lưu trữ. Giải pháp lưu trữ của bạn có thể trên đám mây, tại chỗ hoặc cả hai. Bạn có thể lưu trữ dữ liệu của mình ở bất kỳ hình thức nào bạn muốn và đưa các yêu cầu xử lý mong muốn cũng như các công cụ xử lý cần thiết vào các tập dữ liệu đó theo yêu cầu. Nhiều người chọn giải pháp lưu trữ của họ theo nơi dữ liệu của họ hiện đang cư trú. Đám mây đang dần trở nên phổ biến vì nó hỗ trợ các yêu cầu tính toán hiện tại của bạn và cho phép bạn sử dụng tài nguyên khi cần thiết.

3. Phân tích: Đầu tư và dữ liệu lớn sẽ vô cùng tốn kém ở thời điểm ban đầu nhưng nhất định sẽ được đền đáp khi bạn phân tích và có những giải pháp đúng đắn từ khối dữ liệu ấy. Có được sự rõ ràng với phân tích trực quan về các tập dữ liệu đa dạng của bạn. Khám phá thêm dữ liệu để có những khám phá mới. Chia sẻ những phát hiện của bạn với những người khác. Xây dựng mô hình dữ liệu bằng máy học và trí tuệ nhân tạo sau đó, đưa dữ liệu của bạn vào hoạt động.

7. Một vài lời khuyên

Dữ liệu lớn hay thật, không ai chối cãi được nhưng để phát huy được hết hiệu quả của nó thì không dễ. Dưới đây là một vài lời khuyên nho nhỏ, hy vọng là sẽ giúp ích để giúp bạn xây dựng được một nền tảng dữ liệu lớn thành công.
- Điều chỉnh dữ liệu với mục tiêu kinh doanh cụ thể: Không phải dữ liệu nào cũng hữu ích và cần thiết, có rất nhiều dữ liệu rác và bãi rác ấy ngày càng phình to. Một công ty trong lĩnh vực bất động sản thì cần dữ liệu của các cầu thủ trên thế giới để làm gì? Tất nhiên bạn có thể bán lại những dữ liệu ấy cho công ty khác nhưng liệu dữ liệu thật sự có giá trị hay không khi mà chi phí thu thập và lưu trữ là vô cùng tốn kém. Vậy nên bạn phải xác định thật rõ mục tiêu kinh doanh và những số liệu mình cần để đạt được mục tiêu trong thời gian ngắn nhất, cùng với chi phí bỏ ra là thấp nhất. Chúng ta có thể mua dữ liệu hoặc thuê các công ty bên ngoài mà không phải quá bận tâm nhưng nếu xét về lâu dài, điều này là không tốt. Sau cùng, bạn phải là có dữ liệu của khách hàng, phải tìm cách thu thập và khai thác hiệu quả những dữ liệu ấy. Trong thời đại ngày nay, nếu không có dữ liệu công ty bạn sẽ không thể nào tiến xa được.

- Thiếu hụt kỹ năng: Một trong những trở ngại lớn nhất để thu lợi từ khoản đầu tư của bạn vào dữ liệu lớn là sự thiếu hụt kỹ năng. Kỹ năng ở đây có thể được hiểu như là cả một quy trình từ thu thập, đến phân tích và sử dụng một cách hiệu quả dữ liệu mà bạn thu thập được. Để làm được điều này, bạn cần những nhân sự xuất sắc và nhiều năm kinh nghiệm. Nó đòi hỏi sự kiên trì, đầu tư mạnh mẽ với một tầm nhìn xa trong tương lai, đừng hy vọng là sẽ thành công ngay lập tức. Chuẩn hóa cách tiếp cận của bạn sẽ cho phép bạn quản lý chi phí và tận dụng các nguồn lực hiệu quả. Các tổ chức thực hiện các giải pháp và chiến lược dữ liệu lớn nên đánh giá các yêu cầu kỹ năng của họ sớm và thường xuyên và nên chủ động xác định bất kỳ khoảng trống kỹ năng tiềm ẩn nào. Những vấn đề này có thể được giải quyết bằng cách tự đào tạo hoặc đào tạo chéo các nguồn lực hiện có, thuê các nguồn lực mới và tận dụng các công ty tư vấn.

- Có một trung tâm dữ liệu xuất sắc: Con người là quan trọng nhưng máy móc cũng quan trọng không kém. Đầu tư một trung tâm dữ liệu là không rẻ nhưng nếu muốn theo đuổi việc thu thập dữ liệu thì đó là việc bắt buộc phải làm, những con người tốt nhất sẽ tạo ra những kết quả tốt nhất cùng với sự hỗ trợ tốt nhất của những thiết bị và phụ kiện thích hợp.

- Tương thích với dữ liệu đám mây: Các quy trình dữ liệu lớn và người dùng yêu cầu quyền truy cập vào một loạt các tài nguyên cho cả thử nghiệm lặp đi lặp lại và chạy các công việc sản xuất. Một giải pháp dữ liệu lớn bao gồm tất cả các lĩnh vực dữ liệu bao gồm giao dịch, dữ liệu tổng thể, dữ liệu tham chiếu và dữ liệu tóm tắt. Các máy chủ phân tích nên được tạo theo yêu cầu. Quản lý tài nguyên là rất quan trọng để đảm bảo kiểm soát toàn bộ luồng dữ liệu bao gồm xử lý trước và sau, tích hợp, tóm tắt trong cơ sở dữ liệu và mô hình phân tích. Một chiến lược bảo mật và cung cấp đám mây riêng và công cộng được lập kế hoạch tốt đóng một vai trò không thể thiếu trong việc hỗ trợ các yêu cầu thay đổi này.
- Lập kế hoạch rõ ràng: Việc khám phá ý nghĩa trong dữ liệu của bạn không phải lúc nào cũng đơn giản. Đôi khi chúng ta thậm chí không biết những gì chúng ta đang tìm kiếm. Đó là mong đợi. Ban quản lý và CNTT cần hỗ trợ tình trạng “thiếu định hướng” hoặc “thiếu yêu cầu rõ ràng” này. Đồng thời, điều quan trọng là các nhà phân tích và nhà khoa học dữ liệu phải làm việc chặt chẽ với doanh nghiệp để hiểu các yêu cầu và lỗ hổng kiến thức chính của doanh nghiệp. Để phù hợp với việc khám phá dữ liệu tương tác và thử nghiệm các thuật toán thống kê, bạn cần các khu vực làm việc hiệu suất cao. Đảm bảo rằng môi trường hộp cát có sự hỗ trợ mà chúng cần — và được quản lý thích hợp.

Hy vọng bài viết này đã giúp bạn hiểu hơn về Big Data. Cảm ơn vì đã đọc.
p/s: Spiderum không hỗ trợ viết Markdown, chán ghê: ((