Tadaaaa~~ chào mừng mọi người đến với series tiếp theo của series Dữ liệu và những người bạn, nếu bạn chưa xem các phần trước thì link đây (mình khuyến nghị nên đọc các bài trước vì có một số phần của bài này có liên quan đến các bài trước <3): 
Vào vấn đề luôn, hôm nay mình sẽ cho các bạn thêm một nỗi sợ vô hình nữa , một nỗi sợ của The New Industrial Revolution - Cách Mạng Công Nghiệp 4.0. Có bao giờ bạn hỏi rằng facebook, google lại cung cấp phần mềm cho bạn dùng miễn phí? Nguồn thu nhập của họ đến từ đâu nếu họ cung cấp phần mềm miễn phí như thế cho bạn, oh wow phải chăng họ thương yêu mọi người đến thế? Nah~~ mình không nghĩ những công ty Tư Bản yêu thương chúng ta, những User đến mức cung cấp phần mềm miễn phí cho chúng ta dùng hầu như trong suốt cả cuộc đời như thế đâu :>>
Đặt câu hỏi: " Vậy tại sao chúng ta có thể dùng nó miễn phí từ trước đến giờ?"
Thì để trả lời cho câu hỏi đó nó rất đơn giản, họ kiếm tiền từ chính Information của bạn, từng cú click, từng câu lệnh, từng dòng tìm kiếm, từng phút từng giây bạn dùng phần mềm của họ, chắc chắn những Raw Data đấy đã và đang được ghi ở đâu đó trong những server đâu đó trên thế giới này.
Đặt câu hỏi tiếp: " Là sao, thông tin tui thì có gì sao, mà người ta làm vậy không có quyền của tui thì tui kiện đó à nhe, tui gắt lắm à nhe "
SearyShiet sẽ trả lời bạn là, thông tin bạn đáng giá như vàng vậy ó, nói rõ hơn là họ thu thập thông tin của bạn và chuyển về một nơi nào đó để lưu trữ và việc đó là một quá trình cao cả của các chuyên viên đẹp trai thanh tú như mình chẳng hạn kiếm tiền từ nó, và mình khá chắc khi bạn dùng phần mềm của họ thì trong những chính sách để dùng phần mềm sẽ có các điều kiện bao gồm việc lưu trữ thông tin rồi, bạn không thể cãi luật lại với họ đâu. Và đây là công việc chính của những chuyên viên được gọi với cái tên mĩ miều:  Thợ mỏ à, không phải sang lên, Data Mining Specialist hay gọi tắt là DM, một cánh tay phải của Data Scientist (DS)
1: History and Current Advances ( Lịch sử và các tiến bộ chung của DS)
Quá trình dữ liệu để khám phá sự kết nối của các sự vật và dự đoán các xu hướng trong tương lai đã có một lịch sử lâu đời. Thuật ngữ "khai thác dữ liệu- Data Mining" không được đặt ra cho đến những năm 1990. Tuy nhiên, nền tảng của nó bao gồm ba ngành khoa học liên ngành:

Số liệu thống kê (statistics)
Nghiên cứu số liệu về các mối quan hệ dữ liệu

Trí thông minh nhân tạo (artificial intelligence)
Trí tuệ giống con người được hiển thị bởi phần mềm và / hoặc máy móc

Máy Học (machine learning)
Các thuật toán “học” từ dữ liệu để dự đoán

Công nghệ khai thác dữ liệu tiếp tục phát triển để theo kịp với tiềm năng vô hạn của dữ liệu lớn. Trong thập kỷ qua, những tiến bộ trong công suất và tốc độ xử lý đã cho phép chúng ta vượt qua các phương pháp thủ công, tẻ nhạt và tốn thời gian để phân tích dữ liệu một cách tự động, nhanh chóng, dễ dàng. Tập hợp dữ liệu càng phức tạp, càng có nhiều tiềm năng để khám phá kiến thức hữu ích ( nhiều Raw Data giống nhau về một trường-Field được gọi Data Set qua óc của DM sẽ tổng hợp thành Knowledge )
2: Definition and Importance (Định nghĩa và Tầm quan trọng của DM)
Data Mining là khai thác dữ liệu. Data Mining là quá trình tìm kiếm các mẫu từ tập dữ liệu lớn (Data Set) và phân tích dữ liệu từ những quan điểm khác nhau. Nó cho phép người dùng trong doanh nghiệp dùng để phân tích dữ liệu từ nhiều góc độ khác nhau và tóm tắt các mối quan hệ xác định (relationship).
Data Mining rất hữu ích trong việc tăng doanh thu và cắt giảm chi phí.
Ví dụ: Vào một ngày chủ nhật đẹp trời, bạn đi mua kem đánh răng thì tỉ lệ bạn mua luôn bàn chải sẽ là 80%-95%DM báo số liệu đó lại cho chuyên viên kinh doanh rồi các chuyên viên kinh doanh đề ra kế hoạch đặt 2 sản phẩm đấy cạnh nhau trong cùng 1 gian hàng. Việc đó sẽ thúc đẩy việc tăng số lượng bán ra của 2 loại sản phẩm đó nhiều hơn vào những ngày chủ nhật.
Đặt câu hỏi: "Tại sao khai phá dữ liệu lại quan trọng tới vậy?"
Có thể trả lời nôm na rằng, số lượng dữ liệu của thế giới đang tăng theo mũ lũy thừa theo từng năm. Dữ liệu được lưu trữ không có tổ chức (Data không xác định type) chiếm hơn 90% lượng dữ liệu trên thế giới. Nhưng dữ liệu nhiều không tỉ lệ thuận với kiến thức. Hôm trước mình cũng đã nói rõ trong bài Bạn nghĩ bạn đã biết quá rõ hai từ dữ liệu (P1) về việc Raw Data biến đổi thế nào để trở nên có giá trị
Và khi bạn là một DM tốt bạn sẽ:
  • Loại bỏ những dữ liệu rác trong nguồn thông tin, hay gọi là làm sạch thông tin
  • Biết được thông tin nào quan trọng và tận dụng thông tin đó để dự đoán các khả năng để cung cấp cho các báo cáo của chuyên viên kinh doanh/marketing
  • Đẩy nhanh quá trình đưa ra quyết định
Khái niệm về khai phá dữ liệu (Data Mining) có rất nhiều cách diễn đạt khác nhau nhưng về bản chất đó là quá trình tự động trích xuất thông tin có giá trị (Thông tin dự đoán - Predictive Information) ẩn chứa trong khối lượng dữ liệu khổng lồ trong thực tế.
"Models are the "product" of Data Mining"
Nhiệm vụ chính của một DM đó là:

Trở lại ví dụ ban đầu, DM tiềm kiếm mối quan hệ giữ bàn chải đánh răng và kem đánh răng được mua như thế nào, tần suất ra sao,thời gian mua. Những thông tin này sẽ được dùng để tiếp thị các phẩm ( Association). Chúng ta nhóm bàn chải đánh răng với kem đánh răng lại để kích thích doanh thu ( Clustering ). Phân loại những thông tin liên quan đến bàn chài đánh răng và kem đánh răng khi nguồn gốc, xuất xứ, hạn sử dụng sẽ giúp cho các chuyên viên kinh doanh nắm rõ hơn về sản phẩm và doanh thu để đề ra các kế hoạch thích hợp ( Classifying )
Công việc của một DM  chỉ gồm hai phần rất ư là đơn giản :3 
Có thể phân thành 2 loại chính đó là Dự đoán (Predictive) và Mô tả (Descriptive)

        Predictive: 
  • Classification - phân lớp
  • Regression - hồi quy
  • Deviation Detection - phát hiện độ lệch
  • Machine Learning - Máy học
  • Expert System - Hệ chuyên gia
  • Egression Analysis - Phân tích hồi quy
  • Neural Network - Mạng thần kinh
  • GA-Genetic Algorithm - Giải thuật di truyền
  • ........
         Descriptive:
  • Clustering - phân cụm
  • Association Rule Discovery - phát hiện luật kết hợp
  • Classification, Clustering, Similarity - Gom nhóm, phân cụm, nhận dạng bằng các thuật toán như K-means.... ( Trình độ cao học Computer Scicence mới có đụng tới, khó lúm )
  • Descision Tree - Cây quyết định
  • Statistics - Số liệu thống kê
  • ......

3: Oppurtunity ( Cơ hội của DM)
Ở một thế kỉ đang có nền công nghiệp phát triển như bây giờ thì có vô vàn ứng dụng cho DM 







Fact: Một trường hợp rất nổi tiếng mà DM đã giúp cho nước Mĩ đó chính là tìm ra được kẻ đứng đầu vụ khủng bố 11-9-2001
Vụ khủng bố 11-9-2001
Đơn vị Able Danger của Quân đội Mỹ đã dùng DM để xác định kẻ đứng đầu cuộc tấn công ngày 11 tháng 9, Mohamed Atta, và ba kẻ tấn công ngày 11 tháng 9 khác là các thành viên bị nghi ngờ thuộc lực lượng al Qaeda hoạt động ở Mỹ hơn một năm trước cuộc tấn công.

Tuy nhiên nhiều ứng dụng là vậy, nhưng DM vẫn có hai mặt của nó và không ai có thể phủ nhận được độ nguy hiểm của nó khi những kẻ xấu lợi dụng nó để chuộc lợi cho bản thân. Ví dụ, nếu một ông chủ có quyền truy xuất vào các hồ sơ y tế, họ có thể loại những người có bệnh tiểu đường hay bệnh tim. Việc loại ra những nhân viên như vậy sẽ cắt giảm chi phí bảo hiểm, nhưng tạo ra các vấn đề về tính hợp pháp và đạo đức.
Khai thác dữ liệu các tập dữ liệu thương mại hay chính phủ cho các mục đích áp đặt luật pháp và an ninh quốc gia cũng là những mối lo ngại về tính riêng tư đang tăng cao.
Có nhiều cách sử dụng hợp lý với khai thác dữ liệu. Ví dụ, một CSDL ( Cơ sở dữ liệu - Database) các mô tả về thuốc được thực hiện bởi một nhóm người có thể được dùng để tìm kiếm sự kết hợp của các loại thuốc tạo ra các phản ứng (hóa học) khác nhau. Vì việc kết hợp có thể chỉ xảy ra trong một phần 1000 người, một trường hợp đơn lẻ là rất khó phát hiện. Một dự án liên quan đến y tế như vậy có thể giúp giảm số lượng phản ứng của thuốc và có khả năng cứu sống con người. Không may mắn là, vẫn có khả năng lạm dụng đối với một CSDL như vậy.
Quay trở lại những câu hỏi đầu bài về cách google, facebook cung cấp phần mềm miễn phí, thì đó, qua một DM tài giỏi thì chắc Information của bạn sẽ rất rất có giá trị, chúng sẽ phân tích dữ liệu về click chuột, thời gian truy cập để rồi bán nó cho các công ty marketing hoặc các công ty kinh doanh để họ ra các chiến lược đặc thù dành riêng cho tưng loại khách hàng, sẽ dễ dàng để bạn thấy được facebook đang đưa các advertisement rất ư là phù hợp, dễ thấy nhất là các app game, và về phần "chụy" google thì "chụy" ấy học từ thói quen người dùng - User - đã search những gì để tối ưu hóa các công cụ tìm kiếm của họ, facebook cũng không khác gì mấy, cũng thu thập như google, và tối ưu công cụ tìm kiếm là SEO làm việc chung với DM hay DM có thể làm luôn phần đó ( SEOSearch Engine Optimization )
Về cơ bản, khai thác dữ liệu đưa ra các thông tin mà sẽ không có sẵn được. Nó phải được chuyển đổi sang một dạng khác để trở nên có nghĩa. Khi dữ liệu thu thập được liên quan đến các cá nhân, thì có nhiều câu hỏi đặt ra liên quan đến tính riêng tư, tính hợp pháp, và đạo đức.
Và mình muốn nhấn mạnh lại luôn câu mình đã nói trong bài Bạn nghĩ bạn đã biết quá rõ hai từ dữ liệu (P2):
Beware the internet! You don't know who behind the "luvly" of clown ?

Bài viết được tập hợp từ nhiều nguồn và đã được duyệt qua bởi PhD. Data Computer