Sau mấy bài viết về Cào dữ liệu, có bạn nào tự hỏi mấy ông này cào dữ liệu về làm cái khỉ khô gì không?
Đùa chứ tuỳ mục đích của mỗi người hay mỗi tổ chức mà có những cách xử lý dữ liệu đã cào được dùng vào mục đích gì
Dưới đây là một số mục đích mà mình thấy được đưa ra nhiều nhất.
Đầu tiên đi từ mình trước, do mình lười là đầu tiên :D. Ví dụ, mình vào 1 trang tài liệu hay ho nào đó. Muốn đọc một số tài liệu cứ phải vào từng trang mà download từng cuốn từng cuốn đọc. Lâu lâu lười tải và sau đó cái tool cào ebook được sinh ra (tất nhiên là khi chủ trang đã public việc download)

Đi dạo 1 vòng bạn sẽ thấy nhiều website có thể so sánh giá của cùng 1 sản phẩm trên tất cả các trang thương mại điện tử. Bạn thấy sao khi bạn phải tự đi vào từng trang thương mại điện tử mà bạn biết để kiểm tra giá của sản phẩm chỗ nào rẻ hơn, chỗ nào chất lượng hơn để có thể mua được hời hất. Vậy là web so sánh ra đời. Vậy là người dùng được hưởng tiện ích hời rồi!

Mình từng suýt nhận một dự án về bất động sản cũng nhằm mục đích cào giá trị khoảng từ và địa chỉ phân bổ của các căn hộ, nhà đất sau đó thể hiện lên bản đồ khoanh vùng khu vực nào có mật độ mua bán nhiều tô màu đỏ, khu vực nào ít tô màu vàng. Rồi gia trị hiện lên cũng được khoanh vùng nhằm thể hiện phân khúc thị trường. Hay không, đúng là ý tưởng hay!
Rồi các sàn chứng khoán, những nhà đầu tư theo kỹ thuật trading các giá cổ phiếu, chứng khoán, tiền ảo (kỹ thuật này dựa trên lịch sử phát triển tăng giảm lên xuống của 1 mã cổ phiếu hay đồng coin nào đó để có thể phán đoán được xu hướng tăng hay giảm và từ đó đầu tư). Vậy mà những công cụ hỗ trợ ra đời lấy dữ liệu trên các sàn để thể hiện lên biểu đồ, từ đó ta có thể quan sát một cách trực quan và phân tích chúng.

Cào dữ liệu còn giúp giảm tải công việc sáng tạo cho nhân viên Content của bạn, nhân sự là bài toán vô cùng quan trọng của 1 doanh nghiệp đang khởi nghiệp Online. Bạn nghỉ sao khi vào 1 website mà website chỉ có vài sản phẩm, hoặc 1 web đọc tin tức mà chỉ có vài tin ít ỏi?
Cào dữ liệu sẽ giúp website của bạn có nhiều nội dung hơn, nhiều tin tức hơn và sẽ có nhiều Users (Khách hàng) hơn.
Các công ty chuyên bán hàng Bằng Affiliate (Tiếp thị liên kết) thì việc cần 1 công cụ crawl link, crawl data là vô cùng quan trọng, bạn chỉ cần crawler hết data của các sản phẩm ở website khác, sau đó gắn Link ?Ref=Code (Refer) để có thể tăng doanh số của mình 1 cách chóng mặt.
Tương tự như cách mà Google hay làm, crawl dữ liệu sau đó Indexing dữ liệu cào được vào dữ liệu của Google sau cùng là phục vụ cho việc tìm kiếm của chúng ta.
Sử dụng crawl dữ liệu bị Google phạt không?
Mặc dù Google không chấp nhận việc can thiệp thêm của người dùng vào quá trình crawl dữ liệu, và việc crawl website của Google Spider đều tự động và không chịu sự tác động của các nhà quản trị website. Tuy nhiên, vẫn có những phương pháp giúp website được Google crawl dữ liệu thường xuyên hơn.
Việc copy hay crawl là sẽ tạo ra 1 bản sao chép website đó về Database của bạn nếu bạn chỉ crawler 100% nội dung thì có thể bạn sẽ vi phạm chính sác nội dung của Google và DMCA sẽ khởi kiện bạn.
Hãy lưu ý việc này nếu bạn đang crawl hay copy bằng tay website, bài viết của 1 ai đó thì hãy dừng lại ngay vì bạn sẽ bị thuật toán của GOOGLE chặn sớm thôi.
Crawl dữ liệu ở Việt Nam thì sao?
Việt nam có luật bản quyền tác giả được công bố tại Nghị định 22/2018/NĐ-CP quy định chi tiết Luật Sở hữu trí tuệ, Luật sửa đổi Luật Sở hữu trí tuệ về quyền tác giả, quyền liên quan.
Quyền tác giả thông thường chỉ được công nhận khi sáng tạo này mới, có một phần công lao của tác giả và có thể chỉ ra được là có tính chất duy nhất.
Do đó việc copy dữ liệu của 1 website, hay 1 báo điện tử là vi phạm pháp luật ở Việt nam nếu không được đơn vị chủ quyền cho phép. Vì thế việc crawler dữ liệu phải cẩn trọng trong việc này để tránh vi phạm luật ở VN.
Còn bạn nghĩ sao về việc sử dụng này!
--