hôm nay mình buồn á, có nhiều thứ diễn ra cứ ồn ào, tâm trạng mình không tốt, nhạt nhẽo quá, chưa ăn gì, đời chán, mệt mõi, rớt não....


Đã đọc bài trước chưa, nếu chưa thì link đây hí hí :

OK, các bạn có thấy đoạn đầu mình than khổ ỉ oi các kiểu hông? Bạn có đặt câu hỏi là thằng này nó điên không mà lại lảm nhảm như thế nữa? 
Ahuhu xin đừng nói vậy tội em, nha, nha, nhaaaa!
Chào mừng toàn thế quý vị và các bạn bè hảo hủ đường xa đã đến với phần 2 của tuyển tập Dữ liệu và đám bạn hú hú !!
Ở bài trước mình đã giới thiệu mọi người đến với những cái đơn giản của dữ liệu rồi hén, trong đó có các đặc tính của dữ liệu lớn bao gồm: Volume (khối lượng), Velocity (tốc độ) và Variety (Đa dạng) yah~~ . "Nhưng", quay lại đầu bài, mình liệt kê cho bạn một đống bullshits và bạn có thấy nó có liên quan gì với bài hay với nhau không? tadaaa~~ và ta có thêm một đặc trưng mới của dữ liệu lớn, tên em nó là :>>
Độ xác thực (Veracity/Validity)
– Đề cập đến độ hỗn loạn hoặc độ tin cậy của dữ liệu
– Với nhiều dạng dữ liệu từ nhiều nguồn khác nhau, độ tin cậy và xác thực của dữ liệu bị giảm xuống
– Ví dụ: các mẫu tin trên Twitter/Facebook với hash tag, từ viết tắt, từ sai chính tả, từ lóng, cũng như là độ xác thực của nội dung
– Công nghệ hiện nay cho phép chúng ta xử lý được loại dữ liệu này
– Khối lượng dữ liệu lớn thường làm giảm chất lượng và độ chính xác của dữ
liệu
Kiến thức là vậy, còn hiểu nôm na nhất nó là "sự dối lừa" :>> 
bạn hãy nghĩ xem, nếu Veracity ( xác thực ) nó giảm như con gái tụt mood luôn thì bạn chắc chắn tá hỏa luôn, dữ liệu tầm chục người và với 1 vài đặc tính thôi thì còn dễ sắp xếp bằng tay, ví dụ: nhập số thứ tự sai và giới tính sai, mà trong bảng dữ liệu ta chỉ có tên, stt, giới tính :>> còn nếu với một hệ thống dữ liệu khổng lồ thì seo?? oh~~ cắt lương, đuổi việc :>> . Độ xác thực nó không phải là đặc trưng chính nhưng nó lại cực kì quan trọng, như boss thường ra mặt vào lúc cuối :>>

Hình trên cho ta một cái nhìn tổng quát giúp ta hình dung ra rõ hơn cái bọn đặc trưng của dữ liệu. Riêng Volume, Variety và Velocity là quan trọng và nền cơ bản của dữ liệu, được gọi là The 3Vs of Big Data ( tiếng việt là ba vê )
Và trùm boss xuất hiện: Value ( giá trị )
Đây là một đặc tính có thể nói quyết định sự phát triển của mọi thứ :>> . Có giá trị thì người ta mới đổ xô đi kiếm tìm sự phát triển để đem lại lợi ích cho bản thân mình. Và đúng vậy, đây là một thị trường tìm năng cho các công ty lớn, bạn sẽ không thể tin được là bạn sẽ kiếm được bao nhiêu từ những thứ làm nền cho mọi thứ như dữ liệu đâu :>>
có một câu mà mình cực thích và nó động lực cho mình tiếp tục đóng tiền để đi học và đam mê ngành này đó là 

" Dữ liệu sẽ nói với bạn ( cách kiếm tiền ) nếu bạn sẳn lòng nghe " ôi giồi nghe phê nhở? Có tiền là phê rồi :>>

Tóm gọn lại một lượt:
Trong một đất nước có tên là Data, chúng ta có tam hiệp sĩ ba vê gồm volume, velocity, variety và cô công chúa đỏng đảnh là veracity, cuối cùng là đức vương Value hú hú * tung bông * *pháo bắn*
sau đây là một hình đơn giản về cách mà chúng ta làm ra tiền từ dữ liệu : 


Bước 1: đầu tiên cần phải thu thập mọi dữ liệu mà mình đã khoanh vùng, bằng các cách nào đó :))













Bước 2: sau khi thu thập được một đống raw data rồi thì chúng ta cần phải lưu trữ nó ở đâu đó, điển hình là lưu trữ trong chú voi dễ thương đáng yêu siêu cấp vũ trụ này <3









Bước 3: đến đây là công việc của các chú ong chăm chỉ chế biến raw data sao đó thành thứ gì đó có giá trị
công việc này "nhẹ nhàng" chỉ khi có thằng nào gánh team :<<








Bước 4: you create more and more Trump's buck <3






Một số dẫn chứng cho value của big data:
“The value of the Hadoop market is expected to soar from $2 billion in 2013
to $50 billion by 2020” – Allied Market Research

 “The big data industry is expected to grow from $10.2bn in 2013 to about
$54.3bn by 2017” – Dazeinfo Inc.

 “By better integrating big data analytics into healthcare, the industry could
save $300bn a year – that’s the equivalent of reducing the healthcare costs of
every man, woman, and child by $1000 a year” – Treehouse Technology Group

 “Retailers could increase their profit margins by more than 60% through the
full exploitation of big data analytics” – McKinsey Global Institute

Phần 4: Big Data - siêu mẫu của công nghiệp 4.0
Sở dĩ mình nói vậy vì Big Data là một ngành đóng vai trò cực lớn trong thời thế hiện nay khi mà mọi người đều có thể truy cập internet một cách dễ dàng. Như mình đã nói mỗi khi bạn tham gia vào internet click chuột hay làm bất cứ gì thì bạn đã và đang góp phần giúp tụi mình là vì lí do đơn giản, dữ liệu của bạn sẽ được ghi lại ở một nơi nào đó và các nhà phân tích sẽ dùng nó để có thể đào sâu và dùng những thuật toán để đưa ra các số liệu sau đó tổng hợp chúng và phân tích thêm nữa và đưa ra các phương án tối ưu cho các hoạt động kinh doanh như định hướng phát triến sản phẩm theo nhu cầu khách hàng mà không cần làm quá nhiều bước khảo sát như xưa, vẽ ra các thị trường tiềm năng khác cho các công ty dựa trên thối quen người dùng, quản lí nhân viên một cách tự động, hoặc nếu dùng cho mục đích xấu thì những thông tin của bạn sẽ "được" bán đi cho những thành phần có mục đích không tốt, vân vân và mây mây...

Big data có cực kì nhiều ứng dụng trong mọi thứ của cuộc sống ta, vì nó là thành phần luôn luôn có trong bất cứ lĩnh vực trong cuộc sống của thế kỉ 21 này. Mình cũng muốn viết ra rõ hơn một số lĩnh vực đặc trưng và dễ tìm hiểu nhất nhưng mình không :)) vì mình quá lười để viết tiếp thêm, nhưng chắc chắn, vào các bài sau, nếu các bạn tiếp tục theo dõi mình thì bạn chắc chắn sẽ tìm hiểu được về ứng dụng của big data rõ hơn, thậm chí chi tiết :>> 
Ok mình sẽ kết thúc phần Big data tại đây, và mở ra chương mới 
Hú Hú *DATA MINING* Hú Hú 
Hãy cùng mình tìm hiểu: "Những anh thợ mỏ làm gì trong quặng Data nhé" :>> 

À quênnnn, suỵt, mình nói nhỏ thôi nha :<<
Beware the internet! You don't know who behind the "luvly" of clown ?