Big Data là tập hợp dữ liệu lớn (cấu trúc và phi cấu trúc), đa dạng, thay đổi nhanh và phức tạp đến nỗi những công nghệ hay phần mềm truyền thống không có khả năng xử lý trong một khoảng thời gian nhất định.
Khối lượng chính xác của Big Data không phải vấn đề quan trọng (có thể là vài petabyte hoặc exabytes), điểm mấu chốt là nếu biết khai thác đúng hướng thì Big Data sẽ mang lại tiềm lực cạnh tranh lớn cho doanh nghiệp.
Đọc bài phỏng vấn với anh Đặng Hoàng Vũ - Chief Scientist của tập đoàn FPT để biết được:
  • Big Data là gì? Có ý nghĩa ra sao?
  • Những lầm tưởng về nghề Data Scientist và thử thách trong nghề
  • Tiêu chí tuyển dụng Data Scientist từ chính người trong cuộc
  • Tài liệu hữu ích để học Big Data

Tiểu sử: Sau khi tốt nghiệp với bằng Tiến sĩ khoa Toán học, trường Đại học Cambridge, anh Vũ về làm Software Engineer cho tập đoàn HP (Hewlett-Packard) tại Anh. Đến năm 2014, anh quay về Việt Nam và đầu quân cho FPT với vai trò Data Scientist. Hiện tại anh là Chief Scientist ở Ban công nghệ tập đoàn FPT.
Chào anh Vũ. Em thắc mắc là vì sao anh lại quyết định về Việt Nam và chuyển hướng sang Data Scientist?
Lúc đấy anh chỉ nghĩ rằng anh ở châu Âu quá lâu rồi nên muốn về nhà cho vui thôi.
Còn chuyển hướng sang Data Scientist thì trước kia lúc còn ở HP, anh đã làm về Machine Learning, xử lý ảnh rồi nên về Việt Nam, làm các dự án Data Science cũng phù hợp.
Anh đã từng làm về Big Data cho những tập đoàn lớn như HP và FPT. Vậy theo cá nhân anh định nghĩa, Big Data là gì?
Big Data thực ra không có định nghĩa duy nhất. Ví dụ như IBM định nghĩa Big Data là 4V, bao gồm:
  • Volume: Khối lượng dữ liệu
  • Velocity: Tốc độ của dữ liệu
  • Variety: Sự đa dạng của dữ liệu
  • Veracity: Tính xác thực của dữ liệu
Nói chung, Big Data là dữ liệu lớn, thay đổi nhanh và phức tạp.
Các công ty làm Big Data thực ra cũng không quan tâm lắm đến định nghĩa chính xác. Họ chỉ quan tâm đến kết quả cuối cùng mà quá trình khai thác dữ liệu mang lại.
Sự khác nhau giữa Data truyền thống và Big Data là gì?
Chúng chỉ khác nhau ở quy mô và tốc độ thôi. 
Thực ra thuật ngữ Big Data cũng mang tính thời trang nữa. Nghĩa là thỉnh thoảng người ta vẫn áp tên gọi Big Data cho những dữ liệu ở quy mô bình thường, chứ không phải lúc nào cũng là dữ liệu quy mô lớn.
Theo anh thì Big Data có thực sự cần thiết? 
Khái niệm Big Data không phải trắng đen rõ ràng, người ta áp dụng nó nhiều khi cũng tùy hoàn cảnh. Không chỉ là thực sự cần thiết mà hiện nay Big Data là “xương sống” của hầu hết các công nghệ rồi.
Ví dụ: mỗi một sản phẩm có mặt trên các website thương mại điện tử như Tiki, Lazada, Sendo… đều là Big Data.
Các công ty truyền thống cũng dùng Big Data để tối ưu hóa hoạt động kinh doanh, chăm sóc khách hàng, phục vụ cho công tác marketing...
Công việc hàng ngày của một Data Scientist là gì?
Công việc của Data Scientist được chia thành các bước chính:
- Phân tích bài toán cần giải, mục tiêu dự án, tiêu chí thành công...
- Thu thập và xử lý dữ liệu
- Xây dựng các mô hình, thuật toán để đưa ra kết quả
- Test, đánh giá kết quả
- Đưa vào triển khai
Ở bước triển khai, công ty anh sẽ dùng các kết quả, dự đoán, đề xuất… được rút ra từ dữ liệu để đưa vào các hoạt động kinh doanh, marketing mà anh đã nhắc ở trên.
Những khó khăn và thử thách khi làm việc với Big Data là gì vậy anh?
Khó khăn thì có 3 loại:
  • (1) là đối tác không cho dữ liệu, 
  • (2) là code sai nên phải code đi code lại nhiều lần
  • (3) là code không ra kết quả như ý.
Anh nghĩ thu thập và xử lý dữ liệu là phần việc mất nhiều thời gian và công sức nhất. Em phải làm việc với nhiều bộ phận khác nhau, các nguồn dữ liệu nhiều khi cũng không nhất quán và chất lượng dữ liệu thường là không tốt.
Còn phần mọi người hay mắc sai lầm nhất chính là đánh giá và triển khai kết quả. Nhiều khi dân kỹ thuật thường đặt ra các tiêu chí theo lý thuyết hoặc theo các case study có sẵn nhưng nó lại không phù hợp với quy trình kinh doanh thực tế.
Ví dụ: Trước đây anh và team có làm việc với một khách hàng khá có tiếng trong lĩnh vực thương mại điện tử (anh không tiện nêu tên). Mục tiêu của họ là tăng số lượng sản phẩm bán được trên website.

Sau khi phân tích và đánh giá dựa trên dữ liệu thu thập được, cả team anh quyết định sẽ sắp xếp lại các link sản phẩm để hấp dẫn khách hàng. Vì bọn anh nghĩ rằng khách hàng càng xem được nhiều sản phẩm thì họ sẽ mua hàng nhiều hơn.

Đúng là lần đó khách hàng mỗi khi vào website xem nhiều sản phẩm hơn thật nhưng mà kết quả kinh doanh không có cải thiện gì. Nguyên nhân là vì họ cảm thấy bị "ngợp", không biết quyết định như thế nào, thế là không mua nữa.

Rõ ràng, bọn anh đã hoàn thành được tiêu chí mình đề ra là kích thích hành vi xem sản phẩm và giữ khách hàng ở lâu hơn trên website nhưng như em thấy đó, nó không mang lại lợi ích thực tế nào cho doanh nghiệp cả.
Anh đã làm gì để vượt qua những thử thách này?
Cái này thì dự án nào cũng gặp hết, không phải thử thách theo kiểu vượt qua 1 lần là được (cười). Khi có nhiều kinh nghiệm thì sẽ quen thôi.
Tất nhiên là mỗi dự án cụ thể đều có cách giải quyết nhưng mà không có công thức chung. Em phải dựa vào kinh nghiệm và thí nghiệm để giải quyết.
Làm sao để một người có thể trở thành Data Scientist vậy anh?
Điều đầu tiên là phải biết lập trình (cười). Bạn không cần phải chạy theo các ngôn ngữ hoặc công cụ mới nhất nhưng phải có tư duy rõ ràng, mạch lạc.
Có rất nhiều thứ để học: 
  • Ngôn ngữ lập trình Python. Ngoài Python thì có SQL, Spark, R hoặc các công cụ cấp cao hơn như là H2O, tableau
  • Các công cụ của Data Scientist: Numpy, Pandas, Matplotlib, Scikit-learn
  • Các công cụ Machine Learning: Tensorflow, Keras, Pytorch
  • Thống kê cơ bản
Bạn phải có hiểu biết nhất định về Big Data, về các framework như Hadoop hay Scala, sau nữa phải biết cách làm việc với Data Engineer.
Tóm lại, không cần biết tất cả nhưng tối thiểu phải biết về SQL, Numpy, Scikit-learn và 1 công cụ Machine Learning. Tất nhiên khi bắt đầu có thể hơi khó khăn nhưng vừa làm vừa học cũng được.
Có nhiều người vẫn chưa thực sự phân biệt được Data Engineer và Data Scientist. Anh có thể định nghĩa chúng một cách ngắn gọn?
Data Engineer là người xử lý, chuẩn bị dữ liệu cho Data Scientist thực hiện quá trình phân tích. Khi làm việc cùng nhau, người này sẽ giúp một phần việc của người kia nhưng trách nhiệm cơ bản là như thế.
Cơ hội nghề nghiệp cho những người muốn làm việc với Big Data nói riêng? Và những người muốn trở thành Data Scientist nói chung?
Anh nghĩ cơ hội nghề nghiệp nói  là tốt. So với nghề Developer nói chung thì tất nhiên là số việc làm ít hơn nhiều nhưng mà mức thu nhập khá ổn. Công việc cũng mang lại cái nhìn toàn diện hơn về hoạt động của sản phẩm.
Có điều gì mà nhiều người lầm tưởng về nghề Data Scientist không anh?
Có một số người tưởng Data Scientist là nhà khoa học hoặc làm Data Scientist cần nhiều toán nhưng mà không phải. Nếu bạn giỏi toán thì tốt nhưng code vẫn quan trọng hơn.
Data Scientist là người giải quyết các vấn đề cho doanh nghiệp bằng cách phân tích dữ liệu chứ không phải là nhà khoa học nghiên cứu cái mới.
Anh lựa chọn Data Scientist dựa trên những tiêu chí nào?
Đầu tiên là đầu óc phải sáng sủa. Đặc biệt là không được cố chấp vì sai là chuyện bình thường.
Bạn đó phải có khả năng code rõ ràng, mạch lạc và biết cơ bản về Python. Nếu biết về Machine Learning, Database hoặc toán thống kê là một lợi thế lớn. 
Ngoài ra, còn phải có khả năng giao tiếp, biết diễn đạt và lắng nghe người khác. Nên nhớ đây ko phải vị trí làm việc một mình (cười).
Điều gì mà anh nghĩ một người cần biết trước khi quyết định có trở thành Data Scientist hay không?
Anh nghĩ nghề Data Scientist cũng không có gì mạo hiểm, chỉ cần trình độ tư duy khá và có tinh thần học hỏi là làm được.
Những nguồn học Big Data hiệu quả
  • Designing Data-Intensive Applications: Cuốn sách được viết năm 2017 bởi Martin Kleppmann, vẽ nên bức tranh toàn cảnh về Big Data và tập trung vào các khía cạnh của hệ thống cơ sở dữ liệu phân tán.
  • Big Data: Principles and best practices of scalable realtime data systems: Trả lời câu hỏi Big Data là gì và tấ cả những gì liên quan đến hệ thống, bao gồm các công cụ như Hadoop, Cassandra và Storm.
  • Hadoop: The Definitive Guide: được viết bởi Tom White - một trong những thành viên của tổ chức phần mềm Apache uy tín. Cuốn sách là toàn bộ những điều cần biết + ví dụ cụ thể khi làm việc với Hadoop.
  • High Performance Spark: Cuốn sách cần thiết cho những ai muốn học về Apache Spark với rất nhiều minh họa thực tế.
Ngoài ra, các khóa học Big Data online trên Coursera cũng đáng để cân nhắc.

Nguồn: ITviec