Những người đứng sau dữ liệu

Một báo cáo của Forbes dự đoán rằng vào năm 2020, khoảng 1,7 megabyte thông tin mới sẽ được tạo ra mỗi giây cho mỗi con người trên hành tinh. Tuy nhiên, ai cũng biết rằng, thu thập một lượng lớn dữ liệu cũng vô nghĩa nếu không có những người xây dựng phương thức để đọc hiểu những con số này.

Thế là, BOOM! Ngành khoa học dữ liệu ra đời, với Data Science vs. Big Data vs. Data Analytics. Vậy, cụ thể thì ai sẽ là phù thủy bậc thầy, biến những con số vô tri biết nói? Trong series này mình sẽ cùng các bạn điểm qua về những đặc điểm của những vị trí kể trên trong ngành khoa học dữ liệu. Bài đầu tiên sẽ là về Data Science (Khoa học dữ liệu):

Data Science (Khoa học dữ liệu) là lĩnh vực bao gồm tất cả mọi thứ liên quan đến lọc, chuẩn bị và phân tích dữ liệu cả cấu trúc lẫn phi cấu trúc.

Nói một cách đơn giản, nó là bao quát của các kỹ thuật được sử dụng để biến những con số biết nói.

Data Science là môn nghệ thuật được tạo thành từ sự kết hợp của thống kê, toán học, lập trình, giải quyết vấn đề, thu thập dữ liệu theo cách khéo léo, khả năng nhìn mọi thứ khác nhau.

Ứng dụng của Data Science:

• Thuật toán tìm kiếm: Các công cụ tìm kiếm sử dụng các thuật toán dựa trên data để cung cấp kết quả tốt nhất cho các truy vấn tìm kiếm trong một vài giây.

• Quảng cáo kỹ thuật số: Toàn bộ bí mật của nghệ thuật tiếp thị kỹ thuật số nằm trong việc sử dụng thuật toán khoa học dữ liệu để phân tích hành vi người tiêu dùng để điều chỉnh từ banner đến bảng quảng. Đây là lý do khiến quảng cáo kỹ thuật số nhận được CTR (Click to Rate) cao hơn quảng cáo truyền thống.

• Hệ thống đề xuất: Các hệ thống đề xuất không chỉ giúp bạn dễ dàng tìm thấy các sản phẩm có liên quan từ hàng tỷ sản phẩm có sẵn mà còn bổ sung rất nhiều vào trải nghiệm người dùng. Rất nhiều công ty sử dụng hệ thống này để quảng bá sản phẩm bằng cách đưa ra đề xuất sản phẩm của mình phù hợp với nhu cầu của người dùng dựa trên các thông tin thu thập được thông qua hành vi tìm kiếm trước đó.

Những kỹ năng cần phải có để trở thành Data Scientist (Nhà khoa học dữ liệu):

• Trình độ: 88% công ty yêu cầu Data Scientist có bằng Thạc sĩ và 46% yêu cầu có bằng tiến sĩ

• Kiến thức chuyên sâu về SAS và / hoặc R: Đối với Khoa học dữ liệu, R thường được ưu tiên.

• Hiểu rõ Python: Python là ngôn ngữ mã hóa phổ biến nhất được sử dụng trong khoa học dữ liệu cùng với Java, Perl, C / C ++.

• Nền tảng Hadoop: Mặc dù không phải công ty nào cũng là yêu cầu, biết về Hadoop vẫn là một điểm cộng khi xin việc trong lĩnh vực này. Tương tự với việc có một chút kinh nghiệm trong Hive hoặc Pig.

• Cơ sở dữ liệu / mã hóa SQL: Mặc dù NoQuery và Hadoop là nền tảng chủ chốt của nền Khoa học dữ liệu, các nhà tuyển dụng vẫn dành nhiều ưu ái cho bạn hơn, nếu bạn có thể code và thực hiện các truy vấn phức tạp trong SQL.

• Làm việc với dữ liệu phi cấu trúc: Điều quan trọng nhất là Nhà khoa học dữ liệu có thể làm việc với dữ liệu phi cấu trúc như các dữ liệu thu thập được trên phương tiện truyền thông xã hội, video hoặc băng ghi âm.

Thu nhập:

Theo khảo sát của Indeed.com, hiện tại, mức lương trung bình của một Data Scientist là 123.000 USD một năm. Còn theo Glassdoor, con số rơi vào khoảng là 115.00 USD.

Những người đứng sau dữ liệu – Phần 1: Data Science