Nói đến Data Engineering, điều mà chúng ta hay được nghe thấy nhiều nhất đó là Data Pipeline, rồi thì ETL, hay là Data Lake, Data Warehousing, … Nhưng thực tế, để làm được công việc của một Data Engineer, chúng ta cần nghe và biết nhiều hơn thế. Mọi người hãy cùng Huy điểm qua một số khía cạnh mà các Data Engineer rất cần quan tâm để tiến xa hơn trong lĩnh vực này nhé.
1. Software Engineering: Là Data Engineer, bản chất thì cũng là làm Software Engineer, thế nên chúng ta không thể bỏ qua những kiến thức nền tảng của Software Engineer được. Ví dụ như là: DSA, Database, OS, Computer Network, Web, API, … Bản thân mình gặp nhiều bạn DE thường hay tự giới hạn bản thân bằng những thắc mắc: Em là DE cơ mà tại sao em lại phải làm những công việc của SE? Nếu bạn muốn đi xa hơn trong nghề này thì bạn cũng phải xác định là bất kỳ công việc gì liên quan đến việc quản lý và quản trị dữ liệu của bạn thì bạn đều phải xử lý. Kể cả việc bạn có phải xây cả một website cho phép người dùng truy cập và quản trị dữ liệu của bạn thì bạn cũng đừng lấy đó mà ngạc nhiên ha 😀
2. Data Security: Làm việc với dữ liệu, còn điều gì quan trọng hơn là bảo vệ đống dữ liệu mà bạn đang có, đặc biệt là dữ liệu của công ty bạn còn có thông tin về khách hàng và người dùng. Không chỉ là tổn thất cho công ty mà còn có thể liên đới pháp luật nếu bạn không bảo mật nó một cách kỹ càng. Các kiến thức nền tảng về bảo mật, các quy trình và các chính sách cần tuân thủ cho việc bảo mật dữ liệu là điều tối quan trọng mà một Data Engineer cần biết và thậm chí là phải tư vấn cho lãnh đạo. Hãy làm việc với một mindset cẩn trọng với dữ liệu mà bạn đang quản lý, và không ngừng đọc thêm những thông tin và kiến thức về Security bạn nha.
3. Data Monitoring: Xây dựng các luồng dữ liệu không thể nào tránh khỏi những vấn đề và những lỗi xảy ra. Nhưng điều quan trọng chúng ta, những Data Engineer phải là những người phát hiện sớm nhất có thể những vấn đề đó để có thể tìm cách khắc phục kịp thời. Nên nhớ, đừng để đến khi các báo cáo gửi đến lãnh đạo bị lỗi tùm lum thì chúng ta mới lao vào fix, trong khi chúng ta có khả năng biết trước được những vấn đề đó. Do đó mà một hệ thống theo dõi và cảnh báo là vô cùng quan trọng. Nó giúp chúng ta nhanh chóng biết được các vấn đề và tuyệt vời nhất là cũng gửi cho chúng ta những thông tin cần thiết giúp chúng ta phán đoán được nguyên nhân. Hãy luôn nghĩ đến hệ thống Monitoring khi xây dựng Data Pipeline nhé các bạn.
4. Data Governance: Quản trị dữ liệu, đây có lẽ là một trong những công việc khiến các DE cảm thấy nhàm chán nhất. Nhưng thực tế là vô cùng quan trọng và đòi hỏi sự cẩn thận cũng như kiên trì rất lớn. Các bạn cứ thử hình dùng nhiều khi chúng ta mất cả ngày trời chỉ để phê duyệt xem ông nào được vào dữ liệu nào, ông nào thì không. Hay là, chỉ một trường thông tin thôi, chúng ta phải đi kết nối với rất nhiều bên để có đủ những xác nhận cho việc tiếp nhận và xử lý trường dữ liệu đó. Rất nhiều những thứ nhỏ nhặt cần phải làm cho công việc của một người làm dữ liệu lớn, nhưng đó lại điều bắt buộc để bạn có thể kiểm soát tốt nhất những dữ liệu của mình, tránh không cho những thứ ngoài tầm kiểm soát xảy ra trong hệ thống.
Well, còn rất nhiều những khía cạnh khác và những công việc thậm chí là không tên dành cho một Data Engineer. Nhưng dù sao thì bên cạnh “hào quang” của kỹ sư dữ liệu lớn thì đó là những điều bạn bắt buộc phải làm và trau dồi hằng ngày để có thể tiến xa hơn trong nghề. Chúc bạn thành công và có được thật nhiều trải nghiệm quý báu.
Many thanks, mình là Huy Đê Tê.