Muốn làm bất kỳ thứ gì, chúng ta cũng sẽ mong muốn được nhìn thấy trọn vẹn đầy đủ một vòng đời công việc mình đang làm, để biết mình đang đi đến đâu, mình cần đi đến đâu, như thế nào là hoàn thành, cần phải bổ sung thêm cái gì, vvv. Và công việc của một Data Engineer cũng không ngoại lệ, khi nó về Data Engineering, mọi người hay chỉ nói về keyword ETL, nhưng thực chất nó chỉ là một phần trong cả vòng đời rộng lớn của công việc làm kỹ sư dữ liệu. Và tất nhiên, nếu chỉ dừng lại ở khái niệm ETL thì thật là thiếu sót cho công việc Data Engineering. Vậy cụ thể, đầy đủ vòng đời của công việc dữ liệu nó gồm những cái gì, mọi người cùng nhau ngó qua nhé.
Data Engineering Lifecycle bao gồm các giai đoạn chuyển đổi dữ liệu thô thành sản phẩm cuối cùng hữu ích, để sẵn sàng để cung cấp cho các nhà phân tích, nhà khoa học dữ liệu, kỹ sư học máy và nhiều những đối tượng khác.
Cụ thể, chúng ta chia vòng đời kỹ thuật dữ liệu thành năm giai đoạn chính (theo hình mô tả):
1. Sinh dữ liệu (Generation) 2. Lưu trữ (Storage) 3. Nhập dữ liệu (Ingestion) 4. Chuyển đổi dữ liệu (Transformation) 5. Cung cấp dữ liệu (Serving data)
Data Engineering Lifecycle bắt đầu bằng việc lấy dữ liệu từ các hệ thống nguồn và lưu trữ chúng. Tiếp theo, chúng ta chuyển đổi dữ liệu và sau đó tiến tới mục tiêu chính, cung cấp dữ liệu cho các bên khác nhau (Data Scientist, Data Analyst, Machine Learning Engineer,vvv). Trên thực tế, quá trình lưu trữ diễn ra trong suốt vòng đời từ khi nhập dữ liệu cho đến chuyển đổi dữ liệu và rồi là cung cấp dữ liệu - do đó, nhìn vào hình bên dưới, chúng ta có thể thấy "giai đoạn" lưu trữ như một nền tảng hỗ trợ các giai đoạn khác.
Nhìn chung, các giai đoạn ở giữa - lưu trữ, nhập dữ liệu, chuyển đổi dữ liệu - đôi khi có thể bị trộn lẫn. Và điều đó hoàn toàn là bình thường. Mặc dù chúng ta tách riêng các phần khác nhau của data engineering lifecycle, nhưng nó không phải lúc nào cũng là một luồng liên tục, gọn gàng. Các giai đoạn khác nhau của vòng đời có thể lặp lại, diễn ra theo thứ tự khác nhau, chồng chéo lên nhau hoặc đan xen vào nhau theo những cách thú vị và bất ngờ.
Và nền tảng của nền tảng chính là các yếu tố để đảm một Data Engineering Lifecycle trọn vẹn: Bảo mật, Quản lý dữ liệu, Vận hành dữ liệu, Kiến trúc dữ liệu, Sự kết hợp luồng dữ liệu và Kỹ thuật phần mềm. Không phần nào của Data Engineering Lifecycle có thể hoạt động đầy đủ nếu thiếu các yếu tố nền tảng này.
Ngắn gọn nhưng rất quan trọng, hi vọng qua mô tả này các bạn sẽ có cái nhìn tổng quát nhất về công việc của một Data Engineer, những việc họ cần phải chuẩn bị và đảm bảo.
Xin chào, mình là Huy Đê Tê! #huydete