Làm việc với dữ liệu chính là làm việc với hệ thống lưu trữ. Phải có nơi lưu trữ thì chúng ta mới có những bước tiếp theo trong việc xử lý dữ liệu được. Và dĩ nhiên đây là một trong những thứ cần quan tâm hàng đầu dành cho một Data Engineer, giống như xây nhà cần phải làm chắc phần móng vậy.
Vì vậy mà khi cần làm việc với Data Storage, các bạn - những Data Engineer sẽ luôn cần đặt ra những câu hỏi xung quanh hệ thống lưu trữ dữ liệu, để đảm bảo rằng nền móng của bạn là ổn định và phù hợp nhất. Dưới đây là một vài câu hỏi kỹ thuật then chốt cần đặt ra khi lựa chọn hệ thống lưu trữ cho kho dữ liệu, data lakehouse, cơ sở dữ liệu hoặc lưu trữ các đối tượng:
- Giải pháp lưu trữ này có tương thích với tốc độ đọc và ghi yêu cầu của kiến trúc không? - Lưu trữ có tạo ra điểm tắc nghẽn cho các quy trình phía sau không? - Bạn có hiểu cách thức hoạt động của công nghệ lưu trữ này không? - Bạn có đang tận dụng tối ưu hệ thống lưu trữ hay đang thực hiện những hành động không phù hợp? Ví dụ, bạn có đang áp dụng tỷ lệ cập nhật truy cập ngẫu nhiên (random access) cao trong hệ thống lưu trữ đối tượng không? (Đây là một cách làm sai lầm dẫn đến hiệu suất giảm đáng kể.)- Hệ thống lưu trữ này có xử lý được quy mô dự kiến trong tương lai không? - Bạn nên cân nhắc tất cả các giới hạn dung lượng trên hệ thống lưu trữ: tổng dung lượng khả dụng, tốc độ hoạt động đọc, khối lượng ghi, v.v. - Người dùng và các quy trình được áp dụng có thể truy xuất dữ liệu theo đúng SLA đề ra hay không? - Bạn có đang ghi lại metadata về sự phát triển của schema, dataflow, nguồn gốc dữ liệu, v.v.? - Đây có phải là giải pháp lưu trữ thuần túy (lưu trữ đối tượng) hay nó hỗ trợ các mẫu truy vấn phức tạp hơn? - Bạn đang xử lý việc tuân thủ quy định và quyền tự chủ dữ liệu như thế nào? Ví dụ, bạn có thể lưu trữ dữ liệu của mình ở một số vị trí địa lý nhất định nhưng không thể lưu trữ ở những vị trí khác?
Vâng, bạn thấy đó, quá nhiều câu hỏi cần phải trả lời xung quanh việc xây dựng hệ thống lưu trữ phải không nào. Ngoài ra còn có rất nhiều các vấn đề khác mà chúng cũng cần phải lưu tâm, hãy chia sẻ để mọi người có thêm những take notes khi làm việc nhé. Many thanks, mình là Huy Đê Tê!
Cre: Fundamentals of Data Engineering