Giảm thiểu các tác động không thể tránh khỏi của việc trôi dạt dữ liệu và hỏng bit trong một sản phẩm dữ liệu có tuổi thọ cao

Bạn đã bao giờ có một sản phẩm dữ liệu đang hoạt động trơn tru trong một thời gian dài… rồi đột nhiên bị hỏng? Bạn đã dành thời gian tự hỏi điều gì đã thay đổi, chỉ để khám phá ra rằng ai đó đã đổi tên một cột trong bảng ở đâu đó? Hoặc có lẽ, bạn phát hiện ra rằng đột nhiên dữ liệu của bạn đã cũ hơn một ngày so với trước đây? Khi bạn chuyển từ tư duy phát triển sang tư duy sản phẩm dữ liệu, trọng tâm của bạn chuyển từ đặc điểm kỹ thuật và phát triển chức năng mới sang vấn đề duy trì hoạt động liên tục, đáng tin cậy và mạnh mẽ. Tuy nhiên, với một sản phẩm dữ liệu tồn tại lâu dài cũng có những vấn đề không thể tránh khỏi và thường không lường trước được liên quan đến dữ liệu trôi dạt và thối bit.
Độ lệch dữ liệu (còn được gọi là độ lệch khái niệm trong Cộng đồng khoa học dữ liệu) là sự thay đổi trong các thuộc tính thống kê của dữ liệu theo thời gian . Đối với các Nhà khoa học dữ liệu, độ lệch dữ liệu có thể ảnh hưởng đến độ chính xác và kịp thời của các mô hình của bạn.
Thối bit (còn được gọi là thối phần mềm), là sự xuống cấp chậm về chất lượng và khả năng phản hồi của phần mềm dẫn đến điểm phần mềm bị lỗi, không còn hỗ trợ các chức năng bạn cần hoặc không sử dụng được theo một cách nào đó. Các đường dẫn dữ liệu được triển khai bằng phần mềm, trực tiếp hoặc gián tiếp và do đó dễ bị hỏng bit.
Trôi dạt dữ liệu và thối bit là không thể tránh khỏi trong một sản phẩm dữ liệu dựa trên dữ liệu đang thay đổi theo thời gian. Nhiều thay đổi trong số này được mong muốn ở chỗ chúng là một phần của quá trình phát triển, cải tiến và phát triển sản phẩm trong các hệ thống tạo ra dữ liệu mà sản phẩm của bạn sử dụng. Nghĩa là, mặc dù thay đổi gây ra sự gián đoạn, nhưng thay đổi cơ bản thường là kết quả của việc thực hiện các hành động được cho là có lợi cho sản phẩm của bạn hoặc cho các sản phẩm mà sản phẩm dữ liệu của bạn tương tác với hoặc cho một số khía cạnh trong hoạt động kinh doanh của công ty bạn.
Chi phí không nhận thấy khi một thay đổi đang ảnh hưởng đến sản phẩm dữ liệu của bạn được trả bằng sự mất lòng tin. Khi bạn không chủ động xem xét sản phẩm dữ liệu một cách thường xuyên, bạn rất dễ không nhận thấy khi những thay đổi đó xảy ra. Đáng ngạc nhiên, thường thì chi phí khắc phục sự cố dữ liệu cũng có thể là sự thiếu tin tưởng. Người dùng chỉ thấy rằng báo cáo đang thay đổi. Do đó, bất kỳ sai lầm nào cũng có thể ảnh hưởng nhiều lần đến mối quan hệ tin cậy và niềm tin rất khó lấy lại .
Vì vậy, thay đổi là điều tất yếu. Một trong những cách bạn với tư cách là người tiêu dùng dữ liệu và hệ thống đang thay đổi có thể ngăn sự thay đổi đó ảnh hưởng đến niềm tin của người dùng đối với sản phẩm của bạn là phát triển văn hóa dữ liệu hỗ trợ truyền thông chính xác về những thay đổi dự kiến ​​trong các tập dữ liệu được cung cấp. Đến lượt mình, người quản lý và nhà phát triển các sản phẩm dữ liệu sẽ truyền đạt các tập dữ liệu họ đang sử dụng cho các nhà phát triển của các tập dữ liệu đó. Khi văn hóa dữ liệu hỗ trợ cuộc trò chuyện giữa nhà sản xuất tập dữ liệu và người tiêu dùng tập dữ liệu về thay đổi dữ liệu, người quản lý và nhà phát triển sản phẩm dữ liệu bị ảnh hưởng có thể chuẩn bị cho quá trình chuyển đổi suôn sẻ khi thay đổi xảy ra. Trong những trường hợp tốt nhất, quá trình chuyển đổi có rất ít tác động tiếp theo đối với sản phẩm dữ liệu — người dùng không thực sự nhìn thấy nó. Kể từ đây,sự thay đổi cũng có rất ít tác động đến mối quan hệ tin cậy.
Bài học rút ra:
Đối với người quản lý sản phẩm dữ liệu: Việc phát triển một sản phẩm đáng tin cậy theo thời gian cần được quan tâm và suy nghĩ nhiều hơn đáng kể so với những gì có thể thấy được từ bên ngoài. Các nhà phát triển sản phẩm dữ liệu của bạn có ít hoặc không có quyền kiểm soát đối với cách dữ liệu thô mà họ bắt đầu sử dụng sẽ thay đổi theo thời gian. Bạn có trách nhiệm đảm bảo rằng các nhà phát triển của bạn có thể chú ý đến các mối quan tâm về tuổi thọ và khả năng bảo trì khi chúng liên quan đến tính chất thay đổi của dữ liệu đầu vào. Là một phần trong đó, bạn cũng có trách nhiệm quản lý các tương tác với các nhà sản xuất dữ liệu thô đó. Việc đặt các chức năng chủ động và phản ứng được thảo luận ở đây sẽ rất có lợi cho độ tin cậy lâu dài của các sản phẩm dữ liệu của bạn.
Đối với nhà phát triển sản phẩm dữ liệu: Khi bạn đang tạo một sản phẩm dữ liệu mạnh mẽ, bạn cần chú ý đến những điều nằm ngoài tầm kiểm soát của mình , bao gồm những thay đổi trong dữ liệu đầu vào (thô) mà sản phẩm của bạn sử dụng. Nhiều thay đổi trong số này liên quan đến lược đồ, hình dạng và tỷ lệ của dữ liệu đầu vào. Phát triển sản phẩm của bạn bao gồm đưa vào các quy trình chủ động và/hoặc phản ứng để nắm bắt những thay đổi liên quan và điều chỉnh sản phẩm của bạn cho phù hợp.
Ba loại vấn đề Sssneaky quan trọng: Lược đồ, Hình dạng, Tỷ lệ
Mọi sản phẩm dữ liệu đều dựa trên một số tập hợp dữ liệu thô. Thiết kế ban đầu của bạn về quy trình và quy trình truyền dẫn dữ liệu đặt ra những kỳ vọng nhất định đối với dữ liệu thô đó. Các kỳ vọng có thể được đưa vào mã hoặc các truy vấn cho sản phẩm dữ liệu của bạn hoặc trong cách bạn chạy quy trình của mình hoặc trong các giả định của bạn về ý nghĩa của các tập dữ liệu cụ thể. Bạn có thể không tích cực suy nghĩ về những kỳ vọng đó là gì; tuy nhiên, quy trình của bạn sẽ chỉ hoạt động tốt khi những kỳ vọng đó được đáp ứng.
Trong bài viết này, chúng ta thảo luận về ba nhóm kỳ vọng/yêu cầu khác nhau về một sản phẩm dữ liệu có thể ảnh hưởng đến khả năng đáp ứng và độ tin cậy của nó — kỳ vọng về giản đồ, kỳ vọng về hình dạng và kỳ vọng về quy mô. Những kỳ vọng/yêu cầu này xuất hiện từ cách sản phẩm sử dụng dữ liệu.
Lược đồ: Nói chung, chúng tôi coi lược đồ là một mô tả về dữ liệu trông như thế nào. Một lược đồ bao gồm các bảng hoặc tập dữ liệu mà người dùng có thể truy cập được. Đối với mỗi bảng hoặc tập dữ liệu, thông tin lược đồ xác định các cột hoặc thuộc tính được liên kết với từng mục trong tập hợp — bao gồm tên, vị trí, loại và biểu diễn. Thông tin liên quan đến giản đồ bao gồm thông tin về ý nghĩa của cột — ví dụ: nếu đó là ID của khách hàng, liệu khách hàng có nghĩa là người đã mua thứ gì đó hay họ vừa ghé thăm cửa hàng.
Hình dạng: Hình dạng đề cập đến các giá trị được phép và phân phối thống kê dữ liệu của bạn. Ví dụ: bạn có thể có kỳ vọng về hình dạng xung quanh việc cột có chứa khóa hay có kỳ vọng rằng tất cả các giá trị là duy nhất. Một kỳ vọng hình dạng quan trọng khác liên quan đến việc cột có cho phép giá trị rỗng hay không và nếu có thì giá trị rỗng được thể hiện như thế nào. Khi xây dựng tập huấn luyện, một số tập kỳ vọng chính khác bao gồm việc trường số có phân phối Gauss chuẩn hóa hay không và giá trị liệt kê trong trường liệt kê là gì.
Quy mô: Quy mô liên quan đến kích thước của tập dữ liệu và mức tăng trưởng dự kiến ​​của nó (về số lượng hàng hoặc thành phần trong tập dữ liệu). Thông thường, một quy trình hoặc đường ống dữ liệu được tối ưu hóa dựa trên quy mô của dữ liệu tại thời điểm nó được phát triển, cho phép tăng trưởng dữ liệu dự kiến ​​trong ngắn hạn. Khi tập dữ liệu tăng kích thước vượt quá những mong đợi đó, thời gian xử lý và các vấn đề khác liên quan đến quy trình sẽ làm tăng độ trễ giữa thời điểm sản phẩm của bạn nhìn thấy một mục dữ liệu cụ thể lần đầu tiên và khi mục đó được phản ánh trong sản phẩm dữ liệu của bạn.
Cách các vấn đề về dữ liệu được phản ánh trong sản phẩm cuối cùng
Đôi khi, khi xảy ra thay đổi ngoài dự kiến ​​hoặc chưa được xử lý, đường dẫn dữ liệu sẽ bị hỏng — ví dụ: nếu ai đó thay đổi tên của một số cột trong bảng mà bạn đang sử dụng. Tuy nhiên, thường thì đường ống tiếp tục hoạt động theo cách xuống cấp. Chất lượng xuống cấp này cuối cùng dẫn đến sự không chính xác trong sản phẩm dữ liệu; sau đó, người dùng sản phẩm mất niềm tin vào nó.
Vấn đề là, việc chỉ nhìn vào sản phẩm dữ liệu của bạn có thể không đưa ra dấu hiệu trực tiếp rằng có điều gì đó không ổn. Nếu bạn thực sự đang xem dữ liệu trực tiếp hoặc khám phá dữ liệu, thường thì bạn sẽ thấy nó. Tuy nhiên, nếu bạn đang xem dữ liệu tổng hợp, có thể là trong trang tổng quan, thì việc tổng hợp có thể làm xáo trộn sự thay đổi. Những thay đổi trong lược đồ hoặc hình dạng có thể bị che khuất trong quá trình tổng hợp. Độ trễ gây ra bởi các vấn đề về tỷ lệ có thể không quan sát được vì sản phẩm của bạn có thể không giữ lại bất kỳ tính năng nào mang lại cơ hội làm mới dữ liệu. Nói chung, quá trình xử lý dữ liệu càng phức tạp thì càng khó phát hiện ra rằng có vấn đề với dữ liệu đầu vào.
Tương tự, nếu bạn đang tạo các tính năng từ dữ liệu và sử dụng các tính năng đó trong một quy trình kết thúc bằng đào tạo hoặc thử nghiệm mô hình, thì khó có thể phát hiện ra bất kỳ vấn đề nào với dữ liệu. Đối với các mô hình phân loại hoặc hồi quy, bạn có thể thấy các chỉ số về độ chính xác của mình giảm xuống. Trong một hệ thống đề xuất, các đề xuất có thể trở nên không chính xác, cũ hoặc lỗi thời — một tình huống khó kiểm tra và thường khiến người dùng khó chịu.
Như tôi đã đề cập trước đó, các vấn đề về lược đồ, hình dạng và tỷ lệ là không thể tránh khỏi trong bất kỳ sản phẩm dữ liệu tồn tại lâu dài nào. Chúng là kết quả không thể tránh khỏi của việc thay đổi và cải tiến sản phẩm. Khi sản phẩm dữ liệu của bạn xuống cấp vì bạn không tính đến thay đổi có tác động lớn trong dữ liệu thô của mình, thì sự xuống cấp đó thường dẫn đến sự mất lòng tin vào chính sản phẩm.
Tuy nhiên, điều quan trọng cần lưu ý là có những tình huống mà việc phân phối sản phẩm dựa trên dữ liệu đã sửa có thể gây ảnh hưởng như việc đột nhiên cung cấp dữ liệu không chính xác. Đầu tiên, bất kỳ thay đổi đột ngột nào về cách thức hoạt động của sản phẩm dữ liệu — những thay đổi đột ngột rõ ràng và hữu hình — đều có thể gây gián đoạn và khiến người dùng lo lắng ngay cả khi thay đổi đó có lợi. Thứ hai, nếu phiên bản bị lỗi của sản phẩm dữ liệu đang cung cấp kết quả mà người dùng ưa thích hơn kết quả mà phiên bản đã sửa của bạn đang cung cấp, thì việc sửa sản phẩm dữ liệu có thể khó bán.
Các khía cạnh của văn hóa dữ liệu bảo vệ
Việc tạo ra một sản phẩm dữ liệu đáng tin cậy bắt đầu bằng cách thiết lập các cấu trúc và quy trình để giúp bạn nhận thức được độ tin cậy của dữ liệu đầu vào của mình. Các quy trình này không chỉ bao gồm giám sát dữ liệu mà còn bao gồm các phương pháp thực hành tạo điều kiện giao tiếp với người sản xuất dữ liệu đó về những thay đổi có tác động mà họ đang thực hiện hoặc nhìn thấy. Trong môi trường dữ liệu phi sản xuất hoặc không chính thức hơn, thường thì những người duy trì một bộ dữ liệu không biết ai thực sự đang sử dụng nó và mức độ quan trọng của việc sử dụng đó. Mối quan tâm tương tự này áp dụng cho dữ liệu đầu vào được thu thập và sản xuất bên ngoài công ty của bạn.
Trong một kênh dẫn dữ liệu hoàn thiện hơn, dữ liệu đầu vào mà bạn đang sử dụng cũng có thể được sử dụng trong một số sản phẩm dữ liệu khác với các yêu cầu cạnh tranh. Điều này có nghĩa là nếu các nhà sản xuất dữ liệu đó 'sửa chữa' dữ liệu cho một sản phẩm, thì việc sửa chữa đó có thể phá hoại một sản phẩm khác. Truyền đạt kỳ vọng của bạn về dữ liệu đầu vào của bạn với nhóm sản xuất dữ liệu đó, như một phần của quy trình sản xuất, giúp nhóm sản xuất hiểu rõ hơn về các yêu cầu của bạn đối với dữ liệu của họ. Nó cho phép họ trở nên thông minh và cẩn thận về cách họ thực hiện các thay đổi đối với sản phẩm của mình khi họ xử lý tất cả các yêu cầu từ tất cả các sản phẩm dữ liệu khác nhau sử dụng dữ liệu của họ. Nó cũng cho phép họ chủ động giải quyết tác động mà những thay đổi đã lên kế hoạch có thể có đối với từng sản phẩm sử dụng dữ liệu của họ.
Phòng thủ phản ứng: Tuyến phòng thủ đầu tiên của bạn trước sự thay đổi bất ngờ và chưa được giải quyết trong dữ liệu đầu vào của bạn là theo dõi các đặc điểm của dữ liệu đó ảnh hưởng đến các khía cạnh của dữ liệu quan trọng đối với sản phẩm của bạn. Trong phần tiếp theo, tôi sẽ cung cấp một số hướng dẫn về cách xác định chính xác những gì cần giám sát.
Lưu ý rằng giám sát là một thành phần của giải pháp phản ứng vì bạn sử dụng giám sát để phát hiện những thay đổi đã diễn ra. Sau đó, bạn phản ứng bằng cách điều chỉnh sản phẩm dữ liệu của mình để bù đắp cho những thay đổi.
Phòng thủ chủ động: Tất cả các biện pháp phòng thủ chủ động đều xoay quanh việc duy trì các đường dây liên lạc tốt, đặc biệt với những người chịu trách nhiệm sản xuất dữ liệu. Là người dùng, bạn không kiểm soát được những gì họ làm với sản phẩm của họ, nhưng bạn nên là một phần trong việc quản lý những thay đổi có liên quan mà họ thực hiện.
Bước đầu tiên là theo dõi chính xác những gì sản phẩm dữ liệu của bạn giả định về dữ liệu đến, dựa trên cách nó được triển khai. Chúng ta thảo luận cách xác định những kỳ vọng/yêu cầu này trong phần tiếp theo. Trong giai đoạn đầu, việc ghi lại những kỳ vọng của bạn theo cách mà nhà sản xuất dữ liệu có thể truy cập được là đủ để họ có thể sử dụng làm điểm tham chiếu. Bạn cũng có thể đưa vào tài liệu một người để liên hệ khi họ nghĩ rằng họ đang thực hiện một thay đổi sẽ ảnh hưởng đến bạn.
Cách tiếp cận thứ hai mà bạn có thể thực hiện nếu các nhà sản xuất dữ liệu đầu vào của bạn nằm trong công ty của bạn là khai thác các quy trình theo dõi dự án của công ty bạn để cho phép bạn cảnh báo bất cứ khi nào một số thay đổi có thể ảnh hưởng đến bạn được lên kế hoạch. Nghĩa là, bạn truyền đạt mong đợi/yêu cầu của mình cho người quản lý dự án chịu trách nhiệm về dữ liệu đầu vào. Sau đó, họ có thể chắc chắn rằng bạn được liệt kê là bên liên quan trong bất kỳ yêu cầu nào có thể ảnh hưởng đến khả năng đáp ứng các yêu cầu cụ thể đó. Sau đó, bạn có thể phát triển các bản cập nhật cho sản phẩm của mình đồng bộ với các bản cập nhật của họ — bởi vì bạn có đường dây liên lạc và trách nhiệm giải trình.
Cách tiếp cận thứ ba bao gồm một số hoặc tất cả các yêu cầu dữ liệu của bạn vào một hợp đồng dữ liệu nhẹ. Hợp đồng dữ liệu là một thỏa thuận chính thức giữa nhóm của bạn và nhóm sản xuất dữ liệu đầu vào của bạn. Nó mô tả một cách trừu tượng các ràng buộc mà dữ liệu cần phải duy trì. Điều này, cùng với quy trình xác định thời điểm những hạn chế đó cần thay đổi, sẽ tạo điều kiện thuận lợi cho quá trình chuyển đổi diễn ra suôn sẻ. Tuy nhiên, các hợp đồng dữ liệu có thể trở nên cồng kềnh nên phương pháp này tốt hơn nên giới hạn ở các sản phẩm dữ liệu hoàn thiện và ổn định hơn.
Thiết lập yêu cầu dữ liệu cho sản phẩm dữ liệu cụ thể của bạn
Trong phần này, chúng tôi mô tả ngắn gọn cách xác định các yêu cầu của bạn từ sản phẩm dữ liệu — cụ thể, với một sản phẩm và quy trình dữ liệu đã được triển khai, những yêu cầu nào phải đáp ứng để sản phẩm đó tiếp tục thực thi như thiết kế?
Chúng tôi mô tả các thuộc tính dưới dạng các ràng buộc đối với một tập dữ liệu (bảng), các bản ghi của nó (các hàng) và các thuộc tính (cột).
Lược đồ: Đối với một thuộc tính nhất định, chúng tôi xem xét thuộc tính của nó
Tên:Chuỗi được sử dụng để đặt tên cho thuộc tính đó trong các truy vấn và quy trình.Vị trí:Thuộc tính được tìm thấy trong tập dữ liệu nào.Loại: Loạingữ nghĩa, ví dụ: số nguyên dương, số nhận dạng, vị trí.Biểu diễn:Nó được biểu diễn như thế nào, ví dụ: chuỗi dài, được định dạng, uuid, liệt kê cụ thể.
Đối với tất cả các thuộc tính được đặt tên và sử dụng trong sản phẩm dữ liệu của bạn, bạn sẽ muốn đảm bảo rằng tên, vị trí, loại và biểu diễn không đổi.
Hình dạng: Ta có thể mô tả các thuộc tính theo chức năng trong dữ liệu đầu vào và sử dụng trong quá trình xử lý dữ liệu:
Mã định danh chính (PI):Mã định danh xác định duy nhất một bản ghi trong tập dữ liệu của bạn.Ví dụ: ID khách hàng có thể là mã định danh chính trong dữ liệu khách hàng của bạn.Đối với Mã định danh chính (PI), bạn muốn đảm bảo rằng tất cả các giá trị là duy nhất, không có giá trị nào là rỗng và không có giá trị nào là không hợp lệ.Số nhận dạng phụ (SI):Tham chiếu đến số nhận dạng chính trong một tập dữ liệu khác.Ví dụ: bảng đơn đặt hàng có thể sử dụng ID khách hàng để tham chiếu khách hàng đã đặt hàng.Đối với Mã định danh phụ (SI), bạn muốn đảm bảo rằng không có giá trị nào là rỗng và không có giá trị nào là không hợp lệ.Trong trường hợp này, hợp lệ có nghĩa là giá trị được biểu thị trong Mã định danh chính mà giá trị đó kết nối.Thuộc tính nối (JA):Một thuộc tính trong tập dữ liệu của bạn mà bạn sử dụng để kết nối các bản ghi của mình với các bản ghi trong một số tập dữ liệu khác, chẳng hạn như sử dụng phép nối.Lưu ý rằng tốt nhất là tránh làm điều này.Tuy nhiên, nếu bạn đang làm điều này, bạn cần chú ý đến các vấn đề liên quan đến việc nối các giá trị null và giá trị trùng lặp.Một trong hai trường hợp có thể gây ra các kết nối bổ sung, không mong muốn được thực hiện trong quá trình tham gia.Thuộc tính bộ lọc (FA):Thuộc tính bạn sử dụng để lọc ra một số bản ghi trong tập dữ liệu của mình.Ví dụ: bạn có thể sử dụng thuộc tính ngày để lọc ra các bản ghi quá cũ.Nếu có một bộ lọc trên một thuộc tính, hoặc chỉ lọc ra các hàng hoặc trong ngữ cảnh liên kết, thì các kỳ vọng/yêu cầu chỉ áp dụng cho các bản ghi thực sự vượt qua bộ lọc.Thuộc tính sản phẩm khác (PA):Bất kỳ thuộc tính nào khác được sử dụng trong sản phẩm của bạn, ví dụ: trong bộ tính năng hoặc cho hình ảnh trực quan của bạn.Ví dụ: bạn có thể có biểu đồ chia nhỏ đơn đặt hàng theo danh mục sản phẩm hoặc sử dụng danh mục sản phẩm theo đơn đặt hàng để dự đoán nhu cầu của chuỗi cung ứng.Trong cả hai trường hợp, danh mục sản phẩm là một PA.Đối với các thuộc tính sản phẩm khác (PA), bạn cần chú ý đến cách hình dạng được phản ánh trong mọi hình ảnh trực quan hoặc trong mọi giả định về hình dạng được đưa ra liên quan đến các tính năng trong mô hình ML của bạn.
Tỷ lệ: Đối với tất cả các tập dữ liệu, bạn muốn không có sai lệch đáng kể so với số lượng hàng dự kiến. Ngoài ra, bạn muốn dữ liệu mới có sẵn trong khung thời gian dự kiến.

Bản tóm tắt

Trong bài đăng trước , tôi đã thảo luận về bốn tiêu chí chất lượng cần duy trì tại các điểm khác nhau trong đường dẫn dữ liệu của bạn. Bài viết này thảo luận rõ ràng về việc duy trì tiêu chí đáng tin cậy, cụ thể là nó liên quan đến dặm đầu tiên.
Thay đổi là không thể tránh khỏi. Nhiều khi, thay đổi là một điều tốt. Sản phẩm dữ liệu được thiết kế tốt của bạn phụ thuộc vào luồng dữ liệu thô đến, theo thời gian, dữ liệu sẽ bị trôi, hỏng bit và xuống cấp chung do các thay đổi liên quan đến giản đồ, hình dạng và tỷ lệ của dữ liệu trong luồng dữ liệu đến.
Việc triển khai sản phẩm dữ liệu của bạn — bạn sử dụng phần nào của dữ liệu thô và cách bạn sử dụng dữ liệu đó — vốn đã đặt ra các giả định hoặc kỳ vọng về lược đồ, hình dạng và tỷ lệ của chính dữ liệu thô. Tuy nhiên, dữ liệu đó do người khác tạo ra và bạn có ít quyền kiểm soát đối với những thay đổi mà họ đang thực hiện. Việc giám sát và thích ứng với những thay đổi có liên quan trong dữ liệu đầu vào của bạn có thể được thực hiện một cách phản ứng, bằng cách kiểm tra dữ liệu đầu vào của bạn. Thay đổi cũng có thể được giải quyết một cách chủ động, bằng cách xác định những kỳ vọng tối thiểu của bạn và duy trì đường dây liên lạc mở với những người sản xuất dữ liệu về những kỳ vọng đó.
Bài viết này phác thảo các tính năng dữ liệu cụ thể ảnh hưởng đến chức năng lâu dài của sản phẩm dữ liệu của bạn. Các phương pháp tiếp cận như hợp đồng giám sát và dữ liệu cần xem xét cụ thể các tính năng được phác thảo. Sản phẩm dữ liệu càng ổn định và tập trung, và dự kiến ​​chạy càng lâu thì càng nên quản lý chính thức và chủ động sự thay đổi trong các khía cạnh liên quan của dữ liệu đầu vào.