Dữ liệu là thứ chúng ta vẫn gặp gỡ, tiếp xúc hàng ngày do đó kỹ năng quản lý dữ liệu là một kỹ năng rất cần thiết. Vậy thì cụ thể "Quản lý dữ liệu" là làm những việc gì? Hãy cùng mình đi tìm câu trả lời trong bài viết này nhé.

Tại sao cần quản lý dữ liệu?

Như mình đã nói trong bài 2: kiểu dữ liệu, trong thực tế dữ liệu đến từ nhiều nguồn: Tự nhập trên excel, trích xuất từ phần mềm, copy từ website... nên đây là những dữ liệu thô (raw data). Dữ liệu thô có rất nhiều vấn đề như: dữ liệu thiếu (bị trống), dữ liệu trùng lặp, dữ liệu sai chính tả, thừa/thiếu ký tự, dữ liệu không đúng kiểu... Nếu không xử lý sẽ không thể sử dụng ngay để làm việc được. Nó giống như việc bạn đi chợ mua rau, thịt về vậy, phải sơ chế, nấu rồi mới ăn được. Nếu bỏ qua bước làm sạch, sơ chế thì ăn vào không tiêu hóa được, dễ bị đau bụng.
Ngoài việc xử lý dữ liệu thô, chúng ta còn cần phải đảm bảo được về cấu trúc của bảng dữ liệu và trật tự (thứ tự) để có thể tìm kiếm, sàng lọc nhanh hơn. Hãy hình dung bạn có rất nhiều ngăn tủ đựng tài liệu, nếu không sắp xếp, quản lý tốt thì bạn sẽ mất rất nhiều thời gian, công sức khi phải tìm 1 tài liệu nào đó. Bởi chẳng ai muốn bỏ cả tiếng đồng hồ chỉ để tìm ra một ô dữ liệu trong số hàng trăm nghìn ô. Việc ấy rất mệt mỏi. Hãy quản lý để làm việc đó dễ dàng hơn.

Quản lý dữ liệu là làm những việc gì?

1. Biết cách tạo bảng để chứa dữ liệu
Thử hình dung thế này: bạn nhận được một tập Hợp đồng lao động của nhân viên trong công ty (mỗi người có 1-2 hợp đồng: thử việc, chính thức), sếp yêu cầu bạn nhập thông tin trên các hợp đồng lao động đó vào 1 bảng tính Excel để lưu trữ và quản lý thông tin, thống kê xem có bao nhiêu hợp đồng mỗi loại. Bạn sẽ làm việc này như thế nào?
Đây là một việc cơ bản khi sử dụng Excel nhưng không phải ai cũng làm tốt. Với những người đã có kinh nghiệm, họ làm việc này mà gần như không phải suy nghĩ gì cả (hay họ nghĩ quá nhanh nên không nhận ra mình đã suy nghĩ như thế nào). Còn với người chưa có kinh nghiệm thì mình đã từng thấy họ loay hoay cả tiếng đồng hồ mà vẫn chưa biết phải bắt đầu từ đâu. Vậy thì để bắt đầu công việc tạo bảng quản lý dữ liệu, chúng ta cần phải biết được những gì?
Các yêu cầu đối với việc này là:
- Biết cấu trúc của một bảng dữ liệu: phần tiêu đề, phần nội dung, cách đặt tên cho dòng tiêu đề
- Nhập chính xác các nội dung từ hợp đồng vào bảng. Trong đó chú ý nhập cho chính xác ngày tháng (ngày sinh, ngày ký hợp đồng), số tiền (tiền lương), nhập đúng chính tả. Việc này tưởng dễ mà trong thực tế nhiều người nhập sai lắm. Cần phải tỉ mỉ, cẩn thận và soát lại lỗi chính tả, lỗi nhập ngày tháng sai một cách thường xuyên.
- Thống nhất về định dạng trong từng cột: cùng 1 kiểu dữ liệu và cùng một kiểu định dạng.
2. Biết các thao tác làm việc với bảng tính
Đây chính là các thao tác trung gian, dựa trên các thao tác này để làm tiếp các mục đích phía sau như: để định dạng cho cả 1 cột dữ liệu thì phải chọn được cột đó trước. Hiểu một cách đơn giản: bạn cần kiểm soát được toàn bộ 1 bảng dữ liệu. Cần chọn, cần tìm tới vị trí nào thì ngay lập tức bạn sẽ đi tới vị trí đó. Một số thao tác cơ bản:
- Chọn toàn bộ cả bảng
- Chọn từ dòng dữ liệu đầu tiên tới dòng dữ liệu cuối cùng trong 1 cột.
- Chọn cả 1 dòng, chọn cả 1 cột dữ liệu.
- Thao tác fill công thức trong excel: từ trên xuống dưới, từ trái sang phải
3. Chuẩn hóa dữ liệu
Việc này gồm 2 bước:
- Phân biệt được kiểu dữ liệu: dữ liệu đang ở kiểu nào. Kiểu này đã đúng như bạn mong muốn chưa?
- Sửa lại kiểu dữ liệu: đưa dữ liệu sai về dữ liệu đúng, bao gồm kiểu dữ liệu (data type) và giá trị dữ liệu (data value).
Trong yêu cầu này, việc đưa dữ liệu về đúng giá trị đòi hỏi không chỉ sửa lỗi về chính tả (biết trước kết quả cần sửa) mà còn đòi hỏi tư duy logic (suy đoán kết quả), tư duy giải quyết vấn đề (ai được quyền sửa, cảnh báo dữ liệu sai như thế nào, lưu trữ dữ liệu thô và dữ liệu đã sửa như thế nào...)
4. Lọc, tìm kiếm
Trong Excel bạn có sẵn nhiều công cụ hỗ trợ việc này như: Bộ lọc Filter, chức năng tìm kiếm (chức năng Find với phím tắt là Ctrl + F, chức năng Find & Replace với phím tắt là Ctrl + H). Bạn cần nắm được cách mở, khởi tạo các chức năng này và sử dụng nó để tìm kiếm dữ liệu theo ý muốn. Việc này rất đơn giản, bạn chỉ cần luyện tập thường xuyên để thao tác chính xác và nhanh hơn.
Ngoài ra trong Excel cung cấp thêm các hàm tìm kiếm như hàm FIND, SEARCH. Bạn cũng nên biết cách sử dụng 2 hàm này. Trong đó hàm SEARCH được sử dụng thường xuyên hơn, dễ dùng hơn. (Mình sẽ có riêng 1 bài hướng dẫn cách viết hàm trong Excel để các bạn có thể tìm hiểu kỹ hơn nội dung này).
cú pháp hàm FIND và SEARCH
cú pháp hàm FIND và SEARCH
5. Xử lý dữ liệu trùng lặp
Trong thực tế việc dữ liệu bị lặp, bị trùng rất hay xảy ra. Bạn cần phải nắm được:
- Thế nào được tính là trùng lặp? Việc trùng lặp này có ảnh hưởng như thế nào tới bảng dữ liệu?
- Xác định được 2 trường hợp: (1) dữ liệu trùng lặp bao nhiêu lần, (2) khi nào thì bị lặp lại, lặp tới lần thứ mấy rồi. Đây là 2 trường hợp phổ biến mà chúng ta sẽ dùng làm căn cứ để có cách hành xử phù hợp với dữ liệu trùng lặp.
Một số công cụ và hàm trong Excel dùng cho việc này:
- Chức năng Conditional formatting: có khả năng tự động đổi màu tại vị trí dữ liệu bị trùng lặp (Highlight Cells Rules> Duplicate Values)
chức năng Conditional formatting (thẻ Home)
chức năng Conditional formatting (thẻ Home)
- Chức năng Remove Duplicates giúp xóa bỏ các dữ liệu bị trùng lặp trên 1 cột (hoặc một nhóm cột), chỉ giữ lại những giá trị không trùng lặp (mỗi giá trị chỉ xuất hiện duy nhất 1 lần).
chức năng Remove Duplicates (thẻ Data)
chức năng Remove Duplicates (thẻ Data)
- Sử dụng hàm COUNTIF hoặc COUNTIFS trong việc xác định dữ liệu trùng lặp. Trong đó Range (hay criteria_range) là danh sách/dải ô chứa dữ liệu, criteria là giá trị cần kiểm tra xem có trùng lặp hay không.
cú pháp hàm COUNTIF và COUNTIFS
cú pháp hàm COUNTIF và COUNTIFS
6. Sắp xếp dữ liệu
Không phải lúc nào dữ liệu bạn nhận được cũng có thứ tự. Chúng có thể rất lộn xộn, rời rạc. Việc sắp xếp sẽ giúp cho dữ liệu có trật tự, dễ dàng hơn khi cần tìm kiếm, kiểm tra. Thông qua các chức năng Sort, Filter bạn có thể dễ dàng sắp xếp được dữ liệu theo ý muốn.
bộ công cụ Sort & Filter (thẻ Data)
bộ công cụ Sort & Filter (thẻ Data)
7. Xóa dữ liệu
Xóa là một thao tác rất cơ bản mà ai cũng làm được. Vấn đề ở đây là có nhiều kiểu xóa và bạn cần biết các hệ quả mà thao tác này gây ra:
- Xóa với phím Delete hay chức năng Clear Contents: Chỉ xóa nội dung mà không xóa định dạng, không xóa tọa độ vùng ô.
- Xóa với lệnh Delete Cells/Rows/Columns: việc xóa này làm mất hẳn ô/dòng/cột, đồng thời cũng mất tọa độ tham chiếu của vùng ô có liên quan. Nhiều người có thói quen sử dụng thao tác xóa này (vì xóa nhanh và xóa được cả định dạng) mà không lường trước được hậu quả nên bị ảnh hưởng tới các công việc khác.
- Xóa định dạng với chức năng Cell Styles > Normal để đưa về trạng thái mặc định ban đầu. Chức năng này chỉ xóa phần định dạng trong ô mà không xóa nội dung.
chức năng Cell Style (thẻ Home)
chức năng Cell Style (thẻ Home)
Ngoài ra chức năng Cell Styles còn hỗ trợ rất tốt trong việc định dạng bảng dữ liệu, tạo ra phong cách định dạng nhanh, chuyên nghiệp mà bạn nên tìm hiểu để ứng dụng được chức năng này vào thực tế.
8. Xác thực dữ liệu
Để tránh dữ liệu nhập vào bảng bị sai (sai về giá trị hoặc sai về kiểu dữ liệu), bạn có thể sử dụng chức năng Xác thực dữ liệu (Data Validation). Đây là một chức năng rất hữu ích để giúp bạn tránh được lỗi nhập sai, hoặc giúp bạn nhập dữ liệu nhanh hơn, chính xác hơn. Dựa trên các kiểu dữ liệu thường gặp trong Excel mà bạn có thể thiết lập các điều kiện xác thực một cách linh hoạt cho từng nhu cầu nhập liệu. Sử dụng tốt chức năng này bạn có thể giảm bớt công sức phải xử lý những dữ liệu lỗi, dữ liệu sai (do bạn đã có biện pháp ngăn chặn lỗi sai ngay từ đầu, trước khi dữ liệu được nhập vào bảng).
chức năng Data Validation (thẻ Data)
chức năng Data Validation (thẻ Data)

Tổng kết

Có thể nói, kỹ năng quản lý dữ liệu đòi hỏi bạn phải có một hiểu biết rộng về các chức năng, các hàm của Excel, về tư duy làm việc với dữ liệu, về các nhu cầu khi làm việc với dữ liệu. Biết cách sử dụng công cụ thôi là chưa đủ, bạn còn phải có tư duy giải quyết vấn đề để có thể xử lý linh hoạt các tình huống phát sinh trong thực tế. Bởi vậy kỹ năng này vừa là kỹ năng cơ bản mà ai cũng cần phải có, lại vừa là thứ "tưởng dễ mà khó". Dễ vì ai cũng được học, cũng biết. Khó vì không phải ai cũng hiểu được tầm quan trọng của vấn đề này và đủ linh hoạt, có tư duy giải quyết vấn đề tốt.
Để rèn luyện kỹ năng này, theo mình, chúng ta cần đặt nó vào trong tổng thể một quy trình công việc: từ khi bạn nhận dữ liệu cho tới khi bạn tạo ra được kết quả cuối cùng (là báo cáo hoặc kết quả phân tích dữ liệu), để từ đó bạn nắm được tầm quan trọng của công việc, biết được các yêu cầu của dữ liệu sau khi xử lý, từ đó chúng ta ý thức rõ hơn mình cần phải làm gì để nâng cao kỹ năng quản lý dữ liệu. Còn lại là vấn đề thời gian thôi, bởi rèn kỹ năng, quan trọng nhất là phải có thực hành và cần thời gian để "ngấm", để "thành thạo".
Hẹn gặp lại các bạn trong những bài viết tiếp theo của series [Tôi tự học]. Hãy cho mình biết những cảm nghĩ của bạn khi đọc các bài viết trong series này để mình cải thiện hơn nữa chất lượng của từng bài nhé. Thân!