Ngày xửa ngày xưa, có một nàng công chúa xinh đẹp tuyệt trần ở trong một văn phòng cũng đẹp tuyệt vời. Cô đang say sưa bên máy vi tính, nhập dữ liệu trên Excel để gửi cho chàng hoàng tử. Chẳng hiểu lý do làm sao mà khi hoàng tử nhận file excel của cô xong bỗng sắc mặt tím tái, chân tay bủn rủn, bởi dù chàng có cố gắng đến mấy cũng không thể làm được báo cáo từ những dữ liệu này. Hai người nhìn nhau lo lắng, phải chăng mụ phù thủy đã giở trò gì để hãm hại họ ư? Câu trả lời nằm ở đây...

Bài 2: Kiểu dữ liệu - bài học vỡ lòng đặc biệt quan trọng

Câu chuyện trên mình viết vui vui thôi, nhưng chắc hẳn nhiều người sẽ cảm thấy "nhột" khi từng nếm trải cảm giác đó: cái cảm giác mình nghĩ rằng mình đã làm đúng mà bị nói là sai, dù không biết tại sao lại sai; hay cái cảm giác không hiểu tại sao lại có dữ liệu lộn xộn như vậy? nhìn thấy rõ ràng là có, là đúng mà sao lại không ra báo cáo được?
Câu trả lời chính là KIỂU DỮ LIỆU - DATA TYPE.
Trong bài này chúng ta sẽ cùng nhau làm rõ những thắc mắc thường gặp như:
- Kiểu dữ liệu là gì? Nó có vai trò, ý nghĩa gì trong công việc?
- Tại sao thứ đầu tiên cần học (trong các kỹ năng về tin học văn phòng) lại là Kiểu dữ liệu?
- Thế nào là đúng, thế nào là sai?
- Những điều cần phải học tiếp sau khi biết về kiểu dữ liệu?
dữ liệu mỗi người một kiểu - có giời mới đỡ được !!!
dữ liệu mỗi người một kiểu - có giời mới đỡ được !!!

Câu 1. Vai trò, ý nghĩa của Kiểu dữ liệu?

Trước đây mình không hề để ý tới khái niệm "Kiểu dữ liệu/Data Type". Mình chỉ biết nó một cách mơ hồ và xử lý mang tính tình huống. Điều đó dẫn tới một vấn đề là: mình chỉ xử lý được các tình huống mà dữ liệu đã đúng (như đi học, đi thi), còn khi dữ liệu sai thì không sao làm được. Mình cũng không rõ tại sao mà người ta lại làm sai được khâu nhập dữ liệu cơ chứ? Chắc phải làm ẩu lắm thì mới thế, chứ bình thường ai lại sai? Thế nhưng mình đã nhầm.
Trong công việc thực tế, dữ liệu đến từ nhiều nguồn: tự nhập thủ công, copy từ file khác sang, trích xuất từ phần mềm, trích xuất từ website... nên nó muôn hình vạn trạng. Nếu không biết những nguyên tắc cơ bản của kiểu dữ liệu, chúng ta dễ bị mất phương hướng, rối loạn trong một rừng thông tin. Một điều nữa là chúng ta không phải những người chuyên về ngành khoa học dữ liệu nên cũng không cần biết quá rõ, quá kỹ về điều này. Tôi dám chắc là nếu nói cao siêu, khó hình dung quá thì các bạn cũng sẽ không muốn đọc tiếp đâu. Vậy nên nói đơn giản như thế này cho dễ hiểu:
Dữ liệu trên Excel có 3 kiểu chính: (1) Text - văn bản, (2) Number - số, (3) Date, Time - Ngày tháng, thời gian.
Chú ý: còn một vài kiểu nữa nhưng khi mới bắt đầu chúng ta chỉ cần biết 3 kiểu này.
Vai trò của Kiểu dữ liệu được mô tả trong sơ đồ sau:
vị trí của Kiểu dữ liệu trong kiến thức về kỹ năng quản lý dữ liệu & báo cáo
vị trí của Kiểu dữ liệu trong kiến thức về kỹ năng quản lý dữ liệu & báo cáo

Câu 2: Tại sao cần học về Kiểu dữ liệu càng sớm càng tốt?

Như đã nói ở trên, dữ liệu đến từ nhiều nguồn chứ không đơn giản là tự nhập vào Excel. Do đó cái mà chúng ta gặp phải đầu tiên là dữ liệu thô (raw data). Dữ liệu thô rất khác với dữ liệu mà chúng ta thường gặp trong quá trình học, thi. Nó chứa đầy lỗi, từ lỗi nhìn thấy được bằng mắt thường cho tới lỗi vô hình (lỗi này là cái gì thì đọc tiếp sẽ biết nhé). Do đó việc đầu tiên cần làm là xử lý dữ liệu thô. Muốn xử lý được, chúng ta cần phải nhận biết được dữ liệu nào đúng, dữ liệu nào sai, lỗi. Việc này không thể làm chỉ bằng mắt thường, bởi dữ liệu có khi rất lớn (hàng trăm triệu ô dữ liệu) và chứa những lỗi vô hình mà mắt thường không thể nhận ra.
Chính vì bỏ qua việc xử lý dữ liệu thô mà chúng ta gặp vô số vấn đề phát sinh:
- Excel tính toán không đúng như mình nghĩ.
- Công cụ của Excel hoạt động không bình thường.
Hay nói cách khác, Excel chỉ hoạt động đúng khi dữ liệu đã đúng.

Câu 3: Thế nào là dữ liệu đúng?

Với mỗi kiểu dữ liệu (3 kiểu đã nói ở câu 1) sẽ có những đặc điểm nhận biết riêng. Ví dụ với dữ liệu kiểu văn bản (Data Type là Text) thì chúng ta có một số đặc điểm:
- Thường có chứa ít nhất 1 ký tự văn bản bất kỳ: như các chữ cái, dấu cách, dấu chấm...
- Dữ liệu nhập vào trong ô đang ở định dạng Text (format cells là Text)
- Dữ liệu nhập vào trong ô mà bắt đầu với dấu nháy đơn (dấu ' ) - hay nói cách khác: nếu nhập dấu nháy đơn trước, thì tất cả những gì nhập sau dấu nháy đơn đều là Text.
Trên đây là những cách nhận dạng thông thường mà chúng ta được học. Nó khá đa dạng nhưng vẫn THIẾU. Vẫn có những trường hợp chẳng hiểu vì sao lại là kiểu văn bản, dù rằng nó vượt qua cả 3 dấu hiệu trên (chỉ chứa con số, không có dấu nháy đơn ở trước, ô định dạng General). Do đó mình khuyên các bạn là: chỉ tin vào dấu hiệu sau đây:
Dùng hàm ISTEXT để kiểm tra dữ liệu có phải là kiểu text hay không. Nếu hàm cho kết quả TRUE thì đúng là kiểu text.
Ví dụ:
sử dụng hàm ISTEXT để kiểm tra kiểu dữ liệu
sử dụng hàm ISTEXT để kiểm tra kiểu dữ liệu
Để viết hàm này trong Excel chúng ta làm như sau:
- Xác định ô cần kiểm tra và ô sẽ viết hàm kiểm tra. Ví dụ ô cần kiểm tra là D2, ô sẽ viết công thức kiểm tra là F2.
- Tại ô F2 nhập dấu bằng (=) để bắt đầu việc viết hàm.
- Nhập tiếp chữ IS sau dấu bằng, Excel sẽ gợi ý các hàm có tên bắt đầu với chữ IS, có thể nhập thêm chữ "t" để gợi ý nhanh tới hàm ISTEXT, rồi nhấn phím Tab (hoặc double click vào tên hàm này trong phần gợi ý)
chọn hàm rồi nhấn phím Tab
chọn hàm rồi nhấn phím Tab
- Khi cú pháp hàm hiển thị đầy đủ =ISTEXT( thì chọn ô D2 để đưa tọa độ ô này vào trong hàm. Kết quả là =ISTEXT(D2
viết tiếp tọa độ tham chiếu vào hàm
viết tiếp tọa độ tham chiếu vào hàm
- Kết thúc hàm: nhập dấu đóng ngoặc đơn rồi nhấn Enter để hoàn thành thao tác viết hàm, nhận kết quả.
Trong hai ô D2 và D3 nếu chỉ nhìn bằng mắt thường thì chúng ta thấy giống hệt nhau. Excel cũng không có bất kỳ cảnh báo nào đặc biệt với hai dữ liệu này. Thế nhưng khi kiểm tra bằng hàm ISTEXT thì ô D2 là FALSE (không phải text), còn ô D3 thì là TRUE. Điều này đặt ra một vấn đề: Nếu không kiểm tra mà cứ thế làm việc ngay, bạn sẽ gặp lỗi với dữ liệu trong ô D3 vì tưởng dữ liệu trong ô này là ngày tháng đúng.
Vậy còn dữ liệu kiểu Number và Date thì sao?
Như đã nói ở trên, dữ liệu trong Excel có 3 kiểu cơ bản: Text, Number, Date nên khi dữ liệu không phải Text thì thường là Number (hoặc Date). Về bản chất, dữ liệu kiểu Date vẫn là Number (có cùng 1 kiểu), chỉ là có hình thái hiển thị khác nhau mà thôi (theo dạng số hoặc theo dạng ngày tháng thời gian). Do đó để nhận biết kiểu dữ liệu này, cách làm là:
Dùng hàm ISNUMBER để kiểm tra, nếu hàm ra kết quả TRUE thì đúng là dữ liệu kiểu số. Khi đã đúng dữ liệu kiểu số rồi, chúng ta kết hợp việc định dạng (format cells) để hiển thị theo dạng Số hoặc dạng Ngày.
Lưu ý: có thể chỉ cần dùng 1 trong 2 hàm ISTEXT hoặc ISNUMBER để kiểm tra là đủ. Nếu không phải Text thì là Number và ngược lại. Không cần nhớ nhiều hàm, nhưng việc kiểm tra là cần thiết.
Dữ liệu sạch, đúng chuẩn thường được hiểu là:
- Các cột chứa mã (như mã hàng hóa - SKU, mã nhân viên, mã chi nhánh...) PHẢI là kiểu Text.
- Các cột dạng Số lượng, Số tiền phải là kiểu Number. Cột chứa Số ngày, Số tháng, Số năm riêng (chỉ chứa duy nhất 1 giá trị là Số ngày, hoặc số tháng, hoặc số năm) cũng phải là kiểu Number.
- Các cột dạng Ngày tháng (đủ cả ngày tháng năm trong 1 ô), Giờ (đủ giờ phút giây trong 1 ô) phải là kiểu Number và khi định dạng theo ngày, theo giờ đều hiển thị đúng như cách hiểu thông thường *.
Cách hiểu thông thường là: nếu bạn nghĩ ngày tháng trong ô hiển thị là ngày trước, tháng sau: như hiển thị 03/06/2022 là ngày 03 tháng 06 năm 2022 thì giá trị trong ô phải đúng là như vậy, không được nhầm sang ngày 06 tháng 03 năm 2022. Trong thực tế rất hay xảy ra lỗi như thế này.

Câu 4: Làm gì tiếp theo sau khi kiểm tra kiểu dữ liệu?

Nếu chỉ dừng lại ở việc kiểm tra kiểu dữ liệu thì sẽ chẳng có ý nghĩa gì. Mục tiêu quan trọng là bạn cần dữ liệu sạch, đúng chuẩn để làm tiếp những công việc khác như báo cáo, phân tích dữ liệu. Điều đó có nghĩa là bạn cần dữ liệu đúng kiểu, đúng giá trị. Nhận biết đúng kiểu dữ liệu chỉ là bước ban đầu mà thôi. Bước tiếp theo bạn cần làm là đưa dữ liệu về đúng kiểu mà bạn mong muốn, chứa giá trị đúng như bạn nghĩ rằng nó phải thế.
Ví dụ:
- Cột chứa mã SKU đang ở kiểu Number, bạn cần chuyển dữ liệu này về kiểu Text.
- Cột chứa Ngày tháng có lẫn Ngày ở dạng Ngày trước, tháng sau với ngày ở dạng Tháng trước, ngày sau. Bạn cần phát hiện ra ngày nào bị sai và sửa lại cho đúng.
- Cột chứa Số tiền nhưng lại ở kiểu Text khiến bạn không tính toán, cộng tổng được. Bạn cần chuyển dữ liệu này về kiểu Number.
Trong bài tiếp theo, chúng ta sẽ cùng tìm hiểu về các kỹ thuật tìm, phát hiện dữ liệu sai và cách sửa lại cho đúng nhé. Cảm ơn các bạn đã theo dõi!
29/11/2022
duongAQ