Làm thế nào để xây dựng một mô hình AI?

Ở những bài viết trước, mình đã giới thiệu về định nghĩa Machine learning, 4 phương pháp phổ biến dùng để xây dựng một model trong AI. Các bạn có thể tìm đọc hai bài viết trên tại đây:

Ở bài viết này mình sẽ giới thiệu về các bước xây dựng một mô hình AI. Về cơ bản xây dựng một mô hình AI sẽ gồm có 5 bước bao gồm:

Bước 1: Xác định vấn đề/bài toán bạn cần giải quyết

Bước 2: Xây dựng bộ dữ liệu

Bước 3: Huấn luyện mô hình AI (Train model AI)

Bước 4: Đánh giá mô hình (model)

Bước 5: Chọn và sử dụng mô hình

Các bạn cần lưu ý rằng bước 2 đến bước 4 giống như một vòng lặp (loop), sẽ được làm đi làm lại cho đến khi các bạn có được một mô hình AI ưng ý nhất.

Bước 1: Xác định vấn đề bạn cần giải quyết

Đây có thể được coi là bước quan trọng nhất trong quá trình xây dựng một mô hình AI hiệu quả. Bởi vì chỉ khi bạn nắm rõ được đầu ra kỳ vọng của việc huấn luyện mô hình (train model) bạn mới có kế hoạch và chiến lược hợp lý để có được một model có kết quả tốt nhất.

Việc xác định kết quả mà bạn kỳ vọng AI làm được sẽ cực kỳ hữu ích để thu thập bộ dữ liệu đầu vào và gán nhãn tốt nhất có thể cũng như lựa chọn các phương pháp để xây dựng mô hình AI, từ đó nâng cao hiệu quả và tiết kiệm thời gian khi xây dựng một mô hình AI.

Bước 2: Xây dựng bộ dữ liệu

Khi đã định hình rõ bài toán bạn cần giải, việc tiếp theo chính là xây dựng đúng bộ dữ liệu. Việc có được một bộ dữ liệu chất lượng cao sẽ giúp ích rất lớn trong việc tiết kiệm thời gian cải thiện mô hình AI.

Dữ liệu training sẽ được chia thành hai loại đó là dữ liệu có cấu trúc và dữ liệu phi cấu trúc. Theo đó, dữ liệu có cấu trúc là thông tin có format bao gồm các mẫu và tham số có thể tìm kiếm dễ dàng. Ví dụ: tên, địa chỉ, ngày sinh, số điện thoại, v.v. Còn dữ liệu phi cấu trúc là những loại dữ liệu không có mẫu, tính nhất quán hoặc tính đồng nhất. Nó bao gồm âm thanh, hình ảnh, đồ họa thông tin, v.v.

Sau khi thu thập dữ liệu, bạn cần làm sạch dữ liệu, xử lý và lưu trữ dữ liệu đã làm sạch trước khi có thể sử dụng dữ liệu đó để đào tạo mô hình AI. Nếu các bạn không biết thì làm sạch dữ liệu là sửa lỗi và những thiếu sót, để cải thiện chất lượng dữ liệu ví dụ như loại bỏ những dữ liệu bị quá mờ (người không phân biệt và nhận dạng được), những dữ liệu ngoại lệ (xác suất xảy ra ít trên thực tế) v.v. Trên thực tế có một số kỹ thuật có thể được sử dụng để xử lý các giá trị ngoại lệ, nhưng bạn cũng có thể chỉ cần xóa chúng khỏi tập dữ liệu của mình.

Ngoài ra, bạn sẽ cần chia nhỏ bộ dữ liệu của bạn thành những tập khác nhau để phục vụ cho các giai đoạn huấn luyện mô hình. Về cơ bản, chúng ta sẽ có 2 bộ dữ liệu chính đó là bộ dữ liệu để huấn luyện mô hình và bộ dữ liệu để kiểm tra mô hình. Phần này nếu có thời gian, mình sẽ viết sâu hơn ở các bài sau.

Bước 3: Huấn luyện mô hình (Train model)

Trước khi bắt tay vào huấn luyện mô hình, bạn cần phải lựa chọn được thuật toán để máy tình biết nên huấn luyện mô hình như thế nào. Các thuật toán được xem giống như các hướng dẫn toán học. Hãy cố gắng tối ưu hóa thuật toán để đạt được mô hình AI với độ chính xác cao trong quá trình huấn luyện. Tuy nhiên, nếu kết quả chưa đạt yêu cầu đề ra, bạn có thể thêm dữ liệu để cải thiện độ chính xác của mô hình.

Bước 4: Đánh giá mô hình

Đánh giá mô hình là bước không thể thiếu sau khi bạn đã huấn luyện xong mô hình. Một mô hình AI sẽ được kiểm tra bằng cách nhận dạng các đặc điểm của một bộ dữ liệu mới có đặc trưng giống với bộ dữ liệu mà mô hình đã được huấn luyện trước đó.

Bước 5: Chọn và sử dụng model

Bước cuối cùng trong việc xây dựng một mô hình AI đó là chọn và sử dụng mô hình. Bạn sẽ cần chọn một mô hình có mức độ thể hiện gần sát với kỳ vọng mà bạn mong muốn nhất và đưa nó vào sử dụng (deployment).

Mục tiêu của chuỗi bài viết về Machine learning là để cung cấp cho các bạn những kiến thức cơ bản và dễ hiểu nhất về machine learning nên sẽ có những phần mình không viết sâu, ví dụ như bài viết này. Nếu các bạn muốn tìm hiểu thêm có thể contact riêng cho mình để nhận các tài liệu về machine learning mà mình đã thu thập và học tập ạ. Ở bài viết tới mình sẽ viết về Cost function - cách để đo độ chính xác của hàm giả thuyết.

Disclaim: Mình không học chuyên về trí tuệ nhân tạo (AI), máy học (ML) hay có bất kỳ chứng chỉ gì liên quan đến AI, ML và khoa học máy tính (CS). Những kiến thức mình chia sẻ là những gì mình tự tìm hiểu từ những nguồn tài liệu khác nhau và được chắt lọc, viết lại dưới góc nhìn của một người non-technical với mục đích giúp những bạn trái ngành có thể hiểu về ML như mình. Bởi vì mình tự tìm hiểu nên sẽ có những sai sót trong bài viết, hy vọng sẽ được các bạn có kinh nghiệm về ngành này sẽ chỉ ra để mình được chỉnh sửa và học hỏi thêm. Cám ơn bạn đã đón nhận bài viết.

Cách mạng 4.0