1 Dự Án AI dịch ngôn ngữ, 1 mẩu chuyện vu vơ

bài viết phiên bản Anh của mình kĩ lưỡng hơn:

Neural Machine Translation between any 2 languages (part 1)

Heads up , the pipeline is simple (actually not so much)

Mình sẽ tự ngầm hiểu bạn đọc đã có kiến thức cơ bản về AI mảng ngôn ngữ, biết code python

Hoặc ko biết cũng chả sao , coi như bài viết này để giải trí , đọc mấy từ chuyên ngành cho ngầu ngầu

Thêm nữa Điều bạn cần biết là những thứ nhỏ nhặt li ti trong mảng NLP (natural language processing)

Ví dụ như word segmentation , tokenization

Mình là dân chuyên làm về Computer Vision (Thị giác máy tính) nên những gì ở mảng NLP hay Audio mình khá non nớt, có gì ai chuyên thì biết mình viết sai chỗ này chỗ nọ.

Hiện tại mình đang làm vài dự án này (khá solo)

1.Dự án GR

2.Dự án PG

3.Dự án CIT

4.Dự án SR

5.Dự án MMT

Các dự án có cấp bảo mật quốc gia (chắc vậy :)) , trừ MMT nên mình sẽ nói về dự án này

MMT viết tắt cho minority machine translation (mình tự đặt tên vậy)

Dự án này nôm na là dịch tất cả các văn bản viết máy chữ dân tộc về tiếng việt

Hôm nay nghỉ làm một hôm, mình quyết định lôi đống code MMT để hoàn thiện cho xong

Để dịch được 1 ngôn ngữ , điều bạn cần là 1 model Neural Machine Translation , ví dụ như repo Open-NMT với model là Transformer (với 6 stack encoder và 6 stack decoder)

Để cho model Transformer ăn uống data dễ dàng hơn , bạn cần băm nhỏ văn bản hay chính là tokenize / word segment văn bản đó (sau n lần thử dùng Maximal Matching + Dictionary based segment (tự viết ra), nltk khmer dùng Conditional Random Fields (đã liên hệ với chính tác giả), ..

Nhưng các cách đều gây khó khăn cho người dùng cuối

Đàn anh nói mình ko thể làm được , ok , mình sẽ làm được và hôm nay mình chọn tiktoken của OpenAI để tokenize văn bản

Và done , đây là mình hiện tại đang huấn luyện AI

model in training progress

Bùm , hết hơi rồi , đây chỉ là ghi chép tản mạn flex của mình. Bye <3