bài viết phiên bản Anh của mình kĩ lưỡng hơn:
Mình sẽ tự ngầm hiểu bạn đọc đã có kiến thức cơ bản về AI mảng ngôn ngữ, biết code python 
Hoặc ko biết cũng chả sao , coi như bài viết này để giải trí , đọc mấy từ chuyên ngành cho ngầu ngầu
Thêm nữa Điều bạn cần biết là những thứ nhỏ nhặt li ti trong mảng NLP (natural language processing)
Ví dụ như word segmentation , tokenization 
Mình là dân chuyên làm về Computer Vision (Thị giác máy tính) nên những gì ở mảng NLP hay Audio mình khá non nớt, có gì ai chuyên thì biết mình viết sai chỗ này chỗ nọ. 
Hiện tại mình đang làm vài dự án này (khá solo)
1.Dự án GR 
2.Dự án PG 
3.Dự án CIT
4.Dự án SR
5.Dự án MMT
Các dự án có cấp bảo mật quốc gia (chắc vậy :)) , trừ MMT nên mình sẽ nói về dự án này 
MMT viết tắt cho minority machine translation (mình tự đặt tên vậy)
Dự án này nôm na là dịch tất cả các văn bản viết máy chữ dân tộc về tiếng việt 
Hôm nay nghỉ làm một hôm, mình quyết định lôi đống code MMT để hoàn thiện cho xong 
Để dịch được 1 ngôn ngữ , điều bạn cần là 1 model Neural Machine Translation , ví dụ như repo Open-NMT với model là Transformer (với 6 stack encoder và 6 stack decoder)
Để cho model Transformer ăn uống data dễ dàng hơn , bạn cần băm nhỏ văn bản hay chính là tokenize / word segment văn bản đó (sau n lần thử dùng Maximal Matching + Dictionary based segment (tự viết ra), nltk khmer dùng Conditional Random Fields (đã liên hệ với chính tác giả), ..
Nhưng các cách đều gây khó khăn cho người dùng cuối
Đàn anh nói mình ko thể làm được , ok , mình sẽ làm được và hôm nay mình chọn tiktoken của OpenAI để tokenize văn bản
Và done , đây là mình hiện tại đang huấn luyện AI 
model in training progress
model in training progress
Bùm , hết hơi rồi , đây chỉ là ghi chép tản mạn flex của mình. Bye <3