1 Dự Án AI dịch ngôn ngữ, 1 mẩu chuyện vu vơ
AI dịch văn bản viết 54 dân tộc anh em Việt Nam
bài viết phiên bản Anh của mình kĩ lưỡng hơn:
Mình sẽ tự ngầm hiểu bạn đọc đã có kiến thức cơ bản về AI mảng ngôn ngữ, biết code python
Hoặc ko biết cũng chả sao , coi như bài viết này để giải trí , đọc mấy từ chuyên ngành cho ngầu ngầu
Thêm nữa Điều bạn cần biết là những thứ nhỏ nhặt li ti trong mảng NLP (natural language processing)
Ví dụ như word segmentation , tokenization
Mình là dân chuyên làm về Computer Vision (Thị giác máy tính) nên những gì ở mảng NLP hay Audio mình khá non nớt, có gì ai chuyên thì biết mình viết sai chỗ này chỗ nọ.
Hiện tại mình đang làm vài dự án này (khá solo)
1.Dự án GR
2.Dự án PG
3.Dự án CIT
4.Dự án SR
5.Dự án MMT
Các dự án có cấp bảo mật quốc gia (chắc vậy :)) , trừ MMT nên mình sẽ nói về dự án này
MMT viết tắt cho minority machine translation (mình tự đặt tên vậy)
Dự án này nôm na là dịch tất cả các văn bản viết máy chữ dân tộc về tiếng việt
Hôm nay nghỉ làm một hôm, mình quyết định lôi đống code MMT để hoàn thiện cho xong
Để dịch được 1 ngôn ngữ , điều bạn cần là 1 model Neural Machine Translation , ví dụ như repo Open-NMT với model là Transformer (với 6 stack encoder và 6 stack decoder)
Để cho model Transformer ăn uống data dễ dàng hơn , bạn cần băm nhỏ văn bản hay chính là tokenize / word segment văn bản đó (sau n lần thử dùng Maximal Matching + Dictionary based segment (tự viết ra), nltk khmer dùng Conditional Random Fields (đã liên hệ với chính tác giả), ..
Nhưng các cách đều gây khó khăn cho người dùng cuối
Đàn anh nói mình ko thể làm được , ok , mình sẽ làm được và hôm nay mình chọn tiktoken của OpenAI để tokenize văn bản
Và done , đây là mình hiện tại đang huấn luyện AI

model in training progress
Bùm , hết hơi rồi , đây chỉ là ghi chép tản mạn flex của mình. Bye <3

Khoa học - Công nghệ
/khoa-hoc-cong-nghe
Bài viết nổi bật khác
- Hot nhất
- Mới nhất