Otter - Ứng dụng Speech to Text cho mọi người học và làm việc liên quan tới tiếng Anh

Tôi ước gì ứng dụng này ra đời vào năm 2016 khi tôi lấy bằng Thạc sĩ ở Úc rồi khi tôi bắt đầu học Tiến sĩ vào 2017 bởi nó có thể đã tiết kiệm cho tôi ít nhất là 2-3 tháng làm việc mỗi năm. Nhưng mãi đến 2018 bố mẹ em mới sinh ra em và đầu 2019 sau khi đã phân tích dữ liệu xong xuôi tôi mới được diện kiến em nó. May mắn tôi vẫn có thể sử dụng em mỗi tuần và em vẫn giúp tôi tiết kiệm được rất nhiều thời gian. Ứng dụng gì mà "quyền lực" đến như vậy?

Otter là tên của một ứng dụng có thể ghi âm giọng nói song song với việc chuyển giọng nói thành văn bản cùng một lúc. Cha đẻ của Otter là một nhóm khởi nghiệp ở Thung lũng Silicon. Họ đã làm việc miệt mài và dẫn đầu trong phát triển công nghệ giọng nói cho các hãng lớn như Google, Facebook, Uber, v.v.; đồng thời cống hiến miễn phí cho cộng đồng sử dụng mạng những công cụ hữu ích. Bắt đầu được tung ra vào năm 2018, Otter nhanh chóng được bình chọn là một trong những apps được yêu thích nhất của năm 2018 cũng như 2019 bởi những cửa hàng trực tuyến lớn App Store, Google Play, v.v.

Dưới đây là video hướng dẫn sử dụng chi tiết cách sử dụng Otter. Còn bài viết này cung cấp thêm nhiều chi tiết về các ưu thế cũng như ứng dụng của công cụ vào thực tế.

Otter có thể sử dụng được trên cả máy tính và smartphones. Từ máy tính có nối mạng internet, vào trang https://otter.ai/ - đăng kí hoặc đăng nhập. Từ điện thoại, bạn tải ứng dụng về từ App Store (cho các máy chạy trên hệ điều hành iOS) và từ Google Play (cho các máy chạy trên hệ điều hành Android). Nếu bạn đã đăng kí trên web, bạn có thể dùng tài khoản đó để đăng nhập vào ứng dụng từ điện thoại. Các files trên Otter thu được từ trên 2 thiết bị (máy tính + điện thoại) có thể đồng bộ với nhau khi bạn dùng chung một tài khoản để đăng nhập.

Sau đây là các ưu thế của Otter làm nó trở thành một ứng dụng được yêu thích nhất cả 2 năm 2018 và 2019 bởi người dùng nói tiếng Anh hoặc cần tiếng Anh trong công việc trên toàn thế giới.

Người dùng có thể trực tiếp thu giọng nói của một người hoặc một nhóm người đang thảo luận trước màn hình máy tính bằng cách bấm nút Start recording. Khi bạn nhấn vào biểu tượng micro khi Otter đang mở trên điện thoại, Otter có chức năng như một thiết bị thu âm. Sự khác biệt nằm ở việc song song với việc thu âm (trên cả hai thiết bị), Otter đồng thời chuyển giọng nói thu được thành văn bản viết luôn. Điều đó có nghĩa người dùng nói đến đâu, chữ viết hiện lên trên màn hình tới đó.

Ngoài việc thu âm + chép lại giọng nói trực tiếp ra, Otter còn chuyển giọng nói từ files âm thanh hoặc file video tải lên từ máy tính thành văn bản viết (vào Import Audio/Video). Một lần tôi gặp khó khăn trong việc tải file âm thanh lên ứng dụng, tôi đã bật to recording trên điện thoại, để loa ngoài, đặt điện thoại trước giao diện web đang kích hoạt thu âm của Otter trên laptop, Otter vẫn nhận dạng + thu + chép lại giọng nói từ recording bình thường như thu giọng nói trực tiếp. Tích hợp Voice typing của Google Docs không có tính năng này dù cũng có thể chuyển giọng nói thành văn bản viết với độ chính xác cao.

Tiến một bước xa hơn so với công việc một người máy có thể làm, Otter không những chuyển tiếng nói thành chữ viết mà còn tự đánh dấu câu với độ chính xác cao. Đây là sự khác biệt giữa Otter với tính năng Voice typing của Google Docs. Google Docs chỉ ngắt câu khi nhận được "lệnh" từ bạn. Tuy tích hợp Voice typing của Google Docs chuyên sâu hơn về chỉnh sửa biên tập văn bản, những gì Otter có thể làm với đánh dấu câu đủ để viết những ghi chép nhanh, ví dụ như cho một cuộc họp. Với những văn bản cho nghiên cứu, người dùng cần dùng nhiều thời gian sửa ngắt câu tùy theo yêu cầu phân tích dữ liệu cho nghiên cứu của mình.

Mạnh hơn nữa, Otter cho phép chuyển giọng nói của nhiều giọng cùng một lúc và thậm chí còn có thể phân biệt được giọng nói của từng người. Sau khi ghi âm xong một bài giảng hoặc một đoạn phỏng vấn, bạn mở file ghi âm ra, sẽ thấy Otter gắn tên mặc định cho các giọng nói khác nhau là Speaker 1, Speaker 2, v.v. Sau đó bạn có thể gắn tên cho từng speaker nếu bạn biết rõ tên của họ hoặc đặt tên cho từng speaker theo ý tưởng của bạn. Otter còn biểu thị cả mốc thời gian (time stamp) cho từng phân đoạn nói của mỗi speaker như minh họa dưới đây.

Hơn nữa, Otter còn có khả năng ghi nhớ được những giọng nói được ghi lại nhiều lần. Nếu một lần bạn gắn tên A cho một speaker có tần xuất nói liên tục trong 1 file ghi âm của bạn, lần sau cũng speaker đó xuất hiện, Otter sẽ tự động gắn tên người đó vào phần hội thoại của họ trong quá trình chép lại giọng nói. Otter còn cho phép chủ tài khoản ghi một đoạn mẫu giọng của mình (Vào Account settings - Teach Otter your voice - Ấn vào biểu tượng Micro và nói để ghi lại giọng mẫu của bạn) để Otter làm quen với giọng nói của bạn và vì vậy mà quá trình nhận dạng giọng nói diễn ra nhanh hơn.

Một ưu điểm nữa là bạn có thể vừa nghe lại vừa chỉnh sửa các đoạn scripts đã được Otter chép lại. Khi chọn (cụm) từ Otter nghe nhầm, nhấn vào Edit (biểu tượng chiếc bút) trong bảng menu hiện lên như hình minh họa bên dưới, khi sửa xong nhấn Done. Tương tự, người dùng còn có thể Copy hoặc Highlight (biểu tượng chiếc bút với dòng kẻ ở dưới) những đoạn quan trọng. Trong khi đang nghe kiểm tra, nếu muốn nghe lại một đoạn vừa nghe, bạn chỉ cần đặt con trỏ vào đầu đoạn đó rồi nháy đúp chuột hoặc ấn Play.

Cũng theo Menu chỉnh sửa trong hình minh họa trên, người dùng có thể chia sẻ nội dung đang thảo luận lên các mạng xã hội phổ biến nhất như Twitter, Facebook và LinkedIn. Khi bạn bấm vào biểu tượng máy ảnh, Otter cho phép bạn tải những tấm hình minh họa cho nội dung đang được ghi/chép lại. Nếu bạn đang ghi âm trên smart phone, bạn có thể chụp hình khi quá trình ghi âm đang diễn ra, Otter sẽ tự động tải bức hình vào ngay dưới phần nội dung đang được ghi lại và chép ra.

Nếu bạn chia sẻ với một cá nhân hoặc một nhóm , bạn có thể lựa chọn hoặc trao quyền chỉnh sửa hoặc chỉ trao quyền xem. Người được chia sẻ cũng phải có tài khoản Otter và nếu họ nghe lại và chỉnh sửa văn bản đó thì mọi thay đổi sẽ được đồng bộ hóa trên file trong account của bạn.

Ưu điểm cuối cùng và vô cùng quan trọng là Otter cho người dùng cá nhân 10 TIẾNG MIỄN PHÍ một tháng. Nếu bạn cần dùng nhiều hơn 10 tiếng đồng hồ mỗi tháng hoặc cần tài khoản nhóm thì sẽ phải trả một mức phí hợp lí. Trong mọi tình huống Otter đảm bảo mọi thông tin bạn upload lên ứng dụng đều được an toàn về bảo mật.

Những ưu thế vượt trội trên đã khiến Otter được ứng dụng rộng rãi bởi các nhân viên văn phòng, các doanh nghiệp, các nhà nghiên cứu, và giáo viên sinh viên ở các nước nói tiếng Anh và dùng tiếng Anh trong công việc, học tập. Cụ thể là trong những trường hợp như thế nào?

Trong nghiên cứu

Hãy dùng Otter để transcribe (chép lại thành văn bản viết) các files ghi âm ghi hình của bạn nếu bạn thu thập dữ liệu từ người nói tiếng Anh. Người viết bài này có thể đã tiết kiệm được rất rất nhiều thời gian và tiền bạc nếu biết về ứng dụng này sớm hơn - đúng hơn là nếu ứng dụng này ra đời sớm hơn :)). Chỉ riêng 2016 tôi cần phân tích 20 files ghi âm các cuộc hội thoại của 4 nhóm giáo viên bản ngữ thảo luận thiết kế khóa học online của họ qua 5 tuần. Mỗi file ghi âm trung bình 30 phút. Vì là thảo luận nhóm nên mỗi lần transcribe tôi phải tốn rất nhiều thời gian thao tác "phân vai" ai nói gì vào thời điểm nào. Tổng cộng tôi đã mất khoảng 2 tháng làm việc liên tục (8 tiếng mỗi ngày) tự nghe đi nghe lại và chép xuống lời của từng người một. Nếu lúc đó có Otter thì Otter "lo" hết từ việc chuyển giọng nói thành chữ viết đến việc nhận dạng ai nói gì rồi đánh dấu mốc thời gian. Việc nghe lại và chỉnh sửa sẽ chỉ cần còn khoảng 1/5-1/4 thời gian. (Các dịch vụ transcribe chắc là "ghét" Otter lắm đây :) hoặc là không bởi họ cũng dùng được Otter để công việc của họ được hiệu quả hơn :) !!!) Sau đó tôi còn có 6 cuộc phỏng vấn, mỗi cuộc 30 phút đến 1 tiếng nữa. Khối lượng công việc tương tự - chuẩn bị data trước khi phân tích - của 2017-2018 thậm chí còn nhiều gấp đôi gấp ba vậy mà không có Otter huhu...

Dùng Otter để trực tiếp thu âm các cuộc phỏng vấn. Làm như vậy, bạn đã tiết kiệm được hẳn một bước trước khi phân tích dữ liệu: Đó là transcribing. Bạn có thể tự nghe lại và kiểm tra ngay sau đó đồng thời có thể lưu cả file âm thanh và văn bản viết.

Trong khi phân tích dữ liệu, nhiều lúc có nhiều ý tưởng ào ạt đến cùng một lúc đánh máy không kịp, bạn có thể nói to lên dòng suy nghĩ của mình để Otter ghi lại. Sau đó bạn có thể sắp xếp lại ý, thêm thắt vào thành các đoạn văn hoàn chỉnh.

Trong học tập

Nếu là sinh viên nghiên cứu, bạn hãy tận dụng Otter để ghi âm các cuộc họp với sup (supervisors - thầy/cô hướng dẫn) hoặc các cuộc hội thảo với chủ đề bạn quan tâm. Tôi vẫn luôn duy trì thói quen ghi âm lại những lần gặp mặt với sup dù đã vừa họp vừa ghi chép ngắn gọn (take notes) để về nhà có thể nghe lại và hoàn thiện những ghi chép đó. Việc nghe lại rất mất thời gian đặc biệt là khi bạn không định vị được điều thầy/cô nói ở đoạn nào trên recording. Tuy biết đến Otter muộn nhưng tôi không "ân hận" vì bây giờ trong mỗi cuộc họp tôi chỉ tập trung vào lắng nghe và tranh luận kiến giải. Về mở Otter ra, chỉ việc nhìn qua notes rồi copy paste những chỗ cần thiết là có được những ghi chép chính xác và hoàn hảo. Thậm chí tôi còn "túm" được những chỗ không rõ ràng hoặc bị lướt nhanh qua để hỏi lại sup.

Nếu là sinh viên thường xuyên phải dự các lectures bằng tiếng Anh, bạn có thể nhờ Otter nghe và ghi-chép lại bài giảng. Việc nghe lại và kiểm tra notes là một lần "học" nữa và ghi nhớ kiến thức. Bạn có thể chụp ảnh slides để chèn vào giữa những lời giải thích của thầy cô.

Nếu bạn là sinh viên chuyên hoặc không chuyên ngành tiếng Anh, Otter có thể giúp bạn nghe và ghi lại các đoạn file âm thanh hoặc video "khó nhằn". Hoặc đơn giản chỉ vì bạn muốn có scripts của đoạn recording đó để vừa nghe vừa nhìn lại vừa nhắc theo.

Trong giảng dạy

Để tiết kiệm thời gian, các thầy cô có thể "nhờ" Otter transcribe một file âm thanh/video thú vị không có sẵn scripts, rồi biến scripts thành một bài đọc hiểu. Hoặc dựa trên scripts để thiết kế bài Nghe hiểu bám vào file âm thanh/video đó. Các thầy cô dạy Dịch có thể dễ dàng biến một bài dịch nói thành một bài dịch viết nhờ Otter chuyển file âm thanh thành văn bản viết.

Otter là một trợ thủ đắc lực giúp ghi chép khi các thầy cô đi tham dự hội thảo bởi các chuyên gia nước ngoài. Đừng quên chụp hình các slides quan trọng để Otter giúp chèn ảnh minh họa cho các phần khác nhau của bài nói nhé các thầy cô.

Trong các công việc khác

Các nhà quản lí, thư kí, doanh nhân, v.v. thường xuyên phải tiếp xúc, nói chuyện, hoặc họp với người nói tiếng Anh có thể dùng Otter để ghi-chép lại nội dung cuộc nói chuyện. Không rõ đoạn nào có thể nghe-kiểm tra lại nếu không có cơ hội hỏi tại chỗ. Nếu bạn gặp nhiều người trong một buổi sáng, bạn có thể chụp ảnh họ trước mỗi lần ghi âm để có thể lồng khuôn mặt người nói vào đoạn ghi âm tương ứng.

Các công ty mở dịch vụ transcribe có thể tận dụng Otter để rút ngắn thời gian nghe + chép lại, đồng thời tăng hiệu quả làm việc lên gấp nhiều lần.

Các bạn có thể tham khảo bài viết về ứng dụng của tích hợp Voice typing, một dạng Speech to Text tương tự, trên Google Docs ở link NÀY để tìm thêm nhiều ứng dụng khác bạn có thể vừa dùng với Otter vừa dùng với Voice typing của Google Docs.

Hiện giờ Otter chỉ support tiếng Anh, nhưng tôi có một niềm tin là với sự phát triển mạnh mẽ của công nghệ ngày nay, việc Otter support các ngôn ngữ khác bao gồm cả tiếng Việt chỉ là một sớm một chiều. :) Chỉ trong 4 tháng sử dụng Otter (tháng 1 đến tháng 5 2019), tôi đã chứng kiến Otter liên tục nâng cấp, thêm các chi tiết mới tính năng mới nhằm phục vụ người dùng tốt nhất.

Còn ứng dụng nào khác của Otter bạn có thể nghĩ ra nữa không? Hãy chia sẻ thêm cho mình và các bạn đọc khác biết với nhé! Và hãy chia sẻ bài viết này tới bất kì ai mà bạn cho rằng cần ứng dụng này trong cuộc sống của họ. Cảm ơn các bạn.

Nguồn: ICT in Education - Ứng dụng Công nghệ Thông tin vào Giảng dạy Học tập