NHỮNG BÍ MẬT VỀ HỆ THỐNG ĐỀ XUẤT PHIM NETFLIX
Netflix chia dữ liệu người xem thành hơn 2,000 nhóm sở thích và khẩu vị. Và dựa vào sự kết hợp của hơn 2000 nhóm sở thích này, hệ thống gợi ý phim Netflix sẽ gợi ý những bộ phim hoàn toàn hợp ý với bạn.
Đây là bài viết mình đã viết cách đây hơn 3 năm khi đang trong mùa dịch Covid 19 và xem rất nhiều phim. Do viết trên website riêng nên chắc chắn một điều bài viết này sẽ không được nhiều người đọc bằng trên đây. Nên mình nghĩ cứ sharing là hạnh phúc. Hy vọng bạn đọc đón nhận
1. Tổng quan
Bạn có biết rằng, hệ thống đề xuất phim Netflix sẽ đề xuất nhưng bộ phim gợi ý dựa trên sở thích và khẩu vị của bạn.
Ở đây theo thuật ngữ chuyên môn thì ta gọi là “Taste”. Mình thì thích gọi là khẩu vị hơn, vì khẩu vị bao gồm nhiều yếu tố bên trong và nó có tính cá nhân hóa.
Netflix chia dữ liệu người xem thành hơn 2,000 nhóm sở thích và khẩu vị. Và dựa vào sự kết hợp của hơn 2000 nhóm sở thích này, hệ thống gợi ý phim Netflix sẽ gợi ý những bộ phim hoàn toàn hợp ý với bạn.
Và bạn biết không? Hơn 80% chương trình truyền hình mà mọi người xem trên Netflix là kết quả của sự gợi ý từ hệ thống đề xuất phim của Netflix.
Vậy hệ thống đề xuất phim của Netflix chứa gì bên trong mà có thể tối ưu như vậy? Chúng ta sẽ cùng theo dõi tiếp ở phía dưới.
2. HỆ THỐNG ĐỀ XUẤT PHIM CỦA NETFLIX CHÚNG HOẠT ĐỘNG NHƯ THẾ NÀO NẾU HIỂU THEO MỘT CÁCH ĐƠN GIẢN?
Netflix sử dụng máy học (machine learning) và thuật toán để khuyến khích người xem có thể xem những chương trình mà người xem có thể thích, hay những chương trình hay bộ phim này hoàn toàn không hề hiện diện trong đầu họ khi ở trước màn hình tivi hay là dự định của họ gần đây. Tuy nhiên, khi đã thử xem một vài bộ phim, họ cảm giác bộ phim này rất hợp với mình. Vậy tại sao?
Hay như người xem A chỉ thích xem phim hài, chưa bao giờ xem phim trinh thám. Tuy nhiên Netflix vẫn có thể gợi ý một bộ phim trinh thám nào đó mà sau khi xem xong, người xem A chỉ biết trầm trồ khen ngợi mà thôi. Làm sao để phá bỏ rào cản đó? Đó chính là công việc mà máy học và thuật toán vận hành.
3. VẬY THUẬT TOÁN LÀ GÌ?
Tạm hiểu một cách đơn giản thì thuật toán là một quy trình hoặc tập hợp các quy tắc được tuân theo trong một hoạt động để giải quyết vấn đề.
Hệ thống cũng khuyến nghị không bao gồm thông tin nhân khẩu học (chẳng hạn như tuổi hoặc giới tính) như một phần của quá trình ra quyết định.
Khi bạn nhập một truy vấn tìm kiếm, các kết quả hàng đầu mà Netflix trả về dựa trên hành động của các thành viên khác có cùng khẩu vị (taste) đã nhập các truy vấn giống nhau hoặc tương tự.
Tin mình đi, càng sử dụng Netflix càng lâu thì bộ máy học dữ liệu sẽ ngày càng học tốt hơn và trả về cho bạn kết quả tốt hơn.
4. HỆ THỐNG ĐỀ XUẤT “JUMP STARTING” – MÌNH TẠM GỌI LÀ BƯỚC NHẢY KHỞI ĐẦU
Khi bạn tạo tài khoản Netflix hoặc thêm hồ sơ mới trong tài khoản của mình, Netflix yêu cầu bạn chọn một vài tựa phim mà bạn thích.
Netflix sử dụng các tiêu đề này để “bắt đầu” các đề xuất của bạn. Nếu bạn chọn bỏ qua bước này thì chúng tôi sẽ bắt đầu với bạn với một bộ tiêu đề đa dạng và phổ biến để giúp bạn tiếp tục. Hệ thống này còn được áp dụng với các dịch vụ hay ứng dụng khác để phá bỏ rào cản sử dụng sản phẩm.
Vậy tại sao việc chọn tiêu đề phim mà bạn muốn xem lại có thể đưa ra gợi ý chính xác hơn?
Đó là vì khi bạn chọn một bộ phim bạn muốn xem, Netflix sẽ gợi ý cho bạn những phim mà các thành viên khác có cùng khẩu vị phim của bạn (taste) – phần này sẽ được phân tích ở phía sau.
Và khi bạn bắt đầu xem, thì các đề xuất mới sẽ bắt đầu được thay thế một cách chuẩn xác hơn
Ngoài việc chọn tiêu đề lúc mới đầu đăng ký để đưa các gợi ý khởi đầu trên trang chủ Netflix của bạn, hệ thống của Netflix cũng xếp hạng từng tiêu đề trong hàng và sau đó tự xếp hạng các hàng, sử dụng các thuật toán và hệ thống phức tạp để cung cấp trải nghiệm được cá nhân hóa.
Nói cách khác, khi bạn nhìn vào trang chủ Netflix của mình, hệ thống của Netflix đã xếp hạng các tựa phim theo cách được thiết kế để trình bày thứ tự tốt nhất từ cao tới thấp.
Còn khi bạn kéo hoài không biết chọn phim nào thì xin chia buồn với bạn, Hệ thống gợi ý phim vẫn chưa hiểu được bạn hoặc là bạn bấm rê chuột dưới để tìm phim như một thói quen.
Trong mỗi hàng đều có ba lớp cá nhân hóa như:
Tiếp tục xem những bộ phim của bạnTop phim thịnh hành,Phim hài đoạt giảiXếp hạng theo rating
Cho nên: Top phim hay nhất mà hệ thống có thể đề xuất tốt nhất luôn là:
Từ trên xuống dướiTừ trái qua phải
Trừ một số ngôn ngữ có quy tắc đọc khác như tiếng Hoa, Ả Rập hoặc tiếng Do Thái chẳng hạn.
Vậy làm sao để hệ thống đề xuất phim Netflix ngày một tốt hơn?
Sau mỗi lần truy cập, Netflix sẽ lấy dữ liệu của bạn để tiếp tục dạy cho máy học của mình để cải thiện chính xác nhất
5. HỆ THỐNG ĐỀ XUẤT PHIM CỦA NETFLIX ĐƯỢC VÍ NHƯ MỘT CHIẾC GHẾ BA CHÂN VỮNG CHẮC
Todd Yellin, phó chủ tịch phụ trách sáng tạo sản phẩm của Netflix đã giải thích một cách dễ hiểu hơn rằng:
“Bạn hãy tưởng tượng hệ thống gợi ý phim này như một cái ghế vững chắc gồm 3 chân.
Dữ liệu của các thành viên đăng ký coi NetflixTagges: Người hiểu mọi thứ về nội dungThuật toán & máy học
Và tất cả dữ liệu và kết hợp mọi thứ lại với nhau. ”
5.1 DỮ LIỆU CỦA CÁC THÀNH VIÊN ĐĂNG KÝ COI NETFLIX
Mặc dù Netflix có hơn 100 triệu người dùng trên toàn thế giới, nhưng nếu ta tính một cách bình quân răng một tài khoản có 4 người dùng chung và chia sẻ (4 profile) thì ước tính có khoảng khoảng 250 triệu người (250 triệu profile) đang hoạt động thường xuyên. Một big data khổng lồ !!!
Cái mà chúng ta thấy từ các dữ liệu trong hồ sơ này như sau
Lịch sử xem phim của bạn:Những gì bạn xem hôm nay, ngày mai, năm ngoái và cách thức bạn xếp hạng phim ở mục ReviewsTiêu đề, danh mục phim, diễn viên, năm phát hành, thể loại phimThời gian xem phim, buổi sáng hay buổi tối, xem bao nhiêu giờ trong tuầnCác thành viên khác có cùng sở thích và sở thích về dịch vụ của chúng tôi, vàThông tin về tiêu đề, chẳng hạn như thể loại, danh mục, tên diễn viên, năm phát hành, v.v.
Ngoài những dữ liệu căn bản trên, để cá nhân hóa tốt nhất các đề xuất, Netflix cũng xem xét những thứ như:
Thời gian trong ngày bạn xem,Các thiết bị bạn đang xem Netflix và bạn xem trong bao lâu chẳng hạn
5.2 TAGGERS
Đây là team được tập hợp từ hàng chục nhân viên trong công ty và cũng có freelancer, những người này có nhiệm vụ xem mọi tập phim với đủ mọi thể loại để phân loại thẻ dữ liệu – Ta có thể tạm gọi công việc này là gắn Tag.Các thẻ Tag mà họ sử dụng trong việc phân loại dữ liệu rất đa dạng, từ chiều sâu của tác phẩm, bối cảnh tác phẩm, hay là trong phim có xuất hiện anh chàng cảnh sát hay không?Thông tin này sau đó được kết hợp với nhiều dữ liệu hơn nhằm mục đích tìm hiểu nội dung của các chương trình.
5.3. THUẬT TOÁN
Netflix lấy tất cả những thẻ tag trên và hành vi của toàn bộ 200 triệu người dùng thường xuyên, sau đó áp vào những thuật toán phức tạp để tìm ra yếu tố nào là quan trọng nhất, nên cân nhắc thay đổi điều gì tiếp theo để hệ thống ngày càng được tối ưu.Các thuật toán này sẽ phân tích dữ liệu ờ mọi khía cạnh như: So sánh giờ xem của năm nay với năm ngoái của bạn, bạn xem phim này 10 phút hay bấm nút next liên tục, hay là đêm nào bạn cũng xem chương trình này. Làm sao để cân bằng mọi thứ trong hệ thống.Đó chính là lúc mà công nghệ máy học ra đời (Machine Learning)
6.TASTE COMMUNICATE
Ba thứ kể trên sẽ tạo ra cho chúng ta những “Taste communities” – ta tạm gọi là cộng đồng có những sở thích, khẩu vị giống nhau, những người xem cùng loại nội dung mà bạn đang xem.Mỗi người xem sẽ phù hợp với nhiều nhóm sở thích, khẩu vị xem phim khác nhau (taste) – thậm chí có thể lên đến “vài nghìn khẩu vị” – và chính những nhóm này ảnh hưởng đến những đề xuất nào bật lên đầu giao diện trên màn hình của bạn và tất nhiên, chúng được cá nhân hóa đề xuất.Các thẻ tag nhìn chung được áp dụng cho các thuật toán và cho công nghệ máy học giống nhau. Tuy nhiên, một nhóm thẻ tag được sử dụng theo cách linh động hơn, và được địa phương hóa dựa vào giao diện người dùng, quốc gia, ngôn ngữ và bối cảnh văn hóa.
7. DỮ LIỆU MÀ ĐƯỢC CUNG CẤP CHO HỆ THỐNG ĐỀ XUẤT PHIM NETFLIX CÓ MẤY LOẠI?
Dữ liệu mà Netflix cung cấp cho các thuật toán của nó có thể được chia thành hai loại:
7.1 Dữ liệu rõ ràng (Explicit data)
Dữ liệu rõ ràng là dạng dữ liệu kiểu như: Tôi hay xem phim Hàn Quốc dài tập, tôi hay xem những bộ phim có Huyn Bin đóng, tập mới ra nào của Hàn Quốc tôi cũng xem hết, thể loại phim tình cảm gây cấn,…Netflix sẽ gợi ý cho bạn Series phim Hạ Cánh Nơi Anh chẳng hạn thông qua dữ liệu từ trước tới giờ bạn xem như trên.
7.2 Dữ liệu ẩn (implicit data)
Dữ liệu Ẩn là dạng máy học sẽ phải phân tích dữ liệu của bạn thông qua hành vi chứ bạn không nói rõ ràng là Tôi thích soái ca Huyn Bin như điên như dại. Hành vi của bạn có thể là sẵn sàng bỏ 2 đêm để cày hết một seriers phim chẳng hạn. Phần lớn dữ liệu ẩn là dữ liệu cực kỳ có ích cho việc phân tích.
Bài viết được tổng hợp dựa theo sự hiểu biết của tác giả và có tham khảo trên các trang:
Khoa học - Công nghệ
/khoa-hoc-cong-nghe
Bài viết nổi bật khác
- Hot nhất
- Mới nhất