Một số insight về Spiderum

Sau khi bị cuốn vào thế giới Spiderum, chắc đã có lần bạn tự hỏi một số câu hỏi mang tính thống kê như "Ai mới thực sự là cây bút có nhiều lượt view nhất trong top writer?", "Sự phân bổ lượt view giữa các chủ đề như thế nào?" hay "Cây viết nào tạo ra lượng content nhiều nhất, và lượng comment tương ứng ra sao (mức độ tranh luận sôi nổi của tác giả)?". Với sự cho phép của anh Việt Anh, mình có crawl dữ liệu từ Spiderum để vẽ nên một bức tranh "khá" toàn cảnh bằng các công cụ visualization. Dùng từ "khá" bởi vì Spiderum có rất nhiều chỉ số đánh giá như lượt view, upvote, số lượng comment, thời gian đọc mỗi bài viết, ... nên mình chỉ visualize một số khía cạnh mà mình cảm thấy là thú vị :))
Wordcloud bởi tất cả các tiêu đề của Spiderum ("yêu" và "học" là 2 từ xuất hiện nhiều nhất, Spiderum đúng là một cộng đồng lành mạnh dành cho giới trẻ)
Bộ dữ liệu sẽ không bao gồm các bài viết trước tháng 7/2016 cho nên sẽ có sự chênh lệch nhỏ giữa số liệu trên biểu đồ với số liệu thực tế đối với một số cây bút lão làng của Spiderum. 

I. Một số con số tổng quan

Một số con số tổng quan
Con số ấn tượng nhất là tổng thời gian độc giả dành ra cho các bài đọc. Giả sử mọi người đều đọc bài viết trong một khoảng thời gian đúng như dữ kiện thời gian đọc thì tổng cộng độc giả đã dành gần 1 thiên niên kỉ để đọc các bài viết trên spiderum (Công thức: tổng của (view * thời gian đọc) ). Tất nhiên đây chỉ là giả sử chứ thực tế thì sẽ khó mà được như thế. Và có gần 500,000 lần độc giả cảm thấy thích thú thông qua việc để lại 1 nút upvote cho bài viết. 
Số lượng bài viết theo tháng
Chúng ta có thể thấy sự phát triển của Spiderum theo tiêu chí số lượng bài viết từng tháng. Đồ thị đi lên một cách vững chắc và có sự đột biến ở đầu năm 2020, khi mà dịch COVID khiến cho các thành phố lớn phải thực hiện giãn cách xã hội, khiến cho nhiều bạn trẻ phải ở nhà và dành nhiều thời gian hơn cho Spiderum. Từ đây đặt ra một nghi vấn, có thể Spiderum là tổ chức đứng đằng sau tạo ra virus COVID-19 nhằm tăng traffic =))

II.  Một số insight về lượt view

Tổng lượt view phân bổ theo chủ đề
Top 25 writer theo tổng lượt view phân bổ theo chủ đề (màu của chủ đề giống chart ở trên) + lượt view trung bình mỗi bài viết
Note: 10 chủ đề nhiều view nhất sẽ giữ lại màu giống biểu đồ ở trên, còn lại (từ "Sáng tác" trở đi) mình chuyển thành màu xám để tiện theo dõi.
Dựa vào biểu đồ trên, chúng ta đã có ngay câu trả lời cho câu hỏi ai là cây viết có nhiều lượt view nhất trên Spiderum. Một điều đáng chú ý là chủ đề Comics chỉ có hơn 2 triệu lượt view mà một mình anh Samurice đã đóng góp đến gần 1 triệu rồi =)). Anh Samurice và anh Hùng Lý có khá nhiều điểm chung trong sự phân bổ về lượt view, hầu hết là về Comics, Game và Phim.
Quan điểm - Tranh luận là chủ đề hot nhất được khá nhiều cây viết chọn để thể hiện các quan điểm và trải nghiệm cá nhân như là anh Husky, anh Tornard và anh Limitless. Mặc dù thế thì chúng ta vẫn có thể thấy được sự đa dạng trong việc lựa chọn chủ đề của các top writer tạo nên một bảng màu pallet đầy màu sắc. 
 Còn xét về trung bình view trong số các top writer thì top 1 là chị Gấu SP với các bài viết 18+ đỉnh cao =)). Do độ dài bài viết nên mình không đưa vào nhưng nếu xét về tất cả các writer (số bài viết lớn hơn 5) thì có một số cây viết khác đạt được lượt trung bình view rất cao như là The Mighty Piggy, itskhoi và Scarlet.

III. Một số insight về Upvote

Đồ thị Histogram về số Upvote (mỗi thanh tương ứng với 16 upvote)
Dựa vào biểu đồ Histogram, có thể thấy một sự "bất bình đẳng upvote" - cũng giống như bất bình đẳng thu nhập ở xã hội chúng ta hiện đang sống, khi mà chỉ có một số nhỏ top writer với các bài viết dễ dàng đạt hàng trăm upvote, trong khi phần lớn đều mắc kẹt ở vùng 0 - 16 upvote (khoảng 68% bài viết). Chỉ cần lớn hơn 32 upvote là bài viết của bạn đã nhiều upvote hơn 83% bài viết. Và bài viết nhiều upvote nhất là Làm thế nào để tối ưu hoá việc phát triển bản thân? của tác giả Scarlet với 987 upvote.
Ngoài ra thì còn có hơn 500 bài viết có số upvote âm, phần lớn đều là những bài viết có lời văn cực đoan và áp đặt nên bị khá nhiều người đọc downvote, dẫn đến bị âm số upvote.
Một trong những bài viết bị downvote nhiều nhất

Mức độ yêu thích = Tổng Upvote / Tổng View

Tiếp theo mình sẽ tính mức độ yêu thích của các tác giả và các chủ đề với điều kiện là tổng lượt view lớn hơn 20,000 để xem ngoài yếu tố popular thể hiện qua lượt view, thì yếu tố mức độ yêu thích được tính qua công thức trên sẽ như thế nào
Top 20 tác giả được yêu thích nhất (trục bên phải là tổng view) 
Tác giả Siêu Đầu Bết và Phạm Việt Hà có chỉ số khá cao so với phần còn lại. Tất nhiên là với lượng view càng ít thì việc đạt mức độ yêu thích cao càng dễ dàng hơn. Tuy nhiên thì vẫn có 3 cây bút có lượng view lẫn chỉ số yêu thích cao là Absolutely, Trà Kha và Curly Rae Braces.
Mức độ yêu thích theo các chủ đề (trục bên phải là tổng view)
Ta có thể thấy một sự chênh lệch về chỉ số yêu thích giữa chủ đề hot và chủ đề không hot. Phải chăng là do các writer giỏi có xu hướng chọn các chủ đề view cao? Hoặc là các chủ đề kia kén người đọc nên không được upvote nhiều? (ví dụ như chủ đề Comics và Game). Tất nhiên sự chênh lệch trên không quá rõ ràng, ví dụ như chủ đề Sáng tác có lượng view rất thấp nhưng mức độ yêu thích lại khá cao.

IV. Insight về độ dài content và comment

Mình có tạo thêm một biến mới là thời gian đọc hết phần comment ước lượng bằng một mô hình hồi quy tuyến tính đơn giản dựa vào độ dài phần nội dung và phần comment
Top 20 writer đóng góp nhiều content nhất (kèm theo độ dài comment) tính bằng phút đọc
Nói về độ dài content thì top 1 là anh Hải Stark nổi tiếng với các chủ đề Phim, Game và Sách. Nói về độ dài comment, những chủ đề như Quan điểm - Tranh luận đúng như cái tên của nó tạo ra rất nhiều sự tranh luận trong phần comment, thế nên những tác giả gắn liền với Quan điểm - Tranh luận có phần comment thường dài hơn so với tác giả viết về các chủ đề khác.
Top 20 bài viết có phần comment dài nhất
Ở Spiderum, nhiều khi phần hay và thú vị nó lại nằm ở comment chứ không nằm ở content. Đọc những bài viết với comment dài và chất lượng giúp cho việc rèn luyện tư duy phản biện, suy nghĩ sâu sắc về một vấn đề, đồng thời cũng khá giải trí giống như việc lướt FB :)). Và trên đây là top 20 bài viết sôi nổi nhất với các topic hay nhưng cũng dễ gây tranh cãi. Đọc những bài viết này làm mình cảm thấy học được rất nhiều thứ, từ cả phần content lẫn comment.

V. WordCloud về Spiderum

Phần này mình sẽ liệt kê các WordCloud dựa trên các tiêu đề bài viết của 10 danh mục nhiều view nhất (dựa theo biểu đồ ở phần 2).

Quan điểm - Tranh luận

Quan điểm - Tranh luận
Vì là "Quan điểm - tranh luận" nên có nhiều từ ngữ đao to búa lớn ví dụ như "Việt Nam", "thế giới", "kinh tế", "sống", ...

Truyền cảm hứng

Truyền cảm hứng
Những keyword đậm chất truyền cảm hứng như "hạnh phúc", "sống", "học", "cuộc đời", "câu chuyện", ...

Chuyện trò - Tâm sự

Chuyện trò - Tâm sự
Mang màu sắc của một câu chuyện ngôn tình =))

Kỹ năng

Kỹ năng
Khá là nhiều anh chàng quan tâm đến kỹ năng "tán gái" :))

Science2vn

Science2vn
Rất nhiều từ khóa liên quan đến lịch sử và khoa học

Phim

Phim
Khá nhiều post liên quan đến phim Marvel, đặc biệt là Tony Stark (Iron Man)

Khoa học - Công nghệ

Science2vn
Nhiều từ khóa về công nghệ, và triết học liên quan đến Seneca và Stoicism

Sách

Sách

Comics

Comics

Game

Game


Sắp tới mình sẽ viết thêm nhiều bài viết về khoa học dữ liệu, phân tích insight từ các bộ dữ liệu hay, và cả những chủ đề thú vị khác nữa. Nếu không muốn bỏ lỡ thì hãy follow mình nhé :))
179
3310 lượt xem
179
54
54 bình luận