Bức tranh toàn cảnh về làng nhạc Indie Việt Nam (P.2)
Nếu chưa đọc phần 1 thì các bạn có thể đọc tại đây . Phần 2 này chúng ta sẽ khám phá thêm một số khía cạnh khác...
Nếu chưa đọc phần 1 thì các bạn có thể đọc tại đây. Phần 2 này chúng ta sẽ khám phá thêm một số khía cạnh khác về làng nhạc Indie Việt Nam.
I. Giới thiệu về những features của một bài hát
Âm nhạc đối với chúng ta là một điều gì đó mang tính cảm xúc, tâm hồn, nhưng đối với một công ty công nghệ như Spotify thì các bài hát chỉ đơn thuần là những con số không hơn không kém được gọi là features. Sử dụng những features này, Spotify có thể làm được rất nhiều thứ với những thuật toán công nghệ tân tiến. Hãy cùng khám phá từng feature để có thể hiểu hơn về chủ đề này nhé.
Với mỗi feature, sẽ có 2 biểu đồ Histogram về sự phân bổ chỉ số đó trong nhóm nhạc Indie Việt Nam và âm nhạc toàn thế giới với đủ thể loại từ hơn 700,000 bài hát trong suốt 4 năm gần nhất để có được một sự so sánh tổng quan.
1. Acousticness
Là chỉ số đo lường mức độ tự tin (dao động từ 0 đến 1) về việc bài hát có phải là acoustic hay không. Trong âm nhạc, acoustic là từ dùng để chỉ loại nhạc cụ hoặc thể loại nhạc biểu diễn chỉ dùng nhạc cụ truyền thống không gắn bất kì thiết bị điện tử nào.
Phần lớn âm nhạc thế giới có tính acoustic thấp, chỉ số chủ yếu ở mức gần 0, còn đối với nhạc Indie thì tính acoustic khá cao. Thế nên đối với những bạn thích nhạc acoustic thì dòng nhạc Indie là một sự lựa chọn cực kì phù hợp.
Sự tương quan đối với các features khác:
_ Energy: Bài hát acoustic thường có tính energy thấp hơn.
_ Loudness: Bài hát acoustic thường có âm lượng nhỏ hơn.
2. Danceability
Là chỉ số thể hiện bài hát có phù hợp cho dance hay không. Mức 0 là không hề phù hợp và mức 1 là hoàn toàn phù hợp.
Hai biểu đồ này có tính tương đồng rất cao, và dạng phân phối cũng rất gần với phân phối chuẩn.
Sự tương quan đối với các features khác:
_ Valence: Bài hát có tính tích cực, vui vẻ thường phù hợp với dance hơn.
3. Energy
Là chỉ số đo lường mức độ mãnh liệt, dữ dội của bài hát (dao động từ 0 đến 1). VD như nhạc rock sẽ thường có energy cao còn nhạc cổ điển thì ngược lại.
Phần lớn âm nhạc thế giới có tính energy cao hơn nhạc Indie rất nhiều, đây là điều chúng ta có thể kết luận sau khi quan sát phân phối của 2 biểu đồ.
4. Instrumentalness
Nói nôm na là chỉ số dự đoán xem bài hát có phải là nhạc không lời hay không. Càng gần 1 thì tỉ lệ bài hát là nhạc không lời càng cao.
Hai biểu đồ này có tính tương đồng rất cao, và phân phối đều bị lệch trái nặng, nghĩa là hầu hết các bài hát đều là nhạc có lời.
5. Key
Là bộ khóa của bài hát. Các con số tương ứng với bộ khóa sử dụng Pitch Class Notation. Ví dụ, 0 = C, 1 = C#/Db, 2 = D, ...
Hai biểu đồ có phân phối khá giống nhau. Hai bộ khóa phổ biến nhất là C và G (số 0 và số 7). Bộ khóa ít dùng nhất là Eb (số 3). Các bộ khóa có dấu thăng hoặc giáng ít được sử dụng hơn.
6. Liveness
Là chỉ số dự đoán xem bài hát có phải là biểu diễn nhạc live hay không. Càng gần 1 thì tỉ lệ bài hát là nhạc live càng cao.
Hai biểu đồ này có tính tương đồng rất cao, và phân phối đều bị lệch trái nặng, nghĩa là hầu hết các bài hát đều không phải là nhạc live.
7. Loudness
Là âm lượng trung bình của bài hát được tính theo dB (dao động từ -60 dB đến 0 dB).
Hai biểu đồ này có tính tương đồng cao, đều lệch phải nhưng phân phối của phần âm nhạc thế giới cao và nhọn hơn, nghĩa là tỉ lệ bài hát có âm lượng to lớn hơn.
8. Mode
Là để chỉ âm giai của bài hát là trưởng hay thứ. Âm giai trưởng thì đại diện bởi số 1, còn âm giai thứ là số 0.
Phần lớn bài hát được sáng tác ở âm giai trưởng.
9. Speechiness
Là chỉ số thể hiện tính nói nhiều của bài hát. Càng nhiều câu nói và ít âm nhạc thì sẽ gần đến 1 (VD như talk show, audiobook hay thơ).
Hai biểu đồ này có tính tương đồng rất cao, và phân phối đều bị lệch trái nặng, điều này cũng dễ hiểu vì dữ liệu ở đây đều là bài hát chứ không phải audiobook hay podcast.
10. Tempo
Là nhịp độ của bài hát được đo bằng BPM (beats per minute).
Hai biểu đồ này có tính tương đồng rất cao, chủ yếu phân bổ xung quanh khoảng 125 BPM.
11. Valence
Là chỉ số đo mức độ tích cực của bài hát. Chỉ số càng gần 1 thì càng tích cực.
Đối với âm nhạc thế giới, thì phân phối lệch trái rất nhiều, thậm chí có một thanh rất dài thể hiện các bài hát có chỉ số tiêu cực gần như tuyệt đối. Phần lớn bài hát có tông màu buồn bã, u ám ở các mức độ nặng nhẹ khác nhau. Còn đối với nhạc Indie Việt, thì phân phối vẫn lệch trái nhưng không nhiều lắm, gần như rất ít bài hát có chỉ số tiêu cực gần mức tuyệt đối như biểu đồ trên.
II. Đồ thị về các bài hát
Một chút lý thuyết về Graph (dịch ra tiếng Việt là đồ thị mặc dù đồ thị ở tiếng Việt lại có nghĩa rộng hơn). Đồ thị là một tập các đối tượng được gọi là các đỉnh (hoặc nút) nối với nhau bởi các cạnh (hoặc cung). Cạnh có thể có hướng hoặc vô hướng. Đồ thị thường được vẽ dưới dạng một tập các điểm (các đỉnh nối với nhau bằng các đoạn thẳng (các cạnh).
Mình sẽ dựa vào các features ở phần trước để xây dựng nên một đồ thị của tất cả bài hát trong làng nhạc Indie Việt. Các bài hát là các đỉnh với độ lớn tương ứng với chỉ số popularity, và sau khi chuẩn hóa các features thì mình sẽ tính khoảng cách cosine giữa các bài hát, nếu lớn hơn 0.9 thì coi như hai bài hát đấy giống nhau và được nối với nhau bởi một đoạn thẳng. Tất nhiên giống nhau ở đây là về khía cạnh các features của Spotify, chứ không xét về mặt hòa âm phối khí - một yếu tố khác cũng cực kì quan trọng trong âm nhạc.
Những bài hát càng kết nối nhiều thì càng nằm ở giữa, ngược lại với những bài nằm ở phần rìa đồ thị. Chúng ta có top các bài hát được kết nối nhiều nhất (có nhiều bài tương đồng nhất).
Phân tích một chút bài hát đứng ở vị trí thứ nhất là "Vé đi thiên đường (một chiều)" của Ngọt, bài này có sự tương đồng lớn nhất với bài "Why don't you come?" của Mademoiselle và "Hà Nội và em" của Thái Đinh. Thử nghe ba bài hát này, ngoại trừ phần hòa âm phối khí ra, thì sẽ thấy một cảm giác khá là giống nhau.
III. Đồ thị về các nghệ sĩ
Với mỗi nghệ sĩ, Spotify có thể recommend những nghệ sĩ khác có tính tương đồng cao (khả năng cao là dựa trên tập người nghe giống nhau). Từ đây, mình sẽ xây dựng nên một đồ thị phát triển lên từ các nghệ sĩ Indie Việt, những nghệ sĩ tương đồng nhau sẽ được nối với nhau bằng một đoạn thẳng.
Vì được phát triển lên từ các nghệ sĩ Indie Việt trong danh sách phân tích nên tất nhiên họ sẽ tập trung ở phần trung tâm - là phần có nhiều kết nối nhất. Điều thú vị ở đây là các nghệ sĩ nằm gần nhau sẽ có tính chất tương tự nhau. VD như các nghệ sĩ bên trái sẽ có xu hướng hát pop ballad, phần bên dưới thì có xu hướng chơi rock, phần bên phải thì có xu hướng Rap hoặc RnB. Dưới đây là những nghệ sĩ có nhiều kết nối nhất.
IV. Những nghệ sĩ được Spotify recommend nhiều nhất
Sử dụng API thuật toán recommendation của Spotify, cho đầu vào là một nghệ sĩ, chúng ta có thể biết được 100 bài hát mà Spotify muốn recommend. Từ đây, mình có thể thống kê được là với tất cả nghệ sĩ Indie trong danh sách phân tích, thì Spotify sẽ recommend bài hát của nghệ sĩ nào nhiều nhất.
Ngọt, Cá Hồi Hoang và Trang là 3 nghệ sĩ đứng đầu trong BXH. Có 332 lần bài hát của Ngọt được recommend, tổng số bài hát được recommend là 64 nghệ sĩ * 100 bài hát là 6400, tính tỉ lệ là khoảng 5%, nghĩa là 100 bài hát được recommend trong làng nhạc Indie thì 5 bài sẽ là của Ngọt. Có một số nghệ sĩ không nằm trong danh sách phân tích nhưng vẫn được recommend rất nhiều là Nguyên Hà, Hoàng Dũng, Chillies và Vũ Cát Tường.
V. Kết bài
Trên đây là bài phân tích về làng nhạc Indie Việt Nam (P.2) thông qua dữ liệu từ Spotify. Nếu nghệ sĩ Indie yêu thích của bạn không xuất hiện ở trên, hãy đừng ngần ngại comment ở dưới để mình có thể bổ sung vào bài viết. Những bạn muốn tham khảo cách mình xử lí data thì mình có để link Github (kèm với dữ liệu) ở phía dưới.
Sắp tới mình sẽ viết thêm nhiều bài viết về khoa học dữ liệu, phân tích insight từ các bộ dữ liệu hay, và cả những chủ đề thú vị khác nữa. Nếu không muốn bỏ lỡ thì hãy follow mình nhé :))
Quan điểm - Tranh luận
/quan-diem-tranh-luan
Bài viết nổi bật khác
- Hot nhất
- Mới nhất