Ngành khoa học dữ liệu đang ảnh hưởng mạnh mẽ đến mọi lĩnh vực trong cuộc sống, đặc biệt là ứng dụng của Data-Driven Decision Making (ra quyết định dựa trên dữ liệu), ví dụ như chọn quán ăn dựa theo rate và review ở trên Foody và Now. Hôm nay mình sẽ phân tích về du lịch Việt Nam thông qua dữ liệu từ website Gody - trang mạng xã hội du lịch mới nổi trong thời gian gần đây. Và qua đó, bạn có thể thử ứng dụng Data-Driven Decision Making cho những chuyến du lịch sắp tới.

Hội An

I. Bản đồ dữ liệu về du lịch Việt Nam

Phần này mình sẽ vẽ 2 bản đồ các tỉnh thành Việt Nam dựa vào 2 metrics là sự phổ biến và sự yêu thích, sự phổ biến là số lượng du khách và sự yêu thích là trung bình có trọng số của rating tất cả các địa danh tham quan trong mỗi tỉnh (địa điểm càng nhiều lượt tham quan thì trọng số càng cao).
15 tỉnh có nhiều du khách nhất
15 tỉnh được du khách yêu thích nhất


















Đối với bản đồ bên trái về số lượng du khách tham quan, chúng ta có thể thấy du lịch ở miền Nam phát triển rất mạnh khi có đến 7 tỉnh trong top 15. Miền Bắc ngoài thủ đô Hà Nội ra có Quảng Ninh, Hải Phòng và Ninh Bình - đều là những địa điểm du lịch đã nổi tiếng bao lâu nay. Miền Trung thì có sự phân hóa rõ rệt khi du khách chủ yếu đến Đà Nẵng, Huế và Quảng Nam, các tỉnh còn lại gần như lượng khách tham quan không đáng kể.
Nhưng ở một góc nhìn khác, nằm ở bản đồ bên phải về sự yêu thích của du khách, thì các tỉnh ở miền Bắc và miền Trung lại đang thắng thế. Tỉnh được yêu thích nhất là Quảng Trị và Nghệ An, với những rate rất cao đến từ các bãi biển đẹp và địa danh lịch sử thời chống Mỹ. Nhưng nên nhớ một địa điểm du lịch hấp dẫn phải hội tụ được hai yếu tố lượt khách và sự yêu thích (mỗi được yêu thích là không đủ), và đó là 4 tỉnh Khánh Hòa, Quảng Nam, Đà Nẵng và Quảng Ninh. Đây là những điểm đến cực kì ok mà chúng ta nên cân nhắc cho vào list khi lên kế hoạch đi chơi xa.
Còn tỉnh ít được yêu thích nhất là Hưng Yên với các rate cực thấp đến từ quần thể di tích Phố Hiến và các đền chùa khác. Ngoài ra thì có Lạng Sơn và Thái Nguyên mặc dù có lượng du khách khá đông nhưng về rate thì cũng không hơn Hưng Yên là bao.
Biển Cửa Lò về đêm
Các tỉnh vùng núi phía Bắc có Điện Biên, Tuyên Quang và Vĩnh Phúc là những tỉnh được du khách yêu thích. Ở Điện Biên thì các di tích lịch sử trận Điện Biên Phủ không được rate cao lắm nhưng có Đèo Pha Đin với rate 4.7 gánh hộ.
Đèo Pha Đin

II. Địa danh nổi tiếng nhất ở mỗi tỉnh

Sau đây là danh sách địa điểm du lịch có nhiều lượt tham quan nhất ở mỗi tỉnh kèm theo rate. Mọi người thử xem có đúng với thực tế không nhé :))

Hầu hết các địa danh này đều là những biểu tượng du lịch của mỗi tỉnh thành, thế nên hầu hết là đều có rate cao. Mặc dù vậy, vẫn có một vài địa danh với rate thấp như Bến Ninh Kiều ở Cần Thơ, Quảng trường Đại Đoàn Kết ở Gia Lai, Ngã Ba Đồng Lộc ở Hà Tĩnh, Quần thể di tích Phố Hiến ở Hưng Yên, Chợ Đông Kinh ở Lạng Sơn, và Hồ Núi Cốc ở Thái Nguyên đều có rate ở dưới 4.

III. Top các địa điểm du lịch được yêu thích nhất ở các thành phố lớn

Phần này mình sẽ liệt kê ra các địa điểm có rate cao nhất ở 3 thành phố lớn là Hà Nội, TP HCM, Đà Nẵng và tỉnh Lâm Đồng, với điều kiện là số người check-in và rate cho địa điểm đó trên website Gody lớn hơn 200 để đảm bảo tính đại diện.

Các địa điểm được yêu thích nhất ở Hà Nội quá nửa là nằm ở khu Hồ Gươm, ngoài ra thì có Vườn quốc gia Ba Vì và Hồ Tây cũng được đánh giá cao. Ở các địa danh còn lại thì mình không có quá nhiều sự hiểu biết, nên mong các bạn độc giả comment phân tích hộ mình :))



 Kết bài

Trên đây là bài phân tích của mình về du lịch Việt Nam thông qua bộ dữ liệu từ website Gody. Mong rằng sau bài viết này, các bạn có thể đưa ra những quyết định du lịch đúng đắn với sự hỗ trợ của dữ liệu. Với những bạn muốn tham khảo cách mình xử lí data thì mình có để link Github ở phía dưới.

Các bài viết khác của tác giả:

Sắp tới mình sẽ viết thêm nhiều bài viết về khoa học dữ liệu, phân tích insight từ các bộ dữ liệu hay, và cả những chủ đề thú vị khác nữa. Nếu không muốn bỏ lỡ thì hãy follow mình nhé :))