Mối liên hệ giữa học tập phần thưởng dựa trên dopamine và học máy

Credit: Amo et al.

Nghiên cứu tâm lý học và khoa học thần kinh trong quá khứ đã nhiều lần chứng minh vai trò quan trọng của phần thưởng trong cách con người và các loài động vật khác có được những hành vi thúc đẩy sự tồn tại của chúng. Tế bào thần kinh dopaminergic, tế bào thần kinh sản xuất dopamine trong hệ thống thần kinh trung ương của động vật có vú, được biết là chịu trách nhiệm chính cho việc học tập dựa trên phần thưởng ở động vật có vú.

Các nghiên cứu đã phát hiện ra rằng khi một động vật có vú nhận được một phần thưởng bất ngờ, những tế bào thần kinh này sẽ phản ứng nhanh chóng, thông qua cái gọi là kích thích phasic. Đây là một giai đoạn kích thích ngắn nhưng mạnh xảy ra trong quá trình thích nghi nhanh chóng các thụ thể não (tức là các thụ thể phasic).

Khi động vật bắt đầu tạo ra mối liên hệ giữa phần thưởng và một kích thích hoặc tín hiệu cụ thể, các tế bào thần kinh dopamine sẽ điều chỉnh phản ứng của chúng với phần thưởng được đề cập. Đây có thể là một cơ chế tiến hóa nhằm hỗ trợ việc học tập kết hợp.

Trong những năm gần đây, các nhà khoa học máy tính đã cố gắng tái tạo nhân tạo nền tảng thần kinh của việc học bằng khen thưởng ở động vật có vú, để tạo ra các mô hình học máy hiệu quả có thể giải quyết nhiệm vụ phức tạp . Một phương pháp học máy nổi tiếng tái tạo chức năng của tế bào thần kinh dopaminergic là cái gọi là thuật toán học tập sự khác biệt theo thời gian (TD).

Các nhà nghiên cứu tại Đại học Harvard, Đại học Nagoya và Trường Y thuộc Đại học Keio gần đây đã thực hiện một nghiên cứu khám phá một khía cạnh của phương pháp tính toán học TD có thể liên quan đến cách con người học dựa trên phần thưởng. Bài báo của họ, được xuất bản trên Nature Neuroscience , có thể làm sáng tỏ cách não bộ xây dựng mối liên hệ giữa các tín hiệu và phần thưởng được phân tách theo thời gian (tức là không liên tiếp và do đó không trải qua lần lượt).

Thuật toán học TD là một loại phương pháp tiếp cận học tăng cường không yêu cầu mô hình mà có thể học cách đưa ra dự đoán dựa trên những thay đổi trong môi trường xảy ra theo các bước thời gian liên tiếp. Ngược lại với các phương pháp học máy khác, phương pháp TD có thể điều chỉnh ước tính của chúng nhiều lần trước khi tiết lộ dự đoán cuối cùng.

Trong vài năm qua, một số nghiên cứu đã làm nổi bật sự tương đồng giữa các thuật toán học TD và các tế bào thần kinh dopamine học phần thưởng trong não. Tuy nhiên, một khía cạnh cụ thể của hoạt động của thuật toán hiếm khi được xem xét trong nghiên cứu khoa học thần kinh.

"Các nghiên cứu trước đây đã thất bại trong việc quan sát dự đoán chính của thuật toán này: rằng khi một tác nhân liên kết tín hiệu và phần thưởng được tách ra kịp thời, thời gian của tín hiệu dopamine sẽ dần lùi lại theo thời gian từ thời điểm có phần thưởng đến thời điểm Ryunosuke Amo, Sara Matias, Akihiro Yamanaka, Kenji F. Tanaka, Naoshige Uchida và Mitsuko Watabe-Uchida viết trong bài báo của họ. "Chúng tôi chứng minh rằng sự thay đổi dần dần như vậy xảy ra ở cả mức độ hoạt động tế bào dopaminergic và giải phóng dopamine trong thể vân bụng ở chuột."

Trong bài báo của mình, Amo và các đồng nghiệp của ông đã xem xét kết quả của các thí nghiệm mà họ thực hiện trên những con chuột chưa qua đào tạo đang học cách liên kết các dấu hiệu mùi với phần thưởng nước. Khi các loài động vật bắt đầu kết hợp mùi cụ thể với nước tiếp nhận, chúng biểu hiện hành vi liếm cho thấy chúng đang mong đợi được nhận nước sau khi chúng chỉ ngửi thấy mùi liên quan.

Trong các thí nghiệm của họ, các nhà nghiên cứu đã cho những con chuột biết mùi trước khi thưởng và phần thưởng trong các khung thời gian khác nhau. Nói cách khác, họ đã thay đổi khoảng thời gian giữa thời điểm chuột tiếp xúc với mùi và thời điểm chúng nhận được phần thưởng là nước.

Họ phát hiện ra rằng khi phần thưởng bị trì hoãn (tức là phần thưởng được trao cho những con chuột muộn hơn so với những gì chúng đã trải qua trước đó), Các tế bào thần kinh dopamine ban đầu không hoạt động nhiều nhưng ngày càng hoạt động tích cực hơn theo thời gian. Điều này cho thấy rằng, theo quan sát trong các phương pháp học TD, thời gian của phản ứng dopamine trong não có thể thay đổi trong khi lần đầu tiên chuột học được mối liên hệ giữa mùi và phần thưởng.

Nhóm nghiên cứu cũng tiến hành các thí nghiệm sâu hơn, để kiểm tra xem liệu sự thay đổi này có xảy ra ở những động vật đã được huấn luyện để tạo ra các liên kết thưởng mùi này và trong các nhiệm vụ ngược lại hay không (tức là các nhiệm vụ mà tín hiệu và phần thưởng bị đảo ngược). Họ đã quan sát thấy sự thay đổi theo thời gian trong tín hiệu dopamine của động vật trong khoảng thời gian trì hoãn, tương tự như khi động vật học các liên kết lần đầu tiên, nhưng với tốc độ nhanh hơn.

Nhìn chung, những phát hiện được thu thập bởi Amo và các đồng nghiệp của ông làm nổi bật sự xuất hiện của sự dịch chuyển lùi về thời gian của hoạt động của dopamine trong não chuột trong suốt các thí nghiệm học tập kết hợp khác nhau. Sự thay đổi thời gian quan sát được này rất giống với các cơ chế làm nền tảng cho các phương pháp học TD.

Trong tương lai, những phát hiện do nhóm các nhà nghiên cứu này thu thập có thể mở đường cho các nghiên cứu mới điều tra sự tương đồng tiềm năng này giữa phương pháp học tập bằng phần thưởng trong não động vật có vú và phương pháp học tập tăng cường TD. Điều này có thể giúp cải thiện sự hiểu biết hiện tại về học tập có thưởng trong não, đồng thời có khả năng truyền cảm hứng cho sự phát triển hơn nữa của các thuật toán học tập TD.

Các nhà nghiên cứu viết trong bài báo của họ: "Kết quả của chúng tôi thiết lập mối liên hệ được tìm kiếm từ lâu giữa hoạt động dopaminergic và thuật toán học TD, cung cấp những hiểu biết cơ bản về cách bộ não liên kết các tín hiệu và phần thưởng được phân tách theo thời gian".

Nguồn:

Study draws new link between dopamine-based reward learning and machine learning

Past neuroscience and psychology research has repeatedly demonstrated the crucial role of rewards in how humans and other animals acquire behaviors that promote their survival. Dopaminergic neurons, neurons that produce dopamine in the mammalian central nervous system, are known to be largely responsible for reward-based learning in mammals.

medicalxpress.com