Topic: The hippocampus as a predictive map
Editor: George.Wu
Label: reinforcement learning, predictive learning, long-term reward
導言:
目前深度學習模型幾乎都需要龐大的數據耗費很長的時間進行訓練來學習, 但相比之下人類能從一兩件事物就能進行有效學習. 由此可知在學習的機制及演算法上深度學習還有很大的進步空間. 日前 Geoff Hinton提到對BP演算法的不滿, 及Yann Lecun在演講多次提倡的Predictive learning都是為了改進這方面的不足. 這週DeepMind團隊在Nature Neuroscience發表的最新論文[1]就提出了基於強化學習(reinforcement learning)並結合大腦海馬體的認知地圖理論發展出來的predictive map(預測地圖), 能在學習機制上提供有效的長期反饋(long-term reward)而進行對未來的評估及決策.
因為這篇論文牽涉到比較多的神經科學背景, 也主要承襲DeepMind的前一篇強化學習論文(The successor representation in human reinforcement learning)[2], 在這裡我將分成三部分介紹這篇predictive map論文. 在第一篇我將以生物學角度介紹相關的空間神經科學理論, 第二篇則是講強化學習中的successor representation, 而在最後一篇則仔細解釋predictive map(預測地圖)是什麼.
Continue reading “DeepMind的新predictive map論文系列(1/3) – 空間神經科學”