DeepMind的新predictive map論文系列(1/3) – 空間神經科學

Topic: The hippocampus as a predictive map

Neurological-Sense-of-Place

Editor:  George.Wu

Resources:    中文post    Paper

Label:   reinforcement learning, predictive learning, long-term reward

導言:

目前深度學習模型幾乎都需要龐大的數據耗費很長的時間進行訓練來學習, 但相比之下人類能從一兩件事物就能進行有效學習. 由此可知在學習的機制及演算法上深度學習還有很大的進步空間. 日前 Geoff Hinton提到對BP演算法的不滿, 及Yann Lecun在演講多次提倡的Predictive learning都是為了改進這方面的不足. 這週DeepMind團隊在Nature Neuroscience發表的最新論文[1]就提出了基於強化學習(reinforcement learning)並結合大腦海馬體的認知地圖理論發展出來的predictive map(預測地圖), 能在學習機制上提供有效的長期反饋(long-term reward)而進行對未來的評估及決策. 

因為這篇論文牽涉到比較多的神經科學背景, 也主要承襲DeepMind的前一篇強化學習論文(The successor representation in human reinforcement learning)[2], 在這裡我將分成三部分介紹這篇predictive map論文. 在第一篇我將以生物學角度介紹相關的空間神經科學理論, 第二篇則是講強化學習中的successor representation, 而在最後一篇則仔細解釋predictive map(預測地圖)是什麼.

Continue reading “DeepMind的新predictive map論文系列(1/3) – 空間神經科學”

Advertisements

DeepMind及Blizzard 共同推出了星海爭霸2人工智慧研發環境SC2LE

Topic:  DeepMind and Blizzard open StarCraft II as an AI research environment

Dosudo deep learning newsletter #4

starcraft_deepmind.gif

Editor:  George Wu

Resources:    原始post    原始post2   中文post    Paper    Install 

Label:  Reinforcement learning

 

在去年AlphaGo Master 橫掃了人類棋壇之後, DeepMind曾經談到下一個攻克的目標就是StartCraft II. 如今DeepMind及Blizzard 共同推出了星海爭霸2 人工智慧研發環境(SC2LE, StarCraft II learning environment). SC2LE包含了

(1) Blizzard開發的Machine learning API,

(2) 供training用的遊戲紀錄replays,

(3) Deepmind開發了python 工具集PySC2, 提供了API讓使用者設計的強化學習agent能夠運行在SC2遊戲裡.

(4) 一連串的迷你遊戲環境讓使用者方便地測試.

以及一篇paper講述了在SC2LE中測試強化學習的一些成果.

Continue reading “DeepMind及Blizzard 共同推出了星海爭霸2人工智慧研發環境SC2LE”