Topic: A simple neural network module for relational reasoning
Dosudo deep learning newsletter #4
Editor: Hubert
Resources: Paper Chinese post Github
Label: relational reasoning
在這篇 Deepmind 的論文中,目標是解決關係推理 (Relational reasoning) 的問題,如何根據輸入的非結構化數據 (例如:文字、圖像) 推理出數據內的關聯性。論文中描述了如何使用關係網絡 (RN) (Relation Networds) 進行 End-to-end training 、解決關係推理問題。
這篇 paper 將問題定義在 CLEVER dataset 與調整過的 Sort-of-CLEVER dataset 上面,要根據圖片回答一個關於照片中物體間關聯性的問題。架構上由三大 component 所組成,使用一個 CNN 與一個 LSTM 分別對圖片與文字做資訊提取,並根據提取的資訊在 RN 中進行關係推理、輸出最終推論結果。
作者提到 RN 的設計理念:希望 RN 本身就能受到約束 (constrain) ,而不需要去額外學習「關係推理」這件事,亦如 CNN 能推理出空間、位移上的不變性 (invariance) 、 RNN 本身能推理序列 (sequential) 的相依性資訊。
而下式就是 RN 最簡單的函示型態:
其中 o_i 與 o_j 代表輸入的物體 O = {o_1, …, o_n},這些是物體透過前面的 CNN 與 RNN 獲得的。在此 f 與 g 分別是多層類神經網路 (MLP) ,其中 g 的輸出即是「關係」(relation) ,而 f 是針對歸納出的關係做進一步高層次的整合。
作者認為 RN 有三大長項:
1. 直接學習推理關聯性:
如上式, RN 考量的是「所有」物件對 (pair) 之間的 relation ,這代表著 RN 並不是聚焦於推論某一特定 relation 的存在性或意義, RN學習的是綜合所有 relation ,推論所有 relation 的存在性與意涵。
2. 能非常有效率的使用資料:
RN 使用單一函式 g 學習所有的 relation ,這能使 g 不會 over-fit 到特定的物件組合的 relation 上,藉此得到更好的泛用性。此外,我們會窮舉所有物件的 relation , n 個物件會得到 n^2 個 relation 資訊,也就是 RN 在學習一筆 data 時, g 函式本身會被更新 n^2 次。
3. 接受的輸入是物件 (非常廣義的型態) ,並且不受輸入順序影響:
RN 的函式本身保證了輸入順序不會改變結果,這保證了 RN 輸出的 relation 能夠泛用地代表物件集合中的 relation 。在實驗中, RN 於 CLEVER dataset 上無論是綜合或是單項的準確率,都表現出了超越人類水平的準確率。