Polygon-RNN: 比圖像語義分割更快的半自動圖像標註

Topic: Annotating Object Instances with a Polygon-RNN

Dosudo deep learning newsletter #4

Editor:  George.Wu

Resources:     Paper link     Github     Video   

label:    Semantic segmentation  

2017  CVPR honor paper

當前在圖像處理中的Semantic image segmentation 以及object instance segmentation都是以pixel 像素級為單位近進行標注. 而來自多倫多大學的研究團隊將這問題轉化成在圖片中的多邊形位置預測問題. 這方法稱為 Polygon-RNN. 目標是希望這方法能加速過程並且得到與使用神經網路一樣準確的結果. 當使用者在圖像中框出目標框, Polygon-RNN將會依序生成多邊形的邊把圖像中的物體圍起來. 在這過程中使用者也可以手動參與進行標注.

Polygon-RNN的方法是先用改良的VGG [1] 提取特徵, 並使用一個RNN 去預測下一個多邊形節點vertex. 這個RNN 結構是兩層convolutional LSTM. 在RNN的每個時間點t, 輸入的是之前提到VGG的輸出值, 以及前兩個時間點t-1, t-2的預測的vertices, 輸出就是多邊形的下一個節點. 總結來說這裡的VGG提取了目標的邊緣特徵, 而RNN則跟蹤及預測目標多邊形的vertex.

c3_2

Reference:

[1] Chatfield, Ken, et al. “Return of the devil in the details: Delving deep into convolutional nets.” arXiv preprint arXiv:1405.3531 (2014).  Github

 

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s