2017 Top10 CV: 目前最好的object detection模型 Mask R-CNN

Topic: Mask R-CNN

1

Editor: George Wu

Resources:  paper   中文post    Github   video

Label:   Object detection, RCNN, 

大意:

在目標檢測方面, RCNN (2014), Fast R-CNN (2015), Faster R-CNN(2016)系列是效果非常好也廣被使用的方法. 這篇論文的Mask R-CNN是這一系列的新方法, 簡單的說就是在Faster-RCNN的架構上加上Mask回歸以輸出語意分割的結果(segmentation mask). 這篇論文不但在ICCV 2017拿到最佳論文, Mask R-CNN 也在COCO 挑戰賽的三個項目都取得最佳成績包括目標檢測(object-detection), 目標分割(instance segmentation)以及人體關鍵點檢測(key point detection). 另外一點值得提的是ResNet, Faster-RCNN也都是作者Kaiming He 開發的.

5
Figure 1. 一些經典圖像識別相關問題的種類: 圖像分類(classification), 圖像分類及定位(classification+localization), 物體偵測(object detection), 及實例分割(instance segmentation).

從圖像識別開始談起

在深度學習的圖像處理及計算機視覺上, 從圖像上去識別物體是很廣泛的應用, 舉凡人像識別, 物體偵測到人類姿勢預估都是源自於圖像識別. 在這裡先釐清一下觀念介紹幾種常見但容易搞混的定義: 首先最簡單的就是  1. 圖像分類(classification), 就是指輸入一張圖像然後將圖像做分類. 譬如Figure 最左邊的圖就是將圖像分類成CAT. 而  2. 圖像分類及定位(classification+ localization) 則是指將圖像分類成CAT, 也在圖像上標示出目標框, 所以多了一個計算目標框的大小及位置要計算. 第三個則是  3. 物體偵測(object detection). 它可以在圖像是偵測多個的不同種類物體, 而且同時輸出個別的目標框. 至於4. 語意分割(Semantic Segmentation)則是指以像素為單位標示出物體, 或者說每個像素都會有分類的結果. 像Figure最右圖藍色輪廓內的每個像素都是DOG, 所以我們通常稱這為輸出遮罩Mask. 這裡要特別說明的是基於語意的分割又可分成兩大類, 語意分割(Semantic Segmentation)及實例分割(Instance segmentation). 差別在於Instance segmentation可以區別圖像中不同的物體, 譬如標示圖像中有兩隻DOG, 會各自有不同的遮罩. 

Faster R-CNN及Mask R-CNN架構

要介紹Mask R-CNN 就要先從Faster R-CNN(Regions with Convolutional Neural Network Features)的架構開始. 在Object detection上包含兩個問題要解決, 目標定位以及分類問題.  在這問題上Faster R-CNN先用一個RPN網路(Region proposal network)生成目標框, 作法就是將CNN輸出的特徵圖的每個點看成是一系列不同大小框(Region proposal)的中心點(Anchor point), 這每個框都會和Ground truth目標相比輸出IoU(Intersect over union)以及是否是目標. 而最後就會輸出框住圖像中object的目標框. 而接下來一步就是接上classifier. 就可以知道是什麼目標. 這就是大致上Faster R-CNN在做的事. 而Mask R-CNN就是在Faster R-CNN的架構下結合FCN做到同時輸出object-detection, instance segmentation的結果. 
3
Figure 2. Mask R-CNN 架構.
FCN(Fully Convolutional Networks)是目前做圖像語意分割Semantic Segmentation的標準做法之一. Mask R-CNN在Faster R-CNN的Region proposal目標框輸出後, 接上classifier以及FCN, 同時輸出目標檢測以及目標語意分割的結果. 也因為已經框出個別的物體, 所以這就直接達成了Instance segmentation(實例分割). 

Facebook 推出的物體偵測平台 – Detectron

上個月Facebook終於開源了他們自己的物體偵測平台 – Detection. 這也造成了不小的轟動因為Facebook的物體偵測技術可以說是業界最好 (主要得力於之前介紹的Kaiming He團隊, 目前任職於Facebook AI Research (FAIR)). 而其中一個最大的亮點就在於Mask R-CNN的開源. 除此之外Detection 還包含了RetinaNet, 以及 R-FCN, Fast R-CNN, Faster R-CNN等的開源等. 詳細的細節可以參考這裡 Detectron
6
Editor:  George.Wu
Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s