2017 Top10 CV: 目前最好的object detection模型 Mask R-CNN

Topic: Mask R-CNN

1

Editor: George Wu

Resources:  paper   中文post    Github   video

Label:   Object detection, RCNN, 

大意:

在目標檢測方面, RCNN (2014), Fast R-CNN (2015), Faster R-CNN(2016)系列是效果非常好也廣被使用的方法. 這篇論文的Mask R-CNN是這一系列的新方法, 簡單的說就是在Faster-RCNN的架構上加上Mask回歸以輸出語意分割的結果(segmentation mask). 這篇論文不但在ICCV 2017拿到最佳論文, Mask R-CNN 也在COCO 挑戰賽的三個項目都取得最佳成績包括目標檢測(object-detection), 目標分割(instance segmentation)以及人體關鍵點檢測(key point detection). 另外一點值得提的是ResNet, Faster-RCNN也都是作者Kaiming He 開發的.

Continue reading “2017 Top10 CV: 目前最好的object detection模型 Mask R-CNN”

打破GAN神話, 基於端對端網路的高質量圖像生成

Topic: Photographic Image Synthesis with Cascaded Refinement Networks

Dosudo deep learning newsletter #4

figure2.png

Editor:  George Wu

Resources:    原始post   中文post    Paper    Github    video

Label: Image synthesis, GAN, End-to-end, Semantic segmentation

近年來在圖像或影片生成上大部分都是利用生成對抗網路GANs, 譬如有圖像生成圖像的 iGAN [1], pix2pix[2] , 或語意生成圖像的StackGAN [3][4]等等. 但在今年的ICCV 2017 出現一篇備受矚目的直接用端對端的方式生成高質量圖像的方法. 它的原理等於是圖像的語意分割(Semantic image segmentation)的逆向操作, 從圖像的語意分割直接生成照片級圖像.

Continue reading “打破GAN神話, 基於端對端網路的高質量圖像生成”

更快更強的YOLO目標檢測系統: YOLO9000

Topic:  YOLO9000: better, faster, stronger

Dosudo deep learning newsletter #4

Editor:  George.Wu

Resources:   Paper link     Github     video

label:    Video object detection

2017  CVPR honor paper

在大規模的影像目標檢測上, 訴求是能快速準確的識別物體, 而且也希望能識別的物體種類越多越好. 一些之前經典的算法包括Deformable parts models(DPM)[1]以及基於CNN的video object detection 包括RCNN [2], Fast-RCNN [3], Faster-RCNN[4], 以及端對端的YOLO[5].  YOLO的最大優勢就是速度而核心思想就是直接用整張圖當作輸入. 首先它將一幅圖像分成SxS個網格(cell), 如果物體中心落在某網格內則用這網格負責檢測這物體. 然後將object detection問題視為回歸問題, 利用CNN預測bounding boxes座標和概率. 

Continue reading “更快更強的YOLO目標檢測系統: YOLO9000”

Polygon-RNN: 比圖像語義分割更快的半自動圖像標註

Topic: Annotating Object Instances with a Polygon-RNN

Dosudo deep learning newsletter #4

Editor:  George.Wu

Resources:     Paper link     Github     Video   

label:    Semantic segmentation  

2017  CVPR honor paper

當前在圖像處理中的Semantic image segmentation 以及object instance segmentation都是以pixel 像素級為單位近進行標注. 而來自多倫多大學的研究團隊將這問題轉化成在圖片中的多邊形位置預測問題. 這方法稱為 Polygon-RNN. 目標是希望這方法能加速過程並且得到與使用神經網路一樣準確的結果. 當使用者在圖像中框出目標框, Polygon-RNN將會依序生成多邊形的邊把圖像中的物體圍起來. 在這過程中使用者也可以手動參與進行標注.

Continue reading “Polygon-RNN: 比圖像語義分割更快的半自動圖像標註”