2017 Top10 CV: 目前最好的object detection模型 Mask R-CNN

Topic: Mask R-CNN

1

Editor: George Wu

Resources:  paper   中文post    Github   video

Label:   Object detection, RCNN, 

大意:

在目標檢測方面, RCNN (2014), Fast R-CNN (2015), Faster R-CNN(2016)系列是效果非常好也廣被使用的方法. 這篇論文的Mask R-CNN是這一系列的新方法, 簡單的說就是在Faster-RCNN的架構上加上Mask回歸以輸出語意分割的結果(segmentation mask). 這篇論文不但在ICCV 2017拿到最佳論文, Mask R-CNN 也在COCO 挑戰賽的三個項目都取得最佳成績包括目標檢測(object-detection), 目標分割(instance segmentation)以及人體關鍵點檢測(key point detection). 另外一點值得提的是ResNet, Faster-RCNN也都是作者Kaiming He 開發的.

Continue reading “2017 Top10 CV: 目前最好的object detection模型 Mask R-CNN”

Advertisements

打破GAN神話, 基於端對端網路的高質量圖像生成

Topic: Photographic Image Synthesis with Cascaded Refinement Networks

Dosudo deep learning newsletter #4

figure2.png

Editor:  George Wu

Resources:    原始post   中文post    Paper    Github    video

Label: Image synthesis, GAN, End-to-end, Semantic segmentation

近年來在圖像或影片生成上大部分都是利用生成對抗網路GANs, 譬如有圖像生成圖像的 iGAN [1], pix2pix[2] , 或語意生成圖像的StackGAN [3][4]等等. 但在今年的ICCV 2017 出現一篇備受矚目的直接用端對端的方式生成高質量圖像的方法. 它的原理等於是圖像的語意分割(Semantic image segmentation)的逆向操作, 從圖像的語意分割直接生成照片級圖像.

Continue reading “打破GAN神話, 基於端對端網路的高質量圖像生成”

更快更強的YOLO目標檢測系統: YOLO9000

Topic:  YOLO9000: better, faster, stronger

Dosudo deep learning newsletter #4

Editor:  George.Wu

Resources:   Paper link     Github     video

label:    Video object detection

2017  CVPR honor paper

在大規模的影像目標檢測上, 訴求是能快速準確的識別物體, 而且也希望能識別的物體種類越多越好. 一些之前經典的算法包括Deformable parts models(DPM)[1]以及基於CNN的video object detection 包括RCNN [2], Fast-RCNN [3], Faster-RCNN[4], 以及端對端的YOLO[5].  YOLO的最大優勢就是速度而核心思想就是直接用整張圖當作輸入. 首先它將一幅圖像分成SxS個網格(cell), 如果物體中心落在某網格內則用這網格負責檢測這物體. 然後將object detection問題視為回歸問題, 利用CNN預測bounding boxes座標和概率. 

Continue reading “更快更強的YOLO目標檢測系統: YOLO9000”

Polygon-RNN: 比圖像語義分割更快的半自動圖像標註

Topic: Annotating Object Instances with a Polygon-RNN

Dosudo deep learning newsletter #4

Editor:  George.Wu

Resources:     Paper link     Github     Video   

label:    Semantic segmentation  

2017  CVPR honor paper

當前在圖像處理中的Semantic image segmentation 以及object instance segmentation都是以pixel 像素級為單位近進行標注. 而來自多倫多大學的研究團隊將這問題轉化成在圖片中的多邊形位置預測問題. 這方法稱為 Polygon-RNN. 目標是希望這方法能加速過程並且得到與使用神經網路一樣準確的結果. 當使用者在圖像中框出目標框, Polygon-RNN將會依序生成多邊形的邊把圖像中的物體圍起來. 在這過程中使用者也可以手動參與進行標注.

Continue reading “Polygon-RNN: 比圖像語義分割更快的半自動圖像標註”

通過對抗訓練從模擬與無監督圖像中學習

Topic: Learning from simulated and unsupervised images through adversarial training

Dosudo deep learning newsletter #4

Editor:  George.Wu

Resources:    Paper link     Github1      Github2

label:    Weak supervision,   Adversarial learning

2017  CVPR best paper

作為頻果AI team 的第一篇公開發佈的paper, Learning from Simulated and Unsupervised Images through Adversarial Training (通過對抗訓練從模擬與無監督圖像中學習) 拿到了2017 CVPR的最佳paper. 深度學習圖像處理領域通常需要大量標示過的圖像進行訓練, 而過去這工作需要耗費大量的人力進行標注. 而另外一種替代方式就是用模式生成圖片(合成圖片synthetic images)當作訓練資料. 但傳統的合成圖片和真實圖片還是有差異, 這樣會造成用合成圖片訓練的模型效果降低很難應用到真實場景.

Continue reading “通過對抗訓練從模擬與無監督圖像中學習”

Optimizing the Latent Space of Generative Networks (GLO)

Dosudo deep learning newsletter #3

a5

Editor:   Hubert Lin

Resources:     Paper   Yann LeCun post

GAN 是近年最受關注的架構之一,同時也以極難訓練、調整而聞名,訓練困難的肇因是生成器 G (generator) 與分辨器 D (discriminator) 的訓練目標相違背,形成特殊的 saddle point optimization 問題,在訓練過程中要不斷在 generator 的「 minimize 生成結果與真實 data 的差異」與 discriminator 的「maximize 分辨是生成結果還是真實 data 的分辨能力」之間切換,因 saddle point 的不穩定性而造成訓練困難。

Continue reading “Optimizing the Latent Space of Generative Networks (GLO)”