更快更強的YOLO目標檢測系統: YOLO9000

Topic:  YOLO9000: better, faster, stronger

Dosudo deep learning newsletter #4

Editor:  George.Wu

Resources:   Paper link     Github     video

label:    Video object detection

2017  CVPR honor paper

在大規模的影像目標檢測上, 訴求是能快速準確的識別物體, 而且也希望能識別的物體種類越多越好. 一些之前經典的算法包括Deformable parts models(DPM)[1]以及基於CNN的video object detection 包括RCNN [2], Fast-RCNN [3], Faster-RCNN[4], 以及端對端的YOLO[5].  YOLO的最大優勢就是速度而核心思想就是直接用整張圖當作輸入. 首先它將一幅圖像分成SxS個網格(cell), 如果物體中心落在某網格內則用這網格負責檢測這物體. 然後將object detection問題視為回歸問題, 利用CNN預測bounding boxes座標和概率. 

Continue reading “更快更強的YOLO目標檢測系統: YOLO9000”

Polygon-RNN: 比圖像語義分割更快的半自動圖像標註

Topic: Annotating Object Instances with a Polygon-RNN

Dosudo deep learning newsletter #4

Editor:  George.Wu

Resources:     Paper link     Github     Video   

label:    Semantic segmentation  

2017  CVPR honor paper

當前在圖像處理中的Semantic image segmentation 以及object instance segmentation都是以pixel 像素級為單位近進行標注. 而來自多倫多大學的研究團隊將這問題轉化成在圖片中的多邊形位置預測問題. 這方法稱為 Polygon-RNN. 目標是希望這方法能加速過程並且得到與使用神經網路一樣準確的結果. 當使用者在圖像中框出目標框, Polygon-RNN將會依序生成多邊形的邊把圖像中的物體圍起來. 在這過程中使用者也可以手動參與進行標注.

Continue reading “Polygon-RNN: 比圖像語義分割更快的半自動圖像標註”

通過對抗訓練從模擬與無監督圖像中學習

Topic: Learning from simulated and unsupervised images through adversarial training

Dosudo deep learning newsletter #4

Editor:  George.Wu

Resources:    Paper link     Github1      Github2

label:    Weak supervision,   Adversarial learning

2017  CVPR best paper

作為頻果AI team 的第一篇公開發佈的paper, Learning from Simulated and Unsupervised Images through Adversarial Training (通過對抗訓練從模擬與無監督圖像中學習) 拿到了2017 CVPR的最佳paper. 深度學習圖像處理領域通常需要大量標示過的圖像進行訓練, 而過去這工作需要耗費大量的人力進行標注. 而另外一種替代方式就是用模式生成圖片(合成圖片synthetic images)當作訓練資料. 但傳統的合成圖片和真實圖片還是有差異, 這樣會造成用合成圖片訓練的模型效果降低很難應用到真實場景.

Continue reading “通過對抗訓練從模擬與無監督圖像中學習”