Topic: Mask R-CNN
Editor: George Wu
Resources:
Label:
大意:
Continue reading “2017 Top10 CV: 目前最好的object detection模型 Mask R-CNN”
Dosudo矽谷工程師 deep learning newsletter
https://www.facebook.com/groups/dosudo/
Editor: George Wu
Resources:
Label:
Continue reading “2017 Top10 CV: 目前最好的object detection模型 Mask R-CNN”
Editor: George Wu
Resources: 原始post 中文post Paper Github video
Label: Image synthesis, GAN, End-to-end, Semantic segmentation
近年來在圖像或影片生成上大部分都是利用生成對抗網路GANs, 譬如有圖像生成圖像的 iGAN [1], pix2pix[2] , 或語意生成圖像的StackGAN [3][4]等等. 但在今年的ICCV 2017 出現一篇備受矚目的直接用端對端的方式生成高質量圖像的方法. 它的原理等於是圖像的語意分割(Semantic image segmentation)的逆向操作, 從圖像的語意分割直接生成照片級圖像.
Editor: George.Wu
Resources: Paper link Github video
label: Video object detection
在大規模的影像目標檢測上, 訴求是能快速準確的識別物體, 而且也希望能識別的物體種類越多越好. 一些之前經典的算法包括Deformable parts models(DPM)[1]以及基於CNN的video object detection 包括RCNN [2], Fast-RCNN [3], Faster-RCNN[4], 以及端對端的YOLO[5]. YOLO的最大優勢就是速度而核心思想就是直接用整張圖當作輸入. 首先它將一幅圖像分成SxS個網格(cell), 如果物體中心落在某網格內則用這網格負責檢測這物體. 然後將object detection問題視為回歸問題, 利用CNN預測bounding boxes座標和概率.
Editor: George.Wu
Resources: Paper link Github Video
label: Semantic segmentation
當前在圖像處理中的Semantic image segmentation 以及object instance segmentation都是以pixel 像素級為單位近進行標注. 而來自多倫多大學的研究團隊將這問題轉化成在圖片中的多邊形位置預測問題. 這方法稱為 Polygon-RNN. 目標是希望這方法能加速過程並且得到與使用神經網路一樣準確的結果. 當使用者在圖像中框出目標框, Polygon-RNN將會依序生成多邊形的邊把圖像中的物體圍起來. 在這過程中使用者也可以手動參與進行標注.