Dosudo deep learning newsletter #4
Editor: George.Wu
除了這幾篇Best paper等, 在其他sections 也有很多值得一讀的研究, 在這裡列舉:
Dosudo矽谷工程師 deep learning newsletter
https://www.facebook.com/groups/dosudo/
Editor: George.Wu
除了這幾篇Best paper等, 在其他sections 也有很多值得一讀的研究, 在這裡列舉:
Editor: George.Wu
Resources: Paper link Github video
label: Video object detection
在大規模的影像目標檢測上, 訴求是能快速準確的識別物體, 而且也希望能識別的物體種類越多越好. 一些之前經典的算法包括Deformable parts models(DPM)[1]以及基於CNN的video object detection 包括RCNN [2], Fast-RCNN [3], Faster-RCNN[4], 以及端對端的YOLO[5]. YOLO的最大優勢就是速度而核心思想就是直接用整張圖當作輸入. 首先它將一幅圖像分成SxS個網格(cell), 如果物體中心落在某網格內則用這網格負責檢測這物體. 然後將object detection問題視為回歸問題, 利用CNN預測bounding boxes座標和概率.
Editor: George.Wu
Resources: Paper link Github Video
label: Semantic segmentation
當前在圖像處理中的Semantic image segmentation 以及object instance segmentation都是以pixel 像素級為單位近進行標注. 而來自多倫多大學的研究團隊將這問題轉化成在圖片中的多邊形位置預測問題. 這方法稱為 Polygon-RNN. 目標是希望這方法能加速過程並且得到與使用神經網路一樣準確的結果. 當使用者在圖像中框出目標框, Polygon-RNN將會依序生成多邊形的邊把圖像中的物體圍起來. 在這過程中使用者也可以手動參與進行標注.
Editor: George.Wu
Resources: Paper link Github1 Github2
label: Weak supervision, Adversarial learning
作為頻果AI team 的第一篇公開發佈的paper, Learning from Simulated and Unsupervised Images through Adversarial Training (通過對抗訓練從模擬與無監督圖像中學習) 拿到了2017 CVPR的最佳paper. 深度學習圖像處理領域通常需要大量標示過的圖像進行訓練, 而過去這工作需要耗費大量的人力進行標注. 而另外一種替代方式就是用模式生成圖片(合成圖片synthetic images)當作訓練資料. 但傳統的合成圖片和真實圖片還是有差異, 這樣會造成用合成圖片訓練的模型效果降低很難應用到真實場景.