Dosudo deep learning newsletter #4
Editor: George.Wu
除了這幾篇Best paper等, 在其他sections 也有很多值得一讀的研究, 在這裡列舉:
1. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
Label: Super-resolution, Adversarial learning
利用Generative Adversarial Network(GANs) 應用在超分辨率(super-resolution)的工作越來越多. 不過之前大多是使用MSE loss當目標函數進行優化, 但容易在細節上出現模糊. 在這裡引入perceptual loss改善這種方法, perceptual loss 由內容損失及對抗損失(GAN loss)
2. SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning
Label: Image Captioning
傳統視覺注意力(Attention model)模型多半是針對空間上, 本文提出一種能同時兼顧空間(spatial attention)及通道(channel-wise attention)的注意力模型, 並應用在Image captioning上
3. Semantic Scene Completion from a Single Depth Image
Label: Scene completion, 3D reconstruction
在本文中提出一個端對端的3D語意完成網路(SSCNet). 能直接從單張影像直接輸出3D體素及其代表的語意標籤.
4. Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation From Single and Multiple Images
Label: 3D reconstruction
在這一篇論文中作者證明僅用物體曼哈頓結構(如汽車的主軸及前後輪兩軸)結合對稱性約束即可由單張照片建立物體的三維結構. 而為了避免遮擋或噪音對三維重建干擾, 之後更加入structure from motion(SfM) 讓三維重建比之前的結果更好.
5. Look Closer to See Better, Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition
Label: Fine-grained image recognition, Attention
雖然深度學習應用在物體辨識或分類上已經很成熟, 但在某些圖像分類應用上必須區分細微的地方的差異, 這就是Fine-grained image recognition精細化物體分類. 這時圖像的細節紋理就比型態輪廓更重要. 主要的兩種方法是找重點區域(discriminative region localization)或找精細化特徵表述(fine-grained feature learning). RA-CNN 用逐步attention的方式就是用第一種方式提升細節上的辨別力.
6. Feature pyramid networks for object detection
Label: Object detection, Multi-scale
這篇主要介紹特徵金字塔網路Feature pyramid networks(FPN), 主要要解決物體辨識的多尺度問題. 因為越深的CNN網路到末端對小物體的辨識度會急劇下降. FPN的方法為在每一層的feature map 多加了不同分辨率不同語意強度的特徵, 確保能對應到不同尺寸或分辨率的物體辨識
7. Deep Reinforcement Learning-based Image Captioning with Embedding Reward
Label: Image captioning, Reinforcement learning
Google的這篇論文結合強化學習訓練Image captioning. 利用策略網路(Policy Network)評估當前狀態產生下一個單詞分佈, 價值網路(Value Network)評價目前狀態下的結果. 並定義一個基於Embedding reward的目標函數進行強化學習訓練.
8. Recurrent 3D Pose Sequence Machines
Label: 3D pose
和2D的物體偵測及人臉辨識等技術比起來, 3D的物體或動作因為受到不同角度, 不同外觀以及視線阻擋或模糊性等等所以技術上難度又更高. 這篇研究提出循環姿勢序列機(Recurrent Pose Sequence Machines , RPSM)利用循環式的序列優化提升了效果.
9. Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning
Label: Image captioning, Attention
這篇提出一種自適應的attention機制. 以Sentinel gate 的注意力模型決定每個單詞產生時由圖像信息產生或由單純的語言模型產生.
10. Fine-tuning Convolutional Neural Networks for Biomedical Image Analysis: Actively and Incrementally
Label: medical image, active learning
這一篇研究主要針對醫學影像. 醫學影像的標注更困難因為需要大部分時候都需要專業知識才能進行判讀. 策略是用主動學習(active learning)從難以判讀的圖像開始下手. 以這些圖像丟入GoogLeNet、VGG、ResNet這樣的網路選出難以判讀的, 進行人工標註, 再以這些資料重新訓練神經網路, 重複這樣的步驟則能提升效能.