Topic: Photographic Image Synthesis with Cascaded Refinement Networks
Dosudo deep learning newsletter #4
Editor: George Wu
Resources: 原始post 中文post Paper Github video
Label: Image synthesis, GAN, End-to-end, Semantic segmentation
近年來在圖像或影片生成上大部分都是利用生成對抗網路GANs, 譬如有圖像生成圖像的 iGAN [1], pix2pix[2] , 或語意生成圖像的StackGAN [3][4]等等. 但在今年的ICCV 2017 出現一篇備受矚目的直接用端對端的方式生成高質量圖像的方法. 它的原理等於是圖像的語意分割(Semantic image segmentation)的逆向操作, 從圖像的語意分割直接生成照片級圖像.
作者的想法來自於輸入圖像的草稿, 畫家就可以還原或繪出富含細節的真實世界圖像. 實行的方式是輸入圖像的語意分割草圖(semantic layouts),然後在不同的語意區塊生成高質量的圖像區域. 雖然中間只需要類似CNN的Net就可以生成圖像, 但為了確保能從草圖輸出擴展至高解析度, 在這裡作者借用了Laplacian pyramid的多尺度概念, 建立了Cascaded Refinement Network (CRN), 由一連串的refinement modules (Mi)組合而成, 每個模塊代表不同的解析度. 透過這樣的結構逐漸的翻倍生成圖像的解析度.
除了第一個模塊M0只輸入最初的 semantic layouts 縮小至4×8分辨率的L0, 其他模塊(Mi) 的輸入包含兩部分: 來自上一層的Fi-1 (feature layer), 以及 經過縮小的semantic layouts Li, 然後經過convolutional layer 輸出Fi. 每個模塊由輸入層, 中間層及輸出層組成, 每層都接上3×3 convolution layer, layer normalization以及relu. 而在訓練過程中以content representation 的概念建立目標函數[5], 就是利用訓練好的Net 如VGG分別用在參考圖像及語意分割草圖, 然後比較各層的feature maps.
Reference:
[1] iGAN: Interactive Image Generation via Generative Adversarial Networks
[2] Image-to-Image Translation with Conditional Adversarial Networks
[3] StackGAN: Text to Photo-realistic Image Synthesis with Stacked GAN
[4] Generative Adversarial Text-to-Image Synthesis
[5] Image style transfer using convolutional neural networks