打破GAN神話, 基於端對端網路的高質量圖像生成

Topic: Photographic Image Synthesis with Cascaded Refinement Networks

Dosudo deep learning newsletter #4

figure2.png

Editor:  George Wu

Resources:    原始post   中文post    Paper    Github    video

Label: Image synthesis, GAN, End-to-end, Semantic segmentation

近年來在圖像或影片生成上大部分都是利用生成對抗網路GANs, 譬如有圖像生成圖像的 iGAN [1], pix2pix[2] , 或語意生成圖像的StackGAN [3][4]等等. 但在今年的ICCV 2017 出現一篇備受矚目的直接用端對端的方式生成高質量圖像的方法. 它的原理等於是圖像的語意分割(Semantic image segmentation)的逆向操作, 從圖像的語意分割直接生成照片級圖像.

螢幕快照 2017-09-19 下午3.56.38

作者的想法來自於輸入圖像的草稿, 畫家就可以還原或繪出富含細節的真實世界圖像. 實行的方式是輸入圖像的語意分割草圖(semantic layouts),然後在不同的語意區塊生成高質量的圖像區域. 雖然中間只需要類似CNN的Net就可以生成圖像, 但為了確保能從草圖輸出擴展至高解析度, 在這裡作者借用了Laplacian pyramid的多尺度概念, 建立了Cascaded Refinement Network (CRN), 由一連串的refinement modules (Mi)組合而成, 每個模塊代表不同的解析度. 透過這樣的結構逐漸的翻倍生成圖像的解析度.

螢幕快照 2017-09-19 下午3.54.31

除了第一個模塊M0只輸入最初的 semantic layouts 縮小至4×8分辨率的L0, 其他模塊(Mi) 的輸入包含兩部分: 來自上一層的Fi-1 (feature layer), 以及 經過縮小的semantic layouts  Li, 然後經過convolutional layer 輸出Fi. 每個模塊由輸入層, 中間層及輸出層組成, 每層都接上3×3 convolution layer, layer normalization以及relu. 而在訓練過程中以content representation 的概念建立目標函數[5], 就是利用訓練好的Net 如VGG分別用在參考圖像及語意分割草圖, 然後比較各層的feature maps.

Reference:

[1] iGAN: Interactive Image Generation via Generative Adversarial Networks

[2] Image-to-Image Translation with Conditional Adversarial Networks

[3] StackGAN: Text to Photo-realistic Image Synthesis with Stacked GAN

[4] Generative Adversarial Text-to-Image Synthesis

[5] Image style transfer using convolutional neural networks

Advertisement

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s