Dosudo deep learning newsletter #3
Editor: Hubert Lin
Resources: Paper Yann LeCun post
GAN 是近年最受關注的架構之一,同時也以極難訓練、調整而聞名,訓練困難的肇因是生成器 G (generator) 與分辨器 D (discriminator) 的訓練目標相違背,形成特殊的 saddle point optimization 問題,在訓練過程中要不斷在 generator 的「 minimize 生成結果與真實 data 的差異」與 discriminator 的「maximize 分辨是生成結果還是真實 data 的分辨能力」之間切換,因 saddle point 的不穩定性而造成訓練困難。
Facebook AI Research (FAIR) 此次發表新的架構 GLO (Generative Latent Optimization), Paper 中認為 GAN 的成功關鍵是「深度卷積網路具有很強的泛化能力」與「對抗訓練架構」,這個研究的主要目的就是在避免後者 (造成訓練困難的主因) 的同時,嘗試得到與 GAN 媲美的結果。相較於 GAN 在訓練時會持續使用新的 random latent variable , GLO 在訓練時只使用事先隨機產生的 latent vector (Z),與訓練集的圖像 (Y) 進行訓練,最小化目標函數 distance(Y, G(Z)) ,目標是從 Z 中尋找 latent space 與 Y 的關聯性。而最終在進行新圖像生成時,只從 Z 中選擇合理的 latent vector 進行生成。
這樣的訓練過程使得 Z 與 G 的訓練變成「 Y 與 G(Z) 距離最小化的 joint optimization 」,而非原先 GAN 架構下生成器 (G) 需要不斷面對性質不同的 Z vector ,同時透過最小化距離函數的概念避免分辨器 D 的訓練,這使得訓練過程簡化非常多。 Paper 中展現了多項實驗成果,包含「對 STL 、 CelebA 的新圖像生成」、「影像內插」、「條件性生成影像」,並在成果中有觀察到許多與 GAN 相似的性質。
在重建誤差 (reconstruction error) 比較上 (如下圖 1. ) , GLO 比 GAN 更加優秀,但論文作者同時指出,這樣的比較對於 GAN 是不公允的,因 GAN 本身的目標函數並不是直接的最小化生成圖像與真實圖像的距離函數。
此外,論文中也比較了 GLO 、 PCA 、 AE (autoencoder) ,在使用各個數量 singular vector 重建表現空間 (representation space) 時的解釋比例 (註: variance 可以用來代表解釋率) ,成果如下圖 2. ,圖中的函數越平坦越好,代表表現空間中的資訊分布越均勻。