2021 CVPR best paper – GIRAFFE 結合GAN及NeRF實現可控多物體合成3D場景的集大成者

Topic: GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields

Editor:  George Wu

Resources:  GIRAFFE paper   GIRAFFE github   GRAF paper    GRAF github NeRF paper NeRF github

Label: Deep generative models, 3D reconstruction, NeRF, GAN, GRAF

大意

generative adversarial network (GAN)自2014年發表以來已經是眾多研究領域如影像生成或轉換, 場景合成或圖像super resolution等的根基. GAN雖然強大但大多數網路對於生成出來的圖像可控性還是太少, 也無法真正將生成圖像視為3D物品與3D場景間的合成. 譬如無法單獨去平移圖像中的汽車, 或直接改變他的外貌顏色, 也無法旋轉場景用不同的視角去觀察. 在今年的CVPR大會上Niemeyer及Geiger的論文GIRAFFE就跨出了這一大步, 也因此獲得了2021 CVPR best paper! 可以簡單理解成將三維重建中的NeRF(Neural Radiance Fields, 神經輻射場)與GAN中的Generator結合而做到可控的圖像合成. 按照作者的說法就是將3D場景視為compositional generative neural feature fields(GIRAFFE), 讓我們能從圖像的背景中分離出多個物體, 並允許在場景中平移旋轉他們或用不同視角觀察3D物體. 以下將簡單介紹一下GIRAFFE以及一些相關研究.

Continue reading “2021 CVPR best paper – GIRAFFE 結合GAN及NeRF實現可控多物體合成3D場景的集大成者”

MuZero: DeepMind新推出超越AlphaZero會自行學習遊戲規則並實現最佳策略選擇的算法

Topic: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model

Editor:  George Wu

Resources:  Nature paper    DeepMind blog    author blog    Video  pseudocode Github

Label: DeepMind, AlphaZero, Reinforcement Learning

大意

在2019年底DeepMind開發出新的算法MuZero並在今年十二月正式發表在Nature期刊. 在前代AlphaGo ZeroAlphaZero已經能透過自我對弈強化學習而擊敗國際象棋, 日本將棋, 圍棋等頂尖AI, 而MuZero更是能學習建立用於解釋目前環境系統的模型, 以及利用這個模型來進行最好的決策. 簡單的比喻就是不需要輸入圍棋的規則以及Domain knowledge, MuZero本身就會透過基於tree-based search及deep network自行學習圍棋的規則是甚麼,並且找到最佳的解法. 在paper中MuZero展示了在將棋, 西洋棋以及圍棋中跟AlphaZero一樣超越人類表現的結果, 且MuZero也能在Atari上57種遊戲達到目前為止最優的結果. 這代表強化學習算法能學習環境模型又能成功使用它找到最佳解法, 是通用人工智能算法上的重大進步.

Continue reading “MuZero: DeepMind新推出超越AlphaZero會自行學習遊戲規則並實現最佳策略選擇的算法”

Kaiming He的暗通道去霧算法及CVPR, ICCV, 及ECCV三大會的最高引用論文

Topic: Single Image Haze Removal Using Dark Channel Prior

Editor:  George Wu

Resources:  Paper    Website    Slide    Video  

Label: Kaiming He, Haze removal, CVPR, ICCV, ECCV

大意

日前有網友整理了三大computer vision大會CVPR, ICCV, 及ECCV過去五年引用量最高的10篇論文, 其中包含了ResNet(CVPR2016), Fast-RCNN(ICCV2015), ReLU(ICCV2015), Mask-RCNN(ICCV2017), RetinaNet(ICCV2017), ResNets(ECCV2016)等目前幾乎是深度學習的標準配備技術, 而這些都出於Kaiming He之手, 無愧是當今深度學習計算機視覺領域最重要的推動者之一. 他目前任職於Facebook AI研究院也一直在深度學習CV領域有很好的研究成果, 如PointRend, Relational Graph, Momentum Contrast for Unsupervised等. 在這裡要回顧並致敬的是Kaiming He的第一篇CVPR best paper – 基於單張圖像的暗通道去霧算法 Single Image Haze Removal Using Dark Channel Prior(CVPR2009).

Continue reading “Kaiming He的暗通道去霧算法及CVPR, ICCV, 及ECCV三大會的最高引用論文”

可逆神經網路及ECCV 2020 Oral 可逆圖像縮放

Topic: Invertible Image Rescaling

Editor:  George Wu

Resources:  Paper    Github    NICE paper    Glow paper    Glow github   i-ResNet paper  

Label: Invertible NN, Image Rescaling, ECCV

 

111

大意

可逆神經網路(Invertible Neural Networks)是指可以從輸出結果反推到原來的輸入的神經網路, 而且中間每一層都可以從最後一層反推. 要討論可逆的最主要原因是信息無損. 簡單的理解就譬如輸入20×20的圖像, 壓縮成5×5的低解析度照片. 如果可以從低解析照片完美復原到原始圖像則是信息無損. 在生成領域已經有很多有名的可逆神經網路譬如NICE, Glow等. 今年ECCV 2020 Oral paper就是用可逆的概念去做到Invertible Image Rescaling. 為傳統super-resolution方法提供一種新思路, 也證明有很好的成果.

 

Continue reading “可逆神經網路及ECCV 2020 Oral 可逆圖像縮放”