Dosudo deep learning newsletter #3
Editor: 林之昫(Chih-Hsu Jack Lin)、HubertLin
Resources: 原始post 中文post ImageNet Webvision challenge
ImageNet Large Scale Visual Recognition Challenge 簡稱 ILSVRC,大規模視覺辨識競賽,是全世界電腦視覺領域高手一爭高下的比賽。從2010年開始每年舉辦一次,今年是最後一屆。2017年比賽分三個項目:(1) object detection:辨識圖片中的物體名稱;(2) object localization:辨認物體並框出圖片中的物體位置; (3) object detection from video:辨認影片中的物體名稱。各項冠軍分別是(1)南京信息工程大學和倫敦帝國學院(Imperial College London)的 BDAT 團隊,(2)依物體分辨率:Momenta 與牛津大學的 WMW 團隊;依定位正確度:新加坡國立大學(National University of Singapore)與奇虎360的 NUS-Qihoo_DPNs 團隊;(3)倫敦帝國學院(Imperial College London)與 雪梨大學(University of Sydney)的 IC&USYD 團隊。
上圖為歷年 ILSVRC 冠軍的圖片物體分辨錯誤率。
由上圖可以看出,自 2015 之後,電腦辨認圖片已經比人類還要好,到今年甚至有近乎完美 2.25% 的錯誤率。由於答案是人類標註的,當電腦比人類還要強時,其實已經無法很好地分辨剩下的錯誤是來自電腦的預測,還是人類的標註。也可能是因為圖片中有多樣物品,有些沒有被標註,所以其實電腦跟人類的答案都對。因此,繼續比賽下去的意義並不大,連續七年的 ImageNet 比賽就在今年劃下句點。而下一個大家研究的重心將可能是更難的課題 WebVision 資料與 transfer learning。
WebVision 資料共有 240 萬筆,涵蓋與 ImageNet 相同的 1000 個類別。競賽分成兩個項目,第一個項目跟 ImageNet 競賽相似,也是辨認圖片物體,但差別是 WebVision 訓練的資料中沒有人類的標註。這表示電腦必須自己學會從圖片中辨認出物體並連結到名稱的能力。第二個項目是 transfer learning (遷移學習)。要將第一個項目中訓練後的模型拿來運用預測 Pascal VOC (Visual Object Classes) 2012 的資料。這可以測試該模型是否有真的學習到資料本身的知識與代表的涵意,並可以運用到不同類型的資料。如此一來,每當要預測新的資料類型,電腦就可以利用之前學到的知識,花更少的時間去訓練,並達到一樣的效果。
HubertLin 小編 murmur:
關於 ImageNet 的退休我覺得還有另一層意義,無論多好的數據集都難免會有人為標註錯誤率。當電腦的正確率與人類匹敵甚至獲勝時,我們已無法分辨這些剩餘的錯誤率究竟是人類的錯誤還是電腦的錯誤,或是兩者其實都沒有錯,這樣繼續競爭準確率的意義其實並不大,所以才將比賽的重心轉往更困難的 task 上。