搜索引擎優(yōu)化論文(強化學(xué)習進(jìn)行神經(jīng)網(wǎng)絡(luò )架構搜索方法(proxydataset)論文解讀 )
優(yōu)采云 發(fā)布時(shí)間: 2022-02-04 15:21搜索引擎優(yōu)化論文(強化學(xué)習進(jìn)行神經(jīng)網(wǎng)絡(luò )架構搜索方法(proxydataset)論文解讀
)
論文:學(xué)習可遷移架構以進(jìn)行可擴展圖像識別
介紹
論文作者在 ICLR 2017 上使用強化學(xué)習進(jìn)行神經(jīng)網(wǎng)絡(luò )架構搜索,取得了不錯的性能,但這種搜索方式需要大量的計算資源。在 CIFAR-10 上搜索 28 天需要 800 個(gè) GPU,這在大型數據集上幾乎是不可能的。尋找。因此,論文提出在代理數據集上進(jìn)行搜索,然后將網(wǎng)絡(luò )遷移到 ImageNet。主要亮點(diǎn)如下:
方法
論文的神經(jīng)網(wǎng)絡(luò )搜索方法沿用了經(jīng)典的強化學(xué)習方法。具體可以參考我之前的論文解讀。流程如圖1所示。簡(jiǎn)單來(lái)說(shuō)就是用RNN生成網(wǎng)絡(luò )結構,然后在數據集上訓練,收斂后根據準確率調整RNN的權重。論文的核心是定義一個(gè)新的搜索空間,稱(chēng)為NASNet搜索空間。論文觀(guān)察到目前優(yōu)秀的網(wǎng)絡(luò )結構,比如ResNet和Inception,其實(shí)都是堆疊著(zhù)重復的模塊(cells),所以RNN可以用來(lái)預測一般的卷積模塊,這樣的模塊可以組合堆疊成一系列的模型,論文主要收錄兩種單元:
圖 2 展示了 CIFAR-10 和 ImageNet 的網(wǎng)絡(luò )框架。圖像輸入分別為 32x32 和 299x299。Reduction Cell和Normal Cell可以是相同的結構,但是論文發(fā)現獨立的結構更好。當減少特征圖的大小時(shí),手動(dòng)將卷積核的數量翻倍,以大致保持特征點(diǎn)的總數。另外,單元的重復次數N和卷積核的初始個(gè)數都是手動(dòng)設置的,針對不同的分類(lèi)問(wèn)題
單元的結構在搜索空間中定義。首先選擇前兩個(gè)低級單元的輸出和作為輸入,然后控制器RNN預測剩余的卷積單元結構塊。單塊預測如圖3所示,每個(gè)單元(cell)由B個(gè)塊組成,每個(gè)塊收錄5個(gè)預測步驟,每個(gè)步驟由一個(gè)softmax分類(lèi)器選擇,塊的預測如下:
Step 3 和 4 中選擇的操作包括上述一些主流的卷積網(wǎng)絡(luò )操作,而 Step 5 中的 merge 操作主要包括兩種:1) element-wise addition 2) concatenation,最后,所有 Unused隱藏層輸出連接在一起作為單元輸出??刂破鱎NN總共執行子預測,前者作為Normal Cell,另一個(gè)作為Reduction Cell。在 RNN 訓練方面,強化學(xué)習和隨機搜索都可以使用。實(shí)驗發(fā)現隨機搜索只比強化學(xué)習得到的網(wǎng)絡(luò )稍差。,這意味著(zhù):
實(shí)驗和結果
控制器RNN使用近端策略?xún)?yōu)化(PPO)進(jìn)行訓練,以全局工作隊列的形式對子網(wǎng)絡(luò )進(jìn)行分布式訓練。實(shí)驗總共使用 500 個(gè) P100 來(lái)訓練隊列中的網(wǎng)絡(luò )。整個(gè)訓練耗時(shí)4天,相比上一版800 Block K40訓練28天,訓練加速7倍以上,效果更佳
圖 4 顯示了性能最好的 Normal Cell 和 Reduction Cell 的結構,它們是通過(guò)在 CIFAR-10 上搜索獲得的,然后轉移到 ImageNet。得到卷積單元后,需要修改幾個(gè)超參數來(lái)構建最終的網(wǎng)絡(luò )。首先是單元重復次數N,然后是初始單元的卷積核個(gè)數,比如4個(gè)單元的重復次數和初始單元的卷積核個(gè)數。具體檢索方法請參考論文附錄A。需要注意的是,論文提出了 DropPath 的改進(jìn)版本,一種稱(chēng)為 ScheduledDropPath 的正則化方法。DropPath是在訓練時(shí)以一定概率隨機丟棄cell的路徑(如圖4中*敏*感*詞*框連接的邊),但在論文的情況下它不是很有效。因此,論文改用ScheduledDropPath,在訓練過(guò)程中線(xiàn)性增加drop的概率
CIFAR-10 圖像分類(lèi)結果
NASNet-A 通過(guò)隨機裁剪數據增強實(shí)現 SOTA
ImageNet 圖像分類(lèi)結果
論文將在CIFAR-10上學(xué)習到的結構轉移到ImageNet上,最大模型達到SOTA(82.7%),與SENet的準確率一致,但參數數量大大減少
圖 5 直觀(guān)地展示了 NASNet 系列與其他人工構建的網(wǎng)絡(luò )的比較。NASNet 在各方面都優(yōu)于人工構建的網(wǎng)絡(luò )。
論文還測試了移動(dòng)端配置的網(wǎng)絡(luò )準確性。要求網(wǎng)絡(luò )的參數和計算量足夠小,NASNet仍然有非常搶眼的表現。
改進(jìn)的對象檢測功能
本文研究了 NASNet 在其他視覺(jué)任務(wù)中的表現,并使用 NASNet 作為 Faster-RCNN 的主干,在 COCO 訓練集上進(jìn)行測試。與移動(dòng)網(wǎng)絡(luò )相比,mAP達到了29.6%的mAP,提升了5.1%。使用最好的 NASNet,mAP 達到 43.1% mAP,提高了 4.0% mAP。結果表明,NASNet 可以提供更豐富、更通用的特征,從而在其他視覺(jué)任務(wù)中表現良好
架構搜索方法的效率
論文比較了網(wǎng)絡(luò )搜索方法的性能,主要是強化學(xué)習方法(RL)和隨機搜索方法(RS)。對于最佳網(wǎng)絡(luò ),RL 搜索的整體準確率比 RS 高 1%,而對于整體性能(如 top-5 和 top-25),這兩種方法比較接近。因此,論文認為雖然RS是一種可行的搜索策略,但RL在NASNet的搜索空間中表現更好
結論
論文在前人使用強化學(xué)習對神經(jīng)網(wǎng)絡(luò )架構搜索的研究基礎上,將搜索空間從整體網(wǎng)絡(luò )轉換為一個(gè)卷積單元(cell),然后根據設置堆疊成一個(gè)新的網(wǎng)絡(luò )NASNet。這不僅降低了搜索的復雜度,而且加快了搜索過(guò)程,從 28 天到 4 天,而且搜索到的結構具有可擴展性,可以在小模型和大模型場(chǎng)景中使用較少的參數和參數。另外,由于搜索空間和模型結構的巧妙設計,論文可以將小數據集學(xué)習到的結構遷移到大數據集,通用性更好。并且網(wǎng)絡(luò )在目標檢測領(lǐng)域的表現也相當不錯
附錄 NASNet-B & NASNet-C
論文中還有另外兩種結構,NASNet-B 和 NASNet-C。搜索空間和方法與 NASNet-A 有點(diǎn)不同。有興趣的可以去看原文的附錄。