md模型怎么放大縮小 威龍模型有中文網(wǎng)站嗎?
威龍模型有中文網(wǎng)站嗎?想必閣下也是個模型迷.哈哈 這是官網(wǎng).是英文SGD過程中的噪聲如何幫助避免局部極小值和鞍點?來自 UC Berkeley RISELab 的本科研究員 Noah Golmant
威龍模型有中文網(wǎng)站嗎?
想必閣下也是個模型迷.哈哈 這是官網(wǎng).是英文
SGD過程中的噪聲如何幫助避免局部極小值和鞍點?
來自 UC Berkeley RISELab 的本科研究員 Noah Golmant 發(fā)表博客,從理論的角度分析了損失函數(shù)的結構,并據(jù)此解釋隨機梯度下降(SGD)中的噪聲如何幫助避免局部極小值和鞍點,為設計和改良深度學習架構提供了很有用的參考視角。
當我們著手訓練一個很酷的機器學習模型時,最常用的方法是隨機梯度下降法(SGD)。隨機梯度下降在高度非凸的損失表面上遠遠超越了樸素梯度下降法。這種簡單的爬山法技術已經(jīng)主導了現(xiàn)代的非凸優(yōu)化。然而,假的局部最小值和鞍點的存在使得分析工作更加復雜。理解當去除經(jīng)典的凸性假設時,我們關于隨機梯度下降(SGD)動態(tài)的直覺會怎樣變化是十分關鍵的。向非凸環(huán)境的轉(zhuǎn)變催生了對于像動態(tài)系統(tǒng)理論、隨機微分方程等框架的使用,這為在優(yōu)化解空間中考慮長期動態(tài)和短期隨機性提供了模型。
在這里,我將討論在梯度下降的世界中首先出現(xiàn)的一個麻煩:噪聲。隨機梯度下降和樸素梯度下降之間唯一的區(qū)別是:前者使用了梯度的噪聲近似。這個噪聲結構最終成為了在背后驅(qū)動針對非凸問題的隨機梯度下降算法進行「探索」的動力。
mini-batch 噪聲的協(xié)方差結構
介紹一下我們的問題設定背景。假設我想要最小化一個包含 N 個樣本的有限數(shù)據(jù)集上的損失函數(shù) f:R^n→R。對于參數(shù) x∈R^n,我們稱第 i 個樣本上的損失為 f_i(x)?,F(xiàn)在,N 很可能是個很大的數(shù),因此,我們將通過一個小批量估計(mini-batch estimate)g_B: 來估計數(shù)據(jù)集的梯度 g_N:。其中,B?{1,2,…,N} 是一個大小為 m 的 mini-batch。盡管 g_N 本身就是一個關于梯度 ?f(x) 的帶噪聲估計,結果表明,mini-batch 抽樣可以生成帶有有趣的協(xié)方差結構的估計。
引理 1 (Chaudhari amp Soatto 定理:):在回置抽樣(有放回的抽樣)中,大小為 m 的 mini-batch 的方差等于 Var(g_B)1/mD(x),其中
該結果意味著什么呢?在許多優(yōu)化問題中,我們根本的目標是最大化一些參數(shù)配置的似然。因此,我們的損失是一個負對數(shù)似然。對于分類問題來說,這就是一個交叉熵。在這個例子中,第一項 是對于(負)對數(shù)似然的梯度的協(xié)方差的估計。這就是觀測到的 Fisher 信息。當 N 趨近于正無窮時,它就趨向于一個 Fisher 信息矩陣,即相對熵(KL 散度)的 Hessian 矩陣。但是 KL 散度是一個與我們想要最小化的交叉熵損失(負對數(shù)似然)相差甚遠的常數(shù)因子。
因此,mini-batch 噪聲的協(xié)方差與我們損失的 Hessian 矩陣漸進相關。事實上,當 x 接近一個局部最小值時,協(xié)方差就趨向于 Hessian 的縮放版本。
繞道 Fisher 信息
在我們繼續(xù)詳細的隨機梯度下降分析之前,讓我們花點時間考慮 Fisher 信息矩陣 I(x) 和 Hessian 矩陣 ?^2f(x) 之間的關系。I(x) 是對數(shù)似然梯度的方差。方差與損失表面的曲率有什么關系呢?假設我們處在一個嚴格函數(shù) f 的局部最小值,換句話說,I(x?)?^2f(x?) 是正定的。I(x) 引入了一個 x?附近的被稱為「Fisher-Rao metric」的度量指標: d(x,y)√[(x?y)^TI(x?)(x?y) ]。有趣的是,參數(shù)的 Fisher-Rao 范數(shù)提供了泛化誤差的上界()。這意味著我們可以對平坦極小值的泛化能力更有信心。
回到這個故事中來
接下來我們介紹一些關于隨機梯度下降動態(tài)的有趣猜想。讓我們做一個類似中心極限定理的假設,并且假設我們可以將估計出的 g_B 分解成「真實」的數(shù)據(jù)集梯度和噪聲項:g_Bg_N (1√B)n(x),其中 n(x)~N(0,D(x))。此外,為了簡單起見,假設我們已經(jīng)接近了極小值,因此 D(x)≈?^2f(x)。n(x) 在指數(shù)參數(shù)中有一個二次形式的密度ρ(z):
這表明,Hessian 矩陣的特征值在決定被隨機梯度下降認為是「穩(wěn)定」的最小值時起重要的作用。當損失處在一個非?!讣怃J」(二階導很大)的最小值,并且此處有許多絕對值大的、正的特征值時,我很可能會加入一些把損失從樸素梯度下降的吸引域中「推出來」的噪聲。類似地,對于平坦極小值,損失更有可能「穩(wěn)定下來」。我們可以用下面的技巧做到這一點:
引理 2:令 v∈R^n 為一個均值為 0 并且協(xié)方差為 D 的隨機向量。那么,E[||v||^2]Tr(D)。
通過使用這一條引理以及馬爾可夫不等式,我們可以看到,當 Hessian 具有大曲率時,更大擾動的可能性越高。我們還可以考慮一個在局部最小值 x? 周圍的「穩(wěn)定半徑」:對于給定的 ?∈(0,1),存在一些 r(x?)gt0,使得如果我們的起點 x_0 滿足 ||x_0?x?||ltr(x?),第 t 次迭代滿足 ||x_t?x?||ltr(對于所有的 t≥0)的概率至少為 1??。在這種情況下,我們可以說 x? 是在半徑 r(x?) 內(nèi)隨機穩(wěn)定的。將這種穩(wěn)定性的概念與我們之前的非正式論證結合起來,我們得到以下結論:
定理 1: 一個嚴格的局部最小值 x? 的穩(wěn)定性半徑 r(x?) 與 ?^2f(x?) 的譜半徑成反比。
讓我們把這個結論和我們所知道的 Fisher 信息結合起來。如果在隨機梯度下降的動態(tài)下,平坦極小值更加穩(wěn)定,這就意味著隨機梯度下降隱式地提供了一種正則化的形式。它通過注入各項異性的噪聲使我們擺脫了 Fisher-Rao 范數(shù)所帶來的不利泛化條件。
深度學習的啟示:Hessian 矩陣的退化和「wide valleys」
在深度學習中,一個有趣的現(xiàn)象是過度參數(shù)化。我們經(jīng)常有比做示例運算時更多的參數(shù)(dgtgtN)。這時,D(x) 是高度退化的,即它有許多零(或者接近零)的特征值。這意味著損失函數(shù)在很多方向上都是局部不變的。這為這些網(wǎng)絡描繪了一個有趣的優(yōu)化解空間中的場景:隨機梯度下降大部分時間都在穿越很寬的「峽谷」(wide valleys)。噪聲沿著幾個有大曲率的方向傳播,這抵消了 g_N 朝著這個「峽谷」的底部(損失表面的最小值)推進的趨勢。
當前關注點:批量大小、學習率、泛化性能下降
由于我們在將 n(x) 加到梯度之前,按照 1/√m 的因子將其進行縮放,因此增加了批處理的規(guī)模,降低了小批量估計的整體方差。這是一個值得解決的問題,因為大的批量尺寸可以使模型訓練得更快。它在兩個重要的方面使得訓練更快:訓練誤差在更少的梯度更新中易于收斂,并且大的批量尺寸使得我們能利用大規(guī)模數(shù)據(jù)并行的優(yōu)勢。但是,不使用任何技巧就增大批量尺寸會導致測試誤差增大。這個現(xiàn)象被稱為泛化能力下降(generalization gap),并且目前還存在一些為什么會出現(xiàn)這種情況的假說。一個流行的解釋是,我們的「探索性噪聲」不再有足夠的力量將我們推出一個尖銳最小值的吸引域。一種解決辦法是簡單地提高學習率,以增加這種噪聲的貢獻。這種縮放規(guī)則非常成功()。
長期關注點:逃離鞍點
雖然泛化能力下降「generalization gap」最近已經(jīng)成為了一個熱門話題,但之前仍有很多工作研究鞍點的影響。雖然不會漸進收斂到鞍點(),我們?nèi)匀豢赡芨浇A粝喈旈L的一段時間()。而且盡管大的批量尺寸似乎會更易于產(chǎn)生更尖銳的最小值,但真正大的批量尺寸會將我們引導到確定的軌跡上,這個軌跡被固定在鞍點附近。一項研究()表明,注入足夠大的各項噪聲可以幫助我們逃離鞍點。我敢打賭,如果噪聲有足夠的「放大」能力,小批量的隨機梯度下降(mini-batch SGD)會在造成訓練困難的維度上提供足夠的噪聲,并且?guī)椭覀兲与x它們。
一旦我們解決了「尖銳的最小值」的問題,鞍點可能是下一個大規(guī)模優(yōu)化的主要障礙。例如,我在 CIFAR-10 數(shù)據(jù)集上用普通的隨機梯度下降算法訓練了 ResNet34。當我將批量尺寸增大到 4096 時,泛化能力下降的現(xiàn)象出現(xiàn)了。在這一點之后(我最高測試了大小為 32K 的批量尺寸,有 50K 個訓練樣本),性能顯著降低:訓練誤差和測試誤差都僅僅在少數(shù)幾個 epoch 中比較平穩(wěn),并且網(wǎng)絡無法收斂到一個有效解上。以下是這些結果的初步學習曲線(即看起來比較丑、還有待改進):
進一步的工作
目前提出的大多數(shù)處理尖銳的最小值/鞍點的解決方案都是圍繞(a)注入各向噪聲,或(b)保持特定的「學習率和批量尺寸」。我認為從長遠來看,這還不夠。各向噪聲在包含「wide valley」結構的解空間中做的并不好。增加學習率也增大了對梯度的更新,這使得權重更新得更大。我認為正確的方法應該是想出一種有效的方法來模擬小批量噪聲的各向異性,這種方法從學習率和批處理大小的組合中「解耦」出來。存在能夠使用子采樣梯度信息和 Hessian 向量乘積去做到這一點的方法,我正在進行這個實驗。我很希望聽聽其它的關于如何解決這個問題的想法。與此同時,我們還需要做大量的理論工作來更詳細地理解這種動態(tài),特別是在一個深度學習環(huán)境中。