成人AV在线无码|婷婷五月激情色,|伊人加勒比二三四区|国产一区激情都市|亚洲AV无码电影|日av韩av无码|天堂在线亚洲Av|无码一区二区影院|成人无码毛片AV|超碰在线看中文字幕

簡(jiǎn)述神經(jīng)網(wǎng)絡(luò)是如何訓(xùn)練的 用同一數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò),每次訓(xùn)練結(jié)果不一樣,有時(shí)正確率很高,有時(shí)很低,為什么?

用同一數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò),每次訓(xùn)練結(jié)果不一樣,有時(shí)正確率很高,有時(shí)很低,為什么?其實(shí)這個(gè)問(wèn)題本質(zhì)就是,如果我們使用機(jī)器學(xué)習(xí)算法在數(shù)據(jù)集上訓(xùn)練一次數(shù)據(jù)模型,保存模型,然后使用相同的算法和相同的數(shù)據(jù)集和數(shù)

用同一數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò),每次訓(xùn)練結(jié)果不一樣,有時(shí)正確率很高,有時(shí)很低,為什么?

其實(shí)這個(gè)問(wèn)題本質(zhì)就是,如果我們使用機(jī)器學(xué)習(xí)算法在數(shù)據(jù)集上訓(xùn)練一次數(shù)據(jù)模型,保存模型,然后使用相同的算法和相同的數(shù)據(jù)集和數(shù)據(jù)排序再次訓(xùn)練它,第一個(gè)模型是否與第二個(gè)模型相同?

這可能是因?yàn)樵谏窠?jīng)網(wǎng)絡(luò)使用增益或權(quán)重的隨機(jī)值進(jìn)行初始化,然后在訓(xùn)練階段每個(gè)模擬都有不同的起點(diǎn)。 如果想要始終保持相同的初始權(quán)重,可嘗試為初始權(quán)重固定種子,即可消除該問(wèn)題。

如果我們深入研究這個(gè)問(wèn)題,我們可以從它們的“確定性”對(duì)ML算法進(jìn)行分類,當(dāng)從同一數(shù)據(jù)集訓(xùn)練時(shí):

  • 一類是始終產(chǎn)生相同模型,并且記錄以相同順序呈現(xiàn);

  • 二類是始終產(chǎn)生不一樣模型,并且記錄順序不同。

在實(shí)際情況中,一般情況下是“不確定性”居多,產(chǎn)生模型變化的原因可能是在機(jī)器學(xué)習(xí)算法本身中可能存在隨機(jī)游走,權(quán)重隨機(jī)初始化不同,或概率分布的采樣以分配優(yōu)化函數(shù)的分量不同。

雖然模型“不確定性”可能對(duì)單次訓(xùn)練結(jié)果造成干擾,但我們也可以利用該“不確定性”來(lái)確認(rèn)模型的穩(wěn)定性,例如決策樹(shù)、支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)等,可通過(guò)多次迭代來(lái)最終確認(rèn)模型的穩(wěn)定性。

深度學(xué)習(xí)和普通的機(jī)器學(xué)習(xí)有什么區(qū)別?

放張圖可以看出關(guān)系。機(jī)器學(xué)習(xí)是人工智能的重要區(qū)域之一,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的分流之一。深度學(xué)習(xí)在前幾年迅速躥紅的原因是突破了一些傳統(tǒng)機(jī)器學(xué)習(xí)解決不了的問(wèn)題。

機(jī)器學(xué)習(xí)的意義在于代替人力完成重復(fù)的工作,識(shí)別出統(tǒng)一的規(guī)律(模式)。但對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)來(lái)說(shuō),特征的提取難度并不?。ㄌ卣骺梢允窍袼?、位置、方向等等)。特征的準(zhǔn)確度會(huì)很大程度決定大多數(shù)機(jī)器學(xué)習(xí)算法的性能,為了使特征準(zhǔn)確,將涉及到大量的人力投入特征工程的部分,來(lái)對(duì)特征進(jìn)行調(diào)整改善。而這一系列工作的完成,是在數(shù)據(jù)集所含有的信息量足夠并且易于識(shí)別這一前提下的,如果這一前提沒(méi)有滿足,傳統(tǒng)機(jī)器學(xué)習(xí)算法會(huì)在雜亂的信息中喪失性能。深度學(xué)習(xí)的應(yīng)用便是基于這一問(wèn)題產(chǎn)生的,它的深層神經(jīng)網(wǎng)絡(luò)讓它可以在雜亂中學(xué)習(xí),自動(dòng)發(fā)現(xiàn)任務(wù)所聯(lián)系的特征(可以把它看成自發(fā)地學(xué)習(xí)特征工程),提取高層次的特征,因而大大減少了任務(wù)中在特征工程部份所要耗費(fèi)的時(shí)間。

另一明顯的不同之處是二者對(duì)數(shù)據(jù)集大小的偏好。傳統(tǒng)的機(jī)器學(xué)習(xí)在制定完善的規(guī)則下,在處理較小規(guī)模的數(shù)據(jù)時(shí),會(huì)展示出很好的性能,深度學(xué)習(xí)反而表現(xiàn)不佳;隨著數(shù)據(jù)集的規(guī)模不斷變大,深度學(xué)習(xí)的性能才會(huì)逐漸展現(xiàn)出來(lái),并且越來(lái)越優(yōu)良,對(duì)比可見(jiàn)下圖。

如何估算神經(jīng)網(wǎng)絡(luò)的最優(yōu)學(xué)習(xí)率?

神經(jīng)網(wǎng)絡(luò)的神奇之處就是通過(guò)訓(xùn)練自動(dòng)學(xué)習(xí)權(quán)重等參數(shù)。其中,學(xué)習(xí)率決定了這個(gè)自動(dòng)學(xué)習(xí)的快慢,是神經(jīng)網(wǎng)絡(luò)的超參數(shù)(hyperparameter)。

具體而言,目前主流的神經(jīng)網(wǎng)絡(luò)模型使用梯度下降算法進(jìn)行訓(xùn)練,或者說(shuō),學(xué)習(xí)參數(shù)。學(xué)習(xí)率決定了batch中權(quán)重在梯度方向上移動(dòng)多遠(yuǎn)。理論上說(shuō),學(xué)習(xí)率越高,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的速度就越快。但是,學(xué)習(xí)率過(guò)高,可能一下子“跨過(guò)”損失函數(shù)的最小值,導(dǎo)致無(wú)法收斂。

上圖左側(cè)為高學(xué)習(xí)率,右側(cè)為低學(xué)習(xí)率,圖片來(lái)源:Mikkel Duif (Quora)

那么,如何找到最佳學(xué)習(xí)率呢?

最容易想到的方法是,先從一個(gè)較高的學(xué)習(xí)率開(kāi)始嘗試,然后逐漸降低學(xué)習(xí)率。比如,剛開(kāi)始是0.1,接著是0.01,然后是0.001,再然后是0.0001,以此類推。因?yàn)橐话愣?,剛開(kāi)始的時(shí)候,網(wǎng)絡(luò)的初始權(quán)重離最佳權(quán)重會(huì)比較遠(yuǎn),隨著訓(xùn)練的進(jìn)行,漸漸逼近最佳值。用術(shù)語(yǔ)來(lái)說(shuō),這是模擬退火(Simulated annealing)方法。不過(guò),這個(gè)方法的初始學(xué)習(xí)率設(shè)置(上面例子中的0.1)不能過(guò)高,如果初始學(xué)習(xí)率過(guò)高,那可能一下子“跨過(guò)”最佳值。

除此之外,還有另一種思路,就是反向操作,從一個(gè)很低的學(xué)習(xí)率開(kāi)始,然后在每一個(gè)batch后增加學(xué)習(xí)率。比如,從0.00001開(kāi)始,到0.0001,再到0.001,接著是0.01,然后是0.1。這種思路背后的直覺(jué)是,如果我們始終用一個(gè)很低的學(xué)習(xí)率進(jìn)行學(xué)習(xí),那么我們最終總能學(xué)習(xí)到權(quán)重的最佳值(除非整個(gè)網(wǎng)絡(luò)架構(gòu)有問(wèn)題),只不過(guò)會(huì)很慢而已。因此,先從很低的學(xué)習(xí)率開(kāi)始,能確定地觀察到損失函數(shù)的下降。然后逐漸放大學(xué)習(xí)率,直到學(xué)習(xí)率過(guò)高導(dǎo)致發(fā)散。這個(gè)方法也避免了上面那個(gè)方法初始學(xué)習(xí)率過(guò)高一下子“跨過(guò)”最佳值的隱患。這是Leslie N. Smith在2015年的論文《Cyclical Learning Rates for Training Neural Networks》中提出的方法。