keras加載模型權(quán)重繼續(xù)訓(xùn)練 keras已訓(xùn)練好模型，一段時間后又有新數(shù)據(jù)，如何在已有模型基礎(chǔ)上繼續(xù)做增量訓(xùn)練？

2021-03-12

2597

keras已訓(xùn)練好模型，一段時間后又有新數(shù)據(jù)，如何在已有模型基礎(chǔ)上繼續(xù)做增量訓(xùn)練？我也是一個菜鳥，可以用來交流。。。在我看來，如果網(wǎng)絡(luò)不需要調(diào)整（例如不添加新的類別），只需使用一個小的學(xué)習(xí)率來微調(diào)網(wǎng)絡(luò)

keras已訓(xùn)練好模型，一段時間后又有新數(shù)據(jù)，如何在已有模型基礎(chǔ)上繼續(xù)做增量訓(xùn)練？

我也是一個菜鳥，可以用來交流。。。

在我看來，如果網(wǎng)絡(luò)不需要調(diào)整（例如不添加新的類別），只需使用一個小的學(xué)習(xí)率來微調(diào)網(wǎng)絡(luò)的所有數(shù)據(jù)。

如果網(wǎng)絡(luò)結(jié)構(gòu)發(fā)生變化（如增加新的類別），在前期（如conv層）固定網(wǎng)絡(luò)參數(shù)，后期（如FC層）直接學(xué)習(xí)參數(shù)。然后放開凍結(jié)，微調(diào)大局。

如何估算神經(jīng)網(wǎng)絡(luò)的最優(yōu)學(xué)習(xí)率？

。

具體來說，當(dāng)前主流的神經(jīng)網(wǎng)絡(luò)模型使用梯度下降算法進行訓(xùn)練，或?qū)W習(xí)參數(shù)。學(xué)習(xí)速率決定權(quán)重在梯度方向上成批移動的距離。理論上，學(xué)習(xí)率越高，神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度越快。但是，如果學(xué)習(xí)速率過高，可能會“穿越”損失函數(shù)的最小值，導(dǎo)致收斂失敗。

上圖左邊是高學(xué)習(xí)率，右邊是低學(xué)習(xí)率，來源：mikkel Duif（quora）

那么，如何找到最佳學(xué)習(xí)率？

方法。但是，這種方法的初始學(xué)習(xí)率（上例中為0.1）不應(yīng)該太高。如果初始學(xué)習(xí)率太高，可能會“穿越”最優(yōu)值。

另外，還有另外一種思路，就是逆向操作，從學(xué)習(xí)率很低開始，每批之后再提高學(xué)習(xí)率。例如，從0.00001到0.0001，再到0.001，再到0.01，再到0.1。這個想法背后的直覺是，如果我們總是以很低的學(xué)習(xí)率學(xué)習(xí)，我們總是可以學(xué)習(xí)到最好的權(quán)重（除非整個網(wǎng)絡(luò)架構(gòu)有問題），但它將非常緩慢。因此，從一個很低的學(xué)習(xí)率開始，我們可以肯定地觀察到損失函數(shù)的下降。然后逐漸加大學(xué)習(xí)率，直到學(xué)習(xí)率過高，導(dǎo)致發(fā)散。該方法還避免了上述方法初始學(xué)習(xí)率過高，一次“穿越”最優(yōu)值的隱患。這是Leslie n.Smith在2015年的論文《訓(xùn)練神經(jīng)網(wǎng)絡(luò)的循環(huán)學(xué)習(xí)率》中提出的方法。

keras訓(xùn)練好的網(wǎng)絡(luò)，怎么在c 程序中調(diào)用？

我嘗試使用其他培訓(xùn)數(shù)據(jù)來調(diào)用Java。一些建議。首先，如果訓(xùn)練模型很小，可以先得到訓(xùn)練參數(shù)，然后用C語言調(diào)用，當(dāng)然，矩陣的計算需要自己準備。

我以前是這樣的，但它有很大的局限性。最大的問題是這種方法的前提，當(dāng)模型不復(fù)雜時。這樣，公共應(yīng)用服務(wù)器仍然可以承受計算負載。

但是，如果模型復(fù)雜，則不建議這樣做。機器無法運行，針對性的浮點優(yōu)化也無法在短時間內(nèi)解決。此時仍建議使用培訓(xùn)機通過web服務(wù)完成Python的遠程調(diào)用，實現(xiàn)業(yè)務(wù)應(yīng)用。

Keras還是TensorFlow，程序員該如何選擇深度學(xué)習(xí)框架？

如果您想用少量代碼盡快構(gòu)建和測試神經(jīng)網(wǎng)絡(luò)，keras是最快的，而且順序API和模型非常強大。而且keras的設(shè)計非常人性化。以數(shù)據(jù)輸入和輸出為例，與keras的簡單操作相比，tensorflow編譯碼的構(gòu)造過程非常復(fù)雜（尤其對于初學(xué)者來說，大量的記憶過程非常痛苦）。此外，keras將模塊化作為設(shè)計原則之一，用戶可以根據(jù)自己的需求進行組合。如果你只是想快速建立通用模型來實現(xiàn)你的想法，keras可以是第一選擇。

但是，包裝后，keras將變得非常不靈活，其速度相對較慢。如果高度包裝，上述缺點將更加明顯。除了一些對速度要求較低的工業(yè)應(yīng)用外，由于tensorflow的速度較高，因此會選擇tensorflow

如果您在驗證您的想法時，想定義損失函數(shù)而不是使用現(xiàn)有的設(shè)置，與keras相比，tensorflow提供了更大的個性空間。此外，對神經(jīng)網(wǎng)絡(luò)的控制程度將在很大程度上決定對網(wǎng)絡(luò)的理解和優(yōu)化，而keras提供的權(quán)限很少。相反，tensorflow提供了更多的控制權(quán)，比如是否訓(xùn)練其中一個變量、操作梯度（以獲得訓(xùn)練進度）等等。

盡管它們都提供了深度學(xué)習(xí)模型通常需要的功能，但如果用戶仍然追求一些高階功能選擇，例如研究特殊類型的模型，則需要tensorflow。例如，如果您想加快計算速度，可以使用tensorflow的thread函數(shù)來實現(xiàn)與多個線程的相同會話。此外，它還提供了調(diào)試器功能，有助于推斷錯誤和加快操作速度。

成人AV在线无码|婷婷五月激情色,|伊人加勒比二三四区|国产一区激情都市|亚洲AV无码电影|日av韩av无码|天堂在线亚洲Av|无码一区二区影院|成人无码毛片AV|超碰在线看中文字幕

keras已訓(xùn)練好模型，一段時間后又有新數(shù)據(jù)，如何在已有模型基礎(chǔ)上繼續(xù)做增量訓(xùn)練？

如何估算神經(jīng)網(wǎng)絡(luò)的最優(yōu)學(xué)習(xí)率？

keras訓(xùn)練好的網(wǎng)絡(luò)，怎么在c 程序中調(diào)用？

Keras還是TensorFlow，程序員該如何選擇深度學(xué)習(xí)框架？

相關(guān)推薦

keras已訓(xùn)練好模型，一段時間后又有新數(shù)據(jù)，如何在已有模型基礎(chǔ)上繼續(xù)做增量訓(xùn)練？

如何估算神經(jīng)網(wǎng)絡(luò)的最優(yōu)學(xué)習(xí)率？

keras訓(xùn)練好的網(wǎng)絡(luò)，怎么在c 程序中調(diào)用？

Keras還是TensorFlow，程序員該如何選擇深度學(xué)習(xí)框架？