隨機森林為什么比決策樹好 隨機森林為什么隨著樹的數(shù)目增多,分類準確率可能會下降?
隨機森林為什么隨著樹的數(shù)目增多,分類準確率可能會下降?隨機森林是一種集成分類器。分析了影響隨機林性能的參數(shù)。結(jié)果表明,隨機林中的樹數(shù)對隨機林的性能有重要影響。研究總結(jié)了林木株數(shù)的確定方法和隨機森林經(jīng)營
隨機森林為什么隨著樹的數(shù)目增多,分類準確率可能會下降?
隨機森林是一種集成分類器。分析了影響隨機林性能的參數(shù)。結(jié)果表明,隨機林中的樹數(shù)對隨機林的性能有重要影響。研究總結(jié)了林木株數(shù)的確定方法和隨機森林經(jīng)營指數(shù)的評價方法。以分類精度為評價方法,利用UCI數(shù)據(jù)集分析了隨機森林中決策樹數(shù)目與數(shù)據(jù)集之間的關(guān)系。實驗結(jié)果表明,對于大多數(shù)數(shù)據(jù)集,當(dāng)樹數(shù)為100時,分類精度可以滿足要求。實驗結(jié)果表明,隨機森林的分類性能與支持向量機相當(dāng)。
adaboost隨機森林什么關(guān)系?
Random forest將對變量進行子采樣,例如,變量為p。Random forest將每次隨機提取log p變量以擬合決策樹。顯然,隨機森林適合于大磷比的情況。否則,logp可能為1.2。這種情況毫無意義。AdaBoost與gbdt非常相似,可以理解前者是后者的特例。適合p相對較小時使用。當(dāng)然,這兩種方法都只適用于N>>P情形,即樣本攜帶足夠的信息來擬合非線性關(guān)系。也就是說,隨機森林不適合于P特別大的情況,如果P>>N,則以Lasso為首的懲罰回歸為首選工具。
神經(jīng)網(wǎng)絡(luò)能否代替決策樹算法?
主旨:討論算法“哪個更好,哪個更差,是否可以替代”是一個偽命題。類似的C/C能代替XXX語言嗎?。
首先,xgboost、gbdt、random forest、FM甚至組合LT技術(shù)路線經(jīng)常出現(xiàn)在kaggle競賽的榜首,而基于DNN的路線很少出現(xiàn)。這樣的現(xiàn)象只意味著基于當(dāng)時的條件(玩家、問題等),這種方案已經(jīng)能夠比較好地解決目前的問題。正如imagnet和其他傳統(tǒng)算法不會簡單地依靠人工特征工程來贏得冠軍一樣(雖然在理論上是可行的,但何必費心呢?)。
其次,如果從模型容量的角度來看,神經(jīng)網(wǎng)絡(luò)(基于合理設(shè)置)可以在一定的準則下擬合任何函數(shù),自然可以從容量上擬合決策樹,在實際問題中可以替代。因為容量擬合的理論證明并沒有告訴你如何設(shè)計一個合理的給定目標(biāo)函數(shù)的神經(jīng)網(wǎng)絡(luò)。類似于香農(nóng)的三個存在定理。線性模型(如LR)能代替決策樹等所有其他算法嗎?理論上(我不會證明)數(shù)學(xué)中的各種非線性映射變換應(yīng)該能夠?qū)⒏鞣N非線性問題投射到一個神奇的空間中,在這個空間中,原來的問題可以通過線性模型來求解
回到主要問題本身(哈哈哈):
1。神經(jīng)網(wǎng)絡(luò)能否取代決策樹判斷法:它能否以較低的成本更好地解決當(dāng)前的問題?如果可以的話,可以是2。如何更換:找到一個成本較低的神經(jīng)網(wǎng)絡(luò);
3。什么樣的結(jié)構(gòu):一個能以低成本更好地解決當(dāng)前問題的網(wǎng)絡(luò)結(jié)構(gòu);
既然使用神經(jīng)網(wǎng)絡(luò)也可以解決分類問題,那SVM、決策樹這些算法還有什么意義呢?
這取決于數(shù)據(jù)量和樣本數(shù)。不同的樣本量和特征數(shù)據(jù)適合不同的算法。像神經(jīng)網(wǎng)絡(luò)這樣的深度學(xué)習(xí)算法需要訓(xùn)練大量的數(shù)據(jù)集來建立更好的預(yù)測模型。許多大型互聯(lián)網(wǎng)公司更喜歡深度學(xué)習(xí)算法,因為他們獲得的用戶數(shù)據(jù)是數(shù)以億計的海量數(shù)據(jù),這更適合于卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法。
如果樣本數(shù)量較少,則更適合使用SVM、決策樹和其他機器學(xué)習(xí)算法。如果你有一個大的數(shù)據(jù)集,你可以考慮使用卷積神經(jīng)網(wǎng)絡(luò)和其他深度學(xué)習(xí)算法。
以下是一個圖表,用于說明根據(jù)樣本數(shù)量和數(shù)據(jù)集大小選擇的任何機器學(xué)習(xí)算法。
如果你認為它對你有幫助,你可以多表揚,也可以關(guān)注它。謝謝您!tiktokwai
AI是目前互聯(lián)網(wǎng)應(yīng)用比較好的方向,所以需求比較大。推薦算法的地位還是很好的。推薦算法中有很多方向,如信息流推薦(今日頭條)、電子商務(wù)推薦(淘寶)、視頻推送(愛奇藝、抖動、快手等)、廣告推薦(馮超)等,這些業(yè)務(wù)幾乎是每個公司的收入。最好的部分,所以備受關(guān)注,因此,推薦算法工程師的前景是好的。