sklearn中決策樹的建模流程 人工智能與機(jī)器學(xué)習(xí)的內(nèi)涵及聯(lián)系?
人工智能與機(jī)器學(xué)習(xí)的內(nèi)涵及聯(lián)系?人工智能和機(jī)器學(xué)習(xí)之間的關(guān)系是什么?-機(jī)器學(xué)習(xí)是利用實(shí)現(xiàn)程序人工智能的一種技術(shù)手段-算法模型-概念:普通的對(duì)象。特殊之處就取決于人該對(duì)象內(nèi)部也板載顯卡或是封裝方法好一個(gè)
人工智能與機(jī)器學(xué)習(xí)的內(nèi)涵及聯(lián)系?
人工智能和機(jī)器學(xué)習(xí)之間的關(guān)系是什么?
-機(jī)器學(xué)習(xí)是利用實(shí)現(xiàn)程序人工智能的一種技術(shù)手段
-算法模型
-概念:普通的對(duì)象。特殊之處就取決于人該對(duì)象內(nèi)部也板載顯卡或是封裝方法好一個(gè)某種方程(還是沒有求出解的方程)
-作用:算法模型對(duì)象終于求出的解那就是該算法模型基于分析和預(yù)測(cè)的或分類的結(jié)果
-預(yù)測(cè)
-分類
-樣本數(shù)據(jù):numpy,DataFrame
-樣本數(shù)據(jù)和算法模型之間的關(guān)聯(lián):樣本數(shù)據(jù)是必須解出到算法模型對(duì)象中對(duì)其采取內(nèi)部整體封裝的方程接受求解的操作。該過程被稱做模型的訓(xùn)練。
-組成部分:
-特征數(shù)據(jù):自變量(樓層,采光率,面積)
-目標(biāo)數(shù)據(jù):因變量(售價(jià))
-模型的分類:
-有監(jiān)督去學(xué)習(xí):假如模型必須的樣本數(shù)據(jù)中必須包涵特征和目標(biāo)數(shù)據(jù),則該模型歸為有監(jiān)督學(xué)習(xí)的分類
-無監(jiān)督學(xué)習(xí):要是模型要的樣本數(shù)據(jù)只要有特征數(shù)據(jù)再試一下。
-sklearn模塊:至少封裝方法了10多種算法模型對(duì)象。
-線性回歸模型算法模型-》分析和預(yù)測(cè)
-KNN算法模型-》分類
分類和分析和預(yù)測(cè)的區(qū)別
-分類
分類:輸入輸入樣本數(shù)據(jù),輸出來隨機(jī)的類別,將樣本中每個(gè)數(shù)據(jù)對(duì)應(yīng)三個(gè)試求屬性。(有監(jiān)督學(xué)習(xí))
分類算法分成三類兩步:
(1)學(xué)習(xí)步:是從訓(xùn)練樣本數(shù)據(jù)集,確立分類劃分規(guī)則
(2)歸類步:用試求的測(cè)試樣本集評(píng)估分類規(guī)則的準(zhǔn)確率,若準(zhǔn)確率可接受,則是建議使用該規(guī)則對(duì)除樣本以外的數(shù)據(jù)(待測(cè)樣本集)并且分析和預(yù)測(cè)。
-分析預(yù)測(cè)
預(yù)測(cè):兩種或是兩種以上的變量之間相互依賴的函數(shù)模型,進(jìn)行預(yù)估或則操縱。
預(yù)測(cè)國家算法分兩步:
(1)是從訓(xùn)練集組建樣本模型
(2)檢驗(yàn)后參與預(yù)測(cè)或是壓制
-正確的分類與預(yù)測(cè)算法
1.回歸分析:線形進(jìn)入虛空、非線性重臨、Logistic回歸、嶺輪回、主成分重臨、最小二乘回歸等。
2.決策樹:分類算法
(人工神經(jīng)網(wǎng)絡(luò)):
4.貝葉斯網(wǎng)絡(luò)
5、支持向量機(jī)(svm):將低維非線性轉(zhuǎn)換的為高維線形進(jìn)行計(jì)算。
關(guān)于sklearn中的決策樹是否應(yīng)該用one-hot編碼?
sklearn中的決策樹是CART,咱們都知道它是實(shí)現(xiàn)基尼指數(shù)的二叉樹。這樣的話相對(duì)于一個(gè)屬性,并不會(huì)中,選擇一個(gè)值對(duì)該屬性劃分成兩部分。要是有一個(gè)離散化方法特征的取值有1000個(gè),諸如商品的品牌,這樣如果沒有直接按順序從0到999編號(hào),有無會(huì)出問題?要知道CART會(huì)從0-999選不一個(gè)編號(hào)接受劃分,但是這些編號(hào)的順序卻沒意義,這個(gè)劃分問題看樣子也不現(xiàn)代科學(xué)。此時(shí)有無應(yīng)該用獨(dú)熱編碼?
不要,樹模型不計(jì)算距離。