bert為什么要加上lstm LSTM CRF模型中的CRF是完整的CRF還是動(dòng)態(tài)規(guī)劃算法?
LSTM CRF模型中的CRF是完整的CRF還是動(dòng)態(tài)規(guī)劃算法?你好,謝謝你的邀請(qǐng)。首先,CRF與LSTM無(wú)關(guān)。其次,CRF和HMM最大的區(qū)別是CRF是全局標(biāo)準(zhǔn)化的,這減輕了標(biāo)簽偏差。那么LSTM的本征
LSTM CRF模型中的CRF是完整的CRF還是動(dòng)態(tài)規(guī)劃算法?
你好,謝謝你的邀請(qǐng)。
首先,CRF與LSTM無(wú)關(guān)。
其次,CRF和HMM最大的區(qū)別是CRF是全局標(biāo)準(zhǔn)化的,這減輕了標(biāo)簽偏差。
那么LSTM的本征函數(shù)就是提取的向量,或者LSTM本身就是一個(gè)本征函數(shù)。
那么,LSTM CRF中的轉(zhuǎn)移概率非常棘手。實(shí)際上,它是由tune導(dǎo)出的轉(zhuǎn)移矩陣。目的是增加馬爾可夫性和使用CRF。實(shí)踐表明,在LSTM上使用CRF是沒(méi)有用的。現(xiàn)在我們不用它了,因?yàn)長(zhǎng)STM本身已經(jīng)足夠精確了。
最后,我認(rèn)為動(dòng)態(tài)規(guī)劃只是CRF的計(jì)算方法,而不是模型本身。
請(qǐng)問(wèn)神經(jīng)網(wǎng)絡(luò)有多個(gè)輸出的回歸問(wèn)題,損失函數(shù)如何定義比較合理?
簡(jiǎn)述損失函數(shù)和風(fēng)險(xiǎn)函數(shù)的定義?(高等統(tǒng)計(jì)學(xué))?
最重要的是線性代數(shù)和概率論。
現(xiàn)在最流行的機(jī)器學(xué)習(xí)模型,神經(jīng)網(wǎng)絡(luò)基本上有很多向量、矩陣、張量。從激活函數(shù)到損失函數(shù),從反向傳播到梯度下降,都是對(duì)這些向量、矩陣和張量的運(yùn)算和操作。
其他“傳統(tǒng)”機(jī)器學(xué)習(xí)算法也使用大量線性代數(shù)。例如,線性回歸與線性代數(shù)密切相關(guān)。
從線性代數(shù)的觀點(diǎn)來(lái)看,主成分分析是對(duì)協(xié)方差矩陣進(jìn)行對(duì)角化。
尤其是當(dāng)你讀論文或想更深入的時(shí)候,概率論的知識(shí)是非常有用的。
它包括邊緣概率、鏈?zhǔn)揭?guī)則、期望、貝葉斯推理、最大似然、最大后驗(yàn)概率、自信息、香農(nóng)熵、KL散度等。
神經(jīng)網(wǎng)絡(luò)非常講究“可微性”,因?yàn)榭晌⒛P涂梢杂锰荻认陆捣▋?yōu)化。梯度下降和導(dǎo)數(shù)是分不開的。所以多元微積分也需要。另外,由于機(jī)器學(xué)習(xí)是以統(tǒng)計(jì)方法為基礎(chǔ)的,因此統(tǒng)計(jì)知識(shí)是必不可少的。但是,大多數(shù)理工科專業(yè)學(xué)生都應(yīng)該學(xué)過(guò)這兩部分內(nèi)容,所以這可能不屬于需要補(bǔ)充的內(nèi)容。