成人AV在线无码|婷婷五月激情色,|伊人加勒比二三四区|国产一区激情都市|亚洲AV无码电影|日av韩av无码|天堂在线亚洲Av|无码一区二区影院|成人无码毛片AV|超碰在线看中文字幕

batchsize設(shè)置多少合適 python interpolate函數(shù)用法?

python interpolate函數(shù)用法?最近都用到了上采樣下采樣操作,pytorch中可以使用interpolate可以不很輕松的能完成definterpolate(input,sizeNone

python interpolate函數(shù)用法?

最近都用到了上采樣下采樣操作,pytorch中可以使用interpolate可以不很輕松的能完成

definterpolate(input,sizeNone,scale_factorNone,modenearest,align_cornersNone):

r

根據(jù)給定size或scale_factor,上采樣點(diǎn)或下樣本采集再輸入數(shù)據(jù)input.

當(dāng)前支持temporal,spatial和volumetric輸入數(shù)據(jù)的上采樣,其shape各為:3-D,4-D和5-D.

輸入數(shù)據(jù)的形式為:mini-batchxchannelsx[optionaldepth]x[optionalheight]xwidth.

上采樣點(diǎn)算法有:nearest,linear(3D-only),bilinear(4D-only),trilinear(5D-only).

參數(shù):

-input(Tensor):inputtensor

-size(int同問(wèn)Tuple[int]同問(wèn)Tuple[int,int]有.Tuple[int,int,int]):輸出的spatial尺寸.

-scale_factor(floatorTuple[float]):spatial尺寸的縮放因子.

-mode(string):上樣本采樣算法:nearest,linear,bilinear,trilinear,area.系統(tǒng)默認(rèn)為nearest.

-align_corners(bool,optional):如果不是text-align_cornersTrue,則對(duì)齊input和input的角點(diǎn)像素(cornerpixels),一直保持在角點(diǎn)像素的值.

變分自編碼器(VAE)目前存在哪些問(wèn)題,發(fā)展方向是什么?

變分自編碼器(VAE)與生成對(duì)抗網(wǎng)絡(luò)(GAN)一樣,是無(wú)監(jiān)督學(xué)習(xí)最具前景的方法之一。本文中,牛津大學(xué)統(tǒng)計(jì)系在讀博士AdamKosiorek從原理上向我們?cè)敿?xì)介紹了VAE目前面臨的挑戰(zhàn)。另外,文中也提出來(lái)了相對(duì)于該方法的幾種改進(jìn)方向。

隱變量模型

假設(shè)不成立你我希望實(shí)際一個(gè)定義在x∈RD上的概率分布來(lái)對(duì)整個(gè)世界建模,其中p(x)表示x很可能處于的狀態(tài)。這個(gè)世界可能會(huì)相當(dāng)急切,我們根本無(wú)法明白p(x)的詳細(xì)形式。目的是可以解決這個(gè)問(wèn)題,我們分解重組一個(gè)變量z∈Rd來(lái)詳細(xì)解釋x的背景信息。的或x是一個(gè)圖像,那就z就可以不記錄關(guān)于圖像中可以說(shuō)物體的出現(xiàn)、數(shù)量、類(lèi)型,包括畫(huà)面的背景和光影條件的信息。這個(gè)新的變量讓我們可以不將p(x)可以表示為一個(gè)無(wú)窮混合模型。

這是一個(gè)水配模型,因?yàn)橄鄬?duì)于z的輸入可能會(huì)取值,都化入另一個(gè)條件分布特點(diǎn),并的概率通過(guò)加權(quán),到了最后得到p(x)。

在這樣的設(shè)定下,「決策變量x的觀測(cè)值,隱變量z是什么」就成了一個(gè)相當(dāng)很有意思的問(wèn)題。

也就是說(shuō),我們?nèi)绻芮宄篁?yàn)分布特點(diǎn)p(z∣x)。但是,z和x之間也可以顯現(xiàn)出一定高度的離散時(shí)間關(guān)系(諸如,由一個(gè)多層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)),但是,D——我們觀測(cè)值的維度,和d——隱變量的維度,也很有可能的很大。而邊緣分布的位置和后驗(yàn)廣泛分布都必須對(duì)(1)式積分求值,我們懷疑它們?nèi)菬o(wú)法可以計(jì)算的。

我們這個(gè)可以實(shí)際蒙特卡羅隨機(jī)抽樣,根據(jù)p(x)≈1M∑Mm1p(x∣z(m))p(x)≈1M∑m1Mp(x∣z(m)),z(m)~p(z)來(lái)肯定(1)式,但導(dǎo)致z的空間可能非常大,我們可能是需要上百萬(wàn)個(gè)z的樣本,來(lái)能夠得到一個(gè)靠譜的估計(jì)。

在訓(xùn)練一個(gè)概率模型的時(shí)候,我們也可以不使用參數(shù)分布-它的參數(shù)由一個(gè)參數(shù)為θ∈Θ的神經(jīng)網(wǎng)絡(luò)來(lái)可以確定?,F(xiàn)在,我們就這個(gè)可以可以使用更大似然估記來(lái)自學(xué)得到這些參數(shù)。

這里的問(wèn)題是,我們不能最大化(1)式,只不過(guò)我們不能估記它。是為解決的辦法這個(gè)問(wèn)題,我們可以不高分懸賞于有用抽樣(importancesampling)。當(dāng)我們不需要對(duì)遺留下來(lái)(名義分布)概率密度廣泛分布(pdf)算上一個(gè)期望值時(shí),IS也讓我們是可以從兩個(gè)完全不同的概率其分布(建議您廣泛分布)中抽樣,接著將這些樣本對(duì)名義分布求期望。用q?(z∣x)它表示我們的建議分布-其中的參數(shù)由參數(shù)為?∈Φ的神經(jīng)網(wǎng)絡(luò)確定。我們是可以我得到:

依據(jù)重要性抽樣的文獻(xiàn)可知,最優(yōu)的建議分布,與名義分布除以2某個(gè)函數(shù)成比例,其中這個(gè)函數(shù)的期望是我們期望估計(jì)的。在我們的設(shè)定下,「某個(gè)函數(shù)」那是p(x|z)。據(jù)貝葉斯定理,p(z∣x)p(x∣z)p(z)/p(x),這個(gè)時(shí)候,選擇最優(yōu)建議您分布與后驗(yàn)分布成比例,想來(lái),后驗(yàn)分布特點(diǎn)根本無(wú)法求高人。

變分自編碼器的誕生

幸運(yùn)的是,當(dāng)然了我們這個(gè)可以一石三鳥(niǎo):一個(gè)學(xué)到的建議其分布來(lái)形狀相同肯定后驗(yàn)分布,我們這個(gè)可以最有效的得到邊緣分布特點(diǎn)pθ(x)的估計(jì)。在這里,我們不動(dòng)聲色間換取了一個(gè)三句半碼的設(shè)定。就是為了怎么學(xué)習(xí)我們的模型,我們需要:

pθ(x,z)-生成模型,其中真包含:

pθ(x∣z)-一個(gè)概率形式的解碼器,和

p(z)-一個(gè)定義在隱變量上的先驗(yàn)分布

q?(z∣x)-一個(gè)概率形式的編碼器

替類(lèi)似估計(jì)后驗(yàn)其分布,我們可以不利用建議分布和后驗(yàn)其分布之間的KL散度(可以不表述為兩個(gè)概率分布的位置之間的距離外),并且我們這個(gè)可以游戲窗口化這個(gè)結(jié)果。

這會(huì)兒,我們?cè)庥龅男聠?wèn)題就是:替可以計(jì)算KL散度,我們是需要知道后驗(yàn)其分布。并非是沒(méi)有可能,只需依靠一點(diǎn)點(diǎn)代數(shù)乘除運(yùn)算,我們就能能得到這個(gè)可以計(jì)算出的目標(biāo)函數(shù)。

我在第二行展開(kāi)攻擊了對(duì)數(shù)項(xiàng),在第三行建議使用了貝葉斯定理以及pθ(x)和z是的的的事實(shí)。后來(lái)一行中的L(xθ,?)是對(duì)數(shù)概率分布pθ(x)的下界-即常見(jiàn)說(shuō)的的證據(jù)下界(ELBO)。我們是從整理好可以得到:

只不需要一個(gè)從我建議你分布特點(diǎn)中抽得的樣本,我們就是可以我得到類(lèi)似肯定:

我們尋找風(fēng)利用最大化ELBO的?和θ(大多可以使用隨機(jī)梯度下降算法)來(lái)訓(xùn)練模型:

是從價(jià)值最大化ELBO,我們或(1)最大化邊緣分布特點(diǎn),或(2)最小化KL散度,或而完成。不需要注意,ELBO的形狀相同大概是f(x)1、重要性權(quán)重為w(x)pθ(x,z)q?(z∣x)的重要性抽取樣本的期望的對(duì)數(shù)形式。

這個(gè)估記量什么?

如果沒(méi)有你足夠一遍的看重要性抽樣,就能發(fā)現(xiàn),對(duì)建議其分布的支撐估計(jì)比對(duì)名義分布的支撐更越來(lái)越廣泛——應(yīng)該是而盡量減少肯定量方差無(wú)限小和數(shù)值的不穩(wěn)定性。在這里,最好是來(lái)系統(tǒng)優(yōu)化KL(p∣∣q)的倒數(shù)——因?yàn)樗心J狡骄再|(zhì),而并非360優(yōu)化KL(q∣∣p),來(lái)趁機(jī)是從模式q去看操作找到一個(gè)建議的模式p。這意味著我們必須從假的的后驗(yàn)廣泛分布中進(jìn)行抽樣,而這是很困難的。以及其它的東西,我們這個(gè)可以不使用ELBO的IS估記,充當(dāng)重要性加權(quán)自編碼器(IWAE)。這里的想法很簡(jiǎn)單:我們從我建議你其分布中吸納k個(gè)樣本,并從中換算出平均概率比,這里的每一個(gè)樣本也叫「粒子」。

早就其他證明,這個(gè)肯定量是在優(yōu)化修正后的KL散度KL(qIS∣∣pIS),其中qIS和pIS的定義共有是:

但他和遠(yuǎn)古時(shí)期分布可那逼近,但qIS和pIS愿意q和p中修真者的存在預(yù)想以外的小的變動(dòng)。各種論文中可證明,360優(yōu)化這個(gè)下界也可以得到更好的生成模型。而它也提出了一個(gè)另一種后驗(yàn)分布的位置q的熵非常大的估計(jì)(更寬,更分與合),并最終的完全超越了遺留下來(lái)KL散度的模式匹配方法。另外個(gè)很有意思的結(jié)果,如果我們令粒子K的數(shù)量趨近無(wú)窮盡,我們就可以不不要推斷模型q。

IWAE(第一行)和VAE(第二行)中z的后驗(yàn)分布特點(diǎn)。圖像從IWAE論文中重現(xiàn)歷史我得到。

IWAE有啥?

重要性加權(quán)ELBO,或IWAE,推廣吧了上古時(shí)代的ELBO:是對(duì)K1,我們有LKL1L。同時(shí)有l(wèi)ogp(x)≥Ln 1≥Ln≥L1。簡(jiǎn)而言之,我們單獨(dú)大概LK的粒子就會(huì),它的結(jié)果可能會(huì)越接近數(shù)據(jù)假的對(duì)數(shù)概率分布的位置——即「界限越緊」。這意味著和遠(yuǎn)古時(shí)期ELBO的梯度相比較,通過(guò)對(duì)IWAE求微分我得到的梯度肯定量可以幫助我們找不到一個(gè)要好的梯度方向。自余之外,不斷K的增加,梯度大概量的方差會(huì)相對(duì)應(yīng)收縮起來(lái)。

是對(duì)生成模型這些點(diǎn)更加好,但對(duì)付建議廣泛分布的時(shí)候,就會(huì)再次出現(xiàn)問(wèn)題。伴隨著K的速度變大,見(jiàn)意分布特點(diǎn)中參數(shù)的梯度的大小會(huì)趨于0,但是比方差收斂得還得快。

令Δ(?)意思是我們優(yōu)化的目標(biāo)函數(shù)(即ELBO)在?上的梯度的小批量肯定。如果不是定義,定義參數(shù)更新完的信號(hào)-噪聲比(SNR)萬(wàn)分感謝:

其中E和V四個(gè)可以表示期望過(guò)和方差。更說(shuō)明是對(duì)pθ,SNR與此同時(shí)K增強(qiáng)而提高,但是對(duì)q?,SNR緊接著K增強(qiáng)而會(huì)增大。這里的結(jié)論很簡(jiǎn)單啊:我們可以使用的粒子一定,我們的推斷模型效果是會(huì)越差。如果我們冷淡的是可以表示學(xué),我們是會(huì)遇到問(wèn)題了。

更好的估計(jì)量

如果說(shuō)我們?cè)谧罱恼撐摹禩ighter Variational Bounds are Not Necessarily Better》中證明的,我們這個(gè)可以我得到比IWAE更合適的結(jié)果。思路是在推斷和生成模型中使用不同的目標(biāo),這種方法,我們這個(gè)可以絕對(duì)的保證兩個(gè)目標(biāo)中都得到小方差非零梯度,結(jié)果能夠得到更好的模型。

不同的訓(xùn)練目標(biāo)在訓(xùn)練訓(xùn)練時(shí)期中信號(hào)-噪聲比

在上圖中,我們比較好了建議您分布q?的參數(shù)?z在更新完中的SNR。SNR最低的VAE最360優(yōu)化L1來(lái)訓(xùn)練。SNR最低的IWAE則通過(guò)最優(yōu)化L64。中間的三條曲線可以使用的是不同的組合:生成模型中不使用的L64,斷定模型中可以使用的則是L8或L1。在當(dāng)前指標(biāo)下,它們效果可是沒(méi)有VAE好,但訓(xùn)練出的建議分布和生成模型都比不使用VAE或IWAE得到的好。

這里有一個(gè)令人驚訝的副作用:不使用我們新的肯定量訓(xùn)練的模型比在用IWAE本身訓(xùn)練的模型提升了更高的L64界限。為什么會(huì)這樣?實(shí)際研究最有效樣本量(ESS)和數(shù)據(jù)的邊緣概率分布的位置的對(duì)數(shù),倒是是最系統(tǒng)優(yōu)化L1,導(dǎo)致了性質(zhì)好是的建議分布但性質(zhì)最差的生成模型。如果我們將一個(gè)好的建議分布和一個(gè)是可以得出好的生成模型的目標(biāo)特點(diǎn)在一起,我們應(yīng)該可以得到這個(gè)目標(biāo)的一個(gè)方差更小的估計(jì),甚至而是可以換取更好的模型。請(qǐng)?jiān)谶@里欄里點(diǎn)我們論文的詳情。

論文:TighterVariationalBoundsthey'reNot Necessarily Better

論文地址:

摘要:我們而在理論和經(jīng)驗(yàn)上其他證明,可以使用更緊的信息下界(ELBO)可能并進(jìn)一步影響是從下降梯度估計(jì)也量的信號(hào)-噪聲比來(lái)自學(xué)推斷網(wǎng)絡(luò)的過(guò)程。我們的結(jié)果對(duì)目前都廣應(yīng)用的隱含假設(shè):「更緊的ELBO是聯(lián)立模型自學(xué)和猜想攤銷(xiāo)模式中更適合的變分目標(biāo)」提出來(lái)了敢質(zhì)疑。依據(jù)我們的研究,我們提出來(lái)了三個(gè)新的算法:偏重要性加權(quán)自編碼器(PIWAE)、多層重要性加權(quán)自編碼器(MIWAE)和組織重要性加權(quán)自編碼器(CIWAE);在這三個(gè)算法中,標(biāo)準(zhǔn)的重要性自編碼器(IWAE)都這個(gè)可以才是一個(gè)特殊情況。我們可以證明了這三個(gè)自編碼器都可以在IWAE的基礎(chǔ)上取得效果提升——就算是我們不使用的是IWAE中的目標(biāo)來(lái)測(cè)試3效果。一系列來(lái)說(shuō),和IWAE兩者相比,PIWAE也可以同樣提升到推斷網(wǎng)絡(luò)和生成網(wǎng)絡(luò)的效果。