word2vec怎么用 word2vec詞向量怎么來的?
word2vec詞向量怎么來的?2013年,谷歌推出了一款開源的word矢量計(jì)算工具word2vec,引起了業(yè)界和學(xué)術(shù)界的關(guān)注。首先,word2vec可以在數(shù)百萬個(gè)詞典和數(shù)億個(gè)數(shù)據(jù)集上進(jìn)行有效的訓(xùn)練;
word2vec詞向量怎么來的?
2013年,谷歌推出了一款開源的word矢量計(jì)算工具word2vec,引起了業(yè)界和學(xué)術(shù)界的關(guān)注。首先,word2vec可以在數(shù)百萬個(gè)詞典和數(shù)億個(gè)數(shù)據(jù)集上進(jìn)行有效的訓(xùn)練;其次,wordembedding工具的訓(xùn)練結(jié)果可以度量量詞之間的相似度。隨著深度學(xué)習(xí)在自然語言處理中的普及,許多人錯(cuò)誤地認(rèn)為word2vec是一種深度學(xué)習(xí)算法。實(shí)際上,word2vec算法的背后是一個(gè)淺層的神經(jīng)網(wǎng)絡(luò)。需要強(qiáng)調(diào)的另一點(diǎn)是,word2vec是一個(gè)用于計(jì)算worddirector的開源工具。當(dāng)我們談到word2vec算法或模型時(shí),實(shí)際上是指用于計(jì)算wordvector的cbow模型和skip-gram模型。很多人認(rèn)為word2vec是指一種算法或模型,這也是一種謬誤。接下來,本文將從統(tǒng)計(jì)語言模型入手,詳細(xì)介紹word2vec工具背后算法模型的起源和發(fā)展。詳細(xì)信息:網(wǎng)頁鏈接
~],是通過word2vec查找句子之間的相似度。
今天我想介紹一個(gè)簡單有效的方法,就是用word2vec來尋找句子之間的相似度。
首先,選擇同義詞庫,例如500000個(gè)單詞。然后,使用word2vec計(jì)算所有單詞的向量。然后,為每個(gè)句子構(gòu)造一個(gè)200000維向量。向量的每個(gè)維度是對(duì)應(yīng)單詞和句子中每個(gè)單詞之間的最大相似度。這樣,句子的向量就被構(gòu)造出來了。因?yàn)榫渥硬惶L,所以200000維向量的大多數(shù)位置的值是0,因?yàn)榻馐窍∈璧牟⑶覜]有計(jì)算挑戰(zhàn)。
如何用word2vec計(jì)算兩個(gè)句子之間的相似度?
:將一個(gè)熱向量轉(zhuǎn)換為低維單詞向量的層(雖然我們不稱它為層,但我認(rèn)為它是一個(gè)層),因?yàn)閣ord2vec的輸入是一個(gè)熱向量。
一個(gè)hot可以看作是1*n的矩陣(n是總字?jǐn)?shù))。將這個(gè)系數(shù)矩陣(n*m,m是word2vec的字向量維數(shù))相乘,我們可以得到一個(gè)1*m的向量,它是對(duì)應(yīng)于這個(gè)字的字向量。
因此對(duì)于n*m矩陣,每行對(duì)應(yīng)于每個(gè)單詞的單詞向量。
下一步是進(jìn)入神經(jīng)網(wǎng)絡(luò),然后通過訓(xùn)練不斷更新矩陣。