編碼的三個主要特征 embedding技術(shù)介紹?
embedding技術(shù)介紹?嵌入技術(shù)是一種利用低維稠密向量來表示對象的方法,使向量能夠表達相應(yīng)對象的一些特征,向量之間的距離能夠反映對象之間的相似性。作為深度學(xué)習(xí)的一個熱門研究方向,它經(jīng)歷了從序列樣本
embedding技術(shù)介紹?
嵌入技術(shù)是一種利用低維稠密向量來表示對象的方法,使向量能夠表達相應(yīng)對象的一些特征,向量之間的距離能夠反映對象之間的相似性。
作為深度學(xué)習(xí)的一個熱門研究方向,它經(jīng)歷了從序列樣本、物理圖形樣本到異構(gòu)多特征樣本的發(fā)展過程。此外,由于嵌入式技術(shù)具有較強的信息綜合表示能力和較低的在線部署門檻,進一步加快了其在工業(yè)中的應(yīng)用。
怎么形象理解embedding這個概念?
嵌入可以理解為降維,或者一種映射,在這種映射中,一些復(fù)雜且難以表達的特征可以相對地用數(shù)學(xué)方法或更多的計算方法來表達。例如,把單詞變成一個向量,把數(shù)字(奇偶正反實數(shù)復(fù)合性質(zhì))變成一個n維矩陣。
T3中客戶分類中的類別編碼怎么設(shè)置的?
對于離散的特性,如大尺寸的ID,一個熱編碼將導(dǎo)致尺寸過大和訓(xùn)練困難。處理這類特征的最佳方法是將其嵌入到一個固定維的實空間中。
例如,對于用戶ID,在一個大數(shù)據(jù)集中可能有數(shù)以億計的用戶ID。對于這些ID,我們可以將它們映射到64維空間。模型訓(xùn)練實際上是在64維空間中更新用戶ID和相應(yīng)的嵌入向量。這樣,每個用戶ID可以包含的信息被包括在64維實向量中。