卷積神經(jīng)網(wǎng)絡(luò) 聲紋識別技術(shù)主要技術(shù)部分有哪些?
聲紋識別技術(shù)主要技術(shù)部分有哪些?聲紋的主要技術(shù)難點是如何從語音信號中提取和表達與說話人相關(guān)的信息。一般來說,提取一段語音中與說話人相關(guān)的特征主要按照圖中所示的過程進行:對于采集到的語音,首先進行有效語
聲紋識別技術(shù)主要技術(shù)部分有哪些?
聲紋的主要技術(shù)難點是如何從語音信號中提取和表達與說話人相關(guān)的信息。一般來說,提取一段語音中與說話人相關(guān)的特征主要按照圖中所示的過程進行:對于采集到的語音,首先進行有效語音檢測(VAD),去除采集到的語音中的非有效部分,然后進行聲學(xué)特征提取。由于語音信號是一種短時非平穩(wěn)、不定長的信號,特征提取通常采用加窗的方法來提取幀內(nèi)特征。目前常用的聲學(xué)特征有經(jīng)典的Mel倒譜系數(shù)MFCC、當前感知預(yù)測系數(shù)PLP和基于深度學(xué)習(xí)的熱特征深度特征。在得到聲學(xué)特征后,進一步提取說話人信息。采用向量算法和帶殘差處理的深度卷積神經(jīng)網(wǎng)絡(luò)算法。在建模之后,我們可以對語音進行更深層次的特征表示,從而進一步呈現(xiàn)出與說話人相關(guān)的信息。最后,該模型可以將特征提取階段得到的特征進一步轉(zhuǎn)化為能夠代表說話人特征的樣本。這樣,我們就可以將特定說話人的語音完全轉(zhuǎn)化為能夠代表說話人特征的模型。識別和匹配階段相對容易理解。采集測試語音后,進行相應(yīng)的特征提取操作,然后用模板庫中的所有模板樣本計算相似度距離,最后選擇最近的一個作為最終決策結(jié)果。(如下圖所示)]~][倒譜系數(shù)法]是利用倒譜系數(shù)進行信號處理和檢測的方法。它是信號處理和信號檢測的經(jīng)典方法。倒譜信號經(jīng)過對數(shù)運算后的傅里葉變換譜的逆傅里葉變換。倒譜系數(shù)的具體計算方法是先進行預(yù)處理,然后加窗、傅立葉變換,得到功率譜,再得到其自然對數(shù),最后進行DCT變換。離散余弦變換(DCT)全稱為離散余弦變換(DCT),是指將一組光強數(shù)據(jù)轉(zhuǎn)換為頻率數(shù)據(jù),以了解光強的變化。