中文開(kāi)源語(yǔ)音識(shí)別引擎 語(yǔ)音識(shí)別的技術(shù)原理是什么?
語(yǔ)音識(shí)別的技術(shù)原理是什么?看圖編碼:把語(yǔ)音變成向量頻域信息:人類是通過(guò)振動(dòng)頻率來(lái)判斷聲音的,所以要用傅里葉變換來(lái)完成時(shí)域頻域之間的轉(zhuǎn)換;特征:如,MFCC是依照人耳的聽(tīng)聲特點(diǎn)提出的filter。然后我
語(yǔ)音識(shí)別的技術(shù)原理是什么?
- 編碼:把語(yǔ)音變成向量
- 頻域信息:人類是通過(guò)振動(dòng)頻率來(lái)判斷聲音的,所以要用傅里葉變換來(lái)完成時(shí)域頻域之間的轉(zhuǎn)換;
- 特征:如,MFCC是依照人耳的聽(tīng)聲特點(diǎn)提出的filter。然后我們有了語(yǔ)音向量。
- 訓(xùn)練:從數(shù)據(jù)中學(xué)習(xí)對(duì)語(yǔ)音的判斷,而不是用人工的規(guī)則。
- 聲學(xué)模型(acoustic model):用于識(shí)別語(yǔ)音向量;可用GMM或DNN等方法來(lái)識(shí)別向量,用DTW或HMM或CTC來(lái)對(duì)齊(alignment)識(shí)別結(jié)果的輸出(單詞從何時(shí)開(kāi)始,何時(shí)結(jié)束)
- 字典(dictionary):多數(shù)模型并不是以單詞,而是以音素為識(shí)別單位。當(dāng)識(shí)別出? p l這三個(gè)音素時(shí),利用字典,就可以判斷出所說(shuō)的詞是apple。
- 語(yǔ)言模型(language model):我們?cè)诼?tīng)老外說(shuō)錯(cuò)誤的中文時(shí)依然能夠識(shí)別內(nèi)容是因?yàn)槲覀冇嘘P(guān)于語(yǔ)法的知識(shí),可以調(diào)整聲學(xué)模型所識(shí)別出的不合邏輯的詞語(yǔ)。這就是語(yǔ)言模型的作用
解碼:用訓(xùn)練好的模型組合起來(lái)就可以通過(guò)判斷新的語(yǔ)音向量,來(lái)識(shí)別語(yǔ)音了。
在電腦上如何進(jìn)行語(yǔ)音識(shí)別?
有幾種方法:使用電腦自帶的功能、使用第三方軟件、使用第三方網(wǎng)站。
無(wú)論是windows、Mac、還是Linux的一些發(fā)行版,都有自帶的語(yǔ)音識(shí)別工具。但是這些工具普遍性能一般,準(zhǔn)確率不怎么高。一般在控制面板、系統(tǒng)設(shè)置之類的菜單中就可以找到。
用第三方軟件來(lái)語(yǔ)音識(shí)別更常見(jiàn),效果也更好。訊飛、搜狗以及其他一些輸入法廠商都提供了語(yǔ)音輸入功能,可以借由連接遠(yuǎn)程服務(wù)器,直接把說(shuō)話的內(nèi)容轉(zhuǎn)化為文字。準(zhǔn)確率比系統(tǒng)自帶的識(shí)別工具強(qiáng)一些。值得一提的是訊飛輸入法,是中文語(yǔ)音識(shí)別效果最好的產(chǎn)品。
網(wǎng)絡(luò)工具則更專注于把整段音頻轉(zhuǎn)化成文字。借助服務(wù)器的運(yùn)算速度和龐大的語(yǔ)料庫(kù)與算法,這些工具往往可以提供比單機(jī)語(yǔ)音輸入更好的效果。
在這一類里推薦幾個(gè):
Google的autosub,可以把音頻轉(zhuǎn)化成文字,支持九十多種語(yǔ)言,速度很快。
訊飛聽(tīng)見(jiàn),支持普通話和多種方言,有120分鐘的免費(fèi)使用時(shí)間,超過(guò)了需要付款。
IBM 的watson Speech to Text 使用的是Watson人工智能系統(tǒng),可以支持不超過(guò)100M的文件。