
端點(diǎn)檢測(cè)
語音端點(diǎn)檢測(cè)是對(duì)輸入的音頻流進(jìn)行分析,確定客戶說話的起點(diǎn)和終止點(diǎn)的處理過程。一旦檢測(cè)到客戶開始說話,語音開始流向識(shí)別引擎,直到檢測(cè)到客戶說話結(jié)束。這種方式能夠使得識(shí)別引擎在客戶說話的同時(shí)開始進(jìn)行識(shí)別處理,做到最大限度的即時(shí)處理。
端點(diǎn)檢測(cè)過程:
1.基于語音信號(hào)的特征,用能量,過零率,熵(entropy),音高(pitch)等參數(shù)以及它們的衍生參數(shù),來判斷信號(hào)流中的語音/非語音信號(hào)。
2.在信號(hào)流中檢測(cè)到語音信號(hào)后,判斷此處是否是語句的開始或結(jié)束點(diǎn)。在商用語音系統(tǒng)中,由于信號(hào)的多變的背景和自然對(duì)話模式而更容易使得句中有停頓(非語音),特別是在爆發(fā)聲母前總會(huì)有無聲間隙。因此,這種開始/結(jié)束的判定尤為重要。
n端點(diǎn)檢測(cè)目的:
1.減少識(shí)別器的數(shù)據(jù)處理量。可以大量減少信號(hào)傳輸量及識(shí)別器的運(yùn)算負(fù)載,對(duì)于語音對(duì)話的實(shí)時(shí)識(shí)別有重要作用。
2.拒絕非語音的信號(hào)。對(duì)非語音信號(hào)的識(shí)別不僅是一種資源浪費(fèi),而且有可能改變對(duì)話的狀態(tài),造成對(duì)用戶的困擾。
3.在需要打斷(barge-in)功能的系統(tǒng)中,語音的起始點(diǎn)是必須的。在端點(diǎn)檢測(cè)找到語音的起始點(diǎn)時(shí),系統(tǒng)將停止提示音的播放。完成打斷功能。
端點(diǎn)檢測(cè)對(duì)識(shí)別系統(tǒng)的影響
隨著語音識(shí)別應(yīng)用的發(fā)展,越來越多的系統(tǒng)將打斷功能作為一種方便有效的應(yīng)用模式。而打斷功能又直接依賴端點(diǎn)檢測(cè)。端點(diǎn)檢測(cè)對(duì)打斷功能的影響發(fā)生在判斷語音/非語音的過程出現(xiàn)錯(cuò)誤時(shí)。表現(xiàn)在過于敏感的端點(diǎn)檢測(cè)產(chǎn)生的語音信號(hào)的誤警將產(chǎn)生錯(cuò)誤的打斷。例如,提示音被很強(qiáng)的背景噪音或其它人的講話打斷,是因?yàn)槎它c(diǎn)檢測(cè)錯(cuò)誤的將這些信號(hào)作為有效語音信號(hào)造成的。反之,如果端點(diǎn)檢測(cè)漏過了事實(shí)上的語音部分,而沒有檢測(cè)到語音。系統(tǒng)會(huì)表現(xiàn)出沒有反應(yīng),在用戶講話時(shí)還在播放提示音。端點(diǎn)檢測(cè)對(duì)識(shí)別系統(tǒng)的識(shí)別效果影響也很大。語音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn)判斷有誤,有可能影響整個(gè)信號(hào)的完整性,在語句的開頭或結(jié)尾漏掉一些有用的數(shù)據(jù)。當(dāng)這種情況發(fā)生時(shí),很可能對(duì)識(shí)別的準(zhǔn)確度有特別大影響。不完全的信息會(huì)使識(shí)別率降低。
商用端點(diǎn)檢測(cè)應(yīng)具備的特性:
1.端點(diǎn)檢測(cè)的精確度高。
2.更好的背景噪聲和語音模型:使系統(tǒng)對(duì)背景噪聲,其它說話人和非語音的聲音有很好的拒絕功能。
3.默認(rèn)的系統(tǒng)相關(guān)參數(shù)有很好的適用性,而在有需要的現(xiàn)實(shí)環(huán)境中,可以通過系統(tǒng)調(diào)節(jié)來適應(yīng)通話環(huán)境,改善端點(diǎn)檢測(cè)的效果。
4.對(duì)信道有自適應(yīng)能力:在對(duì)話開始后能很快適應(yīng)當(dāng)前的信道特征,使得端點(diǎn)檢測(cè)的準(zhǔn)確度有進(jìn)一步提高。
5.獨(dú)特的識(shí)別服務(wù)器的反饋和非語音持續(xù)時(shí)間雙重結(jié)束點(diǎn)判定功能,有效的改善了語音結(jié)束點(diǎn)的判定。特別是對(duì)較長(zhǎng)的語句效果更加突出。
基于可靠的端點(diǎn)檢測(cè)技術(shù)和智能反饋,智能打斷功能不僅應(yīng)該在一般的環(huán)境下工作出色,而且能有效的拒絕環(huán)境噪聲,非語音的高強(qiáng)噪聲(呼吸,關(guān)門等)環(huán)境中其它人的聲音。
http://www.ounistar.com/
http://www.ounistar.com/
