語音識別、語音合成、聲紋識別技術,可以將一個人的聲音轉化為另一個人的聲音,將其變成另一個人。而智能語音平臺作為聲音處理的硬件平臺,是智能語音技術落地應用的重要載體。目前常見的智能聲學模型需要開發(fā)者進行專業(yè)訓練,后生成對應的音頻流產(chǎn)品或音頻數(shù)據(jù);對于非聲學模型來說,需要對開發(fā)者提供的原始音頻進行專業(yè)處理,生成相應音效庫。而這些都無法直接應用于智能語音平臺之上;我們需要一個質檢系統(tǒng)來幫助開發(fā)者們監(jiān)督及反饋訓練質量。
我們推薦使用第三方服務進行質檢。對于第三方服務,我們提供了兩種質檢方式;一種是直接從錄音文件中提取質檢數(shù)據(jù)進行處理,一種是從平臺上傳語音文件到第三方服務進行識別分析。
1、數(shù)據(jù)采集
采集的音頻文件包括了從設備端到服務端的所有音視頻數(shù)據(jù)。
包括:
A、本地設備錄制的音頻文件;
B、云服務器保存的音頻文件;
2、質檢分析
質檢分析結果可在質檢系統(tǒng)中直接查看,并支持導出數(shù)據(jù)。
通過對聲音進行識別后,系統(tǒng)會根據(jù)用戶上傳的聲音文件,結合文本檢測技術,對錄音文件的內容進行檢測;然后結合文本檢測技術與文本識別技術形成音頻檢測報告。
該部分報告將詳細介紹音頻文件中各聲學部分的內容及缺陷、語音部分的信息等內容。
同時可對該音頻文件進行評分,并在后臺統(tǒng)計得出對應評分結果及其占比,從而提供相應的反饋及建議。
另外還可以提供針對某一特定領域產(chǎn)品訓練時用到的特征詞、特征詞組、特定領域等關鍵詞進行相關統(tǒng)計分析和可視化輸出,方便開發(fā)者更好地理解模型訓練結果及提高訓練效果。
3、結果輸出
輸出結果包含三種:
標準輸出:可供開發(fā)者進行訓練時使用,例如測試數(shù)據(jù)或檢測結果等;
標準輸出:供產(chǎn)品提供方進行分析時使用,例如根據(jù)聲音參數(shù)、聲壓級等進行相關參數(shù)的優(yōu)化等。
4、平臺管理
管理服務:
包括對系統(tǒng)的維護,修改及刪除等;
包括對設備的監(jiān)控和故障診斷的功能;
支持對系統(tǒng)中的所有功能進行監(jiān)控。
管理方式:平臺端管理方式,可使用管理工具或軟件等進行添加、刪除及修改服務列表;
5、其他功能
支持離線使用,可遠程調用離線語音識別功能;
(文章轉載于天潤融通)