主頁 > 知識庫 > 多語種機器翻譯引擎 助力專利審查和檢索的“ 神器”

多語種機器翻譯引擎 助力專利審查和檢索的“ 神器”

熱門標簽:佛山400電話怎么申請 躍順地圖標注服務商 泗陽正規(guī)電話機器人服務商 電銷智能機器人介紹作文 商戶地圖標注收騰訊地圖標注商戶 覓呼電話機器人 公司企業(yè)地圖標注好處 電話機器人原理是什么 商家地圖標注賺錢店
來源: 中國知識產(chǎn)權(quán)報/中國知識產(chǎn)權(quán)資訊網(wǎng)
中國專利信息中心機器翻譯團隊在討論問題。(資料圖)
中國專利信息中心工作人員在編寫代碼。(資料圖)

  實時翻譯、批量翻譯、語種自動識別、翻譯記憶……提起擁有這些功能的“神器”——多語種專利文獻機器翻譯引擎(下稱多語種機器翻譯引擎),用戶無不豎起大拇指。

  實際上,這款“神器”是中國專利信息中心(下稱信息中心)依據(jù)專利文獻特點對通用機器翻譯引擎的定制化產(chǎn)品。自2017年起,信息中心引入神經(jīng)網(wǎng)絡機器翻譯技術(shù),打造多語種機器翻譯引擎,為專利信息加工、傳播、咨詢等多項業(yè)務提供了有力支撐。此外,該引擎也幫助審查員和社會公眾跨越語言障礙,更便捷地從文獻中獲取有價值的信息,進而促進知識產(chǎn)權(quán)信息的高效利用,充分發(fā)揮了知識產(chǎn)權(quán)信息對經(jīng)濟和社會發(fā)展的驅(qū)動作用。

  打造系統(tǒng) 攻克難題

  近年來,在知識產(chǎn)權(quán)促進創(chuàng)新高質(zhì)量發(fā)展的背景下,知識產(chǎn)權(quán)信息日益成為經(jīng)濟和社會發(fā)展的重要支撐,成為國與國之間競爭的戰(zhàn)略資源。充分挖掘知識產(chǎn)權(quán)信息的價值,發(fā)揮其對經(jīng)濟高質(zhì)量發(fā)展的驅(qū)動作用,是建設知識產(chǎn)權(quán)強國和科技強國的必經(jīng)之路和重要抓手。

  而具體到我國知識產(chǎn)權(quán)特別是專利事業(yè)發(fā)展實踐中,專利申請數(shù)量的快速上升,給專利審查帶來了巨大的壓力和挑戰(zhàn)。與此同時,專利權(quán)人、創(chuàng)新主體和社會公眾也對高質(zhì)量的機器翻譯有更迫切的需求。據(jù)介紹,在多語種機器翻譯系統(tǒng)建設之前,神經(jīng)網(wǎng)絡機器翻譯技術(shù)憑借其優(yōu)異的翻譯性能成為通用領(lǐng)域機器翻譯的主流技術(shù),為提升翻譯質(zhì)量和效率、滿足應用需求提供了技術(shù)支撐。

  “然而,神經(jīng)網(wǎng)絡機器翻譯存在詞表受限、先驗知識運用不足、語料匱乏和稀缺資源語種的翻譯效果不理想等問題,同時由于專利文獻涉及的語種多、領(lǐng)域廣、專業(yè)術(shù)語豐富,通用型的機器翻譯系統(tǒng)亦不能滿足高質(zhì)量和高效率的專利文獻翻譯需求。不僅如此,專利文獻內(nèi)容廣博、科技術(shù)語多、句法結(jié)構(gòu)復雜、符號應用廣泛等特點導致機器翻譯技術(shù)在專利文獻翻譯實踐中面臨諸多挑戰(zhàn),專利文獻數(shù)據(jù)的多源異構(gòu)性、數(shù)據(jù)格式多樣以及數(shù)據(jù)噪聲等問題也對機器翻譯質(zhì)量造成不利影響?!毙畔⒅行南嚓P(guān)負責人在接受本報記者采訪時表示。

  在解決上述難題的過程中,信息中心在知識產(chǎn)權(quán)信息技術(shù)開發(fā)利用領(lǐng)域的優(yōu)勢逐漸體現(xiàn)了出來。由于長期承擔專利文獻翻譯工作,信息中心積累了豐富的專利文獻翻譯經(jīng)驗和數(shù)據(jù)資源優(yōu)勢,在采用先進的神經(jīng)網(wǎng)絡機器翻譯等人工智能技術(shù)的同時,結(jié)合自身擁有的高質(zhì)量平行語料、專業(yè)化的數(shù)據(jù)分析團隊和多語言翻譯人才,不斷探索打造適用于專利領(lǐng)域的多語種機器翻譯系統(tǒng)。

  基于上述背景,2019年,適用于專利領(lǐng)域的多語種機器翻譯系統(tǒng)正式問世。據(jù)了解,該系統(tǒng)實現(xiàn)了專利文獻機器翻譯全領(lǐng)域覆蓋,可以為審查員和社會公眾提供高質(zhì)量的機器翻譯結(jié)果,并能夠根據(jù)客戶需要提供精準化、定制化、專業(yè)化的機器翻譯服務。

  優(yōu)化功能 提升質(zhì)量

  據(jù)介紹,信息中心在引擎定制化建設過程中主要從語料建設與優(yōu)化、模型訓練及調(diào)參、引入外部記憶以及工程性打磨四個方面進行。而這四個方面,各有其必要性:語料資源建設與優(yōu)化的目的是獲得高質(zhì)量的訓練語料,高質(zhì)量的語料是高性能多語種神經(jīng)網(wǎng)絡機器翻譯系統(tǒng)的基礎(chǔ);模型訓練及調(diào)參主要是通過迭代訓練找到最優(yōu)的模型和參數(shù);引入外部記憶,包括引入多語種術(shù)語詞典、記憶庫等,確保專有名詞和專利文獻術(shù)語翻譯準確;工程性打磨主要是根據(jù)專利文獻數(shù)據(jù)特點,制定數(shù)據(jù)前后處理整體解決方案,進而提升機器翻譯性能和質(zhì)量。

  記者在采訪中了解到,作為信息中心依據(jù)專利文獻特點對通用機器翻譯引擎的定制化產(chǎn)品,多語種機器翻譯引擎具有實時翻譯、批量翻譯、語種自動識別、翻譯記憶、用戶詞典等功能,支持中、英、德、法、日、韓、俄等多個語種的翻譯,支持多業(yè)務場景應用,支持本地化部署以及云平臺部署。

  據(jù)悉,多語種機器翻譯引擎的專利文獻翻譯質(zhì)量較高,準確性較通用引擎顯著提高。經(jīng)國家知識產(chǎn)權(quán)局及多地審查協(xié)作中心審查員廣泛試用,效果良好。

  發(fā)揮優(yōu)勢 持續(xù)探索

  據(jù)信息中心相關(guān)負責人介紹,信息中心在深入分析專利領(lǐng)域機器翻譯應用問題的基礎(chǔ)上,采用“技術(shù)+領(lǐng)域化+平臺+可擴展”的設計思路,適用于專利領(lǐng)域的多語種神經(jīng)網(wǎng)絡機器翻譯系統(tǒng),并進行本地化部署及與多應用系統(tǒng)的對接,可在保證數(shù)據(jù)安全的前提下實現(xiàn)對多語種專利文獻信息快速、準確的翻譯,擴大文獻檢索范圍和提升瀏覽效率,為專利工作者和社會公眾進行專利文獻檢索提供助力。

  “目前,多語種機器翻譯引擎已應用于國家知識產(chǎn)權(quán)局新一代智能化專利審查和檢索系統(tǒng),開展多語種、多類型、多格式的海量專利文獻數(shù)據(jù)的翻譯,涉及美、日、韓、德、法、英等十余個國家、組織和地區(qū)的專利全文及非專利全文數(shù)據(jù),翻譯質(zhì)量得到用戶肯定?!痹撠撠熑苏f。

  當然,從技術(shù)發(fā)展成熟度來看,雖然神經(jīng)網(wǎng)絡機器翻譯技術(shù)相較于基于規(guī)則、統(tǒng)計的機器翻譯技術(shù)有較大的飛躍,翻譯質(zhì)量大幅提高,但是由于神經(jīng)網(wǎng)絡機器翻譯為數(shù)據(jù)驅(qū)動方法,目前在資源稀缺語種的翻譯效果以及深層網(wǎng)絡計算資源優(yōu)化配置等方面尚存改進空間。

  信息中心相關(guān)負責人表示,展望未來,如何持續(xù)致力于機器翻譯技術(shù)的深入研究、提升機器翻譯質(zhì)量、拓展語言種類及應用場景、以系統(tǒng)功能和技術(shù)能力的升級優(yōu)化助力專利審查和檢索質(zhì)量和效率的提升、為社會公眾提供高質(zhì)量的專利信息服務等仍是需要進一步研究的問題?!吧衿鳌钡纳衿妫詫⒌却_發(fā)設計者和用戶一起不斷探索與發(fā)掘。




標簽:淄博 呼倫貝爾 西藏 南寧 江蘇 大連 烏海 云南

巨人網(wǎng)絡通訊聲明:本文標題《多語種機器翻譯引擎 助力專利審查和檢索的“ 神器”》,本文關(guān)鍵詞  多語種,機器翻譯,引擎,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《多語種機器翻譯引擎 助力專利審查和檢索的“ 神器”》相關(guān)的同類信息!
  • 本頁收集關(guān)于多語種機器翻譯引擎 助力專利審查和檢索的“ 神器”的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章