百分點認知智能實驗室:如何打造工業級的機器翻譯
編者按
機器翻譯是利用計算機將一種自然語言(源語言)轉換為另一種自然語言(目標語言)的過程,不同于目前的主流機器翻譯,大多是基于神經機器翻譯,實現單純的機器翻譯,打造兼具穩定、易用、高效并符合用戶需求的工業級翻譯產品,要解決很多難題,比如:文檔內縮略語如何翻譯?小語種低資源翻譯問題如何解決?語料如何處理?
在本篇文章中,百分點認知智能實驗室基于多年的經驗積累,分享了百分點科技在工業級機器翻譯領域的技術研究和實踐成果。
隨著經濟全球化及互聯網的飛速發展,機器翻譯技術在促進政治、經濟、文化交流等方面起到越來越重要的作用。但各大領域的翻譯需求越來越多,翻譯要求也越來越高。
1. 翻譯文檔越來越多
據統計,美海軍“溫森斯”(CG—49)導彈巡洋艦維護手冊達23.5噸,僅空軍F-16戰斗機技術資料約750000頁;F-18戰斗機的技術資料有500000多頁,重達1428.84kg。每天,美軍官方和著名的咨詢公司每天新發布的裝備科技信息相關材料就超過100萬頁。而這些文檔涉及的語種,包括最常用的英文、俄文、日文以及德文、法文、意大利文、韓文等,文檔格式包括掃描版/電子版PDF、Word、Excel、PPT等,以及各種格式的圖片(包括但不限于png, jpg,bmp, tiff等),甚至手寫材料。
2. 材料內容越來越專
各大領域的翻譯任務包含大量的專有詞匯、縮略語,覆蓋航天、電子、船舶等各個業務,谷歌、百度等通用翻譯引擎無法滿足裝備科技信息領域內的個性化需求。同時,業務方對翻譯的效果質量要求越來越高,以更準確地了解最新的科技信息。
3. 速度要求越來越高
海量資料的快速翻譯需求,對翻譯速度的要求越來越快,以更及時地獲取信息,支持科學決策。翻譯速度不僅和硬件、軟件相關,更和模型算法直接相關。在實際中,需通過模型、算法和工程層面的優化,實現翻譯速度能夠滿足技術參數要求。
4. 數據安全和信息安全要求不斷提升
不僅需要翻譯系統能夠在本地化部署、本地化運維,而且需要能在本地自動化加工語料,自動化模型訓練、迭代、升級。從而滿足整個系統的所有核心環節都能在本地完成,形成語料生產、語料加工、模型訓練、模型部署、模型運維的閉環,而不需要相關敏感的業務數據離開本地環境;同時,針對用戶自身的特定需求,可以更及時、自動地完成優化和升級,從而提高翻譯的效果。
百分點智能翻譯系統正是為了應對以上“多、專、快、高”的緊迫需求而產生的。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)