壹沓AI觀察：半結構化文本自動抽取關鍵技術

譯文贊1 收藏評論

舉報 2020-10-16

掃描,分享朋友圈

公號前綴圖.gif

半結構化文本又稱為視覺富文本，與純文本不同，半結構化文本的語義結構不僅由文本內容決定，更與文本的排版、表格結構、字體的表示方式等視覺元素有關。生活中常見的發票、證件、簡歷、保險單、采購單據、行業報告以及商務郵件等，均屬于半結構化數據。這些文本數據整體離散又局部相關，人工提取信息不僅費時費力，版式的不同更是限制了當下傳統算法的可復用性，大大阻礙了企業運行效率的提升。

壹沓科技通過對傳統及最新的方法進行探索，同時對幾類主流方法的基本思想和目前行業進展進行了分析，提出以領域知識圖譜積累與深度學習預訓練網絡技術為方向的壹沓AI認知智能技術重點研發路徑，對接公司Cube Robot數字機器人平臺，為人工智能技術在多個行業領域落地應用實踐打下扎實的基礎。

圖片1.png

（半結構化數據樣例）

傳統手段：基于模板的鍵值關系識別

在很多實際業務場景中，文檔表單的格式基本被限定在有限數量的若干種，通過對樣例文檔的模板OCR識別，可以用非常小的代價，生成高精度的識別模型。基于模板定義的方法在固定版式和單層次簡單鍵值結構的文檔信息抽取中是目前應用最廣泛也是最可靠的手段。
然而，隨著流程變化越來越頻繁、對接關系越來越復雜、數據量呈爆炸式增長，承載數據的版式在很多實際業務中也是難以窮盡，甚至在結構化表單中常常混有連續文本的輸入。全自動信息抽取面臨重重挑戰：最大的困難在于預定義的模板很難全面覆蓋實際可能發生的樣例，在有限標注成本下抽取更多高質量、高精度的信息成為難題。例如醫療領域經常出現特例數據，往往需要擁有深厚專業知識與實踐經驗的醫療專家才能讀懂，區分，全面人工標注的成本過高，準確識別和抽取數據關系的代價過于昂貴。

熱點趨勢：深度學習提升信息抽取能力

為了應對當下全自動高質量信息抽取任務的需求，業內提出多種基于深度學習及文本預訓練網絡的方法。阿里達摩院的StructuralLM、微軟的LayoutLM、以及騰訊的結構化文檔重建技術，大大推動了相關領域的識別水平。
阿里達摩院NLP團隊在BERT的基礎上提出優化模型StructBERT，能讓機器更好地掌握人類語法，加深對自然語言的理解。在此基礎上，又進一步提出融入圖像模態知識的預訓練語言模型StructVBERT，它能同時理解文本與圖像模態的信息，并挖掘二者間的關聯以進行有效推理。同樣基于StructBERT的模型還有結構化語言模型StructuralLM。它充分利用圖片文檔數據的二維位置信息，并引入文本框位置預測的預訓練任務，幫助模型感知圖片不同位置之間詞語的關系，這對于理解真實場景中的圖片文檔十分重要。StructuralLM模型目前在Document VQA榜單上排名第一，同時在表單理解FUNSD數據集和文檔圖片分類RVL-CDIP數據集上也超過現有的預訓練模型。

圖片2.png

微軟研究院在現有的預訓練模型基礎上利用文檔的多模態信息通過2-D Position Embedding和Image Embedding分別獲取半結構化文檔的結構和視覺信息，提出了LayoutLM模型。2-D Position Embedding通過光學字符識別（OCR）技術得到文檔的結構信息，Image Embedding捕獲文檔的視覺信息。兩者結合使得模型能夠有效的捕捉半結構數據中蘊含的語義信息，并在表單理解、票據理解上均取得了不錯的成績。

圖片3.png

（LayoutLM的表單理解實驗結果）

騰訊PCG應用研究小組也在今年6月實現了比傳統OCR布局分析更完善的圖片轉文檔的重建技術。通過對拍攝或截屏的圖片，通過一系列工作（例如圖像增強、實體恢復、語義分割），進行電子文檔的重建工作。他們在該項目中使用的是 Bisenet 框架，在學習特征時并行兩條支路，一條學習空間細節信息，另一條學習高層語義信息，然后將學到的信息融合，能夠更好學習到全局信息和局部信息特征信息。

圖片4.png

（騰訊的語義分割）

展望未來：知識圖譜打造信息抽取的智能基石

壹沓科技認為，通過深度神經網絡對表單內容實現高精度的抽取與識別是近年來人工智能技術在圖像和文本兩大領域各自實現突破后帶來的技術融合大趨勢，僅僅依靠神經網絡不足以解決面向行業應用高度自動化的流程需求，在實際場景中，依托知識圖譜技術增強領域半結構化文檔的信息抽取是必經之路。
2020年6月，在NLPCC(CCF國際自然語言處理和中文計算會議) ，搜狗杭州研究院知識圖譜組以最高F1值，擊敗多支國內外頂尖科研機構的參賽隊伍，榮獲Auto Information Extraction(信息抽取)任務組冠軍。團隊通過采用Bert+CRF模型，并在模型上加入了標簽路徑限制 Incomplete Annotations Training(不完全標注訓練)、 Self-training(自訓練)等多種技術策略，攻克了在未提供大量有標注的人工語料，而只提供不完全的實體詞典和大量無標注文本，以及少量有標注集合的情況下抽取高精度模型的行業難題。

壹沓科技在該方向上持續投入，通過知識圖譜的積累并結合大規模語料深度學習的預訓練模型，在信息抽取等多種任務的場景下取得前所未有的精度進步，并且在品牌方程和數字機器人領域大規模應用。同時壹沓研發團隊通過努力顯著降低場景應用的啟動門檻，在大量少樣本、無標注的實際業務推進過程中，真正使得計算機系統擁有專家智慧的成熟智能化系統，并最終實現超越人類水平的自動化文檔信息識別和流程處理平臺。

關于壹沓科技

壹沓科技成立于2016年11月，聚焦于前沿技術在企業數字化中的應用，公司核心業務包括壹沓數字機器人產品-Cube Robot和壹沓品牌方程服務-Formula DBM，已經為多個行業數百家企業及政府提供服務。

我們在自然語言處理-NLP、圖像文字識別-OCR、知識圖譜-KG、大數據挖掘-Data Mining、機器人流程自動化-RPA和業務流程重構及管理-BPR&BPM等領域具備完整的自主研發能力，已獲得軟件知識產權數十個。

總部位于上海，在北京、深圳設有分公司，已獲得高新技術企業、雙軟及專精特新企業等專業認證。核心團隊來自于多家知名上市公司，在企業服務及互聯網從業超過10年，擁有大數據、云服務及人工智能領域的豐富經驗。

公號后綴.jpg

本文系作者授權數英發表，內容為作者獨立觀點，不代表數英立場。
未經授權嚴禁轉載，授權事宜請聯系作者本人，侵權必究。

掃描,分享朋友圈

1data 壹沓科技上海

上海靜安區

靈石路709號64幢3樓

近期精選文章更多

猜您可能喜歡

带玩具逛街时突然按下按钮的故事,丰满的妺妺3伦理播放,新婚人妻不戴套国产精品,大肉大捧一进一出好爽视频百度