壹沓AI探索:Office流程智能慧眼 —— 通用文檔理解何時可期?
文檔理解(Document Understanding)是計算機視覺和自然語言處理的交叉研究領域,在當前數據驅動的時代下,讓計算機代替人工自動從最為常見的非結構化商業文件中準確地提取出所需內容以及內容間的關系逐漸變得可行。
壹沓科技的NLP專家在20年前投身行業之初就已經認識到統計機器學習在文本內容處理方面的強大能力——當時,SVM算法對報刊內容主題分類任務在數萬篇歷史內容的訓練下可以達到98%以上的準確率,而分類任務又可以認為是一切NLP任務中的最小算法單元。進入互聯網的時代,海量文本數據和算法的結合可以說為機器智能在特定任務中達到乃至超越人類水平投來了一束希望之光。
壹沓團隊自2016年就開始以搜索引擎技術每天從互聯網上獲得TB級別的文本素材,通過大文本挖掘技術的研發過程,對非結構化數據的清洗、識別、抽取、分析積累了大量的經驗。面向文檔智能的NLP任務,我們在原有技術基礎上,成功研發了面向多個領域的復雜表單關鍵字段抽取,PDF非可視部分抽取,低質文檔OCR增強等智能化算法。解決方案型的通用文檔理解技術,我們也已經提上研究日程。
壹沓科技預言,愿意率先擁抱相關智能技術的企業,其業務運營效率的提升將在未來幾年內成倍體現。我們的AI團隊利用海量行業文檔數據開展相關課題的研究表明,在通用表格鍵名抽取,鍵值配對,OCR識別糾錯等方面無監督學習可以高度自動化地完成領域適應性建模,相信不久之后就能在真實落地業務中幫助客戶快速提升企業競爭力。
在目前辦公和企業運營領域,需要處理的文檔可能是電子格式文件,也可能是掃描件,一些常見的商業文件,例如發票,稅單,訂單,財務報告等等。文檔內容抽取對文檔的邏輯和語義分析,并抽取人可以理解的信息轉換成機器可讀的格式。抽取的信息不僅僅是時間,姓名或者身份證號這些文本層面的內容,還有文本間的邏輯結構。目前的傳統信息抽取技術可以處理自然語言中的信息,但是非結構化文檔同時包含文本和排版的信息,文本被分成了塊,段,表等等。非結構化表格的提取難點在于,版面結構和語義關系的結合。非結構化表格雖然都是文字,但是用傳統的關系抽取方法是不可行的,因為表格內容很多是短語、單詞而不是一句話。
目前國際前沿的研究工作都已經開始著手如何將語義信息和結構信息結合,大量開展計算機視覺和知識表征技術聯合學習來提升計算機對于文檔結構的理解準確率,按照目前的趨勢,該項技術將很有可能如人臉識別等AI應用一樣在短期內成熟,開始大規模進入商用領域。
文檔理解技術前傳
l 結構化——文檔理解的初心
在上世紀九十年代,文檔理解的概念逐漸流行起來,當時研究對象是雜志或者刊物上的文章排版(如下圖所示)。研究內容聚焦在文檔的分塊以及塊與塊之間的邏輯架構層。雖然當時的研究方向不是現在的主流方向,但是這個時期論文提出了很重要的兩點:文檔分析是從文檔中提取出幾何關系;文檔理解是把幾何關系映射到邏輯結構。這也是之后文檔內容抽取工作的主要思路。
l 面向商用——聚焦表單理解
在21世紀初,研究方向開始投向更復雜的文檔(如下圖),開始偏向于考慮真實的商業應用。在Making Documents Work: Challenges for Document Understanding里,作者Dengel詳細地闡述了當時流行的研究方法——主要是基于特征學習。對于表格的結構抽取,大多數論文是定義了一些模板來指導表格分析過程,但這樣的缺點是不能通用地適應海量表格。對于沒有明顯表格結構的表單,只依賴于文本坐標自下而上的塊聚類,完全忽略了表格中的行列概念,甚至列元素不需要對齊。對于表格的內容理解,多數方法引入了外部知識,對于特定領域的字段會有固定知識庫。為了提取所有的相關信息,知識的引入起到十分重要的作用,尤其是當一些字段不常用且有特殊意義時。
l 曙光初露——統計學習方法
在2010年左右,隨著統計學習的流行,文檔理解也引入了概率方法。在A probabilistic approach to printed document understanding一文中,作者Bartoli依然是從文本和坐標兩個角度入手,但是是用統計的方法計算板塊之前的相關性。如下圖所示,作者通過比較坐標,文本框大小,距離百分比等等來精細化文檔抽取。但是由于數據集的局限性,作者的測試數據集只有800多份。僅是基于統計學習在小樣本上學習還無法支撐更多類型的樣本。
大數據+深度學習=大突破
雖然文檔理解領域已經研究了二十多年,但是因為準確度不夠高以及商業落地遲遲未能展現,而伴隨大型數據集的發布,深度學習技術開始發力,最近幾年,該領域連續取得了突破性的進展。2015年,卡耐基梅隆大學發布了數據集RVL_CDIP,它包含16種類型文檔,每種類型25000張圖片,它可以用于研究某一固定領域或者是文檔分類。
2019年,洛桑聯邦理工學院信號處理實驗室發布了數據集FUNSD,它包含199篇包含大量噪聲的掃描件文檔(如下圖)。
并標注了其中的文本塊,語義實體和實體關系,下圖是一個文本分區的樣本。
隨著深度學習的廣泛應用,神經網絡也被應用于文檔理解。尤其是BERT提出后,在多項文本理解的任務中,橫掃NLP傳統方法,這為文檔智能研究者通過語義表征和預訓練方法的嘗試帶來了重大啟示。
l 預訓練模型橫空出世
2020年六月微軟發布了模型LayoutLM,針對文檔理解的文本和版面預訓練模型,如下圖所示,論文的研究對象面向所有格式的文檔。作者Yiheng Xu和Minghao Li使用其OCR或者PDF解析以及Faster R-CNN得到的圖像embeddings來做預訓練。
同年七月,微軟發布了TableBank數據集,包含了一共417234個被標注過的高質量表格,涉及多個領域,專門用于研究表格定位和表格識別,里面包含了大量的復雜表格(如下圖所示)。
同年九月IBM Research也發布了一個預訓練框架:Towards a Multi-model, Multi-task Learning based Pre-training Framework for Document Representation Learning,作者Pramanik測試了文本分類,信息抽取,文檔抽取三個下游任務(如圖所示)。這篇文章改善了LayoutLM中沒有把圖片信息和文本信息一起訓練,只是把圖片信息和文本信息相加的問題。值得一提的是,與LayoutLM一百多萬的預訓練數據集相比,IBM Research只用了11000個預訓練數據,而LayoutLM的性能只比IBM Research高了1%,這篇文章證明了在相對較小樣本數據集上的預訓練也可以達到很好的效果。
同時該模型還在另一項文檔分類任務中大幅超越了單純基于內容結果BERT分類模型,達到驚人的98.93%
l 針對具體應用場景的表示學習研究
去年七月份Google Research發表了Representation Learning for Information Extraction
From Form-Like Documents。與上面兩篇論文不同的是,作者Majumder并沒有使用圖像信息嵌入,而是只用OCR結果中自帶的文本坐標來進行排版的編碼。這篇論文旨在針對某一特定領域的表單,通過少量人工標注樣本的學習,去抽取更多其他格式未曾見到過的文檔。這篇文章結合了先驗知識,基本常識以及神經網絡架構來學習每一個文本塊的表征。文章中提出了三個對于表單的基本認知:每一個字段往往匹配一個顯而易見的類別,例如invoice_date只會匹配日期,不會匹配到金額;字段之間有明顯的視覺關系,當一個表中有多個日期時,我們很輕松地可以辨別它們分別屬于哪個字段;大多數key word都來自一個特定領域的小型詞表?;谶@三點認知,文章結合語義關系和位置關系對每個字段的候選項進行打分來匹配鍵值對。
這篇論文的發現在于結合了之前的研究方法提出了一個可以解決實際商業問題的模型,但它的局限性也很明顯,只研究了發票和收據兩個領域,盡管實驗結果分數很高,但是實驗本身提取的字段較少,支票提取了七個字段,收據只提取了兩個字段,并且提取的都是日期,金額,單號這樣特征明顯且都是單行的文本。此外,盡管論文的目的是從小樣本中學習,但實驗用到了一萬多份人工標注樣本,前期的數據準備也有不小的投入。
l 圖神經網絡的嘗試
除了預訓練框架學習文檔表征之外,圖神經網絡也被應用于學習文本和圖像的聯合表征。去年ICPR會議論文Named Entity Recognition and Relation Extraction with Graph Neural Networks in Semi Structured Documents一文中作者Carbonell根據文檔的版面特性,把一個個文本框當作一個節點,節點之間的線如果標為1則表示兩個節點有關系,生成的圖送入GNN中訓練,因此關系抽取問題變成了一個節點二分類問題。
作者除了研究現代文檔,還嘗試使用相同的手段針對古代手寫文檔(如上圖文件3)進行信息抽取,希望在將來能夠對專業歷史研究者提供文獻分析的機器智能的幫助。
2021文檔智能落地進行時
文檔智能的研究從版面分析,結構統計,深度學習一路走來。盡管通用文檔理解乃至文檔智能處理仍是一個十分有挑戰的任務,但我們十分高興地看到一年來微軟和IBM等企業研究團隊都推出了具有突破性意義的預訓練網絡模型,將相關研究的進程得以加速推進。
然而壹沓的AI團隊也深深意識到,這些成果與能夠廣泛運用于企業實際場景的軟件還有很大的距離,但也正因如此,我們的算法工程師和業務專家滿懷激情,勇于挑戰IT行業巨頭,正通過扎實而深入的工作,在這個領域取得進步并超越競爭對手。在未來幾個月內,壹沓科技將為我們服務的客戶提供基于深度學習與知識圖譜技術融合的文檔智能解決方案。
2021 —— 壹沓文檔智能,由您見證
關于壹沓科技
壹沓科技成立于2016年11月,聚焦于前沿技術在企業數字化中的應用,公司核心業務包括壹沓數字機器人產品-Cube Robot和壹沓品牌方程服務-Formula DBM,已經為多個行業數百家企業及政府提供服務。
我們在自然語言處理-NLP、圖像文字識別-OCR、知識圖譜-KG、大數據挖掘-Data Mining、機器人流程自動化-RPA和業務流程重構及管理-BPR&BPM等領域具備完整的自主研發能力,已獲得軟件知識產權數十個。
總部位于上海 ,在北京、深圳設有分公司,已獲得高新技術企業、雙軟及專精特新企業等專業認證 。核心團隊來自于多家知名上市公司,在企業服務及互聯網從業超過10年,擁有大數據、云服務及人工智能領域的豐富經驗。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)