带玩具逛街时突然按下按钮的故事,丰满的妺妺3伦理播放,新婚人妻不戴套国产精品,大肉大捧一进一出好爽视频百度

壹沓AI觀察: Google加入文檔智能化戰局,Document AI離企業還有多遠?

譯文 1 收藏 評論
舉報 2020-12-11


Google Cloud于2020年12月5號在全球上線了Document AI(DocAI)平臺,這是一個用于文檔自動化處理的人工智能云服務,可以對文檔中的數據進行提取、分類和增強,以挖掘有價值的內容數據,驅動業務流程全自動運行。許多從復雜文檔中手動提取數據并對其進行處理操作的企業都可以從中受益。將文檔轉換為結構化數據可提高決策速度并釋放可衡量的業務價值,從而改善客戶體驗。Google Document AI允許使用統一的API訪問所有解析器和工具,啟用了端到端文檔解決方案,并允許輕松創建和自定義文檔處理工作流。Google宣稱其平臺可幫助客戶將成本降低60%,并將文檔處理的準確性提高250%。

至此,AI領域巨頭Microsoft、百度、阿里、Google均已先后進 Document AI領域,代表著文檔智能化已經成為AI企業場景落地的主戰場。

然而,壹沓科技以多年的企業服務經驗判斷:智能化一旦進入到復雜的企業現實生產環境,故事就不再那么美好了,無論在基礎的文檔字符識別、字段抽取、格式轉換,還是面向自動化業務流轉的關鍵數據操作與分發,乃至企業決策信息的匯聚和報告,真正實用的文檔智能化道路艱險且漫長……

文檔智能化的前世今生

對于大多數企業而言,文檔處理一直是繁瑣且繁重的的任務。在傳統企業中,發票,表單等文檔中包含許多重要信息。企業必須提取該信息并將其它在到后臺的應用程序(例如公司的快遞單號系統,發票系統,會計系統等)中,以便可以有組織地對其處理。在特定的行業例如運輸,這些行業日常需要面對海量文檔,表單,并且對其讀取,分析數據然后進行分類。在大多數情況下,以上仍然是手動的。人工提取,處理,分類這些信息既耗時費力且精度低,而且可復用性也不高,因此,隨著AI成為新的現實并且自動化接管了許多任務,文檔智能技術(Document Intelligence)應運而生。


傳統文檔智能聚焦文檔的生成和分發

  • 傳統的文檔智能主要是指對于網頁、數字文檔或掃描文檔所包含的文本以及豐富的排版格式等信息,通過人工智能技術進行理解、分類、提取以及信息歸納的過程。在過去的30年中,文檔智能的發展大致經歷了三個階段。90年代初期,研究人員大多使用基于啟發式規則的方法進行文檔的理解與分析,通過人工觀察文檔的布局信息,總結歸納一些處理規則,對固定布局信息的文檔進行處理。人工建立規則處理表格雖然能夠帶來一定程度的性能提升,但由于定制規則和可學習的樣本數量不足,其通用性往往不盡如人意,針對不同類別文檔的分析遷移成本較高。此外,傳統基于規則的方法往往需要較大的人力成本。因此研究人員開始采用基于統計學習的方法。隨著機器學習模型和深度學習預訓練模型的發展和進步,基于多種目標特征抽取模塊的預訓練模型(文本特征抽取模塊,布局特征抽取模塊,視覺特征抽取模塊等等模塊的兩種或者多種進行融合組成的模型)成為了文檔智能的主流方法。模型利用基于深度神經網絡的自學習技術,通過大規模無標注數據學習基礎模型,之后再通過遷移學習技術僅需少量標注數據即可達到人工處理文檔的水平。

  • 傳統的文檔處理軟件解決了印刷品不易修改、刪除和共享等問題,其主要作用是編輯和重用文檔。隨著智能文檔技術的發展,包含文字的文檔已經不能滿足人們日益豐富的需求,智能文檔的提出給文檔的展現和存儲提供了新的思路,智能文檔可以將圖形、電子表格、聲音、音頻等信息與文本同時存儲到文件系統中, 同時將數據劃分成多個數據流,把這些數據流分別存儲到文件的不同部分,從而實現將不同格式的信息相融合。智能文檔技術是新興技術,智能文檔集普通文檔的特征與智能數據處理能力于一身,能為使用者構建一個更靈活,更具柔性,更人性化的工作平臺。

  • 1997年,Buchner在智能文檔的基礎上構造了HotDoc,實現了文檔系統與應用程序的結合。HotDoc由多個對象組成,每個對象都將由設計者完成設計,用戶可將對象任意插入并排列到文檔中,從而通過多個對象的組合而完成。HotDoc文檔主要用于電子文件傳輸。

  • 2003年Office 2003發布的時候,Microsoft 正式提出了Smart Document概念。Smart Document是一種新的基于具有基礎 XML結構和自定義任務窗格的應用程序,如Word,Excel等,這種解決方案是當用戶將鼠標移動到文檔的不同位置時,在任務窗格中提供幫助文本、圖形圖像、 相關數據或文檔處理工具(例如按鈕、下拉列表等)等相關的信息。

  • 2004年,Adobe 公司則是將通過將紙質文檔的優點與安全、計算、錯誤檢查和數據驗證等領域功能強大的業務邏輯相結合,從而簡化了相關的關鍵業務的信息交流,其主要是將PDF與XML結合從而創造了Adobe Intelligent Document Platform(智能文檔平臺)為用戶提供了安全共享的企業數據解決方案,其中的Adobe LiveCycle Designer可以讓用戶根據需求定制個性化的表單并將表單域與業務邏輯綁定后保存為PDF文檔, 通過Adobe Document Service(文檔服務),將企業的業務流程整合到智能文檔中使現有企業流程自動化,但其缺陷是用戶定義的業務流程就只能通過Adobe Intelligent Document Platform才能完成。


AI文檔智能決勝計算機認知和自動化處理

  • 目前AI文檔智能往往要結合NLP和CV模型來分析、理解文檔的內容和布局,抽取關鍵信息,通過智能化的處理,轉換為業務所需的其他信息形態,乃至自動對接相關業務流程。從2012年起,各種深度學習模型在計算機視覺(CV)和自然語言處理(NLP)在其領域內的比賽大放異彩,谷歌,微軟,亞馬遜等企業嘗試用CV和NLP相結合的模型以實現文檔智能。文檔AI模型旨在自動分類,提取和結構化業務文檔中的信息,從而加快自動化文檔處理工作流程。

  • 計算機視覺領域從2012年起,隨著Hinton課題組的卷積神經網絡AlexNet在ImageNet圖像識別比賽一舉奪得冠軍,這是史上第一次有模型在 ImageNet 數據集表現如此出色, 機器識別錯誤率已經和人眼識別差別不大。2014年,蒙特利爾大學提出生成對抗網絡(GAN):擁有兩個相互競爭的神經網絡可以使機器學習得更快。一個網絡嘗試模仿真實數據生成假的數據,而另一個網絡則試圖將假數據區分出來。隨著時間的推移,兩個網絡都會得到訓練,生成對抗網絡(GAN)被認為是計算機視覺領域的重大突破。計算機視覺技術發展帶來的各種各種應用如文本識別、目標檢測、圖像分類、場景文字識別等。文本識別又為Document AI奠定了基礎。

  • 而在自然語言處理(NLP)領域,以BERT為代表的預訓練模型及新型特征抽取器Transformer的快速發展和普及讓NLP領域在這兩年發生了天翻地覆的變化。從Bert的應用來看,已經在包含對話系統、機器閱讀理解、搜索、文本分類等幾乎大多數NLP應用領域快速應用,并在部分應用領域取得了突破性的效果提升。Bert預訓練模型結合布局特征抽取、視覺特征抽取慢等等模型去實現AI文檔的功能。

  • 從計算機視覺角度或自然語言處理角度或兩者結合的角度來看,文檔AI的方法通常基于深度神經網絡。在神經網絡模型中,最早用于PDF文檔表檢測的方法是基于卷積神經網絡(CNN)的。之后,又有學者利用了更高級的Faster R-CNN模型或Mask R-CNN模型來進一步提高文檔布局分析的準確性。最近,又有學者提出了圖卷積網絡(Graph Convolutional Networks)結合文本的信息和視覺的信息用于抽取商業文檔中的信息。

  • 2020年3月,微軟亞洲研究院提出LayoutLM模型,這是一種用于文檔圖像理解任務的簡單而有效的文本和布局預訓練方法。受BERT模型的啟發,引入預訓練模型,同時利用文本的布局的局部不變性,可有效地將未標注文檔的信息遷移到下游任務中。Layout模型在三個下游任務,表單理解,票據理解,文檔圖像分類,都取得了顯著的準確率提升。

圖表 1:LayoutLM 模型構架

  • 2020年10月,商湯科技提出智能文檔SOTA模型DocStruct。該模型在微軟LayoutLM模型基礎上進一步提升。DocStruct模型提取并融合了三種模態的特征(語義模態,布局模態,視覺模態) 并預測文本片段之間的層次關系,比LayoutLM多提取了一個模態(視覺模態)。DocStruct在FUNSD數據集上展示出了驚人的結果。

圖表 2:DocStruct 三模態特征抽取


Document AI的基本任務和相關技術

現有較為先進的 Document AI 模型,如 LayOut, LayoutLM 和 DocStruct 等,主要用于處理票據內容的結構化自動識別。最為前沿的數據集是微軟研究院發布的 DocBank,其是根據 arxiv 網站大量的論文pdf文檔與其 latex代碼之間的對應關系而自動化構建出的 Document AI 訓練數據,但其僅對論文中的區域進行識別,如識別摘要,簡介,標題,表格等內容。從自然語言處理的角度來看,DocBank 數據集的優勢是可用于任何序列標注模型,同時還可以輕松轉換為基于圖像的標注,以支持計算機視覺中的物體檢測模型。通過這種方式,可以使用 DocBank 公平地比較來自不同模態的模型,并且進一步研究多模態方法,提高文檔布局分析的準確性。

模型實現需要利用的相關技術:

  1. 光學字符識別(OCR)
    光學字符識別(Optical Character Recognition, OCR)可以讓計算機讀取圖片中的文字和文字的位置信息。在使用OCR進行初步處理之后,計算機可以提取表單頁面中的潛在結構,文本和文本的坐標。
    傳統OCR基于數字圖像處理和傳統機器學習等方法對圖像進行處理和特征提取。常用的二值化處理有利于增強簡單場景的文本信息,但對于復雜背景二值化的收效甚微。傳統方法上采用HoG對圖像進行特征提取,然而HoG對于圖像模糊、扭曲等問題魯棒性很差,對于復雜場景泛化能力不佳。由于深度學習的飛速發展,現在普遍使用基于CNN的神經網絡作為特征提取手段。得益于CNN強大的學習能力,配合大量的數據可以增強特征提取的魯棒性,面臨模糊、扭曲、畸變、復雜背景和光線不清等圖像問題均可以表現良好的魯棒性。

  2. 多模態特征提取。
    2.1. 語義特征提取
    在一個文檔中,往往有語義信息、布局信息、視覺信息。語義特征可以通過現有NLP預訓練模型Bert、ELMO、GPT相關的模型來抽取語義特征。許多自然語言處理任務已經證明了預訓練模型提取文本特征的能力非常出色。Bert預訓練模式是其中最成功的。BERT模式是一個雙向語言模型,它可以通過目標文字的左側和右側的上下文從語料庫中提供深層次的雙向表示。更重要的是,獨立于預訓練步驟中的大型語料庫,這些模型的輸出可以輕松地用于下游任務。在輸入之前會添加一個特殊標簽[CLS],并且可以使用相應的輸出進行微調。
    2.2 布局特征提取
    OCR或人工的初步處理可以提供布局信息。布局信息顯示了文本片段的大小和相對位置,這有助于區分具有相同語義內容的不同文本片段。
    2.3 視覺特征提取
     視覺信息是從原始頁面裁剪的圖像部分,帶有片段的矩形閉合。直觀地來說,視覺信息還提供了有價值的信號來預測鍵值關系。比如,粗體或者斜體的文字更加有可能是表頭或者是鍵(key)。可以用CNN、RNN、Transformer等特征提取器來提取像素圖,再用RNN 模型來處理文本的序列。

在此方面的研究上,無論是大規模數據集構建還是物理布局和邏輯關系的聯合抽取模型,相關文獻目前都還是鮮有出現,亟需得到更多的關注和深入的研究。


文檔智能化技術——任重道遠

基礎信息抽取面臨的挑戰

  1. 如何很好的按照文檔內容本身的層次化結構進行數據解析,進而針對其層級結構來歸納整理知識圖譜 schema 是當下面臨的新的巨大挑戰。行業文檔的格式多樣,有 pdf,word,txt 等多種格式,pdf 格式中又分為標準 pdf,可搜索 pdf 和掃描版 pdf,word 文檔的版本也是不盡相同。文檔內部的格式更是千變萬化,比如有單欄的,雙欄的,橫版的,豎版的(較少),標題明顯的,標題不明顯的,有些段落如標題是有價值的,有些段落如附注是相對價值小的等等。除此之外,還面臨其中嵌入大量的表格、圖片等信息的識別混淆等各類問題。

  2. 在知識圖譜 schema 給定的前提下,從特定類型文檔中進行特定信息的抽取,比如抽商業合同的款項。由于文檔格式和行業表述的多樣性以及文檔內的交叉引用,使得從文檔中直接抽取此類信息變得十分困難。抽取一些信息可能需要文檔級的語義理解能力和邏輯推理能力,才能很好的進行此類信息抽取。

深度學習技術本身的局限

在具有深層神經網絡的AI領域,這些方法中的大多數都面臨局限性:

  1. 高精度的模型往往依賴于大量人工標記的訓練樣本,而目前利用大規模的無標簽樣本訓練后得到的預訓練模型,在特定領域落地還需要較高水平的AI專家幫助進行場景數據的微調(Fine tuning),無論在數據收集、數據標注、還是模型訓練的過程中還大量存在不確定性和不可解釋性,嚴重影響了企業大規模應用的積極性。

  2. 大多數的現有模型通常利用預訓練的CV模型或NLP模型,大多數模型沒有考慮對文本和布局信息進行聯合訓練。少部分模型比如DocStruct融合了(語義信息,布局信息,視覺信息)進行聯合訓練。融合多模態的模型往往能獲得更好的預測效果。探索如何自監督的文本預訓練和布局預訓練會對AI Document有幫助。

  3. 多模態的特征融合。多模態的融合可能存在以下兩方面的困難。
    不同特征的維度可能是不同的。比如說,布局特征是8維的,遠遠小于語義特征和視覺特征的維度。

    不同特征含義是不同的。來自不同形式的特征具有不同的含義。不同特征對最終預測的貢獻不均。語義特征和布局特征應該是最可靠的特征,并且布局特征還可以區分內容相同的片段。因此,不應以相同的方式對待多模態特征,而必須考慮它們的差異。

壹沓科技在文檔智能化領域嶄露頭角

  • 壹沓科技通過多年以來在大數據文本挖掘技術方面的積累,構建自有知識產權的認知智能平臺和機器人自動化平臺,在幫助企業實際落地文檔智能化處理領域擁有豐富的經驗,以NLP、OCR、CV等多項AI技術整合有效解決方案,在物流行業信息化、政府部門數據挖掘、品牌大數據挖掘等方面已服務于千百家國內機構。

  • 同時,在智能化文檔處理的尖端技術研究上,壹沓的AI團隊在面向OCR識別的NLP增強,通用表單鍵值對識別,多模板文檔結構化,關鍵業務字段高精度校核等任務上均有獨到的成果。

  • 最近壹沓AI團隊還測評比較了Google、微軟、百度、阿里、合合、薪火在文檔智能化領域公開的產品,涉及通用OCR、表格識別和表單智能識別,從產品特點和實用性都進行了測試和評價。

  • 初步結論:針對較復雜的文檔數據無論從OCR識別還是表單鍵值提取各個平臺都無法達到業務自動化可信賴的精準度,目前還需要對具體場景的大量標注工作和機器學習訓練調試才可能投入生產使用。

    測評報告詳情將發布在下一期《壹沓AI觀察》,敬請關注!

    文章參考:

    [1]  Jurgen Buchner, Thomas FehnL Thomas Kunstmann HotDoc:a flexible framework for spatial composition[J], IEEE Computer Society, 1997, 9(7)1:92-100.

    [2]  溫金超.智能文檔關鍵技術研究【D】.北京:北京機械工業學院,2008.

    [3]  dobe智能文檔【EB/OL】,http://www.chinese-s.adobe.eom/entemfise/intdoc.html(2006.2.25page shot).

    [4]  Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2017). Imagenet classification with deep convolutional neural networks. Communications of the ACM, 60(6), 84-90.

    [5]  Liu, X., Gao, F., Zhang, Q., & Zhao, H. (2019). Graph convolution for multimodal information extraction from visually rich documents. arXiv preprint arXiv:1903.11279.

    [6]  https://arxiv.org/abs/1912.13318.


    關于壹沓科技

    壹沓科技成立于2016年11月,聚焦于前沿技術在企業數字化中的應用,公司核心業務包括壹沓數字機器人產品-Cube Robot和壹沓品牌方程服務-Formula DBM,已經為多個行業數百家企業及政府提供服務。

    我們在自然語言處理-NLP、圖像文字識別-OCR、知識圖譜-KG、大數據挖掘-Data Mining、機器人流程自動化-RPA和業務流程重構及管理-BPR&BPM等領域具備完整的自主研發能力,已獲得軟件知識產權數十個。

    總部位于上海 ,在北京、深圳設有分公司, 已獲得高新技術企業、雙軟及專精特新企業等專業認證 。核心團隊來自于多家知名上市公司,在企業服務及互聯網從業超過10年,擁有大數據、云服務及人工智能領域的豐富經驗。

    本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
    轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
    本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
    未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
    本內容為作者獨立觀點,不代表數英立場。
    本文禁止轉載,侵權必究。
    本文系數英原創,未經允許不得轉載。
    授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。

      評論

      文明發言,無意義評論將很快被刪除,異常行為可能被禁言
      DIGITALING
      登錄后參與評論

      評論

      文明發言,無意義評論將很快被刪除,異常行為可能被禁言
      800

      推薦評論

      暫無評論哦,快來評論一下吧!

      全部評論(0條)

      主站蜘蛛池模板: 敖汉旗| 双江| 桦川县| 金塔县| 宣汉县| 鄂托克旗| 黑山县| 天等县| 泉州市| 玛多县| 连南| 福鼎市| 临潭县| 额济纳旗| 江陵县| 南城县| 孝昌县| 顺平县| 雷波县| 通道| 增城市| 惠来县| 南城县| 朝阳县| 云龙县| 普安县| 江西省| 习水县| 大竹县| 曲水县| 仙桃市| 墨竹工卡县| 北辰区| 舒城县| 菏泽市| 平度市| 宁都县| 肃南| 湖南省| 安龙县| 尚义县|