壹沓AI觀察: Google加入文檔智能化戰(zhàn)局,Document AI離企業(yè)還有多遠(yuǎn)?
Google Cloud于2020年12月5號(hào)在全球上線了Document AI(DocAI)平臺(tái),這是一個(gè)用于文檔自動(dòng)化處理的人工智能云服務(wù),可以對(duì)文檔中的數(shù)據(jù)進(jìn)行提取、分類(lèi)和增強(qiáng),以挖掘有價(jià)值的內(nèi)容數(shù)據(jù),驅(qū)動(dòng)業(yè)務(wù)流程全自動(dòng)運(yùn)行。許多從復(fù)雜文檔中手動(dòng)提取數(shù)據(jù)并對(duì)其進(jìn)行處理操作的企業(yè)都可以從中受益。將文檔轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)可提高決策速度并釋放可衡量的業(yè)務(wù)價(jià)值,從而改善客戶(hù)體驗(yàn)。Google Document AI允許使用統(tǒng)一的API訪問(wèn)所有解析器和工具,啟用了端到端文檔解決方案,并允許輕松創(chuàng)建和自定義文檔處理工作流。Google宣稱(chēng)其平臺(tái)可幫助客戶(hù)將成本降低60%,并將文檔處理的準(zhǔn)確性提高250%。
至此,AI領(lǐng)域巨頭Microsoft、百度、阿里、Google均已先后進(jìn) Document AI領(lǐng)域,代表著文檔智能化已經(jīng)成為AI企業(yè)場(chǎng)景落地的主戰(zhàn)場(chǎng)。
然而,壹沓科技以多年的企業(yè)服務(wù)經(jīng)驗(yàn)判斷:智能化一旦進(jìn)入到復(fù)雜的企業(yè)現(xiàn)實(shí)生產(chǎn)環(huán)境,故事就不再那么美好了,無(wú)論在基礎(chǔ)的文檔字符識(shí)別、字段抽取、格式轉(zhuǎn)換,還是面向自動(dòng)化業(yè)務(wù)流轉(zhuǎn)的關(guān)鍵數(shù)據(jù)操作與分發(fā),乃至企業(yè)決策信息的匯聚和報(bào)告,真正實(shí)用的文檔智能化道路艱險(xiǎn)且漫長(zhǎng)……
文檔智能化的前世今生
對(duì)于大多數(shù)企業(yè)而言,文檔處理一直是繁瑣且繁重的的任務(wù)。在傳統(tǒng)企業(yè)中,發(fā)票,表單等文檔中包含許多重要信息。企業(yè)必須提取該信息并將其它在到后臺(tái)的應(yīng)用程序(例如公司的快遞單號(hào)系統(tǒng),發(fā)票系統(tǒng),會(huì)計(jì)系統(tǒng)等)中,以便可以有組織地對(duì)其處理。在特定的行業(yè)例如運(yùn)輸,這些行業(yè)日常需要面對(duì)海量文檔,表單,并且對(duì)其讀取,分析數(shù)據(jù)然后進(jìn)行分類(lèi)。在大多數(shù)情況下,以上仍然是手動(dòng)的。人工提取,處理,分類(lèi)這些信息既耗時(shí)費(fèi)力且精度低,而且可復(fù)用性也不高,因此,隨著AI成為新的現(xiàn)實(shí)并且自動(dòng)化接管了許多任務(wù),文檔智能技術(shù)(Document Intelligence)應(yīng)運(yùn)而生。
傳統(tǒng)文檔智能聚焦文檔的生成和分發(fā)
傳統(tǒng)的文檔智能主要是指對(duì)于網(wǎng)頁(yè)、數(shù)字文檔或掃描文檔所包含的文本以及豐富的排版格式等信息,通過(guò)人工智能技術(shù)進(jìn)行理解、分類(lèi)、提取以及信息歸納的過(guò)程。在過(guò)去的30年中,文檔智能的發(fā)展大致經(jīng)歷了三個(gè)階段。90年代初期,研究人員大多使用基于啟發(fā)式規(guī)則的方法進(jìn)行文檔的理解與分析,通過(guò)人工觀察文檔的布局信息,總結(jié)歸納一些處理規(guī)則,對(duì)固定布局信息的文檔進(jìn)行處理。人工建立規(guī)則處理表格雖然能夠帶來(lái)一定程度的性能提升,但由于定制規(guī)則和可學(xué)習(xí)的樣本數(shù)量不足,其通用性往往不盡如人意,針對(duì)不同類(lèi)別文檔的分析遷移成本較高。此外,傳統(tǒng)基于規(guī)則的方法往往需要較大的人力成本。因此研究人員開(kāi)始采用基于統(tǒng)計(jì)學(xué)習(xí)的方法。隨著機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)預(yù)訓(xùn)練模型的發(fā)展和進(jìn)步,基于多種目標(biāo)特征抽取模塊的預(yù)訓(xùn)練模型(文本特征抽取模塊,布局特征抽取模塊,視覺(jué)特征抽取模塊等等模塊的兩種或者多種進(jìn)行融合組成的模型)成為了文檔智能的主流方法。模型利用基于深度神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)技術(shù),通過(guò)大規(guī)模無(wú)標(biāo)注數(shù)據(jù)學(xué)習(xí)基礎(chǔ)模型,之后再通過(guò)遷移學(xué)習(xí)技術(shù)僅需少量標(biāo)注數(shù)據(jù)即可達(dá)到人工處理文檔的水平。
傳統(tǒng)的文檔處理軟件解決了印刷品不易修改、刪除和共享等問(wèn)題,其主要作用是編輯和重用文檔。隨著智能文檔技術(shù)的發(fā)展,包含文字的文檔已經(jīng)不能滿(mǎn)足人們?nèi)找尕S富的需求,智能文檔的提出給文檔的展現(xiàn)和存儲(chǔ)提供了新的思路,智能文檔可以將圖形、電子表格、聲音、音頻等信息與文本同時(shí)存儲(chǔ)到文件系統(tǒng)中, 同時(shí)將數(shù)據(jù)劃分成多個(gè)數(shù)據(jù)流,把這些數(shù)據(jù)流分別存儲(chǔ)到文件的不同部分,從而實(shí)現(xiàn)將不同格式的信息相融合。智能文檔技術(shù)是新興技術(shù),智能文檔集普通文檔的特征與智能數(shù)據(jù)處理能力于一身,能為使用者構(gòu)建一個(gè)更靈活,更具柔性,更人性化的工作平臺(tái)。
1997年,Buchner在智能文檔的基礎(chǔ)上構(gòu)造了HotDoc,實(shí)現(xiàn)了文檔系統(tǒng)與應(yīng)用程序的結(jié)合。HotDoc由多個(gè)對(duì)象組成,每個(gè)對(duì)象都將由設(shè)計(jì)者完成設(shè)計(jì),用戶(hù)可將對(duì)象任意插入并排列到文檔中,從而通過(guò)多個(gè)對(duì)象的組合而完成。HotDoc文檔主要用于電子文件傳輸。
2003年Office 2003發(fā)布的時(shí)候,Microsoft 正式提出了Smart Document概念。Smart Document是一種新的基于具有基礎(chǔ) XML結(jié)構(gòu)和自定義任務(wù)窗格的應(yīng)用程序,如Word,Excel等,這種解決方案是當(dāng)用戶(hù)將鼠標(biāo)移動(dòng)到文檔的不同位置時(shí),在任務(wù)窗格中提供幫助文本、圖形圖像、 相關(guān)數(shù)據(jù)或文檔處理工具(例如按鈕、下拉列表等)等相關(guān)的信息。
2004年,Adobe 公司則是將通過(guò)將紙質(zhì)文檔的優(yōu)點(diǎn)與安全、計(jì)算、錯(cuò)誤檢查和數(shù)據(jù)驗(yàn)證等領(lǐng)域功能強(qiáng)大的業(yè)務(wù)邏輯相結(jié)合,從而簡(jiǎn)化了相關(guān)的關(guān)鍵業(yè)務(wù)的信息交流,其主要是將PDF與XML結(jié)合從而創(chuàng)造了Adobe Intelligent Document Platform(智能文檔平臺(tái))為用戶(hù)提供了安全共享的企業(yè)數(shù)據(jù)解決方案,其中的Adobe LiveCycle Designer可以讓用戶(hù)根據(jù)需求定制個(gè)性化的表單并將表單域與業(yè)務(wù)邏輯綁定后保存為PDF文檔, 通過(guò)Adobe Document Service(文檔服務(wù)),將企業(yè)的業(yè)務(wù)流程整合到智能文檔中使現(xiàn)有企業(yè)流程自動(dòng)化,但其缺陷是用戶(hù)定義的業(yè)務(wù)流程就只能通過(guò)Adobe Intelligent Document Platform才能完成。
AI文檔智能決勝計(jì)算機(jī)認(rèn)知和自動(dòng)化處理
目前AI文檔智能往往要結(jié)合NLP和CV模型來(lái)分析、理解文檔的內(nèi)容和布局,抽取關(guān)鍵信息,通過(guò)智能化的處理,轉(zhuǎn)換為業(yè)務(wù)所需的其他信息形態(tài),乃至自動(dòng)對(duì)接相關(guān)業(yè)務(wù)流程。從2012年起,各種深度學(xué)習(xí)模型在計(jì)算機(jī)視覺(jué)(CV)和自然語(yǔ)言處理(NLP)在其領(lǐng)域內(nèi)的比賽大放異彩,谷歌,微軟,亞馬遜等企業(yè)嘗試用CV和NLP相結(jié)合的模型以實(shí)現(xiàn)文檔智能。文檔AI模型旨在自動(dòng)分類(lèi),提取和結(jié)構(gòu)化業(yè)務(wù)文檔中的信息,從而加快自動(dòng)化文檔處理工作流程。
計(jì)算機(jī)視覺(jué)領(lǐng)域從2012年起,隨著Hinton課題組的卷積神經(jīng)網(wǎng)絡(luò)AlexNet在ImageNet圖像識(shí)別比賽一舉奪得冠軍,這是史上第一次有模型在 ImageNet 數(shù)據(jù)集表現(xiàn)如此出色, 機(jī)器識(shí)別錯(cuò)誤率已經(jīng)和人眼識(shí)別差別不大。2014年,蒙特利爾大學(xué)提出生成對(duì)抗網(wǎng)絡(luò)(GAN):擁有兩個(gè)相互競(jìng)爭(zhēng)的神經(jīng)網(wǎng)絡(luò)可以使機(jī)器學(xué)習(xí)得更快。一個(gè)網(wǎng)絡(luò)嘗試模仿真實(shí)數(shù)據(jù)生成假的數(shù)據(jù),而另一個(gè)網(wǎng)絡(luò)則試圖將假數(shù)據(jù)區(qū)分出來(lái)。隨著時(shí)間的推移,兩個(gè)網(wǎng)絡(luò)都會(huì)得到訓(xùn)練,生成對(duì)抗網(wǎng)絡(luò)(GAN)被認(rèn)為是計(jì)算機(jī)視覺(jué)領(lǐng)域的重大突破。計(jì)算機(jī)視覺(jué)技術(shù)發(fā)展帶來(lái)的各種各種應(yīng)用如文本識(shí)別、目標(biāo)檢測(cè)、圖像分類(lèi)、場(chǎng)景文字識(shí)別等。文本識(shí)別又為Document AI奠定了基礎(chǔ)。
而在自然語(yǔ)言處理(NLP)領(lǐng)域,以BERT為代表的預(yù)訓(xùn)練模型及新型特征抽取器Transformer的快速發(fā)展和普及讓NLP領(lǐng)域在這兩年發(fā)生了天翻地覆的變化。從Bert的應(yīng)用來(lái)看,已經(jīng)在包含對(duì)話(huà)系統(tǒng)、機(jī)器閱讀理解、搜索、文本分類(lèi)等幾乎大多數(shù)NLP應(yīng)用領(lǐng)域快速應(yīng)用,并在部分應(yīng)用領(lǐng)域取得了突破性的效果提升。Bert預(yù)訓(xùn)練模型結(jié)合布局特征抽取、視覺(jué)特征抽取慢等等模型去實(shí)現(xiàn)AI文檔的功能。
從計(jì)算機(jī)視覺(jué)角度或自然語(yǔ)言處理角度或兩者結(jié)合的角度來(lái)看,文檔AI的方法通常基于深度神經(jīng)網(wǎng)絡(luò)。在神經(jīng)網(wǎng)絡(luò)模型中,最早用于PDF文檔表檢測(cè)的方法是基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的。之后,又有學(xué)者利用了更高級(jí)的Faster R-CNN模型或Mask R-CNN模型來(lái)進(jìn)一步提高文檔布局分析的準(zhǔn)確性。最近,又有學(xué)者提出了圖卷積網(wǎng)絡(luò)(Graph Convolutional Networks)結(jié)合文本的信息和視覺(jué)的信息用于抽取商業(yè)文檔中的信息。
2020年3月,微軟亞洲研究院提出LayoutLM模型,這是一種用于文檔圖像理解任務(wù)的簡(jiǎn)單而有效的文本和布局預(yù)訓(xùn)練方法。受BERT模型的啟發(fā),引入預(yù)訓(xùn)練模型,同時(shí)利用文本的布局的局部不變性,可有效地將未標(biāo)注文檔的信息遷移到下游任務(wù)中。Layout模型在三個(gè)下游任務(wù),表單理解,票據(jù)理解,文檔圖像分類(lèi),都取得了顯著的準(zhǔn)確率提升。
圖表 1:LayoutLM 模型構(gòu)架
2020年10月,商湯科技提出智能文檔SOTA模型DocStruct。該模型在微軟LayoutLM模型基礎(chǔ)上進(jìn)一步提升。DocStruct模型提取并融合了三種模態(tài)的特征(語(yǔ)義模態(tài),布局模態(tài),視覺(jué)模態(tài)) 并預(yù)測(cè)文本片段之間的層次關(guān)系,比LayoutLM多提取了一個(gè)模態(tài)(視覺(jué)模態(tài))。DocStruct在FUNSD數(shù)據(jù)集上展示出了驚人的結(jié)果。
圖表 2:DocStruct 三模態(tài)特征抽取
Document AI的基本任務(wù)和相關(guān)技術(shù)
現(xiàn)有較為先進(jìn)的 Document AI 模型,如 LayOut, LayoutLM 和 DocStruct 等,主要用于處理票據(jù)內(nèi)容的結(jié)構(gòu)化自動(dòng)識(shí)別。最為前沿的數(shù)據(jù)集是微軟研究院發(fā)布的 DocBank,其是根據(jù) arxiv 網(wǎng)站大量的論文pdf文檔與其 latex代碼之間的對(duì)應(yīng)關(guān)系而自動(dòng)化構(gòu)建出的 Document AI 訓(xùn)練數(shù)據(jù),但其僅對(duì)論文中的區(qū)域進(jìn)行識(shí)別,如識(shí)別摘要,簡(jiǎn)介,標(biāo)題,表格等內(nèi)容。從自然語(yǔ)言處理的角度來(lái)看,DocBank 數(shù)據(jù)集的優(yōu)勢(shì)是可用于任何序列標(biāo)注模型,同時(shí)還可以輕松轉(zhuǎn)換為基于圖像的標(biāo)注,以支持計(jì)算機(jī)視覺(jué)中的物體檢測(cè)模型。通過(guò)這種方式,可以使用 DocBank 公平地比較來(lái)自不同模態(tài)的模型,并且進(jìn)一步研究多模態(tài)方法,提高文檔布局分析的準(zhǔn)確性。
模型實(shí)現(xiàn)需要利用的相關(guān)技術(shù):
光學(xué)字符識(shí)別(OCR)
光學(xué)字符識(shí)別(Optical Character Recognition, OCR)可以讓計(jì)算機(jī)讀取圖片中的文字和文字的位置信息。在使用OCR進(jìn)行初步處理之后,計(jì)算機(jī)可以提取表單頁(yè)面中的潛在結(jié)構(gòu),文本和文本的坐標(biāo)。
傳統(tǒng)OCR基于數(shù)字圖像處理和傳統(tǒng)機(jī)器學(xué)習(xí)等方法對(duì)圖像進(jìn)行處理和特征提取。常用的二值化處理有利于增強(qiáng)簡(jiǎn)單場(chǎng)景的文本信息,但對(duì)于復(fù)雜背景二值化的收效甚微。傳統(tǒng)方法上采用HoG對(duì)圖像進(jìn)行特征提取,然而HoG對(duì)于圖像模糊、扭曲等問(wèn)題魯棒性很差,對(duì)于復(fù)雜場(chǎng)景泛化能力不佳。由于深度學(xué)習(xí)的飛速發(fā)展,現(xiàn)在普遍使用基于CNN的神經(jīng)網(wǎng)絡(luò)作為特征提取手段。得益于CNN強(qiáng)大的學(xué)習(xí)能力,配合大量的數(shù)據(jù)可以增強(qiáng)特征提取的魯棒性,面臨模糊、扭曲、畸變、復(fù)雜背景和光線不清等圖像問(wèn)題均可以表現(xiàn)良好的魯棒性。多模態(tài)特征提取。
2.1. 語(yǔ)義特征提取
在一個(gè)文檔中,往往有語(yǔ)義信息、布局信息、視覺(jué)信息。語(yǔ)義特征可以通過(guò)現(xiàn)有NLP預(yù)訓(xùn)練模型Bert、ELMO、GPT相關(guān)的模型來(lái)抽取語(yǔ)義特征。許多自然語(yǔ)言處理任務(wù)已經(jīng)證明了預(yù)訓(xùn)練模型提取文本特征的能力非常出色。Bert預(yù)訓(xùn)練模式是其中最成功的。BERT模式是一個(gè)雙向語(yǔ)言模型,它可以通過(guò)目標(biāo)文字的左側(cè)和右側(cè)的上下文從語(yǔ)料庫(kù)中提供深層次的雙向表示。更重要的是,獨(dú)立于預(yù)訓(xùn)練步驟中的大型語(yǔ)料庫(kù),這些模型的輸出可以輕松地用于下游任務(wù)。在輸入之前會(huì)添加一個(gè)特殊標(biāo)簽[CLS],并且可以使用相應(yīng)的輸出進(jìn)行微調(diào)。
2.2 布局特征提取
OCR或人工的初步處理可以提供布局信息。布局信息顯示了文本片段的大小和相對(duì)位置,這有助于區(qū)分具有相同語(yǔ)義內(nèi)容的不同文本片段。
2.3 視覺(jué)特征提取
視覺(jué)信息是從原始頁(yè)面裁剪的圖像部分,帶有片段的矩形閉合。直觀地來(lái)說(shuō),視覺(jué)信息還提供了有價(jià)值的信號(hào)來(lái)預(yù)測(cè)鍵值關(guān)系。比如,粗體或者斜體的文字更加有可能是表頭或者是鍵(key)。可以用CNN、RNN、Transformer等特征提取器來(lái)提取像素圖,再用RNN 模型來(lái)處理文本的序列。
在此方面的研究上,無(wú)論是大規(guī)模數(shù)據(jù)集構(gòu)建還是物理布局和邏輯關(guān)系的聯(lián)合抽取模型,相關(guān)文獻(xiàn)目前都還是鮮有出現(xiàn),亟需得到更多的關(guān)注和深入的研究。
文檔智能化技術(shù)——任重道遠(yuǎn)
基礎(chǔ)信息抽取面臨的挑戰(zhàn)
如何很好的按照文檔內(nèi)容本身的層次化結(jié)構(gòu)進(jìn)行數(shù)據(jù)解析,進(jìn)而針對(duì)其層級(jí)結(jié)構(gòu)來(lái)歸納整理知識(shí)圖譜 schema 是當(dāng)下面臨的新的巨大挑戰(zhàn)。行業(yè)文檔的格式多樣,有 pdf,word,txt 等多種格式,pdf 格式中又分為標(biāo)準(zhǔn) pdf,可搜索 pdf 和掃描版 pdf,word 文檔的版本也是不盡相同。文檔內(nèi)部的格式更是千變?nèi)f化,比如有單欄的,雙欄的,橫版的,豎版的(較少),標(biāo)題明顯的,標(biāo)題不明顯的,有些段落如標(biāo)題是有價(jià)值的,有些段落如附注是相對(duì)價(jià)值小的等等。除此之外,還面臨其中嵌入大量的表格、圖片等信息的識(shí)別混淆等各類(lèi)問(wèn)題。
在知識(shí)圖譜 schema 給定的前提下,從特定類(lèi)型文檔中進(jìn)行特定信息的抽取,比如抽商業(yè)合同的款項(xiàng)。由于文檔格式和行業(yè)表述的多樣性以及文檔內(nèi)的交叉引用,使得從文檔中直接抽取此類(lèi)信息變得十分困難。抽取一些信息可能需要文檔級(jí)的語(yǔ)義理解能力和邏輯推理能力,才能很好的進(jìn)行此類(lèi)信息抽取。
深度學(xué)習(xí)技術(shù)本身的局限
在具有深層神經(jīng)網(wǎng)絡(luò)的AI領(lǐng)域,這些方法中的大多數(shù)都面臨局限性:
高精度的模型往往依賴(lài)于大量人工標(biāo)記的訓(xùn)練樣本,而目前利用大規(guī)模的無(wú)標(biāo)簽樣本訓(xùn)練后得到的預(yù)訓(xùn)練模型,在特定領(lǐng)域落地還需要較高水平的AI專(zhuān)家?guī)椭M(jìn)行場(chǎng)景數(shù)據(jù)的微調(diào)(Fine tuning),無(wú)論在數(shù)據(jù)收集、數(shù)據(jù)標(biāo)注、還是模型訓(xùn)練的過(guò)程中還大量存在不確定性和不可解釋性,嚴(yán)重影響了企業(yè)大規(guī)模應(yīng)用的積極性。
大多數(shù)的現(xiàn)有模型通常利用預(yù)訓(xùn)練的CV模型或NLP模型,大多數(shù)模型沒(méi)有考慮對(duì)文本和布局信息進(jìn)行聯(lián)合訓(xùn)練。少部分模型比如DocStruct融合了(語(yǔ)義信息,布局信息,視覺(jué)信息)進(jìn)行聯(lián)合訓(xùn)練。融合多模態(tài)的模型往往能獲得更好的預(yù)測(cè)效果。探索如何自監(jiān)督的文本預(yù)訓(xùn)練和布局預(yù)訓(xùn)練會(huì)對(duì)AI Document有幫助。
多模態(tài)的特征融合。多模態(tài)的融合可能存在以下兩方面的困難。
不同特征的維度可能是不同的。比如說(shuō),布局特征是8維的,遠(yuǎn)遠(yuǎn)小于語(yǔ)義特征和視覺(jué)特征的維度。不同特征含義是不同的。來(lái)自不同形式的特征具有不同的含義。不同特征對(duì)最終預(yù)測(cè)的貢獻(xiàn)不均。語(yǔ)義特征和布局特征應(yīng)該是最可靠的特征,并且布局特征還可以區(qū)分內(nèi)容相同的片段。因此,不應(yīng)以相同的方式對(duì)待多模態(tài)特征,而必須考慮它們的差異。
壹沓科技在文檔智能化領(lǐng)域嶄露頭角
壹沓科技通過(guò)多年以來(lái)在大數(shù)據(jù)文本挖掘技術(shù)方面的積累,構(gòu)建自有知識(shí)產(chǎn)權(quán)的認(rèn)知智能平臺(tái)和機(jī)器人自動(dòng)化平臺(tái),在幫助企業(yè)實(shí)際落地文檔智能化處理領(lǐng)域擁有豐富的經(jīng)驗(yàn),以NLP、OCR、CV等多項(xiàng)AI技術(shù)整合有效解決方案,在物流行業(yè)信息化、政府部門(mén)數(shù)據(jù)挖掘、品牌大數(shù)據(jù)挖掘等方面已服務(wù)于千百家國(guó)內(nèi)機(jī)構(gòu)。
同時(shí),在智能化文檔處理的尖端技術(shù)研究上,壹沓的AI團(tuán)隊(duì)在面向OCR識(shí)別的NLP增強(qiáng),通用表單鍵值對(duì)識(shí)別,多模板文檔結(jié)構(gòu)化,關(guān)鍵業(yè)務(wù)字段高精度校核等任務(wù)上均有獨(dú)到的成果。
最近壹沓AI團(tuán)隊(duì)還測(cè)評(píng)比較了Google、微軟、百度、阿里、合合、薪火在文檔智能化領(lǐng)域公開(kāi)的產(chǎn)品,涉及通用OCR、表格識(shí)別和表單智能識(shí)別,從產(chǎn)品特點(diǎn)和實(shí)用性都進(jìn)行了測(cè)試和評(píng)價(jià)。
初步結(jié)論:針對(duì)較復(fù)雜的文檔數(shù)據(jù)無(wú)論從OCR識(shí)別還是表單鍵值提取各個(gè)平臺(tái)都無(wú)法達(dá)到業(yè)務(wù)自動(dòng)化可信賴(lài)的精準(zhǔn)度,目前還需要對(duì)具體場(chǎng)景的大量標(biāo)注工作和機(jī)器學(xué)習(xí)訓(xùn)練調(diào)試才可能投入生產(chǎn)使用。
測(cè)評(píng)報(bào)告詳情將發(fā)布在下一期《壹沓AI觀察》,敬請(qǐng)關(guān)注!
文章參考:
[1] Jurgen Buchner, Thomas FehnL Thomas Kunstmann HotDoc:a flexible framework for spatial composition[J], IEEE Computer Society, 1997, 9(7)1:92-100.
[2] 溫金超.智能文檔關(guān)鍵技術(shù)研究【D】.北京:北京機(jī)械工業(yè)學(xué)院,2008.
[3] dobe智能文檔【EB/OL】,http://www.chinese-s.adobe.eom/entemfise/intdoc.html(2006.2.25page shot).
[4] Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2017). Imagenet classification with deep convolutional neural networks. Communications of the ACM, 60(6), 84-90.
[5] Liu, X., Gao, F., Zhang, Q., & Zhao, H. (2019). Graph convolution for multimodal information extraction from visually rich documents. arXiv preprint arXiv:1903.11279.
[6] https://arxiv.org/abs/1912.13318.
關(guān)于壹沓科技
壹沓科技成立于2016年11月,聚焦于前沿技術(shù)在企業(yè)數(shù)字化中的應(yīng)用,公司核心業(yè)務(wù)包括壹沓數(shù)字機(jī)器人產(chǎn)品-Cube Robot和壹沓品牌方程服務(wù)-Formula DBM,已經(jīng)為多個(gè)行業(yè)數(shù)百家企業(yè)及政府提供服務(wù)。
我們?cè)谧匀徽Z(yǔ)言處理-NLP、圖像文字識(shí)別-OCR、知識(shí)圖譜-KG、大數(shù)據(jù)挖掘-Data Mining、機(jī)器人流程自動(dòng)化-RPA和業(yè)務(wù)流程重構(gòu)及管理-BPR&BPM等領(lǐng)域具備完整的自主研發(fā)能力,已獲得軟件知識(shí)產(chǎn)權(quán)數(shù)十個(gè)。
總部位于上海 ,在北京、深圳設(shè)有分公司, 已獲得高新技術(shù)企業(yè)、雙軟及專(zhuān)精特新企業(yè)等專(zhuān)業(yè)認(rèn)證 。核心團(tuán)隊(duì)來(lái)自于多家知名上市公司,在企業(yè)服務(wù)及互聯(lián)網(wǎng)從業(yè)超過(guò)10年,擁有大數(shù)據(jù)、云服務(wù)及人工智能領(lǐng)域的豐富經(jīng)驗(yàn)。
轉(zhuǎn)載請(qǐng)?jiān)谖恼麻_(kāi)頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請(qǐng)聯(lián)系作者本人,侵權(quán)必究。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
授權(quán)事宜請(qǐng)至數(shù)英微信公眾號(hào)(ID: digitaling) 后臺(tái)授權(quán),侵權(quán)必究。
評(píng)論
評(píng)論
推薦評(píng)論
暫無(wú)評(píng)論哦,快來(lái)評(píng)論一下吧!
全部評(píng)論(0條)