壹沓AI觀察:CKG如何讓人工智能擁有常識
壹沓科技的愿景就是讓人工智能技術廣泛落地實際商業應用場景,從枯燥繁復的信息處理工作中解放人類員工。面向各行各業的具體流程,AI文本處理需要在遍歷文檔的同時能夠理解每個關鍵字段的概念含義,才可能象人一樣,從中準確獲取所需信息。例如:從紛繁蕪雜的物流行業貨運托付流程表單中,經常存在表頭簡稱、非對齊項、實際填表中的同格值填寫、冗余備注項矛盾等各類具體問題,人類員工可以憑借工作經驗和常識準確推斷各項非規則的信息項,確保業務流程執行,而目前的OCR及智能表單識別AI對此類問題往往無能為力。
如何有效構建和應用知識圖譜來增強文檔挖掘過程,并且讓AI具備人類信息處理常識已經成為行業重要命題。壹沓科技AI部門在人工智能研究過程中發現目前中文互聯網目前尚無常識性知識圖譜的專題文章,希望通過本文能夠首次整體性地描繪常識知識圖譜技術的發展脈絡。
知識圖譜(Knowledge Graph,KG)是一種揭示實體之間關系的語義網絡,其建立發端于海量信息的獲取,是對人類知識的歸納和總結。自Google在2012年提出知識圖譜的概念以后,知識圖譜技術快速發展,除了伴隨谷歌大腦產生的百科全書式的通用知識圖譜(Encyclopedia Knowledge Graph,EKG),更多為領域知識圖譜(Domin Knowledge Graph),例如阿里巴巴的商品知識圖譜,其數據來源于淘寶、天貓等多個市場,以商品、標準產品、標準品牌等為核心,利用實體識別、語義推理等技術,整合關聯多領域信息三元組,形成巨大的商品知識網。為此,阿里的商品搜索引擎幫助品牌商透視全局數據,幫助消費者準確定位商品。
又如美團大腦的餐飲娛樂知識圖譜,包含了遍布全球超過3000多萬商戶及1.4億的店菜,用于幫助更好的在餐飲領域幫助用戶滿足需求,提供更加智能的生活服務。
何為常識圖譜?
隨著人工智能應用不斷深入更多場合,傳統的知識圖譜已不能完全滿足訴求,例如在自然語言理解領域,需要將特定單詞映射到概念空間得到其含義,例如在“The engineer is eating an apple”中,基于傳統知識圖譜的工具會將“engineer”和“apple”結合,將apple認定為IT公司,但如果知識圖譜中接入上下文信息,將apple映射到概念空間后,結合“eating”場景下對“apple“進行理解推理,則會得到apple代表水果。為此,需要使機器能夠真正理解人類常識并進行思考,賦予機器人性化。為此,出現了常識知識圖譜(Commonsense Knowledge Graph,CKG),也可稱為常識性知識圖譜。微軟亞洲研究院在通用知識圖譜Probase的基礎上提出了常識知識圖譜Concept Graph的研究路線,并針對常識知識圖譜提出了概念化模型,使其能夠支持例如文本標注、命名圖識別、會話推薦等應用
圖靈獎得主“人工智能之父”馬文·明斯基就曾一針見血地指出“問題就在于常識性知識對于人類而言是如此顯而易見,以至于我們從未考慮過要去記錄它們”。常識知識圖譜是已存在普遍社會共識的集合體,常識作為普遍接受的認知,具有明顯、常見等特點,這使得基于常識的知識從未有過詳細統一且格式化的記錄,這也造成了如今CKG構建的困難和數據的短缺。
壹沓科技從成立以來,對知識圖譜的積累和應用高度重視,對常識知識圖譜的應用探索也一直在持續進行,我們已經通過海量大數據文本挖掘積累的千萬級別詞條的通用分類標簽關系圖譜和高精度的互聯網媒體傳播內容的情感極性詞庫,同時面向物流、電商行業的領域知識圖譜也伴隨項目落地得到全面的梳理和構建。
我們關注在文本挖掘和文本推理應用中結合通用知識圖譜和常識知識圖譜的最新研究成果,樂于分享相關技巧和認知,并堅信基于大規模知識圖譜的人工智能算法能夠大大推進行業應用落地時的“冷啟動”和“零學習”的訴求滿足。
傳統知識圖譜,例如亞馬遜的產品知識圖譜,醫學知識圖譜等,更加注重于事實及顯性知識,具有確定性、模式簡單等特點,其實體格式化、確定性高,關系單一、嚴謹且具有事實性。基于領域工作的嚴謹性和確定性,使得傳統知識圖譜具有高置信度和高準確度的特點。例如微軟的Probase,每條知識被表示為一個SPO三元組(Subject-Predicate-Object)。傳統知識圖譜的構建已經形成了規范化的構建途徑,大都采用自底向上的構建方式,且需要多種智能信息處理技術的支持,通過信息抽取、知識融合等,形成高質量的知識庫。
而CKG注重于上下文、多模態數據以及實體之間的語義關系,其實體多為自由化格式的文本,且在構建階段不易發現,其之間的關系多為語言關系,且具有不同的等級。這也為CKG帶來了概率特征,例如自行車的實體節點,其屬性可設置為“兩個輪胎”;對象的常識為“自行車比汽車慢”;常識序列可為“騎自行車”、“推自行車”等。
不僅于此,CKG概念網中實體的關系更是呈現多樣、復雜的特點,例如廚房和汽車的概念網,其邊的概念存在有”useFor”、”typeOf”、”MadeOf”等關系,大大超越通用知識圖譜的“isA”,“hasA”,“partOf”典型關系,且其權重的類型可為距離、頻率、順序等,汽車在事實、社會和物理子集中的常識知識網更是預示著CKG構建的復雜性。
實體及關系的定義呈現出多樣化、個性化等特點,這給CKG的構建和維護帶來了極大的代價,例如流行的FB15K-237常識圖譜實體節點的平均度數是通用圖譜的10倍以上。
CKG的構建和維護需要昂貴的代價,但同時這也預示著CKG技術還有很大的發展潛力,隨著研究人員的努力,常識知識圖譜已在不少領域取得重大進展。
常識圖譜推動AI發展
壹沓發現,通過CKG來提高機器對自然語言的理解漸成AI行業最新發展熱點,通過將深度學習在CKG沿著實體關系的多條路徑上進行研究,未來的機器在一定程度上能夠理解常識并推理文字內在的含義,對于行業應用所需的高度自動化的流程處理具有重要意義。
盡管CKG的構建十分困難,但并未阻擋研究者的熱情,Luminoso的ConceptNet常識知識圖譜起源于麻省理工的實驗室,發展至今,吸收來自大量其他眾包資源、專家創造的資源和有目的的知識,已包括10種主要語言3400萬條知識關系,已經可以幫助機器初步理解人類語言并進行推理。(下圖為在ConceptNet上對“自行車”的查詢結果展示)
為了能拓寬常識知識圖在對抗性概念方面的應用,AllenAI的研究者最近也推出了Atomic2020,其包含日常生活相關實體和時間概念的推理知識,用于補充在當前語言模型的常識性知識編碼。Atomic2020包含了23種常識關系類型,例如物理和日常事件的常識方面,最大的兩個關系為“對象使用“和”阻礙“類型,例如爆米花桶,可以用來裝爆米花或放東西。而對于阻礙關系,通過收集目標的阻礙,可以用來推理反事實的任務,例如某人對貓過敏,則該人在養貓時的愿望就會受阻,這將迫使該人在未來采取相應的行動(例如養別的寵物)。Atomic2020收集了超過13萬關于對象使用和10萬的阻礙事件。另外還從ConceptNet中提取常識性元組以擴充常識元組。Atomic2020在知識圖譜檢索的質量評測對比中在精度指標上獲得了最好的性能。
在國內機構中,騰訊AI實驗室率先提出了基于CKG的故事補全技術,利用常識知識圖譜提出一個整合敘述線索、情感演變的神經網絡模型,用來補全故事的結尾。模型通過給定的長度固定的故事,在兩個給定的候選答案中,利用常識知識圖譜,使得選定的結尾與給定故事合理可信并一致。騰訊在公開數據集上取得了先進的性能,并證明了引入常識對于機器所帶來的顯著性能提升。
頂會ACL2020上,清華大學聯合微軟發表了基于CKG的概念流引導對話生成系統ConceptFlow,為了讓開放對話看起來更加自然隨和,利用常識知識圖譜對會話流建模。模型通過將會話與常識知識圖譜結合,利用潛在的會話信息遍歷知識圖中的相關路徑,并以圖注意力為導向,通過圖神經網絡學習,利用會話話語、常識關系尋找更遙遠但仍有意義的概念,來引導生成器生成更多信息和更相關的對話回答。與GPT2的標準模型相比,生成的對話更符合人類的習慣并且對上下文話題核心的響應也更加清晰。
知識推理運用于知識發現、沖突與異常檢測,是知識精細化工作和決策分析的主要實現方式。目前的知識推理已經廣泛應用在各行各業如企業投資風險研究、信貸風控、智能投顧、挖掘政府人員的人際關系、農作物價格預測和動態屬性生成等方面。基于知識圖譜的知識推理應用領域隨著研究的深入將愈加廣泛。
現階段,基于中文的常識知識圖譜尚處于起步階段,國內在該領域的研究和積累剛剛開展,而壹沓科技高度關注對常識知識圖譜技術并結合行業落地多任務場景下的應用進行了探索,并已經在信息抽取、表格OCR等應用場景下進行特定實驗中取得了高精度結果,AI團隊將通過進一步的努力,以知識圖譜賦能品牌方程和數字機器人產品線,在不遠的未來建成全面超越人類員工水平的自動化信息處理平臺。
關于壹沓科技
壹沓科技成立于2016年11月,聚焦于前沿技術在企業數字化中的應用,公司核心業務包括壹沓數字機器人產品-Cube Robot和壹沓品牌方程服務-Formula DBM,已經為多個行業數百家企業及政府提供服務。
我們在自然語言處理-NLP、圖像文字識別-OCR、知識圖譜-KG、大數據挖掘-Data Mining、機器人流程自動化-RPA和業務流程重構及管理-BPR&BPM等領域具備完整的自主研發能力,已獲得軟件知識產權數十個。
總部位于上海 ,在北京、深圳設有分公司, 已獲得高新技術企業、雙軟及專精特新企業等專業認證 。核心團隊來自于多家知名上市公司,在企業服務及互聯網從業超過10年,擁有大數據、云服務及人工智能領域的豐富經驗。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)