昇騰與“紫東.太初”賦能法律服務,多模態大模型邁向“多專多能”
日前舉辦的華為全聯接大會2022上,中國科學院自動化研究所所長徐波在演講中提出了一個新觀點:“多模態是人工智能邁向通用化的關鍵一步。”
學術界并不缺少大模型的“搖旗者”,特別是風頭正勁多模態大模型,不少科學家曾在公開場合背書。不過以往談及多模態的話題時,訓練難度、算力成本常常是繞不過的痛點。倘若大模型注定只有少數企業擁有的“壟斷資源”,哪怕一次次刷新人工智能的測試成績,與“通用化”始終有著不小的距離。
為何徐波所長對多模態大模型的前景如此自信?坊間已經出現了學術維度的回答,或許還有一個新的視角,即產業應用側的摸索與實踐,比如40年前就嘗試使用“專家系統”輔助判決的法律服務,正在多模態大模型的賦能下煥發出新的生機。
01 法律服務的雙向痛點
其實很多人對“人工智能”已經不再陌生,原因并非是學術界或資本層面的沸騰,而是在產業深處的應用落地。
翻開幾家人工智能企業的商業計劃書,應用案例多半會占據相當長的篇幅。生產線上的質檢流程、工程管理中的巡檢巡查、市場需求側的數據分析,早已被人工智能滲透、改造,在效率上遠遠超出了傳統生產模式。
但這些機器“取代”人的場景,大多是不需要太多“思考”的重復性勞動,按照既定的算法規則就可以運行。可法律服務偏偏是非標準化的,不同案件的案由、案情、涉及的法律條文各不相同,而且結果還有著不可預見性,尤其考驗從業者的經驗法則、邏輯思維以及對情感的理解和處理能力。
因為有別于其他場景的行業特征,多年來普通人難以獲取優質的法律服務。
站在法律求助者的立場上,尋求法律服務的渠道非常單一,甚至一些人根本不知道去哪里尋求法律服務。即使找到了律師求助,由于自身缺少對法律服務方能力的判斷標準、缺少衡量法律服務費用的客觀標準,整個過程就像是在“黑箱”中一樣,導致很多人在“踩坑”后不愿意再去找律師解決問題。
而法律服務者也有自己的苦衷,市場上缺少全面的案源渠道和高效的篩選機制,難以精準匹配到目標客戶,一旦雙方在認知上的差異太大,不僅會產生過高的溝通成本,還很難讓求助者對服務感到滿意。一些基層法律服務者不得不花費大量時間重復低價值的瑣碎工作,無形中推高了法律服務的機會成本。
為了解決法律服務中的“雙向痛點”,行業內外可謂各出機杼。
早在上世紀80年代就有人將“專家系統”應用在了法律服務中,開發出了運用嚴格責任、相對疏忽和損害賠償等模型來計算責任案件賠償標準的法律判決輔助系統。等到新一輪人工智能浪潮的崛起,法律服務也是最早被賦能的場景之一,紛紛利用算法進行法規和判例的輔助檢索,試圖將法律工作者從浩如煙海的案卷中解放出來,進而能夠將精力集中在更加復雜的法律推理工作中。
其中不乏一些“網紅”級的案例。國內也出現了形形色色的法律機器人產品……
人工智能介入法律服務可以說是持續了幾十年的夙愿,可惜在以往的案例中,人工智能的輔助價值非常有限,并未能消除已有的種種痛點。
02 人工智能正由淺入深
所有事物的演變都有一個由淺入深的過程,人工智能對法律服務的影響也是如此,注定是從邊緣不斷向法律服務的內核滲透。
把時間撥回到2021年7月份,基于昇騰AI的全球首個圖文音三模態預訓練模型“紫東.太初”正式發布,在武漢人工智能計算中心的算力支持下,首次實現了跨模態理解與跨模態生成能力。而“紫東.太初”多模態大模型的主導者,正是徐波擔任所長的中國科學院自動化研究所。
5個月后的2021東湖國際人工智能高峰論壇上,中國科學院自動化研究所牽頭的“多模態人工智能產業聯合體”成立,試圖基于多模態科研成果來進行應用創新孵化及產業聚合,解決一些懸而未決的長尾問題,陸續孵化出了多個行業解決方案,其中就包括武漢百智誠遠科技有限公司研發的AI法律服務產品“法魔方”。
基于紫東.太初三模態大模型,百智誠遠利用昇思MindSpore AI框架進行了AI法律服務的深入探索。
首先是數據的挖掘,匯聚了1.46億條司法案例、1215萬條法律法規、600億條法律新聞和1億則企業法律招投標信息,這些海量信息里不僅有結構化的數據,也有非結構化數據。由于“紫東.太初”多模態大模型采用了多層次多任務自監督預訓練的學習方式,能夠從大規模的無監督數據中挖掘隱含的監督信息進行訓練,證明了多模態大模型的無限潛力。
以深度語義理解為例,輸入“周三上午,李XX在萬達停車場,偷了一輛價值5000元的電動自行車”,“紫東.太初”可以自動識別出作案時間、盜竊者、作案地點、盜竊金額、盜竊物品等有效信息,并對事件性質、危害結果、相關司法案例等進行聯想,形成了綜合性的知識結構。
然后是場景的匹配,通過信息感知與知識推理、行業全景知識與內在聯系產生應用知識、行業專家規則機器學習強化學習等訓練,百智誠遠的“法魔方”沉淀出了規律發現、輔助決策等能力,能夠為律師律所、法院法官、咨詢機構、企事業單位等不同場景提供法律數據、媒體資訊和咨詢等服務。
比如面向法院法官的產品體系中,包含了類案檢索、風險評估、法律法規查詢、庭審大綱生成、電子卷宗整理、裁判文書生成、量刑參考等能力,人工智能不單單是替代機械性的重復勞動,逐漸延伸到了輔助決策、自主分析等深度應用,已經在某種程度上扮演了法律服務“智能助手”的角色。
其實在2017年前后,最高人民法院與國務院就曾出臺文件,提出建設智慧法院的需求,促進人工智能在證據收集、案例分析、法律文件閱讀與分析中的應用,實現法院審判體系和審判能力智能化。
多模態大模型的落地應用,不但填補了法律服務行業遺留多年的“坑”,也讓外界深刻認識到了多模態的價值。
03 多模態大模型的勝利
需要回答的另一個問題在于:為何行業中存在多年的痛點,在多模態大模型的幫助下,似乎可以很輕松地解決?
先來復盤下以往算法模型的局限性:一是模型的功能單一,一個模型只能解決一個任務;二是模型的訓練依賴于大量的樣本,如果缺乏足夠的樣本支撐,訓練也就無從談起;三是人工智能模型的泛化能力差,不能應用于廣泛的應用場景。
倘若不能擺脫“一專一能”的短板,人工智能的通用化很難實現,大模型潛力的爆發也就無從談起。耗費海量的人力、物力去“煉”大模型,用于解決法律服務代表的長尾問題,無異于天方夜譚。
“紫東.太初”所瞄準的,正是常規大模型的局限性:通過將圖像、文本、語音等不同模態數據實現跨模態的統一表征和學習,完成了從“一專一能”到“多專多能”的跨越,不僅可以實現跨模態理解,還能實現跨模態生成,做到了理解和生成兩個最重要的認知能力的平衡,并首次實現了以圖生音、以音來生圖的功能。
有了多模態大模型還不夠,想要讓千行百業里的企業可以用大模型來解決問題,還需要降低大模型的應用門檻。為了打通大模型產業應用的“最后一公里”,兩個組織在其中扮演了不可或缺的角色。
一個是前面提到的“多模態人工智能產業聯合體”,發布了“紫東.太初”大模型開放服務平臺,支持模型的小樣本訓練和一鍵微調,并開源了目前業界最大的中文多模態訓練數據集“紫東.太素”。用戶先在大規模寬泛無標注數據上進行基礎訓練,再結合行業知識通過小樣本學習微調,就可以滿足多種應用任務的需要。
目前已經有40多家企業在平臺上孵化了近60個解決方案,涵蓋智能制造、智慧城市、智慧文旅等數十個行業。
另一個是“紫東.太初”等大模型的“幕后英雄”昇騰AI,參與構建了從規劃、開發到產業化的大模型全流程使能體系。
典型的例子就是昇騰AI推出的大模型開發使能平臺,簡化大模型開發到部署的全流程:在大模型的開發上,提供了高性能Transformer API封裝;在場景化適配上提供了微調套件,目前已經應用于“紫東.太初”大模型開放服務平臺;在推理部署階段,通過大模型部署套件提供自動的剪枝、蒸餾、量化等系列工具,可以在精度基本無損的情況下,實現模型十倍級壓縮比,以支持模型的輕量化部署。
做一個總結的話,“紫東.太初”多模態大模型在產業應用中的“勝利”,所證明的不只是人工智能在法律服務中的潛力,也在潛移默化地改變外界對于大模型的態度,大模型絕不是什么軍備競賽,而是人工智能的研發范式和產業范式。
至少就目前來看,國內對于大模型的態度正在趨于理性:中國科學技術信息研究所正在協同產業界共同規劃中國人工智能大模型地圖,將統籌中國大模型有序發展;繼智能遙感、多模態、智能流體力學等產業聯合體后,電磁智能、智慧育種等產業聯合體也在規劃中,大模型落地的新方法、新模式逐漸有了雛形......
04 寫在最后
1989年上線的科幻電影《回到未來2》曾預言:到了2015年,法律系統臻于完美,律師作為一種職業已經消失。
盡管電影中的預言“落空”了,人工智能對于法律服務的改變卻是不爭的事實。百智誠遠代表的企業正在利用AI改寫法律檢索、合同審核、法律咨詢、案件預測、訴訟策略選擇等場景的運作邏輯,不斷提升法律服務行業的智能化水平。
也許多年后再來回顧法律行業的演變,AI法律服務所承載的意義還會多一個維度,即多模態大模型的崛起。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)