算力網絡時代來臨：與產業一起感受多模態大模型下的AI脈動

原創贊收藏評論

舉報 2021-09-29

掃描,分享朋友圈

文 | 曾響鈴

來源 | 科技向令說（xiangling0815）

用文字描述“一個女人打著紅色的雨傘在路上走”，系統呈現出一張唯美的街拍；

有一張飛機起飛的照片，想配上一段適合的聲音，上傳圖片后，一段發動機呼嘯聲的音頻播放出來；

把淅淅瀝瀝的下雨聲導入進去，江南水鄉老宅的氤氳雨景圖展現在了眼前……

這些，是已經實現了的多模態AI應用，橫貫文字、圖像、語音，在初級應用功能上就已經展現出相比單模態更智能、更自然、更多樣化的魅力，其前景被普遍關注，只不過很長一段時間以來，多模態的發展速度一直不算快。

現在，事情正在發生變化。

在華為全聯接2021期間，中國科學技術信息研究所、AITISA（新一代人工智能產業技術創新戰略聯盟）和鵬城實驗室聯合了發布《人工智能計算中心發展白皮書2.0——從人工智能計算中心走向人工智能算力網絡》，其中明確提到了以“大算力+大數據”使能大模型（多模態多樣化的能力一般都由大模型才能更好的實現，或者說多模態的形式表現為大模型）。會上，中國科學院自動化研究所發布了全球首個三模態大模型紫東.太初，這無疑讓多模態的發展進入了一個全新的落地階段。

多模態大模型，正在與人工智能算力網絡互相促進，成為彼此的最佳伴行者。

多重因素下，多模態大模型已成大勢所趨

隨著AI的技術和產業發展逐步走向深入，多模態大模型的趨勢十分明朗，這主要表現在三個方面：

首先，是AI自身的能力進化要求。

在單模態領域，例如歸屬NLP的跨語種翻譯這類應用，機器可以說早已超越人類，實現了重要的技術和產業價值，如果要進一步往前走，多模態自然而然就成為AI技術和產業突圍的新方向。與此同時，單模態本身也面臨“知識冰山”的瓶頸問題，進一步智能化也需要大模型來支撐，例如對“老王去吃食堂”的理解，單純的文字數據很難讓AI辨別“吃食堂”不是把食堂吃掉而是“到食堂吃飯”，但一張場景圖片或視頻就可以很容易解釋清楚并關聯起來。

然后，是“數據”供給的要求。

數據是AI發展的根本、是AI的“食物”，在全球范圍內，包括中國市場上，互聯網的出現幫助AI模型訓練的數據量越來越龐大，它們讓AI得到了快速的能量補充。

然而，目前互聯網音視頻數據高速增長，占比超過80%，單一數據類型例如文本只占不多的比例，這使得更豐富的語音、圖像、視頻等數據并未被充分利用與學習，以多模態的方式將更深度、更廣泛地挖掘這些數據的價值，反過來，大量的各種屬性的數據投喂也將推動AI擺脫單模態，朝著多模態大模型不斷前進。

最后，是產業需求的倒逼。

隨著AI逐步落地，產業需求也在往深處走，更多場景應用需要多模態大模型來支撐，例如，跨模態檢索、智能問答、文學藝術創作、視頻配音、視頻摘要等等。

可以說，越是在技術層面將圖像、文字、語音相互融合，一個應用在場景中表現的價值就越為明顯，也更能讓AI的場景應用真正告別常常被詬病的“雞肋”感。

算力、框架、技術積累三位一體，多模態大模型加速落地

為什么紫東.太初這樣的多模態大模型得以實現，原因主要有三大方面，缺一不可：

1、人工智能算力網絡成為多模態、大模型的重要推進因素

多模態大模型的一個重要特征，是訓練的參數規模呈現指數級的上升。

以往的單模態，單一類型的數據“喂養”幫助AI模型獲取知識、迭代能力，相對而言模型本身并不需要太多的參數，就如同小學生不斷學習加減乘除一樣只要理解基本的數學規則一樣。

而當不同模態加入后，一個可以識別圖像、文字、語音的通用算法，不僅需要理解單模態的各種數據，還需要理解不同數據之間極端復雜的聯系，模型的參數發生膨脹，這就如同專業的大學理工科學習需要綜合各種學科知識進行復雜地算一樣。

這時候，很顯然，算力就成為最基本的支撐，只有超大規模的算力才能支撐大模型的訓練，才能讓多模態應用有更好的效果。

所以，在提供強大集群化算力的各地人工智能計算中心基礎上，人工智能算力網絡的出現，進一步解決了多模態大模型的算力需求問題，成為重要的推進因素。

事實上，由于大模型的運算很多時候還有波峰波谷的問題（即計算時算力耗費巨大，而不計算時則算力閑置），而人工智能算力網絡又能在全國范圍內感知、分配、調度人工智能算力，根據各中心算力資源的情況和各地區的需求情況進行算力動態調配，雙方的供需關系除了“量”之外在“節奏”上也十分契合。

反過來看，多模態大模型的技術發展以及在產業中的應用，也將推動本身作為各地產業集群推進力量的人工智能算力網絡更好地發展，“物盡其用”同時技術不斷進步，可見二者是相互促進的關系。

2、昇思MindSpore特性推動開發加速

由于模型參數十分龐大，光有算力支撐還不行，多模態大模型開發所依托的AI框架也需要有承載和利用算力、支持龐大參數的能力，而這方面，過去國內外已有的一些主流開發框架都只支持簡單的數據并行，滿足不了大模型的需要。

本次在華為全聯接2021上發布的多模態大模型紫東.太初，就基于昇思框架訓練的，這是業界首個支持全自動并行的框架，全球首個中文預訓練大模型鵬程.盤古就出自其手。

昇思框架與多模態大模型相契合的主要技術優勢在于，可以在訓練過程中自動將模型切分到不同的設備，并高效地利用龐大的計算設備集群來完成并行訓練，相當于建立了一套行之有效的中樞指揮系統，將計算任務以同時進行的方式分配下去，再大的訓練任務也能有條不紊實現加速，而不是堵塞起來。

其實現過程，是通過多維度自動并行這一獨特能力來實現的——通過數據并行、模型并行、Pipeline并行、異構并行、重復計算、高效內存復用及拓撲感知調度，降低通信時間的占用，實現整體迭代時間最小，簡單來說就是通過一系列技術創新來讓并行更有規模和效率，無需像其他AI框架一樣半自動甚至是手動來完成大模型的并行執行開發。

在最新的1.5版本更新中，昇思框架還增加了多種并行調優，支持在大集群下高效訓練千億至萬億參數模型。

3、已有多模態大模型相關經驗基礎

多模態能力一定建立在單模態能力的基礎之上，這是毫無疑問的。此次紫東.太初的開發者即中國科學院自動化研究所，是昇騰AI的重要生態伙伴，在發布紫東.太初之前，中科院自動化研究所就已經在圖像、語音、文本三個方面自研了業界領先的模型：

在此基礎上，中科院自動化研究所與昇騰AI攜手，還實現了一些“前期準備”能力的構建，包括圖文跨模態理解與生成性能、視頻理解與描述性能的全球領先，這些都成為紫東.太初的重要支撐：

最終可以看到，全球首個三模態大模型紫東.太初應運而生，讓多模態從常見的兩個模態一躍邁入了三模態時代，不僅可以實現跨模態理解（比如圖像識別、語音識別等任務），也能完成跨模態生成（比如從文本生成圖像、從圖像生成文本、語音生成圖像和視頻等任務）。

看起來，兩個模態與三個模態似乎只有數量的差別，但從技術上，其實現難度或與二維世界到三維世界的跨越類似，需要大量的技術積累與創新。而一旦三模態得以實現，相比較兩模態，AI的交互會變得更加自然，能夠離強人工智能更近一步。

結語

多模態大模型正在加速賦能產業，在開源開放的大前提下，昇騰AI加持的紫東.太初正在走入智能駕駛、工業質檢、影視創作、智慧醫療等應用場景，合作客戶包括上汽集團、魏橋創業等知名企業，一幅多模態大模型賦能千行百業的圖景正在展開。

從多模態大模型的發展可以看出，未來，隨著人工智能算力網絡、昇思框架這樣的基礎軟硬件突破性項目的發展，中國的AI將實現從基礎技術到產業應用的全面領先，憑借技術和模式創新擁有真正的競爭壁壘。

*本文圖片均來源于網絡

*此內容為【科技向令說】原創，未經授權，任何人不得以任何方式使用，包括轉載、摘編、復制或建立鏡像。

【完】

曾響鈴

1鈦媒體、品途、人人都是產品經理等多家創投、科技網站年度十大作者；

2虎嘯獎評委；

3作家：【移動互聯網+ 新常態下的商業機會】等暢銷書作者；

4《中國經營報》《商界》《商界評論》《銷售與市場》等近十家報刊、雜志特約評論員；

5鈦媒體、36kr、虎嗅、界面、澎湃新聞等近80家專欄作者；

6“腦藝人”（腦力手藝人）概念提出者，現演變為“自媒體”，成為一個行業；

7騰訊全媒派榮譽導師、多家科技智能公司傳播顧問。

本文系作者授權數英發表，內容為作者獨立觀點，不代表數英立場。
未經授權嚴禁轉載，授權事宜請聯系作者本人，侵權必究。

掃描,分享朋友圈

曾響鈴

客戶/市場

近期精選文章更多

带玩具逛街时突然按下按钮的故事,丰满的妺妺3伦理播放,新婚人妻不戴套国产精品,大肉大捧一进一出好爽视频百度

算力網絡時代來臨：與產業一起感受多模態大模型下的AI脈動

評論

評論

推薦評論

全部評論（0條）

曾響鈴

關于

聯系

相關信息