專為MoE設(shè)計(jì)的“超級(jí)工廠”,來(lái)了
文 | 智能相對(duì)論
作者 | 葉遠(yuǎn)風(fēng)
大模型催生了無(wú)數(shù)的創(chuàng)新機(jī)會(huì),而大模型應(yīng)用要如何更好地實(shí)現(xiàn)落地、服務(wù)好企業(yè)和個(gè)人,就成為廣大開(kāi)發(fā)者能否有效抓住這波時(shí)代紅利的關(guān)鍵。
于是,來(lái)自計(jì)算產(chǎn)業(yè)生態(tài)的支持動(dòng)作,對(duì)開(kāi)發(fā)者而言就變得尤為重要。
5月23-24日,鯤鵬昇騰開(kāi)發(fā)者大會(huì)2025(KADC2025)將于北京中關(guān)村國(guó)際創(chuàng)新中心舉辦,作為華為面向開(kāi)發(fā)者一年一度的技術(shù)盛典,大會(huì)在直接推動(dòng)開(kāi)發(fā)者技術(shù)能力提升、產(chǎn)業(yè)價(jià)值落地等方面有諸多布局。
而值得關(guān)注的是,19日鯤鵬昇騰創(chuàng)享周上,昇騰方面的首場(chǎng)直播,就聚焦在昇騰超節(jié)點(diǎn)計(jì)算集群硬件架構(gòu),顯示出昇騰對(duì)這一架構(gòu)的重視。
對(duì)開(kāi)發(fā)者而言,做好大模型,MoE已經(jīng)必選項(xiàng)。現(xiàn)在,能夠更好支撐MoE架構(gòu)的基礎(chǔ)設(shè)施方案“最優(yōu)解”也已經(jīng)出現(xiàn)。
MoE成必選項(xiàng),但“作坊式”生產(chǎn)成隱憂
大模型領(lǐng)域,MoE架構(gòu)的優(yōu)勢(shì)已經(jīng)十分明顯。
不同的任務(wù)分成一個(gè)個(gè)“專家”模型去處理,每個(gè)專家只需處理自己最擅長(zhǎng)的領(lǐng)域,無(wú)論在效率還是專業(yè)能力,MoE架構(gòu)都奠定了其作為下一階段大模型發(fā)展主要技術(shù)路線的地位。
而從MoE的技術(shù)特點(diǎn)可以粗略看出,這是一個(gè)需要“拆分”然后分工合作的架構(gòu),其技術(shù)演化路線,也基本沿著這個(gè)方向走——越拆越細(xì)。
比如最早的MoE架構(gòu),其專家數(shù)量可能只有十幾個(gè),后來(lái)又進(jìn)一步發(fā)展到幾十個(gè)、上百個(gè),把更多的任務(wù)分配到更小的專家上去,“專才”越來(lái)越專,大模型的效果會(huì)變得更好,處理效率也會(huì)更高。
然而,雖然MoE架構(gòu)的優(yōu)化一直在提升,專家的數(shù)量不斷增加,例如DeepSeek的R1已經(jīng)有288個(gè)專家,但這種增長(zhǎng)也正在面臨額外的通信難題。
也即,當(dāng)MoE架構(gòu)中被安排的的專家越來(lái)越多,專家和專家之間的通信會(huì)越來(lái)越多,對(duì)計(jì)算協(xié)同能力的要求也越來(lái)越高。更多的計(jì)算卡集合到了一起形成大量節(jié)點(diǎn),要實(shí)現(xiàn)有機(jī)整合、要把大量的專家分配到不同卡上來(lái)做好模型處理,都存在技術(shù)挑戰(zhàn)。
顯然,由服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等設(shè)備堆疊而成的傳統(tǒng)集群,在這方面正面臨瓶頸,在大規(guī)模訓(xùn)練時(shí),資源利用率低、故障頻發(fā),嚴(yán)重阻礙著AI發(fā)展和創(chuàng)新。
比如,傳統(tǒng)模式往往是在不同的節(jié)點(diǎn)之間進(jìn)行互相通信,雖然最好的數(shù)據(jù)已經(jīng)能夠做到雙向800Gb的帶寬傳輸,但在快速增加的專家數(shù)量面前,已經(jīng)遠(yuǎn)遠(yuǎn)不夠看了。
這就好比,MoE架構(gòu)不斷優(yōu)化后已經(jīng)能夠請(qǐng)來(lái)一大堆專家?guī)兔M(jìn)行“生產(chǎn)”,但開(kāi)發(fā)者能夠提供給它的生產(chǎn)環(huán)境,卻還只是個(gè)“小作坊”——協(xié)同差、流程效率低、擁擠不堪,顯然已經(jīng)無(wú)法滿足時(shí)代的需要,除了限制既有MoE能力的發(fā)揮,在專家數(shù)量的進(jìn)一步提升上也設(shè)置了無(wú)形的障礙。
這時(shí)候,昇騰超節(jié)點(diǎn)的出現(xiàn),就帶來(lái)了“生產(chǎn)模式”的改變。
昇騰超節(jié)點(diǎn),為MoE建設(shè)一座“超級(jí)工廠”
通過(guò)高速總線連接多顆 NPU,突破互聯(lián)瓶頸,卡和卡之間通過(guò)高速互聯(lián)實(shí)現(xiàn)了超高的互聯(lián)網(wǎng)通信,最終,一個(gè)多節(jié)點(diǎn)組成的集群能夠像一臺(tái)計(jì)算機(jī)一樣緊密協(xié)同工作,這就是昇騰超節(jié)點(diǎn)在做的。
需要說(shuō)明的是,昇騰超節(jié)點(diǎn)是通用架構(gòu),只不過(guò)它很親和MoE的多專家模式。
目前,昇騰超節(jié)點(diǎn)解決方案已經(jīng)推出了多款訓(xùn)練和推理產(chǎn)品,基于架構(gòu)創(chuàng)新來(lái)滿足模型訓(xùn)練和推理對(duì)低時(shí)延,大帶寬,長(zhǎng)穩(wěn)可靠的要求。
這就好比,它為MoE的眾多專家們,建設(shè)了一座提供高效協(xié)同生產(chǎn)環(huán)境的超級(jí)工廠,再多的專家參與到大模型的“能力生產(chǎn)”中,也能在“超級(jí)工廠”健全的流程和生產(chǎn)設(shè)備支撐下,井然有序、高效率完成大模型能力的“生產(chǎn)作業(yè)”。
也由此,昇騰超節(jié)點(diǎn)正成為MoE模型的最佳選擇。
1、解決“生產(chǎn)過(guò)程”溝通協(xié)作難題
MoE的專家并行需頻繁執(zhí)行機(jī)間all-to-all通信,導(dǎo)致網(wǎng)絡(luò)擁塞和延遲上升。例如,千億級(jí)MoE模型的訓(xùn)練中,通信開(kāi)銷占總耗時(shí)的40%以上。而昇騰超節(jié)點(diǎn)主要是通過(guò)架構(gòu)創(chuàng)新來(lái)實(shí)現(xiàn)更高更大的帶寬、更高的性能,提升訓(xùn)練效率、推理吞吐能力。
具體而言,超節(jié)點(diǎn)內(nèi)的高速互聯(lián)能力讓跨節(jié)點(diǎn)通信帶寬提升15倍,通信時(shí)延從2μs降至0.2μs,下降10倍,大幅降低整體通信占比,讓計(jì)算少等待、不等待。有數(shù)據(jù)顯示,相較傳統(tǒng)集群,整體訓(xùn)練效率、推理吞吐可提升3倍。
由此,再多的MoE專家細(xì)分也能夠支撐,像是提供了可以彈性容納更多專家的“流水線”。目前, Atlas 900昇騰384超節(jié)點(diǎn)可實(shí)現(xiàn)384顆NPU點(diǎn)到點(diǎn)超大帶寬互聯(lián),成為業(yè)界唯一支持DeepSeek V3/R1在一個(gè)超節(jié)點(diǎn)域內(nèi)即可完成所有的專家并行(EP)的方案。
2、提升“生產(chǎn)資源”利用率
超級(jí)工廠的流水線相對(duì)于小作坊生產(chǎn)的另一重價(jià)值是能夠?qū)崿F(xiàn)更有效率的生產(chǎn)資源利用。
昇騰超節(jié)點(diǎn)相對(duì)于傳統(tǒng)集群的優(yōu)勢(shì)之一也在于此,能夠依據(jù)MoE結(jié)構(gòu)中專家分布以及每層的計(jì)算需求,精細(xì)地將模型切分至不同節(jié)點(diǎn),更合理分配資源,提高整體資源利用率。
而且,當(dāng)多個(gè)專家一起工作時(shí),昇騰超節(jié)點(diǎn)同時(shí)可運(yùn)行多種并行策略并動(dòng)態(tài)調(diào)整,針對(duì)實(shí)時(shí)的負(fù)載情況精準(zhǔn)分配計(jì)算資源,不堵塞、每個(gè)節(jié)點(diǎn)都被充分利用,加速訓(xùn)練/推理進(jìn)程。
不僅讓專家“人盡其用”,也讓節(jié)點(diǎn)資源“物盡其用”。
3、處理繁雜但重要的“瑣碎生產(chǎn)事項(xiàng)”
在分布式計(jì)算場(chǎng)景下,大模型訓(xùn)練和推理過(guò)程存在大量并行計(jì)算,帶來(lái)頻繁的參數(shù)同步和梯度交換,需要傳輸大量小尺寸數(shù)據(jù)包。在MoE架構(gòu)下,隨著模型參數(shù)量持續(xù)增長(zhǎng),小包通信需求將進(jìn)一步加劇。
而偏偏,這類通信對(duì)網(wǎng)絡(luò)時(shí)延、抖動(dòng)和丟包率極其敏感,直接影響訓(xùn)練/推理效率。
對(duì)應(yīng)實(shí)體世界,這就相當(dāng)于生產(chǎn)過(guò)程中總是給出了大量非?,嵥榈臏贤ê腿蝿?wù),粗獷的“小作坊”生產(chǎn)顯然很難有效應(yīng)對(duì),時(shí)?!皝G三落四”,必須依靠“超級(jí)工廠”的標(biāo)準(zhǔn)化流程與規(guī)則來(lái)托舉。
昇騰超節(jié)點(diǎn)做到了全局內(nèi)存統(tǒng)一編址,具備更高效的內(nèi)存語(yǔ)義通信能力,實(shí)現(xiàn)了更低時(shí)延指令級(jí)內(nèi)存語(yǔ)義通信,從而能夠滿足大模型訓(xùn)練/推理中的小包通信需求,提升專家網(wǎng)絡(luò)小包數(shù)據(jù)傳輸及離散隨機(jī)訪存通信效率。
規(guī)則、一體化平臺(tái)建立起來(lái),就不怕工作碎而多了。
4、用減少“停機(jī)”來(lái)作為重要的生產(chǎn)效率來(lái)源
現(xiàn)實(shí)中的生產(chǎn)小作坊由于制度不完善,經(jīng)常在運(yùn)轉(zhuǎn)中碰到各種難題,停工停業(yè)。作為對(duì)比,超級(jí)工廠幾乎不“停機(jī)”就帶來(lái)的直接的生產(chǎn)效率。
誠(chéng)然,大模型訓(xùn)練或推理一定會(huì)面臨某些故障,這時(shí)候,能夠降低故障頻次、降低恢復(fù)時(shí)長(zhǎng),就成為訓(xùn)練/推理效率的重要來(lái)源。昇騰超節(jié)點(diǎn)擁有多平面的鏈路設(shè)計(jì)、鏈路故障秒級(jí)切換、算子級(jí)重傳等可靠性能力,如Atlas 900昇騰384超節(jié)點(diǎn)產(chǎn)品的平均無(wú)故障運(yùn)行時(shí)長(zhǎng)從幾小時(shí)提升到幾天,讓大模型訓(xùn)練變的更快、更簡(jiǎn)單。
而且,在出現(xiàn)故障后,昇騰超節(jié)點(diǎn)也支持更敏捷的斷點(diǎn)續(xù)訓(xùn),故障恢復(fù)時(shí)長(zhǎng)能從傳統(tǒng)集群的幾小時(shí)級(jí)降低至30分鐘。
“流水線”少停,停后快速啟動(dòng),這就是直接的效率。
一座“超級(jí)工廠”的建成,只能是“產(chǎn)業(yè)資源”的集中展現(xiàn)
現(xiàn)實(shí)中的超級(jí)工廠的建設(shè)對(duì)一個(gè)地方產(chǎn)業(yè)資源有著極高的要求,對(duì)應(yīng)地,為MoE的專家們建設(shè)一座數(shù)字世界的超級(jí)工廠,也需要多方面技術(shù)力量的支撐。
昇騰超節(jié)點(diǎn)是整個(gè)架構(gòu)層面的創(chuàng)新,其采用總線互聯(lián)的技術(shù),實(shí)現(xiàn)了統(tǒng)一內(nèi)存編輯、統(tǒng)一內(nèi)存語(yǔ)義通信,不僅有高速通信,也有高速存儲(chǔ)讀取等,這些,都離不開(kāi)華為在計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等方面長(zhǎng)期以來(lái)優(yōu)勢(shì)的集成,是優(yōu)勢(shì)技術(shù)資源積淀與運(yùn)用的結(jié)果。
所以,昇騰超節(jié)點(diǎn)不是簡(jiǎn)單的集群模式創(chuàng)新就能實(shí)現(xiàn)的,與MoE架構(gòu)的匹配親和,是這個(gè)時(shí)代最尖端的基礎(chǔ)設(shè)施與模型架構(gòu)的碰撞、對(duì)話。
不僅如此,目前昇騰超節(jié)點(diǎn)還聯(lián)合昇騰其他解決方案進(jìn)一步強(qiáng)化大模型支撐能力。
例如,隨著模型越來(lái)越大,并行的情況也會(huì)越來(lái)越多,把數(shù)據(jù)切分的越來(lái)越細(xì)、把整個(gè)模型切分的越來(lái)越細(xì),除了通過(guò)超節(jié)點(diǎn)的架構(gòu)訓(xùn)練出更強(qiáng)性能的模型,昇騰還在通過(guò)大EP和集成部署的推理系統(tǒng)來(lái)滿足極致的工程創(chuàng)新、來(lái)滿足大模型所有節(jié)點(diǎn)的部署。
如此,這座為MoE專家們準(zhǔn)備的“超級(jí)工廠”在生產(chǎn)調(diào)度能力上也正在變得越來(lái)越豐富。
結(jié)語(yǔ)
在復(fù)雜的形勢(shì)下,對(duì)多節(jié)點(diǎn)集群能力的挖掘,實(shí)際上也一定程度解決了算力供應(yīng)鏈穩(wěn)定性難題。畢竟,“立足中國(guó),只有基于實(shí)際可獲得的基礎(chǔ)硬件制造工藝打造的算力才是長(zhǎng)期可持續(xù)的,否則是不可持續(xù)的?!?/p>
很慶幸,有了昇騰超節(jié)點(diǎn)這類技術(shù)積淀之上的架構(gòu)創(chuàng)新,可持續(xù)的基礎(chǔ)設(shè)施正在被有效建立起來(lái),推動(dòng)MoE在本土發(fā)展壯大,讓本土大模型獲得更大的話語(yǔ)權(quán)。
在全面智能化戰(zhàn)略(All Intelligence)下,華為正在進(jìn)行著計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)技術(shù)協(xié)同創(chuàng)新,昇騰超節(jié)點(diǎn)之外,本次鯤鵬昇騰開(kāi)發(fā)者大會(huì)料將呈現(xiàn)更多計(jì)算產(chǎn)業(yè)趨勢(shì)、前沿技術(shù)、行業(yè)創(chuàng)新案例和優(yōu)秀開(kāi)發(fā)者實(shí)踐,值得關(guān)注與參與。
*本文圖片均來(lái)源于網(wǎng)絡(luò)
此內(nèi)容為【智能相對(duì)論】原創(chuàng),
僅代表個(gè)人觀點(diǎn),未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。
部分圖片來(lái)自網(wǎng)絡(luò),且未核實(shí)版權(quán)歸屬,不作為商業(yè)用途,如有侵犯,請(qǐng)作者與我們聯(lián)系。
?AI產(chǎn)業(yè)新媒體;
?澎湃新聞科技榜單月度top5;
?文章長(zhǎng)期“霸占”鈦媒體熱門文章排行榜TOP10;
?著有《人工智能 十萬(wàn)個(gè)為什么》
?【重點(diǎn)關(guān)注領(lǐng)域】智能家電(含白電、黑電、智能手機(jī)、無(wú)人機(jī)等AIoT設(shè)備)、智能駕駛、AI+醫(yī)療、機(jī)器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計(jì)算、開(kāi)發(fā)者以及背后的芯片、算法等。
轉(zhuǎn)載請(qǐng)?jiān)谖恼麻_(kāi)頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請(qǐng)聯(lián)系作者本人,侵權(quán)必究。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
授權(quán)事宜請(qǐng)至數(shù)英微信公眾號(hào)(ID: digitaling) 后臺(tái)授權(quán),侵權(quán)必究。
評(píng)論
評(píng)論
推薦評(píng)論
暫無(wú)評(píng)論哦,快來(lái)評(píng)論一下吧!
全部評(píng)論(0條)