騰訊混元3D,AI平權讓人人成了“造物者”
“造物者”并非一定就是神學,今天,AI也可以顛覆你的想象空間!
一個簡單的例子是,打開騰訊混元3D版本生成界面,輸入“充滿戰斗力的人物英雄”——30秒后,4套完整3D模型隨即清晰可見,附帶骨骼綁定和力量動畫。
確實有這么快和逼真,用騰訊3D混元,或許你甚至不用成為專業的設計師,也能得到想要的3D圖紙和動畫設計。
這究竟是如何實現的?
實際上,這種能力源于騰訊混元3D所開放的智能AI生產能力,數字平權下,每個人好像都可以是“造物者”。
無獨有偶,近期,騰訊混元3D又迎來了再次升級,從 v2.0 版本到 v.2.5 版本,據騰訊宣稱 v2.5 版本在建模精細度上得到了大幅提升。
由此可見,騰訊的多模態Agent商業應用落地正在做加速度了。
01
—
快、真,騰訊混元3D解放想象力
3D技術由來已久,從20世紀開始,3D打印就被應用到工業設計中,不過彼時人類掌握的3D能力,既面臨速度效率上等等困擾,也有成本和質量上的不堪。
“不成型的模樣和反復地加工調試修改”,幾乎是常態。
但在通用人工智能時代,3D模型技術徹底變了,這里,可以暫且將其比喻為一種功能革命,即從解耦生成與全鏈路生產力。通俗地理解,就是3D從諾基亞時代橫跨到了iPhone4時代。
其中,諸多內卷的大模型里,騰訊3D混元似乎更具實力。3月,一份來自全球知名AI模型評測平臺Chatbot Arena公布的最新排名顯示,騰訊混元成為唯二刷新榜單的大模型之一,首次闖入全球Top 15。
能取得不錯的成績,騰訊3D混又是如何做到的?
不妨來從測試體驗中尋求答案。先以有著全中國最為復雜城市建筑結構的重慶為例,將這座3D魔幻城市的地標樓體嵌入其中進行3D生成。
體驗鏈接:https://3d.hunyuan.tencent.com/
開源地址:https://huggingface.co/spaces/tencent
(1)選擇→重慶來福士地標圖
(2)進行圖生3D操作輸入
(3)輸出圖
因此,可以得出一個結論:城市夜景燈色效果得到遷移,建筑物體結構和細節之處的紋路被以肉眼可見的清晰度復制,即便是旁邊的游客,也形成與之呼應的仿真人物。山城重慶的立體美感在騰訊混元3D大模型上得到淋漓盡致地展現。
接下來選擇一個最近網絡上很有人氣的大橘為例。
(1)輸入文字指令
(2)輸出
生成出來的大橘在法線圖,眼睛、身軀、胡須等方面都有非常清晰的輪廓和細節結構。
體驗后的感受并不復雜,一是很快,二是很逼真。快能解決創作者的時效痛點,逼真則源于對質量的要求。混元3D的核心差異化,恰好就在于其“幾何與紋理解耦生成”的技術架構,換句話講,幾何大模型(Hunyuan3D-DiT)專注物體結構與空間邏輯,能高效、精準模擬出工業級精度。
再舉個案例,某新能源車企測試顯示,其生成的齒輪組模型齒距誤差僅0.03毫米,可直接用于物理仿真。而紋理大模型(Hunyuan3D-Paint)則像數字世界的“材質魔術師”,訓練數據包含8.7億張微觀攝影圖,能還原鐵銹氧化痕跡甚至織物纖維斷裂細節。
這種分工模式帶來的質變,在游戲行業同樣也很顯著。對于一些游戲研發者而言,過去制作一個符合行業標準的3D角色需5—10天,現在AI生成框架加人工微調僅需1~2天。更關鍵的是“智能面數分配”:系統自動將50%面數集中于角色面部,30%用于上半身,下肢僅占20%——這與資深美術師的經驗完全一致。
從每一位使用者的感知看,騰訊3D混元帶來的最大不同是體驗平民化,讓3D模型從專業工具到簡易型的全民創作。從產品使用角度看,有3個功能變化是能佐證這一觀點的:
① 多視圖輸入:上傳2—4張圖片,AI自動補全被遮擋區域,解決傳統建模需多角度拍攝的繁瑣;
② 智能減面:將模型面數從數千優化至數百,并保持細節平滑,移動端渲染效率提升多倍;
③ 骨骼綁定自動化:上傳模型即可一鍵生成跑步、揮手等預設動畫。
也正因如此,一些獨立開發者才在試用混元3D制作休閑游戲道具后感嘆:“過去外包一個Q版角色要花3000元,現在AI生成加微調成本不到100元。”
而這種技術平權,正在打破不少行業形成的資源壟斷格局。
02
—
萬億參數底座上構建的AI能力
騰訊混元3D所帶來的快和逼真的極致體驗,其背后并非只是產品優化現象,往深處扒不難發現,它植根于騰訊混元大模型的萬億級參數土壤。在早前的中文大模型競技場CLUE評測中,該模型的空間推理能力超過GPT-4 Turbo,處理“設計可折疊太空咖啡杯”等復雜指令時展現出工程化思維。
公開資料顯示,支撐這一切的是騰訊特有的混合專家模型(MoE)架構,據悉該架構擁有3890億參數規模,推理成本較稠密模型降低70%,再配合星脈高性能計算網絡,借助自研AngelPTM框架,訓練速度達主流框架2.6倍,由此,騰訊混元3D模型逐步形成了數據飛輪效應,即用戶生成的3D模型持續反哺訓練,最終建立其技術護城河。
此前的騰訊財報數據顯示,公司2024年研發投入達706.9億元,資本開支同比增長221%至767億元,創歷史新高。按目前升級后的模型測試結果看,可以推斷出騰訊在大模型方面的投入無疑相當大。
不過騰訊的野心不止于工具輸出。
自2024年11月開源Hunyuan3D-1.0以來,GitHub星標數三個月破萬,8000余家開發機構接入;2.0版本則進一步開放幾何/紋理模型權重,開發者可自由組合生成管線;而2.5版本在建模精細度上進一步大幅提升,有效幾何分辨率達到1024,從標清升級到了高清畫質。另外,在模型架構上,混元3D v2.5總參數量從1B提升至10B,有效面片數增加超10倍,同時免費生成額度翻倍,提升至每天20次。
由此可見,騰訊的“訓練推理參數”與“開源換生態”的雙向策略,與AWS早期路徑如出一轍。更深遠的布局在于數據標準。當數百萬開發者使用混元3D輸出HMF格式文件時,騰訊悄然成為3D內容交互的事實標準制定者——這正是其在大模型競賽中的關鍵籌碼。
有消息稱,騰訊近期還針對混元大模型的研發體系進行了全面重組,主要圍繞算力、算法和數據三大核心板塊刷新團隊部署,加碼研發投入。
此次調整后,騰訊的數據和平臺底座能力將得到明顯加強。例如,大語言模型部和多模態模型部,分別負責探索大語言模型和多模態大模型的前沿技術,持續迭代基礎模型,提升模型能力。同時進一步加強大模型數據能力和平臺底座建設,其中數據平臺部專注大模型數據全流程管理與建設,機器學習平臺部則聚焦機器學習與大數據融合平臺建設,為AI模型訓練推理、大數據業務提供全面高效的PaaS平臺底座,共同支撐騰訊混元大模型技術研發。
長遠看,混元3D的創新,最終還是要體現在商業應用和回報上,這是每一家AI公司在大模型發展道路上不約而同的訴求。
03
—
走向更縱深的3D商業場景
馬化騰曾稱,“我們相信這些加大的投資,會通過提升廣告業務的效率及游戲的生命周期而帶來持續的回報,并隨著我們個人AI應用的加速普及和更多企業采用我們的AI服務,創造更長遠的價值。”
我們可以試圖簡單地理解這句話,騰訊通過對混元3D模型的持續升級和投資,并推動更多客戶的使用,從而為騰訊帶來在AI端業務的增長動力。
目前,騰訊混元大模型已在700 多個內部場景中得到部署,同時考慮到騰訊正積極整合前沿開源生態系統,待下一季度財報出爐時,或將更能顯著的看見混元3D為公司業務帶來的有利變化。
即便從長期看,全球3D建模市場規模也足夠大,據國際數字內容協會統計,這一單一市場將在2025年突破210億美元。混元3D的商業化路徑也初見端倪。
短期內,混元3D或主要以企業API調用和企業訂閱制為主,長期看,工業、游戲等成為大模型落地的香餑餑行業,以游戲行業為例,中小團隊憑混元3D工具可以很快實現“創意平權”,而國內又有百萬級游戲從業者,背后是百億乃至千億級的市場。
如果將目標放至蛋糕紅利更大的自動駕駛領域,混元3D的商業應用價值在于,通過3D物理虛擬模擬車禍、極端天氣等罕見路況來驅動車企的成本下降和算法迭代,能夠幫助廠商們改進產品技術和服務質量。其內在邏輯是,兩者之間完全是一種互補關系,一方面車企很難在現實中采集到全面、多樣的訓練數據,AI生成的3D模型卻能夠補充這種能力。
至于其他AR、VR、線上展館等領域,同樣也將是未來騰訊混元3D的落地方向,這是基于騰訊自身在娛樂、廣告、社交等業務方面的沉淀而得出的結論。
海外市場也不容小視。去年騰訊公司海外收入達到580億元,同比增長9%,其中海外游戲廠牌Supercell的游戲人氣大增,實現活躍用戶和游戲流水的明顯增長。如果混元3D生成模型被進一步應用在游戲3D資產生成等場景,將有效刺激海外游戲玩家規模的穩步增長,這幾乎是確定性事件。
上述現狀表明,騰訊混元3D在體驗上的超預期表現和在底座數據、平臺能力上形成的基石,構建起了該模型在未來的長期回報效應。因為當人人都可以在數字平權下成為“造物者”時,商業價值就變得更加清晰可見。
2.5版本并不是終結者,未來或許還有更多驚喜。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)