文:Swagblueee,來源:wuhu動畫人空間
原標題:比AI繪畫更離譜的AI建模又卷起來了...打字就可以建模了???
不是吧...
AI繪畫已經這么卷了!AI建模又來了?
前幾天,我們還在討論AI繪畫進化到恐怖級。
二次元、寫實、抽象……各種畫風更是不在話下。
AI繪畫又進化到了恐怖級!最強二次元AI繪畫工具可能要卷走一批畫師了!
然而,正當不少創作人熱議這項技術的時候,AI建模技術也悄然而至…而且只要打字就可以自動建模?!
谷歌發布AI生成3D模型新方法
近日,Google Research最近推出了一款AI自動建模的新技術,名叫DreamFusion。該技術牛就牛在可以通過輸入文本直接AI生成3D模型,并且是自帶貼圖的,開啟了AI建模的新紀元。
在官方最新發布的論文中提到,如今所有的文本到圖像的AI合成都是由通過數十億個圖像-文本匹配訓練的擴散模型驅動的。
就相當于是存在一個相當豐富的預設資源庫,AI只需要根據用戶的輸入選用、組合素材即可完成AI合成。但是如果將這種模型應用于3D模型的生成,則需要首先建立起龐大的帶有標記的3D模型資產數據庫和有效的3D數據去噪架構,然而這兩者目前都是不存在的。
為了規避這些限制,Google的研發者們使用了一種預訓練的2D文本-圖像擴散模型來執行文本到3D模型的生成。
預訓練后的模型可以在任意角度、任意光照條件、任意三維環境中基于給定的文本提示生成模型,整個過程既不需要3D訓練數據,也無需修改圖像擴散模型,完全依賴預訓練擴散模型作為先驗,證明了預訓練圖像擴散模型作為先驗模型的有效性。
AI建模的探索之路
事實上,在今年9月份NVIDIA就發布了一款名叫GET3D的工具,它的開發初衷是為元宇宙內容建構人員可以更快創造大量且不同的3D物件,也為自動生成帶貼圖的3D模型打開了探索之路。
文中提到,隨著多個行業朝著大規模的3D虛擬世界發展,能夠生成大量的、高質量的、多樣的3D內容的工具是非常被需要的。
但是目前市面上的3D資產的獲取方式主要由Blender和Maya3D等建模軟件手工設計,這個過程需要耗費大量的時間和專業知識。GET3D希望訓練更好的3D生成模型,來生成下游任務可以直接使用的帶紋理的3D模型。
但是,在之前通過AI生成3D模型的試驗中,開發者面臨著三點問題:
(1)缺乏幾何細節
(2)缺乏紋理
(3)在合成過程中只能使用神經渲染器,3D 軟件中不方便使用
為了解決以上這些問題,GET3D結合了可微表面模型、可微渲染器和2D的GAN等新技術來訓練模型,實現了能夠生成帶紋理的、復雜拓撲結構的、豐富幾何細節的3D模型。
GET3D將模型的生成分為兩個支線,分別是輸出模型表面拓撲結構的幾何生成器和控制表面材質屬性的紋理生成器。有了模型的形狀和材質貼圖,GET3D再使用可微分渲染器渲染到 2D 的圖片。
GET3D甚至還支持可以手動調節參數來控制生成的模型顏色。其生成的模型材質細節非常豐富,除了基本的顏色、粗糙度、金屬性,還可以體現法線貼圖和多種高光效果。
GET3D讓我們離人工智能驅動的3D內容創作大眾化又近了一步,它對即時生成帶紋理3D形狀的探索也促進了DreamFusion的設想與開發。
參考文獻:GET3D: A Generative Model of High Quality 3DTextured Shapes Learned from Images
除此之外,在文本引導的圖像生成模型領域還曾提出過一個名叫3DiM的擴散模型,它可以從單個圖像進行3D新視圖合成。將3DiM與之前開發的其他模型在數據集上的工作進行了比較,發現3DiM從單個視圖生成的視頻實現了更高的保真度,同時大致具有3D一致性。
Diffusion Model無論從真實度還是還原度都幾乎無可挑剔,已然擁有成為下一代圖像生成模型的代表的潛力。
比如下面的馬桶模型,只需要根據一整圖片就可以AI生成另外兩個視角的圖片,根據三個不同視角的圖片就可以搭建出一個立體的3D模型。
3DiM研究的研究為AI建模帶來了一些啟發:
1、證明了擴散模型對2D轉3D合成的有效性。
2、隨機條件反射 - 新型采樣器,可實現近似的3D一致性。
3、可以使用圖像分割工具UNet來實現權重共享和交叉注意力來改善結果。
4、開發出一套新的標準來量化無幾何模型3D一致性,即3D一致性評分。
官方網站:3d-diffusion.github.io
簡單來說,GET3D和3DiM分別探索了2D轉3D,文字轉2D的生成過程,為DreamFusion的產生做出了鋪墊。
打字建模的理想照進現實
上文提到的GET3D還是需要提供一張2D圖像作為輸入,到了DreamFusion就只需要輸入文字即可生成模型。
當你輸入“青蛙穿毛衣”;
當你輸入“骷髏小哥喝紅酒”;
當你輸入“老虎吃冰淇淋”;
當你輸入“鸚鵡對戰下國際象棋”;
當你輸入“破殼小雞站在蛋旁”;
當你輸入“健身自行車在室內”;
是不是很好玩?
DreamFusion實現從文字到模型的轉化主要是結合了兩種新方法:神經輻射場和2D擴散。
如果是換建模師來完成一個文字到模型的創建工作,那么第一步就是建模師根據文字搜尋或構想出模型的具體形象,再根據這個形象來完成建模、貼圖、渲染等一系列任務。
在DreamFusion中,它可以直接完成模型的建模和渲染,在建模的過程中AI可直接通過文本思考參照物然后圍繞參照物自動建模。
這是一種用深度學習完成3D渲染任務的新型計算機視覺渲染模型。
不斷優化后,AI建模已經進化成這樣了!
現在可以通過AI的“意識”將輸入的文字具象化出具體的符號圖像。他的演變過程AI已經會具體非常強的畫面視覺化的能力了。
2D擴散模型是Google自己的圖像生成元模型,他可以將文本轉為AI意識到的畫面從而實現建模!
DreamFusion優化的每次生成迭代都包含四步:
(1)隨機采樣一個相機和燈光
(2)從該相機和燈光下渲染NeRF的圖像
(3)計算SDS損失相對于NeRF參數的梯度
(4)使用優化器更新NeRF參數
不僅如此,DreamFusion模型中能夠實現精確3D幾何的關鍵組件,它在彩色圖像上的表現非常出色,并更接近于真實圖像的樣貌。
參考文獻:DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION
DreamFusion的使用限制
面對如此神奇的黑科技,不少網友紛紛表達了對于AI技術高速發展的驚嘆,同時也對未來建模師職業的擔憂。
其實,目前的DreamFusion還屬于試驗開發階段!
其文本輸入只能根據官方的預設進行選擇搭配,并且生成的模型分辨率還比較低,看起來并沒有非常精致。
如果要導出的話只支持導出.glb格式,該格式目前只能適用于AR項目。想要高精度的三維模型,則只能作為低模導入到其他三維軟件中進行雕刻和細化。
通過以下5張圖來測試,我們來看看不同描述生成的松鼠模型。
雖然現在這項AI建模技術還處于一個不能大規模使用的實驗開發階段,不能供我們隨意DIY自己想要的模型,但是在官方的網站中羅列展示了許多開發者訓練生成的一些模型,既包括了白模,又有帶貼圖材質的,甚至還可以供瀏覽者下載這些AI生成的3D模型。
下載的模型可以導入Unity或者Blender做成AR增強現實中的道具,是不是也是很有意思呢?
AI建模的未來與展望
事實上,比起建模師手下栩栩如生、細節滿滿的模型來說,像DreamFusion所生成的模型就顯得有些“粗制濫造”,在如今的數字生產中根本派不上什么用場。
但是,研究像DreamFusion、GET3D、3DiM這樣的AI建模方法的意義并不是希望它們現在就可以讓我們解放雙手,而是在未來為我們開發出更實用的工具開辟新的靈感和道路。
如今AI技術的發展突飛猛進,像早先的DALL-E這種2DAI生成工具只花費了兩年的時間就實現了從最初發布到如今的大規模應用,所以樂觀來說DreamFusion的未來發展也許也比我們想象的要快得多。
說不定在未來的不久,我們就可以利用AI工具生成我們所需要的模型了,然后再根據實際需要稍作調整就可以應用到創作當中。到那時候,又是幾家歡樂幾家愁呢,讓我們拭目以待吧!
本期話題:你對AI建模的未來有什么期待?
作者公眾號:wuhu動畫人空間(ID:wuhu1768)
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
全部評論(4條)