文:Swagblueee,來源:wuhu動(dòng)畫人空間
原標(biāo)題:比AI繪畫更離譜的AI建模又卷起來了...打字就可以建模了???
不是吧...
AI繪畫已經(jīng)這么卷了!AI建模又來了?
前幾天,我們還在討論AI繪畫進(jìn)化到恐怖級(jí)。
二次元、寫實(shí)、抽象……各種畫風(fēng)更是不在話下。
AI繪畫又進(jìn)化到了恐怖級(jí)!最強(qiáng)二次元AI繪畫工具可能要卷走一批畫師了!
AI繪畫又在短視頻領(lǐng)域殺瘋了!離譜到被全網(wǎng)發(fā)聲!
然而,正當(dāng)不少創(chuàng)作人熱議這項(xiàng)技術(shù)的時(shí)候,AI建模技術(shù)也悄然而至…而且只要打字就可以自動(dòng)建模?!
谷歌發(fā)布AI生成3D模型新方法
近日,Google Research最近推出了一款AI自動(dòng)建模的新技術(shù),名叫DreamFusion。該技術(shù)牛就牛在可以通過輸入文本直接AI生成3D模型,并且是自帶貼圖的,開啟了AI建模的新紀(jì)元。
在官方最新發(fā)布的論文中提到,如今所有的文本到圖像的AI合成都是由通過數(shù)十億個(gè)圖像-文本匹配訓(xùn)練的擴(kuò)散模型驅(qū)動(dòng)的。
就相當(dāng)于是存在一個(gè)相當(dāng)豐富的預(yù)設(shè)資源庫(kù),AI只需要根據(jù)用戶的輸入選用、組合素材即可完成AI合成。但是如果將這種模型應(yīng)用于3D模型的生成,則需要首先建立起龐大的帶有標(biāo)記的3D模型資產(chǎn)數(shù)據(jù)庫(kù)和有效的3D數(shù)據(jù)去噪架構(gòu),然而這兩者目前都是不存在的。
為了規(guī)避這些限制,Google的研發(fā)者們使用了一種預(yù)訓(xùn)練的2D文本-圖像擴(kuò)散模型來執(zhí)行文本到3D模型的生成。
預(yù)訓(xùn)練后的模型可以在任意角度、任意光照條件、任意三維環(huán)境中基于給定的文本提示生成模型,整個(gè)過程既不需要3D訓(xùn)練數(shù)據(jù),也無需修改圖像擴(kuò)散模型,完全依賴預(yù)訓(xùn)練擴(kuò)散模型作為先驗(yàn),證明了預(yù)訓(xùn)練圖像擴(kuò)散模型作為先驗(yàn)?zāi)P偷挠行?/strong>。
AI建模的探索之路
事實(shí)上,在今年9月份NVIDIA就發(fā)布了一款名叫GET3D的工具,它的開發(fā)初衷是為元宇宙內(nèi)容建構(gòu)人員可以更快創(chuàng)造大量且不同的3D物件,也為自動(dòng)生成帶貼圖的3D模型打開了探索之路。
文中提到,隨著多個(gè)行業(yè)朝著大規(guī)模的3D虛擬世界發(fā)展,能夠生成大量的、高質(zhì)量的、多樣的3D內(nèi)容的工具是非常被需要的。
但是目前市面上的3D資產(chǎn)的獲取方式主要由Blender和Maya3D等建模軟件手工設(shè)計(jì),這個(gè)過程需要耗費(fèi)大量的時(shí)間和專業(yè)知識(shí)。GET3D希望訓(xùn)練更好的3D生成模型,來生成下游任務(wù)可以直接使用的帶紋理的3D模型。
但是,在之前通過AI生成3D模型的試驗(yàn)中,開發(fā)者面臨著三點(diǎn)問題:
(1)缺乏幾何細(xì)節(jié)
(2)缺乏紋理
(3)在合成過程中只能使用神經(jīng)渲染器,3D 軟件中不方便使用
為了解決以上這些問題,GET3D結(jié)合了可微表面模型、可微渲染器和2D的GAN等新技術(shù)來訓(xùn)練模型,實(shí)現(xiàn)了能夠生成帶紋理的、復(fù)雜拓?fù)浣Y(jié)構(gòu)的、豐富幾何細(xì)節(jié)的3D模型。
GET3D將模型的生成分為兩個(gè)支線,分別是輸出模型表面拓?fù)浣Y(jié)構(gòu)的幾何生成器和控制表面材質(zhì)屬性的紋理生成器。有了模型的形狀和材質(zhì)貼圖,GET3D再使用可微分渲染器渲染到 2D 的圖片。
GET3D甚至還支持可以手動(dòng)調(diào)節(jié)參數(shù)來控制生成的模型顏色。其生成的模型材質(zhì)細(xì)節(jié)非常豐富,除了基本的顏色、粗糙度、金屬性,還可以體現(xiàn)法線貼圖和多種高光效果。
GET3D讓我們離人工智能驅(qū)動(dòng)的3D內(nèi)容創(chuàng)作大眾化又近了一步,它對(duì)即時(shí)生成帶紋理3D形狀的探索也促進(jìn)了DreamFusion的設(shè)想與開發(fā)。
參考文獻(xiàn):GET3D: A Generative Model of High Quality 3DTextured Shapes Learned from Images
除此之外,在文本引導(dǎo)的圖像生成模型領(lǐng)域還曾提出過一個(gè)名叫3DiM的擴(kuò)散模型,它可以從單個(gè)圖像進(jìn)行3D新視圖合成。將3DiM與之前開發(fā)的其他模型在數(shù)據(jù)集上的工作進(jìn)行了比較,發(fā)現(xiàn)3DiM從單個(gè)視圖生成的視頻實(shí)現(xiàn)了更高的保真度,同時(shí)大致具有3D一致性。
Diffusion Model無論從真實(shí)度還是還原度都幾乎無可挑剔,已然擁有成為下一代圖像生成模型的代表的潛力。
比如下面的馬桶模型,只需要根據(jù)一整圖片就可以AI生成另外兩個(gè)視角的圖片,根據(jù)三個(gè)不同視角的圖片就可以搭建出一個(gè)立體的3D模型。
3DiM研究的研究為AI建模帶來了一些啟發(fā):
1、證明了擴(kuò)散模型對(duì)2D轉(zhuǎn)3D合成的有效性。
2、隨機(jī)條件反射 - 新型采樣器,可實(shí)現(xiàn)近似的3D一致性。
3、可以使用圖像分割工具UNet來實(shí)現(xiàn)權(quán)重共享和交叉注意力來改善結(jié)果。
4、開發(fā)出一套新的標(biāo)準(zhǔn)來量化無幾何模型3D一致性,即3D一致性評(píng)分。
官方網(wǎng)站:3d-diffusion.github.io
簡(jiǎn)單來說,GET3D和3DiM分別探索了2D轉(zhuǎn)3D,文字轉(zhuǎn)2D的生成過程,為DreamFusion的產(chǎn)生做出了鋪墊。
打字建模的理想照進(jìn)現(xiàn)實(shí)
上文提到的GET3D還是需要提供一張2D圖像作為輸入,到了DreamFusion就只需要輸入文字即可生成模型。
當(dāng)你輸入“青蛙穿毛衣”;
當(dāng)你輸入“骷髏小哥喝紅酒”;
當(dāng)你輸入“老虎吃冰淇淋”;
當(dāng)你輸入“鸚鵡對(duì)戰(zhàn)下國(guó)際象棋”;
當(dāng)你輸入“破殼小雞站在蛋旁”;
當(dāng)你輸入“健身自行車在室內(nèi)”;
是不是很好玩?
DreamFusion實(shí)現(xiàn)從文字到模型的轉(zhuǎn)化主要是結(jié)合了兩種新方法:神經(jīng)輻射場(chǎng)和2D擴(kuò)散。
如果是換建模師來完成一個(gè)文字到模型的創(chuàng)建工作,那么第一步就是建模師根據(jù)文字搜尋或構(gòu)想出模型的具體形象,再根據(jù)這個(gè)形象來完成建模、貼圖、渲染等一系列任務(wù)。
在DreamFusion中,它可以直接完成模型的建模和渲染,在建模的過程中AI可直接通過文本思考參照物然后圍繞參照物自動(dòng)建模。
這是一種用深度學(xué)習(xí)完成3D渲染任務(wù)的新型計(jì)算機(jī)視覺渲染模型。
不斷優(yōu)化后,AI建模已經(jīng)進(jìn)化成這樣了!
現(xiàn)在可以通過AI的“意識(shí)”將輸入的文字具象化出具體的符號(hào)圖像。他的演變過程AI已經(jīng)會(huì)具體非常強(qiáng)的畫面視覺化的能力了。
2D擴(kuò)散模型是Google自己的圖像生成元模型,他可以將文本轉(zhuǎn)為AI意識(shí)到的畫面從而實(shí)現(xiàn)建模!
DreamFusion優(yōu)化的每次生成迭代都包含四步:
(1)隨機(jī)采樣一個(gè)相機(jī)和燈光
(2)從該相機(jī)和燈光下渲染NeRF的圖像
(3)計(jì)算SDS損失相對(duì)于NeRF參數(shù)的梯度
(4)使用優(yōu)化器更新NeRF參數(shù)
不僅如此,DreamFusion模型中能夠?qū)崿F(xiàn)精確3D幾何的關(guān)鍵組件,它在彩色圖像上的表現(xiàn)非常出色,并更接近于真實(shí)圖像的樣貌。
參考文獻(xiàn):DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION
DreamFusion的使用限制
面對(duì)如此神奇的黑科技,不少網(wǎng)友紛紛表達(dá)了對(duì)于AI技術(shù)高速發(fā)展的驚嘆,同時(shí)也對(duì)未來建模師職業(yè)的擔(dān)憂。
其實(shí),目前的DreamFusion還屬于試驗(yàn)開發(fā)階段!
其文本輸入只能根據(jù)官方的預(yù)設(shè)進(jìn)行選擇搭配,并且生成的模型分辨率還比較低,看起來并沒有非常精致。
如果要導(dǎo)出的話只支持導(dǎo)出.glb格式,該格式目前只能適用于AR項(xiàng)目。想要高精度的三維模型,則只能作為低模導(dǎo)入到其他三維軟件中進(jìn)行雕刻和細(xì)化。
通過以下5張圖來測(cè)試,我們來看看不同描述生成的松鼠模型。
雖然現(xiàn)在這項(xiàng)AI建模技術(shù)還處于一個(gè)不能大規(guī)模使用的實(shí)驗(yàn)開發(fā)階段,不能供我們隨意DIY自己想要的模型,但是在官方的網(wǎng)站中羅列展示了許多開發(fā)者訓(xùn)練生成的一些模型,既包括了白模,又有帶貼圖材質(zhì)的,甚至還可以供瀏覽者下載這些AI生成的3D模型。
官方網(wǎng)站:dreamfusion3d.github.io
下載的模型可以導(dǎo)入U(xiǎn)nity或者Blender做成AR增強(qiáng)現(xiàn)實(shí)中的道具,是不是也是很有意思呢?
AI建模的未來與展望
事實(shí)上,比起建模師手下栩栩如生、細(xì)節(jié)滿滿的模型來說,像DreamFusion所生成的模型就顯得有些“粗制濫造”,在如今的數(shù)字生產(chǎn)中根本派不上什么用場(chǎng)。
但是,研究像DreamFusion、GET3D、3DiM這樣的AI建模方法的意義并不是希望它們現(xiàn)在就可以讓我們解放雙手,而是在未來為我們開發(fā)出更實(shí)用的工具開辟新的靈感和道路。
如今AI技術(shù)的發(fā)展突飛猛進(jìn),像早先的DALL-E這種2DAI生成工具只花費(fèi)了兩年的時(shí)間就實(shí)現(xiàn)了從最初發(fā)布到如今的大規(guī)模應(yīng)用,所以樂觀來說DreamFusion的未來發(fā)展也許也比我們想象的要快得多。
說不定在未來的不久,我們就可以利用AI工具生成我們所需要的模型了,然后再根據(jù)實(shí)際需要稍作調(diào)整就可以應(yīng)用到創(chuàng)作當(dāng)中。到那時(shí)候,又是幾家歡樂幾家愁呢,讓我們拭目以待吧!
本期話題:你對(duì)AI建模的未來有什么期待?
作者公眾號(hào):wuhu動(dòng)畫人空間(ID:wuhu1768)
轉(zhuǎn)載請(qǐng)?jiān)谖恼麻_頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請(qǐng)聯(lián)系作者本人,侵權(quán)必究。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
授權(quán)事宜請(qǐng)至數(shù)英微信公眾號(hào)(ID: digitaling) 后臺(tái)授權(quán),侵權(quán)必究。
評(píng)論
評(píng)論
推薦評(píng)論
全部評(píng)論(4條)