壹沓AI觀察:DALL-E——人工智能讓“達利”再世
2021新年伊始,OpenAI又在AI行業投下一枚重磅炸彈,DALL-E系統橫空出世,繼去年1700億參數量的GPT-3文本創意能力技驚四座,甚至傳出“威脅”碼農的生計能自動搭建Html乃至Javascript代碼的說法,現在又新增了直接從文本提示“按需創造”風格多樣的圖形設計之超能力,就已經發布的DEMO圖樣來看秒殺50%的設計行業打工人應該是沒有問題的,而且是質量和速度雙重意義上的“秒殺”。
DALL-E系統根據文字““牛油果型的扶手椅”自動創作的部分圖像
那么,DALL-E的誕生會讓設計師面臨下崗的風險么?
壹沓科技的回答:并不會,而且DALL-E類似系統的發展會大大加速設計師、藝術家的創作過程,幫助專業人士多快好省地交付成果,正如壹沓科技的愿景——AI會將人類從既有的低層次簡單勞動中徹底解放出來,讓我們的時間可以更多地傾注在真正有創造性和意義的事情中去。
壹沓科技的人工智能團隊也正加入Google Bert與OpenAI GPT這樣的業界潮流,著力在海量互聯網大數據文本挖掘基礎上的通用模型研究。同時,在面向軟件機器人業務體系的過程中也高度重視大規模領域數據的無監督學習,無論是在新詞挖掘,詞對發現,還是情感短語評價方面均已取得領先行業的水平;而CV和NLP的模型融合,通過NLP糾正及增強OCR結果也已經在實際業務場景顯現出令人印象深刻的效果。在2021年,我們將進一步加大投入,開展前沿研究,通過圖像識別對接用戶界面操作及內容的分析進行用戶意圖理解,在流程自動化與文檔智能領域開拓出AI技術的一片新天地。
DALL-E究竟是什么?
DALL-E是OpenAI于2021年1月5日最新推出的深度學習算法模型,DALL-E含有120億參數的神經網絡,該神經網絡可以直接從簡單的提示文字中創建高質量的既符合描述又充滿創意的合成圖像。OpenAI直言DALL-E 的名字就來源于現代主義藝術家大師薩爾瓦多·達利(Salvador Dalí)(諧音梗玩到飛起),同時詞型結構上又明顯在向皮克斯(Pixar)動畫名片 WALL-E(機器人總動員)致敬。一語雙關,“DALL-E”寓意這項工作既能夠模仿藝術大師隨性創作出極具想象力和奇異風格的作品,同時作為機器學習從業人員,我們仿佛也看到了在此背后,人工智能就像可愛的WALL-E機器人從數以PB計的文山圖海的原始數據中不辭辛苦進行計算挖掘,最終堆疊出巨大的模型,而人們則可以選擇仰望星空,面對未來。
在DALL-E發布之前,OpenAI在2020年中已經發布了一個巨大的有著1700億參數的模型GPT-3,該模型震驚了世界因為它可以產生類似于人類書寫出來句子,詩歌,甚至是計算機代碼。DALL-E是GPT-3的擴展,DALL-E 是基于transformer 的多模態機器學習模型,通過海量的圖庫和文本描述的深度神經網絡學習,它目前已經可以根據輸入的簡單文本指示而生成符合語義的圖片。DALL-E產生圖片的方式與搜索引擎式搜索完全不同,它能夠根據輸入的文本和圖片即時“繪制”出從來未被人類創作過的全新圖片。難怪很多飽受甲方凌虐的乙方設計師已經高呼DALL-E簡直就是“甲方克星、乙方福音,從此再也不用擔心甲方爸爸提需求啦”,專門針對愛提古怪IDEA的甲方老板,直接輸入文字分分鐘得到一打效果圖。
比如輸入 a male mannequin dressed in an orange and black flannel shirt and black jeans(一個男模特穿著橙色和黑色的法蘭絨襯衫和黑色的牛仔褲),生成的圖片如下。
DALL-E如果能應用于服裝設計行業,設計師可以少死多少腦細胞,壓縮不靠譜的方案又能節省下多少布料,減少多少二氧化碳排放啊!
DALL-E還學會了什么?
DALL-E甚至可以在已有的圖片基礎上繼續按照文字想法開展創作。
文字輸入:the exact same cat on the top as a sketch on the bottom(與圖片頂部的貓完全相同的手繪草圖系統生成的圖片)
畫家、漫畫家、藝術家應該能從生成的圖片中受到一定啟發,幫助他們收集創作靈感。
文字輸入:由豎琴制成的帶有豎琴紋理的蝸牛
DALL-E的前景看起來非常廣闊,每句話在真實世界的含義都可以被可視化成一張張栩栩如生的圖片。同樣,真實世界的知識同樣也可以被可視化表示出來,DALL-E或許奠定了讓機器理解真實世界的基礎。
DALL-E是如何進行計算的?
為了能讓DALL-E根據文字畫圖,OpenAI的研究者們用各種“文本-圖像”對組合來訓練DALL-E。DALL·E以單數據流的形式,一次性接收1280個字符(token),其中256個字符分配給文字,其余的1024個則分配給圖像。然后DALL-E將對這些輸入信息進行建模,利用自注意力層的注意力遮罩,確保每一個輸入的圖像字符,都與所有輸入的文字字符關聯。之后,DALL-E就可以根據文本,通過極大似然估計,逐個字符地生成圖像。它不僅從能文字中生成圖像,也可以重新生成圖像中任何一塊矩形區域。到這里,DALL-E就可以根據文本生成圖像了,但怎么判別圖像的好壞呢?也就是說怎么對這些圖像進行評估排名呢?
OpenAI引入了之前開發的模型CLIP,CLIP(Contrastive Language-Image Pre-Training)是在各種(圖像,文本)對上訓練的神經網絡。它可以用自然語言指示來預測給定圖像的最相關的文本片段,而無需直接針對任務進行優化,類似于GPT-2和GTP-3的zero-shot。CLIP對生成的圖片行進排名,就可以看到最匹配的幾個結果。
"我們發現,CLIP與GPT類似,在前期訓練中可以學習執行一系列廣泛的任務,包括物體字符識別(OCR)、地理定位、動作識別等。我們通過在超過30個現有數據集上對CLIP的zero-shot轉移性能進行基準測試來衡量,發現它可以與之前的特定任務監督模型相媲美。"12位OpenAI合作者關于該模型的論文中寫道。
DALL-E的誕生對AI產業意味著什么?
圖文結合的多模態學習大勢所趨
OpenAI先后發布了兩個重量級模型CLIP(Connecting Text and Images)和 DALL-E,這兩個模型體現了深度學習、機器學習領域的一個趨勢——多模態融合。越來越多的研究者關注到多模態的研究中,比如文檔和語言的結合任務有表單理解、表單識別,代表模型是微軟LayoutLM。又比如說視頻和語言的結合,相關的任務有視頻理解、圖文/視頻搜索,以及生成文字描述任務中有不錯的前景。
研究人員希望這項工作能夠激勵未來對此類模型的能力、缺點和偏見的表征進行研究,以便加速這一領域的發展。OpenAI首席科學家Ilya Sutskever最近也表示,多模態模型將在2021年成為機器學習的主要趨勢。而谷歌AI負責人Jeff Dean也在2020年做出了類似的預測。
無監督學習和自監督學習方興未艾
NLP(自然語言處理技術) 經歷了第一代的基于規則的 NLP;第二代的基于統計的 NLP;五年前進入到基于神經網絡的第三代 NLP(NN-NLP),在大數據、大模型、神經網絡框架下取得了很好的進展,形成了一整套的技術。而現在更進一步,在海量數據訓練的基礎上將無監督學習與圖像融合的結果,又讓我們感到眼前一亮。
當然,面向真正可以落地的人工智能,目前仍然有很多困難標注數據的稀缺和昂貴就是難題之一。CV(計算機視覺)和NLP一樣,都面對著標注信息的不足的問題,人工輸入的標簽已經不能更優指導學習過程,越來越多的基于DL的機器視覺已經到了足以質疑人工標簽的程度,這些標簽的價值也即將被榨干;因為人工標注永遠無法模擬人腦的推理過程,僅能提供一些間接、局部有效的信息。我們知道無標簽數據的增長是超線性(甚至指數級)的,但是受到人力成本約束,有標簽的訓練數據的增長只能是線性的。這也就意味著,隨著時間的推移,將來的學習算法必然會面臨無標簽數據遠多于有標簽數據的情況。
圖靈獎得主深度學習先驅Hilton 也曾經說過: “未來AI系統主要是無監督的;無監督學習可以從未標記、未分類的測試數據中提取知識——在學習共性和對共性是否存在做出反應的能力方面,無監督學習的能力幾乎達到人類水平。比如在人類視覺皮層尋找啟發:人類的視覺采用一種重建的方法來學習,事實證明,機器視覺系統中的重建技術增強了它們抵抗對抗性攻擊的能力。然而,如果你采用一個擁有數十億參數的系統,對某個目標函數執行隨機梯度下降,它的效果會比你想象的好得多,規模越大,效果越好。這讓一種說法變得更合理:即大腦計算某些目標函數的梯度,并根據梯度更新神經突觸的強度。我們只需要弄清楚它是如何得到梯度的,以及目標函數是什么。”
關于壹沓科技
壹沓科技成立于2016年11月,聚焦于前沿技術在企業數字化中的應用,公司核心業務包括壹沓數字機器人產品-Cube Robot和壹沓品牌方程服務-Formula DBM,已經為多個行業數百家企業及政府提供服務。
我們在自然語言處理-NLP、圖像文字識別-OCR、知識圖譜-KG、大數據挖掘-Data Mining、機器人流程自動化-RPA和業務流程重構及管理-BPR&BPM等領域具備完整的自主研發能力,已獲得軟件知識產權數十個。
總部位于上海 ,在北京、深圳設有分公司,已獲得高新技術企業、雙軟及專精特新企業等專業認證 。核心團隊來自于多家知名上市公司,在企業服務及互聯網從業超過10年,擁有大數據、云服務及人工智能領域的豐富經驗。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)