獨家丨和“猜畫小歌”研發團隊聊了聊,我們總結出了登頂攻略
作者:蔡浩爽 來源:尋找中國創客
谷歌一定是全球最會做營銷的人工智能公司,沒有之一。
2016年,谷歌阿爾法狗與人類頂級棋手對弈,讓全人類意識到人工智能時代的到來;2018 Google I/O開發者大會上,Google Assistant像真人助理一樣通過電話完成預約理發服務,宣告人工智能距離“成精”又近一步;今天,谷歌的你畫我猜小程序“猜畫小歌”刷屏朋友圈,讓普羅大眾都有“調戲”人工智能的機會。
“AI沒有你想象中的那么神奇,可以上天入地干掉人類;也沒有你想象中的那么智障,還是可以做一些傳統代碼做不到的事情的。”谷歌的猜畫小歌研發團隊人員如此解釋上線這一小程序的目的。
猜畫小歌炸出了朋友圈一票靈魂畫手,其不按套路出牌的識別能力讓人又愛又恨:猜畫小歌有時候很懂你,畫一筆就知道你要畫什么;有時候又著實智障,明明畫得很具體了,它卻用機械音嘲弄你:“你畫的啥玩意。”有繪畫功底的畫手往往難以通關,抽象派的靈魂畫手反而能被識別。網友忍不住質疑:這 AI 怕不是個傻子吧?
猜畫小歌背后使用了哪些技術?這一技術未來可以應用在哪些領域?谷歌AI團隊就這些問題接受了尋找中國創客(ID:xjbmaker)的采訪。
猜畫原理
技術不難,難的是數據庫
我們先簡單介紹一下這款小程序游戲的玩法:系統給出一個需要畫的詞語,通常是名詞,在20秒的時間內,用戶畫AI猜,猜中即可進入下一輪。AI從你畫第一筆就開始猜,常常在你畫出某些特征后就給出答案。如果猜不中,AI還會用機械音嘲笑:你畫的啥玩意。
據開發人員介紹,這款小程序最初只是團隊hackathon的小想法,因為大家覺得有趣,才發展成了完整的項目。
所謂hackathon,中文一般稱為黑客馬拉松或者編程馬拉松,是科技公司激發創意的一個小比拼。常見的做法是公司內程序員、設計師以及產品人員組成小隊,在一到兩天的時間內緊密配合,完成一個主題下的產品或者解決方案。
2016年以來,微信小程序因為已經封裝了很多組件、提供了很多接口,開發相對簡單、快速,成為了很多互聯網公司首選的hackathon主題。猜畫小歌就是在這樣的環境中誕生的。
Google AI工作人員告訴尋找中國創客,猜畫小歌由來自Google AI的神經網絡驅動。該網絡源自全世界最大的、囊括超過5000萬個手繪素描的數據群。
2016年,谷歌曾推出網頁版你畫我猜——quick,draw!一經上線就風靡全球,通過該游戲手機到的手繪數據集也被谷歌開源,為需要神經網絡訓練的研發人員提供樣本。quick,draw!使用了David Ha與Douglas Eck研究的名為“sketch-rnn”的生成式RNN,旨在訓練機器如何像人類一樣提煉事物的抽象概念。
至于這次猜畫小歌具體使用的是神經網絡技術中的卷積神經網絡技術(CNN)還是遞歸神經網絡技術(RNN),谷歌方面表示:無法分享關于神經網絡架構的相關信息。
“其實用CNN或RNN只不過是個選擇題,這兩種神經網絡各有長處,但歸根結底都是DeepLearning(深度學習)的事情。” 人工智能獨角獸企業曠視科技研究人員告訴尋找中國創客。
神經網絡是深度學習的基礎,最初是受生物神經系統的啟發,為了模擬生物神經系統而出現的。通俗點說,AI 通過神經網絡認知世界的過程,與嬰兒最初認知世界的過程頗有點異曲同工的意思。
包括曠視研究院在內的人工智能公司所研究的人臉識別、視頻結構化等技術,均繞不開CNN或RNN。
但拋開這些拗口的技術名詞,這款手繪識別游戲的技術并不難。早在去年,就有一名在校生幫一個公司做過一個幾乎差不多的手繪識別模型,收取的酬勞僅有一萬元。相比于算法,數據集在這里顯然更值錢。
回想一下,我們人類會通過識圖卡片、繪畫等來培養孩子識別周遭事物的能力,這些圖畫并不一定像照片一樣逼真,但包含了事物的顯性特征,傳遞出了人們如何重現與重構身邊事物的方法。比如貓有三根胡須、汽車有四個輪子、人臉有兩只眼睛一個鼻子一張嘴、金毛是有金色毛發的溫順狗狗等。“AI 對簡筆畫的理解也是基于數據庫的訓練。”曠視科技研究人員告訴尋找中國創客。
利用神經網絡技術,通過對大量涂鴉樣本的學習,猜畫小歌總結出不同事物的特征點。除了特征點,數據訓練也可以給AI動態的畫圖過程,讓AI理解人類在畫某一事物時通常選擇第一筆先畫什么、如何走筆、合適停筆。這也解釋了為何有時在你畫第一筆時,小歌就能給出答案。
數據庫規模越龐大,結果準確率越高。谷歌研發人員表示,為了讓AI能夠猜出大家的畫作,已經提前喂了大量的數據給模型。
答“陰謀論”
不會收集用戶隱私數據
雖然朋友圈的靈魂畫手們玩得不亦樂乎,但依然有不少網友對人工智能保持著高度警惕:“感覺這個小程序有大陰謀啊,這要是都識別了,數據收集起來,谷歌不得了了,機器人可以識別所有東西了。”
還有人擔心自己不知不覺成為谷歌的免費訓練師,用自己的畫作豐富了谷歌的涂鴉數據集。
研發人員回應:這其實是大家想多了。“大家的畫作,除非能達到一定的量級,不然是不會對AI本身產生重大的影響的。”
谷歌方面也對尋找中國創客強調,不會在這款小程序內收集任何與用戶隱私相關的數據。
但其實,谷歌并未正面回應是否會將用戶涂鴉用于豐富手繪數據庫。曠視科技研究人員認為,用小程序上的涂鴉來豐富數據庫是必然的。
而曠視研究人員則認為,用小程序上的涂鴉來豐富數據庫是必然的。
在應用前景方面,鑒于該數據集可以訓練機器提煉事物的抽象概念、學習動態畫圖過程,這就為這一技術創造了一個前景可觀的應用方向:幫助藝術家迸發藝術靈感、教授學生繪畫的基本技巧。
除了鍛煉AI能力,猜畫小歌收集的數據或許也可以有其他用武之地,比如分析一下為什么大多數人畫鐘表都是在3點鐘。
業內有觀點認為,谷歌此次用小程序試水,不失為回歸中國市場的投石問路之舉。
2017年12月,谷歌宣布成立谷歌AI中國中心,整合谷歌云與谷歌中國研發團隊,由斯坦福大學計算機系終身教授、斯坦福大學人工智能實驗室主任、"AI 女神"李飛飛與Google Cloud研發負責人李佳領導。
谷歌AI中國中心介紹,目前Google翻譯和文件極客App可在中國使用,搭載Android Wear系統的可穿戴產品在中國也非常受歡迎。
登頂攻略
注意突出特征和勾勒形狀
有一定繪畫基礎的湯包同學在朋友圈里憤憤不平:既然已經喂了這么多數據,為什么我的小歌還是表現得像個智障?
湯包畫的魚是這樣的:
?
系統認可的魚是這樣的:
湯包筆下的眼鏡是這樣的:
而實際上想要被AI識別出,只需要畫兩個圓圈:
小S(化名)為了畫出“動物遷徙”,費勁巴拉地畫了兩只行進中的斑馬,但實際上,她只需要畫兩只大雁——也就是兩條折線就好。
?“這可能是因為它之前訓練的數據集以簡筆畫為主,復雜的反而不認識。”曠視科技研究人員認為,小歌出現的這個bug 還是跟數據集有關,“它現在還不夠聰明。”
那么,怎么才能讓小歌更容易地識別出你的涂鴉?
一個訣竅是抓住特征。
比如畫豬突出碩大的鼻孔,畫蚊子突出尖尖的嘴,畫蒙娜麗莎的微笑先畫個畫框。
第二個訣竅是先勾勒形狀,畫臉先畫圓圈,畫微波爐先畫個正方形,小歌多猜幾次總能猜對。
當然,反推下來,如果你想為難一下小歌,大可以顛倒以往的下筆順序,畫圖時先畫細節,這樣無論你畫得有多像,小歌都有很大概率識別不出。
經授權轉載至數英,轉載請聯系原作者
作者公眾號:尋找中國創客(ID:xjbmaker)
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
全部評論(1條)