带玩具逛街时突然按下按钮的故事,丰满的妺妺3伦理播放,新婚人妻不戴套国产精品,大肉大捧一进一出好爽视频百度

阿里推出新AI,照片+聲音變視頻,讓高啟強普法

舉報 2024-03-04

作者:衡宇、夢晨;來源:量子位
原標題:AI視頻又炸了!照片+聲音變視頻,阿里讓Sora女主唱歌小李子說rap

Sora之后,居然還有新的AI視頻模型,能驚艷得大家狂轉狂贊!

有了它,《狂飆》大反派高啟強化身羅翔,都能給大伙兒普法啦(狗頭)。

這就是阿里最新推出基于音頻驅動的肖像視頻生成框架EMO(Emote Portrait Alive)。

有了它,輸入單張參考圖像,以及一段音頻(說話、唱歌、rap均可),就能生成表情生動的AI視頻。視頻最終長度,取決于輸入音頻的長度。

你可以讓蒙娜麗莎——這位AI屆效果體驗的老選手,朗誦一段獨白:

年輕俊美的小李子來段快節奏的rap才藝秀,嘴形跟上完全沒問題:

甚至粵語口型也能hold住,這就讓哥哥張國榮來首陳奕迅的《無條件》:

總之,不管是讓肖像唱歌(不同風格的肖像和歌曲)、讓肖像開口說話(不同語種)、還是各種“張冠李戴”的跨演員表演,EMO的效果,都讓咱看得一愣一愣的。

網友大感嘆:“我們正在走進一個新的現實!”

(2019版《小丑》說2008版《蝙蝠俠黑暗騎士》的臺詞)

甚至已經有網友開始對EMO生成視頻開始了拉片,逐幀分析效果究竟怎么樣。

如下面這段視頻,主角是Sora生成的AI女士,本次為大家演唱的曲目是《Don’t Start Now》。

推友分析道:

這段視頻的一致性,比以往更上一層樓了!
一分多鐘的視頻里,Sora女士臉上的墨鏡幾乎沒有亂動,耳朵、眉毛都有獨立的運動。
最精彩的是Sora女士的喉嚨好像真的有呼吸哎!她唱歌的過程中身體還有微顫和移動,我直接大震驚!

話說回來,EMO是熱門新技術嘛,免不了拿來與同類對比——

就在2月28日,AI視頻生成公司Pika也推出了為視頻人物配音,同時“對口型”的唇形同步功能,撞車了。

具體效果怎么樣呢,我們直接擺在這兒:

評論區網友對比過后得出的結論是,被阿里吊打了。

EMO公布論文,同時宣布開源。

但是!雖說開源,GitHub上仍然是空倉。

再但是!雖然是空倉,標星數已經超過了2.1k。

惹得網友們真的是好著急,有吉吉國王那么急。


一、與Sora不同架構

EMO論文一出,圈內不少人松了口氣。

與Sora技術路線不同,說明復刻Sora不是唯一的路。

EMO并不是建立在類似DiT架構的基礎上,也就是沒有用Transformer去替代傳統UNet,其骨干網絡魔改自Stable Diffusion 1.5。

具體來說,EMO是一種富有表現力的音頻驅動的肖像視頻生成框架,可以根據輸入視頻的長度生成任何持續時間的視頻。

該框架主要由兩個階段構成:

  • 幀編碼階段

部署一個稱為ReferenceNet的UNet網絡,負責從參考圖像和視頻的幀中提取特征。

  • 擴散階段

首先,預訓練的音頻編碼器處理音頻嵌入,人臉區域掩模與多幀噪聲相結合來控制人臉圖像的生成。

隨后是骨干網絡主導去噪操作。在骨干網絡中應用了兩種注意力,參考注意力和音頻注意力,分別作用于保持角色的身份一致性和調節角色的運動。

此外,時間模塊被用來操縱的時間維度,并調整運動的速度。

在訓練數據方面,團隊構建了一個包含超過250小時視頻和超過1500萬張圖像的龐大且多樣化的音視頻數據集。

最終實現的具體特性如下:

  • 可以根據輸入音頻生成任意持續時間的視頻,同時保證角色身份一致性(演示中給出的最長單個視頻為1分49秒)。

  • 支持各種語言的交談與唱歌(演示中包括普通話、廣東話、英語、日語、韓語)

  • 支持不同畫風(照片、傳統繪畫、漫畫、3D渲染、AI數字人)

在定量比較上也比之前的方法有較大提升取得SOTA,只在衡量口型同步質量的SyncNet指標上稍遜一籌。

與其他不依賴擴散模型的方法相比,EMO更耗時

并且由于沒有使用任何顯式的控制信號,可能導致無意中生成手等其他身體部位,一個潛在解決方案是采用專門用于身體部位的控制信號。


二、EMO的團隊

最后,來看看EMO背后的團隊有那些人。

論文顯示,EMO團隊來自阿里巴巴智能計算研究院

作者共四位,分別是Linrui Tian,Qi Wang,Bang Zhang和Liefeng Bo。

其中,薄列峰(Liefeng Bo),是目前的阿里巴巴通義實驗室XR實驗室負責人。

薄列鋒博士畢業于西安電子科技大學,先后在芝加哥大學豐田研究院和華盛頓大學從事博士后研究,研究方向主要是ML、CV和機器人。其谷歌學術被引數超過13000。

在加入阿里前,他先是在亞馬遜西雅圖總部任首席科學家,后又加入京東數字科技集團AI實驗室任首席科學家。

2022年9月,薄列峰加入阿里。

EMO已經不是第一次阿里在AIGC領域出圈的成果了。

有AI一鍵換裝的OutfitAnyone

還有讓全世界小貓小狗都在跳洗澡舞的AnimateAnyone

就是下面這個:

如今推出EMO,不少網友在感嘆,阿里是有些技術積累在身上的。

如果現在把所有這些技術結合起來,那效果……

不敢想,但好期待。

總之,我們離“發給AI一個劇本,輸出整部電影”越來越近了。


三、One More Thing

Sora,代表文本驅動的視頻合成的斷崖式突破。

EMO,也代表音頻驅動的視頻合成一個新高度。

兩者盡管任務不同、具體架構不同,但還有一個重要的共性:

中間都沒有加入顯式的物理模型,卻都在一定程度上模擬了物理規律。

因此有人認為,這與Lecun堅持的“通過生成像素來為動作建模世界是浪費且注定要失敗的”觀點相悖,更支持了Jim Fan的“數據驅動的世界模型”思想。

過去種種方法失敗了,而現在的成功,可能真就來自還是強化學習之父Sutton的《苦澀的教訓》,大力出奇跡。

讓AI能夠像人們一樣去發現,而不是包含人們發現的內容。

突破性的進展最終通過擴大計算規模來實現。


EMO介紹視頻

論文:https://arxiv.org/pdf/2402.17485.pdf.pdf
GitHub:https://github.com/HumanAIGC/EMO
參考鏈接:[1]https://x.com/swyx/status/176295730540100406

作者公眾號:量子位(ID:QbitAI)
微信圖片_20240301115052.png

本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本內容為作者獨立觀點,不代表數英立場。
本文禁止轉載,侵權必究。
本文系數英原創,未經允許不得轉載。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。

    評論

    文明發言,無意義評論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評論

    評論

    文明發言,無意義評論將很快被刪除,異常行為可能被禁言
    800

    推薦評論

    全部評論(3條)

    主站蜘蛛池模板: 新巴尔虎右旗| 洪江市| 泸州市| 延津县| 毕节市| 历史| 叶城县| 沅陵县| 凤庆县| 宁波市| 广宗县| 陈巴尔虎旗| 深泽县| 万全县| 聂荣县| 连州市| 宁乡县| 凤山县| 周至县| 濮阳市| 杭锦后旗| 苗栗市| 泰宁县| 乌鲁木齐市| 安多县| 太谷县| 钟山县| 铜川市| 呈贡县| 大姚县| 重庆市| 托克托县| 阳朔县| 太和县| 固镇县| 米脂县| 西峡县| 西吉县| 枞阳县| 昌都县| 海淀区|