人均一個XR數字人,元宇宙如何實現“捏人自由”?
當我們步入一個新世界,最先關注的,就是自己的“人設”。
在2000年,騰訊QQ已經是全民APP,擁有2.91億用戶,100萬日活,然而流量卻無法變現。幸好當時一個產品經理想出了打扮網絡形象的“QQ秀”,一經推出便大受歡迎,騰訊QQ也成功開啟了商業化的道路。
QQ秀的成功有其必然性:絕大多數產業都是圍繞人這個中心展開的,所以在一個全新的社交空間,當先崛起的肯定是宣示自我存在的產業。同樣的道理,在元宇宙概念深入人心的今天,第一個真正崛起的產業也是數字人,我們在短視頻可以刷到虛擬明星,各個品牌也開始青睞數字人代理,甚至連馬斯克也來湊熱鬧:雖然沒有搞個數字形象,但是他聲稱將自己的意識上傳到了云端,意圖實現“數字永生”。
有媒體形容,2022年是數字人的“生育高峰期”。IDC發布的行業報告也顯示,在2022年后,數字人將與深度學習、自動駕駛等一起,成為AI最熱門的賽道之一,預計到2026年中國數字人市場規模將達到102.4億元。而在其中,XR數字人被視為用戶與虛擬世界鏈接交互的第一入口,為每個人在元宇宙中創造專屬身份,將成為必然趨勢。
中央財經大學數字經濟融合創新發展中心主任陳端認為,“如果說‘元宇宙’是一種引領性的概念、愿景,那么‘數字人’就是通向未來數字新大陸的重要橋梁。”
但是另一方面,數字人變得人人可有并非易事,因為它不是一個代表身份的“頭像”,而是一個生活在元宇宙的“宇宙人”,它是用戶的分身,是連接人類與虛擬世界的橋梁,需要“活”起來。
數字人技術難度的一個側面證明,是國內 AR 頭部企業 Rokid 在近日發布了自研 XR 數字人技術,并迅速在業界引起了廣泛關注。該技術的最大亮點是支持用戶自己打造專屬XR數字人,同時將對外部開發者開放。
為什么XR數字人技術會引發如此廣泛的關注?這要從為什么我們需要XR數字人,以及XR數字人到底有多難“造”說起。
一、元宇宙“造人”有多難?
數字人發展的核心動力,從本質來說是人對互動體驗的無限追求。
為什么隨著技術發展,我們有了圖文、語音、視頻等遠程交流方式,但在重要場合依然傾向于人與人之間面對面交流?不僅是因為直接交流舒服且自然,更重要的是面對面能夠通過語氣、態度,眼神、微表情、身體動作傳遞更多信息,更好更完善地表達自己的意思。
而這,也正是數字人劃時代的地方,它既可以是虛擬世界的虛擬形象,也可以是人在元宇宙中的另一個分身,但無論是哪一種,都會模糊虛擬與現實的邊界,為我們帶來更為真實的交流互動體驗。
因此,Rokid自研XR數字人技術的第一個核心是為用戶提供自由“捏人”功能,其包含著完整的數字人設計系統。通過采用五頭身比例,將寫實風格與卡通風格進行平衡,讓數字人的面部特征與表情動作更加突出和生動,同時也更具親和力。再加上,五官和服裝的自由搭配組合, 可以讓用戶自由“捏”出更具個性的數字人形象。有消息稱, Rokid 還將推出更多的五官分類組合和動作,從而迎合全世界不同國家、不同膚色、不同文化的用戶的審美。
更值得關注的是,Rokid 自研 XR 數字人技術還將對外開放,既支持第三方 XR 開發者通過 SDK 集成,接入數字人引擎服務,開發屬于自己的數字人形象和體系;也可以通過Rokid 即將推出的數字人管理平臺,進行數字人形象、服裝、道具等設計,以數字人引擎共同豐富元宇宙生態。
但是數字人不只是“捏臉”,其還有更多需要極高技術儲備才能實現的功能。自然的聲音、流暢的表情與動作,以及良好的互動體驗背后,是人物形象模擬、人物聲音克隆、自然語言處理、知識圖譜解析等多方面先進人工智能技術的復合應用。
目前,無論是蘋果的ARkit,還是主打無標記點面部表情捕捉系統的Faceware,或者是通過攝像頭來進行面部捕捉的DynamicXYZ,原理都是通過外部設備采集面部表情動作,然后在映射到高精度的3D角色上。
這種以面部捕捉為核心的數字人表情實現方式需要諸多設備。一是成本極高,前段時間在抖音走紅的虛擬數字人,幾分鐘的視頻需往往需要花費幾十萬;二是動作捕捉需要提前預設,在解算效果不好的情況下進行后期的手動精修處理,因此無法適應線上會議、元宇宙空間互動等需要實時生成動畫的場景。這些技術難點也讓這一類數字人大多用在B端場景,而無法實現C端的大規模應用。
Rokid自研XR數字人技術,則通過更低成本,環節更少的音頻驅動方案,實現了數字人的表情幀和聲音幀同頻,嘴部動畫實時生成,為XR數字人在C端應用邁出重要一步。
Rokid是如何做到的?
二、數字人產業的新支點
當前,業界實現數字人實時表情生成的主要方案,是面部捕捉與深度學習的結合。
這套方案的核心,是基于深度學習構建面部實時驅動系統,通過泛化的神經網絡模塊,根據真人表演錄制的視頻直接解算出3D角色的面部綁定動畫參數值,從而實時驅動角色動畫。這一方式較傳統的面部捕捉方案更進一步,對設備的和算力的要求同樣也會飆升,其成本可以達到百萬元級別,而且還會隨著建模精度等因素進一步提高,所以難以廣泛普及應用。
而Rokid自研XR數字人技術,是根據音素——也就是根據語音的自然屬性劃分出來的最小語音單位,一個發音動作構成一個音素——來通過ASR(數字語音識別)算法倒推出發音時的口型動作,從而形成實時的表情動作,這樣就擺脫了表情動作捕捉對攝像頭等設備的依賴,實現口型與表情動作與真人同步匹配。
相較面部識別與深度學習,通過ASR技術生成嘴部表情動作的技術原理并不復雜,為什么卻沒有普及?原因很簡單,這種方案流程較長,需要將語音用ASR技術將語音識別成文字,然后再通過 TTS(從文本到語音)輸出音素+bs系數生成表情,這樣需要經過兩層轉換,意義容易失真,同時在低算力的前提下,長流程會形成微妙卻致命的“遲滯”,讓語音和表情無法絕對同步,也就無法實現數字人交流帶來的流暢與自然。
作為以智能音箱技術起家,同時在AR設備領域具有頭部地位的廠商,Rokid在語音識別、元宇宙和數字人技術領域都有深厚積累,省略了將語音識別成文字,再由文字輸出音素的環節,以更短的識別路徑、更低的延遲實現了數字人聲音幀和表情幀的絕對同步,而且進一步降低了性能要求,提升了識別的準確度。
目前,在移動端,Rokid 自研 XR 數字人解決方案單幀處理時間實現了低于 3ms/frame,且 CPU 占用率能保證的在 10% 以下。
這一方案不僅降低了XR數字人的生成門檻,也為XR數字人產業帶來了一次質變:它讓數字人產業可以拓展到手機和AR設備上,為AR設備產業“注入靈魂”。
正如前文所述,XR數字人是連接元宇宙和用戶的橋梁,只有當“橋梁”成本足夠低,元宇宙相關應用和技術才能被用戶廣泛接受,并且成為推動AR等設備普及的“殺手級應用”和下一代互聯網的支點。以Rokid發布的自研XR數字人技術為代表,我們正逐步接近一個技術“奇點”——數字人在C端低成本普及的大門正被緩緩打開,元宇宙的無窮魅力正在被更多人看到與參與。
三、讓每個人都成為元宇宙的締造者
回到這次技術發布,為什么Rokid自研XR數字人技術,著重強調了低成本與開放性?
因為元宇宙本質不是某個應用或者某個產品,甚至某個產業,而是一個完整的,與現實世界平行的生態,需要無數企業和個人共同努力建設。在這之中,數字人作為人們在元宇宙中穿梭的通行證和橋梁,只有成本足夠低且易于獲得,才能激發設計者和用戶興趣建設一個新世界的熱情。
現實世界中,宇宙因為物質才存在,而在虛擬世界中,宇宙因為“人”才存在。因此,Rokid 開放 XR 數字人技術的目標,即是從整個產業高度著眼,盡量降低每個人探索和接觸元宇宙的成本,并且讓所有人在創造自己數字“分身”的過程中獲得對虛擬世界的初步體驗與好奇,從而推動整個虛擬現實技術的普及和發展。
可以想見,相比于當前的互聯網,元宇宙將會更為立體;相比于現實的世界,元宇宙將會更為個性化。前往這個更為精彩的宇宙,用戶只需一個“通行證”:自己親手打造的數字人形象。當用戶創造出這個形象時,他已不僅是這個元宇宙的游客和探索者,而且是締造元宇宙的一員。
作者:錢皓
編輯:安吉拉
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本文禁止轉載,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)