人均一個XR數字人，元宇宙如何實現“捏人自由”？

原創贊收藏評論

舉報 2022-07-26

掃描,分享朋友圈

當我們步入一個新世界，最先關注的，就是自己的“人設”。

在2000年，騰訊QQ已經是全民APP，擁有2.91億用戶，100萬日活，然而流量卻無法變現。幸好當時一個產品經理想出了打扮網絡形象的“QQ秀”，一經推出便大受歡迎，騰訊QQ也成功開啟了商業化的道路。

QQ秀的成功有其必然性：絕大多數產業都是圍繞人這個中心展開的，所以在一個全新的社交空間，當先崛起的肯定是宣示自我存在的產業。同樣的道理，在元宇宙概念深入人心的今天，第一個真正崛起的產業也是數字人，我們在短視頻可以刷到虛擬明星，各個品牌也開始青睞數字人代理，甚至連馬斯克也來湊熱鬧：雖然沒有搞個數字形象，但是他聲稱將自己的意識上傳到了云端，意圖實現“數字永生”。

有媒體形容，2022年是數字人的“生育高峰期”。IDC發布的行業報告也顯示，在2022年后，數字人將與深度學習、自動駕駛等一起，成為AI最熱門的賽道之一，預計到2026年中國數字人市場規模將達到102.4億元。而在其中，XR數字人被視為用戶與虛擬世界鏈接交互的第一入口，為每個人在元宇宙中創造專屬身份，將成為必然趨勢。

中央財經大學數字經濟融合創新發展中心主任陳端認為，“如果說‘元宇宙’是一種引領性的概念、愿景，那么‘數字人’就是通向未來數字新大陸的重要橋梁。”

但是另一方面，數字人變得人人可有并非易事，因為它不是一個代表身份的“頭像”，而是一個生活在元宇宙的“宇宙人”，它是用戶的分身，是連接人類與虛擬世界的橋梁，需要“活”起來。

數字人技術難度的一個側面證明，是國內 AR 頭部企業 Rokid 在近日發布了自研 XR 數字人技術，并迅速在業界引起了廣泛關注。該技術的最大亮點是支持用戶自己打造專屬XR數字人，同時將對外部開發者開放。

為什么XR數字人技術會引發如此廣泛的關注？這要從為什么我們需要XR數字人，以及XR數字人到底有多難“造”說起。

一、元宇宙“造人”有多難？

數字人發展的核心動力，從本質來說是人對互動體驗的無限追求。

為什么隨著技術發展，我們有了圖文、語音、視頻等遠程交流方式，但在重要場合依然傾向于人與人之間面對面交流？不僅是因為直接交流舒服且自然，更重要的是面對面能夠通過語氣、態度，眼神、微表情、身體動作傳遞更多信息，更好更完善地表達自己的意思。

而這，也正是數字人劃時代的地方，它既可以是虛擬世界的虛擬形象，也可以是人在元宇宙中的另一個分身，但無論是哪一種，都會模糊虛擬與現實的邊界，為我們帶來更為真實的交流互動體驗。

因此，Rokid自研XR數字人技術的第一個核心是為用戶提供自由“捏人”功能，其包含著完整的數字人設計系統。通過采用五頭身比例，將寫實風格與卡通風格進行平衡，讓數字人的面部特征與表情動作更加突出和生動，同時也更具親和力。再加上，五官和服裝的自由搭配組合, 可以讓用戶自由“捏”出更具個性的數字人形象。有消息稱， Rokid 還將推出更多的五官分類組合和動作，從而迎合全世界不同國家、不同膚色、不同文化的用戶的審美。

更值得關注的是，Rokid 自研 XR 數字人技術還將對外開放，既支持第三方 XR 開發者通過 SDK 集成，接入數字人引擎服務，開發屬于自己的數字人形象和體系；也可以通過Rokid 即將推出的數字人管理平臺，進行數字人形象、服裝、道具等設計，以數字人引擎共同豐富元宇宙生態。

但是數字人不只是“捏臉”，其還有更多需要極高技術儲備才能實現的功能。自然的聲音、流暢的表情與動作，以及良好的互動體驗背后，是人物形象模擬、人物聲音克隆、自然語言處理、知識圖譜解析等多方面先進人工智能技術的復合應用。

目前，無論是蘋果的ARkit，還是主打無標記點面部表情捕捉系統的Faceware，或者是通過攝像頭來進行面部捕捉的DynamicXYZ，原理都是通過外部設備采集面部表情動作，然后在映射到高精度的3D角色上。

這種以面部捕捉為核心的數字人表情實現方式需要諸多設備。一是成本極高，前段時間在抖音走紅的虛擬數字人，幾分鐘的視頻需往往需要花費幾十萬；二是動作捕捉需要提前預設，在解算效果不好的情況下進行后期的手動精修處理，因此無法適應線上會議、元宇宙空間互動等需要實時生成動畫的場景。這些技術難點也讓這一類數字人大多用在B端場景，而無法實現C端的大規模應用。

Rokid自研XR數字人技術，則通過更低成本，環節更少的音頻驅動方案，實現了數字人的表情幀和聲音幀同頻，嘴部動畫實時生成，為XR數字人在C端應用邁出重要一步。

Rokid是如何做到的？

二、數字人產業的新支點

當前，業界實現數字人實時表情生成的主要方案，是面部捕捉與深度學習的結合。

這套方案的核心，是基于深度學習構建面部實時驅動系統，通過泛化的神經網絡模塊，根據真人表演錄制的視頻直接解算出3D角色的面部綁定動畫參數值，從而實時驅動角色動畫。這一方式較傳統的面部捕捉方案更進一步，對設備的和算力的要求同樣也會飆升，其成本可以達到百萬元級別，而且還會隨著建模精度等因素進一步提高，所以難以廣泛普及應用。

而Rokid自研XR數字人技術，是根據音素——也就是根據語音的自然屬性劃分出來的最小語音單位，一個發音動作構成一個音素——來通過ASR（數字語音識別）算法倒推出發音時的口型動作，從而形成實時的表情動作，這樣就擺脫了表情動作捕捉對攝像頭等設備的依賴，實現口型與表情動作與真人同步匹配。

相較面部識別與深度學習，通過ASR技術生成嘴部表情動作的技術原理并不復雜，為什么卻沒有普及？原因很簡單，這種方案流程較長，需要將語音用ASR技術將語音識別成文字，然后再通過 TTS（從文本到語音）輸出音素+bs系數生成表情，這樣需要經過兩層轉換，意義容易失真，同時在低算力的前提下，長流程會形成微妙卻致命的“遲滯”，讓語音和表情無法絕對同步，也就無法實現數字人交流帶來的流暢與自然。

作為以智能音箱技術起家，同時在AR設備領域具有頭部地位的廠商，Rokid在語音識別、元宇宙和數字人技術領域都有深厚積累，省略了將語音識別成文字，再由文字輸出音素的環節，以更短的識別路徑、更低的延遲實現了數字人聲音幀和表情幀的絕對同步，而且進一步降低了性能要求，提升了識別的準確度。

目前，在移動端，Rokid 自研 XR 數字人解決方案單幀處理時間實現了低于 3ms/frame，且 CPU 占用率能保證的在 10% 以下。

這一方案不僅降低了XR數字人的生成門檻，也為XR數字人產業帶來了一次質變：它讓數字人產業可以拓展到手機和AR設備上，為AR設備產業“注入靈魂”。

正如前文所述，XR數字人是連接元宇宙和用戶的橋梁，只有當“橋梁”成本足夠低，元宇宙相關應用和技術才能被用戶廣泛接受，并且成為推動AR等設備普及的“殺手級應用”和下一代互聯網的支點。以Rokid發布的自研XR數字人技術為代表，我們正逐步接近一個技術“奇點”——數字人在C端低成本普及的大門正被緩緩打開，元宇宙的無窮魅力正在被更多人看到與參與。

三、讓每個人都成為元宇宙的締造者

回到這次技術發布，為什么Rokid自研XR數字人技術，著重強調了低成本與開放性？

因為元宇宙本質不是某個應用或者某個產品，甚至某個產業，而是一個完整的，與現實世界平行的生態，需要無數企業和個人共同努力建設。在這之中，數字人作為人們在元宇宙中穿梭的通行證和橋梁，只有成本足夠低且易于獲得，才能激發設計者和用戶興趣建設一個新世界的熱情。

現實世界中，宇宙因為物質才存在，而在虛擬世界中，宇宙因為“人”才存在。因此，Rokid 開放 XR 數字人技術的目標，即是從整個產業高度著眼，盡量降低每個人探索和接觸元宇宙的成本，并且讓所有人在創造自己數字“分身”的過程中獲得對虛擬世界的初步體驗與好奇，從而推動整個虛擬現實技術的普及和發展。

可以想見，相比于當前的互聯網，元宇宙將會更為立體；相比于現實的世界，元宇宙將會更為個性化。前往這個更為精彩的宇宙，用戶只需一個“通行證”：自己親手打造的數字人形象。當用戶創造出這個形象時，他已不僅是這個元宇宙的游客和探索者，而且是締造元宇宙的一員。

作者：錢皓

編輯：安吉拉

本文系作者授權數英發表，內容為作者獨立觀點，不代表數英立場。
未經授權嚴禁轉載，授權事宜請聯系作者本人，侵權必究。