舊電影煥新：從“小應用”窺見CANN計算架構的“大能力”

原創贊收藏評論

舉報 2021-10-27

掃描,分享朋友圈

文 | 曾響鈴

來源 | 科技向令說（xiangling0815）

時代車輪滾滾向前，那些屬于過去的記憶卻不曾退卻。

我們很幸運地看到很多以前的影像資料能夠一直留存至今，例如經典電影、建黨建國珍貴影像等，膠片的影像質感泛著歲月的痕跡，要么見證了一個國家無法忘卻的發展歷程，要么銘刻了街頭巷尾集體的青春回憶，個人、家庭、集體、國家，都能在這樣的“老片子”中看到屬于過去的喜怒哀樂。

然而，即便能夠“存檔”，這些珍貴的上世紀拍攝的電影電視素材還是有很多遺憾等待彌補——受限于當時拍攝設備、存儲介質、存儲環境和處理播放設備的落后和簡陋，一方面，留存的影像介質受到各種物理化學因素的影響，在畫面上都有不同程度的劣化（稱為“退化”），另一方面，當人們已經習慣了高清、超高清、高質量的視頻圖像，這些影像的分辨率、幀率和畫面表現都已無法滿足當下的觀影需求。

要讓珍貴的影像更好地傳承，也要滿足人們對于歷史影像素材越來越高的質量要求，這時候，AI對視頻的修復和增強價值就展現出來。

在AI技術快速發展的今天，我們幾乎能用AI來做任何圖像和視頻的處理，例如昇騰AI以人工智能技術賦能視頻修復和增強，已經能夠將上世紀40-80年代的一些經典影片和珍貴史料視頻——如《開國大典》《閃閃的紅星》——處理成4K甚至8K視頻。

這樣的AI應用生動詮釋了什么叫做“技術的溫度”，既不失社會價值和經濟價值，又以普通人看得見、摸得著的方式表達著AI技術的價值。

只有強大的性能加持才能實現，昇騰AI三路出擊提升視頻質感

視頻增強要從哪些方面出發？答案并不復雜，普通人觀看老影像資料時面臨什么痛點，就是AI要解決的事。

在昇騰AI加持下，已有來自高校的生態伙伴著手從以下三個方面進行視頻增強技術的創新，而基于AI的視頻修復和增強算法通常是由卷積神經網絡（convolution neural network）來實現，需要用專門的軟硬件平臺進行加速，因此每一項都對昇騰AI提出了很強的性能要求。

1、讓煩人的圖像噪點“去無蹤”

由于膠片拍攝以及物理退化等原因，老的影像資料總是有一些隨機閃現的噪點，是觀看時最直接面對的痛點問題。用專業的話說，這是視頻畫面中存在不同形式和模態的噪聲，且隨機分布在所有畫面幀內——不同的視頻，隨機噪聲的強弱也不盡相同。

這時候，昇騰AI“去除隨機噪聲”能力的價值體現出來了。

其技術原理，通過將幾幀帶不同強度噪聲的連續圖像和對應的幾幀沒有噪聲的連續圖像同時輸入到算法中，讓神經網絡用時空卷積自動學習去除隨機噪聲，隨著去噪模型學習過的圖像數據對越多，見過的噪聲模式越豐富，AI去噪效果就越好。

最終，昇騰AI在數據加噪和退化的過程上做了很多研究和優化，盡可能覆蓋不同強度的隨機噪聲，并使用高性能的時空卷積將時間和空間兩個維度的信息直接進行整合，既實現了去噪，也讓圖像沒有因為去噪而發生前后幀圖像的突變。

（去噪前）

（去噪后）

而很明顯，這樣的技術創新，一邊要考慮擁有噪聲的異常幀的復原，一邊還要考慮與前后幀的統一，與單一維度考慮視頻質量優化相比，這種多樣性的任務要求讓計算能力的需求呈現幾何式提升，算法之外更重要的是要有計算平臺的性能支撐，否則一個如此復雜的算法將耗費大量時間，在經濟性和實用性上將大打折扣。

2、讓粗糙、模糊的畫面變得精細化

受限于拍攝技術，老的影像資料的分辨率往往很低，表現為圖像質量差，很多時候甚至靠腦補來觀賞，體驗大打折扣，也不利于一些珍貴細節的保存。

于是，讓分辨率超出原本素材的“底板”，實現更進一步的“超分辨率”，就成為AI在做的另一件重要的事情。昇騰AI參與《開國大典》的修復和增強，其核心目標之一，就是將分辨率從1080P提升到8K，提升畫面的精細度。

我們知道，數字圖像與拼圖類似，實際上是由大量帶顏色的像素點根據規整的網格組合而成的。所謂分辨率，即每一行每一列中所具有的像素點數量。分辨率越高，畫面往往越清晰和精細。1080P分辨率是1080x1920，每一行有1920個像素點，每一列有1080個像素點，共計207萬像素點；而8K分辨率是4320x7680，像素點數量是1080P的16倍，達到了3317萬像素點。

視頻超分辨率算法，就是從這207萬像素點去生成出16倍的信息，將細節計算“腦補”出來，即所謂“管中窺豹”；而且算法不能隨便“腦補”，必須考慮上下文多幀圖像的信息來保持前后一致性，否則就像是斷裂的鏡面，前后出現跳變。腦補得不好，就會出現明顯的馬賽克或是鋸齒效果；稍微好一點的，仍則會有明顯的邊緣模糊。傳統的超分方法經常面臨類似的問題。

而基于AI的超分辨率算法則真正具有“腦補”和假想出細節的能力。

通過合適的網絡結構和算子，昇騰AI算法能夠方便地融合上下文信息，來計算和填充空白像素點的信息。與去噪模型不同的是，由于需要進行像素值的估計和填充，需要更為精密的對齊過程，昇騰AI使用了最靈活的可變卷積來進行前后幀信息的對齊，能避免用傳統方法帶來的對齊失真問題，對每一個像素的值都做出盡可能合理的估計。

（AI補足像素點，讓圖像更清晰）

卷積神經網絡往往蘊含大量的計算過程，尤其是應用到視頻領域，計算量成倍的增加。更何況是從1080P到8K，涉及到這么多像素點。此外，視頻播放需要達到每秒24幀以上，人眼才不會覺得明顯的卡頓，一段12分鐘長度的視頻，其幀數至少達到17280幀。

所以，視頻超分算法不僅是像素點數量龐大，需要處理的幀數量也很大，這是對計算能力的直接要求。算法本身的各種“腦補”創新固然能讓最終呈現的效果有所不同，但實打實的計算性能“硬能力”是一切視頻超分算法創新的基礎，而昇騰AI，就是為這種算法創新做好了性能上的充分準備。

3、讓視線焦點得到精準照顧

盡管超分辨率模型能提升視頻整體清晰度，但是觀眾在觀看視頻時經常關注特寫鏡頭和人臉區域，因此，如果能夠把人臉的視頻質量再提升，無疑將大大提高視頻觀感。

因此，昇騰AI還針對人臉區域進行單獨的視覺增強，增加人臉特寫部分的精細度，提升視頻觀感。

這個過程聽著簡單，但包含的AI算法更加復雜，因為，僅希望對人臉特寫鏡頭或是人臉比較突出的區域進行針對性增強、在整幅畫面中選一部分來操作，需要一系列算法流程，比如從視頻幀中檢測出人臉，提取出人臉，人臉關鍵點檢測，再提升精細度，最后再將人臉融合到原畫面中。

此外，為了保證單獨增強的人臉與背景圖像融合之后沒有強烈的割裂感，還需要對融合后的圖像做后處理。

如此復雜的處理流程自然包含復雜的計算過程，而這其中，只有背后支持的計算性能足夠強力，才可以將人臉檢測、人臉分割提取、對齊、人臉增強以及背景人臉融合這一大過程進行整合并加速，某種程度上，人臉區域的視覺增強表現出算法創新的重要路徑——對計算平臺性能的充分利用。

總結起來，得益于平臺澎湃的算力和簡單易用的特性，昇騰AI不僅支持各種前沿AI視頻修復和增強算法的便捷部署和應用，例如減小視頻噪聲，增加流暢度，給黑白視頻上色，增大圖像清晰度等，也能對這些算法完成軟件和硬件協同優化，提升處理的效率，高效地將低質量的視頻原材料加工成精細流暢的成品。

這一AI視頻修復和增強端到端全流程涵蓋老視頻去噪、人臉增強、插幀、超分等，基本實現了通過AI技術規模化生產4K/8K內容，使修復和增強時間從以天為單位縮短到以小時為單位。

圖歷史影像素材修復和增強流程

昇騰多層次算法優化，CANN以基礎軟件創新釋放平臺算力

可以看到，上述AI視頻增強技術在創新之外都強調了對計算性能的需求，既要保證處理效果，又要提升處理效率，對AI平臺是重大的考驗，而昇騰AI很好地完成了應有的支撐任務。

這背后，尤為關鍵的是昇騰全棧AI體系下的異構計算架構CANN，作為基礎軟件創新成果，CANN高性能平臺推動實現著一系列AI視頻增強能力的落地。

CANN，全稱Compute Architecture for Neural Networks，是昇騰處理器的異構計算架構，支持業界多種主流的AI框架，提供開放易用的ACL（Ascend Computing Language）編程接口、實現對網絡模型進行圖級和算子級的編譯優化、自動調優等功能。用戶不僅能在上層算法層面對性能進行優化，也可以通過CANN開發和優化算子。

要理解CANN的價值，要先從AI視頻增強的原理談起。

每個基于AI的視頻修復和增強算法是由一個個小的計算單元組成的，專業術語為“算子”，算子有不同的處理順序，不同算子之間也可能存在依賴關系。

通俗地理解，其處理過程我們可以用廚師做菜來打個比方：

做菜工序可分為切菜、洗菜、調料準備、燒制、調味、擺盤等，不同的工序之間有依賴關系，擺盤前必須燒制，燒制前必須洗菜；或者可以并行操作，比如切菜洗菜的時候可以一并準備調料。經驗豐富的廚師都能以最大化的效率完成一道菜的制作，并且通過對原材料、配料和調味料的充分理解、搭配和融合，提升菜品質量。昇騰AI就是這樣包含了許多專門用AI來“做菜”的“廚師”的平臺，上面的硬件就是一位位“廚師”，異構計算架構CANN則是協調各位廚師的主廚。

這其中，而無論上文提到的去噪模型、超分辨率模型、人臉增強模型等，都包含到大量的計算過程，涉及到許多算子，整個計算復雜度非常大，如果平臺能自動根據每個具體的算子情況進行調優，所謂積跬步致千里，就能顯著提升各個算法的性能。

CANN對超分算法進行了自動調優，根據硬件特性和算子的輸入來優化各算子的計算過程，就像讓每個廚師清楚了解各種原材料的特性，并合理規劃原材料的處理步驟，將材料的美味發揮到極致。

而值得一提的是，由于超分辨率算法中存在可變卷積，包含多個不同類型的小算子，需要在不同硬件上進行處理，中間會有硬件之間的數據和信息傳遞，這增加了處理的耗時，這就相當于是同一個工序由兩個技術各有偏重的師傅一起交替處理，兩者還需要配合和溝通，不如讓一個技術更成熟更全面的師傅來進行處理，減小溝通成本，加快處理速度。

而CANN能夠將可變卷積內包含的算子進行優化，讓統一的硬件來整合和處理這一計算過程，使可變卷積的性能大幅提升，進一步提升了超分辨率算法的性能。

通過CANN的特性，昇騰AI大幅提升了這些算法的處理速度：

去噪模型在昇騰平臺上的處理速度能達到其他同類平臺的3倍，在保證前后幀一致的前提下，能去除畫面中起落的隨機噪聲和小面積斑塊劃痕；

超分辨率算法優化后的速度比優化前最大提升了30倍，處理后畫面整體和背景文字等變得更加精細；

人臉增強模型對1080P畫面的處理速度僅需0.5秒，處理后人臉精細度和畫面觀感得到了顯著提升。

可以看到，昇騰AI的這些改進都是基礎軟硬件層面的根技術創新，它對視頻影像資料幾乎是普適的，可以拓展到所有片源，在應用價值基礎之上具備廣泛的產業落地能力。

未來，更多珍貴影像資料將在AI的守護下歷久彌新，幫助我們珍藏歷史和記憶，而這樣的AI，才算得上是走近了每一個人的身邊。

*本文圖片均來源于網絡

*此內容為【科技向令說】原創，未經授權，任何人不得以任何方式使用，包括轉載、摘編、復制或建立鏡像。

【完】

曾響鈴

1鈦媒體、品途、人人都是產品經理等多家創投、科技網站年度十大作者；

2虎嘯獎評委；

3作家：【移動互聯網+ 新常態下的商業機會】等暢銷書作者；

4《中國經營報》《商界》《商界評論》《銷售與市場》等近十家報刊、雜志特約評論員；

5鈦媒體、36kr、虎嗅、界面、澎湃新聞等近80家專欄作者；

6“腦藝人”（腦力手藝人）概念提出者，現演變為“自媒體”，成為一個行業；

7騰訊全媒派榮譽導師、多家科技智能公司傳播顧問。

本文系作者授權數英發表，內容為作者獨立觀點，不代表數英立場。
轉載請在文章開頭和結尾顯眼處標注：作者、出處和鏈接。不按規范轉載侵權必究。

掃描,分享朋友圈

曾響鈴

客戶/市場

近期精選文章更多

带玩具逛街时突然按下按钮的故事,丰满的妺妺3伦理播放,新婚人妻不戴套国产精品,大肉大捧一进一出好爽视频百度

舊電影煥新：從“小應用”窺見CANN計算架構的“大能力”

評論

評論

推薦評論

全部評論（0條）

曾響鈴

關于

聯系

相關信息