6000字超詳細復(fù)盤！AIGC城市宣傳MV全流程制作解析

轉(zhuǎn)載贊89 收藏163 評論9

舉報 2024-05-09

掃描,分享朋友圈

在五一節(jié)前，我們聯(lián)合中國江蘇網(wǎng)運用AIGC技術(shù)制作了一條南京的城市宣傳片——《AI你，南京》。

?這條MV播出后反響不錯，視頻號上的點贊評論很熱烈，在抖音上的南京榜也一度排到熱門第四。

我這個公眾號寫AIGC的內(nèi)容也有一年多了，累計原創(chuàng)文章一百多篇，在這個不斷學(xué)習(xí)與探究的過程當中，我對AI的認識也從最初的好奇到震驚，然后到逐漸平靜。雖然現(xiàn)在每天還是會被各種新出現(xiàn)的技術(shù)所沖擊，但是會越來越多的去思考AI到底能為我們做什么，有哪些是可以真實落地的應(yīng)用。今天我就來復(fù)盤一下《AI你，南京》這條音樂MV的整個制作流程，希望給大家?guī)硪恍椭?strong>這條片子一開始也是受到了央媽播出的《愛我中華》的啟發(fā)，通過AIGC的視角來展現(xiàn)了一個既熟悉而又有些不同的中國，所以，我們也想按照這個思路來展現(xiàn)一下富含著歷史文化底蘊的六朝古都南京。

首先是這個“熟悉感”是必須要有的，你不能完全依靠AI天馬行空的想象來繪制一個人們根本不認識的南京，所以我們要想辦法來復(fù)現(xiàn)一些南京已有的元素，哪怕是不能百分百還原，也要通過一些標簽和概念讓人們一看到就能聯(lián)想起來。然后呢，片子里又要體現(xiàn)出一些“不同”，因為如果你只是再現(xiàn)出一些場景，那和實地去取景的傳統(tǒng)拍攝流程就沒有區(qū)別了，所以我們一定要在體現(xiàn)地標的基礎(chǔ)上融入ai的想象力。

有了這個思路之后，我就定義要做一條AIGC全流程的南京城市宣傳片，盡量減少人工的直接修改，可以通過提示和命令來指揮AI去創(chuàng)作，看最終能達到一個什么水準的作品。

01 文案創(chuàng)作

一開始，我們打算用旁白朗誦的方式來做這條片子，類似《舌尖上的中國》的那種感覺，這就對文案會有比較高的要求。

但是如果你直接要求GPT去寫這段文案的話，它給的結(jié)果會比較平淡，因為它并不知道你要寫這段文字的前因后果，也不清楚你的喜好和拍攝風(fēng)格，所以想要得到好的結(jié)果，我們需要把需求提得更具體一些。

于是，我利用360瀏覽器的字幕提取功能，捕捉了一下《愛我中華》的視頻文案。

接下來，分別讓kimi和gpt進行分析和學(xué)習(xí)，這是讓AI能按照我們的預(yù)期進行寫作的一個好的方法。它并不是簡單的模仿，而是去理解目標的寫作風(fēng)格，并融會貫通。

Kimi

ChatGPT

我寫文案的時候通常會同時開kimi和gpt兩個窗口，來對比它們的結(jié)果，我發(fā)現(xiàn)在對中文的理解和寫作能力上，kimi的表現(xiàn)還是要更突出一些。畢竟是國產(chǎn)大模型，本土化將是我們最大的優(yōu)勢。

做完文案分析之后，我們就可以讓AI按照此風(fēng)格去寫作了，這次創(chuàng)作的稿子就比一開始的要好很多。兩個AI的作品各有千秋，我決定稍作調(diào)整，把這兩段整合一下。

Kimi

ChatGPT

在調(diào)整階段，我們首先要讓文案讀起來更順口，所以我挑選了一些語句讓它單獨修改。比如“鐘山風(fēng)雨起蒼黃，江南佳麗地，金粉六朝都”這一句，我希望能更押韻一點，于是在我的提示下，kimi將其改為了“鐘山風(fēng)雨起蒼黃，古都煙云夢猶長”，雖然有一些拼接的痕跡，但是我覺得對于AI來說，能完成到這樣也是不錯的了。畢竟對于不是作家不是詩人的普通人，要如此快完成這種水準的輸出還是很難的。

文案整理完之后，就可以讓AI輸出簡單的畫面分鏡了，這樣能讓我們看到一個比較直觀的構(gòu)想。很多時候，從1到2比從0到1要輕松很多。

Kimi

02 歌詞創(chuàng)作

文案做到這一步，接下來就是要給朗誦配音來確定視頻的時長和分鏡數(shù)量了。但是我試了幾個剪映里預(yù)設(shè)的AI語音之后，發(fā)現(xiàn)效果還是很難達到真人解說那種包含情感的抑揚頓挫，我覺得用AI進行純解說風(fēng)格的朗誦還是有些平淡了。

而剛好，最近suno的出現(xiàn)給音樂圈帶來了一些不小的震撼，所以我轉(zhuǎn)念一想，干脆直接為南京寫一首歌吧，然后給歌曲制作一部MV，這樣整個視聽語言的層次會豐富很多。

所以，我直接將之前寫好的那段文字復(fù)制給AI，讓它進行歌詞改寫和歌曲取名。還可以附加定義一下歌詞風(fēng)格和時間長度，讓它有一些方向。

Kimi

ChatGPT

兩相比較，這一次我更喜歡GPT寫的歌詞，因為我可能會更想結(jié)合一些現(xiàn)代感的歌曲風(fēng)格，比如rap或者R&B之類的。而kimi寫的那段詞對仗工整，會更偏向傳統(tǒng)一些，可能不適合現(xiàn)代的曲風(fēng)。

我在gpt寫的這版歌詞上，經(jīng)過一些修改定稿了最終的這版歌詞。

悠悠金陵風(fēng)，古韻今猶存，鐘山風(fēng)雨起，金粉六朝魂。龍蟠虎踞地，文采風(fēng)流情。夢開始之處，南京故事行。
走過歷史長廊，觸摸時間痕跡，秦淮夜色下，燈火映繁華。夫子廟舊夢長，儒韻千古傳，石頭城波光里，歲月永流轉(zhuǎn)。
紫金山巔，翠竹青松，守望著這座城的古老與青春。明孝陵石象鎮(zhèn)守，中華門城墻巍峨，玄武湖碧波蕩漾，紫峰廈彩霞星河。一橋飛架通南北，一城繁華映山河。
南京，南京愛你的每一磚每一瓦，南京，南京愛你的每一山每一水，南京，南京愛你的每一個落日與晨曦。南京，你是我的詩，我的遠方。

03 歌曲創(chuàng)作

歌曲創(chuàng)作，我使用的是最近大火的suno。（https://suno.com/）

我們可以在里面欣賞別人制作的音樂，也可以在這里挑選自己喜歡的曲風(fēng)進行創(chuàng)作。

在創(chuàng)作板塊，我們可以直接通過提示詞來創(chuàng)建一首純音樂。

每次創(chuàng)作可以生成兩首歌曲，消耗10點積分，網(wǎng)站每天都有50點積分贈送，可以免費創(chuàng)建十首歌曲。

時長為兩分鐘，還可以進行extend擴寫，如果覺得歌曲不錯的話就可以下載下來。

聽聽看，很難想象一個完全不懂樂理的人能在一分鐘之內(nèi)創(chuàng)作出一首這種水平的音樂。

但是要想寫出好一首歌曲，只是簡單的輸入歌詞是不夠的。因為一首優(yōu)美的歌曲也是需要分為很多不同層次的，它可能有節(jié)奏變化、有大調(diào)小調(diào)、有曲式結(jié)構(gòu)、有和弦進行等等等等，我們要利用ai去創(chuàng)作更豐富的歌曲，也需要去了解這些基本的概念才能更好的指揮AI。

在這里，我們回到gpt當中，讓它用前奏、副歌、主歌、橋段和尾奏的結(jié)構(gòu)幫我們對歌詞做劃分。

然后我們就可以將劃分好的歌詞放到suno當中，歌曲風(fēng)格采用“中國風(fēng)，古箏配樂，加上R&B元素”的提示詞進行編寫。

在刷了十幾首歌之后，我選定了這首作為《AI你，南京》的歌曲。由于時長只有兩分鐘，歌曲并沒有唱完，所以我又對這首歌進行了擴寫。又經(jīng)過反復(fù)幾次的挑選之后，我將選定好的擴寫的部分和原曲在剪映中做了一下后期的融合，最終我們的這首歌曲就制作完成了。

04 分鏡創(chuàng)作

歌曲創(chuàng)作完成之后就是要給視頻出分鏡腳本，但是這個分鏡腳本和真正影視拍攝里的分鏡還不太一樣。影視里的分鏡是給拍攝提供依據(jù)的，是劇本和實際拍攝之間的一個橋梁。但是由于AI視頻制作的特殊性，我們其實是沒有拍攝的實際過程的，而是通過圖生視頻來直接生成，所以我們的分鏡就直接決定了最終視頻呈現(xiàn)效果的好壞。

我們現(xiàn)在就需要根據(jù)音樂來進行畫面的生成。畫面的生成我分成了三個大類：一類是有歌詞的部分，我打算用midjourney來進行生成，它的畫面美感是頂級的；第二類是無歌詞的部分，比如長達20秒的前奏，這里我打算使用SD來制作南京12個區(qū)的字體設(shè)計，包括主標題的設(shè)計；第三類是轉(zhuǎn)場，比如主歌進副歌的時候，需要讓鏡頭之間更有設(shè)計感，我選擇使用deforum來進行制作。

雖然有了歌詞，但是我還是需要一些具體的畫面描述，所以接下來，我就讓gpt幫我按照每段歌詞生成了一系列的mj提示詞。

當然這些提示詞只是一個大概的畫面參考，具體的還是需要我們?nèi)フ{(diào)整和編寫。

比如開頭的部分，歌詞并沒有體現(xiàn)，所以我們需要我們自己去構(gòu)思。我在創(chuàng)作這個歌曲的時候就想過融入古箏這個傳統(tǒng)樂器，所以在開篇的時候我就想過通過一名彈古箏的女子來引入。為了增加神秘感，我希望畫面的開篇是女子的背景，然后鏡頭慢慢的拉進。但是在mj出圖的過程中，雖然畫出了背對畫面的女子，但是古箏的位置一直不對，甚至還出現(xiàn)了反彈古箏的詭異姿勢。

于是我打算曲線救國，首先使用對語義理解最準確的DALL·E3來繪制出我們需要的構(gòu)圖。

然后再使用墊圖的方式給到mj，就畫出了我想要的構(gòu)圖。

接下來還需要近景和特寫做切換，為了保持人物和色調(diào)的一致，使用了sref和cref的命令來統(tǒng)一風(fēng)格。

這張手部的彈琴特寫，僅使用提示詞也無法得到，采用了同樣的墊圖法進行生成，不過后期因為時長的緣故沒有放進正片中。

正片當中的圖片根據(jù)歌詞的大意進行輸出就可以了，由于畢竟是AI生成，所以對于南京地標性的景點是不可能完美復(fù)現(xiàn)的，所以我盡量只用局部或者是一些意向圖來表現(xiàn)。可以讓人感受和聯(lián)想到南京的一些景點和文化符號，但是又不那么直白，這應(yīng)該就是AI表達和視頻拍攝上的區(qū)別。

05 字體設(shè)計

接下來是對南京12個大區(qū)的名字設(shè)計，本來這也是屬于分鏡的一部分，不過由于在制作上這一塊確實也花費了相當多的時間，所以單獨分出來講解。

這一部分用到的主要工具是Stable diffusion，因為它有很強的控制能力，可以根據(jù)我們給出的文字輪廓來進行符合畫面風(fēng)格的設(shè)計。

這里我們先準備好所有要做的字體的平面圖像，這個平面圖會決定我們最終的構(gòu)圖。我一般會喜歡用黑底白字的圖片，因為在controlnet中的depth模型會把白色識別為前景，有助于我們文字的突出。

我們可以將圖片放入controlnet當中來，我通常會用到canny來控制線條，depth控制景深關(guān)系，segmentation控制融合度，IP-Adapter控制畫面風(fēng)格。當然這些控制不需要同時使用，而是通過你對圖像的一個構(gòu)思來進行取舍，同時通過權(quán)重來影響控制程度。

前期準備完成之后，就要開始構(gòu)思每一幅的畫面，南京的每一個區(qū)都各有特色，玄武區(qū)湖光山色相映成趣、秦淮區(qū)槳聲燈影流水潺潺、建鄴區(qū)高樓林立氣勢雄偉、鼓樓區(qū)紫峰閱江光影悠悠、棲霞區(qū)楓滿山巒葉紅似錦、雨花臺區(qū)烈士陵園莊嚴肅穆、江寧區(qū)湖熟稻田金浪滾滾、浦口區(qū)珍珠涌泉清澈秀美、六合區(qū)“石中皇后”雨花斑斕、溧水區(qū)無想山水翠巒疊嶂、高淳區(qū)老街深巷青磚灰瓦、江北新區(qū)科創(chuàng)基地智領(lǐng)未來。結(jié)合這些不同的特征，我們需要選擇不同的大模型，對畫面做不同的描述詞，然后選擇搭配不同的lora進行微調(diào)。

比如江寧的這一張，我希望這個字是出現(xiàn)在油菜花田中的，于是我使用了4個和油花菜以及大自然相關(guān)的lora與提示詞配合進行輸出，controlnet使用了seg和depth與油菜花田進行融合。

正向提示詞：Masterpiece,UAV low-altitude top view,(ups and downs, rape blossoms, golden rape fields, lakes, rivers, clear, reflection, flowers, amazing plant wonders:1.5),mobile form,(shot through rapeseed angle:1.5),(no house, no building:1.5) Master composition,aesthetic artistic conception,aesthetics,telephoto,close-up,depth of field,award-winning photography,Sony FE GM,Ultra HD.<lora:大自然的鬼匠神工_v1.0:0.4>,<lora:油菜花寫真_v1.0:0.4>,<lora:油菜花開_v1:0.4>,<lora:花攝 1.5_v1.0 (wd14):0.4>

但是有的場景并不一定能有對應(yīng)的lora，比如六合的這一張。六合是雨花石之鄉(xiāng)，但是雨花石這個元素在國外大模型中是沒有的，所以我在controlnet使用IP-Adapter進行墊圖，從而將雨花石的元素融入到了畫面之中。

正向提示詞：Masterpiece,UAV low-altitude top view,mobile form,(a font composed of colorful stones,in clear water,water grass,vegetation,riverbank:1.2),aesthetic artistic conception,aesthetics,telephoto,close-up,depth of field,award-winning photography,Sony FE GM,Ultra HD.,,,JingGuan,,<lora:大自然的鬼匠神工_v1.0:0.6>,<lora:石頭水景15_v1:0.3>,<lora:【晶石-湖泊,海洋】國風(fēng)山水_v1.0:0.6>

12個區(qū)我就不一一分析了，AI造字主要還是要理解字和圖像的關(guān)系，才能找到最適合的參數(shù)。以下是完整的12個區(qū)的字體設(shè)計。

06 視頻制作

視頻制作中主要用到的工具是runway。（https://runwayml.com/）

runway厲害的地方在于它可以對我們的圖生視頻有更詳細的控制，比如說可以控制鏡頭的移動。

通過推鏡頭的方式，讓人仿佛置身在場景當中。

我們還可以通過筆刷的方式來控制畫面元素的移動，讓鏡頭的發(fā)展方向能按照我們想要的進行?。

這樣就能做出船在江中穿行，云朵在空中流動的畫面。

通過這些方式的組合應(yīng)用，我們需要將所有的分鏡全部制作成動態(tài)視頻。當然考慮到最終的視頻的銜接，在制作的時候要思考上下鏡頭的運動關(guān)系。

07 轉(zhuǎn)場制作

這條片子里的轉(zhuǎn)場主要用到的是SD當中的deforum，也就是去年很火的瞬息全宇宙效果，它可以通過不斷畫面迭代，完成從一幅圖像向另一副圖像的過渡。

比如下面這個轉(zhuǎn)場，我們從一本攤開在桌子上的書本慢慢將鏡頭推進，當接近到書本的時候，將鏡頭翻轉(zhuǎn)向下，進入到書本之中，來引出南京的一場旅程。

我們可以在deforum中設(shè)定初始的圖片。

然后通過對鏡頭運動打上關(guān)鍵幀的方式來控制攝影機的進行，比如我希望鏡頭一開始是推進的，那么前30幀就是平移Z軸的正向移動，從40幀開始轉(zhuǎn)向書本，那么就會有一個3D翻轉(zhuǎn)X的正向值。依此類推，這個工具的難點在于所有的控制都是數(shù)值化的，所以你需要在大腦中去想象鏡頭的運動，然后模擬成數(shù)值寫下來。這樣做肯定沒有辦法一致性就做好的，所以需要不斷的測試和調(diào)整。

然后還要通過提示詞來確定不同幀數(shù)時畫面的變化，這樣就能呈現(xiàn)出進入書本后畫面變幻為城市建筑的效果。

還有一個用處就是在兩張圖片之間做一個轉(zhuǎn)場過渡，這種時空穿梭的感覺是非常棒的。

我們可以在引導(dǎo)圖像這里放入首尾兩張圖片的地址，來實現(xiàn)中間過渡幀的變化。

當然，采用瞬息全宇宙的工作流時，中間的過渡畫面幀是不可控的。比如在處理紫峰大廈的轉(zhuǎn)場場景時，中間的一棟大樓上就一直出現(xiàn)sony的標志，我想可能是因為我的提示詞中使用了“sony相機拍攝”這樣的描述。
所以我只能化身肝帝，把視頻導(dǎo)入到ps當中，一幀一幀的修補，才最終沒有讓畫面出現(xiàn)紕漏。

08 高分放大

視頻片段制作完成之后，有些畫面的分辨率不是很高，或者是幀數(shù)不高會顯得很卡頓，所以我這邊再引入了一個對視頻進行高分辨率放大的流程。

使用Topaz Video AI對視頻的分辨率進行放大，還可以將30fps插幀變成60fps，讓視頻變得更為流暢。

09 剪輯合成

所以的素材都準備完畢了，接下來就是來到剪映里面進行合成了。

按照音樂的節(jié)奏點對視頻片段進行擺放，鏡頭切換的時候要卡在鼓點或者重音的上面，過渡轉(zhuǎn)場的地方可以再加上一些剪映預(yù)置的特效，讓整個視頻更為流暢。最后添加字幕，渲染輸出就可以了。

至此，使用AIGC工作流的整條《AI你，南京》的城市宣傳MV就制作完成了。雖然說一開始想要使用AI來完成所有工作，但是最終還是少不了人的環(huán)節(jié)，創(chuàng)作不易，邊做邊思考，也對AIGC有了更深的理解。

在這里感謝新華日報、中國江蘇網(wǎng)各位領(lǐng)導(dǎo)的信任，讓這條片子能在省級媒體上發(fā)表，也很感謝大家對這條片子的認可和喜愛。

最后，是我自己關(guān)于AIGC創(chuàng)作的一些感想。客觀的來說，片子是不夠精致的，音樂也是有瑕疵的，畫面也有很多可以更好的地方。但是作為一個新興的技術(shù)，我們從去年一直目睹著它的飛速進步，似乎永遠都停止不了贊嘆的聲音。“AI一天，人間一年”，在這個圈子里人經(jīng)常會發(fā)出這樣的感嘆。如果大家看過一年前AIGC產(chǎn)出的內(nèi)容，再看看今天圖像、音樂、視頻如雨后春筍般的出現(xiàn)，就能體會得到為什么我們會如此看好AIGC的前景，它進步得實在太快了。我甚至都無法想象再過五年甚至十年之后，世界會被改變成什么樣子。之前有很多敵對的情緒一直彌漫在人和AI之間，但是就目前而言，AI絕不是為了替代某一工種而出現(xiàn)的，它是為了輔助我們更高效地完成目標而存在。我們的世界仍然需要作家、需要音樂家、需要畫家、需要設(shè)計師、需要導(dǎo)演、需要攝影、需要程序員，我們需要真正的人來攀登各行的頂峰，這是現(xiàn)在的AIGC所無法做到的。但是好的作品，我們不能只看結(jié)果，也要去看過程。AIGC可以讓一個完全不懂音樂創(chuàng)作的人在十分鐘之內(nèi)創(chuàng)作出一首70分以上的歌曲，AIGC可以讓一個只有幾個人的團隊在短短幾天之內(nèi)做出以前可能要一個月才能完成的視頻，AIGC可以讓一個人能抵千軍萬馬。

這，就是我們?nèi)绱讼嘈臕I的理由。以上。

作者公眾號：白馬與少年（ID：StreamWXY）

本文系作者授權(quán)數(shù)英發(fā)表，內(nèi)容為作者獨立觀點，不代表數(shù)英立場。
未經(jīng)授權(quán)嚴禁轉(zhuǎn)載，授權(quán)事宜請聯(lián)系作者本人，侵權(quán)必究。