Sora強勢來襲，廣告導演要失業了？別急，讓子彈先飛一會兒

原創贊26 收藏19 評論22

舉報 2024-02-19

掃描,分享朋友圈

(封面由midjourney生成）

家人們，誰懂啊……

ChatGPT還沒鬧明白，一覺醒來，OpenAI又開始搞事情了，這次直接來了個王炸：Sora。

不認識它沒關系，簡單來講，它的功能就是根據描述性的文本提示，生成高質量的視頻內容。你可以理解為，你把你想要的場景以文本的形式寫下來給它，它就能給你生成對應的視頻，最高能生成60秒。

我當時聽到這玩意兒出來的第一反應是：厲（N）害（B）。

第二反應：好家伙，影視人要失業了。

不過這一幕，好像似曾相識：

ChatGPT剛出來時第一反應：同上。第二反應：好家伙，文案人要失業了。

midjourney剛出來時第一反應：同上。第二反應：好家伙，設計師要失業了。

好嘛，合著OpenAI跟廣告行業杠上了（bushi)。

1、sora有多強？功能介紹

Sora模型的誕生時間是在2024年2月15日，就是春節上班前兩天。

可能是覺得CNY的余熱不夠，Sora提供話題素材了來了，就像在春節的尾巴拋下一顆炸彈，一時間大家都在討論Sora。

看看這暴增的搜索量，別說簡單別說破圈層了，那是直接擊穿了地球層。

能引起這么高全民關注度，Sora還真得有兩把刷子。鑒于我對它技術的認知確實膚淺，在功能介紹這塊，我找我的AI小助手問了問，首先，請它介紹一下Sora：

Q：
可以介紹一下Sora的具體情況嗎？
A：
Sora是由OpenAI開發的一種先進的文本到視頻生成模型。Sora模型的誕生時間是在2024年2月15日。OpenAI在這一天發布了Sora，這一模型能夠根據用戶輸入的文本提示生成長達一分鐘的高清視頻。Sora模型采用了擴散型變換器（diffusion transformer）架構，這是一種基于深度學習的模型，能夠將隨機噪聲逐漸轉化為有意義的圖像或視頻內容。
Sora模型的核心優勢在于其能夠處理和生成具有復雜動態和空間關系的高質量視頻，這在以往的視頻生成技術中是難以實現的。與傳統的視頻生成模型相比，Sora在多模態輸入處理、視頻連貫性、逼真度等方面展現出了顯著的優勢。它可以生成具有多個角色、特定類型的運動以及精確的主題和背景細節的復雜場景。
盡管Sora模型展示了令人印象深刻的效果，OpenAI也承認它存在一些局限性，例如可能難以準確模擬復雜場景中的物理現象，可能無法理解具體的因果關系，以及可能混淆提示的空間細節等。目前，Sora模型尚未公開使用，OpenAI正在與第三方安全測試人員共享該模型進行紅隊測試，并在模型中包含了過濾器，以阻止暴力、色情、仇恨內容以及特定人物的視頻輸出。此外，OpenAI還在嘗試將C2PA技術標準嵌入到Sora的輸出視頻中，以幫助鑒別視頻是否為AI深度偽造內容。

哦，我悟了——它能夠根據用戶輸入的文本提示生成長達一分鐘的高清視頻，其他技術性文字，分開不認識，合在一起更是看不懂（扶額苦笑。

但這也夠了，畢竟你只需要知道電腦怎么用就行，不用知道它背后運行的邏輯不是。

但是這個具體的功能，還是有點不太明白，于是我就接著問了問AI小助手，畢竟它比我懂得多：

Q：
Sora有哪些功能？
A：
OpenAI的Sora是一個文本到視頻的生成模型，它可以根據描述性的文本提示生成高質量的視頻內容。Sora的主要功能和特點包括：
1. 文本到視頻生成：Sora能夠理解自然語言描述，并根據這些描述生成與之相符的視頻。用戶可以提供文本提示，Sora會生成相應的視頻場景。
2. 視頻時長和分辨率：Sora能夠生成長達60秒的高清視頻，支持不同的視頻時長、分辨率和縱橫比。
3. 視頻壓縮網絡：Sora使用了一個壓縮網絡，將原始視頻數據降維到一個潛在空間，然后通過變換器網絡將潛在空間分割成時空塊，作為輸入。
4. 擴散模型：Sora采用了基于擴散的生成方法，從一個隨機噪聲開始，逐步恢復出目標視頻。這種方法在語言建模、計算機視覺和圖像生成等領域已經顯示出顯著的擴展性。
5. 語言理解：Sora能夠理解自然語言，并根據語言的語義和語法生成合理的視頻內容。
6. 圖像和視頻編輯：Sora不僅可以基于文本提示生成視頻，還可以基于現有圖像或視頻進行提示，生成與之相關的視頻，或者在其基礎上進行修改或延續。
7. 模擬能力：Sora在大規模訓練時展現出了一些新興能力，能夠模擬物理世界中的某些方面，如動態相機運動、長期一致性和對象持久性等。
8. 多模態理解：Sora能夠處理和理解多模態數據，即同時處理文本、圖像和視頻信息，這使得它在生成視頻時能夠更好地理解和模擬現實世界。
Sora的這些功能使得它在視覺藝術、電影制作、教育、娛樂等領域具有廣泛的應用潛力。然而，Sora目前仍在開發中，存在一些局限性，例如在處理復雜物理場景時可能會有不準確的表現，以及在理解因果關系方面可能存在挑戰。OpenAI正在與專家團隊合作，以確保模型的安全性和準確性，并開發工具來檢測和拒絕不當的輸入。

哦，我又悟了：原來它不僅能根據文本生成視頻，還能根據現有的圖像或者視頻，生成相關的視頻，或者在此基礎上進行延續，也就是說，它是具備內容連貫性的。

也就是說，所有和視頻相關的行業、平臺之類的，都有可能被它顛覆。

我甚至看到有評論說：這下好了，喜歡的小說可以自己生成影視作品了——這么一看，普通人也很有機會嘛。

2、Sora還沒用上，課程先出來了
別割了，讓本韭菜長一會吧

Sora出來后，也誕生了很多魔幻的段子，比如，有些人還沒用上Sora，課程大綱已經列好了：

有沒有一種可能，它們連頁面都打不開。

您的sora拒絕了您的訪問
請稍后再試

還有各種搶注域名的、做落地頁的：

圖片來源于網絡

不知道是不是真的在這個賽道上賺到錢了，但我看完這些搶跑選手只想說兩點：

這錢你們賺吧，我是賺不到一點兒。以及，

都別吵了，咱先用上Sora再說吧。

3、Call back一下：
如果Sora真的行，我們該具備哪些能力來應對它？

就像開頭說的那樣，來了個啥新技術，就要傳“xx要失業了”，這話不合理，但也合理，畢竟工具總要迭代，但不是說一來就讓你失業了，它要有個過程。

你想想，就像之前手寫廣告文案，到電腦打字，變得只是方式，不變的是你的想法、創意。

那咱這Sora大概也差不多嘛，你要用文本描述，還不得人有想法才行，你沒想法，給你你也用不了。難肯定是有點難度的，畢竟是個全新的東西，那就慢慢摸索唄。

其實從ChatGPT到midjourney再到Sora，有一個比較核心的點就是：它們都依賴“文本提示”。

ChatGPT是，你要想方設法調整你的提問，不管是模擬專家也好，對提問進行限制也好，考驗的是邏輯思維和文本能力；
midjourney則是要用各種提示詞，來描述場景，有時候意思相近的兩個詞，可能生成的圖像結果不同，這也考驗文本能力。

咱就是說，這么一看下來，做文案的朋友贏麻了，畢竟平常沒少想破腦袋想詞來著。

不過，既然AI都這么發達了，那不用用它幫我解答真是說不過去了，于是，我把這個問題喂給了AI小助手，它告訴我：

1. 精確的文本提示：Sora模型依賴于文本提示來生成視頻內容。因此，提供清晰、具體且詳細的描述性文本提示對于生成高質量視頻至關重要。嘗試使用生動的語言和具體的場景描述，以便模型能夠理解并生成符合預期的視頻。
2. 理解模型限制：了解Sora模型的局限性，例如它可能在處理復雜物理現象、因果關系和空間細節方面存在挑戰。在設計提示時，盡量避免這些領域的復雜性，或者為模型提供足夠的上下文信息來幫助它克服這些挑戰。
6. 原始尺寸和時長訓練：OpenAI在訓練Sora時選擇了原始尺寸和時長，這使得生成的視頻能夠更好地自定義時長和尺寸。在設計提示時，考慮視頻的最終用途，以便生成適合特定場景的視頻。
7. 利用GPT進行提示擴寫：在輸入提示詞時，OpenAI使用了GPT模型來擴寫用戶的提示詞，以提高視頻生成的準確性。這意味著在輸入提示時，簡潔明了的描述可能更有助于GPT進行有效的擴寫。
3. 利用多模態輸入：略
4. 視頻壓縮網絡和潛空間：略
5. 利用Transformer架構：略
8. 關注模型的倫理和安全問題：略
（復雜的技術性的東西我就不放了哈，真的很占位置就是說）

你看，新技術來了，別慌，可以關注一些最新的信息，也要讓子彈先飛一會，看看到底有哪些可以幫助你的。