未來影視製作可能會很枯燥

深圳商報AI MV製作回顧

来源：香港經濟導報 2024年07月08日版次：P47

ComfyUI裏的搭建工作流示例，提示詞工程師至少需要瞭解大多數節點和參數的設置，以及工作方式，熟練的提示詞工程師則需要針對不同的任務自己搭建專屬工作流

分鏡頭劇本草稿

文 | 湯浪

AI的視頻製作是怎麼樣的？未來，內容創作者又會大概率在什麼樣的環境下進行工作？抱著試探的想法，身為深圳商報員工的我，在自己部門的基礎上組建了一支臨時的AI視頻創作團隊，想切身體會一下未來創作者們的感受。

雄心：要做有人物動作的AI視頻

去年10月左右，我當時便想製作一部AI影視作品。如果沒有記錯，當時Runway剛剛發佈了自己的第一代視頻模型GEN1。更早之前，圍繞著Stable diffusion，眾多機構和愛好者也發佈了一系列開源的AI視頻插件和節點。

不過，當時我始終認為，從AI的表現效果來說，做視頻始終還差那麼一步。

今年年初，Sora的一系列測試視頻徹底將AI視頻製作的熱情徹底點燃起來了。不少兄弟單位和同行都相繼推出了自己的AI視頻作品。這顯然讓更早介入AI內容生產的小夥伴們感到多少有些“坐立不安”，而反應最為激烈的其實是離AI內容生產更遠一些的導演。

於是，今年3月末，一場討論做什麼作品的聚餐會就這樣開始了。

參會前，我們先廣泛收集了目前網路上反響較為不錯的AI影視作品，然後在餐桌上逐一展示和討論。

大家普遍認為，目前的AI視頻，其實大多數都是一些類似“PPT”的畫面拼接——人物沒有動作，鏡頭缺乏運動；僅在大場景中的有煙、雲、水等一些環境物體發生變化和運動。

這顯然不能真正滿足視頻作品的需要，更無法達到敘事的標準。

會上，兩位導演——葉智斌、曾亞終於提出了專案目標：要做有故事的超現實科幻內容，要做有大幅運鏡的視頻，要讓AI人物真正動起來。

導演的雄心壯志固然熱血，但當時我內心卻非常忐忑——受限於自己年老失修的2070顯卡，推理一個2秒視頻都需要耗費將近30分鐘——所以，我雖然對AI圖像內容生成接觸較深，但對AI視頻確實研究有限。

當然，於我同樣有顧慮的還有部門副主任何丹，為免於打擊創作熱情，她稍微修正了一下目標：為避免因為難度過大，導致專案擱淺，不要做故事內容，就做以展示人物動作、鏡頭運動為主的超現實科幻AI MV。

新崗位：提示詞工程師

專案確立後，我們進行了必要的分工。

當然，大部分與傳統影視行業相差無幾——導演、製片、剪輯、美術等等，大概4-5人，是個規模極小的團隊。

雖然我是專案發起人，但在實際工作中卻擔任了AI影視專案中的一個全新崗位：提示詞工程師。

說到提示詞工程師，很多人認為就是敲一下鍵盤，告訴AI做什麼就行。

但其實不是。

提示詞工程師需要對AI大模型、微調模型（lora）有一定的瞭解，熟悉它們的能力、參數設定等等。至少不能拿一個擅長國畫的模型，來硬出3D風格作品，以至於效果不達標。

除此之外，對於開源視覺模型，提示詞工程師還需要熟知工作流的搭建，最後協調不同的AI模型統一協作並最終完成作品。

所以，提示詞工程師是專案當中唯一能精准地與AI進行交流的崗位；這個人雖然不是理工生，卻要搭建起代碼世界與文藝創作之間的橋樑。

然而，影視作品是一個綜合工程，不但要對鏡頭進行處理，還要對聲音、圖像、人物、動作等進行處理。也就是說傳統影視拍攝中的燈光、演員、化妝、服裝、場景搭建、攝影、音樂等等多個工種都將在AI MV製作中簡化成一個崗位。

在這之前，我是沒有同類型工作經驗的。

工期：從預期一周到兩個月

最初，我們專案中並沒有音樂監製這個角色，其實這也為以後專案的多次返工埋下了伏筆。也再次印證了我之前的認識——在使用任何專業方向的AI模型時，提示詞工程師最好是有相關專業知識背景，或者要有監製從旁輔助。

由於沒有歌曲創作經驗，我們按照寫作習慣，讓AI起草了歌詞。通過對結果的多次修正以後，導演對歌詞表示了認可，並快速寫出了文字劇本。

一天以後，美術監製湯亦也根據導演的劇本給出了分鏡草稿，作為提示詞工程師工作的依據。

同時給到的還有根據導演要求，撰寫的關於畫面品質的一些具體描述：亮面偏暖，暗面偏冷，畫面空氣感較強，整體以亮色為主，色溫是6500K。

接下來，就是創作靜態畫面的工作，要讓AI生成服裝、道具、人物、場景等諸多圖片，為視頻製作的AI提供生產依據。

為節省時間，也因為電腦硬體不達標，最開始我們嘗試使用的是國內外各種已經開發並包裝好的AI視頻工具。

然而，這些由於缺乏可控性或功能單一等種種原因。這些宣傳效果極佳的AI視頻工具，在實際使用過程中表現出了各種動作隨意、畫面崩潰等各種問題。

嘗試了大概3-4種Ai工具結果都是相似的：基本上耗完所有購買的使用次數，才能得出寥寥幾個勉強能讓導演滿意的鏡頭。人物動作、鏡頭移動就更不用說了，基本無法達標。

最後，我們不得不轉向開源AI模型。

開源的AI模型控制插件或節點更多，也能聯合多個模型一起工作。但是，插件或節點的作者往往是根據自己的愛好和方向來進行製作和更新，並不會對節點間的衝突負責，也沒有所謂的售後服務。

這就意味著，不但要在搭建工作流上煞費苦心，還需要臨時中斷專案進程，來解決各種莫名其妙的報錯問題。

在這個專案中，最長的一個報錯耗費了我將近三天時間來逐個排查模型、插件、檢測器之間的問題，去網上搜索關於這些問題解決的蛛絲馬跡。

最終我們還是成功搭建起了三套工作流分別來完成轉場特效、人物動作、人物表情。大場景描述，還是交給了網上的AI工具。

就這樣，原本預期一個星期完成的專案，至此已經過了一個月。而我們最終完成專案製作還需要一個月。

枯燥過程：等待和調整參數

前面一個月確實痛苦，但總有解決問題、攻克難點之後的收穫的喜悅。

但正式進入視頻環節，整個工作就變得無趣枯燥起來。

我需要對照導演的腳本和分鏡頭劇本，控制每一個鏡頭，把相應的提示詞和參數調整好，甚至需要將眨眼、睜眼等動作提示到具體的每一幀畫面上。

然後，通過一個個預覽窗口觀察每一次畫面生成的變化，然後決定繼續讓AI生成或是停止工作調整參數及提示詞。

與初期眾多小夥伴們共同商議期間不同，正式生成時就只剩下了我一個人。這也是AI影視製作的一個特點——沒有攝製現場，也不需要所有工種到齊開拍；導演也不需要喊“Action”“Cut”——我們的拍攝地點就微信群上，我只需要將AI生成好的鏡頭發到群裏，等待導演觀看後提出建議即可。

為了平衡性價比，我們選擇了使用對畫面細節會有一定損失的加速模式，但即便這樣一個6秒左右的鏡頭AI從初稿到修復也需要十幾分鐘。

我的時間被徹底碎片化，這種眼睛既可以可以離開又不能離開太久的工作模式，導致我往往打開十多個網頁、多個應用程式，在工作期間來回橫跳。實際一天製作下來，感覺頭暈腦脹。

但不得不說，一旦步入生產正軌，相比實拍影片，AI的拍攝的效率真是直線上升。同時，AI的介入也徹底解放了拍攝者，讓導演可以同時在多個影片中執導。

只是對於我來說，到生產中以後多少有些枯燥乏味，與大家以為的AI生產充滿創意和挑戰不同，我覺得未來AI影視普及後可能更多的是重複性地勞動。

很可惜，音樂監製徐樂娜直到最後階段才加入團隊。因此，儘管她提出了很多非常好的建議，也讓AI生產的音樂終於上了一個臺階。但終因返工成本太高，導致無法與大家分享了。

最後，影片在接近兩個月斷斷續續反反復複地製作，生產了300多個鏡頭、100多首風格迥異的歌曲之後，MV終於完成了。

受制於團隊本身的技術能力以及硬體設備，影片有不少缺陷。但最終我們還是成功實現了人物運動和鏡頭運動，也提前體驗了一把未來影視行業可能會發生的變化。