深圳商報AI MV製作回顧
来源:香港經濟導報 2024年07月08日 版次:P47
ComfyUI裏的搭建工作流示例,提示詞工程師至少需要瞭解大多數節點和參數的設置,以及工作方式,熟練的提示詞工程師則需要針對不同的任務自己搭建專屬工作流
分鏡頭劇本草稿
文 | 湯浪
AI的視頻製作是怎麼樣的?未來,內容創作者又會大概率在什麼樣的環境下進行工作?抱著試探的想法,身為深圳商報員工的我,在自己部門的基礎上組建了一支臨時的AI視頻創作團隊,想切身體會一下未來創作者們的感受。
雄心:要做有人物動作的AI視頻
去年10月左右,我當時便想製作一部AI影視作品。如果沒有記錯,當時Runway剛剛發佈了自己的第一代視頻模型GEN1。更早之前,圍繞著Stable diffusion,眾多機構和愛好者也發佈了一系列開源的AI視頻插件和節點。
不過,當時我始終認為,從AI的表現效果來說,做視頻始終還差那麼一步。
今年年初,Sora的一系列測試視頻徹底將AI視頻製作的熱情徹底點燃起來了。不少兄弟單位和同行都相繼推出了自己的AI視頻作品。這顯然讓更早介入AI內容生產的小夥伴們感到多少有些“坐立不安”,而反應最為激烈的其實是離AI內容生產更遠一些的導演。
於是,今年3月末,一場討論做什麼作品的聚餐會就這樣開始了。
參會前,我們先廣泛收集了目前網路上反響較為不錯的AI影視作品,然後在餐桌上逐一展示和討論。
大家普遍認為,目前的AI視頻,其實大多數都是一些類似“PPT”的畫面拼接——人物沒有動作,鏡頭缺乏運動;僅在大場景中的有煙、雲、水等一些環境物體發生變化和運動。
這顯然不能真正滿足視頻作品的需要,更無法達到敘事的標準。
會上,兩位導演——葉智斌、曾亞終於提出了專案目標:要做有故事的超現實科幻內容,要做有大幅運鏡的視頻,要讓AI人物真正動起來。
導演的雄心壯志固然熱血,但當時我內心卻非常忐忑——受限於自己年老失修的2070顯卡,推理一個2秒視頻都需要耗費將近30分鐘——所以,我雖然對AI圖像內容生成接觸較深,但對AI視頻確實研究有限。
當然,於我同樣有顧慮的還有部門副主任何丹,為免於打擊創作熱情,她稍微修正了一下目標:為避免因為難度過大,導致專案擱淺,不要做故事內容,就做以展示人物動作、鏡頭運動為主的超現實科幻AI MV。
新崗位:提示詞工程師
專案確立後,我們進行了必要的分工。
當然,大部分與傳統影視行業相差無幾——導演、製片、剪輯、美術等等,大概4-5人,是個規模極小的團隊。
雖然我是專案發起人,但在實際工作中卻擔任了AI影視專案中的一個全新崗位:提示詞工程師。
說到提示詞工程師,很多人認為就是敲一下鍵盤,告訴AI做什麼就行。
但其實不是。
提示詞工程師需要對AI大模型、微調模型(lora)有一定的瞭解,熟悉它們的能力、參數設定等等。至少不能拿一個擅長國畫的模型,來硬出3D風格作品,以至於效果不達標。
除此之外,對於開源視覺模型,提示詞工程師還需要熟知工作流的搭建,最後協調不同的AI模型統一協作並最終完成作品。
所以,提示詞工程師是專案當中唯一能精准地與AI進行交流的崗位;這個人雖然不是理工生,卻要搭建起代碼世界與文藝創作之間的橋樑。
然而,影視作品是一個綜合工程,不但要對鏡頭進行處理,還要對聲音、圖像、人物、動作等進行處理。也就是說傳統影視拍攝中的燈光、演員、化妝、服裝、場景搭建、攝影、音樂等等多個工種都將在AI MV製作中簡化成一個崗位。
在這之前,我是沒有同類型工作經驗的。
工期:從預期一周到兩個月
最初,我們專案中並沒有音樂監製這個角色,其實這也為以後專案的多次返工埋下了伏筆。也再次印證了我之前的認識——在使用任何專業方向的AI模型時,提示詞工程師最好是有相關專業知識背景,或者要有監製從旁輔助。
由於沒有歌曲創作經驗,我們按照寫作習慣,讓AI起草了歌詞。通過對結果的多次修正以後,導演對歌詞表示了認可,並快速寫出了文字劇本。
一天以後,美術監製湯亦也根據導演的劇本給出了分鏡草稿,作為提示詞工程師工作的依據。
同時給到的還有根據導演要求,撰寫的關於畫面品質的一些具體描述:亮面偏暖,暗面偏冷,畫面空氣感較強,整體以亮色為主,色溫是6500K。
接下來,就是創作靜態畫面的工作,要讓AI生成服裝、道具、人物、場景等諸多圖片,為視頻製作的AI提供生產依據。
為節省時間,也因為電腦硬體不達標,最開始我們嘗試使用的是國內外各種已經開發並包裝好的AI視頻工具。
然而,這些由於缺乏可控性或功能單一等種種原因。這些宣傳效果極佳的AI視頻工具,在實際使用過程中表現出了各種動作隨意、畫面崩潰等各種問題。
嘗試了大概3-4種Ai工具結果都是相似的:基本上耗完所有購買的使用次數,才能得出寥寥幾個勉強能讓導演滿意的鏡頭。人物動作、鏡頭移動就更不用說了,基本無法達標。
最後,我們不得不轉向開源AI模型。
開源的AI模型控制插件或節點更多,也能聯合多個模型一起工作。但是,插件或節點的作者往往是根據自己的愛好和方向來進行製作和更新,並不會對節點間的衝突負責,也沒有所謂的售後服務。
這就意味著,不但要在搭建工作流上煞費苦心,還需要臨時中斷專案進程,來解決各種莫名其妙的報錯問題。
在這個專案中,最長的一個報錯耗費了我將近三天時間來逐個排查模型、插件、檢測器之間的問題,去網上搜索關於這些問題解決的蛛絲馬跡。
最終我們還是成功搭建起了三套工作流分別來完成轉場特效、人物動作、人物表情。大場景描述,還是交給了網上的AI工具。
就這樣,原本預期一個星期完成的專案,至此已經過了一個月。而我們最終完成專案製作還需要一個月。
枯燥過程:等待和調整參數
前面一個月確實痛苦,但總有解決問題、攻克難點之後的收穫的喜悅。
但正式進入視頻環節,整個工作就變得無趣枯燥起來。
我需要對照導演的腳本和分鏡頭劇本,控制每一個鏡頭,把相應的提示詞和參數調整好,甚至需要將眨眼、睜眼等動作提示到具體的每一幀畫面上。
然後,通過一個個預覽窗口觀察每一次畫面生成的變化,然後決定繼續讓AI生成或是停止工作調整參數及提示詞。
與初期眾多小夥伴們共同商議期間不同,正式生成時就只剩下了我一個人。這也是AI影視製作的一個特點——沒有攝製現場,也不需要所有工種到齊開拍;導演也不需要喊“Action”“Cut”——我們的拍攝地點就微信群上,我只需要將AI生成好的鏡頭發到群裏,等待導演觀看後提出建議即可。
為了平衡性價比,我們選擇了使用對畫面細節會有一定損失的加速模式,但即便這樣一個6秒左右的鏡頭AI從初稿到修復也需要十幾分鐘。
我的時間被徹底碎片化,這種眼睛既可以可以離開又不能離開太久的工作模式,導致我往往打開十多個網頁、多個應用程式,在工作期間來回橫跳。實際一天製作下來,感覺頭暈腦脹。
但不得不說,一旦步入生產正軌,相比實拍影片,AI的拍攝的效率真是直線上升。同時,AI的介入也徹底解放了拍攝者,讓導演可以同時在多個影片中執導。
只是對於我來說,到生產中以後多少有些枯燥乏味,與大家以為的AI生產充滿創意和挑戰不同,我覺得未來AI影視普及後可能更多的是重複性地勞動。
很可惜,音樂監製徐樂娜直到最後階段才加入團隊。因此,儘管她提出了很多非常好的建議,也讓AI生產的音樂終於上了一個臺階。但終因返工成本太高,導致無法與大家分享了。
最後,影片在接近兩個月斷斷續續反反復複地製作,生產了300多個鏡頭、100多首風格迥異的歌曲之後,MV終於完成了。
受制於團隊本身的技術能力以及硬體設備,影片有不少缺陷。但最終我們還是成功實現了人物運動和鏡頭運動,也提前體驗了一把未來影視行業可能會發生的變化。