當AI學會吉卜力美學:動漫產業的下個十年
面對洶涌的AI浪潮,動漫產業正處于技術的十字路口。
一方面,產能瓶頸與市場需求的矛盾已成為動漫業痛點——頂級工作室檔期排到兩年后,大量制作仍依賴“工匠精神”主導的傳統手繪,產能緊缺。另一方面,AI技術正迅速融入傳統動漫制作流程。
Google的Veo 3、OpenAI的Sora以及可靈AI、海螺等等視頻大模型每周迭代,從關鍵幀生成到風格轉換的技術探索層出不窮。然而,AI在動漫領域的技術落地仍存在多重壁壘。
在產業如此供需失衡的背景下,AI正如何滲透進動漫制作?AI生成視頻的穩定性、邏輯連貫性難題,能否被攻克?談及創意生產與行業倫理,AI又給動漫產業帶來何種沖擊?
帶著這些問題,Azuki內容負責人、前Google Brain工程師天宇 (二月茶) 在今年五月親赴日本深度考察。本期《硅谷101》,主播泓君對談天宇,從他的親身感受出發,聊聊AI技術在動漫制作中的應用情況、技術瓶頸和潛在影響。當AI學會吉卜力的分鏡美學,動漫產業的下一個十年將在何處落筆?
以下是這次對話內容的精選:
一、動漫產業現狀:供需的歷史性撕裂
泓君: 能否簡單介紹一下Azuki?為什么你每天的工作會把大模型生成和日本動漫產業結合在一起?
天宇: Azuki是我們在2022-2023年的Web3敘事熱潮下創立的。它是NFT與動漫結合的品牌,整體采用二次元風格,所以從那時起就與動漫結下了不解之緣。我一直對動漫有很強的興趣,當時通過各種機緣巧合參與到Azuki中,現在在Azuki負責整個內容開發,尤其是動漫方向的制作。?
泓君: 你們打算做成類似動漫連續劇還是動漫電影?這兩種敘事邏輯差異挺大的。
天宇: 我們目前認為最佳方案是從動漫劇集入手。作為動漫迷,漫畫和劇集仍是接觸IP最直接的方式。我們對動漫電影感興趣的原因在于其生產周期相對更短。如今動漫劇集在全球大火,尤其是日本、美國乃至中國,產能都嚴重供不應求,僅等待頂尖工作室的排期就可能需要兩三年,加上制作本身高度手工化,如果從零開始制作一部動漫劇集,時間線很容易拉長至四五年。而動漫短片和電影的制作周期相對更短。
泓君: 所以做動漫電影比劇集還要簡單些。
天宇: 在動漫領域確實如此。
泓君: 動漫劇集通常是具有較長連續故事線的作品,可能有多季。假設制作一季,大概需要多長時間?
天宇: 一季12-24集的內容,目前純制作周期約三年。但問題在于,頂尖工作室幾乎沒有空閑檔期,全球優質生產線的排期基本都要等到兩年后,這導致新動漫項目的投資很可能要五年后才能見成效。
泓君: 為什么會出現全球排期爆滿的情況?是因為動漫又火起來了,受年輕人喜歡嗎?
天宇: 這個問題很好。我認為一方面在于供給,一方面在于需求。需求層面其實很簡單,動漫屬于相對年輕的媒介,八零后、九零后這代人是看著動漫長大的,如今他們已成為消費主力。同時,新一代消費者如Gen Z (約1997-2012年出生者) 、Gen Alpha (約2013-2025年出生者) 也是在動漫陪伴下成長的。
雖然在內容娛樂領域,動漫起初可能處于邊緣地位,但因為它有獨特的審美體系,所以許多在它陪伴下長大的人會持續關注動漫,美國、中國、日本都存在這種現象。包括周邊、播放、流媒體等各類形態在內的全球動漫市場,基本保持每年10%以上的增長率。無論從哪個角度看,這都屬于相當快速的增長,尤其在偏向手游或潮玩的游戲領域,市場成長速度可能比我們想象的還要快。?
天宇: 供給層面也是一大難題,因為動漫制作是高度手工化的過程,比很多人想象的更具勞動密集型特征。大家下次看動漫時可以留意一下片尾的職員表,每一集的職員表都很長,其中還有許多專門負責具體環節的外包公司,而這些外包公司展開來看,很多都是幾百人的規模。即便在這種情況下,目前可能有30%-40%的動漫制作仍在紙張上進行。
泓君: 所以你剛才說的手繪是30%-40%?電腦繪制可能也占60%-70%?
天宇: 不,手繪指的是人用手繪制,其中的30%-40%可能仍在紙張上進行,電腦繪制也屬于手繪。但動漫行業的工業化、集約化和數字化程度比我們想象的低很多,更像是日本匠人精神主導的小作坊,類似幾人的小團隊經營一家精品拉面店的模式。正因如此,日本很多動畫公司在營收和團隊規模上存在各種問題,所以動漫行業的絕對供給實際上受到人才、管理體制甚至技術的制約。由于供需之間存在巨大錯位,導致現在很多資本方,包括我們作為IP方,雖然看到全球動漫興起的趨勢,但產能集中在少數國家,且擴張速度緩慢,這就造成了強烈的排期現象。
傳統派:不穩定、不可控,AI補幀的效率悖論
泓君: 能否簡單介紹你聊過的幾類AI+動漫公司,再從制片人角度分析可行性?
天宇: 這次接觸的公司大致分為三種類型:第一種是傳統動漫工作室,先做動漫再考慮融入AI,比如飛碟社、MAPPA、MADHOUSE等。這些工作室當下最希望通過AI提升生產線效率,因為排期飽和狀態導致它們心有余而力不足。實際上,主流頂級動畫工作室都在關注AI技術。盡管由于AI對于藝術家來說是個特別敏感的話題,它們對外宣發較少,但它們看到了潛在的技術應用場景,也是很激動的。
泓君: 它們真的有行動嗎?
天宇: 有。動漫生產流程相對標準化:從故事腳本、角色設計到故事版,再到原畫 (包含一元、二元) ,然后中間幀動畫和背景同時制作,再搭配音樂、配音及后期調整。工作室最希望能用AI優化流程中的某些環節去提升效率。
以中間幀制作為例:比如一個人喝咖啡的動作,關鍵幀可能只有“拿起杯子”“送到嘴邊”“喝完咖啡后的狀態”三張原畫。如果直接播放這三張,會顯得動作很撕裂,讓觀眾覺得“跳幀”,所以我們需要補中間幀讓動作更流暢。如果有細節特寫的鏡頭,補幀量會更大。
在動漫行業,中間幀與關鍵幀的繪制通常屬于兩個不同步驟。關鍵幀繪制被普遍視為極富創造性的工作,而中間幀繪制相對枯燥,是動漫行業新人最先接觸的工作內容。因此,當人們思考AI能否助力提升產能時,中間幀繪制往往成為首個設想的應用場景。
泓君: 這一需求相當于給定兩張原畫,由AI根據原畫生成中間的一系列動作。這其實是“圖生圖”。
天宇: 對。從技術角度上說,這個過程好像不是特別困難。無論在美國還是國內,高校和企業都時不時針對關鍵幀生成發布突破性論文,幾乎每一兩個月就能看到相關技術進展。
泓君: 哪些公司在關鍵幀技術上表現突出?
天宇: 實例很多,比如 B 站研發團隊幾周前就發表了很不錯的論文,美國一些獨立科研團隊也取得了不錯的成果。但“理想很豐滿,現實很骨感”。我們這次參觀的工作室都試過用AI輔助中間幀生成,問題就出在效果不夠穩定——最關鍵的就是“夠”字。到底多穩定才算能用?標準特別玄妙。
泓君: 能不能用剛剛“喝咖啡”的例子來解釋什么叫“夠”?
天宇: 假設一個人穿夾克,動作里夾克會有褶皺,手可能有光影變化,戴著手套的話,手套有紋理,咖啡杯上還有圖案。這時候AI生成的關鍵幀可能90%看著沒問題,但5%到10%的差錯就會嚴重影響流程。這不僅是物理邏輯的問題,更是創意層面的問題,因為動漫本來就沒追求每幀都符合物理規律,而是要在創意范圍內可信又好看。比如夾克褶皺突然出現又消失,播放時觀感就很奇怪——袖子上到底有沒有東西?
泓君: 觀眾可能還會聯想到是不是跟劇情有關系。
天宇: 對對對,尤其是像動漫這種媒介,因為每一筆都是人畫的,尤其大師作品每個細節都有深層思考。
泓君: AI生成的不完美細節,很容易被觀眾當成劇情鋪墊去過度解讀。
天宇:
這絕對是一個很大的原因。更核心的是,動漫里的夸張動作本身就是導演和動畫師的美學表達,不是真實物理世界的復刻。AI要是在5%-10%的細節上處理不好,改起來不一定容易,比如在衣服上加幾筆褶皺就挺難的,比我們想象的麻煩。這也是為什么大家覺得AI生成關鍵幀看著不錯,但實際上“足夠可用”的標準特別高。比如用AI生成喝咖啡的10張關鍵幀,每張看著都還行,但每張不同地方都有5%的誤差,這10張都得交給作畫監督和原畫師審查,真的節省時間嗎?有時候可能還不如自己畫來得快。
泓君: 95%的10次方,這個正確率最后可以算出來的。
天宇: 對,算下來發現AI好像也沒有那么大的幫助。這還牽扯到生成模型的問題:如果找10個實習生畫中間幀,至少能詳細地告訴他們錯在哪兒,還能一起開會討論修改方向。
泓君: 但是AI很難做到可控生成,比如想讓它去掉衣服褶皺,它可能改的不是指定位置,或者依然重復出錯。
天宇: 這就是細節里的“魔鬼”。如果是10個實習生,至少能保證每次交稿都在進步,但AI不一定。即便用Mask技術 (掩碼,一種深度學習技術,讓模型專注于重要數據,而忽略無效或不相關的部分) ,讓AI準確率從90%優化到95%再到100%,這個過程未必比人工快。
它和好萊塢特效制作是一個道理。比如拍車爆炸,這個爆炸有多大?是否產生煙霧?是什么顏色的?產生的碎片該往哪些方向飛?這些在很多導演心中都是相當重要的細節。現在AI很難做到這種精細控制。這其實還是回到“夠不夠好”的標準問題:當技術對細節的把控達不到創作需求時,就很難真正替代人工。
顛覆派:以AI為中心,“缺了夸張美學”
天宇: 剛好借此聊聊第二類公司——完全拋棄傳統動漫工業流程,以AI為核心重構制作體系的創業公司。這類團隊可能缺乏動畫制作經驗,但他們不是用AI優化現有流程,而是從零開始圍繞AI設計全新生產邏輯。
比如中間幀用AI制作難度大,那就干脆不做中間幀,或者采用全新的中間幀制作方式。我們之前聊到一家叫KAKA Creation的公司,他們今年推出了一部約30分鐘的動畫,聲稱95%內容由AI生成。當時這個項目在網上引起了軒然大波,剛好又是在OpenAI把照片吉卜力化的風口浪尖上。
這家公司規模很小,團隊大概只有10人左右,還處于初創階段。他們覺得視頻生成模型很有潛力,就想從零開始嘗試。KAKA Creation的關鍵幀和中間幀中,有很多是通過動作捕捉完成的——讓真人表演,再用AI把真人動作轉換成動漫風格。?
泓君: 它是把人演的視頻捕捉下來,還是說圖像捕捉下來,再把它導入到大模型里,做成動漫吉卜力風格?
天宇: 還是用剛才的例子吧。他們的思路是:既然AI直接生成畫面存在明顯缺陷,那就先錄制真人拿起咖啡并喝一口的視頻素材,再把素材導入AI模型,轉換成動漫風格。
泓君: 你覺得做得怎么樣?打多少分?
天宇: 10分制的話,給6-7分。從純動漫制作角度看,這個分數確實達到了及格線,但不算高,能明顯看出是AI制作的。它和傳統動畫相比,在表現力和美學設計上還有差距。
泓君: 舉一個例子,美學上的設計差在哪?
天宇: 比如說,傳統動畫制作中,無論是3D還是2D模型,都需要一幀一幀繪制動作,甚至要手動調整3D角色的姿勢;而動作捕捉直接讓真人表演,效率確實更高。但問題在于,動漫往往追求更夸張的表現力,這是一種美學追求。用動作捕捉生成動漫時,經常出現動作僵硬的問題——因為捕捉的是真人自然動作,不夠夸張,缺乏藝術性。
泓君:
我懂了,就是它不夠夸張、不夠有藝術性。
天宇: 對,它不夠夸張、不夠有趣。因為我們實際上一天到晚看的周圍世界就是很真實的世界。如果我真的喜歡這種風格,為什么不去看真人電影?
泓君: 就像真人笑的時候嘴巴弧度有限,但動漫里可以把眼睛畫得很大,嘴巴一直延伸到耳根,這種夸張感很有趣。
天宇: 比如哆啦A夢的經典表情,嘴笑得那么大,眼睛都瞇成一條線了。但用動作捕捉來實現這種效果會遇到技術難點。所以動捕也好也壞,本質上是一種美學層面的取舍。KAKA Creation的案例就體現了這一點。
泓君: 但我覺得這也是一種挺好的思路。
天宇: 比如背景通常也是手繪的,現在可以不用畫,直接拍張照片讓AI轉風格。尤其是靜態背景,不那么容易穿幫。
泓君: 那這是不是已經構成了傳統動畫產業鏈的一個環節——至少背景空鏡頭可以用AI做?
天宇: 很對。比如Netflix改編手冢治蟲的《PLUTO》時,就公開說過在背景制作中引入了AI生成技術,這確實是一個很實在的落地場景。不過它對實際效率的提升效果不好說,因為背景制作在動畫流程里相對獨立,畫人物動作比畫背景復雜得多。
泓君: 成本占比也不一定高。
天宇: 當然也有例外,比如新海城這種“背景狂人”對背景的精細度要求極高,AI目前達不到那種水準。但絕大多數動畫的背景制作確實能用AI輔助,這也是未來很多工作室可能探索的方向,只是它解決不了動畫制作的核心瓶頸。
折中派:ChatGPT當助理,AI分擔導演負荷
泓君: 剛才聊了兩類公司:一類傳統工作室對AI探索還一頭霧水,另一類完全用新邏輯做動漫。有沒有中間派?
天宇: 有個特別有意思的案例:一家傳統動畫工作室嘗試給導演做“ChatGPT助手”。他們把導演過往的故事板、修改建議、腳本等素材輸入ChatGPT,讓它模擬導演對新項目做評估,沒想到這真的有用。尤其是對于大項目導演,他們的工作量遠超個人處理能力:所有環節的審美把控、故事板、腳本、風格、色彩、動作時序都要過目,根本不可能逐幀修正。所以導演會組建信任的團隊,比如依賴原畫師和修正的專職人員,但團隊成員一旦掉鏈子,就容易“作畫崩壞”。而導演作為總籌劃,精力有限,需要處理的反饋太多,而這個AI助理就幫他們分擔了部分評估工作。
泓君: 這個想法非常棒。
天宇: 所以他們的思路是給導演做一個ChatGPT虛擬助理,當某個環節需要導演反饋時,先讓ChatGPT過一遍,比如ChatGPT指出問題,導演再判斷建議是否合理。他們試驗后,導演覺得效果不錯。其實動漫行業的導演和制片人對AI普遍持開放態度,因為他們確實常面臨“心有余而力不足”的情況。
泓君: AI能幫導演摳每一幀嗎?給的建議靠譜嗎?
天宇: AI未必能逐幀優化,但在關鍵節點上,哪怕只能幫40%-50%也很有用。比如導演每天工作8-12小時,真正能聚精會神修改的關鍵點可能不超過10個,如果AI能讓每天處理的關鍵點增加到15個,就是巨大的成功。
泓君: 那么從日本回來后,你對如何做動漫,以及是否使用AI工具的觀點有改變嗎?
天宇: 改變挺大的。大家對AI更歡迎,也更相信它的潛力,但AI作為工具嵌入生產流程時,仍存在細節上的“魔鬼”。
泓君: 聽起來,你反而對AI的態度更謹慎了?
天宇: 是的,但另一方面,我看到了很多以AI為核心的小團隊實驗,也覺得很興奮。人類對藝術創作的追求是永恒的,從上萬年前在洞窟中繪制壁畫就開始了。這次從日本回來后,我更思考:如果把AI作為創作工具,是否會產生新的可能?比如動漫中因制作難度大而很少出現的復雜華麗服飾——這類服飾的動態繪制需要大量人力,但如果用AI輔助,能否實現以前做不出的效果?
泓君: 我能想象一些場景,比如激烈的打斗場面還是需要復雜的服飾來增強視覺張力,或是塑造王者形象時,華麗的服飾是體現角色氣場的關鍵元素。
天宇: 是的,比如中世紀騎士的盔甲,結構極為復雜,如果完全依靠手繪呈現每一處精密細節,不僅耗時漫長,制作成本也會大幅增加,可能得不償失。類似地,身上佩戴大量掛飾或鈴鐺的角色在現代動畫中也較為少見。但如果有AI技術輔助,這些曾經因制作難度大而被舍棄的設計,會不會產生新的創意可能?我對這一領域非常期待。
與此相應的還有動漫的上色方式。如今多數上色流程仍類似大家小時候玩過的 Windows涂鴉工具中的油漆桶功能——畫個圈,點擊一下就能突然改變顏色。
泓君: 你不覺得這就是人類重復密集勞動的部分嗎?
天宇: 這是技術與創意產品之間的一種微妙關系吧。
泓君: 這就是我們最想交給AI去做的。
天宇:
對。技術的限制往往會催生特定的創意形態。以希臘雕塑為例,大理石材質本身構成創作限制,加上當時顏料技術極不成熟,多數顏料難以在歷史化學反應中保存,導致我們現在所見的希臘大理石雕塑多呈白色。而這種技術限制在后來的新古典主義時期反而被賦予審美價值,白色成為一種藝術特色。當人類對材料的控制技術取得突破,比如塑料化工技術發展成熟后,變形金剛玩具、哆啦 A 夢手辦等動漫周邊又誕生出全新的美學可能與生產體系。
我希望AI的價值不應局限于將現有創意流程自動化,它最美妙、最有趣的意義在于:能否借助這一工具,實現過去因技術瓶頸而無法企及的創作可能?如果以這樣的愿景看待AI與文化藝術的融合,未來人類與AI在創意領域或將迎來非常令人期待的、百家爭鳴、百花齊放的理想狀態。當然,在此過程中,每一位具體藝術家在創作中的核心作用仍需被重視。
三、動漫AI變革之困:有突破,但還“不夠好”
泓君: 現在視頻模型能生成的最長視頻是多少秒?
天宇: 目前很多模型的生成時長都在10、15、20秒的區間。如果繼續延長,確實會面臨兩方面問題:一是剛才提到的穩定性問題,二是產品與市場需求的匹配度問題。因為如果生成更長的視頻,觀眾可能不愿意觀看。想想我們平時看的影視作品,很難接受一個人持續做一件事長達一分鐘,尤其在沒有上下文故事的情況下。
泓君:
我上次在Google發布會上試用了它的Veo 3,當時輸入的prompt是生成一個復雜場景:一只小松鼠和一只貓在山坡上奔跑,穿過樹林,越過一座橋,最后到達山頂,橋的兩側有彩虹,還有風吹動。但生成的連續奔跑過程中的場景變化效果并不理想,畫面跳轉嚴重,邏輯銜接也很奇怪。
天宇: 感覺像在做夢一樣,對吧?
泓君: 這個描述太準確了。比如從橋到山頂的中間沒有任何過渡,是畫面切換過去的。
天宇: 然后畫面中的各種元素開始出現不可思議的形變。這確實與我們剛才談到的穩定性密切相關。如果真的要將它應用于創意產品,內容至少要具備合理性,除非刻意追求夢境般的效果。目前來看,20-30秒的生成時長算是比較長并且相對穩定的。如果要生成一分鐘以上的內容,一方面需要為模型提供更詳細的情節,另一方面,模型難以在邏輯層面準確復現腦海中的情節,這仍是待解決的難題。
泓君: 當前AI視頻生成的最大問題是什么?
天宇: 最大的問題就是“不夠好”這三個字,所有的關鍵都體現在“夠”這個標準上。我之前在網上看到一些很感人的個人應用案例:有人將已故家人的照片交給AI,生成10秒左右的動態影像。
泓君: 這種場景在聲音模型中特別多。作為播客從業者,我注意到現在各廠商的聲音模型競爭激烈,我就常看到評論說“我把媽媽生前的語音喂給模型,就能聽到她的聲音了”。
天宇: 對,很感人。這類應用的意義不在于生成多精美的視覺產品,而在于通過技術重現與親人的記憶,實現“有勝于無”的情感價值。但如果目標是讓AI在日本動漫、劇集、好萊塢電影等工業化場景中發揮關鍵作用,“夠不夠好”的標準就會衍生出諸多細節“魔鬼”。目前來看,穩定性和可控性是兩大核心挑戰。
泓君:
現在它們生成人物的時候,眼睛還會恐怖嗎?我們在這些視頻模型剛發布時用過它們,那時生成的人物狀態很恐怖,像迪士尼最開始的動漫一樣,眼神空洞。
天宇: 現在這個問題基本解決了,手的穩定性也有巨大突破,過去常出現多根或少根手指的情況,現在幾乎不會穿幫,這是技術上的重要進步。
四、AI動漫的未來博弈:潛力釋放與倫理紅線的拉鋸
泓君: 你如何看待AI配音?我發現語音模型的發展速度最快,效果最好,可控程度也比較高。比如在動漫領域,剛才我們討論的都是畫面環節,其實配音和配樂環節同樣值得關注。
天宇: 這涉及到一個讓我非常忐忑的話題。語音生成確實比視頻容易太多,從生成質量來看,目前多數尖端模型的表現已與真人無異。但語音生成也牽扯出一個復雜的問題:AI與人類創作者之間究竟是怎樣的經濟關系?
泓君: 讓你感到忐忑的是什么?
天宇: 這次在日本與一些導演、配音演員和聲優交流時發現,日本聲優有自己的協會,近幾個月來,多位知名聲優公開反對AI,拒絕將自己的聲音用于模型訓練,也不允許AI模仿他們的聲音。我很認同他們的觀點:對聲音的訓練和表演是聲優賴以生存的職業,一旦聲優被替代,他們的職業價值、創意表達和生計都會受到直接沖擊。
泓君: 日本還有聲優工會,但很多國家沒有,情況更為復雜。
天宇:
如果討論經濟層面,這確實是深刻且棘手的問題。對畫師而言,AI還能被視為工具,但同樣的邏輯放在聲優身上就顯得困難。因為AI生成的聲音與聲優的表演過于相似。
泓君: 在聲音領域,技術上已具備替代人的能力,我們只需要探索如何解決相關從業者的生計問題——這本質是經濟關系與工作倫理的議題,而不再是技術問題。我認為播客行業已出現類似問題。
天宇: 技術上完全可行了,比如AI能模仿泓君的聲音,你只需寫稿無需錄音,就可以轉換成播客。但另一個觀點也值得認可:聲優不僅是提供聲音,更是“配音演員”在演繹角色,他們本身也是流量焦點,對作品創意和商業的貢獻遠超物理聲音的范疇,理應得到正視與尊重。
泓君: 但從技術角度說,語音生成技術已經比較成熟了,但音樂還不行。
天宇: 我覺得音樂也可以了。
泓君: AI生成音樂的表現力,與人類創作相比怎么樣?
天宇: 這個問題很有意思,甚至可以上升到哲學層面。學習音樂史時會發現,西方音樂史中主流風格的變化并不頻繁,這反映出人類認為“好聽”的音樂范式其實有限,而難聽的音樂則層出不窮。現有的大調、小調及節奏體系已被樂理總結得相當完備,AI理解“好聽”的標準并不困難,因此生成的音樂表現力如何,部分取決于聽眾的主觀感受。?
泓君:
以Suno這樣的音樂生成平臺為例,我們早期覺得它生成的作品也太“口水歌”了。與相關開發者交流后了解到,這類平臺不敢直接復制頂級流行歌曲,因為如果訓練出風格高度相似的作品,會引發嚴重的版權糾紛。但理論上,只要輸入高質量的訓練數據,AI完全可以模仿特定風格。建議嘗試用AI生成古典樂,因為許多古典樂已經過了版權期限,數據更易獲取,目前生成效果相當不錯。
天宇: 這個觀點其實非常正確。這里涉及的商業倫理問題不容忽視:如果技術上能復制周杰倫的聲音,可以拿他的聲音去寫歌嗎?
泓君: 細想之下很可怕,這對新興藝人尤其不利。所有藝人都需通過持續重復地創作來打磨作品,如果都用AI替代,那以后可能就沒有好的新歌,或者說沒有人類創作出來的好的新歌了。
天宇: 這就是商業結構和商業倫理的問題,也印證了中間幀生成等技術背后的深層矛盾:表面上,中間幀生成模型能保留人類創作,而關鍵幀仍需手繪,看似兩全其美,但從長遠看,會導致行業新人失去成長的階梯。小白需要通過大量重復練習進階才可能成為大師,如果技術取代了這些基礎工作,就像梯子抽掉了底部的橫檔,新一代動畫師將失去向上攀爬的落腳點,這才是最令人擔憂的后果。如果這種現象持續發展,動漫行業或許會在幾十年后面臨倒退風險,當前已顯現的大規模人才短缺問題也可能變本加厲。
泓君: 想一想也挺可怕的。
天宇: 我們所處的時代也挺特殊的,技術與創意正以驚人的速度相互奔赴。對于視頻生成、關鍵幀生成或聲音生成領域的技術創業者而言,當下時代對他們提出了更高的美學要求。例如生成的音樂如何界定“好聽”?評判標準是什么?這可能成為技術指標之外,模型訓練與迭代優化的重要依據。
泓君: 你的品位可能決定了模型的品位。我最近看到一些文章挺有意思,DeepSeek推出后,它回答問題的方式備受認可,后來在一篇采訪中發現,梁文鋒對文字美感有明確追求;Anthropic代碼質量出眾,可能與創始人的關注有關;再看ChatGPT的文本風格,明顯滲透著Sam Altman對表達、營銷及內容包裝的重視。這些都與創始人的品位緊密相關。
天宇: 甚至可以說,在大模型和視頻生成模型領域,審美品位能直接轉化為商業價值與產品優勢。用文字生成20秒的小視頻、特效或中間幀時,中間幀是否可用?5%的錯誤出現在哪?這些瑕疵能否被接受?如果一個技術團隊能理解并優化這些細節,就能在產品競爭中形成獨特優勢。這或許是一個需要混合型人才的時代。
泓君: 是的,每個行業都在追求混合型人才。
本文來自微信公眾號: 硅谷101 ,采訪:泓君,圖文:思揚、梓沁