極佳科技朱政:世界模型會(huì)進(jìn)化成VLA的下一代 | 具身先鋒十人談
數(shù)據(jù)一直是具身智能圈子里最頭疼的問題之一。
過去一兩年里,真機(jī)數(shù)據(jù)的信仰者和仿真數(shù)據(jù)的擁躉們吵得不可開交。真機(jī)實(shí)采價(jià)格昂貴、效率低下,成本動(dòng)輒上億元;仿真數(shù)據(jù)面臨巨大的 Sim2Real 鴻溝。兩者似乎都無法帶來涌現(xiàn),讓技術(shù)進(jìn)展陷入卡殼。
有人開始探索世界模型。這個(gè)在自動(dòng)駕駛領(lǐng)域先火起來的概念真能救得了具身智能嗎?
朱政是其中之一,也是當(dāng)下從自動(dòng)駕駛轉(zhuǎn)向具身智能的洶涌大軍中的一員。
他是CV(計(jì)算機(jī)視覺)出身,博士畢業(yè)于中科院自動(dòng)化研究所,隨后在清華大學(xué)自動(dòng)化系從事博士后研究。過去十余年間, CV 界科研人員經(jīng)歷了好幾個(gè)應(yīng)用風(fēng)口,先是人臉識(shí)別,再之后是自動(dòng)駕駛。
這也是朱政早期的研究。他在頂會(huì)頂刊上發(fā)表超過70篇論文,引用超過16000次,曾獲得過NIST-FRVT、 COCO、 VOT 等頂級(jí)視覺競賽冠軍,開發(fā)的 WebFace260M 是全球最大的人臉識(shí)別數(shù)據(jù)集,被500余家科研機(jī)構(gòu)申請(qǐng)使用; BEVDet 是 BEV 感知領(lǐng)域的代表性算法,被多家車企和自動(dòng)駕駛公司3D感知方案采用,在 KITTI、nuScenes等榜單排名第一。
現(xiàn)在,繼自動(dòng)駕駛和人臉識(shí)別之后,CV 界又來到了具身智能的門前。
“在前兩個(gè)領(lǐng)域,視覺感知始終是重心。但到了具身智能場景,需要頻繁地同物理世界交互,因此,重心轉(zhuǎn)移到了解決 action 的能力,這是進(jìn)化的必然。”朱政告訴雷峰網(wǎng) AI科技評(píng)論,人臉識(shí)別是一個(gè)單點(diǎn)問題,自動(dòng)駕駛是一個(gè)系統(tǒng)問題,而具身智能觸及了更本質(zhì)的問題——改變物理世界。這也是 CV 研究者的終極考驗(yàn)。
如何完成這個(gè)轉(zhuǎn)型?朱政找到的切點(diǎn)是世界模型。
作為極佳科技聯(lián)合創(chuàng)始人、首席科學(xué)家,朱政此前已帶領(lǐng)團(tuán)隊(duì)為多家車企提供基于世界模型的仿真環(huán)境,用于測(cè)試和優(yōu)化自動(dòng)駕駛算法。團(tuán)隊(duì)的學(xué)術(shù)成果 DriveDreamer 也入選了 ECCV 2024 最具影響力論文榜單。
去年開始,他們順勢(shì)轉(zhuǎn)戰(zhàn),開始研究具身智能的世界模型。不久前,他們發(fā)布了主要基于世界模型數(shù)據(jù)訓(xùn)練的 VLA —— GigaBrain ,據(jù)稱應(yīng)對(duì) Zero-Shot 的任務(wù)成功率提升了 50 個(gè)百分點(diǎn)。世界模型平臺(tái) GigaWorld 也會(huì)在本月發(fā)布。趁著這波具身智能熱潮,極佳科技在半年內(nèi)連續(xù)完成了三輪融資。
今年,世界模型迅速躥紅,在整個(gè)圈子中被炒得沸沸揚(yáng)揚(yáng),但圍繞它的許多概念業(yè)內(nèi)還未厘清,比如:世界模型是什么?它和VLA關(guān)系是怎樣的?
朱政向雷峰網(wǎng) (公眾號(hào):雷峰網(wǎng)) AI科技評(píng)論表示,短期內(nèi),世界模型是“馴化” VLA 的容器,能解決后者訓(xùn)練數(shù)據(jù)不足的致命痛點(diǎn);但長期來看,二者或許會(huì)融為一體,“世界模型是物理世界通用智能最重要的事情,是唯一可能創(chuàng)造出與 LLM 時(shí)代互聯(lián)網(wǎng)數(shù)據(jù)比肩的數(shù)據(jù)量的路徑。”
世界模型會(huì)進(jìn)化成VLA的下一代
AI科技評(píng)論:當(dāng)下整個(gè)行業(yè)對(duì)世界模型的定義還遠(yuǎn)遠(yuǎn)沒有收斂,您對(duì)世界模型的定義是什么?或者說極佳想做的是哪種世界模型?
朱政: 我們關(guān)注的是世界模型的本質(zhì)——對(duì)于未來的預(yù)測(cè)能力。
不同領(lǐng)域?qū)τ谑澜缒P偷亩x的確不太一樣。 CV 界主要關(guān)注視頻生成, RL界則更多關(guān)注 agent ,他們的重心是為 agent 提供仿真訓(xùn)練環(huán)境。但無論出于哪種目的,都是因?yàn)槭澜缒P陀袑?duì)未來的預(yù)測(cè)能力。
所謂預(yù)測(cè)能力是指,在給定一個(gè) action 序列的情況下,世界模型可以給出環(huán)境的反饋。當(dāng)然 action 的定義就比較廣泛了,可以是文本,比如文生視頻;也可以是各種結(jié)構(gòu)化的條件,比如在自動(dòng)駕駛領(lǐng)域,它可以是 3D 框或者車道線;在具身智能領(lǐng)域,我們更關(guān)注的是動(dòng)作序列。
AI科技評(píng)論:但預(yù)測(cè)的終極目標(biāo)也是為了服務(wù) agent ?
朱政: 我們把世界模型分成三個(gè)階段。
現(xiàn)階段主要是用世界模型生成訓(xùn)練數(shù)據(jù);下一步會(huì)為 agent 提供閉環(huán)仿真環(huán)境;到最后一階段,世界模型會(huì)進(jìn)化成VLA的下一代。
AI科技評(píng)論:你覺得這三個(gè)階段最終要走完并且成熟需要多長時(shí)間?
朱政: 現(xiàn)在比較成熟的是用世界模型生成數(shù)據(jù),這方面大家已經(jīng)有一些共識(shí)了,據(jù)我所知,不僅我們,很多本體公司、具身大腦公司、大廠可能都在探索。到明年如果我們能首先證明這條路徑的可行性,大家可能都會(huì)跟進(jìn)。
下面兩個(gè)階段會(huì)對(duì)世界模型的能力會(huì)提出更高要求,比如在可控性、物理規(guī)律擬合方面做得更好。整個(gè)過程大概需要花費(fèi) 3 到 5 年時(shí)間。
AI科技評(píng)論:所以具身智能的成熟和普及也會(huì)在這個(gè)節(jié)點(diǎn)之后出現(xiàn)?
朱政: 是的。
AI科技評(píng)論:世界模型應(yīng)該是一個(gè)全局模型還是可定制的垂直模型?
朱政: 世界模型表現(xiàn)出來是一個(gè)視頻生成模型,它需要一個(gè)基座模型,這個(gè)基座模型可能是個(gè)通用場景的,也就是所謂的全局性模型。
但是之后我們會(huì)做后訓(xùn)練,結(jié)合自動(dòng)駕駛或具身智能領(lǐng)域的數(shù)據(jù)讓模型更符合具體領(lǐng)域的物理約束和規(guī)律。總結(jié)來說,前期我們會(huì)做一個(gè)基模,后期會(huì)根據(jù)具體任務(wù)要求去做定制化的垂直模型。
AI科技評(píng)論:這種輕量化的垂直模型也有助于實(shí)現(xiàn)低延遲和高保真?
朱政: 為了實(shí)現(xiàn)高保真世界模型在低延遲場景下的實(shí)時(shí)推理,我們目前方案大概有三塊。一塊是步數(shù)蒸餾,另外一塊是參數(shù)蒸餾,最后是量化部署。
首先通過單步蒸餾將擴(kuò)散模型的多步去噪壓縮至一步,這樣可以顯著縮短它的推理時(shí)長。其次,我們會(huì)利用參數(shù)蒸餾設(shè)計(jì)一些端側(cè)運(yùn)行的小模型,這樣就不用全在云端進(jìn)行,可以在保證生成質(zhì)量的同時(shí)減低計(jì)算的開銷。最后,我們?cè)趥?cè)端部署時(shí)會(huì)結(jié)合混合精度量化、硬件優(yōu)化做進(jìn)一步的加速。
現(xiàn)在從量化指標(biāo)來看,跟我們比較類似的模型是英偉達(dá)的 Cosmos ,當(dāng)然 Cosmos 確實(shí)比較大。我們的模型和 Cosmos 相比基本可以實(shí)現(xiàn) 10 倍的加速。
自動(dòng)駕駛強(qiáng)調(diào)長時(shí)序預(yù)測(cè),具身智能看重精細(xì)操作
AI科技評(píng)論:世界模型這個(gè)概念也是從自動(dòng)駕駛領(lǐng)域火起來的,極佳科技也為很多車企提供服務(wù),自動(dòng)駕駛領(lǐng)域的世界模型進(jìn)展到什么階段了?
朱政: 自動(dòng)駕駛的世界模型在訓(xùn)練數(shù)據(jù)生成、閉環(huán)仿真方面已經(jīng)比較成熟了,業(yè)內(nèi)有很多研究,現(xiàn)在正處在和 VLA 結(jié)合并發(fā)展成VLA下一代 的過程中。
我們?cè)?2023 年 9 月做了 DriveDreamer,這在當(dāng)時(shí)應(yīng)該是第一個(gè)真實(shí)駕駛場景的世界模型原型。基于這個(gè)工作,后來我們又做了一些改進(jìn),包括 DriveDreamer-2、DriveDreamer4D、ReconDreamer、ReconDreamer++,提升了數(shù)據(jù)生成的質(zhì)量和可控性,并且引入了生成+重建的范式。
上個(gè)月我們又發(fā)布了一個(gè)新工作,叫做 ReconDreamer-RL,是將重建+生成的世界模型作為強(qiáng)化學(xué)習(xí)訓(xùn)練的閉環(huán)仿真器。
AI科技評(píng)論:自動(dòng)駕駛也缺數(shù)據(jù)嗎?車在路上跑不是天然會(huì)產(chǎn)生大量數(shù)據(jù)嗎?
朱政: 我們跟中國很多頭部車企接觸過,他們會(huì)用大量車隊(duì)花費(fèi)數(shù)年時(shí)間采集數(shù)據(jù),基本都積累了幾億公里的實(shí)采數(shù)據(jù)。但這些數(shù)據(jù)中 99% 都是常見情況,比如晴天在路面直行的數(shù)據(jù),缺少長尾問題或者 corner case 的數(shù)據(jù),比如雨天、霧天、雪天,大卡車、警車、平板掛車,行人鬼探頭、車輛突然超車等等。
世界模型的好處是我們可以基于實(shí)采數(shù)據(jù)做數(shù)據(jù)泛化,讓數(shù)據(jù)分布更加均勻。
AI科技評(píng)論:自動(dòng)駕駛世界模型目前最大的問題是什么?
朱政: 關(guān)鍵問題在于,世界模型的構(gòu)建比較依賴視頻生成技術(shù),視頻生成會(huì)存在幻覺。我們目前的解決方案是引入重建模型來輔助。也就是3DGS的方式,先進(jìn)行場景重建,將重建結(jié)果喂給視頻生成模型,視頻生成模型會(huì)做修復(fù),修復(fù)之后的結(jié)果再反饋給重建模型,形成循環(huán)。
AI科技評(píng)論:但重建的成本也更高?
朱政: 是的。現(xiàn)在重建模型大部分是基于逐場景優(yōu)化的,所以每做一個(gè)場景都需要訓(xùn)練一個(gè)重建模型。一家車企一般需要把全國各地發(fā)生過人類駕駛員接管、車禍的地方都重建出來,成本非常高。
我們也在跟進(jìn)一些更前沿的方法,比如用 feed forward (前饋網(wǎng)絡(luò))的方式直接生成具備物理屬性的 3DGS 資產(chǎn),它是一個(gè)統(tǒng)一的模型,可以用來重建不同的場景,更加自動(dòng)化,可以加速 3D 世界模型的構(gòu)建流程。
當(dāng)然最終趨勢(shì)應(yīng)該還是用純視頻生成模型來構(gòu)建世界模型,但還需要一點(diǎn)時(shí)間。
AI科技評(píng)論:極佳后來為什么從自動(dòng)駕駛切入了具身智能?
朱政: 其實(shí)從成立之初我們就很關(guān)注具身智能,但我們認(rèn)為自動(dòng)駕駛是世界模型的一個(gè)比較好的切入點(diǎn)。在自動(dòng)駕駛領(lǐng)域積累了一段時(shí)間之后,從去年下半年開始,我們就在重點(diǎn)投入做具身智能世界模型了。
AI科技評(píng)論:自動(dòng)駕駛和具身智能領(lǐng)域的世界模型有什么差別?
朱政: 自動(dòng)駕駛的世界模型核心在于對(duì)交通參與者的動(dòng)態(tài)變化做長時(shí)序預(yù)測(cè),尤其是高速移動(dòng)目標(biāo),比如車輛變道、行人鬼探頭等等,這些場景一般會(huì)持續(xù)幾十秒,而具身智能完成一個(gè)抓取動(dòng)作只需三四秒,即便像疊衣服等復(fù)雜任務(wù)也不過 10 秒左右。因此,自動(dòng)駕駛的世界模型必須具備強(qiáng)時(shí)序建模能力。
相較之下,具身智能的場景會(huì)更依賴精細(xì)操作,比如抓取、推拉、裝配等,同環(huán)境交互頻繁,因此對(duì)世界模型的幾何精度、物理合理性等提出了更高要求。
世界模型的本質(zhì)不能被局限在 4D 里
AI科技評(píng)論:具身智能的世界模型全部是 3D 的嗎?
朱政: 我們把目前的世界模型分為兩種,一種是 3D World Model(3D世界模型),利用 3DGS 技術(shù)來輔助進(jìn)行場景重建;另一種是 Video World Model(視頻世界模型),它是2D的。
AI科技評(píng)論:未來具身智能的維度有可能會(huì)超越當(dāng)前的維度限制嗎?
朱政: 從現(xiàn)在的技術(shù)進(jìn)展來看,把世界模型建模成 3D,或者再加一維時(shí)間建構(gòu)成 4D 是最自然的,能夠同時(shí)反映幾何結(jié)構(gòu)和動(dòng)態(tài)變化。這種結(jié)構(gòu)有明確的物理意義,也具備工程可實(shí)驗(yàn)性。
但是世界模型的本質(zhì)肯定不能被局限在 4D 里。世界模型的終極目標(biāo)是重建世界和理解世界。因此未來可能需要引入超越 4D 的變量,比如力反饋信號(hào)、觸覺信號(hào)等等。這樣就可以捕捉那些沒有辦法通過純幾何+時(shí)間描述的規(guī)律。
AI科技評(píng)論:剛剛提到,具身智能領(lǐng)域的世界模型對(duì)物理合理性提出了更高要求,怎樣讓世界模型學(xué)習(xí)物理規(guī)律呢?
朱政: 同樣是兩個(gè)辦法。
對(duì)于視頻世界模型,需要采用端到端的訓(xùn)練方式,把表觀、幾何、物理規(guī)則隱式編碼在擴(kuò)散模型里,通過大規(guī)模 2D 數(shù)據(jù)進(jìn)行隱式學(xué)習(xí),然后直接從視頻里生成未來幀。相當(dāng)于人類直接通過觀察而非交互學(xué)習(xí)物理規(guī)律。
這種方法上限比較高,擅長紋理、光照等的表觀建模,但是無法滿足一些對(duì)空間一致性要求較高的后續(xù)任務(wù),比如 SFT 階段所需要的高保真交互模擬。
對(duì)于 3D 世界模型,需要給 3DGS 綁定一些顯式的物理屬性,比如 Mesh、物質(zhì)點(diǎn)或者粒子系統(tǒng)。相當(dāng)于人類通過各種交互去學(xué)習(xí)物理規(guī)律。這種方法對(duì)物理規(guī)律的擬合更高,還可以支持一些碰撞檢測(cè)、力傳播或動(dòng)力學(xué)建模等。但由于這些綁定仍然依賴逐場景優(yōu)化,還不能完全自動(dòng)化。
AI科技評(píng)論:世界模型要如何維護(hù)一個(gè)持久化的環(huán)境記憶?特別是 2D 世界模型的空間一致性較差。
朱政: 基本上是兩種方式。
第一種是顯式的維護(hù),即通過結(jié)構(gòu)化的方式存儲(chǔ)環(huán)境狀態(tài),用來查詢更新。
整體流程是,生成模型會(huì)輸出新視角的內(nèi)容,作為擴(kuò)展場景輸入,重建模型會(huì)把這些結(jié)果整合為幾何一致的 3D 場景表示,形成一個(gè)環(huán)境記憶,重建結(jié)果再將結(jié)果作為先驗(yàn)返回給生成模型,引導(dǎo)后續(xù)生成過程中遵循物理和幾何約束,之后再提升跨視角或者跨時(shí)間的一致性。
第二種是隱式的編碼記憶, DeepMind 的 Genie 系列就是一個(gè)典型代表。簡單來說就是通過編碼歷史幀的上下文特征,驅(qū)動(dòng)自回歸式視頻生成,這樣就可以在不需要顯式建模的前提下實(shí)現(xiàn)短期動(dòng)態(tài)預(yù)測(cè)。
但是它的缺點(diǎn)也比較明顯,就是受限于目前的計(jì)算資源和序列建模能力,這類方法通常只能在有限時(shí)間窗口內(nèi)維持記憶一致性,比如說幾秒鐘,難以支持長時(shí)間、大規(guī)模的環(huán)境記憶管理。
未來,我們會(huì)探索將RAG 技術(shù)引入世界模型架構(gòu),構(gòu)建輕量級(jí)的外部特征記憶庫。這種機(jī)制可以在不顯著增加計(jì)算開銷的前提下,實(shí)現(xiàn)對(duì)關(guān)鍵環(huán)境狀態(tài)的長期存儲(chǔ)與高效檢索,從而突破局部記憶窗口的限制。
AI科技評(píng)論:上述各種方法在面對(duì)不同場景時(shí)要如何選擇?
朱政: 3D世界模型擅長于做大空間的建模,在移動(dòng)導(dǎo)航場景比較合適;視頻世界模型在操作場景比較合適。
AI科技評(píng)論:所以現(xiàn)在是兩種方式融合來做。
朱政: 是的,我們會(huì)融合兩種世界模型的建模方式,完成移動(dòng)導(dǎo)航+操作的任務(wù)。
世界模型會(huì)豐富數(shù)據(jù)金字塔的層次
AI科技評(píng)論:剛剛提到生成數(shù)據(jù)是世界模型的意義之一。您如何看待真機(jī)數(shù)據(jù)?現(xiàn)在很多企業(yè)都在做數(shù)采,這個(gè)路徑是對(duì)的嗎,能帶來涌現(xiàn)嗎?
朱政: 真機(jī)數(shù)據(jù)肯定是最真實(shí)的,但是采集周期非常長、成本非常高。
舉個(gè)例子,π0模型是借助真機(jī)采了 1 萬個(gè)小時(shí)的數(shù)據(jù)。再考慮到本體成本、數(shù)采員成本、存儲(chǔ)成本,所有花銷加起來可能將近 1 億元。即便是如此高成本訓(xùn)出來的π0在行為、視角、位置等的泛化方面仍然有局限性。
我認(rèn)為具身智能理解世界不一定要完全依賴真機(jī)數(shù)據(jù)。舉個(gè)例子,我們?nèi)祟惖男『⒖隙ú皇峭ㄟ^反復(fù)試錯(cuò),比如一定要把杯子摔碎,才能學(xué)會(huì)“杯子摔了會(huì)碎”這個(gè)常識(shí),而是先對(duì)物理世界有一個(gè)基本認(rèn)知,就可以推理預(yù)測(cè)結(jié)果。
AI科技評(píng)論:與真機(jī)數(shù)據(jù)相對(duì)的是仿真數(shù)據(jù),世界模型和仿真器有什么區(qū)別?
朱政: 其實(shí)我們可以把世界模型看作是一個(gè)對(duì)物理規(guī)律更加擬合的新一代仿真器,也就是英偉達(dá)經(jīng)常提到的 Sim 2.0。
傳統(tǒng)仿真數(shù)據(jù)最大的問題,也就是我們老生常談的 Sim to Real 的 gap 還沒有得到很好的解決。Sim 1.0 的仿真數(shù)據(jù)可以給世界模型提供一些條件,而世界模型可以進(jìn)一步通過生成能力來減少其Sim to Real 的gap,從而可以比較高效率、低成本地生成大量物理比較真實(shí)的數(shù)據(jù)。
AI科技評(píng)論:世界模型的出現(xiàn)會(huì)動(dòng)搖數(shù)據(jù)金字塔嗎?
朱政: 我覺得世界模型的出現(xiàn)不會(huì)改變金字塔的結(jié)構(gòu),但可能會(huì)增加金字塔,尤其是金字塔中間這一層的豐富程度。
目前大家都在探索各種數(shù)據(jù)共生的實(shí)踐。世界模型仍然需要真實(shí)數(shù)據(jù)才能進(jìn)行泛化,我們也會(huì)采用少量真機(jī)數(shù)據(jù)用于后訓(xùn)練,防止模型對(duì)生成數(shù)據(jù)過擬合。
AI科技評(píng)論:那你覺得,世界模型成熟后,合理的數(shù)據(jù)配比可能是怎樣的?
朱政: 我們已經(jīng)做了很多實(shí)驗(yàn),現(xiàn)在我們?cè)谟?xùn)練 VLA 過程中,大概只有 10% 是真機(jī)數(shù)據(jù),其余 90% 都是世界模型泛化出來的數(shù)據(jù)。我們還在做一些更激進(jìn)的實(shí)驗(yàn),準(zhǔn)備在明年把這個(gè)比例提到 1:100 。
AI科技評(píng)論:借助極佳科技的世界模型,具身智能實(shí)際訓(xùn)練表現(xiàn)怎么樣?
朱政: 拿柔體場景為例,很多傳統(tǒng)仿真器基本沒有辦法很好地處理柔體。我們發(fā)現(xiàn)模型在使用世界模型泛化的柔體數(shù)據(jù)訓(xùn)練后,比之前任務(wù)成功率提升了 50% 左右。
在泛化性方面,我們測(cè)試了幾十種任務(wù),發(fā)現(xiàn)模型 Zero-Shot 的成功率從30%提到了 80% 。明年我們會(huì)發(fā)布 GigaBrain 2.0,希望把成功率提到 90% 左右。
更重要的是數(shù)據(jù)成本降低了一個(gè)量級(jí)。我們估測(cè),訓(xùn)練一個(gè)比較好的 VLA ,如果全靠真機(jī)實(shí)采數(shù)據(jù),大概需要幾千萬元。但是采用世界模型只需要 GPU 推理,大概只用花費(fèi)幾百萬元的成本。
AI科技評(píng)論:世界模型是為了解決具身智能領(lǐng)域數(shù)據(jù)匱乏的問題,但構(gòu)建世界模型所需要的數(shù)據(jù)同樣匱乏,這一問題怎么解決?
朱政: 目前訓(xùn)練世界模型主要是用互聯(lián)網(wǎng)上真實(shí)的物理場景視頻、多視角 3D 數(shù)據(jù)。依賴這些數(shù)據(jù),我們已經(jīng)可以初步訓(xùn)練出一個(gè)基本能夠理解物理規(guī)律的世界模型,為 VLA 模型提供多樣性的結(jié)構(gòu)合理的數(shù)據(jù)。
接下來 VLA 需要在真實(shí)環(huán)境中部署并執(zhí)行任務(wù),在這個(gè)過程中可以不斷采集真實(shí)的交互數(shù)據(jù),包括視覺、力覺、觸覺多種模態(tài),反過來又能改進(jìn)世界模型。
所以世界模型和 VLA 之間是一個(gè)相互供給的數(shù)據(jù)循環(huán)狀態(tài)。
AI科技評(píng)論:依賴世界模型重建物理規(guī)則,解決 VLA 泛化能力不足的問題,會(huì)不會(huì)是為了解決一個(gè)難題而去開設(shè)一個(gè)更難的題?
朱政: 短期看可能如此,但長期看,這可能是通往真正泛化智能的必經(jīng)之路。
目前 VLA 泛化的瓶頸可能在于缺乏對(duì)于物理世界的理解。世界模型可以比較好地解決這一點(diǎn),為模型提供一個(gè)模擬器,讓 VLA 能預(yù)測(cè)動(dòng)作后果,實(shí)現(xiàn)跨場景的推理。所以不算是開啟了一個(gè)更難的道路,而是在解決一個(gè)更本質(zhì)的問題。
AI科技評(píng)論:世界模型是用來“馴化”VLA的容器還是會(huì)取代VLA?
朱政: 現(xiàn)階段它是一個(gè)“容器”,為 VLA 提供數(shù)據(jù)和訓(xùn)練場。
但從最終視角來看,世界模型最本質(zhì)的是預(yù)測(cè)能力,預(yù)測(cè)能力本身就是一種 VLA 的表現(xiàn)形式。因此它們未來可能會(huì)融為一體,但這需要一個(gè)過程。可能過幾年大家不會(huì)再討論世界模型和 VLA 的區(qū)別,因?yàn)樗鼈冎复木褪峭患隆?/p>
世界模型平臺(tái)+賣解決方案“兩條腿”走路
AI 科技評(píng)論:去年李飛飛的 World Labs 成立,這和你們?cè)谧龅氖乱粯訂幔?/strong>
朱政: 根據(jù)一些公開信息,李飛飛老師的 World Labs主要關(guān)注文生和圖生 3D 世界,主要聚焦的是內(nèi)容或娛樂方向,強(qiáng)調(diào)藝術(shù)的表現(xiàn)力和創(chuàng)造性,跟我們做的事情在技術(shù)上是相通的,但落點(diǎn)會(huì)不太一樣。
AI 科技評(píng)論:今年很多初創(chuàng)公司、大廠、科研院所都在做具身大腦,你怎么看?在這樣的背景下,具身公司還有沒有必要做大腦,會(huì)不會(huì)被有被資源更多的大廠“平權(quán)”的風(fēng)險(xiǎn)?自研本體搭載開源大腦會(huì)不會(huì)是更快的落地路徑?
朱政: 本體公司的優(yōu)勢(shì)在于,標(biāo)準(zhǔn)化硬件可以采集數(shù)據(jù), VLA 在這些數(shù)據(jù)上訓(xùn)練收斂速度會(huì)更快;大廠優(yōu)勢(shì)可能在于應(yīng)用場景更明確,能夠跟主營業(yè)務(wù)結(jié)合起來;科研院所的技術(shù)積累周期更長。具身大腦初創(chuàng)公司優(yōu)勢(shì)更綜合。
我覺得目前具身大腦還沒到即插即用的程度,存在任務(wù)泛化性、跨本體、側(cè)端部署等各種問題,解決不了行業(yè)訴求。現(xiàn)階段本體和大腦開發(fā)還是高度耦合的。
AI 科技評(píng)論:聽到一些小道消息說極佳科技也在做本體。
朱政: 是的,我們做本體的出發(fā)點(diǎn)比較明確——因?yàn)樾枰谝粋€(gè)標(biāo)準(zhǔn)化的本體上快速迭代世界模型到 VLA 的閉環(huán)鏈路。這樣也方便以后把我們的模型推廣到客戶的其他機(jī)器人本體上。
AI 科技評(píng)論:之后會(huì)考慮賣本體嗎?
朱政: 其實(shí)現(xiàn)在已經(jīng)接觸了一些終端客戶,主要是政府實(shí)訓(xùn)場、高校科研場景、家庭商業(yè)服務(wù)場景等等。我們會(huì)為他們提供軟硬件配套的原型方案,搭載我們的世界模型和 VLA 的方案。預(yù)計(jì)過幾年會(huì)向 To C 轉(zhuǎn)變。
AI 科技評(píng)論:所以既要像自動(dòng)駕駛時(shí)代一樣為行業(yè)提供世界模型平臺(tái),也要直接面向終端落地,這樣“兩條腿走路”對(duì)初創(chuàng)公司會(huì)不會(huì)牽扯太多精力?
朱政: 我們會(huì)分階段來實(shí)施這個(gè)戰(zhàn)略。
DeepSeek 給了大家一個(gè)比較好的樣本。我們希望能做具身智能的DeepSeek,當(dāng)然這個(gè)難度會(huì)比語言模型復(fù)雜很多,尤其在數(shù)據(jù)方面。但這也是我們最大的優(yōu)勢(shì),我們的短期目標(biāo)是把具身智能行業(yè)的數(shù)據(jù)成本打下來。
我們認(rèn)為世界模型是物理世界通用智能最重要的事情,世界模型產(chǎn)生的訓(xùn)練數(shù)據(jù)在體量和通用性方面,是唯一一個(gè)有希望達(dá)到大語言模型互聯(lián)網(wǎng)數(shù)據(jù)級(jí)別的路徑。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見 轉(zhuǎn)載須知 。