小米陳龍團隊首作:統(tǒng)一具身與自動駕駛的開源模型
在發(fā)布多款自研大模型之后,小米又交出了一份重要成果。
小米具身智能團隊正式發(fā)布了首篇論文,提出統(tǒng)一具身智能與自動駕駛的新模型 MiMo-Embodied。模型在 17 項具身任務(wù)和 12 項自動駕駛?cè)蝿?wù)中取得領(lǐng)先表現(xiàn),更重要的是,它從工程層面展示了這兩個長期分離的技術(shù)領(lǐng)域可以在同一框架下實現(xiàn)統(tǒng)一建模。
小米智駕團隊的郝孝帥是論文的核心第一作者,小米智駕團隊首席科學家陳龍博士擔任 project leader。
該模型是陳龍團隊的首個重大成果。由于以羅福莉團隊之前發(fā)布的MiMo-VL作為基座進行了continue-train,這也是文章作者欄中有“羅福莉”的原因。此前有媒體曾誤解為羅福莉首個小米成果,也引發(fā)了當事人發(fā)朋友圈澄清事實。
這篇論文關(guān)注的核心問題是:同一套視覺語言模型,能否在面對“抓取物體”與“駕駛車輛”這兩類差異極大的任務(wù)時,仍保持一致的理解方式和決策邏輯。
這一問題長期困擾多場景智能體的研究,而 MiMo-Embodied 正是小米對這一方向給出的首次系統(tǒng)回應(yīng)。
多任務(wù)統(tǒng)領(lǐng)式領(lǐng)先
這篇論文中主要圍繞兩個主要方向進行了系統(tǒng)實驗:具身智能與自動駕駛。
整體結(jié)果非常突出,可以用一句話概括:MiMo-Embodied 在 17 個具身智能任務(wù)和 12 個自動駕駛?cè)蝿?wù)中,都取得了全面領(lǐng)先的表現(xiàn),在多數(shù)關(guān)鍵基準上都處于第一。
在具身智能方面,實驗評測涵蓋可供性推斷、任務(wù)規(guī)劃和空間理解三個能力。
其實可供性推斷的測試主要評估模型是否能夠正確理解物體的使用方式。例如識別物體上可操作的部位、精確指出指定位置、判斷場景中哪些區(qū)域可以放置物品,或在多個相似物體中找到與描述相符的那一個。
在這類任務(wù)中,MiMo-Embodied 在五個主流基準上均表現(xiàn)突出。在 RoboRefIt 中,它可以從一組高度相似的物體中準確定位目標;在 Part-Afford 中,它能夠識別物體的可操作部件;在 VABench-Point 中,它能根據(jù)文字描述精確給出坐標,整體表現(xiàn)達到當前最優(yōu)水平。
任務(wù)規(guī)劃方面的測試關(guān)注模型根據(jù)情境推斷下一步行動的能力。例如根據(jù)視頻判斷任務(wù)的后續(xù)步驟、依據(jù)目標從多個候選動作中選擇正確的操作,或根據(jù)已有步驟推斷接下來可能發(fā)生的事件。MiMo-Embodied 在 RoboVQA、Cosmos-Reason1 和 EgoPlan2 等基準中均處于領(lǐng)先位置,說明其在行動推理與任務(wù)結(jié)構(gòu)理解方面具有較強的綜合能力。
空間理解相關(guān)任務(wù)要求模型對場景中的空間關(guān)系有準確把握,包括判斷物體之間的相對方位、在圖像中定位對象、輸出精確坐標,或回答涉及空間推理的文字問題。雷峰網(wǎng) (公眾號:雷峰網(wǎng))
在九個代表性測試中,MiMo-Embodied 在 CV-Bench、RoboSpatial、RefSpatial 與 CRPE-relation 等核心基準上取得最高分,在 EmbSpatial 與 SAT 等任務(wù)中也保持在第一梯隊,體現(xiàn)出扎實的空間推理能力。
在自動駕駛方面,實驗同樣覆蓋三個核心模塊:場景感知、行為預測和駕駛規(guī)劃。
場景感知的測試要求模型看清路上的車輛、行人和交通標志,描述場景內(nèi)容,識別潛在風險,并輸出關(guān)鍵目標的位置。MiMo-Embodied 在 CODA-LM 等復雜場景理解任務(wù)中表現(xiàn)與專用模型相當甚至更好,在 DRAMA 中對關(guān)鍵物體的定位精度最高,在 OmniDrive 與 MME-RealWorld 中也保持領(lǐng)先。
行為預測要求模型能夠推測其他交通參與者可能采取的動作,例如車輛是否會變道、是否會讓行,或從多視角畫面中理解整體交通流動趨勢。MiMo-Embodied 在 MME-RealWorld 與 DriveLM 等基準中表現(xiàn)穩(wěn)定且領(lǐng)先,顯示出對動態(tài)交通場景的良好理解能力。
而駕駛規(guī)劃則要求模型給出車輛應(yīng)當采取的動作,并解釋其決策依據(jù),同時保證遵守交通規(guī)則、避免風險。MiMo-Embodied 在多個核心基準上取得領(lǐng)先,包括在 LingoQA 中準確解釋駕駛行為,在 DriveLM 中從多視角場景推導合理規(guī)劃,在 MAPLM 中理解道路結(jié)構(gòu)參與決策,在 BDD-X 中清晰說明駕駛理由,整體表現(xiàn)甚至超過一些專門為自動駕駛設(shè)計的模型。
從單域到跨域的四階段訓練框架
實驗結(jié)果之外,團隊還構(gòu)建了一套由四個階段組成的訓練流程,使模型的能力從最初的具身理解,逐步拓展至自動駕駛決策,并進一步發(fā)展出可解釋的推理能力與更高的輸出精度。
值得注意的是,這四個階段均以羅福莉所屬的 Xiaomi LLM-Core(大語言核心團隊)推出的 MiMo-VL 作為統(tǒng)一的基礎(chǔ)模型展開。整個訓練體系以能力逐級遞進為結(jié)構(gòu),每個階段都為下一階段奠定能力基礎(chǔ),從而形成一套連續(xù)且可擴展的模型演進路徑。
在第一階段中,模型主要接受具身智能相關(guān)的監(jiān)督訓練,訓練數(shù)據(jù)覆蓋可供性推斷、任務(wù)規(guī)劃和空間理解等任務(wù)。
這些數(shù)據(jù)讓模型能夠先掌握如何看懂物體的結(jié)構(gòu)、識別可操作部位、理解場景中的空間關(guān)系,并能對一段任務(wù)過程進行正確的下一步推斷。經(jīng)過這一階段,模型具備了基本的空間推理能力、初步的任務(wù)規(guī)劃能力,以及對可供性的感知與表達能力。
第二階段專門引入自動駕駛領(lǐng)域的監(jiān)督訓練。模型開始學習處理復雜的交通場景,訓練數(shù)據(jù)包括多視角相機畫面、駕駛視頻、自動駕駛問答、關(guān)鍵目標的坐標標注以及與道路結(jié)構(gòu)相關(guān)的知識。
通過這些訓練,模型能夠理解道路環(huán)境、讀取交通元素、預測其他交通參與者的行為,并給出符合規(guī)則的駕駛規(guī)劃。此階段使模型掌握動態(tài)場景分析、意圖預測以及駕駛決策等關(guān)鍵自動駕駛能力。
第三階段加入鏈式思維訓練,也就是讓模型學習“把推理過程說出來”。訓練數(shù)據(jù)含有明確的推理步驟,模型在此階段被引導按照“觀察場景→分析要素→提出候選→給出理由→得出結(jié)論”的順序組織回答。
結(jié)果是模型開始能夠自洽地解釋自己的判斷邏輯,不論是在具身任務(wù)還是在駕駛?cè)蝿?wù)中,都能給出清晰、可讀的推理鏈條,顯著提升輸出的透明度與一致性。
最后在第四階段進行強化學習微調(diào),目的在于進一步提升模型在細節(jié)層面的準確度。例如,多選題會根據(jù)是否答對給予獎勵;定位類任務(wù)通過預測區(qū)域與真實區(qū)域的 IoU 分數(shù)提供更精細的反饋;推理回答的形式會通過格式模板進行嚴格約束。
通過這些規(guī)則化的獎勵機制,模型在坐標定位精度、推理質(zhì)量及細節(jié)判斷能力上都有明顯增強,最終成為一個在多任務(wù)場景中都能穩(wěn)定發(fā)揮的統(tǒng)一具身模型。
打通兩個世界的第一步
這項工作的價值不只在于模型性能領(lǐng)先,而在于它解決了長期困擾業(yè)界的一道核心難題:機器人和自動駕駛本應(yīng)屬于兩個完全不同的世界,卻第一次被放進了同一個大腦里。
過去的模型要么專門做室內(nèi)具身任務(wù),要么專門做自動駕駛,兩個方向無論是場景、感知還是動作都完全割裂,彼此幾乎沒有可共享的能力。
但 MiMo-Embodied 的實驗結(jié)果證明,底層的關(guān)鍵智能能力,空間理解、因果推理、動態(tài)場景分析,其實可以跨域遷移。機器人理解桌面物體的方式,可以幫助汽車理解路口;汽車處理交通動態(tài)的能力,也能讓機器人更好地規(guī)劃任務(wù)步驟。雷峰網(wǎng)
這意味著“智能體”的邊界第一次被打通。
除此之外,為了驗證這種跨場景融合是否真正可行,團隊還專門構(gòu)建了一個前所未有的大規(guī)模評測體系:17 個具身智能基準加上 12 個自動駕駛基準,覆蓋可供性、規(guī)劃、空間理解,以及感知、預測、駕駛決策等多維能力。
模型在如此復雜而全面的體系下依舊保持穩(wěn)定領(lǐng)先,證明它不是“弱項補短”,而是實實在在具備跨領(lǐng)域的泛化智能。這不僅驗證了模型本身,也相當于是替整個行業(yè)點亮了“跨域評測”的新標準。
更重要的是,MiMo-Embodied 提供了一種可復制的范式。論文提出的四階段訓練路線:先學具身,再學駕駛,再疊加鏈式推理,最后用強化學習摳細節(jié),實際上就是一條通向“通用具身智能體”的訓練路徑。
它告訴行業(yè):智能體能力并不必須分散在不同的模型中,而可以像課程一樣逐層積累,讓統(tǒng)一模型在多種復雜場景中都保持穩(wěn)定表現(xiàn)。
而從產(chǎn)業(yè)角度看,這更像一次“開鎖”的動作。小米把跨域智能的這把鑰匙直接扔給了開源社區(qū),意味著未來即便是小團隊,也能在這套基礎(chǔ)上做改造,做出既能開車又能操作機械臂的多場景智能體。
電動車越來越像“帶輪子的智能體”,機器人越來越像“帶四肢的智能體”,而 MiMo-Embodied 的出現(xiàn),讓這兩條原本平行的技術(shù)路線第一次有機會匯流。
更難得的是,這不是一個性能堪堪夠用的概念模型,而是在 17 個具身測試 + 12 個自動駕駛測試里都能打、還能贏的大模型,連不少閉源私有模型都被它壓了一頭。
這一工作所展示的,早已不只是一種新的模型形態(tài),而是向行業(yè)明確證明:自動駕駛與具身智能的能力可以在同一個體系中進行訓練、評測和集成部署。這種統(tǒng)一方式為未來智能體的發(fā)展打開了新的方向,可能會重新塑造多場景智能系統(tǒng)的整體格局。
首篇論文背后的團隊陣容
這是小米具身智能團隊發(fā)布的首篇論文,由小米智駕團隊的郝孝帥擔任第一作者,項目負責人則是小米智駕團隊首席科學家陳龍。
郝孝帥今年 8 月加入小米智駕團隊。博士畢業(yè)于中國科學院大學信息工程研究所,現(xiàn)任小米汽車自動駕駛與具身智能算法專家,研究方向為自動駕駛感知和具身智能基座大模型。
在博士期間,他曾在亞馬遜實習,師從李沐老師。在北京人工智能研究院擔任研究員期間,深度參與了 Robobrain 1.0 和 Robobrain 2.0 等重大項目。結(jié)合github等公開信息,自從今年8月加入小米以來,MiMo-Embodied是郝孝帥首次以第一核心成員身份做出的重要貢獻,也是首個自動駕駛與具身智能統(tǒng)一基座大模型 。
除此之外,郝孝帥還曾在 Information Fusion、NeurIPS、ICLR、CVPR、ECCV、AAAI、ICRA 等頂級會議與期刊上發(fā)表論文五十余篇,并在 CVPR、ICCV 等國際競賽中取得了多次前三的成績,科研背景十分扎實。
項目負責人陳龍博士同樣在今年加入小米,擔任小米汽車 Principal Scientist,自動駕駛與機器人部 VLA 負責人,他曾任職于端到端自動駕駛獨角獸公司 Wayve,擔任 Staff Scientist,帶領(lǐng)團隊成功研發(fā)并部署了全球首個上車的視覺語言自動駕駛系統(tǒng) Lingo,被 Fortune,F(xiàn)inancial Times,MIT Technology Review 等國際媒體報導。
此前在 Lyft 自動駕駛部門負責基于眾包數(shù)據(jù)的深度學習規(guī)劃模型研發(fā)工作陳龍博士憑借在輔助駕駛領(lǐng)域引入視覺-語言-行為(VLA)模型的卓越工作,成功入選《麻省理工科技評論》2025 年度亞太區(qū)“ 35 歲以下科技創(chuàng)新 35 人”。
加入小米后,陳龍開始帶領(lǐng) VLA 團隊 推進端到端自動駕駛大模型的技術(shù)路線,進一步提升模型在復雜交通場景中的泛化、推理和解釋能力。他與葉航軍、陳光、王乃巖共同構(gòu)成小米智駕團隊的核心技術(shù)力量,組成了當前小米智駕體系的關(guān)鍵架構(gòu)班底。
作者主頁:
https://haoxiaoshuai.github.io/homepage/
https://www.linkedin.com/in/long-chen-in/
論文鏈接:
https://arxiv.org/abs/2511.16518
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見 轉(zhuǎn)載須知 。