反超OpenAI，百川開源大模型醫(yī)療能力登頂世界第一

砍柴網(wǎng) ? 23天前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個廣告，點擊進來看看。

8月11日，百川智能發(fā)布開源醫(yī)療增強大模型Baichuan-M2。OpenAI于8月6日開源兩款大模型，主打部署成本超低和醫(yī)療能力最強；僅僅5天后，百川開源更小尺寸模型并實現(xiàn)醫(yī)療能力反超，在所有開源模型中登頂世界第一。

今年1月，百川在行業(yè)內(nèi)首發(fā)“AI患者模擬器”，用真實數(shù)據(jù)構造上萬個不同年齡性別癥狀的AI患者，模擬了數(shù)百萬次診療過程，基于該范式開源的Baichuan-M1，為行業(yè)首個醫(yī)療增強模型。7個月后，百川升級患者模擬器并引入模型端到端強化學習，訓練的Baichuan-M2在HealthBench等評測上取得更大突破。

碾壓全球開源通用大模型，更低成本爆發(fā)更大性能

OpenAI自2024年下半年起將醫(yī)療作為模型能力提升的首要方向，投入大量人力算力精力。今年5月，OpenAI發(fā)布權威且貼近真實臨床場景的HealthBench醫(yī)療健康評測集，研究團隊招募了262位醫(yī)生，來自60個國家、涉及26個醫(yī)學專科、精通49種語言，他們生產(chǎn)了48562條評價標準，其中86%是實例特定標準（針對單個對話由醫(yī)生撰寫），14%是共識標準。

這個包含了5000個逼真多輪醫(yī)療對話的評測集，代表了OpenAI在醫(yī)療領域重點突破的決心。開源gpt-oss系列模型過程中，OpenAI首次將醫(yī)療作為第一重要的評測標準；發(fā)布GPT-5時，請到現(xiàn)場的唯一使用者是抗癌患者，醫(yī)療是大模型最有前景最具價值的方向，正成為頭部企業(yè)的共識。

Baichuan-M2在HealthBench上得到60.1的高分，以32B的較小尺寸不僅反超OpenAI 最新開源模型gpt-oss120b（得分57.6），更是力壓Qwen3-235B、Deepseek R1、Kimi K2等當前世界所有開源大模型。

反超OpenAI，百川開源大模型醫(yī)療能力登頂世界第一

針對醫(yī)療領域用戶隱私考慮下的模型私有化部署需求，百川智能對Baichuan-M2進行了極致輕量化，量化后的模型精度接近無損，可以在RTX4090上單卡部署，相比DeepSeek-R1 H20雙節(jié)點部署的方式，成本降低了57倍。針對國產(chǎn)主流芯片的開發(fā)和適配，讓多數(shù)醫(yī)療機構利用現(xiàn)有硬件條件既可實現(xiàn)快速部署。

反超OpenAI，百川開源大模型醫(yī)療能力登頂世界第一

此外，面向急診、門診等對于交互速度要求更高的場景，基于Eagle-3架構優(yōu)化的Baichuan-M2 MTP版本在單用戶場景下實現(xiàn)了74.9%的token速度躍升。

反超OpenAI，百川開源大模型醫(yī)療能力登頂世界第一

圖表AI 生成的內(nèi)容可能不正確。

醫(yī)療能力極大增強后，模型通用能力是否會下降？頭部大模型企業(yè)主要用數(shù)學和代碼數(shù)據(jù)進行強化學習，百川是首個將醫(yī)療數(shù)據(jù)用作強化學習的中國團隊，同時也驗證了高質量醫(yī)療數(shù)據(jù)對于模型通用能力的增長具有較高價值，M2模型在數(shù)學、指令遵循、寫作等通用核心性能上不降反升，因此這個模型也可應用于醫(yī)療以外的其他領域。

醫(yī)療復雜問題比肩GPT-5，超越眾多頂尖閉源大模型

在大語言模型的發(fā)展中，“知識”與“能力”是兩條相輔相成但又相對獨立的主線，模型在醫(yī)學考試（如 USMLE）上的表現(xiàn)被視為衡量醫(yī)療水平的重要指標，但隨著題庫飽和，這類選擇題或短回復的評測難以反映模型的臨床實用性，醫(yī)療 AI 并不等于“刷題機器”，分數(shù)再高也不意味著在真實醫(yī)療場景中好用。

OpenAI從HealthBench整體數(shù)據(jù)中選出1000個特別困難的復雜問題作為Hard子集，用于驗證模型多維度、全景化解決疑難復雜醫(yī)學問題的能力。這個評測方法標準更高、尺度更嚴，更能全面反映模型面臨“千奇百怪”復雜條件時的真實能力。今年5月這個評測集發(fā)布時，世界上所有頂尖模型得分都沒超過32分，許多前沿模型得分甚至為0。

Arora R K, Wei J, Hicks R S, et al. Healthbench: Evaluating large language models towards improved human health[J]. arXiv preprint arXiv:2505.08775, 2025.

GPT-5發(fā)布時OpenAI特別強調，其是HealthBench Hard評測全球唯一超過32分的模型。Baichuan-M2以34.7分成為全球第二款超過32分的模型，力壓世界所有其他頂尖閉源大模型。

盡管真實醫(yī)療場景中還存在大量HealthBench Hard評測尚未包含的因素，但至少已經(jīng)證明在多數(shù)醫(yī)療場景上的問答質量，GPT-5和Baichuan-M2已經(jīng)超越資深醫(yī)生，特別是在知識更新速度和全面性上，完全可以給人類醫(yī)生強大支持。

GPT-5發(fā)布時既沒有開源，也沒有公布參數(shù)，無法私有化部署，無法低成本應用。相比之下，Baichuan-M2快速免費開源，成為醫(yī)療行業(yè)低成本快速應用部署世界頂尖醫(yī)療模型的唯一選擇。

AI患者模擬器立功，百川智能開創(chuàng)強化學習新范式

百川技術團隊在大型驗證系統(tǒng)（Large Verifier System）、端到端強化學習、AI患者模擬器、多類型醫(yī)療數(shù)據(jù)用于深度推理等4個方面的創(chuàng)新探索，是Baichuan-M2模型取得飛躍式進步的關鍵。

過去一年，可驗證獎勵強化學習（RLVR）方法被頭部大模型企業(yè)廣泛使用，在數(shù)學、代碼領域顯著提升了模型性能。百川技術團隊在這一過程中認識到，提高復雜現(xiàn)實問題的可驗證性是進一步提升模型性能的關鍵。由此，他們構建了大型驗證系統(tǒng)，在通用驗證器之外還設計了一套全面的醫(yī)學驗證系統(tǒng)。

如果將未經(jīng)過醫(yī)療強化學習的大模型比作一位醫(yī)學實習生，這個系統(tǒng)則像一個要求極高、異常挑剔的醫(yī)療專家。它會從醫(yī)療正確性、完備性、安全性以及對患者的友好性等多個維度，細致地評估模型的輸出，指出其不足并引導模型改正，使其思維方式更貼近專業(yè)醫(yī)生。

在這個強大驗證系統(tǒng)的基礎上，團隊采用多階段強化學習策略（Multi- Stage RL），將復雜的強化學習任務分解為幾個易于管理的、分層的訓練階段，逐步引導模型能力演變。

人類醫(yī)生在聽取患者描述病情時，很容易分辨患者描述中的邏輯漏洞、從含混不清的表達中辨別出真實病因。現(xiàn)實中患者幾乎無法全面準確表達自己的癥狀，僅基于靜態(tài)的病例、指南等醫(yī)療數(shù)據(jù)訓練，模型無法掌握人類醫(yī)生的這一能力。為了突破這一瓶頸，百川技術團隊升級迭代了今年初首創(chuàng)的AI患者模擬器。這個模型器是使用真實病例構建的AI系統(tǒng)，能夠模擬千差萬別的患者、癥狀、表達，特別是包含錯誤噪聲的表達，最大程度還原了真實醫(yī)療場景。

在強化學習的多輪對話中，AI患者與AI醫(yī)生快速生成數(shù)百萬條貼近真實的交互信息，驗證器充當裁判實時打分評估，根據(jù)打分結果模型策略動態(tài)優(yōu)化，形成了一個具有規(guī)模化可監(jiān)督信號的訓練閉環(huán)，讓訓練過程與效果如“飛輪”般效率倍增。

百川智能還構建了一個以天為頻率更新的權威醫(yī)學數(shù)據(jù)庫，涵蓋病例、論文、文獻、指南、藥學、生物學、合成數(shù)據(jù)等。為防止綜合能力退化，采用醫(yī)學數(shù)據(jù)、通用數(shù)據(jù)、數(shù)學推理數(shù)據(jù)2:2:1的比例，并引入領域自我約束訓練機制，確保模型是一個具有通識、推理等綜合能力的高水平醫(yī)生，避免成為只會醫(yī)學知識考試的高分低能者。

（更多技術創(chuàng)新點詳見https://www.baichuan-ai.com/blog/baichuan-M2）

這些技術探索與創(chuàng)新，不僅為醫(yī)療能力提升開創(chuàng)了全新路徑，也為通用大模型強化學習提供了新思路新方法。

更遵循中國權威指南，更符合中國臨床診療場景

在中國臨床診療場景的問題評測中，對比gpt系列模型，Baichuan-M2展現(xiàn)出更明顯的可用性優(yōu)勢。

百川從中國醫(yī)學指南對齊、醫(yī)療政策適配和患者需求洞察等多個維度進行了深度優(yōu)化，中國醫(yī)療機構和醫(yī)生應用時，會明顯感受到這一區(qū)別。

中外患者人群特點不同、醫(yī)療服務資源與優(yōu)勢有所差異。例如，肝細胞肝癌，中國以乙肝相關肝癌為主，西方更多是酒精或丙肝相關患者，不同類型患者的的手術風險不同；加上中國外科手術經(jīng)驗豐富、手術期管理成熟，因此，在同一疾病遇到多種治療方案時，中西方指南對于優(yōu)選哪種治療方案存在差異。

在一個具體的真實案例中，針對CNLC IIa期（BCLC B期）的肝細胞肝癌患者，Baichuan-M2首推在具備手術條件的情況下進行解剖性肝右葉切除手術（或根據(jù)腫瘤具體位置，可考慮擴大右半肝切除、右三葉切除等），目標是R0切除。在國家衛(wèi)健委最新發(fā)布的《原發(fā)性肝癌診療指南》（2024版）中，肝切除術是潛在根治性治療，可提供最佳的長期生存獲益，Baichuan-M2嚴格遵循這一方案。

同一病癥gpt-oss-120b則建議首選經(jīng)動脈化療栓塞術（TACE），理由是符合 BCLCB 期治療指南。

臨床醫(yī)學專家認為，類似的情況還有很多。僅就這個案例來說，手術切除或TACE都是可選方案，只是中西方指南不同，不是醫(yī)學上的高下之分，而是基于本地患者特點、醫(yī)療資源與當前醫(yī)學發(fā)展水平權衡之下的最優(yōu)解。

醫(yī)療大模型能否將全球醫(yī)學知識、醫(yī)學證據(jù)轉化為符合本地優(yōu)勢特長的臨床決策，也是為醫(yī)生和患者提供切實服務能力的關鍵，Baichuan-M2為此所做的專門優(yōu)化，讓中國臨床場景有了專屬的頂尖模型。

真實病例實測表現(xiàn)極佳，多學科會診場景下超強能力得到初步驗證

今年2月，以Baichuan-M1為底座的AI兒科醫(yī)生在國家兒童醫(yī)學中心多學科會診中大放異彩，獲得會診專家一致認可。M2在醫(yī)療溝通、診斷合理、檢查合理、醫(yī)療治療、醫(yī)療安全六個維度相較于M1均顯著提升。

在北京市海淀區(qū)衛(wèi)健委、北京大學第三醫(yī)院、國家兒童醫(yī)學中心等合作伙伴的支持下，M2在真實病例實測中體現(xiàn)出超強能力。

一位51歲女士近兩個月睡眠充足依感困倦、疲憊，脖子輕微腫脹。M2根據(jù)醫(yī)患對話，詳細梳理出持續(xù)性疲勞、體重增加等多個支持診斷的關鍵癥狀，綜合考慮患者用藥史、年齡、合并癥狀等因素，精準診斷出患者最可能病因為甲狀腺功能減退癥。

內(nèi)分泌科專家表示，M2在關鍵征象基礎上提出首選假設（自身免疫性甲狀腺炎）并列出直接佐證、反證，之后給出條理化的鑒別診斷的推理方式，屬于典型的臨床思維流程，符合臨床醫(yī)學中公認的SOAP分析方式（Subjective主觀資料、Objective客觀資料、Assessment評估、Plan計劃）。它所采用的“支持 / 不支持”兩欄逐一比對的方式也符合住院醫(yī)師寫病程記錄時常用的思路，最后給出進一步檢查與管理建議，充分體現(xiàn)出“閉環(huán)思維”。

醫(yī)院之前部署的其他模型，知識問答上表現(xiàn)不錯，但沒有這么專業(yè)的主任醫(yī)師級專家思維，M2模型展現(xiàn)出人類高水平專家的思維方法讓醫(yī)生們驚嘆。

在另一真實案例中，一位15歲的小男孩莫名其妙咳嗽2個月，逐漸出現(xiàn)呼吸困難，吃了頭孢沒有好轉，急診時已經(jīng)“重癥肺炎、心包積液”。醫(yī)生將患兒的病歷作為輸入與M2進行了診斷方面的討論。

M2全面復盤小男孩的病情，逐條引用CT、支氣管鏡、血氣分析等數(shù)據(jù)進行推理，準確鎖定“支氣管內(nèi)占位”主因，主動給出氧療、抗菌/抗病毒劑量區(qū)間等極具執(zhí)行性的治療意見。

國家兒童醫(yī)學中心專家認為，M2在醫(yī)學正確性、證據(jù)鏈推理、可操作性上展現(xiàn)出極強的專業(yè)性，在風險預警方面的表現(xiàn)可圈可點，關注到患兒有呼吸衰竭、心包填塞等風險，并給出應急方案。此外，它還將患兒既往血管瘤與當前病變聯(lián)系，為醫(yī)生打開了更廣闊的思路。