黄色录象一级片,日韩一区2区久久在线观看

DoNews > 商業(yè) > 百川智能發(fā)布開源醫(yī)療模型 Baichuan-M3

百川智能發(fā)布開源醫(yī)療模型 Baichuan-M3

楊亮 2026-01-13 17:58:46

543569

分享到

DoNews1月13日消息，百川智能在今日舉辦的媒體溝通會上正式發(fā)布了其新一代開源醫(yī)療增強大語言模型 Baichuan-M3。據(jù)介紹，該模型在問診能力、醫(yī)療幻覺控制以及 Healthbench 和 Healthbench Hard 評測中均排名第一，不僅超越了 OpenAI GPT-5.2，還在所有測試環(huán)節(jié)中超越了人類醫(yī)生的表現(xiàn)。

醫(yī)療溝通和推理能力超越 GPT-5.2

2025年5月份，OpenAI發(fā)布HealthBench，由 262 位來自 60 個國家的醫(yī)生共同構建，收錄了 5000 組高度逼真的多輪醫(yī)療對話，構建了全球最權威、也最貼近真實臨床場景的醫(yī)療評測集。這一事件，被視為 OpenAI 在醫(yī)療領域開始“重兵投入”，吹響進軍醫(yī)療的號角。

相當長一段時間里，無論是HealthBench總分還是 HealthBench-Hard 子集， GPT系列模型從未被超越。2025 年 8 月，百川開源醫(yī)療增強大模型 M2 在 HealthBench 上力壓 gpt-oss-120B、DeepSeek-R1 等同期所有開源模型，并在 HealthBench Hard 上取得 34.7 分的成績，僅次于GPT-5，成為全球唯二突破 32 分的模型。

2025年，強化學習無疑是新一代 Scaling Law 的技術中軸。在M2 發(fā)布后的五個月里，我們對強化學習系統(tǒng)進行了全面升級，將原本以患者模擬器和靜態(tài) Rubric 為主的半動態(tài)反饋，升級為隨模型能力不斷演進的全動態(tài) Verifier System。

隨著監(jiān)督信號持續(xù)變細、變難，模型得以不斷突破能力上限，使 M3 在復雜醫(yī)學問題上的表現(xiàn)實現(xiàn)躍遷，不僅在 HealthBench 總分上超越 OpenAI 最新模型 GPT-5.2，也在 HealthBench Hard 上登頂，成為當前全球醫(yī)療溝通和推理能力最強的醫(yī)療大模型。

重構幻覺抑制的訓練范式

幻覺是這一代大模型技術范式的通病，更是AI進入嚴肅醫(yī)療的攔路虎。在大多數(shù)場景幻覺只是體驗問題，而在嚴肅醫(yī)療場景可導致安全事件。降低幻覺，一直是 OpenAI 最重視的研究方向之一。幾乎每一代 GPT 模型的幻覺率均為行業(yè)最低。OpenAI也是第一個單獨評測醫(yī)療能力和提供醫(yī)療服務的通用模型公司。

國內(nèi) DeepSeek等模型的普及，讓越來越多人開始使用AI并嘗試進行醫(yī)療健康咨詢。但大多數(shù)模型公司并沒有把“降幻覺”提升到與推理、代碼等相同的高度。用這樣的模型獲取健康咨詢和診療建議，對AI醫(yī)療的普及和醫(yī)患信任建立帶來很大困擾。

百川M3將醫(yī)療幻覺抑制前移至模型訓練階段，在強化學習過程中將醫(yī)學事實一致性作為核心訓練目標之一，將“知之為知之，不知為不知”直接作用于模型自身能力的形成過程。這一新的訓練方法將醫(yī)學事實可靠性內(nèi)化為M3自身的基礎能力，使其在不借助任何外部系統(tǒng)的情況下，依然能夠基于自身醫(yī)學知識進行穩(wěn)定、可信的作答。

通過將事實一致性約束融入訓練流程，M3重構了幻覺抑制的訓練范式，在不依賴工具或檢索增強的純模型設置下，醫(yī)療幻覺率3.5，超越GPT-5.2，達到全球最低水平。

構建「嚴肅問診」新能力

除了強推理和低幻覺，端到端的問診能力是本次M3最重要的一項突破。2025年行業(yè)的技術共識是，用戶提供更完整的上下文，模型才有更好的表現(xiàn)?？稍卺t(yī)療領域，患者很難完整表達自己的病癥，需要模型像醫(yī)生一樣有能力把患者的混亂敘述轉變成可做診療決策的信息。

HealthBench代表了OpenAI對臨床場景的認知高度，然而它本質上是一個切片式的評測，考核的更像是“AI會不會回答問題”，而不是帶著診療目標，完整的患者信息收集。這也正說明了行業(yè)對問診重要性和建模思路的理解不足。

應用實踐中，通過prompt“你是一位經(jīng)驗豐富的醫(yī)生”，激活模型的“角色扮演”是更常見的做法。這種方式得到的是模型的表演行為，而非內(nèi)生能力，激活的是模型應該提問的行為，而不是必須獲取關鍵信息的思考。

例如，臨床醫(yī)生面對患者的第一反應，永遠是先排除危急重癥，再考慮常規(guī)診療，這是刻在職業(yè)本能里的安全優(yōu)先級。但常見的“角色扮演”的問診方式，無法將“紅旗征識別與處置”作為核心行動原則。這種不圍繞關鍵風險點展開的信息收集，即便對話看似完整，也難以支撐安全、可靠的臨床判斷，從根本上偏離了醫(yī)療“安全第一”的原則。

針對這一行業(yè)困境，百川智能提出了“嚴肅問診范式”與“SCAN原則”，通過Safety Stratification（安全分層）、Clarity Matters（信息澄清）、Association & Inquiry（關聯(lián)追問）與Normative Protocol（規(guī)范化輸出），將臨床問診中高度依賴經(jīng)驗的思維過程，第一次系統(tǒng)性地“白盒化”。

圍繞SCAN原則，百川智能借鑒醫(yī)學教育里長期使用的 OSCE 方法，聯(lián)合 150 多位一線醫(yī)生，搭建了 SCAN-bench 評測體系，該體系以真實臨床經(jīng)驗作為“標準答案”，將診療過程拆解為病史采集、輔助檢查、精準診斷三大階段，通過動態(tài)、多輪的方式進行考核，完整模擬醫(yī)生從接診到確診的全過程。

相比于HealthBench，SCAN-bench是更加全流程端到端的動態(tài)評測新范式。同時，百川智能還使用原生模型訓練方法取代角色扮演prompt，針對GRPO無法穩(wěn)定進行長對話訓練的問題，設計了新的 SPAR 算法，使模型能夠在有限對話輪次中，把臨床真正需要的關鍵問題問全、問準，把風險兜住，讓輸出經(jīng)得起復核。

在實驗過程中百川智能發(fā)現(xiàn)，問診準確度每增加2%，診療結果準確度就會增加1%。評測結果顯示，M3 在SCAN的四個維度均顯著高于人類醫(yī)生基線水平，并大幅領先于國內(nèi)外頂尖模型，

成功構建了從精準的臨床問詢、深度醫(yī)學推理到安全可靠決策的閉環(huán)。從 1 月初 OpenAI 發(fā)布醫(yī)療產(chǎn)品 ChatGPT Health，到今天 Anthropic 推出 Claude for Healthcare，AI 醫(yī)療正在全球范圍內(nèi)提檔加速，競爭也正式進入深水區(qū)。

在這場競速中，作為國內(nèi)唯一專注醫(yī)療的大模型企業(yè)，百川持續(xù)突破低幻覺率、端到端問診和復雜臨床推理等核心能力，已從“跟隨者”躍遷為行業(yè)“引領者”與新范式的“定義者”，正以硬核實力扛起中國 AI 醫(yī)療發(fā)展的旗幟。

百川智能的醫(yī)療應用“百小應”已同步接入 M3，面向醫(yī)生與患者開放相關能力。醫(yī)生可借助它推演問診與診療思路，患者及家屬也可通過該應用更系統(tǒng)地理解診斷、治療、檢查與預后背后的醫(yī)學邏輯。