

“今年是医疗AI奇点到来的一年。”
编辑 | 漠影
我盯着屏幕上的AI诊断建议,反复读了三次。AI用清晰的专业术语罗列了可能的病因,可我的焦虑却没有丝毫缓解。
如果疼痛加剧该怎么办?这些药需要一起吃吗?我该先去哪个科室挂号?这些真正困扰普通患者的问题,答案里只字未提。AI似乎什么都懂,但我依然不知道该怎么做。
这也正是当前将AI大模型应用于医疗健康场景的尴尬所在:它们能给出看起来专业感十足的回应,却撑不起一个真正的医疗决策。
作为患者,我们既不知道该怎么描述症状才算准确,也不清楚该提供哪些关键信息。最终,AI只能谨慎地给出一段涵盖各种可能性、却难以落地的建议。
如果,它能更像一位真正的医生呢?不急于抛出结论,而是先一步步引导,主动补齐医疗决策中缺失的关键信息,比如疼痛的具体变化、用药史,或是过往的检查结果。
这,或许才是大模型真正走入现实医疗场景、发挥作用的转折点。
01 从机械问答到主动提问
会问诊的“AI医生”什么样?
百川智能近日开源的新一代医疗大模型Baichuan-M3,正是在这一方向上的重要突破。
如果说传统医疗大模型像是医学知识问答机或医生角色扮演器,那么Baichuan-M3的追求,是尽可能还原真实的医疗决策过程——具备主动收集关键信息、构建医学推理链路、动态抑制内容幻觉等原生医疗增强能力。
例如,当用户输入“胸口长了个痘痘,两个月没消”这类模糊描述时,缺乏信息收集能力的大模型往往直奔结论,罗列海量相关症状,反而令人无所适从。
而Baichuan-M3则启动“严肃问诊”流程:发送相同信息后,模型会主动要求补充细节,如具体位置、外观形态,并提供结构化选项供用户快速回复。
随后,模型逐步排查吸烟史、手术史、外伤史、感染史等关键要素,并询问饮食习惯与家族病史,直至信息完整,才做出综合判断。
这一能力提升已在权威测评中得到验证。OpenAI于2025年5月发布的Healthbench,由全球60国262位医生共建,含5000组高仿真多轮医疗对话,是目前最贴近真实临床场景的医疗评测集。
此前,Baichuan-M2曾位列开源模型榜首,仅次于GPT-5;而Baichuan-M3在HealthBench总分上超越GPT-5.2,并在更具挑战性的HealthBench-Hard榜单登顶全球第一,成为当前医疗沟通与推理能力最强的开源医疗大模型。
在严肃医疗场景中,“幻觉率”至关重要。DeepSeek当前幻觉率约为6.1%,GPT-5.2-High为3.8%,而Baichuan-M3达3.5%,刷新行业SOTA(State-of-the-Art)水平。
百川同步发布全新评测基准SCAN-bench,由150余位一线医生联合构建,将诊疗流程拆解为病史采集、辅助检查、精准诊断三大阶段,实现对模型能力的全流程评估。
在SCAN-bench四大核心维度上,Baichuan-M3全面超越人类医生基线,并大幅领先国内外顶尖模型。
02 SCAN原则、强化学习多管齐下
教会AI“像医生一样思考”
百川团队中有多位来自三甲医院的全职及兼职临床医生,其一线经验成为模型优化的核心依据。
临床医生遵循“安全优先”逻辑——先排除危急重症,再推进常规诊疗。而传统角色扮演式AI问诊缺乏风险牵引,易导致重点偏移、判断失准。
为此,百川提出“严肃问诊范式”与SCAN原则,将临床思维凝练为四要素:
- Safety Stratification(安全分层):识别并优先处置高风险因素;
- Clarity Matters(信息澄清):确保症状描述无歧义;
- Association & Inquiry(关联追问):基于已有线索动态延伸问题链;
- Normative Protocol(规范化输出):确保结论表述符合临床规范。
SCAN-bench正是在此原则指导下构建,覆盖接诊至确诊全周期。
为将SCAN原则内化为模型本能,百川创新性采用分阶段强化学习:将医疗流程划分为病史采集、鉴别诊断、检验检查、精确诊断四个目标独立阶段,分别设置奖励机制,降低长程决策复杂度。
针对强化学习中常见的“奖励破解”问题(如模型通过无效提问刷分),百川研发SPAR算法(基于相对基准的分步惩罚优势算法),细化步骤惩罚,引入自适应课程学习,有效抑制冗余提问,并精准识别单步瑕疵。
其奖励模型还融合医学教育中的OSCE(客观结构化临床考试)理念,以可计算的动态量表进行全过程考核,不仅关注结论正误,更评估每一步的逻辑性与安全性。
最终效果是:AI问诊过程流畅、清晰、有逻辑,每一步都稳扎稳打,如同一位真正思考的医生。
Baichuan-M3推理能力提升与幻觉率下降,源于其提出的事实感知强化学习(Fact-Aware RL)训练架构。该架构将幻觉抑制与推理能力统一为目标,避免模型因过度保守陷入“正确但无用”的沉默,或因追求流畅产生危险性事实错误。
简言之,模型学会了一种“负责任的自信”。
03 医疗AI奇点到来
有望缓解行业四大根本性问题
百川智能创始人兼CEO王小川表示:“今年是医疗AI奇点到来的一年。”范式变革已真实发生——以医生为唯一权威的模式正在松动,AI正推动患者成为自身健康的责任主体与决策参与者。
这一判断源自对当前医疗体系四大深层问题的认知:
- 医学学科发展滞后:现象密集、理论匮乏,仍处于高度经验依赖阶段;
- 医患权责错位:患者是健康最终受益者与责任人,但决策权与关键信息高度集中于医生,易导致沟通低效、信任损耗;
- 优质资源分布不均:大医院负荷过重,基层与居家健康服务薄弱;
- 就医体系重心偏高:预防、慢病管理等前端环节支持不足。
Baichuan-M3的价值,正在于系统性响应上述挑战:其全科知识储备与跨学科分析能力,可补足个体医生的知识边界;其可解释、可交互的问诊方式,推动医疗信息下沉与透明化;其标准化流程,助力基层能力提升与居家健康自主管理。
王小川指出:“就像不懂法律的陪审团也能通过法官与律师的充分解释作出判断,患者只要获得足够清晰、可信的信息,同样能对自己的健康做出负责任的决定。”
04 结语:走少有人走的路
据王小川透露,2025年行业共发布500余个AI医疗模型,但多数仍停留于通用助手嵌套或浅层应用。百川坚持垂直深耕,以临床真需求为锚点,选择了一条更难、也更少人走的路。
2026年,百川计划推出2款C端产品:覆盖全科基础需求的同时,重点攻坚肿瘤、儿科两大高复杂度、高严肃性领域,持续拓展AI在真正临床场景中的价值边界。

