环球时讯综合 2026-05-16

深度解读：阿里健康刚刚发布的医学AI氢离子能帮医生做什么？

凌晨1点，某三甲医院急诊科。一位急性心梗合并心衰的患者被紧急送入，血压185/105 mmHg，血氧仅91%。护士催促医生确认替格瑞洛剂量——患者肾功能受损，标准剂量可能引发脑出血，减量又担心支架血栓。

在浩瀚的指南与文献中寻找答案，医生只有3分钟。过去，这需要翻查PubMed、指南PDF、药品说明书，耗时十几分钟。现在，一位试用"氢离子"的急诊科主任说："没想到不到10秒就出了结果。"

互联网医疗可以提升就诊效率，但医学AI才能帮助医生提高临床与科研效率。

5月13日，阿里健康正式发布医学AI产品"氢离子"，定位为"可靠的医学AI助手"。同时宣布与英国BMJ集团达成独家合作，旗下70本医学期刊过去十年的内容资源接入系统。这是国际顶级期刊首次与中国AI平台达成此类合作。

通用大模型不被严肃医疗领域认可？

过去一年，大模型席卷各行各业，医疗领域也不例外。但一个困境越来越明显：一旦进入严肃医学场景，通用大模型的能力迅速塌陷。

最让医生头疼的是"幻觉"。一项发表于英国皇家外科医学院官方期刊的研究显示，某些主流AI平台生成的医学参考文献中，超过三分之一可能是伪造的。Grok 3的引用幻觉率高达33.6%，DeepSeek DeepThink为25%。

这些"幻觉引用"看起来非常真实，甚至带有虚构的诊所链接。但对胸外科这样极度硬核的诊室，一个杜撰的结论，危害不亚于误诊。

业界普遍将检索增强生成（RAG）奉为圭臬，认为它能通过检索外部资料纠正大模型的信口雌黄。但最新研究给出了反直觉的结论：加入RAG后，大模型的无依据声明率从5.0%飙升至43.6%，错误概率增加了8.7倍。

原因很简单：临床文本高度非结构化，充满上下文依赖和相互冲突的证据。RAG很容易检索出"语义上高度相似，但实际上属于其他患者"的病历片段，而大模型会以此为据凭空捏造。

如何把"医学证据"写进AI底层？

答案其实简单：从信息源头杜绝低质信源污染，不采用互联网信息，只采信国内外医学顶刊、文献、指南。

但做起来极难。

国际顶刊有着严苛的合作标准，尚未有与AI平台合作的先例。

阿里健康凭借技术和综合实力，与BMJ集团达成期刊内容独家合作。发布会现场，国际几个医学顶刊也系数到场站台，氢离子透露，正在与多家国际顶刊沟通洽谈中。国内的中华医学会、人民卫生出版社、中国抗癌协会也早已签约合作。

吸引顶刊的，可能真的是“可靠”的产品实力，阿里健康在发布会上首次披露了"四层循证架构"：

第一层，证据理解。不是直接"读文字"，而是用PICO框架（人群、干预、对照、结果）和GRADE标准（证据等级评级）将医学文本转化为可结构化、可追溯的证据单元。

第二层，结构化检索。基于PICO，检索逻辑从"搜词"升级为"搜结构"。例如"布洛芬能不能比对乙酰氨基酚更快让儿童退烧？"系统不会简单搜关键词，而是自动转化为标准循证问题，检索出的文献更像在回答临床问题，而非凑关键词。

第三层，模型对齐。通过Reward模型和Rubrics评分体系，让AI学会"什么是好答案"——低幻觉、可追溯、符合循证规范。

第四层，专家闭环。超300位中国临床专家组成委员会，持续对AI输出进行"找茬、打分与修正"。黄晓军、肖瑞平、于金明等10位顶级专家把关学术方向，数百位来自复旦百强医院的评测医生持续验证。

从"搬运成本"到"一次提问"

很多医生手机里常年装着5～6个医学App，因为它们大多只是单点工具。"氢离子"试图把这些"搬运成本"压缩成一次提问。

一位三甲急诊科主任医师试用后，在88天内登录高达193次。他反馈最集中的关键词是"可信"和"可靠"，尤其是对"循证问答"评价极高。

AI不仅明确推荐用药方案，还加粗标注依据来源——中华医学会2025年最新治疗指南。点击后可直接查看电子化指南原文，不再需要翻找笨重的PDF。更关键的是，它不是简单高亮一整段文本，而是定位到真正决定结论的"关键三行"。

医生看到的不只是"这篇文章可能相关"，而是"依据具体在哪里"。与此同时，回答还引入了时效性（"2025年"）和权威性（"中华医学会的指南"）两个维度。

正如珠江医院胸外科主任乔贵宾所言："这才是医学AI该有的样子。它不替你做判断，而是帮你更快找到做判断的依据，并且让你看清它是从哪儿找来的。"

当繁重的循证检索被AI降维打击，医生们偶尔也会聊起：如果所有循证工作都被AI代劳了，医生还需要什么？

大家的答案很一致：向本源的回归——练就临床判断力。因为敲定最终方案，还要取决于医生的综合评估。

在这个信息爆炸的时代，谁额能帮医生把时间从找资料里抢回来，谁能言之有物严格循证，谁能迅速给出精准的高等级证据，才是真正的临床刚需。医生将有更多时间留给思考、决策与关怀。