新研究发现 OpenAI 的 o1-preview AI 模型在诊断棘手医疗案例方面优于医生
GoodNav 于 12 月 25 日报道,由哈佛医学院和斯坦福大学的研究团队深入分析了 OpenAI 的 o1-preview 模型在医学诊断方面的表现,结果显示其在处理复杂医疗案例时的表现优于人类医生。
根据研究结果,o1-preview 在测试案例中正确诊断率达到 78.3%,而在 70 个特定案例的比对测试中,准确率更是高达 88.6%,显著超过其前任 GPT-4 的 72.9%。
使用医学推理质量评估标准 R-IDEA,o1-preview 在 80 个案例中获得了 78 个满分。而相比之下,经验丰富的医生仅有 28 个案例获满分,住院医生则只有 16 个。
在 25 位专家设计的复杂案例中,o1-preview 的得分达到 86%,是使用 GPT-4 的医生(41%)和使用传统工具的医生(34%)的两倍以上。
研究人员承认该测试有其局限性,部分案例可能已包含在 o1-preview 的训练数据内,而测试的重点主要放在系统的独立工作上,并未充分考虑其与人类医生协作的环境。此外,o1-preview 推荐的诊断测试费用较高,因此实际应用中存有局限。
参考地址
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...