中国信通院开展医疗健康大模型效能评估工作

admin 2024-10-11 17:24:05 次浏览

摘要：

　　北京10月10日电 (记者刘育英)记者10日从中国信息通信研究院了解到，今年6月来，中国信通院选取多款通用大模型和医疗健康行业大模型开展效能评估工作，结果显示，通用大模型在医学知识广度方面具有一定优势，医疗健康行业大模型在特定医疗任务上表现优异。

　　据了解，中国信息通信研究院联合产学研用医各方，共同搭建医疗健康行业大模型标准体系，已形成技术要求、测试方法及成熟度评估三大系列。同时，中国信通院依托系列标准，为多家技术厂商提供医疗健康大模型的能力符合性验证，持续完善评价细则，提升标准实用性和适用性，助力行业大模型规范化、集约化发展。

　　2024年6月起，中国信通院选取GPT4、GPT-4O等国外通用大模型，文心一言、通义千问、混元和智谱清言ChatGLM等国内通用大模型，灵医Bot、夸克健康助手、讯飞星火医疗大模型和华佗GPT II等医疗健康行业大模型展开效能评估，考察大模型在多学科知识问答、多形式语言理解、多场景文书生成、多环节辅助诊疗、多轮对话交互、多模态支持等六大方向的实际应用效能。

　　结果显示，通用大模型在医学知识广度方面具有一定优势，医疗健康行业大模型在特定医疗任务上表现优异。以讯飞星火医疗大模型为例，其在个人画像、健康干预方案、病历文书生成及质控、检验检查报告解读、体检报告单解读、*盒解读等细分任务中表现均处于领先，在健康常识、疾病百科、用*知识、电子病历结构化、专业知识生活化等方向上均展现高度专业性。

　　下一步，中国信通院将继续联合医疗机构、科研院所、技术厂商等各界力量，结合动态效能评价工作经验，持续推进医疗健康行业大模型成熟度系列标准研制，建立针对不同医疗任务的大模型成熟度评价细则，确保标准贴合实际应用需求，促进能力提升和应用落地。(完)