人工智能医疗器械脑卒中CT影像辅助分析软件算法性能测试方法

Artificial intelligence medical devices-Computer assisted analysis software for Stroke CT images-Algorithm performance test methods

行业标准计划《人工智能医疗器械脑卒中CT影像辅助分析软件算法性能测试方法》由SMD/TU 002（人工智能医疗器械标准化技术归口单位）归口上报及执行，主管部门为国家药品监督管理局。主要起草单位首都医科大学附属北京天坛医院。

征求意见稿

标准草案	标准草案.pdf	项目建议书	项目建议书.pdf

基础信息

标准性质	推荐性行业标准	标准类别	方法标准
制修订	制定	项目承担单位	中国食品药品检定研究院

起草单位

首都医科大学附属北京天坛医院

标准实施可行性评估

该标准属于测试方法标准，提案中的方法、指标、测试流程参考了国内已经上市的多个产品的验证确认过程，与学术界的常见方法一致，具有实施的共识基础。此类测试需要的软硬件资源与YY/T 1858-2022相似，国内也有丰富的数据资源，为标准实施提供物质基础。

目的意义

脑卒中是一类严重的神经系统疾病，具有发病率高、致残率高、死亡率高的特点。脑卒中的诊断及治疗高度依赖医学影像，其具有多序列、复杂程度高等特征。在日常诊疗中，需要头部CT、CTA、CTP等多模态影像协助医生明确患者的脑实质、血管及组织灌注情况。随着人工智能（artificial intelligence, AI）技术的迅猛发展以及医疗大数据的不断积累，人工智能被广泛应用于医疗领域。卒中CT影像作为人工智能在医学领域应用的最早和最重要领域之一，在医学研究和临床实践中得到广泛应用。如美国的RAPID软件通过对卒中影像的智能分析，借助过去十年间的多项大型临床随机对照试验，证明了RAPID软件对卒中患者进行分组治疗的有效性，由此改写了急性卒中临床指南。在国内，卒中CT影像的人工智能辅助评估软件也在蓬勃发展，从2022年3月开始，目前已有6款产品获得3类医疗器械证。功能涵盖缺血核心梗死灶的检测分割、头颈血管狭窄检测、Alberta卒中项目早期CT评分(ASPECTS)分级、颅内出血检测等领域。然而目前人工智能医疗产品从研发到上市，再到进入临床，其过程相对模糊，且缺乏相对专业权威的机构及相对指南的细则加以规范。比如，美国食品药品监督管理局（Food and Drug Administration，FDA）未对人工智能医疗器械的算法性能测试进行强制性标准要求。RAPID等软件在上市前也未对算法性能进行严格的评价，而是通过临床研究证明了其在患者筛选层面的有效性。究其原因，是因为人工智能医疗器械作为一类特殊的医疗软件，其性能、稳定性、与场景的适用性、泛化能力等质量特性会受到诸多因素的制约和影响，这给算法性能测试带来了严峻的挑战。同时相比于其他种类的人工智能软件，医疗器械，特别是III类医疗器械有直接对人体带来伤害的风险，这给算法性能测试的标准也带来了更高的要求。缺乏人工智能试验开展的算法性能标准、质量控制标准，成为了现阶段制约人工智能医疗器械开展临床试验与成果转化的瓶颈问题。目前卒中CT影像领域的人工智能医疗器械主要由国外企业和学术机构控制，例如美国的iSchemaView、VizAI、Aidoc，英国的Brainomix，澳洲的Apollo，佳能旗下的Olea等公司，他们具备较完整的卒中CT影像产品，如国内尚无同类取证产品的颅内大血管闭塞检测、缺血半暗带检测、侧支循环分级等。我国在该领域的模型与产品还处于起步阶段，与国外有较大差距，基于医学人工智能领域的医疗器械作为面向未来的重要产业，有着被国外竞争对手进行产业封锁和技术打击的风险。本标准制定旨在规范化脑卒中影像学的算法性能测试标准，以临床需求与产品转化为目标导向，通过严谨的算法性能测试验证产品的性能，为进一步建立标准化的人工智能医疗器械临床试验体系，制定规范的研发及评价策略奠定基础，以实现人工智能产品在临床实践中的有效落地，推动人工智能医疗产品及相关领域蓬勃健康发展。

范围和主要技术内容

本标准规定了采用人工智能技术对脑卒中患者的CT影像进行辅助分析的软件算法性能的测试方法。本标准适用于采用人工智能技术对脑卒中CT影像进行后处理的辅助分析软件。本标准不适用于影像前处理、过程优化软件。本标准作为方法标准，面向影像辅助分析的常见场景，对算法性能指标的定义、适用场景、计算方式、测试过程进行规范，旨在加强相关产品的质量评价。主要技术内容包含有对平扫CT、增强CT、灌注CT采用人工智能技术进行辅助检测（如卒中征象等）、辅助分类（如梗死位置和程度等）、辅助分割（如血肿和半暗带等），及相关参数测量和计算（如体积和血流量等）时，应遵循采纳的算法性能评价指标，如灵敏度、特异性、Dice系数、AUC面积、Kappa系数、线性相关系数、Bland-Altman一致性分析等。本标准仅对算法性能测试方法本身做规范性要求，不对具体产品的功能和性能做限定要求。