《北京市人工智能医疗器械生产质量管理规范检查指南》发布

近日，北京市药监局发布《北京市人工智能医疗器械生产质量管理规范检查指南（2024版）》（以下简称《检查指南》），我们将其中第四部分“设计开发”内容转载如下：

生产企业应结合质量管理体系要求，建立人工智能医疗器械生存周期过程，开展与软件安全性级别相匹配的产品质量保证工作，确定需求分析、数据收集、算法设计、验证与确认、部署运行、更新控制等活动要求，将风险管理、可追溯分析（需包含算法和数据）贯穿于生存周期全程，形成记录。

需求分析

1. 需求分析应当以用户需求与风险为导向，结合产品的预期用途、使用场景、核心功能，综合分析法律、法规、规章、标准、用户、产品、功能、性能、接口、用户界面、网络安全、警示提示等需求，明确风险管理、可追溯性分析、数据收集、算法性能、使用限制、现成软件（现成算法）的验证与确认等活动要求，形成相应文件。

2. 数据收集应当确保数据来源的合规性、充分性和多样性，数据分布的科学性和合理性，数据质控的充分性、有效性和准确性。

3. 算法性能需结合医疗实际和产品定位，明确假阴性与假阳性、重复性与再现性、鲁棒性/健壮性、实时性等性能指标的适用性及其要求，并兼顾不同性能指标的制约关系。

4. 使用限制需考虑产品禁用、慎用等场景，准确表述产品使用场景，提供必要警示提示信息。

数据收集

1. 数据采集

数据采集应当明确采集设备、采集过程、数据脱敏等质控要求，并建立数据采集操作规范。若使用历史数据，应当结合样本规模、采集难度等影响因素合理选择数据采集方式，明确数据筛选标准并对采集的数据进行质量评估。

采集的数据应进行数据脱敏以保护患者隐私，数据脱敏需明确脱敏的类型（静态、动态）、规则、方法以及脱敏内容的确定依据。如使用历史数据，企业接收的数据应为脱敏后的数据，不得有敏感数据流入企业。

2. 数据整理

数据整理应基于原始数据库明确数据清洗、数据预处理的质控要求。数据清洗应当明确清洗的规则、方法、结果，数据预处理应当明确处理的方法（如滤波、增强、重采样、尺寸裁剪、均一化等）、结果。数据经整理后形成基础数据库，需明确样本类型、样本量、样本分布等信息。

3. 数据标注

数据标注应当明确标注资源管理、标注过程质控、标注质量评估等要求，并建立数据标注操作规范。标注过程质控包括人员职责（如人员资质、人员数量、职责分工）、标注规则（如临床指南、专家共识、专家评议、文献分析）、标注流程（如标注对象、标注形式、标注轮次、标注步骤、结果审核）、分歧处理（如仲裁人员、仲裁方式）、可追溯性（如数据、操作）等要求。数据经标注后形成标注数据库，样本类型可分为数据块（如图像区域、数据片段）、单一数据（由多个数据块组成）、数据序列（由多个单一数据组成）。标注数据库的样本量、样本分布等要求及风险考量与基础数据库相同。

数据标注若使用自动标注软件，结果不得直接使用，应由标注人员审核后方可使用。

4. 数据集构建

基于标注数据库构建训练集、调优集（若有）、测试集，应当明确训练集、调优集、测试集的划分方法、划分依据、数据分配比例。训练集原则上需保证样本分布具有均衡性，测试集、调优集原则上需保证样本分布符合真实情况，训练集、调优集、测试集的样本应两两无交集并通过查重予以验证。

数据扩增（若有）应当明确扩增的对象、范围、方式（离线、在线）、方法（如翻转、旋转、镜像、平移、缩放、滤波、生成对抗网络等）、倍数，在线扩增亦需予以记录，扩增需考虑数据偏倚的影响及风险。原则上不得对测试集进行数据扩增，对抗测试除外。

数据经扩增后应当形成扩增数据库，需列表对比扩增数据库与标注数据库在样本量、样本分布（注明扩增倍数）等差异，以证实扩增数据库样本量的充分性以及样本分布的合理性。

算法设计

1. 算法选择

算法选择应当提供所用算法的名称、类型（如有监督学习、无监督学习，基于模型、基于数据，白盒、黑盒）、结构（如层数、参数规模）、输入输出数据类型、流程图、算法编程框架、运行环境等基本信息，并明确算法选用依据，包括选用的理由和基本原则。若组合使用集成学习、迁移学习、强化学习等，需提供算法基本信息以及算法选用依据。

2. 算法训练

算法训练应当基于训练集、调优集进行训练和调优，考虑评估指标、训练方式、训练目标、调优方式、训练数据量—评估指标曲线等要求。

3. 算法性能评估

算法性能评估应当基于测试集对算法设计结果进行评估，综合评估假阴性与假阳性、重复性与再现性、鲁棒性/健壮性、实时性等适用性，以证实算法性能满足算法设计目标，并作为软件验证、软件确认的基础。若使用第三方数据库开展算法性能评估，应当提供第三方数据库的基本信息（如名称、创建者、数据总量等）和使用情况（如测试数据样本量、评估指标、评估结果等）。

对于黑盒算法，应开展算法性能影响因素分析，并提供算法性能影响因素分析报告，明确影响算法性能的主要因素及其影响程度，以及产品使用限制和必要警示提示信息。

验证与确认

1. 软件验证

软件验证应当基于软件需求予以开展，保证软件的安全有效性，并作为软件确认的基础。

2. 软件确认

软件确认测试应当基于用户需求，由预期用户在真实或模拟使用场景下予以开展，涵盖现成软件、网络安全的测试要求，确定缺陷管理、风险管理、可追溯性分析、评审等活动要求，形成用户测试记录、测试报告以及评审记录并经批准，适时更新并经批准。可追溯性分析此时应当分析用户测试与用户需求、用户测试与风险管理的关系。同时，开展算法性能比较分析，若各类测试场景（含临床评价）算法性能变异度较大，详述原因并基于分析结果明确产品使用限制和必要警示提示信息。最后，结合算法训练、算法性能评估、临床评价等结果开展算法性能综合评价，针对训练样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等情况，对产品的适用范围、使用场景、核心功能进行必要限制。

基于测评数据库开展的，除满足数据库通用要求（如数据管理、网络安全与数据安全、可扩展性）外，还应满足权威性、科学性、规范性、多样性、封闭性和动态性要求。不应使用公开数据库作为测评数据库。

部署运行

算法发布和更新时应在相关文件列明算法关键模块的功能、接口、版本、存储形式（如pt、pth、bin、onnx、pb、keras、ckpt、pkl等）；主要功能组件模块及相互依赖和接口关系；软件的前后端部署方式；对基础软件和硬件的依赖和兼容性要求等。

更新控制

人工智能医疗器械若发生算法更新、软件更新，均应当按照质量管理体系的要求，开展与算法更新、软件更新的类型、内容和程度相适宜的验证与确认活动，将风险管理、可追溯分析贯穿于更新全程，形成记录。此外，算法更新、软件更新均需考虑引入回滚机制，以保证医疗业务的连续性，特别是对风险较高的软件。

软件版本控制应当基于合规性要求确定软件版本命名规则，涵盖自研软件、现成软件、算法（算法驱动型更新或数据驱动型更新）网络安全的全部软件更新类型，明确并区分重大软件更新和轻微软件更新，并符合软件版本命名规则的要求。

对数据集进行用途（如训练、调优、测试、验证等）的变更，应按照数据集管理体系的要求进行确认形成记录。高控制等级的数据集停用后数据可流入低控制等级的数据集，不允许低控制等级的数据集向高控制等级流动（测试集数据可变更为训练和调优使用，不可将训练集、调优集的数据变更为测试使用）。数据集数据的变更，应按照建立数据集过程相同的质量体系进行管理，并记录更新内容和版本变更。

网络与数据安全

人工智能医疗器械全生命周期过程中应当考虑网络安全与数据安全问题，对网络与数据安全过程的控制要求形成文件，包括数据转移要求，数据整理、数据集构建、算法训练等内部活动开展过程中的数据污染防护措施，以及数据标注、软件确认等涉及外部活动开展过程中的数据污染防护措施及数据接口要求。

各数据库（集）均需进行数据备份，明确备份的方法、频次、数据恢复方法。

数据库和数据集访问应明确授权访问管理要求，形成文件及记录。

人工智能医疗器械软件应明确算法的软件安全性级别（轻微、中等、严重）并详述判定理由。应形成算法风险管理资料，明确过拟合与欠拟合、假阴性与假阳性、数据污染与数据偏倚（如数据扩增引入的偏倚）、中外差异等风险的控制措施。

可追溯性分析

可追溯性分析应当建立控制程序，涵盖软件、现成软件、算法及数据、网络安全的控制要求，形成软件及算法的可追溯性分析报告。使用可追溯性分析工具保证软件开发、软件更新过程满足可追溯性要求，并贯穿于软件生存周期全过程。提供算法可追溯性分析报告等相关文件及记录，即追溯算法需求、算法设计、算法实现、算法验证与确认、风险管理、数据集的管理。若无单独文档可提供软件可追溯性分析报告，并注明算法可追溯性分析所在位置。

以上仅对《检查指南》部分内容进行转载，如需查看全文，请点击“阅读原文”

信息来源：北京市药监局

排版整理：太阳成集团tyc234cc药械

医疗器械企业实施唯一标识的流程是什么？

你关注的→有关UDI编码环节的6个问题答疑！

医疗器械唯一标识实施解读

速看→全国各省市UDI推进动态

未按法规要求实施UDI，企业将承担哪些直接后果？

中美UDI在实施上有哪些不同？