2024年04月12日,北京市藥品監(jiān)督管理局發(fā)布《北京市人工智能醫(yī)療器械生產(chǎn)質(zhì)量管理規(guī)范檢查指南 (2024版)》,內(nèi)容如下:
北京市人工智能醫(yī)療器械生產(chǎn)質(zhì)量管理規(guī)范檢查指南 (2024版)
人工智能醫(yī)療器械是指基于“醫(yī)療器械數(shù)據(jù)”,采用人工智能技術(shù)實(shí)現(xiàn)其預(yù)期醫(yī)療用途的醫(yī)療器械,包括第二類、第三類人工智能獨(dú)立軟件和含有人工智能軟件組件的醫(yī)療器械(包括體外診斷醫(yī)療器械)。
本指南結(jié)合人工智能醫(yī)療器械特點(diǎn),依據(jù)《醫(yī)療器械生產(chǎn)質(zhì)量管理規(guī)范》《醫(yī)療器械生產(chǎn)質(zhì)量管理規(guī)范附錄獨(dú)立軟件》《醫(yī)療器械生產(chǎn)質(zhì)量管理規(guī)范獨(dú)立軟件現(xiàn)場檢查指導(dǎo)原則》等文件,明確了對人工智能醫(yī)療器械的生產(chǎn)質(zhì)量管理體系要求。旨在幫助北京市醫(yī)療器械生產(chǎn)監(jiān)管人員增強(qiáng)對人工智能醫(yī)療器械產(chǎn)品生產(chǎn)監(jiān)管的認(rèn)知,指導(dǎo)和規(guī)范全市醫(yī)療器械生產(chǎn)監(jiān)管人員對人工智能醫(yī)療器械注冊人、受托生產(chǎn)企業(yè)(以下簡稱“生產(chǎn)企業(yè)”)的監(jiān)督檢查工作。同時,為相關(guān)生產(chǎn)企業(yè)開展生產(chǎn)管理活動提供參考和依據(jù)。
本指南中引用的國家相關(guān)法律、法規(guī)、規(guī)章、標(biāo)準(zhǔn)、檢查指南等版本發(fā)生變化時,要以當(dāng)時執(zhí)行的最新版為準(zhǔn)。隨著法規(guī)、強(qiáng)制性標(biāo)準(zhǔn)體系的不斷完善以及科技能力、認(rèn)知水平的不斷發(fā)展,必要時,北京市藥品監(jiān)督管理局將重新研究修訂,以確保本指南持續(xù)符合要求。
一、機(jī)構(gòu)和人員
人工智能醫(yī)療器械具有對數(shù)據(jù)和算法依賴性高的特點(diǎn),數(shù)據(jù)處理和算法相關(guān)的機(jī)構(gòu)和人員是關(guān)鍵性要素,生產(chǎn)企業(yè)應(yīng)定義相關(guān)人員角色、明確職責(zé)和資質(zhì)要求,可參照IEEE Std 2801-2022醫(yī)學(xué)人工智能數(shù)據(jù)集質(zhì)量管理推薦標(biāo)準(zhǔn)。
(一)數(shù)據(jù)處理人員:生產(chǎn)企業(yè)應(yīng)確立一名數(shù)據(jù)管理代表全面負(fù)責(zé)數(shù)據(jù)處理相關(guān)工作。數(shù)據(jù)處理人員一般包括首席研究員、數(shù)據(jù)管理員、采集人員、初級標(biāo)注人員、審核人員、仲裁人員等,標(biāo)注過程中處理同一例數(shù)據(jù)時,初級標(biāo)注、審核、仲裁人員之間不可相互兼任;應(yīng)明確人員的職責(zé)、任職資質(zhì)、選拔、培訓(xùn)、考核要求,如職稱、工作年限、工作經(jīng)驗(yàn)等;應(yīng)有任命、培訓(xùn)(如培訓(xùn)材料、培訓(xùn)方案)及考核記錄(如方法、頻次、指標(biāo)、通過準(zhǔn)則、一致性)等;對于生產(chǎn)企業(yè)外部聘用人員的還應(yīng)記錄聘用、主要執(zhí)業(yè)機(jī)構(gòu)、培訓(xùn)等信息,明確其資質(zhì)是否滿足崗位要求。
(二)算法相關(guān)人員:生產(chǎn)企業(yè)應(yīng)建立具有算法研發(fā)能力且穩(wěn)定的算法團(tuán)隊(duì),確立一名團(tuán)隊(duì)負(fù)責(zé)人全面負(fù)責(zé)算法相關(guān)工作。算法團(tuán)隊(duì)人員一般包括:算法研究人員、算法工程人員、算法測試人員、算法部署人員,上述人員中同一算法測試人員不可與其他角色兼任。若采用外部委托研發(fā)或者直接使用開源項(xiàng)目進(jìn)行算法的研發(fā),則必須有算法測試人員和部署人員,并對算法相關(guān)的質(zhì)量負(fù)責(zé)。
二、廠房與設(shè)施
人工智能醫(yī)療器械的數(shù)據(jù)集是進(jìn)行開發(fā)的要素,對采用自建數(shù)據(jù)集的產(chǎn)品,數(shù)據(jù)預(yù)處理、清洗、標(biāo)注等操作的場所為真實(shí)場所或模擬場所,真實(shí)的場所應(yīng)明確環(huán)境條件(如空間、照明、溫度、濕度、氣壓等),如有特殊要求應(yīng)保持相關(guān)記錄,采用模擬場所情形可根據(jù)產(chǎn)品實(shí)際情況調(diào)整模擬程度,需詳述調(diào)整理由并予以記錄;對采用公開數(shù)據(jù)集、第三方數(shù)據(jù)集,則需對數(shù)據(jù)集開發(fā)方所能提供范圍內(nèi)的場地信息進(jìn)行記錄。
三、設(shè)備
生產(chǎn)企業(yè)應(yīng)結(jié)合自身產(chǎn)品的實(shí)際情況,在產(chǎn)品生存周期過程提供充分、適宜、有效的軟硬件設(shè)備、開發(fā)測試工具、網(wǎng)絡(luò)資源以及病毒防護(hù)、數(shù)據(jù)備份與恢復(fù)等保障措施。
(一)數(shù)據(jù)集構(gòu)建所用設(shè)備
1.數(shù)據(jù)采集設(shè)備管理應(yīng)明確兼容性和采集特征等要求,設(shè)備的兼容性記錄應(yīng)包括采集設(shè)備的名稱、規(guī)格型號、制造商、性能指標(biāo),若無需考慮兼容性要求應(yīng)詳述理由并予以記錄。采集特征需明確采集設(shè)備的采集方式(如常規(guī)成像、增強(qiáng)成像)、采集協(xié)議(如MRI成像序列)、采集參數(shù)(如CT加載電壓、加載電流、加載時間、層厚)、采集精度(如分辨率、采樣率)。數(shù)據(jù)采集若使用歷史數(shù)據(jù),需列明采集設(shè)備及采集特征要求,并開展數(shù)據(jù)采集質(zhì)量評估工作。
2.企業(yè)應(yīng)配備執(zhí)行數(shù)據(jù)集相關(guān)任務(wù)需要的資源,如訪問、讀取數(shù)據(jù)、預(yù)覽、檢索等任務(wù)需要的軟件、硬件、網(wǎng)絡(luò)配置。測試集應(yīng)配備封閉管理需要的軟件、硬件、網(wǎng)絡(luò)配置,明確管理要求。
3.數(shù)據(jù)標(biāo)注應(yīng)明確標(biāo)注軟件(包含自動標(biāo)注軟件)的要求,明確標(biāo)注軟件的名稱、規(guī)格型號、完整版本、制造商、運(yùn)行環(huán)境、軟件確認(rèn)等要求并予以記錄。
4.若需使用特定的外部設(shè)備獲取附加的信息(如病理結(jié)果、檢驗(yàn)結(jié)果、數(shù)據(jù)模態(tài)轉(zhuǎn)化、多模態(tài)配準(zhǔn)、體積測量、三維打印等),設(shè)備的規(guī)格型號、計(jì)量信息(如需計(jì)量)等應(yīng)確認(rèn)要求并予以記錄。
5.數(shù)據(jù)整理所用軟件工具(含腳本)均需明確名稱、規(guī)格型號、完整版本、制造商、運(yùn)行環(huán)境,并進(jìn)行軟件確認(rèn)。
(二)算法研發(fā)所用設(shè)備
1.應(yīng)明確定義并記錄進(jìn)行算法訓(xùn)練、算法測試、算法部署所用到服務(wù)器算力的典型配置(如GPU型號和數(shù)量、CPU型號和數(shù)量、內(nèi)存大小、網(wǎng)絡(luò)帶寬等)。
2.應(yīng)明確定義并記錄算法訓(xùn)練所用的操作系統(tǒng)、開發(fā)環(huán)境(如編程語言及版本、集成開發(fā)環(huán)境及版本、web服務(wù)及版本、支持軟件及版本等)、算法架構(gòu)(如基礎(chǔ)計(jì)算包、GPU指令集、集成開發(fā)環(huán)境插件等)。
3.應(yīng)明確定義并記錄算法測試所用的操作系統(tǒng)、開發(fā)環(huán)境、算法框架、基礎(chǔ)服務(wù)等,若與其他外部設(shè)備進(jìn)行配合或作為軟件組件集成到其他醫(yī)療器械中,明確說明外部設(shè)備和器械的規(guī)格型號。
4.應(yīng)明確定義并記錄算法部署運(yùn)行的操作系統(tǒng)、開發(fā)環(huán)境、算法框架、基礎(chǔ)服務(wù)、虛擬機(jī)、應(yīng)用容器引擎等。
四、設(shè)計(jì)開發(fā)
生產(chǎn)企業(yè)應(yīng)結(jié)合質(zhì)量管理體系要求,建立人工智能醫(yī)療器械生存周期過程,開展與軟件安全性級別相匹配的產(chǎn)品質(zhì)量保證工作,確定需求分析、數(shù)據(jù)收集、算法設(shè)計(jì)、驗(yàn)證與確認(rèn)、部署運(yùn)行、更新控制等活動要求,將風(fēng)險管理、可追溯分析(需包含算法和數(shù)據(jù))貫穿于生存周期全程,形成記錄。
(一)需求分析
1.需求分析應(yīng)當(dāng)以用戶需求與風(fēng)險為導(dǎo)向,結(jié)合產(chǎn)品的預(yù)期用途、使用場景、核心功能,綜合分析法律、法規(guī)、規(guī)章、標(biāo)準(zhǔn)、用戶、產(chǎn)品、功能、性能、接口、用戶界面、網(wǎng)絡(luò)安全、警示提示等需求,明確風(fēng)險管理、可追溯性分析、數(shù)據(jù)收集、算法性能、使用限制、現(xiàn)成軟件(現(xiàn)成算法)的驗(yàn)證與確認(rèn)等活動要求,形成相應(yīng)文件。
2.數(shù)據(jù)收集應(yīng)當(dāng)確保數(shù)據(jù)來源的合規(guī)性、充分性和多樣性,數(shù)據(jù)分布的科學(xué)性和合理性,數(shù)據(jù)質(zhì)控的充分性、有效性和準(zhǔn)確性。
3.算法性能需結(jié)合醫(yī)療實(shí)際和產(chǎn)品定位,明確假陰性與假陽性、重復(fù)性與再現(xiàn)性、魯棒性/健壯性、實(shí)時性等性能指標(biāo)的適用性及其要求,并兼顧不同性能指標(biāo)的制約關(guān)系。
4.使用限制需考慮產(chǎn)品禁用、慎用等場景,準(zhǔn)確表述產(chǎn)品使用場景,提供必要警示提示信息。
(二)數(shù)據(jù)收集
1.數(shù)據(jù)采集
數(shù)據(jù)采集應(yīng)當(dāng)明確采集設(shè)備、采集過程、數(shù)據(jù)脫敏等質(zhì)控要求,并建立數(shù)據(jù)采集操作規(guī)范。若使用歷史數(shù)據(jù),應(yīng)當(dāng)結(jié)合樣本規(guī)模、采集難度等影響因素合理選擇數(shù)據(jù)采集方式,明確數(shù)據(jù)篩選標(biāo)準(zhǔn)并對采集的數(shù)據(jù)進(jìn)行質(zhì)量評估。
采集的數(shù)據(jù)應(yīng)進(jìn)行數(shù)據(jù)脫敏以保護(hù)患者隱私,數(shù)據(jù)脫敏需明確脫敏的類型(靜態(tài)、動態(tài))、規(guī)則、方法以及脫敏內(nèi)容的確定依據(jù)。如使用歷史數(shù)據(jù),企業(yè)接收的數(shù)據(jù)應(yīng)為脫敏后的數(shù)據(jù),不得有敏感數(shù)據(jù)流入企業(yè)。
2.數(shù)據(jù)整理
數(shù)據(jù)整理應(yīng)基于原始數(shù)據(jù)庫明確數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理的質(zhì)控要求。數(shù)據(jù)清洗應(yīng)當(dāng)明確清洗的規(guī)則、方法、結(jié)果,數(shù)據(jù)預(yù)處理應(yīng)當(dāng)明確處理的方法(如濾波、增強(qiáng)、重采樣、尺寸裁剪、均一化等)、結(jié)果。數(shù)據(jù)經(jīng)整理后形成基礎(chǔ)數(shù)據(jù)庫,需明確樣本類型、樣本量、樣本分布等信息。
3.數(shù)據(jù)標(biāo)注
數(shù)據(jù)標(biāo)注應(yīng)當(dāng)明確標(biāo)注資源管理、標(biāo)注過程質(zhì)控、標(biāo)注質(zhì)量評估等要求,并建立數(shù)據(jù)標(biāo)注操作規(guī)范。標(biāo)注過程質(zhì)控包括人員職責(zé)(如人員資質(zhì)、人員數(shù)量、職責(zé)分工)、標(biāo)注規(guī)則(如臨床指南、專家共識、專家評議、文獻(xiàn)分析)、標(biāo)注流程(如標(biāo)注對象、標(biāo)注形式、標(biāo)注輪次、標(biāo)注步驟、結(jié)果審核)、分歧處理(如仲裁人員、仲裁方式)、可追溯性(如數(shù)據(jù)、操作)等要求。數(shù)據(jù)經(jīng)標(biāo)注后形成標(biāo)注數(shù)據(jù)庫,樣本類型可分為數(shù)據(jù)塊(如圖像區(qū)域、數(shù)據(jù)片段)、單一數(shù)據(jù)(由多個數(shù)據(jù)塊組成)、數(shù)據(jù)序列(由多個單一數(shù)據(jù)組成)。標(biāo)注數(shù)據(jù)庫的樣本量、樣本分布等要求及風(fēng)險考量與基礎(chǔ)數(shù)據(jù)庫相同。
數(shù)據(jù)標(biāo)注若使用自動標(biāo)注軟件,結(jié)果不得直接使用,應(yīng)由標(biāo)注人員審核后方可使用。
4.數(shù)據(jù)集構(gòu)建
基于標(biāo)注數(shù)據(jù)庫構(gòu)建訓(xùn)練集、調(diào)優(yōu)集(若有)、測試集,應(yīng)當(dāng)明確訓(xùn)練集、調(diào)優(yōu)集、測試集的劃分方法、劃分依據(jù)、數(shù)據(jù)分配比例。訓(xùn)練集原則上需保證樣本分布具有均衡性,測試集、調(diào)優(yōu)集原則上需保證樣本分布符合真實(shí)情況,訓(xùn)練集、調(diào)優(yōu)集、測試集的樣本應(yīng)兩兩無交集并通過查重予以驗(yàn)證。
數(shù)據(jù)擴(kuò)增(若有)應(yīng)當(dāng)明確擴(kuò)增的對象、范圍、方式(離線、在線)、方法(如翻轉(zhuǎn)、旋轉(zhuǎn)、鏡像、平移、縮放、濾波、生成對抗網(wǎng)絡(luò)等)、倍數(shù),在線擴(kuò)增亦需予以記錄,擴(kuò)增需考慮數(shù)據(jù)偏倚的影響及風(fēng)險。原則上不得對測試集進(jìn)行數(shù)據(jù)擴(kuò)增,對抗測試除外。
數(shù)據(jù)經(jīng)擴(kuò)增后應(yīng)當(dāng)形成擴(kuò)增數(shù)據(jù)庫,需列表對比擴(kuò)增數(shù)據(jù)庫與標(biāo)注數(shù)據(jù)庫在樣本量、樣本分布(注明擴(kuò)增倍數(shù))等差異,以證實(shí)擴(kuò)增數(shù)據(jù)庫樣本量的充分性以及樣本分布的合理性。
(三)算法設(shè)計(jì)
1.算法選擇
算法選擇應(yīng)當(dāng)提供所用算法的名稱、類型(如有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí),基于模型、基于數(shù)據(jù),白盒、黑盒)、結(jié)構(gòu)(如層數(shù)、參數(shù)規(guī)模)、輸入輸出數(shù)據(jù)類型、流程圖、算法編程框架、運(yùn)行環(huán)境等基本信息,并明確算法選用依據(jù),包括選用的理由和基本原則。若組合使用集成學(xué)習(xí)、遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等,需提供算法基本信息以及算法選用依據(jù)。
2.算法訓(xùn)練
算法訓(xùn)練應(yīng)當(dāng)基于訓(xùn)練集、調(diào)優(yōu)集進(jìn)行訓(xùn)練和調(diào)優(yōu),考慮評估指標(biāo)、訓(xùn)練方式、訓(xùn)練目標(biāo)、調(diào)優(yōu)方式、訓(xùn)練數(shù)據(jù)量—評估指標(biāo)曲線等要求。
3.算法性能評估
算法性能評估應(yīng)當(dāng)基于測試集對算法設(shè)計(jì)結(jié)果進(jìn)行評估,綜合評估假陰性與假陽性、重復(fù)性與再現(xiàn)性、魯棒性/健壯性、實(shí)時性等適用性,以證實(shí)算法性能滿足算法設(shè)計(jì)目標(biāo),并作為軟件驗(yàn)證、軟件確認(rèn)的基礎(chǔ)。若使用第三方數(shù)據(jù)庫開展算法性能評估,應(yīng)當(dāng)提供第三方數(shù)據(jù)庫的基本信息(如名稱、創(chuàng)建者、數(shù)據(jù)總量等)和使用情況(如測試數(shù)據(jù)樣本量、評估指標(biāo)、評估結(jié)果等)。
對于黑盒算法,應(yīng)開展算法性能影響因素分析,并提供算法性能影響因素分析報(bào)告,明確影響算法性能的主要因素及其影響程度,以及產(chǎn)品使用限制和必要警示提示信息。
(四)驗(yàn)證與確認(rèn)
1.軟件驗(yàn)證
軟件驗(yàn)證應(yīng)當(dāng)基于軟件需求予以開展,保證軟件的安全有效性,并作為軟件確認(rèn)的基礎(chǔ)。
2.軟件確認(rèn)
軟件確認(rèn)測試應(yīng)當(dāng)基于用戶需求,由預(yù)期用戶在真實(shí)或模擬使用場景下予以開展,涵蓋現(xiàn)成軟件、網(wǎng)絡(luò)安全的測試要求,確定缺陷管理、風(fēng)險管理、可追溯性分析、評審等活動要求,形成用戶測試記錄、測試報(bào)告以及評審記錄并經(jīng)批準(zhǔn),適時更新并經(jīng)批準(zhǔn)。可追溯性分析此時應(yīng)當(dāng)分析用戶測試與用戶需求、用戶測試與風(fēng)險管理的關(guān)系。同時,開展算法性能比較分析,若各類測試場景(含臨床評價)算法性能變異度較大,詳述原因并基于分析結(jié)果明確產(chǎn)品使用限制和必要警示提示信息。最后,結(jié)合算法訓(xùn)練、算法性能評估、臨床評價等結(jié)果開展算法性能綜合評價,針對訓(xùn)練樣本量和測試樣本量過少、測試結(jié)果明顯低于算法設(shè)計(jì)目標(biāo)、算法性能變異度過大等情況,對產(chǎn)品的適用范圍、使用場景、核心功能進(jìn)行必要限制。
基于測評數(shù)據(jù)庫開展的,除滿足數(shù)據(jù)庫通用要求(如數(shù)據(jù)管理、網(wǎng)絡(luò)安全與數(shù)據(jù)安全、可擴(kuò)展性)外,還應(yīng)滿足權(quán)威性、科學(xué)性、規(guī)范性、多樣性、封閉性和動態(tài)性要求。不應(yīng)使用公開數(shù)據(jù)庫作為測評數(shù)據(jù)庫。
(五)部署運(yùn)行
算法發(fā)布和更新時應(yīng)在相關(guān)文件列明算法關(guān)鍵模塊的功能、接口、版本、存儲形式(如pt、pth、bin、onnx、pb、keras、ckpt、pkl等);主要功能組件模塊及相互依賴和接口關(guān)系;軟件的前后端部署方式;對基礎(chǔ)軟件和硬件的依賴和兼容性要求等。
(六)更新控制
人工智能醫(yī)療器械若發(fā)生算法更新、軟件更新,均應(yīng)當(dāng)按照質(zhì)量管理體系的要求,開展與算法更新、軟件更新的類型、內(nèi)容和程度相適宜的驗(yàn)證與確認(rèn)活動,將風(fēng)險管理、可追溯分析貫穿于更新全程,形成記錄。此外,算法更新、軟件更新均需考慮引入回滾機(jī)制,以保證醫(yī)療業(yè)務(wù)的連續(xù)性,特別是對風(fēng)險較高的軟件。
軟件版本控制應(yīng)當(dāng)基于合規(guī)性要求確定軟件版本命名規(guī)則,涵蓋自研軟件、現(xiàn)成軟件、算法(算法驅(qū)動型更新或數(shù)據(jù)驅(qū)動型更新)網(wǎng)絡(luò)安全的全部軟件更新類型,明確并區(qū)分重大軟件更新和輕微軟件更新,并符合軟件版本命名規(guī)則的要求。
對數(shù)據(jù)集進(jìn)行用途(如訓(xùn)練、調(diào)優(yōu)、測試、驗(yàn)證等)的變更,應(yīng)按照數(shù)據(jù)集管理體系的要求進(jìn)行確認(rèn)形成記錄。高控制等級的數(shù)據(jù)集停用后數(shù)據(jù)可流入低控制等級的數(shù)據(jù)集,不允許低控制等級的數(shù)據(jù)集向高控制等級流動(測試集數(shù)據(jù)可變更為訓(xùn)練和調(diào)優(yōu)使用,不可將訓(xùn)練集、調(diào)優(yōu)集的數(shù)據(jù)變更為測試使用)。數(shù)據(jù)集數(shù)據(jù)的變更,應(yīng)按照建立數(shù)據(jù)集過程相同的質(zhì)量體系進(jìn)行管理,并記錄更新內(nèi)容和版本變更。
(七)網(wǎng)絡(luò)與數(shù)據(jù)安全
人工智能醫(yī)療器械全生命周期過程中應(yīng)當(dāng)考慮網(wǎng)絡(luò)安全與數(shù)據(jù)安全問題,對網(wǎng)絡(luò)與數(shù)據(jù)安全過程的控制要求形成文件,包括數(shù)據(jù)轉(zhuǎn)移要求,數(shù)據(jù)整理、數(shù)據(jù)集構(gòu)建、算法訓(xùn)練等內(nèi)部活動開展過程中的數(shù)據(jù)污染防護(hù)措施,以及數(shù)據(jù)標(biāo)注、軟件確認(rèn)等涉及外部活動開展過程中的數(shù)據(jù)污染防護(hù)措施及數(shù)據(jù)接口要求。
各數(shù)據(jù)庫(集)均需進(jìn)行數(shù)據(jù)備份,明確備份的方法、頻次、數(shù)據(jù)恢復(fù)方法。
數(shù)據(jù)庫和數(shù)據(jù)集訪問應(yīng)明確授權(quán)訪問管理要求,形成文件及記錄。
人工智能醫(yī)療器械軟件應(yīng)明確算法的軟件安全性級別(輕微、中等、嚴(yán)重)并詳述判定理由。應(yīng)形成算法風(fēng)險管理資料,明確過擬合與欠擬合、假陰性與假陽性、數(shù)據(jù)污染與數(shù)據(jù)偏倚(如數(shù)據(jù)擴(kuò)增引入的偏倚)、中外差異等風(fēng)險的控制措施。
(八)可追溯性分析
可追溯性分析應(yīng)當(dāng)建立控制程序,涵蓋軟件、現(xiàn)成軟件、算法及數(shù)據(jù)、網(wǎng)絡(luò)安全的控制要求,形成軟件及算法的可追溯性分析報(bào)告。使用可追溯性分析工具保證軟件開發(fā)、軟件更新過程滿足可追溯性要求,并貫穿于軟件生存周期全過程。提供算法可追溯性分析報(bào)告等相關(guān)文件及記錄,即追溯算法需求、算法設(shè)計(jì)、算法實(shí)現(xiàn)、算法驗(yàn)證與確認(rèn)、風(fēng)險管理、數(shù)據(jù)集的管理。若無單獨(dú)文檔可提供軟件可追溯性分析報(bào)告,并注明算法可追溯性分析所在位置。
五、采購
生產(chǎn)企業(yè)應(yīng)確保采購物品符合法律法規(guī)的相關(guān)規(guī)定和國家強(qiáng)制性標(biāo)準(zhǔn)的相關(guān)要求,包括數(shù)據(jù)來源及以開源方式獲得的軟件等。
數(shù)據(jù)來源應(yīng)當(dāng)提供數(shù)據(jù)來源的合規(guī)性聲明,列明數(shù)據(jù)來源機(jī)構(gòu)名稱、所在地域、數(shù)據(jù)收集量、倫理批件(或科研合作協(xié)議)編號等信息。
產(chǎn)品部署運(yùn)行所需的軟硬件,應(yīng)當(dāng)記錄采購信息,其中以開源方式獲得的軟件組件、基礎(chǔ)包、基礎(chǔ)軟件、集成環(huán)境等,應(yīng)列明來源、下載地址、版本、開源協(xié)議等信息。
六、銷售和售后服務(wù)
人工智能醫(yī)療器械軟件在產(chǎn)品設(shè)計(jì)具有持續(xù)學(xué)習(xí)/自適應(yīng)學(xué)習(xí)能力的,需要在軟件部署階段確認(rèn)自學(xué)習(xí)功能已關(guān)閉,并提供記錄。
七、不良事件監(jiān)測、分析和改進(jìn)
上市后需要持續(xù)開展算法泛化能力研究的,需要結(jié)合用戶投訴、不良事件和召回等情況識別前期未預(yù)見的風(fēng)險,并采取有效的風(fēng)險控制措施將風(fēng)險降至可接受水平。此外,根據(jù)產(chǎn)品更新需求,經(jīng)評估后實(shí)施更新活動,開展與之相適宜的驗(yàn)證與確認(rèn)活動,保證算法泛化能力持續(xù)滿足用戶需求。
附件1
設(shè)計(jì)開發(fā)檢查要點(diǎn)舉例說明
1.算法策劃
算法開發(fā)策劃階段,應(yīng)對算法需求、數(shù)據(jù)收集、算法設(shè)計(jì)、驗(yàn)證與確認(rèn)、算法更新、風(fēng)險管理、可追溯性分析等過程進(jìn)行算法生命周期策劃,輸出《算法開發(fā)計(jì)劃書》。
2.算法需求
算法需求分析以用戶需求與風(fēng)險為導(dǎo)向,結(jié)合產(chǎn)品的預(yù)期用途、使用場景、核心功能,綜合分析法律、法規(guī)、規(guī)章、標(biāo)準(zhǔn)、用戶、產(chǎn)品、功能、性能、接口、用戶界面、網(wǎng)絡(luò)安全、警示提示等需求,重點(diǎn)考慮數(shù)據(jù)收集、算法性能、使用限制等要求。輸出《算法需求規(guī)范》。
3.數(shù)據(jù)收集
3.1 數(shù)據(jù)入選、排除標(biāo)準(zhǔn)
在《算法需求規(guī)范》中明確算法數(shù)據(jù)入選、排除標(biāo)準(zhǔn)。
3.2 數(shù)據(jù)來源及質(zhì)控
數(shù)據(jù)收集應(yīng)確保數(shù)據(jù)來源的合規(guī)性,數(shù)據(jù)質(zhì)控的充分性、有效性、準(zhǔn)確性。
3.3數(shù)據(jù)采集
數(shù)據(jù)采集需考慮采集設(shè)備、采集過程、數(shù)據(jù)脫敏等質(zhì)控要求,并建立《數(shù)據(jù)采集操作規(guī)范》。
3.4數(shù)據(jù)整理
脫敏數(shù)據(jù)匯總形成原始數(shù)據(jù)庫,不同模態(tài)的數(shù)據(jù)在原始數(shù)據(jù)庫中需加以區(qū)分。數(shù)據(jù)整理基于原始數(shù)據(jù)庫考慮數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理的質(zhì)控要求。輸出《數(shù)據(jù)整理規(guī)范》,同時《數(shù)據(jù)整理規(guī)范》中需明確樣本類型、樣本量、樣品分布等信息,數(shù)據(jù)經(jīng)整理后形成基礎(chǔ)數(shù)據(jù)庫。
3.5 數(shù)據(jù)標(biāo)注
3.5.1 數(shù)據(jù)標(biāo)注前應(yīng)建立《數(shù)據(jù)標(biāo)注操作規(guī)范》,明確標(biāo)注資源管理、標(biāo)注過程質(zhì)控、標(biāo)注質(zhì)量評估等要求。數(shù)據(jù)經(jīng)標(biāo)注后形成標(biāo)注數(shù)據(jù)庫。
3.5.2 數(shù)據(jù)標(biāo)注可使用自動標(biāo)注軟件,但自動標(biāo)注結(jié)果不得直接使用,應(yīng)由標(biāo)注人員審核后方可使用;同時,自動標(biāo)注軟件亦需明確名稱、型號規(guī)格、完整版本、制造商、運(yùn)行環(huán)境等信息,并進(jìn)行軟件確認(rèn)。
3.6 數(shù)據(jù)集構(gòu)建
3.6.1 基于標(biāo)注數(shù)據(jù)庫構(gòu)建訓(xùn)練集、調(diào)優(yōu)集、測試集,明確訓(xùn)練集、調(diào)優(yōu)集、測試集的劃分方法、劃分依據(jù)、數(shù)據(jù)分配比例,輸出《數(shù)據(jù)集構(gòu)建標(biāo)準(zhǔn)》。
3.6.2 訓(xùn)練集應(yīng)當(dāng)保證樣本分布具有均衡性,測試集、調(diào)優(yōu)集應(yīng)當(dāng)保證樣本分布符合臨床實(shí)際情況,訓(xùn)練集、調(diào)優(yōu)集、測試集的樣本應(yīng)當(dāng)兩兩無交集并通過查重予以驗(yàn)證。
3.6.3 為解決樣本分布不滿足預(yù)期的問題,可對訓(xùn)練集、調(diào)優(yōu)集小樣本量數(shù)據(jù)進(jìn)行擴(kuò)增,原則上不得對測試集進(jìn)行數(shù)據(jù)擴(kuò)增,對抗測試除外。數(shù)據(jù)擴(kuò)增需明確擴(kuò)增的對象、方式(離線、在線)、方法(如翻轉(zhuǎn)、旋轉(zhuǎn)、鏡像、平移、縮放、濾波、生成對抗網(wǎng)絡(luò)等)、倍數(shù),擴(kuò)增倍數(shù)過大應(yīng)考慮數(shù)據(jù)偏倚的影響及風(fēng)險。若采用生成對抗網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)擴(kuò)增,需明確算法基本信息以及算法選用依據(jù)。
3.6.4 數(shù)據(jù)經(jīng)擴(kuò)增后形成擴(kuò)增數(shù)據(jù)庫,需列表對比擴(kuò)增數(shù)據(jù)庫與標(biāo)注數(shù)據(jù)庫在樣本量、樣本分布(注明擴(kuò)增倍數(shù))等差異,以證實(shí)擴(kuò)增數(shù)據(jù)庫樣本量的充分性以及樣本分布的合理性。
3.7 數(shù)據(jù)庫管理
3.7.1數(shù)據(jù)庫管理應(yīng)遵循真實(shí)性、完整性、可用性、合規(guī)性、可追溯性、臨床代表性、時效性、安全性、準(zhǔn)確性9大原則。
3.7.2應(yīng)定期對邏輯數(shù)據(jù)庫的數(shù)據(jù)以及文件數(shù)據(jù)進(jìn)行備份,備份文件保存在不同機(jī)架的機(jī)器磁盤上以提高備份的安全性。
3.7.3在整個數(shù)據(jù)轉(zhuǎn)移過程中,應(yīng)當(dāng)明確數(shù)據(jù)轉(zhuǎn)移方法、數(shù)據(jù)防污染措施以及數(shù)據(jù)銷毀方式。
4.算法設(shè)計(jì)
人工智能算法設(shè)計(jì)主要考慮算法選擇、算法目標(biāo)設(shè)定分析、算法訓(xùn)練、算法性能評估等要求,形成《算法設(shè)計(jì)說明書》。對于黑盒算法,算法設(shè)計(jì)應(yīng)開展算法性能影響因素分析,同時與現(xiàn)有醫(yī)學(xué)知識建立關(guān)聯(lián),以提升算法可解釋性。
5.驗(yàn)證與確認(rèn)
算法訓(xùn)練過程中,需要明確算法訓(xùn)練環(huán)境,應(yīng)當(dāng)對算法進(jìn)行性能評估,以確保選擇的算法準(zhǔn)確、有效。算法驗(yàn)證階段,明確算法性能評估環(huán)境,應(yīng)完成算法性能指標(biāo)評估、壓力測試、對抗測試,黑盒需要算法性能影響因素分析,輸出《算法性能評估報(bào)告》。
同時,開展算法性能比較分析,詳述各類測試場景(含臨床評價)算法性能變異度較大的原因,基于分析結(jié)果明確產(chǎn)品使用限制和必要警示提示信息,輸出《算法性能比較分析報(bào)告》。
最后,結(jié)合算法訓(xùn)練、算法性能評估、臨床評價等結(jié)果開展算法性能綜合評價,針對訓(xùn)練樣本量和測試樣本量過少、測試結(jié)果明顯低于算法設(shè)計(jì)目標(biāo)、算法性能變異度過大等情況,對產(chǎn)品的適用范圍、使用場景、核心功能進(jìn)行必要限制。輸出《算法性能綜合評價報(bào)告》。
6.算法風(fēng)險管理
人工智能醫(yī)療器械的軟件安全性級別可基于產(chǎn)品的預(yù)期用途、使用場景、核心功能進(jìn)行綜合判定,并開展風(fēng)險管理活動,采取有效的風(fēng)險控制措施將風(fēng)險降至可接受水平,并貫穿于人工智能醫(yī)療器械全生命周期過程。
人工智能醫(yī)療器械的主要風(fēng)險從算法角度包括過擬合和欠擬合。從用途角度,輔助決策主要包括假陰性和假陽性,其中假陰性即漏診,可能導(dǎo)致后續(xù)診療活動延誤,特別是要考慮快速進(jìn)展疾病的診療活動延誤風(fēng)險,而假陽性即誤診,可能導(dǎo)致后續(xù)不必要的診療活動;非輔助決策從算法設(shè)計(jì)目標(biāo)能否得以實(shí)現(xiàn)角度,亦可參考輔助決策分為假陰性和假陽性。應(yīng)輸出《風(fēng)險管理報(bào)告》,明確過擬合與欠擬合、假陰性與假陽性、數(shù)據(jù)擴(kuò)增與數(shù)據(jù)偏倚等風(fēng)險的控制措施。
7.算法可追溯性分析
醫(yī)療器械全生命周期管理中,應(yīng)實(shí)現(xiàn)算法的可追溯性,并形成算法可追溯性分析報(bào)告等相關(guān)文件及記錄,即追溯算法需求、算法設(shè)計(jì)、算法實(shí)現(xiàn)、算法驗(yàn)證與確認(rèn)、風(fēng)險管理、數(shù)據(jù)集的管理。
在數(shù)據(jù)收集過程中,數(shù)據(jù)采集、數(shù)據(jù)整理、數(shù)據(jù)標(biāo)注、數(shù)據(jù)集構(gòu)建過程中形成《數(shù)據(jù)脫敏交接記錄》《數(shù)據(jù)清洗記錄》《數(shù)據(jù)標(biāo)注記錄》《數(shù)據(jù)審核記錄》《數(shù)據(jù)仲裁記錄》《數(shù)據(jù)集構(gòu)建記錄》,以上記錄均由操作人員簽字確認(rèn)。
數(shù)據(jù)集管理過程中,每一例數(shù)據(jù)都可追溯到唯一識別號、脫敏人員、清洗人員、標(biāo)注人員、審核人員、仲裁人員、入庫人員,保證了數(shù)據(jù)收集各環(huán)節(jié)的數(shù)據(jù)和操作人員的可追溯。
8.算法更新控制
人工智能醫(yī)療器械若發(fā)生算法更新、軟件更新,均應(yīng)當(dāng)按照質(zhì)量管理體系的要求,開展與算法更新、軟件更新的類型、內(nèi)容和程度相適宜的驗(yàn)證與確認(rèn)活動,將風(fēng)險管理、可追溯分析貫穿于更新全程,形成記錄以供體系核查。
對于算法更新,無論算法驅(qū)動型更新還是數(shù)據(jù)驅(qū)動型更新,均應(yīng)開展算法性能評估、臨床評價等驗(yàn)證與確認(rèn)活動,以保證算法更新的安全有效性。對于軟件更新,具體要求詳見醫(yī)療器械軟件指導(dǎo)原則、醫(yī)療器械獨(dú)立軟件生產(chǎn)質(zhì)量現(xiàn)場檢查指導(dǎo)原則。
人工智能醫(yī)療器械所含的每個人工智能算法,均應(yīng)獨(dú)立開展需求分析、數(shù)據(jù)收集、算法設(shè)計(jì)、驗(yàn)證與確認(rèn)、更新控制等活動,同時考慮人工智能算法組合的整體評價要求,以保證產(chǎn)品的安全有效性。
附件2
人工智能醫(yī)療器械常用術(shù)語
人工智能 artificial intelligence(AI):表現(xiàn)出與人類智能(如推理和學(xué)習(xí))相關(guān)的各種功能的功能單元的能力。
人工智能醫(yī)療器械 artificial intelligence medical device(AIMD):采用AI技術(shù)實(shí)現(xiàn)其預(yù)期用途的醫(yī)療器械。
注1:如采用機(jī)器學(xué)習(xí)、模式識別、規(guī)則推理等技術(shù)實(shí)現(xiàn)其醫(yī)療用途的獨(dú)立軟件。
注2:如采用內(nèi)嵌AI算法、AI芯片實(shí)現(xiàn)其醫(yī)療用途的醫(yī)療器械。
機(jī)器學(xué)習(xí) machine learning:功能單元通過獲取新知識或技能,或通過整理已有的知識或技能來改進(jìn)其性能的過程。
注:也可稱為自動學(xué)習(xí)。
深度學(xué)習(xí) deep learning :通過訓(xùn)練具有多個隱層的神經(jīng)網(wǎng)絡(luò)來獲得輸入輸出間映射關(guān)系的機(jī)器學(xué)習(xí)方法。
訓(xùn)練 training:基于機(jī)器學(xué)習(xí)算法,利用訓(xùn)練數(shù)據(jù),建立或改進(jìn)機(jī)器學(xué)習(xí)模型參數(shù)的過程。
監(jiān)督學(xué)習(xí) supervised learning:一種學(xué)習(xí)策略,獲得的知識的正確性通過來自外部知識源的反饋加以測試的學(xué)習(xí)策略。
注:也可稱為監(jiān)督式學(xué)習(xí)。
無監(jiān)督學(xué)習(xí) unsupervised learning:一種學(xué)習(xí)策略,它在于觀察并分析不同的實(shí)體以及確定某些子集能分組到一定的類別里,而無需在獲得的知識上通過來自外部知識源的反饋,以實(shí)現(xiàn)任何正確性測試。
注1:一旦形成概念,就對它給出名稱,該名稱就可以用于其他概念的后續(xù)學(xué)習(xí)了;
注2:也可稱為無師(式)學(xué)習(xí)。
強(qiáng)化學(xué)習(xí) reinforcement learning:一種學(xué)習(xí)策略,它強(qiáng)調(diào)從環(huán)境狀態(tài)到動作映射的過程,目標(biāo)是使動作從環(huán)境中獲得的累積獎賞值最大。
集成學(xué)習(xí) ensemble learning:通過結(jié)合多個學(xué)習(xí)器來解決問題的一種機(jī)器學(xué)習(xí)范式。
注:其常見形式是利用一個基學(xué)習(xí)算法從訓(xùn)練集產(chǎn)生多個基學(xué)習(xí)器,然后通過投票等機(jī)制將基學(xué)習(xí)器進(jìn)行結(jié)合。
遷移學(xué)習(xí) transfer learning
利用一個學(xué)習(xí)領(lǐng)域A上有關(guān)學(xué)習(xí)問題T(A)的知識,改進(jìn)學(xué)習(xí)領(lǐng)域B上相關(guān)學(xué)習(xí)問題T(B)的學(xué)習(xí)算法的性能。
過擬合 overfitting:學(xué)習(xí)器對訓(xùn)練樣本過度學(xué)習(xí),導(dǎo)致訓(xùn)練樣本中不具有普遍性的模式被學(xué)習(xí)器當(dāng)作一般規(guī)律,降低了泛化性能;典型表現(xiàn)是訓(xùn)練集上的性能越高,測試集上的性能越低。
欠擬合 underfitting:學(xué)習(xí)器對訓(xùn)練樣本學(xué)習(xí)不充分,導(dǎo)致訓(xùn)練樣本中包含的重要模式?jīng)]有被學(xué)習(xí)器獲取,降低了泛化性能;典型表現(xiàn)是訓(xùn)練集上的性能可以繼續(xù)提高,測試集上的性能同時得以提高。
人工智能醫(yī)療器械生存周期模型 AIMD lifecycle model:人工智能醫(yī)療器械從起始到退役的整個演進(jìn)過程的框架。
注1:包括:需求分析,設(shè)計(jì)與開發(fā),驗(yàn)證與確認(rèn),部署,運(yùn)維與監(jiān)控,再評價直至停運(yùn)。
注2:在人工智能醫(yī)療器械生存周期中,某些活動可出現(xiàn)在不同的過程中,個別過程可重復(fù)出現(xiàn)。例如為了修復(fù)系統(tǒng)的隱錯和更新系統(tǒng),需要反復(fù)實(shí)施開發(fā)過程和部署過程。
數(shù)據(jù) data:信息的可再解釋的形式化表示,以適用于通信、解釋或處理。
注:可以通過人工或自動手段處理數(shù)據(jù)。
個人敏感數(shù)據(jù) personal sensitive data: 一旦泄露、非法提供或?yàn)E用可能危害人身和財(cái)產(chǎn)安全,極易導(dǎo)致個人名譽(yù)、身心健康受到損害或歧視性待遇等的個人信息。
注:個人敏感信息包括身份證件號碼、個人生物識別信息、銀行賬號、通信記錄和內(nèi)容、財(cái)產(chǎn)信息、征信信息、行蹤軌跡、住宿信息、健康生理信息、交易信息、14歲以下(含)兒童的個人信息等。
健康數(shù)據(jù) health data:與身體或心理健康相關(guān)的個人敏感數(shù)據(jù)。
注:由于目前全球規(guī)定了不同的隱私合規(guī)性法律和法規(guī)。例如,在歐洲,可能需要采取的要求和參考變更為“個人數(shù)據(jù)”和“敏感數(shù)據(jù)”,在美國,健康數(shù)據(jù)可能會變更為“受保護(hù)的健康信息(PHI)”,這需要不同國家或地區(qū)的制造商進(jìn)一步考慮中國當(dāng)?shù)氐姆苫蚍ㄒ?guī)。
數(shù)據(jù)集 data set:具有一定主題,可以標(biāo)識并可以被計(jì)算機(jī)化處理的數(shù)據(jù)集合。
訓(xùn)練集 training set:用于訓(xùn)練人工智能算法的數(shù)據(jù)集,其外部知識源可用于算法參數(shù)的計(jì)算。
調(diào)優(yōu)集 tuning set:用于優(yōu)化人工智能算法的數(shù)據(jù)集,其外部知識源可用于算法超參數(shù)的選擇。
注:為避免與醫(yī)療器械領(lǐng)域所用術(shù)語“確認(rèn)”進(jìn)行區(qū)分,這里不使用通用人工智能領(lǐng)域的validation set,二者含義一致。
測試集 testing set:
用于測試人工智能算法性能的數(shù)據(jù)集,其外部知識源可用于對算法的評估。
參考標(biāo)準(zhǔn) reference standard:篩查、診斷和治療過程或基于標(biāo)注過程建立的基準(zhǔn)。
注:參考標(biāo)準(zhǔn)可包含疾病、生理狀態(tài)或生理異常以及位置和程度等信息標(biāo)簽。
金標(biāo)準(zhǔn) gold standard:篩查、診斷和治療可依據(jù)的最佳參考標(biāo)準(zhǔn)。
數(shù)據(jù)清洗 data cleaning:檢測和修正數(shù)據(jù)集合中錯誤數(shù)據(jù)項(xiàng)的預(yù)處理過程。
數(shù)據(jù)采集 data acquisition:數(shù)據(jù)由生成裝置按照數(shù)據(jù)采集規(guī)范生成,以數(shù)字化格式存儲并傳輸?shù)侥繕?biāo)系統(tǒng)的過程。
數(shù)據(jù)脫敏 data masking:通過去標(biāo)識化或匿名化,實(shí)現(xiàn)對個人敏感信息的可靠保護(hù)。
數(shù)據(jù)標(biāo)注 data annotation:對數(shù)據(jù)進(jìn)行分析,添加外部知識的過程。
仲裁 arbitration:多名標(biāo)注人員對同一原始數(shù)據(jù)的標(biāo)注結(jié)果不一致時用于決定最終結(jié)果的過程。
軟件質(zhì)量 software quality:在規(guī)定條件下使用時,軟件產(chǎn)品滿足明確或隱含要求的能力。
軟件質(zhì)量保證 software quality assurance:
a)為使某項(xiàng)目或產(chǎn)品遵循已建立的技術(shù)需求提供足夠的置信度,而必須采取的有計(jì)劃的和有系統(tǒng)的全部動作的模式。
b)設(shè)計(jì)以估算產(chǎn)品開發(fā)或制造過程的一組活動。
可靠性 reliability:在規(guī)定時間間隔內(nèi)和規(guī)定條件下,系統(tǒng)或部件執(zhí)行所要求功能的能力。
完整性 integrity:保護(hù)數(shù)據(jù)準(zhǔn)確性和完備性的性質(zhì)。
一致性 consistency:在數(shù)據(jù)集的各階段、部分之間,一致、標(biāo)準(zhǔn)化、無矛盾的程度。
重復(fù)性 repeatability: 由同一操作員按相同的方法、使用相同的測試或測量設(shè)施、在短時間間隔內(nèi)對同一測試/測量對象進(jìn)行測試/測量,所獲得的獨(dú)立測試/測量結(jié)果間的一致程度。
再現(xiàn)性 reproducibility:由不同的操作員按相同的方法,使用不同的測試或測量設(shè)施,對同一測試/測量對象進(jìn)行觀測以獲得獨(dú)立測試/測量結(jié)果,所獲得的獨(dú)立測試/測量結(jié)果間的一致程度。
可達(dá)性 accessibility:組成軟件的各部分便于選擇使用或維護(hù)的程度。
可得性 availability:
a)軟件(系統(tǒng)或部件)在投入使用時可操作或可訪問的程度或能實(shí)現(xiàn)其制定系統(tǒng)功能的概率;
b)系統(tǒng)正常工作時間和總的運(yùn)行時間之比;
c)在運(yùn)行時,某一配置項(xiàng)實(shí)現(xiàn)指定功能的能力。
保密性 confidentiality:數(shù)據(jù)對未授權(quán)的個人、實(shí)體或過程不可用或不泄露的特性。
網(wǎng)絡(luò)安全 cybersecurity:通過采取必要措施,防范對數(shù)據(jù)、模型等攻擊、侵入、干擾、破壞和非法使用以及意外事故,使設(shè)備處于穩(wěn)定可靠運(yùn)行的狀態(tài),以及保障數(shù)據(jù)、模型等的完整性、保密性、可得性的能力。
安全性 safety:免除于不可接受的風(fēng)險。
魯棒性/穩(wěn)健性:在存在無效輸入或急迫的環(huán)境條件下,系統(tǒng)或部件其功能正確的程度。
泛化能力 generalizability:機(jī)器學(xué)習(xí)算法對陌生樣本的適應(yīng)能力。
可追溯性 traceability:系統(tǒng)對其決策過程及輸出進(jìn)行記錄的特性。
公平性 fairness:系統(tǒng)做出不涉及喜好和偏袒決策的性質(zhì)。
可解釋性 explainability:以人能理解的方式,對系統(tǒng)決策因素進(jìn)行說明的能力。
黑盒測試 black-box testing:忽略系統(tǒng)或部件的內(nèi)部機(jī)制只集中于響應(yīng)所選擇的輸入和執(zhí)行條件產(chǎn)生的輸出的一種測試。
白盒測試 glass-box testing:側(cè)重于系統(tǒng)或部件內(nèi)部機(jī)制的測試。類型包括分支測試、路徑測試、語句測試等。
對抗[措施] countermeasure:為減小脆弱性而采用的行動、裝置、過程、技術(shù)或其他措施。
對抗樣本 adversarial sample:基于原始數(shù)據(jù)上添加擾動達(dá)到混淆系統(tǒng)判別目的新樣本。
對抗測試 adversarial test:使用對抗性樣本開展的測試,或采用不同目標(biāo)樣本分布的特選數(shù)據(jù)作為壓力數(shù)據(jù)集進(jìn)行的測試。
陽性樣本 positive sample:由參考標(biāo)準(zhǔn)確定為帶有某一種或幾種特定特征的樣本。
陰性樣本 negative sample:除陽性樣本以外的樣本。
真陽性 true positive(TP):被算法判為陽性的陽性樣本。
假陽性 false positive(FP):被算法判為陽性的陰性樣本。
真陰性 true negative(TN):被算法判為陰性的陰性樣本。
假陰性 false negative(FN):被算法判為陰性的陽性樣本。
目標(biāo)區(qū)域 target region:在影像評價中,根據(jù)參考標(biāo)準(zhǔn)從原始數(shù)據(jù)中劃分出的若干個包含特定類別目標(biāo)的最小數(shù)據(jù)子集(子集元素為像素,體素等)。
分割區(qū)域 segmentation region:在影像評價中,從原始數(shù)據(jù)中劃分出的若干個包含特定類別目標(biāo)的最小數(shù)據(jù)子集(子集元素為像素,體素等)。
病變定位 lesion localization:算法檢出病變位置正確標(biāo)識出參考標(biāo)準(zhǔn)確定的病變位置。
非病變定位 non-lesion localization:算法檢出病變位置未能正確標(biāo)識出參考標(biāo)準(zhǔn)確定的病變所在位置。
病變定位率 lesion localization rate:病變定位數(shù)量占由參考標(biāo)準(zhǔn)確定的全體病變數(shù)量的比例。
非病變定位率 non-lesion localization rate:非病變定位數(shù)量占全體病例數(shù)量的比例,非病變定位率可以大于1。
假陽性率 false positive rate:假陽性病例數(shù)量(陰性病例中包含非病變定位)占全部陰性病例數(shù)量的比例。
靈敏度 sensitivity
召回率(查全率)recall:真陽性樣本占全體陽性樣本的比例。
特異度 specificity:真陰性樣本占全體陰性樣本的比例。
漏檢率 miss rate:1減去靈敏度。
精確度(查準(zhǔn)率) precision
陽性預(yù)測值 positive prediction value:真陽性樣本占被算法判為陽性樣本的比例。
陰性預(yù)測值 negative prediction value:真陰性樣本占被算法判為陰性樣本的比例。
準(zhǔn)確率 accuracy:算法判斷正確的樣本占全體樣本的比例。
F1度量 F1-measure:召回率和精確度的調(diào)和平均數(shù)。
約登指數(shù) Youden index:靈敏度與特異度之和減去1。
受試者操作特征曲線 receiver operating characteristics curve(ROC curve):以假陽性率為橫坐標(biāo)、真陽性率為縱坐標(biāo),根據(jù)算法在不同閾值設(shè)定下對于給定的測試集得到的一系列結(jié)果繪制的曲線。
曲線下面積 area under curve(AUC):曲線下與坐標(biāo)軸圍成的積分面積。
自由響應(yīng)受試者操作特征曲線 free-response receiver operating characteristics curve(fROC):以非病變定位率為橫坐標(biāo)、病變定位率為縱坐標(biāo),根據(jù)算法在不同閾值設(shè)定下對于給定的測試集得到的一系列結(jié)果繪制的曲線。
候選自由受試者操作特征曲線 alternative free receiver operating characteristics curve(AFROC curve):以假陽性率為橫坐標(biāo)、病變定位率為縱坐標(biāo),根據(jù)算法在不同閾值設(shè)定下對于給定的測試集得到的一系列結(jié)果繪制的曲線。
精確度-召回率曲線 precision-recall curve(P-R):以召回率為橫坐標(biāo)、精確度為縱坐標(biāo),根據(jù)算法在不同閾值設(shè)定下對于給定的測試集得到的一系列結(jié)果繪制的曲線。
平均精確度 average precision(AP):精確度-召回率曲線下與坐標(biāo)軸圍成的積分面積。
平均精確度均值 mean average precision(MAP):在多目標(biāo)檢測問題上,算法對于各類目標(biāo)的平均精確度的平均值。
交并比 intersection over union(IoU):分割區(qū)域與目標(biāo)區(qū)域的交集占分割區(qū)域與目標(biāo)區(qū)域并集的比例
注:也可稱為Jaccard系數(shù)。
Dice系數(shù) Dice coefficient:分割區(qū)域與目標(biāo)區(qū)域的交集占分割區(qū)域與目標(biāo)區(qū)域平均值的比例。
中心點(diǎn)距離 central distance:分割區(qū)域中心與目標(biāo)區(qū)域中心的距離,該指標(biāo)反映兩個集合的接近程度。
混淆矩陣 confusion matrix:一種矩陣,它按一組規(guī)則記錄試探性實(shí)例的正確分類和不正確分類的個數(shù)。
注1:通常矩陣的列代表人工智能的分類結(jié)果,而矩陣的行代表參考標(biāo)準(zhǔn)的分類結(jié)果;
注2:也可稱為含混矩陣。
Kappa系數(shù) Kappa coefficient:一種用于評價結(jié)果一致性的指標(biāo)。
信噪比 signal-to-noise ratio(SNR):信號平均功率水平與噪聲平均功率水平的比值。
峰值信噪比 peak signal-to-noise ratio::信號最大可能功率與噪聲平均功率水平的比值。
結(jié)構(gòu)相似性 structural similarity:是一種衡量兩幅圖像相似度的指標(biāo)。
余弦相似度 cosine similarity:通過測量兩個向量的夾角的余弦值來度量它們之間的相似性。
困惑度 perplexity:度量概率分布或概率模型的預(yù)測結(jié)果與樣本的契合程度,困惑度越低則契合越準(zhǔn)確。
字錯率 word error rate:將識別出來的字需要進(jìn)行修改的字?jǐn)?shù)與總字?jǐn)?shù)的比值。
交叉熵 cross-entropy:一種度量兩個概率分布之間差異的指標(biāo)。
互信息 mutual information:對兩個隨機(jī)變量間相互依賴性的量度。
服務(wù)可用性 service availability:服務(wù)客戶發(fā)起服務(wù)請求后,服務(wù)可訪問的時間占總服務(wù)時間的比例。
注:服務(wù)可用性的計(jì)算是在一系列預(yù)定義的時間段中,服務(wù)可用時間之和占預(yù)定義時間段之和的比例,可排除允許的服務(wù)不可用時間。
附件3
參考文獻(xiàn)
[1]醫(yī)療器械生產(chǎn)質(zhì)量管理規(guī)范附錄獨(dú)立軟件
[2]醫(yī)療器械生產(chǎn)質(zhì)量管理規(guī)范獨(dú)立軟件現(xiàn)場檢查指導(dǎo)原則
[3]人工智能醫(yī)療器械注冊審查指導(dǎo)原則
[4]醫(yī)療器械軟件注冊審查指導(dǎo)原則(2022年修訂版)
[5]醫(yī)療器械網(wǎng)絡(luò)安全注冊審查指導(dǎo)原則(2022年修訂版)[6]YY/T 1833.1-2022人工智能醫(yī)療器械 質(zhì)量要求和評價 第1部分:術(shù)語
[7]YY/T 1833.2-2022人工智能醫(yī)療器械 質(zhì)量要求和評價 第2部分:數(shù)據(jù)集通用要求
[8]YY/T 1833.3-2022人工智能醫(yī)療器械 質(zhì)量要求和評價 第3部分:數(shù)據(jù)標(biāo)注通用要求
[9]YY/T 1833.4-2023 人工智能醫(yī)療器械 質(zhì)量要求和評價 第4部分:可追溯性
[10]YY/T XXXX.X-XXXX《人工智能醫(yī)療器械 質(zhì)量要求和評價 第5部分:預(yù)訓(xùn)練模型》征求意見稿
[11]GB/T 42061—2022 醫(yī)療器械 質(zhì)量管理體系 用于法規(guī)的要求[S]
[12]GB/T 42062—2022 醫(yī)療器械 風(fēng)險管理對醫(yī)療器械的應(yīng)用[S]
[13]YY/T 0664-2020 醫(yī)療器械軟件 軟件生存周期過程[S]
[14]IEEE Std 2801-2022 Recommended Practice for the
Quality Management of Datasets for Medical Artificial Intelligence醫(yī)學(xué)人工智能數(shù)據(jù)集質(zhì)量管理推薦標(biāo)準(zhǔn)
