《血液病流式細胞學人工智能分析軟件性能評價審評要點》旨在指導醫療器械注冊申請人對血液病流式細胞學人工智能分析軟件注冊申報資料中非臨床評價部分的準備及撰寫,同時也為技術審評部門提供參考。本要點是對血液病流式細胞學人工智能分析軟件申報資料的一般要求,申請人需依據產品的具體特性確定其中內容是否適用。若不適用,需具體闡述理由及相應的科學依據,并依據產品的具體特性對注冊申報資料的內容進行充實和細化。
血液病流式細胞學人工智能分析軟件性能評價審評要點
本要點旨在指導醫療器械注冊申請人對血液病流式細胞學人工智能分析軟件注冊申報資料中非臨床評價部分的準備及撰寫,同時也為技術審評部門提供參考。
本要點是對血液病流式細胞學人工智能分析軟件申報資料的一般要求,申請人需依據產品的具體特性確定其中內容是否適用。若不適用,需具體闡述理由及相應的科學依據,并依據產品的具體特性對注冊申報資料的內容進行充實和細化。
本要點是供注冊申請人和技術審評人員使用的指導性文件,但不包括審評審批所涉及的行政事項,亦不作為法規強制執行,需在遵循相關法規的前提下使用本指導原則。如果有能夠滿足相關法規要求的其他方法,也可以采用,但是需要提供詳細的研究資料和驗證資料。
本要點是在現行法規和標準體系以及當前認知水平下制定的,隨著法規和標準的不斷完善,以及科學技術的不斷發展,本要點的相關內容也將進行適時的調整。
一、適用范圍
血液病流式細胞學分析,與細胞形態學、細胞遺傳學、分子遺傳學等一起,用于血液病的輔助診斷、鑒別診斷、預后判斷、治療監測、免疫監測、造血干細胞移植相關檢測等。樣本類型可為血液或骨髓、淋巴結、腦脊液、及其他適用樣本類型。
血液病流式細胞學人工智能分析軟件,指通過人工智能算法幫助醫生分析多參數流式細胞學技術/流式細胞儀產生的結構化數據,如數據文件或圖形文件等進行血液病輔助體外診斷的軟件,通常用于定性或定量分析,可以是軟件組件或獨立軟件。通過對結構化數據的人工智能算法分析,用途包含:(一)基礎分析:通過單一的人工智能算法輔助流式細胞學數據的可視化,從而輔助流式診斷人員進行自動設門和分析。(二)高階分析:通過多個人工智能算法組合使用(如集成學習算法和卷積神經網絡算法組合使用),實現自動設門輔助血液疾病診斷(良/惡性、白血病亞型分類、淋巴瘤分型等)、化療后的微小殘留病監測等。
產品在醫療機構、醫學實驗室使用,其結果供執業醫師參考。軟件作為血液病流式細胞學輔助診斷工具,其提示的診斷結果不能作為臨床診斷決策的唯一依據。
產品管理類別:
獨立軟件分類編碼:21-04-02(計算機輔助診斷/分析軟件)
軟件組件分類編碼:22-01-08(流式細胞分析儀器)
應注意本要點主要適用于輔助決策類的人工智能醫療器械,按照第三類管理,其他類別的產品可根據其適用性參照執行。關于人工智能醫用軟件分類的判定,可參照《人工智能醫用軟件產品分類界定指導原則》。
產品名稱:建議依據醫用軟件通用名稱要求,按“特征詞1(如有)+特征詞2(如有)+特征詞3(如有)+核心詞”結構編制。具體到該類產品,建議體現處理對象和臨床用途,如血液病(具體病種)+流式細胞學輔助分析/檢測軟件,可參考《醫療器械分類目錄》、《醫用軟件通用名稱命名指導原則》中的品名舉例或已批準的同類產品進行命名。如為軟件組件,則產品名稱體現醫療器械名稱,如“多參數流式細胞儀”,但在適用范圍體現人工智能算法類型,在產品說明書體現使用限制等相關內容。
本要點基于《人工智能醫療器械注冊審查指導原則》的基本框架要求,其中關于人工智能醫療器械的的術語定義、相關要求參照上述指導原則。
二、產品簡介
該類軟件的分析對象基于流式細胞儀產生的標準化的結構化數據文件或圖形文件等。
產品的工作原理:產品為獨立軟件或軟件組件,采用人工智能算法對流式細胞儀數據進行處理(如:數據特征提取、數據通過函數圖形化以及自動設門、決策分析等),實現對流式細胞儀數據、對細胞分類及定量結果進行分析,達到輔助診斷的功能。
主要結構及組成:結構組成明確交付內容和功能模塊,其中交付內容包括軟件安裝程序、授權文件、外部軟件環境安裝程序等軟件程序文件,功能模塊包括客戶端、服務器端(若適用)等,若適用注明選裝、模塊版本。
服務器端:負責接收并處理請求,對請求進行數據處理,調用人工智能算法(如PCA、t-SNE、SVM等)對數據進行處理并輸出分析結果。把用戶請求的數據結果返回給瀏覽器。
客戶端:將服務器端分析結果呈現到用戶界面。用戶 可在用戶界面端進行自動設門、細胞分群、輔助分類、輔助診斷、報告管理、檢索查詢、用戶管理、查看日志等功能操作。
預期使用環境:申報產品主要使用環境為醫療機構、醫學實驗室。
三、基本要求
在滿足相關法規、規章、指導原則、標準的前提下,還應重點關注下列內容:
(一)綜述資料
詳細描述該產品的算法名稱,選擇該算法的依據和權威文獻,數據處理的在流式細胞分析流程中的節點及輔助決策功能及功能實現方法,描述配套使用流式細胞儀器設備(廠家、型號、注冊證號及主要參數設置:包括激光數、通道設置等)及儀器質量控制參數(儀器校準、電壓補償等)、配套使用的流式細胞檢測試劑(名稱、廠家、注冊證號等),描述數據產生的樣本類型。
人工智能醫療器械從成熟度角度可分為成熟和全新兩種類型,其中成熟是指安全有效性已在醫療實踐中得到充分證實的情形,全新是指未上市或安全有效性尚未在醫療實踐中得到充分證實的情形。人工智能醫療器械的算法、功能、用途若有一項為全新則屬于全新類型,反之屬于成熟類型。
在資料中應當說明采用算法的成熟程度,采用全新算法的,應當在綜述資料中詳細說明。
闡述軟件研發背景,包括對輔助決策功能的介紹,目前該血液病臨床診斷參考標準、診療指南和分型依據。申報產品數據處理標準和分型依據應與臨床標準一致。
(二)非臨床資料
1.產品技術要求及檢驗報告
性能指標應包括“所分析的數據類型”、“分析速度”、“臨床功能”等,如數據處理、數據分析、診斷提示等。
其他要求請參照《醫療器械軟件注冊審查指導原則(2022年修訂版)》。
2.軟件研究資料
按照《醫療器械軟件注冊審查指導原則(2022年修訂版)》、《醫療器械網絡安全注冊審查指導原則(2022年修訂版)》、《人工智能醫療器械注冊審查指導原則》的要求,提交研究資料。明確發布版本號。提交的研究資料主要包含軟件研究資料、算法研究資料、網絡安全研究資料。研究資料內容應涵蓋申報產品適用范圍中描述的全部內容。
2.1風險管理
軟件安全性級別越高,其生存周期質控要求越嚴格,注冊申報資料越詳盡,同時由于全新類型的潛在未知風險多于成熟類型,故需結合成熟度予以綜合考慮。
人工智能醫療器械的軟件安全性級別可基于產品的預期用途、使用場景、核心功能進行綜合判定,其中預期用途主要考慮用途類型、重要程度、緊迫程度等因素,使用場景主要考慮使用場合、疾病特征、適用人群、目標用戶等因素,核心功能主要考慮功能類型、核心算法、輸入輸出、接口等因素。
參考YY/T 0316、GB/T 42062和YY/T 0664等標準進行風險管理。風險管理活動應當基于軟件的預期用途、使用場景、核心功能予以實施,并貫穿軟件全生命周期過程。申請人重點考慮如下風險因素:此類產品算法風險包括算法選擇風險、算法訓練及驗證的風險等,主要包括算法選擇依據不充分,算法訓練使用的數據質量不高,數據代表性不足或數據量不夠,由于樣本前處理、流式細胞儀光路信號校準和質控,流式細胞分析過程或流式熒光試劑標記發生錯誤等原因產生,造成過擬合和欠擬合導致的泛化能力不足,數據擴增(如適用)和數據偏移等造成的假陰性和假陽性錯誤等;使用中的風險主要包括未經培訓的人員使用,以及樣本采集、處理、儀器校準等錯誤,造成的假陰性和假陽性錯誤。其中假陰性即漏診,可能導致后續診療活動延誤,特別是要考慮快速進展疾病的診療活動延誤風險,而假陽性即誤診,可能導致后續不必要的診療活動。
以算法特性為核心重點關注其泛化能力,以模型/數據為基礎重點關注其質控情況,同時從風險管理角度兼顧算力不足與失效的影響。
注冊申請人應結合人工智能醫療器械的預期用途、使用場景、核心功能開展風險管理活動,采取風險控制措施將風險降至可接受水平,并貫穿于人工智能醫療器械全生命周期過程。
此外,進口人工智能醫療器械還需考慮中外差異風險,如人種、流行病學特征、臨床診療規范等差異。
2.2需求規范
提供軟件需求規范文檔,明確軟件的功能、性能、接口、用戶界面、運行環境、網絡安全、數據采集等需求。
數據采集需考慮數據來源的合規性、充分性和多樣性,數據分布的科學性和合理性,數據質控的充分性、有效性和準確性。數據應來源于分布于不同地域的機構且不少于3家,確保數據應當具備高度的多樣性。機構應使用軟件說明書中的分析流程采集數據,如明確的樣本來源、儀器設備、樣本處理(前處理、單細胞懸液的制作、熒光抗體試劑的選擇等)。數據分布的科學性和合理性,應考慮包括但不限于疾病構成(如分型、分級、分期)、人群分布(如高危人群、患者,性別、年齡)等情況。
算法性能需結合產品預期用途,綜合考慮分析速度、敏感性、特異性、重復性與再現性、泛化性等性能指標的適用性及其要求。
同時還需考慮因梯度消失(如適用)、梯度爆炸(如適用)、過擬合和欠擬合等影響算法性能的因素。
使用限制需考慮產品禁用、慎用等場景,準確表述產品使用場景,提供必要警示提示信息。
2.3軟件性能研究
提供產品性能研究資料以及產品技術要求的研究和編制說明,給出軟件相關的功能性、安全性指標的確定依據。注冊申請人需在軟件研究資料中提交GB/T 25000.51自測報告,亦可提交自檢報告或檢驗報告代替自測報告。產品技術要求中各指標依據產品自身特點確定。
2.4算法研究資料
根據《人工智能醫療器械注冊審查指導原則》提交算法研究資料。逐項提交每個人工智能算法或算法組合的算法研究報告。
2.4.1算法基本信息
明確算法的名稱、類型、結構、輸入輸出、流程圖、算法框架、運行環境等基本信息以及算法選用依據。
其中,算法類型從學習策略、學習方法(基于模型的算法和基于數據的算法)、可解釋性(白盒算法和黑盒算法)等角度明確算法特性。算法結構部分應明確算法的層數、參數規模等超參數信息。流程圖應包含輸入示例、學習方法示意圖輸出示例。算法框架應明確所用人工智能算法框架的基本信息,包括名稱、類型(自研算法框架、現成算法框架)、型號規格、完整版本、制造商等信息。若基于云計算平臺,應明確云計算的名稱、服務模式、部署模式、配置以及云服務商的名稱、住所、服務資質。運行環境應明確算法正常運行所需的典型運行環境,包括硬件配置、外部軟件環境、網絡條件;若使用人工智能芯片應明確其名稱、型號規格、制造商、性能指標等信息。算法選用依據詳述算法或算法組合選用的理由和基本原則。
2.4.2算法風險管理
結合預期用途、使用場景、和核心功能、算法成熟度、網絡安全等因素,此類產品的軟件安全性級別為嚴重級別。提供算法風險管理資料,若無單獨文檔可提供軟件風險管理資料,并注明算法風險管理所在位置。
2.4.3算法需求規范
提供算法需求規范文檔,若無單獨文檔可提供軟件需求規范,并注明算法需求所在位置。
2.4.4數據收集
2.4.4.1提供數據來源合規性聲明,列明數據來源機構的名稱、所在地域、數據收集量、倫理批件(或科研合作協議)編號等信息。
2.4.4.2數據采集
建議參考2.2需求規范的要求,提供數據采集操作規范文檔,包括數據采集方案和數據采集標準操作規程。
數據采集主要由臨床機構實施,應明確流式細胞分析流程的全部信息(包括全流程質控標準、panel設計、儀器和試劑的標準化SOP等)、明確樣本及樣本處理要求、樣本的來源與分布、樣本質量要求(樣本保存時限、質量判斷標準)、采集設備要求(應包含流式細胞儀型號、通道數量、注冊證號、設備質控及補償調節方式、數據的基本處理方式等)、流式抗體試劑要求(廠家、注冊證號等)、數據質量要求、采集過程、數據脫敏、數據轉移等要求。采集過程應對樣本數據進行編號并加密,方案中應包含編號規則。
關于數據集采集方面建議明確偏倚的控制方法,如:
(1)為了保證研究對象的代表性,可從目標人群中隨機抽樣、多中心,保證樣本量要足夠大。
(2)為了保證研究對象選擇的質量,研究設計中應有明確、具體的診斷標準、納入標準和排除標準。
(3)檢測標本盡量保持試驗條件的前后一致性,注意試劑質量、儀器性能、樣本保存和操作規定。
建議通過限制、配比、標準化、隨機化、分層分析和多元分析等進行控制。
2.4.4.3數據整理
明確數據清洗/預處理程序,對數據處理中應用的軟件進行簡述,并以附件的形式提交數據處理中各軟件的軟件研究資料。
數據整理基于原始數據庫考慮數據清洗、數據預處理的質控要求。數據清洗需明確清洗的規則、方法、結果,數據預處理需明確處理的方法、結果。數據整理所用軟件工具均需明確名稱、型號規格、完整版本、制造商、運行環境,并進行軟件確認。
2.4.4.4數據標注
明確標注人員和仲裁人員的資質要求和培訓內容,標注人員和仲裁人員應為相關專業資質的人員,數據應經過2人或以上進行標注,標注方式建議給出依據。簡述標記系統信息,給出數據/圖像界面截圖,詳細介紹標注過程、標注對象和標注標準(注意與臨床診斷標準的一致性)等。明確標注過程質控、標注質量評估、數據安全保證等要求,明確室內質控、室間質評等要求。應當注意標注數據的質量評估,可抽選一定比例數據由有資質的非標注人員結合臨床進行綜合診斷評估。
提供原始數據庫、基礎數據庫、標注數據庫、擴增數據庫(如有),關于疾病構成的數據分布情況,包括適用人群、數據來源機構、采集設備、樣本類型等因素。
若數據來自公開數據庫,提供公開數據庫的基本信息(如名稱、創建者、數據總量等)和使用情況(如數據使用量、數據質量評估、數據分布等)。
2.4.4.5數據集構建
明確各數據集劃分的方法及依據。訓練集應當保證樣本分布具有均衡性,根據預期用途,訓練樣本應涵蓋不同血液病樣本類型、不同分群類型等。調優集應保證樣本分布符合臨床實際情況,如陽性比例,不同類型比例、不同臨床分型比例等均應符合臨床實際情況。訓練集、調優集、測試集的樣本應兩兩無交集并通過查重予以驗證。
如適用,進行數據擴增驗證時,應當明確擴增的方式、方法、倍數,并考慮數據擴增對軟件的影響及風險。列表比較擴增數據庫與標注數據庫的差異,論證擴增數據庫樣本量的充分性以及分布的合理性。
2.4.5算法訓練
依據適用人群、數據來源機構、采集設備、樣本類型等因素,提供訓練集、調優集(若有)關于疾病構成的數據分布情況。
算法訓練基于訓練集、調優集進行訓練和調優,應明確算法訓練所用的評估指標、訓練方式、訓練目標、調優方法,提供ROC曲線或混淆矩陣等證據(如:迭代次數-訓練CountIOU曲線和迭代冊數-召回率曲線)證明訓練目標滿足醫療要求,提供訓練數據量-評估指標曲線(如迭代次數-Loss曲線)等證據以證實算法訓練的充分性和有效性。
應當提供人工智能學習算法常用的評估函數來評估算法訓練的質量。
2.4.6算法性能評估
基于測試集對算法設計進行評估,確認軟件算法性能的效率、敏感性、特異性,性能應滿足算法設計要求。
算法驗證:算法性能評估應包括軟件對樣本滿意度評價的能力測試、泛化能力的測試、壓力測試(指采用罕見或特殊的真實數據樣本開展的算法性能測試)、對抗測試、重復性與再現性測試、診斷敏感性與特異性測試、分析效率測試、算法性能影響因素分析、性能評估結果比較分析、偏差報告等研究。應以該軟件和臨床綜合診斷的一致性進行比較.評價細胞分群的準確性。
通過樣本量估算確定測試集中陰、陽性樣本和壓力樣本的樣本量,提供測試集關于疾病構成(包括年齡和血液病類型、白細胞分化抗原種類)、數據來源的數據分布情況。明確對抗樣本的選擇原則;明確性能評估的可接受標準和標準制定依據。提交測試報告和結果圖示例。
若使用第三方數據庫開展算法性能評估,提供第三方數據庫的基本信息(如名稱、創建者、數據總量等)和使用情況(如測試數據樣本量、評估指標、評估結果等)。還應提交第三方數據庫數據樣本來源和本分析軟件在產品技術要求、說明書中要求的流式細胞分析流程的一致性評價(包含樣本要求、處理方式、流式細胞熒光抗體試劑的選擇、流式細胞儀、熒光及電壓補償方式、應用的函數等),應提交符合要求的流式細胞儀數據。
算法的確認:此類產品均需按照GCP的要求開展臨床試驗。臨床試驗的機構應具備該軟件要求的流式細胞分析流程所需的人員、試劑及儀器設備,臨床試驗應以該軟件和臨床綜合診斷的一致性進行比較,確保其產生的流式細胞儀數據與該軟件說明書和技術要求的一致性。
2.4.7算法可追溯性分析
提供算法可追溯性分析報告,即追溯算法需求、算法設計、源代碼(明確軟件單元名稱即可)、算法測試、算法風險管理的關系表。若無單獨文檔可提供軟件可追溯性分析報告,需注明算法可追溯性分析所在位置。
(三)產品說明書和標簽樣稿
明確該產品適用范圍,明確流式細胞學人工智能分析的全流程質控標準、適用的流式細胞分析設備、設備參數設置、適用的試劑及試劑盤設計、樣本處理方法和本軟件適用的標準化SOP等。明確軟件報告內容。對產品帶來的假陽/假陰性風險進行提示。
根據算法性能綜合評價結果,對產品的適用范圍、使用場景、核心功能進行必要限制,并在說明書中明確產品使用限制和必要警示提示信息。明確數據采集設備和數據采集過程相關要求。
若產品采用人工智能黑盒算法,根據算法影響因素分析報告,在說明書明確產品使用期限、使用限制和必要的警示提示信息。
明確人工智能算法的算法性能評估總結(測試集基本信息、評估指標與結果)、臨床評價總結(臨床數據基本信息、評價指標與結果)、決策指標定義(或提供決策指標定義所依據的臨床指南、專家共識等參考文獻)等信息。若采用基于數據的人工智能算法,說明書還應補充算法訓練總結信息(訓練集基本信息、訓練指標與結果)列明算法訓練總結和算法性能評估總結以及臨床評價總結。
對于軟件安全性級別為嚴重級別的產品,需提供用戶培訓材料。