引言:2020年11月26日,國家藥監局發布《關于真實世界數據用于醫療器械臨床評價技術指導原則(試行)的通告》(2020年第77號),詳見正文。
真實世界數據用于醫療器械臨床評價技術指導原則(試行)
本指導原則旨在初步規范和合理引導真實世界數據在醫療器械臨床評價中的應用,為申請人使用醫療器械真實世界數據申報注冊以及監管部門對該類臨床數據的技術審評提供技術指導。本指導原則中提及的醫療器械包括體外診斷試劑。
本指導原則是供申請人和審查人員使用的技術指導文件,不作為法規強制執行,應在遵循相關法規的前提下使用本指導原則。真實世界數據和真實世界研究處于快速發展階段,本指導原則基于現有認知水平制定,需根據科學發展不斷完善和修訂。
一、概述
(一)真實世界數據與證據
本指導原則所述真實世界數據是指傳統臨床試驗以外的,從多種來源收集的各種與患者健康狀況和/或常規診療及保健有關的數據。
圍繞相關科學問題,綜合運用流行病學、生物統計學、循證醫學等多學科方法技術,利用真實世界數據開展的研究統稱為真實世界研究。真實世界研究通過系統性收集真實世界數據,運用合理的設計和分析方法,開展前瞻或回顧性研究。
真實世界證據指的是,通過分析真實世界數據,形成醫療器械使用、風險/收益相關的臨床證據,可能作為有效的科學證據用于監管決策。由于真實世界數據來源不同,數據質量可能存在較大差異,并非所有的真實世界數據都能產生有效的真實世界證據。
(二)真實世界研究的優勢與局限性
相比于傳統臨床試驗,一般來說,真實世界研究在現實環境下開展,對納入患者限定相對更少,樣本量可能較大,更可能獲得長期臨床結局,研究結果的外推性可能較好。真實世界研究可使用多種數據,如醫院病歷數據、登記數據、醫療保險數據等。真實世界研究還可用于觀察罕見嚴重不良事件,回答罕見疾病診療相關問題,評價臨床結局在不同人群、不同醫療環境、不同使用方法之間的差異等。
真實世界研究的局限性包括但不限于,真實世界數據來源眾多,數據質量有待評價;真實世界研究通常存在較多的偏倚和混雜(包括選擇偏倚、信息偏倚、混雜等),研究結論可能存在挑戰。
二、常見真實世界數據來源
常見的真實世界數據包括但不限于登記數據、醫院病歷數據、區域健康醫療數據、醫療保險數據、健康檔案、公共監測數據、患者自報數據、移動設備產生的數據等。此外,真實世界數據還可包括在醫療器械生產、銷售、運輸、存儲、安裝、使用、維護、退市、處置等過程中產生的數據(如驗收報告、維修報告、使用者反饋、使用環境、校準記錄、運行日志、影像原始數據等)。
真實世界數據依其來源及特征,包括但不限于以下情形:
(一)產生于健康醫療服務的提供和付費過程,基于管理目的生成,如醫院電子病歷數據、醫保數據、健康檔案等。
(二)基于數據庫建立時的研究目的,設立統一的數據標準和數據收集模式,在常規臨床實踐中形成并建立的數據資源,如器械登記數據等。
三、真實世界數據質量評價
良好的真實世界數據質量是開展真實世界研究的基礎,直接影響真實世界研究生成的證據強度。真實世界數據質量評價,在遵循倫理原則,符合法規要求,保障數據安全的基礎上,需關注數據的相關性和可靠性。數據的相關性,指的是數據是否可充分回答與研究目的相關的臨床問題,包括數據是否涵蓋研究人群數據,是否能形成相對統一或標化的干預/暴露,是否可設置可比的對照,是否包含研究所需的結局變量及測量結果,是否可獲得混雜因素的相關數據。數據的可靠性,指的是數據采集的準確性,包括采集前確定采集范圍、采集變量,制定數據詞典、規定采集方法、采集數據的流轉方式、儲存介質格式等,充分保障數據的真實性和完整性等。評價真實世界數據質量,具體可從以下方面進行考慮:
(一)代表性
數據所包含的人群是否涵蓋研究的目標人群。
(二)完整性
數據被收集和獲取的程度,即相對于研究目的,數據是否完整,如研究變量的缺失是否影響研究結局的評估,樣本量及隨訪時間是否足以回答研究問題等。
(三)準確性
數據對患者健康狀況、診療及保健反映的準確程度,如患者年齡、使用器械、手術類型是否準確。準確性評價包括原始數據記錄的準確性,數據采集的準確性(如是否建立規范統一的數據采集方法,是否核查不同來源數據的準確性等),以及數據治理的恰當性(如是否建立規范統一的數據治理流程,包括數據安全性處理、數據鏈接、數據清洗、數據編碼、數據結構化、數據傳輸等,是否核查數據治理算法的正確性)。
(四)真實性
醫療器械可被唯一標識以及唯一標識被記錄的程度,以識別和分析該器械的全部使用過程。
(五)一致性
數據采集遵循相同的過程和程序的程度,包括統一的數據定義和穩定的病例報告表或版本受控的其他數據收集表。
(六)可重復性
變量可重復的程度。例如,對同一患者,結局變量測量和分類的一致性。
四、真實世界研究設計常見類型及統計分析方法
真實世界數據用于醫療器械臨床評價時,應基于具體研究目的,進行策劃和設計,遵循倫理原則,符合法規要求,保障數據安全。
研究策劃包括明確研究問題,確定數據來源及收集方式,以及組建研究團隊等。研究設計包括確定設計類型,明確研究對象和研究變量,識別混雜及偏倚的來源并制定相應措施進行合理控制,以及事先制定統計分析計劃等。
(一)真實世界研究設計常見類型
真實世界研究設計類型主要分為試驗性研究和觀察性研究。
1.試驗性研究
實用性臨床試驗是在常規或接近常規的臨床實踐中開展的臨床試驗,實效性隨機對照試驗是實用性臨床試驗的一種重要類型。
實用性臨床試驗關注干預措施在常規臨床實踐中的效果,其研究對象是在常規臨床實踐中應用干預措施的患者群體,可能存在多種合并癥;干預措施由于與常規臨床實踐保持較好一致,從而受干預者技能和經驗的影響。因此,研究設計需基于其特點進行全面考慮。
實用性臨床試驗通常選用常規治療、標準治療或公認有效的治療措施作為對照,觀察指標通常選擇對患者或研究結果的使用者具有重要臨床意義的指標,根據研究目的不同,可包括安全性、有效性、治療依從性、衛生經濟等方面,因其注重評價遠期結局,隨訪時間較長,隨訪頻率通常與常規臨床隨訪一致。
2.觀察性研究
觀察性研究包括隊列研究、病例-對照研究、橫斷面研究、病例系列等設計類型。申請人可根據研究目的,選擇恰當的研究設計。由于觀察性研究更可能出現偏倚及混雜,需預先進行全面識別,并采取有效的控制措施。
3.其他
在單組試驗中,使用真實世界數據作為外部對照,是形成臨床證據的一種特殊設計類型。外部對照需充分考慮試驗組和對照組的可比性,如研究人群、臨床實踐、診斷標準、測量和分類等。
(二)統計學分析方法
在真實世界研究中,研究者需要根據研究目的、數據以及設計類型,選擇合理的統計學方法,常見的統計分析方法見附錄。
試驗性研究的統計分析方法與傳統臨床試驗相似,其統計分析計劃包括數據集定義、分析原則與策略、缺失數據處理、分析指標與分析方法、亞組或分層分析、敏感性分析、補充分析和結果報告等。統計分析的基本原則亦為意向性治療分析原則。觀察性研究由于更容易產生偏倚和混雜,數據分析的關鍵是采用統計分析技術最大限度的控制混雜產生的偏倚,可用的分析技術除傳統的分層分析、多變量分析外,還包括傾向性評分等。
五、可考慮將真實世界證據用于醫療器械臨床評價的常見情形
基于真實世界數據形成的真實世界證據可支持醫療器械全生命周期臨床評價,涵蓋上市前臨床評價及上市后臨床評價。真實世界證據用于醫療器械臨床評價的常見情形如下:
(一)在同品種臨床評價路徑中提供臨床證據
同品種臨床評價路徑主要基于同品種醫療器械的臨床數據開展臨床評價,需要的臨床數據包括同品種產品的臨床數據和/或申報產品的臨床數據。
對于同品種產品的臨床數據,真實世界數據是其重要來源,其有助于確認產品在常規臨床實踐中的安全有效性;識別產品的潛在風險(如罕見的嚴重不良事件);甚至通過獲知同類產品在不同人群中的實際療效,明確最佳使用人群;通過知曉同類產品的行業水平,為申報產品的上市前風險/收益評價提供信息。申報產品合法使用獲得的真實世界數據,可用于確認申報產品與同品種器械間的差異,不對申報產品的安全性有效性產生不利影響。
(二)用于支持產品注冊,作為已有證據的補充
由于全球法規尚待進一步協調以及產品上市策略等因素影響,部分醫療器械尚未實現全球同步上市。注冊申請人可綜合考慮產品設計特點及適用范圍,已有的臨床證據,各監管國家或地區對于臨床證據要求的差異等情況,在已上市國家或地區收集真實世界數據并形成真實世界證據,作為已有臨床證據的補充,支持在中國的注冊申報,可避免在原有臨床證據不足時在中國境內開展臨床試驗。
(三)臨床急需進口器械在國內特許使用中產生的真實世界數據,可用于支持產品注冊,作為已有證據的補充
根據國家相關規定,在部分區域指定醫療機構內,特許使用的臨床急需進口醫療器械,按照相關管理制度和臨床技術規范使用產生的真實世界數據,經過嚴格的數據采集和系統處理、科學的統計分析以及多維度的結果評價,可用于支持產品注冊,作為已有證據的補充。特別是通過境外臨床試驗進行臨床評價,有證據表明/提示將境外臨床試驗數據外推至中國人群可能受到境內外差異的影響時,可考慮使用該類數據作為支持。
(四)作為單組試驗的外部對照
在單組臨床試驗設計中,可從質量可控的真實世界數據庫中提取與試驗組具有可比性的病例及其臨床數據,作為外部對照。外部對照通常來源于具有良好質量管理體系的登記數據庫,其可接受申辦者和監管方等的評估,以確認其數據的相關性和可靠性。建議采用同期外部對照,如使用歷史數據進行對照,將因為時間差異引入多種偏倚,降低臨床試驗的證據強度。
(五)為單組目標值的構建提供臨床數據
目標值是專業領域內公認的某類醫療器械有效性/安全性評價指標所應達到的最低標準,包括客觀性能標準和性能目標,是在既往臨床數據的基礎上分析得出,用于試驗器械主要評價指標的比較和評價。真實世界數據可作為構建或更新目標值的數據來源。
(六)支持適用范圍、適應癥、禁忌癥的修改
醫療器械上市后,基于所在國家或地區的相關法規,在合法使用的前提下,獲得的真實世界數據可用于支持適用范圍、適應癥及禁忌癥的修改。可能的情形包括發現額外的療效、潛在的獲益人群、慎用人群、產品遠期安全性確認等。
(七)支持在說明書中修改產品的臨床價值
醫療器械上市后的真實世界證據,可用于支持修改說明書中修改產品的臨床價值。例如,對于測量、計算患者生理參數和功能指標的醫療器械,部分生理參數和功能指標在上市前評價時主要關注測量和計算的準確性,未充分發掘其臨床價值。真實世界數據可用于構建生理參數和功能指標,或者基于其做出的臨床治療決定與臨床結局之間的因果推斷,從而修改說明書中產品的臨床價值。
(八)支持附帶條件批準產品的上市后研究
對用于治療罕見病、嚴重危及生命且尚無有效治療手段的疾病和應對公共衛生事件等急需的醫療器械,附帶條件批準上市后,可利用真實世界數據開展上市后研究,以支持注冊證載明事項的完成。
(九)用于高風險植入物等醫療器械的遠期安全性和/或有效性評估
高風險植入物等醫療器械,特別是市場上首次出現的高風險植入物,在上市前臨床評價中,難以確認產品的遠期療效和風險,識別罕見嚴重不良事件。可利用真實世界數據進行該類產品的上市后研究,評估產品的遠期安全和/或有效性,完成產品的全生命周期臨床評價。
(十)用于治療罕見病的醫療器械全生命周期臨床評價,加快其上市進程,滿足患者需求
真實世界數據可在多維度支持治療罕見病的醫療器械快速上市。如擬開展上市前臨床試驗,真實世界數據可作為單組試驗的外部對照,或者用于構建目標值;附帶條件批準后,真實世界數據可用于確認產品的有效性,識別產品風險,進行產品風險/收益的再評價。
(十一)上市后監測
產品的上市后監測,涉及不良事件監測、產品安全有效性再評價等方面,是醫療器械全生命周期臨床評價的重要組成部分。真實世界數據在上市后監測中應當發揮重要作用,如通過收集、提取風險信號,開展不良事件歸因分析,及時發現和控制已上市醫療器械的使用風險,同時促進生產企業對已上市產品的設計改進,推動新產品研發。
附
醫療器械真實世界研究常見統計分析方法
一、實效性隨機對照試驗的統計方法
與傳統隨機對照臨床試驗相比,實效性隨機對照試驗(以下簡稱pRCT)在現實醫療環境中開展,患者個體差異可能較大,接受干預的標準化程度可能降低,患者依從性可能較差,臨床專業人員的醫療技術可能存在不同,研究失訪可能增加。pRCT的統計分析需遵循事先制定的統計分析方案,考慮因素包括但不限于以下情形:
(一)意向性分析是常用的統計分析方法,需重視對患者失訪的處理,預先明確失訪患者的處理辦法并說明原因;
(二)pRCT的研究人群、臨床環境等存在較大異質性,研究結果檢驗效能可能較低,應謹慎使用非劣效設計。
(三)pRCT在隨機后可能仍會出現混雜,例如患者接受的干預發生變化,不同組別患者的依從性不同等。研究者需根據研究問題與研究假設,采取適當統計方法調整隨機后混雜的影響。
(四)pRCT如果來自于多個中心,需要對中心效應進行控制,當主要結局變量是連續性指標時,可采用協方差分析方法;當主要結局變量是分類指標時,可采用考慮Cochran-Mantel-Haenszel方法。當除中心效應外還有其他協變量需要考慮時,可采用隨機效應模型。
(五)在pRCT統計分析中,建議重視敏感性分析,以評估統計推斷的穩健性。
二、觀察性研究常用的統計分析方法
在觀察性研究中,數據分析的關鍵是采用統計分析技術最大限度的控制混雜因素造成的偏倚。可用的分析方法包括但不限于以下情形:
(一)分層分析
分層分析是指將數據按可能的混雜因素分為多層,每層的內部數據有較好的同質性,是常用的識別和控制混雜造成的偏倚的方法之一。Mantel-Haenszel法是常用的分層分析方法,來評估混雜因素對結果的影響。該分析可判斷外來因素是混雜還是效應修飾作用,或以哪種作用為主,以及確定混雜的大小和方向或效應修飾的大小。但是分層分析只能控制少數混雜因素,若混雜因素數過多可能導致過度分層,使層內樣本量少;對連續性變量只能用等級分層法,常引起不合理的分組。
(二)多變量回歸模型
多變量回歸模型是最常見的控制混雜因素的統計分析方法,根據結局變量的特點選擇logistic回歸、線性回歸、Poisson回歸和Cox比例風險回歸等。值得注意的是,大多數回歸模型用于估計相對效應值。針對存在層次結構的數據可考慮多水平模型,針對存在重復測量的數據可考慮廣義線性混合效應模型和廣義估計方程。但在應用這些模型的時候,仍需考慮其模型的模型假設以及模型適用性。
(三)傾向性評分分析方法
傾向性評分分析是目前觀察性研究中因果推斷常用的分析方法,是一種針對較多混雜因素的調整方法,尤其適用于暴露因素常見而結局事件罕見的研究,或者有多個結局變量的研究。常見的傾向性評分應用方法包括傾向性評分匹配法,傾向性評分分層法,逆概率加權法,以及將傾向性評分作為唯一協變量納入統計模型進行調整分析的方法。其中,傾向性評分的匹配和分層法在醫療器械臨床評價的真實世界研究中已有較為成熟的應用。
值得注意的是,若使用傾向性評分方法,應首先在統計分析計劃中,預先指明用于建立傾向評分模型的變量,以及對模型擬合優度和預測效果進行判斷的標準;在對基線指標建立傾向評分模型時,應保持對結局指標的“盲態”,避免根據結局指標重新調整傾向評分模型,從而獲得“理想”或“預期”結果的情況。
應用傾向性評分進行效應估計時,需判斷傾向性評分接近的患者在不同處理組間的協變量分布是否均衡,報告使用傾向性評分之前和之后的結果,考慮傾向性評分處理后可能對研究結果造成的影響,例如,用傾向性評分匹配后可能導致的估計精度降低(因樣本量下降);或使用傾向性評分加權時,個別極大權重的樣本可能對分析結果造成較大影響等。
傾向性評分方法僅能處理可觀測到的混雜因素,不能控制研究中未采集的混雜因素可能帶來的潛在影響,建議研究中針對評價結果進行合理的解讀和討論,并開展可能的定量分析。