臨床試驗是證明產品安全性有效性的重要途徑和手段。醫療器械臨床試驗是指在相應的臨床環境中,對擬申請注冊的普通醫療器械在正常使用條件下的安全性和有效性進行確認或者驗證的過程,或對體外診斷試劑的臨床性能進行系統性研究的過程。
很多朋友經常來問,我這個試驗產品準備開展醫療器械臨床試驗,做多少例受試者合適,能不能找一個最低的例數,這樣的話,整個研發成本會比較低。例數太多,經費太高,預算也不好做,老板不同意。而例數太少,審評通不過,整個試驗在注冊時,會面臨退審或者發補。但是開展多少例,NMPA也沒有給一個明確的例數。
對于一些把項目委托出來的公司,在面臨不同CRO報價時,得到的例數也不盡相同,然后就開始茫然了。
對于一個試驗究竟需要開展多少例?不是盲從以往項目的經驗,也不是隨隨便便就開展,還是從科學的角度,進行設計和計算。具體還是要重視統計專家。
一、CFDA對于醫療器械病例數的要求(不含IVD)
1.1《醫療器械臨床試驗質量管理規范》
第二十七條未在境內外批準上市的新產品,安全性以及性能尚未經醫學證實的,臨床試驗方案設計時應當先進行小樣本可行性試驗,待初步確認其安全性后,再根據統計學要求確定樣本量開展后續臨床試驗。
1.2《產品注冊指導原則》
對于有指導原則的產品,可以參考指導原則。雖然有指導原則,具體還是要根據產品的特點、特性進行評估。
例如:某指導原則對于樣本量要求:樣本量根據受試產品的臨床試驗設計類型、主要評價指標等因素來確定。需詳細寫明樣本量估算采用的軟件或公式,以及公式中的所有參數及其估計值,還應結合臨床實際情況考慮試驗對象的可能脫落率等因素。對于非劣效試驗設計,應由臨床專家和統計學家事先給出具有臨床意義的非劣效界值。對于單組目標值設計,亦需明確給出目標值確定的合理依據。
所以具體多少例還是要根據產品特點、設計類型,設計方法、主要療效終點多方位因素進行統計計算。
二、歷年注冊NMPA提出的醫療器械方案病例數的問題
2.1 未提供樣本量的具體計算過程及確定依據。
2.2未提供樣本量計算公式中各參數的確定依據,如:非劣效界值。
2.3未提供臨床隨訪時間的確定依據。
2.4未明確主要評價指標、次要評價指標及其相關依據。
2.5未明確主要終點指標及時間窗的選擇依據。
可見NMPA對于病例數還是很重視的,千萬要重視。
三、如何開展一項臨床試驗,并保證病例數合適
3.1《醫療器械臨床試驗設計指導原則》
臨床試驗收集受試人群中的療效/安全性數據,用統計分析將基于主要評價指標的試驗結論推斷到與受試人群具有相同特征的目標人群。為實現樣本(受試人群)代替總體(目標人群)的目的,臨床試驗需要一定的受試者數量(樣本量)。樣本量大小與主要評價指標的變異度呈正相關,與主要評價指標的組間差異呈負相關。
樣本量一般以臨床試驗的主要評價指標進行估算。需在臨床試驗方案中說明樣本量估算的相關要素及其確定依據、樣本量的具體計算方法。后文提供了樣本量估算公式的樣例,供參考。確定樣本量的相關要素一般包括臨床試驗的設計類型和比較類型、主要評價指標的類型和定義、主要評價指標有臨床實際意義的界值、主要評價指標的相關參數(如預期有效率、均值、標準差等)、Ⅰ類和Ⅱ類錯誤率以及預期的受試者脫落和方案違背的比例等。主要評價指標的相關參數根據已有臨床數據和小樣本可行性試驗(如有)的結果來估算,需要在臨床試驗方案中明確這些估計值的確定依據。一般情況下,Ⅰ類錯誤概率α設定為雙側0.05或單側0.025,Ⅱ類錯誤概率β設定為不大于0.2,預期受試者脫落和方案違背的比例不大于0.2,申請人可根據產品特征和試驗設計的具體情形采用不同的取值,需充分論證其合理性。
3.2計算公式
決定樣本量的關鍵因素有:產品特點、研究類型、主要評價指標、對照組與試驗組主要評價指標的預期療效、非劣效界值或目標值、顯著性水平(α)、把握度(β)、預期失訪率等。
3.2.1 平行對照設計樣本量估算
以下公式中,nT、nC分別為試驗組和對照組的樣本量;Z1-α/2、Z1-β為標準正態分布的分數位,當α=0.05時,Z1-α/2=1.96,當β=0.2時,Z1-β=0.842;(Z1-α/2+Z1-β)2=7.85
(一)優效性試驗
當試驗組和對照組按照1:1隨機化分組,主要評價指標為事件發生率,其方差齊且不接近于0%或100%時,其樣本量估算公式為:
PT、PC分別為試驗組和對照組預期事件發生率;為兩組預期率差的絕對值, = ;Δ為優效性界值,取正值。
試驗組和對照組按照1:1隨機化分組,主要評價指標為定量指標且方差齊時,其樣本量估算公式為:
σ為對照組預期標準差;為預期的兩組均數之差的絕對值, = ;Δ為優效性界值,取正值。
使用該公式計算樣本量為Z值計算的結果,小樣本時宜使用t值迭代,或總例數增加2—3例。
(二)等效性試驗
當試驗組和對照組按照1:1隨機化分組,主要評價指標為事件發生率,其方差齊且不接近于0%或100%時,其樣本量估算公式為:
PT、PC分別為試驗組和對照組預期事件發生率;為兩組預期率差的絕對值, = ;?為等效界值(適用于劣側界值與優側界值相等的情形),取正值。
當試驗組和對照組按照1:1隨機化分組,主要評價指標為定量指標且方差齊時,其樣本量估算公式為:
σ為對照組預期標準差;為預期的兩組均數之差的絕對值, = ;?為等效界值(適用于劣側界值與優側界值相等的情形),取正值。
使用該公式計算樣本量為Z值計算的結果,小樣本時宜使用t值迭代,或總例數增加2—3例。
(三)非劣效試驗
當試驗組和對照組按照1:1隨機化分組,主要評價指標為預期事件發生率,其方差齊且不接近于0%或100%時,其樣本量估算公式為:
PT、PC分別為試驗組和對照組預期事件發生率;為兩組預期率差的絕對值, = ,?為非劣效界值,取負值。
當試驗組和對照組按照1:1隨機化分組,主要評價指標為定量指標且方差齊時,其樣本量估算公式為:
σ為對照組預期標準差;為預期的兩組均數之差的絕對值, = ;?為非劣效界值,取負值。
使用該公式計算樣本量為Z值計算的結果,小樣本時宜使用t值迭代,或總例數增加2—3例。
3.2.2、單組目標值試驗的樣本量估算
以下公式中,n為試驗組樣本量;Z1-α/2、Z1-β為標準正態分布的分數位,當α=0.05時,Z1-α/2=1.96,當β=0.2時,Z1-β=0.842。
當主要評價指標為事件發生率,統計發生率的研究周期相同,且發生率不接近于0%或100%時,其樣本量估算公式為:
PT為試驗組預期事件發生率,P0為目標值。
3.3病例數計算實例(僅供參考,具體產品請專業統計專家)
3.3.1質子碳離子治療系統
假設試驗組預期有效率為95%,目標值設為80%,雙側顯著性水平為0.05,把握度80%,根據統計學計算,需要入組42例受試者??紤]10%脫落,共需要47例受試者。
若CTCAE 3級急性毒性反應的比例超過5%、或出現4級、5級急性毒性反應,臨床試驗失敗。
3.3.2常規牙科樹脂類充填材料
3.3.3血液透析濃縮物
非劣效試驗設計時假設對照產品透析達標率為98%,預計試驗產品與對照產品的透析達標率相當,臨床認可的非劣效界值為5%,則在顯著性水平0.05(雙側)、80%把握度、考慮5%脫落率的情況下,每組需要130例試驗對象,兩組共需要260例試驗對象。
3.3.4醫用磁共振成像系統
根據臨床要求,影像質量的臨床診斷優良率不得低于75%(目標值)(考慮到MR的圖像受患者配合的影響較大,因此目標值定為75%), 假設試驗組影像質量的優良率為90%,則當顯著性水平?。p側)0.05、檢驗效能80%、考慮10%脫落率,按統計學原則計算得到,試驗中每一部位最少需要的受試者數為60例。所對應的樣本量計算公式為:
公式中的對應試驗組的預期療效水平,則對應目標值水平,代表標準正態分布對應的分位數,對應統計檢驗的一類錯誤水平,在此取0.025,而對應檢驗的二類錯誤水平,計算時取0.2。
3.3.5一次性使用膜式氧合器
非劣效試驗設計時,在顯著性水平0.05(雙側)、80%把握度的情況下,預期達標率估計值95%,非劣效界值為10%,考慮5%脫落率時,每組需要80例,兩組合計應至少入組160例患者。
單組目標值設計時,在顯著性水平0.05(雙側)、80%把握度的情況下,假設目標值應至少為90%,預期達標率為95%時,考慮5%脫落率,試驗共需入組252例患者。
3.3.6 X射線計算機體層攝影設備
臨床試驗采用目標值法的單組試驗。根據臨床要求,臨床影像質量優良率不得低于85%(目標值), 假設試驗組臨床影像質量優良率為95%,則當雙側顯著性水平取0.05、檢驗效能為80%,試驗最少需要的受試者數為80例,考慮5%的脫落率,每個部位需納入的試驗例數為不低于86例,頭頸部、胸部、腹部、骨與關節四個大部位總計不低于344例;如果預期用途中具有冠脈的部位,冠脈需納入的試驗例數也應不低于86例;加上冠脈后,所有部位總計不低于430例。
受試者臨床試驗的部位劃分為五個,分別為:頭頸部、胸部、腹部、骨與關節、以及冠脈。冠脈掃描全部為增強掃描,病例數不低于86例;除冠脈外,增強掃描(含普通增強和血管增強)總病例數不低于80例,每個部位的子部位不低于5例。
所對應的樣本量計算公式為:
公式中的對應試驗組的預期療效水平,則對應目標值水平,代表標準正態分布對應的分位數,對應統計檢驗的一類錯誤水平,在此取0.025,而對應檢驗的二類錯誤水平,計算時取0.2。
3.3.7醫用X線診斷設備
根據臨床要求,影像質量的臨床診斷要求符合率不得低于85%(目標值), 假設試驗組影像質量的臨床診斷要求符合率為95%,則當雙側顯著性水平取0.05、檢驗效能為80%時,試驗最少需要的受試者數為80例。
3.3.8脊柱后路內固定系統
若進行隨機對照非劣效試驗,則需明確對照產品預期療效和臨床認可的非劣效界值;申請人應根據各自產品的性能指標選擇對照品,并采用經典的統計學方法及國內外公認的統計學軟件計算樣本量。例如:假設某隨機對照非劣效臨床試驗,根據文獻報道:其對照品的有效率為95%、臨床認可的非劣效界值為10%,則在雙側顯著性水平0.05、把握度80%、脫落率20%時,每組需要89例。
若進行單組目標值試驗,則需明確試驗產品預期療效和臨床認可的目標值。申請人應提供樣本量足以評價該類產品安全性和有效性的統計學依據,包括以下內容:同類產品臨床認可的主要評價指標的目標值、受試產品主要評價指標的預期療效、I型誤差α、Ⅱ型誤差β;所用到的樣本量計算公式;失訪率的合理估計;使用的統計軟件;引用的參考文獻等。例如:行業認可的該類產品的目標值為85%,當雙側顯著性水平α取0.05,β取0.2,按照經典的統計學公式,若申報產品術后六個月的預期療效假設為95%,納入臨床試驗的受試者病例數至少為75例,假設20%的失訪率,則受試者病例數至少為90例。
3.3.9金屬接骨板內固定系統
行業認可的該類產品有效率的目標值為80%,當雙側α取0.05,β取0.2,按照經典的統計學公式,若申報產品術后6個月的預期有效率假設為95%,納入臨床試驗的受試者病例數至少為42例,假設20%的失訪率,則受試者病例數至少為53例;若申報產品術后六個月的預期有效率假設為90%,納入臨床試驗的受試者病例數至少為108例,假設20%的失訪率,則受試者病例數至少為135例。
3.3.10髖關節假體系統
假設某隨機對照非劣效臨床試驗,根據文獻報道:同類產品的優良率為95%、臨床認可的非劣效界值為10%,則在雙側顯著性水平0.05、把握度80%、脫落率10%時,每組需要84例。
該研究為隨機對照非劣效臨床試驗,主要評價指標是術后12個月Harris評分。根據文獻報道,對照產品的評分為90±10分,臨床認可的非劣效界值為5,則在雙側顯著性水平0.05、把握度80%、脫落率10%時,每組需70例。
該研究為單組目標值試驗,主要評價指標是術后12個月Harris評分“優良率”。根據文獻報道,研究產品的優良率為95%,臨床認可的目標值為85%,則在雙側顯著性水平0.05、把握度80%、脫落率10%時,需87例。
3.3.11人工頸椎間盤假體
假設某隨機對照非劣效臨床試驗,根據文獻報道:同類產品的治療成功率為95%、臨床認可的非劣效界值為10%,則在雙側顯著性水平0.05、把握度80%、須每組完成有效病例74例,考慮脫落率20%時,每組需要89例。