国产成人av网址,免费毛片一区二区三区亚女同,同学美妇撅着屁股充满小说,久久激情小视频,欧阳夏舟一家三口照片

深度學習輔助醫療產品開展確證性臨床試驗的多閱片者設計和方法學考慮

嘉峪檢測網 2021-09-10 21:15

摘要 / Abstract

深度學習輔助醫療產品確證性臨床試驗的主要評價目標是輔助臨床醫療的診斷準確性和安全性，多閱片者多病例（MRMC）的研究設計是評價或比較不同輔助醫療產品軟件診斷性能的一種方法，可有效地避免或減少臨床評價過程中因讀片醫生經驗或資歷水平等不同以及使用場景等各種差異而產生的偏倚，從而更加客觀的評價試驗結果。本文基于 MRMC 設計的特點，探討了深度學習輔助醫療產品的臨床試驗設計和方法學思考要點，如對選擇對照、目標疾病診斷金標準、臨床試驗類型和評價指標的考慮；對檢驗假設建立、病例和閱片者樣本量、病例和閱片者的代表性、閱片過程隨機化及對閱片者培訓等的考慮；對臨床試驗過程中可能產生的各種偏倚的考慮。同時，提出了目前仍面臨的問題和難點。建議申辦方多與方法學專家和監管部門溝通，以期為臨床試驗科學、完善、合理的設計和執行提供參考。

The main objective of deep learning-assisted confirmatory clinical trials is to evaluate the accuracy and safety of clinical diagnostic products. The multi-reader multi-case (MRMC) research design is a method to evaluate or compare the diagnostic performance of different medical device software, which can effectively avoid or reduce bias in the clinical evaluation process due to differences in the experience or qualification of film readers and different scenario of application and can deliver more objective study results. Based on the characteristics of MRMC design, this paper discusses key considerations of clinical trial design and methodology of deep learning-assisted medical products, including the selection of control, the gold standard of target disease diagnosis, the type of clinical trial and evaluation index, the establishment of test hypothesis, the sample size of cases and readers, the representativeness of cases and readers, the randomization of film reading process, the training for film readers, and consideration of bias in the studies. At the same time, current problems and difficulties are put forward. It is suggested that sponsors communicate with methodology experts and regulators more frequently to facilitate more scientific study design and conduct studies more effectively.

關鍵詞 / Key words

深度學習；人工智能；輔助醫療；多閱片者多病例；確證性臨床試驗

deep learning; artificial intelligence; deep learning-assisted medical device software; multi-reader multi-case; confirmatory clinical trials

以深度學習（deep learning）為核心的人工智能（artificial intelligence，AI）技術的興起給計算機圖像識別、自然語言處理和語音識別等領域帶來了巨大的技術突破，這些技術突破也逐漸從通用算法研發拓展到了醫療、遙控、自動駕駛等各領域學科場景中 [1]。以臨床醫療為例，如通過引進 AI 深度學習技術在內的各種自動化工具；各領域深度學習研發輔助決策醫療器械軟件；基于大量的醫療數據信息和各種算法，為醫務人員提供診療活動建議以輔助進行臨床決策（如臨床的輔助篩查、輔助診斷、輔助治療和輔助結局預測）等。

近年來，AI 在我國輔助治療、醫學影像處理等醫療器械領域的應用愈發廣泛，為提高診斷率和治療有效性做出了重大貢獻，已成為醫療器械行業的熱點和焦點。目前，使用傳統 AI 技術的醫療器械已有多款產品注冊上市（如乳腺腫瘤、肺結節、結腸息肉等輔助識別軟件），而使用深度學習等新一代 AI 技術的醫療器械仍處于研發、檢測、臨床試驗階段。從批準上市前對深度學習輔助醫療器械軟件確認的臨床試驗角度出發，考慮到軟件的真實使用場景和使用對象的差異性，國家藥品監督管理局醫療器械技術審評中心建議臨床試驗采用多閱片者多病例（multi-reader multi-case， MRMC）研究設計 [2]。MRMC研究設計是 FDA 推薦的，用于比較 2 種或多種影像診斷軟件診斷性能的常用方法，可有效避免臨床評價過程中因讀片醫生、使用場景等各種差異而產生的讀片偏倚，從而更加客觀的評價試驗結果 [3]。但由于 MRMC 研究設計常需要閱片者分別在不同的閱片模式下（如單獨閱片和 AI 輔助閱片）對所有入選病例交叉讀片，閱片結果可能存在病例與閱片者之間的多重相關問題，也可能存在試驗結果和閱片者間潛在的交互作用。這對于 MRMC 設計的臨床試驗來說不管是研究設計、實施還是最終統計分析都比常規設計的臨床試驗更加專業和復雜，尤其是樣本量計算及對相關參數的合理假設。據此本文從臨床研究方法學角度對 MRMC 研究設計的相關設計要點進行簡要介紹，以期為開展深度學習輔助醫療器械軟件確認臨床試驗提供支持和參考。

01、研究設計方法

AI 輔助醫療器械確證臨床試驗的目的旨在評價目標設備在預期使用人群和計劃使用場景中對目標疾病篩查、診斷或預測等臨床評估的安全性和有效性。采用 MRMC 研究設計的臨床試驗設計分類基本分為以下 3 種 [4]。

①配對閱片者配對病例設計：全交叉設計全部閱片者對每一種閱片模式下所有病例的影像數據給出閱片結果。②非配對閱片者配對病例設計：所有病例均提供所有閱片模式下的影像數據，部分閱片者只針對某一種閱片模式下的影像數據給出閱片結果，其余閱片者對另一種閱片模式下的影像數據給出閱片結果。③配對閱片者非配對病例設計：部分病例提供某一種閱片模式下的影像數據，其余病例提供另一種閱片模式下的影像數據，全部閱片者均對所有病例的影像數據給出閱片結果。其中，應用最多最常見的是①全交叉配對設計，這種設計需要的樣本量相比②③非配對設計少。如果在某個前瞻性研究中，無法同時獲取多名臨床醫生對同一患者影像數據的閱片結果或者同一患者無法同時提供所有不同閱片模式下的影像數據時，也可以采用非完全交叉的研究設計方法。

02、評價指標和研究假設

MRMC 與新藥和醫療器械確證性臨床試驗的設計思路一致，主要和次要評價指標的選擇取決于目標產品的預期用途，并且評價指標應該在研究設計階段方案中進行明確的定義。

2.1 評價指標

MRMC 研究設計常應用于影像診斷產品的臨床評價，如 AI 輔助臨床醫生對于肺結節的檢出 [5] 或者對于乳腺癌的篩查診斷 [6]，采用 MRMC 研究設計的 AI 輔助醫療器械確證臨床試驗的評價指標多為診斷試驗研究的相關評價指標。從診斷產品的性能角度考慮，受試者工作特征曲線（receiver operating characteristic curve， ROC）曲線下面積（area under curve，AUC）可以綜合所有可能診斷界值（cut-off value）下的靈敏度（sensitivity）和特異度（specificity），從整體水平評價及比較不同診斷產品或不同閱片模式下的診斷效能，通常是被優先考慮的一個主要指標。另一方面，從臨床實踐的角度考慮，針對有實際臨床意義或影響臨床操作的診斷界值，也建議給出此診斷界值的靈敏度和特異度，以結合臨床實際評價新輔助診斷產品或者影像診斷模式對疾病或患者診斷的實際獲益或風險，通常也會將特定診斷界值下的靈敏度和特異度作為另外一個主要指標，或者也可以退而求其次將其定義為次要評價指標。但需要注意的是，此處的診斷界值應該是對應有明確臨床意義的界值，而不是僅通過分析 ROC 曲線的統計方法得到的界值。目前，AI 輔助醫療器械除應用在病例水平檢測外，也有一部分是具體到病變水平（如結節、冠狀動脈部位）給出相應的結果，所以除對病例水平的 ROC 分析外，專門針對病變水平的無反應 ROC 曲線下面積（free-response ROC area under curve,FROCAUC）及在此基礎上做出改進的可替代無反應 ROC 曲線下面積（alternative free-response ROC area under curve， AFROC-AUC）也常作為評價指標 [7-9]。

2.2 假設檢驗

臨床試驗評價深度學習輔助決策醫療器械軟件的設計多樣，通常情況下建議選擇同期可比的對照進行比較研究，如可以選擇同類儀器或軟件或臨床參考標準進行非劣效比較設計，也可以選擇替代方法，如 AI 輔助醫生聯合閱片與醫生單獨閱片比較進行優效比較設計 [2]。統計學假設檢驗類型的選擇需要結合目標產品的臨床預期、試驗的主要目的和選擇的參考對照綜合考慮，但總體來說假設檢驗基本類型與臨床研究的常見研究假設一致，可以分為非劣效性試驗（noninferiority trial）、等效性試驗（equivalencetrial）和優效性試驗（superiority trial）[10]。幾種假設檢驗的具體表述形式見表 1。

深度學習輔助醫療產品開展確證性臨床試驗的多閱片者設計和方法學考慮

申辦者在計劃開展試驗時需要結合產品實際情況選擇合理的設計類型。國家藥品監督管理局醫療器械技術審評中心也建議優先選擇同品種產品或臨床參考標準進行非劣效對照設計，若無同品種產品且難以獲取臨床參考標準可選擇替代方法，如選擇用戶結合軟件聯合決策與用戶單獨決策進行優效對照設計 [2]。但是無論是哪種設計，非劣效或優效試驗對界值的確定應當有充分的臨床依據。

03、目標疾病診斷金標準

對于 MRMC 設計的臨床試驗來說，必須明確針對研究對象目標疾病狀態的診斷金標準。所謂“ 金標準 ”（gold standard）就是目前醫學界公認的、診斷某一疾病的最佳方法，如病理檢查、隨訪診斷或其他檢查手段的檢查結果等。對于深度學習輔助決策醫療器械軟件或影像診斷等臨床試驗來說，會存在目標疾病暫時并未有明確的診斷金標準或標準診斷方法，針對這種情況基于多名臨床專家共同讀片的診斷結果也可以作為最終評價的金標準。

如果采用多名臨床或影像專家共同讀片的診斷結果作為金標準，建議在研究方案中對以下內容進行明確：①專家的數量。② 專家的專業、資質、知識水平、職稱或資歷。③在讀片過程中為幫助專家給出相對準確的診斷結果而提供給專家的關于研究對象的具體信息（如年齡、性別和其他檢查結果等）。④臨床專家對于目標疾病定義為陽性或者陰性的明確的判定方法和標準等。需要注意的是，參與目標疾病金標準診斷結果的臨床或影像專家與目標產品試驗評價過程中的閱片醫生必須是完全獨立的。

04、病例和閱片者數量

如前所述，在 MRMC 設計的臨床試驗中，數據變異的來源除入組病例間的變異外，閱片者間的變異性也是一個主要的影響因素。在臨床試驗設計階段尤其是樣本量估算時，需要綜合考慮病例間的變異和閱片者間的變異，分別估計病例和閱片者兩部分的樣本數量。同時，在相同的檢驗假設條件下采用多數量的閱片者也可以在一定程度上減少所需的病例數量。

由于 MRMC 設計的臨床研究樣本量計算推導過程相對比較復雜且偏數學推導，后續本研究組將專門針對樣本量的計算進行闡述，在此不再做詳細介紹。但需要明確的是，在臨床試驗設計時需結合臨床研究的主要目的，即從統計學角度同時考慮估計納入病例和閱片醫生兩部分的樣本量。

05、數據收集和報告

MRMC 設計的臨床試驗中統計評價指標主要是基于 ROC 曲線計算得到的 AUC，以及相關的衍生指標（如 FROC-AUC、 AFROC-AUC），也可以是特定診斷界值下的靈敏度、特異度一類二分類指標。所以，針對這類設計的研究，以 AI+ 臨床醫生評判和臨床醫生獨立評判為例，需要收集的數據信息除病例和閱片者的基本信息外，與有效性評價相關的指標主要為病例水平的金標準診斷結果（如陽性 / 陰性或病例 / 非病例格式的二分類數據）、臨床醫生獨立閱片的診斷結果和 AI 輔助下臨床醫生獨立閱片的診斷結果。其中，與 MRMC ROC 分析相對應，臨床醫生獨立閱片的評判結果和 AI 輔助下臨床醫生獨立閱片的評判結果常常是相對細化的置信度評分，如乳腺影像報告和數據系統（breast imaging reporting and data system，BIRADS）分級形式，即 1~7 級的等級計數形式或百分計數形式，反映了臨床醫生對于判定陽性結果的把握程度，評分越高表示診斷為陽性病例的可能性越大。通常在有些臨床試驗中除細化的置信度評分外，臨床醫生也可根據臨床實際給出一個二分類的結果，用于靈敏度和特異度等指標的計算。

FDA 給出了《關于診斷類產品評價的統計結果報告指南》（Statistical Guidance on Reporting Results from Studies Evaluating Diagnos Tests）[11]，可以為 AI 輔助診斷臨床試驗的統計結果報告提供標準。針對MRMC設計的臨床試驗，參考該指南建議匯報總體的診斷效能情況、每位閱片醫生的診斷準確性，以及考慮閱片者、病例等各種變異下的置信區間等結果。

06、MRMC設計在臨床試驗研究中的偏倚及控制

臨床試驗的主要目的是盡量無偏倚的評價診斷產品的準確度或 2 種或 2 種以上不同診斷產品或診斷模式之間的準確度差異 [12]。但臨床試驗實際操作過程中難免會引入一些偏倚從而影響試驗結果的準確評價，在采用 MRMC 設計的診斷試驗準確度評價研究中最常見的幾種偏倚如下。

（1）選擇偏倚：入選樣本受額外因素的影響無法代表目標總體而引起的偏倚。對 MRMC 設計的臨床研究入選樣本應包括入組病例和入組閱片醫生兩部分。入組病例應包括全面的疾病特征和信息（如不同分型、不同嚴重程度等），入組閱片醫生也應當依據目標產品的預期使用環境和使用對象選擇與之相匹配的閱片醫生（如職稱、資歷、閱片經驗等），以保證研究人群的代表性。

（2）證實偏倚：陽性（或陰性）試驗結果的患者會有更多的機會接受金標準的驗證，這樣當僅以接受金標準驗證的患者進行診斷能力的評估時就會產生證實偏倚，尤其是在回顧性收集資料的研究設計中，更應該注意盡量減少這類偏倚，且前瞻性設計的研究也建議盡可能讓全部入組病例均能接受金標準的驗證。

（3）閱片順序偏倚：在比較 2 種或 2 種以上不同診斷產品或診斷模式之間的診斷能力時，閱片醫生需要分別在不同模式下進行閱片，后一種閱片模式下閱片醫生的判讀可能會受到記憶中前一閱片模式下的信息干預而影響結果。閱片過程的隨機化操作可有效減少這類偏倚，可以隨機分配閱片醫生的閱片順序，也可以隨機分配入組受試者接受時的閱片順序。另外，對于不同診斷產品或診斷模式間的讀片間隔，建議設定至少 4 周的洗脫期，因為洗脫期間隔越長讀片過程中的記憶偏倚相對越小 [3]。另外，為避免閱片醫生間由于不同的閱片習慣和評判標準所帶來的閱片過程和評判結果的偏倚，研究開始前需要對閱片者進行統一的培訓，包括閱片環境、閱片方法和評判結果的標準化定義等，同時建議在方案中明確定義整個閱片流程、閱片操作的規范化和評判結果的標準化。

07、結論

在深度學習輔助醫療器械軟件確認的臨床試驗中，采用 MRMC 的設計方法可以有效地控制由于閱片醫生年資、水平和經驗等不同和器械軟件使用場景和目的的不同所帶來的結果評價的偏倚，同時采用多閱片者研究可以在一定程度上減少需要的入組病例數，提高試驗的把握度。但是，由于 MRMC 的設計引入了閱片者的因素，使得臨床試驗的研究設計和統計分析變得相對更加復雜，建議申辦方在開展類似的臨床試驗時多與方法學專家和相關監管部門溝通，合理設計試驗流程和操作、減少試驗中的偏倚，更加客觀和準確地評價臨床試驗的效果。

引用本文

尚美霞,閻小妍,姚晨*,李雪迎,朱賽楠.深度學習輔助醫療產品開展確證性臨床試驗的多閱片者設計和方法學考慮[J].中國食品藥品監管,2021(7):100-105.

深度學習輔助醫療產品開展確證性臨床試驗的多閱片者設計和方法學考慮

第一作者簡介

尚美霞，碩士研究生，北京大學第一醫院醫學統計室，主管技師。專業方向：臨床研究統計設計與分析

通訊作者簡介

姚晨，教授，衛生統計學碩士，臨床研究方法學博士生導師，北京大學第一醫院醫學統計室主任，北京大學臨床研究所副所長。專業方向：臨床研究統計設計與分析

來源：中國食品藥品監管雜志

深度學習輔助醫療產品開展確證性臨床試驗的多閱片者設計和方法學考慮

相關新聞：