AI 醫療大幅擴張,美國 FDA 有何反應?

60

隨著一大波公司湧入 AI 醫療領域,一股現代淘金風潮再度掀起。

但由於高風險性,FDA 將監管這些軟體。在美國,雖然「21 世紀治療方案」已撤銷對部分 CDS 的監管(ClinicalDecisionSupport,臨床決策支援),並表示還會撤銷更多專案的監管,但確信的是,FDA 會繼續監管高風險的 CDS。問題的關鍵在於:FDA 該如何監管集成機器學習技術的高風險 CDS?

一些人稱醫療領域的機器學習應用太新,不知道 FDA 將有何反應,但事實並非如此,FDA 已有數十年的機器學習監管經驗了,且幸運的是,這能給我們一些有用的幫助:當這種技術大幅擴張時,FDA 會有何反應?

FDA 對機器學習技術的監管實踐

1998 年開始,FDA 放射健康部門已開始監管電腦輔助辨識系統,在大多數情況下,這些軟體利用複雜的演算法找出醫學影像的病竈區。最初,這認定為三級裝置──這意味著最高風險等級和最大監管力度,後來,FDA 又評定為二級,即認定風險等級適中。這些軟體出售給臨床影像醫生使用,指導醫生看片,但醫生無法完全依靠這些軟體。在理論上,這些軟體風險為零,但 FDA 懷疑影像醫生將完全依靠系統檢查,對風險警告置若罔聞。

2012 年,FDA 發表一連串指導檔案,涵蓋了與這類軟體有關的所有規定。在這些檔案中,FDA 重申之前法規明確說明的內容:按軟體的臨床應用分類將有效提升監管水準。FDA 區分 CADe 和 CADx,前者僅標出病竈,後者會進一步給予疾病診斷和分類。很明顯,CADx 的風險等級更高,因為需要更嚴格監管,通常認定為三級。

但 FDA 對 CADx 的態度也在與時俱進。就在 2017 年 7 月,FDA 決定將辨識癌症病變的 CADx 降為二級,FDA 的此舉強調「電腦輔助醫療影像可疑癌症病變辨識」,這種軟體基於從醫療影像擷取的資訊或特徵,辨識病變,並且提供病變資訊。將其評定為二級軟體是一個「大跨步」,促進了這種軟體的發展。因為三類產品的製造商必須提交一大疊上市前批准申請,並進行大範圍的臨床試驗;而二級產品製造商僅需要闡明產品基本上與市面已有的產品相同(可能也需要臨床試驗,但無論臨床設計或實驗範圍,都更適中)。

對集成機器學習算法的影像分析軟體,FDA 已有一套相對成熟的臨床試驗監管辦法。研究人員可建立一套醫學影像資料集,其中包含已確診的正常人和患者影像,申請者可設計臨床試驗對比,有無軟體幫助的情況下每組最終的診斷效果。當然,還有其他可能的臨床設計,這取決於申請者需要證明的假設是什麼。

除此之外,FDA 有一套相對明確的審查指標來審查集成機器學習演算法的軟體。在 2012 年的指導性檔案中,FDA 列出這些指標,比如演算法設計、特徵、模型、用於訓練和測試演算法的資料集,以及使用的測試資料「衛生程度」。後者非常重要,因為有些申請者沒有基於測試集選擇分類 ,顯然這不被允許。FDA 想知道公司如何抓取資料,以保證反應真實情況。

FDA 判斷公司試驗用的統計方案和研究假設是否合適有豐富的經驗,以他們的經驗來看,許多申請者的研究包含多個假設,這可能影響後續資料分析、統計方案等,總而言之,FDA 最重要的目標之一是確保產品設計和臨床驗證能反映預期用途。

FDA 已收到一些申請,其中明確聲明系統有機器學習算法──FDA 稱為「適應性系統」,隨著之後進入市場,使用過程蒐集更多新證據,這樣的系統會不斷進化。事實上,開發一套適應性系統是大多數開發者的終極目標,但這給 FDA 造成一定的挑戰,因為現有的法規是:醫療裝置一旦有改動,必須重新取得批准。如果這個裝置自行進化,到哪個時間點需要重新批准呢?同樣,FDA 必須決定什麼程度的改變需要重新驗證。至少在某些情況下,簡單的確定軟體參數以控制軟體遠遠不夠。

除此之外,還有許多其他懸而未決的問題,比如軟體開發商是否能重新使用測試資料集;訓練或測試的資料量如何確定。FDA 很可能要求開發在數據集匯總加入聲音雜訊,以確保驗證軟體的變化。

這些大都是醫療影像軟體領域的事,FDA 也開始插手其他機器學習技術在其他醫療軟體領域應用,他們已收到大量其他領域的批准申請,比如分析實驗結果;關鍵生命體徵的遠端監控及腦波圖等訊號領域。FDA 裝置中心其他部門也面臨機器學習相關問題,很有可能諮詢放射健康部門的同事。

基於 FDA 的經驗,可以推斷出至少 4 點:

  1. 公司不得不長期布局,並且著重考慮系統的預期臨床用途。除為醫生解釋具體疾病,提供要點參照和特定的低風險特徵外,任何其他事都可能提升監管力度。
  2. 分類會是個大問題。FDA 可能會考慮到機器學習的特定用途,將其視為一項全新技術,因此規定全新的分類規則。如果是這樣,將此類產品帶入市場的第一家公司或以三類裝置的標準申請批准,或透過將產品風險重新分類以尋求產品分類標準降級。但這並非意味著前途黯淡和厄運連連,我們知道,FDA 會靈活應對。許多例子中,FDA 允許現有的產品集成機器學習技術,並以二類裝置的標準批准。
  3. 如果產品無法構建一個令人信服的驗證標準,那麼研究設計可能會很複雜。在放射科大多數案例中,透過活檢和其他診斷過程,我們能建立一個客觀性的標準。其他領域的智慧化需要更有創造性的臨床試驗設計。
  4. 應用機器學習技術到放射科過程中,FDA 已意識到所有技術性問題將轉化成其他形式的機器學習問題。FDA 官員很可能求助於放射健康部門的官員諮詢機器學習問題,這尤其適用與自動適應系統有關的其他更具挑戰的監管問題。

好消息是,FDA 似乎很關注機器學習的價值及這項技術如何變革醫療界,所以大多數情況下,他們可能對該技術的缺陷抱持理解,並不想不合時宜地一律阻止。此外,近期 FDA 釋出軟體監管的一系列改善性措施,這可能對正在開發的機器學習產品有益。例如,FDA 似乎有意讓產品上市前批准更容易些,與此同時, 對上市後製造商搜集大範圍應用的證據要求提高。無論如何,FDA 對臨床和嚴謹性的擔心必須要用恰當的證據來應用。

結論

FDA 一直在研究機器學習技術,了解越來越多,但從實做層面來講,FDA 很難招募並留住機器學習專家,因為他們在一般公司賺得更多。

FDA 的醫學影像、診斷等部門已在研究電腦輔助診斷技術了,有一天,可能會公布一些模擬、分析工具和有價值的資料,這將加速醫療軟體的發展。同時,透過研究機器學習先驅者二十多年的路,後來者或許能找到推廣新技術的最佳方法。

(本文由 雷鋒網 授權轉載;作者 Bradley Merrill Thompson,隸屬於 Epstein Becker & Green, P.C. 公司,負責醫療器械、藥品等的臨床試驗審批、FDA 法規諮詢等事項;首圖來源:Flickr/The U.S. Food and Drug Administration CC BY 2.0)