知名深度學習專家吳恩達和他在史丹佛大學的團隊一直在醫療方面努力。之前,吳恩達團隊研發出一種深度學習演算法,可診斷 14 類別的心律失常。近日,該團隊又出新成果,他們提出一種名為 CheXNet 的新技術。研究人員表示:新技術已在辨識胸部透視圖中肺炎等疾病準確率超越了人類專業醫師。
研究人員開發的全新演算法,能從胸部透視圖偵測肺炎,且水準超越專業放射科醫生。此演算法稱為 CheXNet,是一個 121 層的卷積神經網路。該網路在目前最大的開放式胸部透視圖資料庫「ChestX-ray14」訓練。ChestX-ray14 資料庫包含 14 種疾病的 10 萬張胸部前視圖 X 光影像。
Our full paper on Deep Learning for pneumonia detection on Chest X-Rays. @pranavrajpurkar @jeremy_irvin16 @mattlungrenMD https://t.co/BxUuObRErS pic.twitter.com/6aAoiw4iSj
— Andrew Ng (@AndrewYNg) 2017年11月16日
背景
據了解,僅在美國,每年就有超過 100 萬成年人因為肺炎住院,5 萬人因為該病死亡(CDC,2017)。目前,胸部 X 光檢查是診斷肺炎的最佳方法(WHO,2001),這種方法在臨床護理和流行病學研究發揮重要作用。然而,透過 X 光片診斷肺炎是一個具挑戰性的工作,需要放射科醫師具備專家級的判斷能力。吳恩達團隊的最新成果中,電腦科學院和醫學院的研究人員共同提出一種新的機器學習模型,可讓電腦透過胸部透視圖自動診斷肺炎,其診斷準確率超過了放射科醫師。
▲ 圖一:ChexNet 是一個 121 層的卷積神經網路,匯入胸部透視圖,匯出患病機率。在這個例子中,CheXnet 準確探測到肺炎,同時定位圖中最有可能患病的位置。
CheXNet 可匯出肺炎可能性的熱區圖。研究人員在最近發表的 ChestX-ray14 資料庫(Wang et al., 2017)訓練了 CheXNet。該資料庫包含 112,120 張各自標注最多 14 種不同胸部疾病(包括肺炎)的正面胸部透視影像。研究人員使用密集連線(Huang et al., 2016)與批歸一化(Ioffe & Szegedy, 2015)來最佳化深度神經網路。
▲ 圖 2:CheXNet 使用胸透影像辨識肺炎工作的表現要超過放射科醫師的平均水準。測試中,CheXNet 與 4 名人類放射科醫師在敏感度(衡量正確辨識陽性的能力)及特異性(衡量正確辨識陰性的能力)上比較。放射科醫生的個人表現以橙色點記號,平均值以綠色點記號。CheXNet 匯出從胸部透視圖測出的患肺炎機率,藍色曲線是分類臨界值形成的。所有醫師的敏感度─特異性點均低於藍色曲線,這意味著 CheXNet 肺炎診斷水準與放射科醫師相同,甚至更高。
對放射科醫師來說,要用胸部 X 光發現肺炎很困難。胸部透視影像中,肺炎的特徵通常很模糊,容易和許多其他良性不規則混淆。這些差異導致放射科醫師在診斷肺炎時有相當大差異。為了評估放射科醫師的表現,史丹佛大學的研究人員找來四名專業放射科醫師,使用 ChestX-ray14 子集的 420 張圖片測試他們。這 420 張圖片裡,診斷正確與否的標準為其他大多數放射科醫生的投票結果,與此同時,CheXNet 模型也以同樣的標準測試。
研究人員發現,該模型在敏感性和特異性的肺炎偵測工作超過放射科醫生的平均水準。為了比較 CheXNet 與之前使用 ChestX-ray14 模型的能力,研究人員對照新模型與其他模型在 ChestX-ray14 對 14 種疾病的診斷準確率,結果發現新模型的表現在所有方面均超過之前的結果。以放射科專家的水準從胸部透視影像自動偵測出疾病,不僅在臨床流程有巨大好處,且對那些無法享受專家資源的人來說,都非常寶貴。
CheXNet
問題表述
肺炎偵測工作其實是一個二元分類問題,匯入的是正向正面胸部 X 光影像 X,匯出是分別指示肺炎存在或不存在的二元標籤 t∈{0, 1}。對訓練集合中的單個標籤,研究人員最佳化雙向叉熵損失。
L(X, t) = −t log p(T = 1|X) − (1 − t) log p(T = 0|X)
p(T = i|X) 是網路分配給標籤 I 的機率。
模型架構和訓練
CheXNet 是一個 121 層的密集卷積神經網路(DenseNet)(Huang et al., 2016),是基於 ChestX-ray14 資料集合進行訓練。DenseNet 透過神經網路最佳化資訊流和梯度,使非常深入的神經網路最佳化工作更易於處理。團隊將最終全連線圖層交替成為單匯出影像,之後再應用非線性 Sigmoid 函數(常見的 S 形函數)匯出包含肺炎發生機率的影像。
神經網路的權重是隨機起始化,並利用 Adam 標準參數(β1 = 0.9 and β2 = 0.999)進行端到端訓練(Kingma & Ba, 2014)。研究者使用了規格為 16 的迷你批處理檔案訓練該模型,並且過度取樣少數(正)類(Buda et al., 2017)。團隊還使用一個 0.01 初始學習率,每進行十次驗證就會衰退一個要素,在一個時期之後進入損失平穩期,再選取最低驗證損失的那個模型。
數據
訓練
據了解,研究人員使用 ChestX-ray14 資料集,該資料集合是由 Wang et al. (2017) 發表的,其中包含了 30,805 名患者的 112,120 的前胸 X 光片。Wang et al. (2017) 採用放射醫學的自動擷取方法,用最多 14 個不同的胸腔病理學標籤來標注每張 X 光影像。他們將有肺炎記號的 X 光影像記號為正向範例,然後把其他標籤的影像記號為肺炎偵測工作的負向範例。團隊將整個資料集合隨機拆分,80% 的資料用於訓練,20% 的資料用於驗證。
將胸透影像導入進神經學習網路之前,研究人員把影像大小縮小到 224×224,然後基於 ImageNet 訓練集合的影像均值和標準偏差歸一化。此外,還透過隨機水準調整來增強訓練資料。
測試
研究人員收集了 420 張前胸 X 光片為測試資料集合,這些資料是史丹佛大學 4 位獲得放射科執業資格的醫師提供,他們也都被要求按照 Wang et al. (2017) 約定的 14 種病理學基準標注影像。
這四名放射科醫師分別有 4 年、7 年、25 年和 28 年從業經驗,其中一位放射科醫師還是次級專科研究生,並受過專業胸腔放射科醫師培訓。不過,所有測試的放射科醫師都無法抓取任何患者資訊或有關病理知識的資料。標籤將匯入一個標準化資料錄入程式。
CheXNet 表現 vs. 放射科醫師表現
▲ 表 1:CheXNet 在 ChestX-ray14 資料庫裡 14 種病變的偵測結果與另外兩種模型比較。偵測腫塊、結節、肺炎、氣胸和肺氣腫時,CheXNet 的表現超越之前業界最佳水準至少 0.05。
研究人員評估肺炎偵測工作測試集合放射科醫師的表現。回想一下,在 test420 中每個影像都有來自 4 名執業放射科醫生的真實標籤。研究者使用大多數投票為基礎來評估其他 3 名放射科醫師的表現。同樣,他們也讓 4 名放射科醫師中 3 個做大多數投票,來評估 CheXNet 的表現,並重複做 4 次,這樣可以全面覆蓋 3 組醫師(每組 3 人)。
受試者工作特徵(ROC)曲線比較 CheXNet 和發射科醫師表現,該曲線將模型敏感性與 1─特異性比較。圖 2 展示 ROC 曲線模型,以及 4 名放射科醫師及其平均運算元:每個獨立發射科醫師的表現都用橙色記號表示,平均值則是用綠色表示。CheXNet 匯出胸腔 X 光片監測出肺炎的概率,並透過改變分類邊線闕值來生成 ROC 曲線。結果顯示,CheXNet 能與放射科醫師一樣,甚至可超出他們的水準偵測出肺炎。
事實上,研究者還設了兩個限制條件。首先,CheXNet 模型和放射科醫師都不允許使用之前曾檢查過的患者資料,或是其他患者病史資料──因為這已被證明會降低放射科醫師的表現(Berbaum et al., 1985; Potchen et al., 1979)。其次診斷時,僅向放射科醫師和 CheXNet 模型提供正面 X 光片,但是如果想提升 15% 診斷準確率,至少還需要患者側面 X 光影像資料(Raoof et al., 2012)。因此,在這兩個限制條件下,其實對人類放射科醫師的表現評估比較保守。
相關工作
最近,深度學習和大型資料集的發展使演算法效能在各種醫學影像測試超過醫學專家,包括糖尿病視網膜病變偵測(Gulshan et al., 2016)、皮膚癌分類(Esteva et al., 2017)、心律失常偵測(Rajpurkar et al., 2017)和出血辨識(Grewal et al., 2017)。
▲ 圖 3:使用 Class Activation Maps,ChexNet 定位辨識出的病變,高亮區域是分析病症需要重點觀察的位置。
胸部影像的自動化診斷得到越來越多關注,包括肺結核分類(Lakhani & sun daram, 2017)和肺結節偵測(Huang et al., 2017)。Islam et al. (2017) 利用公開可用的 OpenI 資料庫(Demner – fushman et al., 2015)研究不同卷積架構對不同不規則偵測的表現。Wang et al. (2017) 發表了 ChestX-ray14,比之前的資料庫大了一個量級,同時在 ImageNet 還預先訓練不同卷積神經網路架構。最近,Yao et al. (2017) 利用標籤間的統計相關性做出更準確的預測,超過了 Wang et al. (2017) 14 種裡 13 種。
肺炎在患者發病率和死亡率中占很大比例。早期診斷和治療對預防包括死亡在內的併發症至關重要。胸透檢查每年大約有 20 億次,是最常用的成像檢查工具,用於檢查、診斷和管理包括肺炎在內的各種疾病。然而,世界衛生組織估計,即使有放射裝置,全球三分之二的人口也會因缺乏優質的放射科醫生,而導致可治療疾病的死亡率上升。
研究人員表示,機器自動化能力不斷提高,希望這項技術可提高醫療保健水準,讓缺乏優質放射科醫生資源的地區也能享受到專家級的醫療。
(本文由 雷鋒網 授權轉載;首圖來源:Designed by Freepik)