Dropbox 又將添實用新功能：利用 AI 辨識掃描文件檔

由

2019-06-13

雲端文件同步和共享服務商 Dropbox 13 日披露了更多支持光學文字辨識（OCR）功能的技術細節，已經為 Dropbox Business 付費的企業員工可以在 Android 和 iOS 應用程式中使用該功能。

具體操作是這樣的，使用行動裝置上的相機掃描文檔後，光學文字辨識功能將會啟動。然後，應用程式會根據需要裁剪或旋轉文檔，然後將其保存為 Dropbox 中的 PDF。 8 月，該公司表示正在使用電腦視覺來檢測應用程序掃描文件檔。

與人工智慧深度學習結合的 OCR 技術已經不是新鮮事了。GitHub 上的開源軟體可以用於兩者結合，Google 在 Google 街景圖像中也運用了機器學習和 OCR 技術。OCR 系統的初始版本採用市售軟體開發工具包（SDK）。Dropbox 選擇執行自己的數據包以節省資金並提高準確性，因為市售系統主要是為實際的硬體掃描儀構建的，而不是為行動裝置上使用相機的掃描儀。Dropbox 利用用戶數據訓練系統。

Dropbox 的軟體工程師 Brad NeubergNeuberg 表示，Dropbox 需要收集用戶上傳一部分圖像或文件，例如收據、發票、信件等。為了收集這些，公司事先徵得了用戶的同意。如果用戶同意，那麼這些文件資訊一定會被保密。Dropbox 對用戶捐贈的數據採取各種安全措施，比如絕不會將數據保留在本地部署的伺服器上，保持持續並廣泛的審計、部署強大的身分驗證訪問數據措施等。

為了預測文檔中特定單詞的剪切文本，Dropbox 透過卷積神經網絡，然後是雙向長時間短期記憶（LSTM）網路發送圖像，最後連接時間分類（CTC）系統。該系統部分依賴於 Google 的 TensorFlow 開源深入學習框架。為了加強這個系統，Dropbox 借鑒了虛構的數據，然後以簡單的方式進行了轉換。

Dropbox 已經脫離了亞馬遜網路服務（AWS）的公共雲端，並運行自己的資料中心基礎架構。此外，Dropbox 已經開始使用圖形處理單元（GPU）加速的 G2 虛擬機（VM）實例對其模型進行了培訓，並儲存了一些數據在 AWS S3 服務中。為了進一步改進模型，Dropbox 訓練了小數量的圖像單詞。然後，從預測單個詞跳轉到處理整個文件檔。

Dropbox uses AI to to recognize words in documents scanned in its mobile apps

（本文由 36Kr 授權轉載；首圖來源：Dropbox）

Perspective Box 透視箱