Dropbox 又將添實用新功能:利用 AI 辨識掃描文件檔

57

雲端文件同步和共享服務商 Dropbox 13 日披露了更多支持光學文字辨識(OCR)功能的技術細節,已經為 Dropbox Business 付費的企業員工可以在 Android 和 iOS 應用程式中使用該功能。

具體操作是這樣的,使用行動裝置上的相機掃描文檔後,光學文字辨識功能將會啟動。然後,應用程式會根據需要裁剪或旋轉文檔,然後將其保存為 Dropbox 中的 PDF。 8 月,該公司表示正在使用電腦視覺來檢測應用程序掃描文件檔。

與人工智慧深度學習結合的 OCR 技術已經不是新鮮事了。GitHub 上的開源軟體可以用於兩者結合,Google 在 Google 街景圖像中也運用了機器學習和 OCR 技術。OCR 系統的初始版本採用市售軟體開發工具包(SDK)。Dropbox 選擇執行自己的數據包以節省資金並提高準確性,因為市售系統主要是為實際的硬體掃描儀構建的,而不是為行動裝置上使用相機的掃描儀。Dropbox 利用用戶數據訓練系統。

Dropbox 的軟體工程師 Brad NeubergNeuberg 表示,Dropbox 需要收集用戶上傳一部分圖像或文件,例如收據、發票、信件等。為了收集這些,公司事先徵得了用戶的同意。如果用戶同意,那麼這些文件資訊一定會被保密。Dropbox 對用戶捐贈的數據採取各種安全措施,比如絕不會將數據保留在本地部署的伺服器上,保持持續並廣泛的審計、部署強大的身分驗證訪問數據措施等。

為了預測文檔中特定單詞的剪切文本,Dropbox 透過卷積神經網絡,然後是雙向長時間短期記憶(LSTM)網路發送圖像,最後連接時間分類(CTC)系統。該系統部分依賴於 Google 的 TensorFlow 開源深入學習框架。為了加強這個系統,Dropbox 借鑒了虛構的數據 ,然後以簡單的方式進行了轉換。

Dropbox 已經脫離了亞馬遜網路服務(AWS)的公共雲端,並運行自己的資料中心基礎架構。此外,Dropbox 已經開始使用圖形處理單元(GPU)加速的 G2 虛擬機(VM)實例對其模型進行了培訓 ,並儲存了一些數據在 AWS S3 服務中。為了進一步改進模型,Dropbox 訓練了小數量的圖像單詞。然後,從預測單個詞跳轉到處理整個文件檔。

(本文由 36Kr 授權轉載;首圖來源:Dropbox