Google 發表簡化機器學習開發流程與複雜性的 Cloud AI Platform Pipelines

由

2020-03-23

Google 11 日宣布推出 Beta 版 Cloud AI Platform Pipelines，專門設計部署強固、可重複的人工智慧流程（AI Pipeline），並能在雲端落實監控、稽核、版本追蹤和再現性。Google 認為它是能為機器學習（Machine Learning，ML）工作流程提供「易於安裝」安全執行環境的方法，減少企業產品投產耗費的時間。

「若你只是用筆電製作機器學習模型原型，似乎很簡單明瞭。但當你必須開始關注其他確保機器學習工作流程的可持續性與可擴展性等方面，事情會變得更複雜。」Google 產品經理 Anusha Ramesh 和員工開發大使 Amy Unruh 的部落格文寫道：「機器學習工作流程會包括許多相互依賴的步驟，從資料準備和分析，到訓練、評估，再到部署等。這很難以特別方式組合並追蹤程序，且也會出現更多稽核與再現性之類的問題。」

AI Platform Pipelines 大致包括兩大部分：1. 部署及運行與 Google 雲端平台（GCP）服務相整合結構化 AI 工作流程的基礎設施，以及 2. 用於構建、除錯和共享流程與元件的流程工具。服務會運行在 Google Kubernetes（K8S）叢集，叢集是安裝過程的一部分且自動建立，並可透過雲端 AI 平台儀錶板存取。藉由 AI Platform Pipelines，開發人員可透過 Kubeflow Pipeline 軟體開發套件（SDK）或透過 TFX SDK 客製化 TensorFlow Extended（TFX）流程範本指定某個流程。此 SDK 套件可編譯流程並提交給 Pipeline REST API 伺服器，伺服器會儲存並調度流程以執行。

支援各種 Google 雲端服務，並提供自動化 Metadata、工件和鏈結追蹤功能

人工智慧流程使用開放原始碼 Argo 工作流程引擎執行流程，並有額外微服務（Microservices）記錄詮釋資料（Metadata）、處理元件 IO，並規劃流程執行的排程。各流程步驟會當作叢集的個別獨立 pod（最小部署單位）執行，每個元件都可利用 Google 雲端服務，如 Dataflow 串流分析服務、AI Platform Training and Prediction 服務、BigQuery 雲端資料倉儲服務等。同時，這些流程包含能在叢集執行繪圖卡與張量處理器（Tensor Processing Unit，TPU）運算等步驟，並可直接運用像是自動擴展及節點自動隨需配置等功能。

AI Platform Pipelines 能執行的功能還包括採用 ML Metadata 的自動化詮釋資料追蹤機制，ML Metadata 是個函式庫，能記錄並檢索與機器學習開發人員及資料科學家工作流程相關的詮釋資料。自動化詮釋資料追蹤機制，還能記錄用於流程步驟及流程參數的工件（artifact）、跨輸入／輸出工件的鏈結，以及會產生並使用的流程步驟。

此外，AI Platform Pipelines 支援流程版本控制（Pipeline Versioning），允許開發人員上傳同流程的多版本（並在 UI 使用者介面分組），並支援自動化工件和鏈結追蹤。原生工件追蹤功能支援諸如模型、資料統計、模型評估指標等追蹤。鏈結追蹤則能顯示使用者模型、資料等歷史紀錄與版本。

Google 表示， AI Platform Pipelines 不久後將支援多使用者隔離（Multi-User Isolation）功能，允許每個存取流程叢集的人控制誰可以存取流程和其他資源。其他即將推出的功能還包括工作負載識別碼（Workload Identity），支援更透明的 Google 雲端服務存取；詮釋資料、伺服器資料、工作歷史紀錄和評量指標等後端資料叢集外儲存的 UI 式設定；更簡單的叢集升級；以及更多工作流程創建範本。

Google launches Cloud AI Platform Pipelines in beta to simplify machine learning development

（首圖來源：Google Cloud）