沒有大數據也沒關係,一般公司也能展開「小數據」機器學習之旅

38

轉載從: Tech News 科技新報

沒有大數據也沒關係,一般公司也能展開「小數據」機器學習之旅

過去十年,「大數據」(Big Data)成為矽谷最熱門的流行語。當機器學習(Machine Learning,ML)模型基於巨量資料集訓練後,因此徹底深入了解某特定領域,進而為頂尖高科技公司帶來突破。例如,Google 透過追蹤和分析每年超過 1 兆筆搜尋查詢微調排名演算法。事實證明,能回答所有人問題的智慧之力,是可透過充足資料的暴力演算法達成。 

但這會有潛在問題:大多數公司受限於「小數據」(Small Data);許多情況下,只有幾十個想透過 ML 自動化的流程範例。如果你嘗試為企業客戶打造強健的 ML 系統,就得開發新技術克服數據不足的問題。

將小數據轉換成為大數據的過程,有兩種已證明非常關鍵的技術 Transfer Learning 遷移學習及 Collective Learning 集體學習,讓中等規模公司也能從過去只有科技巨頭才會看到的 ML 使用案例獲利。由於當前只有 15% 公司部署 AI 或 ML,因此這些技術有極高機會徹底改變商業世界。

開放原始碼 BERT 模型改變了玩 ML 的遊戲規則

當然,資料並不是建立世界一流機器學習模型的唯一條件,首先也會有構建模型的小問題。鑑於機器學習工程師短缺,對大多數組織而言,不太可能僱用專家團隊從頭開始構建 ML 系統。這種差距正好解釋為什麼 Google 這樣資源豐富的科技巨頭能從 ML 獲得不成比例收益的原因了。

但過去幾年,許多開放原始碼 ML 模型(包括專門理解語言的知名 BERT 模型,是 Google 在 2018 年發表的 NLP 模型)開始改變遊戲規則。創建像 BERT 等級模型所需的複雜度(「大型」版有約 3.4 億個參數),意味很少有組織會考慮支援這種計畫。但由於它是開放原始碼,因此企業可調整公開可用的指南,以因應特定使用案例。

為了解這些使用案例的樣貌與狀況,可考慮參考顧客回饋管理軟體平台供應商 Medallia 這類公司的做法,是機器學習公司 Moveworks 的客戶。Medallia 本身沒有足夠資料為內部使用案例(如 IT 支援)建立並訓練有效的 ML 系統,但小數據確實包含大量等待 ML 加以解鎖的寶貴洞見。透過新技術運用收集洞見,Medallia 從確認需要關注哪些內部工作流程,到理解員工尋求技術支援時使用的公司特定語言,都更有效率。

「小樣本學習」成為小數據 ML 社群界的流行語

在此有個涉及數兆美元的問題:你如何採用旨在解決特定問題的開放原始碼 ML 模型,並將模型應用到企業不同問題的處理?答案就是先從遷移學習做起,毫無疑問,這需要將獲得的知識從某領域轉移到數據較少的另一領域。

例如,透過採用像 BERT 這類開放原始碼 ML 模型(專門設計理解通用語言)並改進其他面向,如今 ML 能理解員工描述 IT 問題的獨特語言。語言只是開始,因為才剛開始認識小數據的巨大潛力。

一般而言,這種提供 ML 模型非常小且特定的訓練數據選項做法稱為「小樣本學習」(Few-Shot Learning),這個名詞迅速成為 ML 社群新流行語。一些最強大的 ML 模型(例如具里程碑意義的 GPT-3 模型及 1,750 億個參數,比 BERT 多了幾個數量級)已展示透過少量訓練範例學習新任務的前所未有能耐。

GPT-3 本質上將整個網際網路當作「切向域」(Tangential Domain),透過建立強大的知識基礎,模型很快就能精通這些新穎的任務,就像愛因斯坦不需要太多練習就可成為西洋跳棋大師。儘管 GPT-3 並非開放原始碼,但應用類似小樣本學習技術,便能在企業啟用新 M L使用案例,而這些案例幾乎沒有訓練數據。

遷移學習+集體學習+其他=企業 ML 界限的重新劃定

透過強大開放原始碼模型的遷移學習和小樣本學習實作,一般企業終於可買到進入機器學習領域的入場券,但儘管透過遷移學習訓練 ML 所需數據量會少掉好幾個數量級,但要達到強大的效能表現,還需要更進一步實作。

所謂更進一步指的就是集體學習,會在許多公司想自動化相同使用案例時發揮作用。雖然每家公司都受限於小數據,但第三方 AI 解決方案可使用集體學習整合這些小數據集,進而為精細複雜的 ML 創建夠大的語料庫。在語言理解面,這意味著要抽象化特定公司的句子,以揭示底層結構。

遷移學習、集體學習及其他技術結合,正迅速重新劃定企業 ML 的界限。如將許多顧客資料匯總,顯著提高了解員工溝通方式模型的準確性。無庸置疑,我們正在見證小數據機器學習支援的新型工作場所出現。

(首圖來源:pixabay