沒有大數據也沒關係，一般公司也能展開「小數據」機器學習之旅

由

2020-10-18

過去十年，「大數據」（Big Data）成為矽谷最熱門的流行語。當機器學習（Machine Learning，ML）模型基於巨量資料集訓練後，因此徹底深入了解某特定領域，進而為頂尖高科技公司帶來突破。例如，Google 透過追蹤和分析每年超過 1 兆筆搜尋查詢微調排名演算法。事實證明，能回答所有人問題的智慧之力，是可透過充足資料的暴力演算法達成。

但這會有潛在問題：大多數公司受限於「小數據」（Small Data）；許多情況下，只有幾十個想透過 ML 自動化的流程範例。如果你嘗試為企業客戶打造強健的 ML 系統，就得開發新技術克服數據不足的問題。

將小數據轉換成為大數據的過程，有兩種已證明非常關鍵的技術 Transfer Learning 遷移學習及 Collective Learning 集體學習，讓中等規模公司也能從過去只有科技巨頭才會看到的 ML 使用案例獲利。由於當前只有 15% 公司部署 AI 或 ML，因此這些技術有極高機會徹底改變商業世界。

內容目錄 隱藏

1 開放原始碼 BERT 模型改變了玩 ML 的遊戲規則

2 「小樣本學習」成為小數據 ML 社群界的流行語

3 遷移學習＋集體學習＋其他＝企業 ML 界限的重新劃定

開放原始碼 BERT 模型改變了玩 ML 的遊戲規則

當然，資料並不是建立世界一流機器學習模型的唯一條件，首先也會有構建模型的小問題。鑑於機器學習工程師短缺，對大多數組織而言，不太可能僱用專家團隊從頭開始構建 ML 系統。這種差距正好解釋為什麼 Google 這樣資源豐富的科技巨頭能從 ML 獲得不成比例收益的原因了。

但過去幾年，許多開放原始碼 ML 模型（包括專門理解語言的知名 BERT 模型，是 Google 在 2018 年發表的 NLP 模型）開始改變遊戲規則。創建像 BERT 等級模型所需的複雜度（「大型」版有約 3.4 億個參數），意味很少有組織會考慮支援這種計畫。但由於它是開放原始碼，因此企業可調整公開可用的指南，以因應特定使用案例。

為了解這些使用案例的樣貌與狀況，可考慮參考顧客回饋管理軟體平台供應商 Medallia 這類公司的做法，是機器學習公司 Moveworks 的客戶。Medallia 本身沒有足夠資料為內部使用案例（如 IT 支援）建立並訓練有效的 ML 系統，但小數據確實包含大量等待 ML 加以解鎖的寶貴洞見。透過新技術運用收集洞見，Medallia 從確認需要關注哪些內部工作流程，到理解員工尋求技術支援時使用的公司特定語言，都更有效率。

「小樣本學習」成為小數據 ML 社群界的流行語

在此有個涉及數兆美元的問題：你如何採用旨在解決特定問題的開放原始碼 ML 模型，並將模型應用到企業不同問題的處理？答案就是先從遷移學習做起，毫無疑問，這需要將獲得的知識從某領域轉移到數據較少的另一領域。

例如，透過採用像 BERT 這類開放原始碼 ML 模型（專門設計理解通用語言）並改進其他面向，如今 ML 能理解員工描述 IT 問題的獨特語言。語言只是開始，因為才剛開始認識小數據的巨大潛力。

一般而言，這種提供 ML 模型非常小且特定的訓練數據選項做法稱為「小樣本學習」（Few-Shot Learning），這個名詞迅速成為 ML 社群新流行語。一些最強大的 ML 模型（例如具里程碑意義的 GPT-3 模型及 1,750 億個參數，比 BERT 多了幾個數量級）已展示透過少量訓練範例學習新任務的前所未有能耐。

GPT-3 本質上將整個網際網路當作「切向域」（Tangential Domain），透過建立強大的知識基礎，模型很快就能精通這些新穎的任務，就像愛因斯坦不需要太多練習就可成為西洋跳棋大師。儘管 GPT-3 並非開放原始碼，但應用類似小樣本學習技術，便能在企業啟用新 M L使用案例，而這些案例幾乎沒有訓練數據。