CES 中 Amazon Alexa 獨領風騷，看來 Google 可能把語音助手搞砸了

由

2019-06-13

從 CES（國際消費類電子產品展覽會 International Consumer Electronics Show）的進展來看，Google 現在確實在把語音互動這件事搞砸，而越來越變成一家很能折騰但不太能幹好事的公司。Google 在公有雲上不太可能超過 Amazon 了，自動駕駛折騰了好多年但看起來失敗的可能性非常大，而在語音互動上 Google 很可能會再一次敗給 Amazon。

語音助手上的大 PK

今年 CES 上最有意思的事情是語音互動型產品氾濫，從輝達到聯想，各大巨頭對此達成了共識，紛紛殺入。這裡面比較核心的兩家分別是 Amazon 和 Google，前者的代表產品是 Echo 和內建的語音助手 Alexa，後者則是 Google Home 和內建的語音助手 Google Assistant。

正常來講不管從那個角度來看都是 Google 有足夠的優勢，有技術、有資源、有積累，但具體看下來 Google 實際上落後甚遠，甚至可能難以挽回。

要想看懂語音互動這方向的走勢，那麼需要深度理解與之相關的產品和技術的本質特徵。

Echo 這類產品的核心特徵是多層技術高度融合（聲學、語音辨識、語義、搜尋、內容）。其中聲學是軟硬體的分割點，向下關聯產品 ID 以及內部架構，向上影響語音辨識。而語義之後的部分則是純軟體與內容。

對於 Amazon 和 Google 這樣的公司，它們先天把自己定義為做生態和平台的公司，所以其核心一定不是 Echo 這個硬體產品本身，而是背後的語音助手比如 Alexa，因為只有 Alexa 才代表新的生態。

Alexa 這種語音助手很多人覺得是像 Android 一樣的作業系統，但實際上看成是一個作業系統＋超級 App 更為合適。

要把 Alexa 這樣的語音助手裝載到各種硬體裡事實上有兩種途徑：

一種是純軟性方式。我就把語音助手做好，不管誰要用裝進去就可以了。這種型態下在技術層次上最多需要下探到語音辨識，核心則是語義和對話。這型態最明顯的參照是搜尋引擎。
另一種則是軟硬融合的方式。我做一個標竿型的硬體產品，然後再把硬體產品中的助手開放出去。這型態最明顯的參照是 Android 這樣的作業系統。

純網際網路公司會傾向第一種方式，因為這種型態最輕，而後一種型態要組織生產和銷售，還要下探到聲學這樣的層次，無疑重很多。

但型態一的核心問題有兩個：

語音互動很難在現有平台上啟動（手機、平板、電腦），而直接把近場的語音互動遷移到遠場效果會很差，誰來解決落地過程中各種坑坑窪窪的問題？
不知道硬體上的需求，如何設計出與各種硬體適配的 API，如何知道怎麼提供對硬體廠商最便利的方案？把這種苦累活完全下放給各個硬體廠商自己摸索嗎？

Google 開放 ASR 和 NLP 的 API 其實已經許久了，但從 CES 的結果來看，顯然 Alexa 這種系統整合型的方案更受歡迎，它既解決了與下層硬體的適配問題，也解決了後端內容整合問題。

提高一層來看整件事情，我們可以講做語音助手這事，事實上有幾個關鍵控制點：

做標竿型的硬體產品，但不與已有用戶習慣對立。直接講就是新品類必須避開手機和 PAD，否則一定會被覆寫掉。
豐富後端內容，對於語音助手而言，硬體、音樂甚至打電話都是內容。內容需要從頭部開始逐漸填補長尾內容。引申就是要把 Alexa 和 Echo 這個產品分割開來，讓它後面的東西盡可能多。
樹立技術優勢，在這裡技術既包含深度學習這樣的純演算法也包含聲學等與物理緊密相連的網域。當內容沒多到一定程度時，前端技術（聲學和語音辨識）要比語義重要。因為它們更影響速度和精度。

亞馬遜做對了什麼？

在上一節提到的幾個點上亞馬遜幾乎每個都做對了。

第一亞馬遜沒迴避硬體的煩難，花了 4、5 年打造了 Echo，這樣一來亞馬遜就掌握了一個很難被超越的制高點。

這看著很詭異，但事實就會這樣，否則的話 Google 直接把 Google Assistant 開放出來就行了，根本不需要自己打造什麼 Google Home。但實際上硬體和背後 Assistant 的耦合程度遠高於搜尋和瀏覽器，搜尋和瀏覽器的耦合程度事實上是便利不便利，但 Alexa 和前端硬體的耦合程度則牽涉好不好用的問題。而 Google 則是迫於 Echo 的壓力才開始做 Google Home。

第二亞馬遜在 Echo 獲得初步成功後迅速開始分離 Echo 和 Alexa，具體動作就包括完整 SDK（ASK&AVS）的檔案和案例，成立 Alexa Fund，積極搜尋戰略合作夥伴等。最終結果之一就是所謂的 7,000 項技能。7,000 項技能是非常可怕的事，完全足以覆寫技術和某些內容上的劣勢。這就好比淘寶上商家數一旦超過某個臨界值，QQ 流量再大也搞不定了。

那現在 Google 有幾個第三方夥伴呢？1 個。而且 Google 似乎還在神遊，它做為後來者本應該上來就把這一家族的東西都做了，這樣才體現後發優勢，但它並沒有。

第三是用可靠的方案打造更優異的體驗。可靠的方案是說前端至少要和亞馬遜持平，後端再體現語義和內容連線上的優勢，這樣就可以在整體上反超。但 Google Home 很有意思的選了只裝兩支麥克風的方案，直接導致互動效果很差。這實在是大昏招，從便宜的角度解釋是合理的，但你在做的是個標竿型產品，便宜與否真的那麼關鍵嗎？

這意味著什麼？

這意味著 Google 可能很難追上 Amazon 了。

Google 和 Amazon 相比，無疑在技術層面會有優勢，但是如果對技術進行分解，我們會發現實際上 Google 真正可能具優勢只有 NLP 和搜尋部分。這就非常可怕，因為 NLP 部分不存在質的差異，你並無法在這個點上單憑演算法明顯拉開體驗，且內容沒多到一定程度的時候，搜尋的優勢根本體現不出來。一旦技術突破，亞馬遜在這部分就會累積足夠的資料。請注意這裡的資料是完全和場景符合的資料，而不是符合度低的網頁公開資料，其中還包含了用戶的各種偏好。

這時候沒人會扮演陪練 Google 的角色，一起從頭玩一遍。

在過去漫長的時間裡，Google 這個公司有點被神話了，讓人潛意識覺得它無所不能，但 Google 實在不是一個做產品的公司，我們也許可以把它定義為做演算法的公司或對演算法癡迷的公司。如果 Google 真的在語音互動這事上玩大了，那核心原因很可能就在這裡。

做演算法的時候技術是第一角度，但做產品的時候體驗是第一角度，你無法掉過來玩：我這項技術很厲害，所以我要把它放進產品裡，用戶要為此買單；是要反過來思考，比如延遲、回應率和對答準確率在這類產品上影響用戶體驗，所以我要在現有技術上把這體驗做到極致。

從表現出來的行為來看，Google 正好屬於前一種。

上面說到的只裝兩支麥克風方案來達到 Google Home，從這個角度來解釋也是合理的。比如說如果想在雲端用深度學習等處理前端訊號問題，並堅信能做好，那這麼選取前端方案就完全沒問題，後端持續改善演算法就行了。

但這樣一來產品體驗上打折扣就非常厲害。如果 Google 是第一個釋出這種產品，可用時間很多，那也問題不大，關鍵它不是，它需要這樣一款產品來和亞馬遜的 Echo 競爭，這就可怕了。你是後發，哪怕做到一樣的水準也沒啥優勢，何況你還差一截。挑戰新技術這事在工程師思惟下是合理的，但在產品思惟下就錯得離譜。

這類的問題點還有很多，比如你喚醒詞叫什麼不好非叫「OK Google」，做智慧助理顯然 Alexa 更適合這種擬人一點的情景。

Google Home 出來後本應該使勁推廣 Google Assistant 到各大廠商，而不是躺在既有的優勢上睡大覺（Google 在技術、不同裝置關聯、內容上是有優勢的，畢竟它有 YouTube 等），但從 CES 上來看，Google 並沒有忙著做這事，至少到現在為止我們還看不到 Google 版的 Alexa Service Kit 和 Alexa Voice Service。

這樣看來 Google 和亞馬遜之間差了至少一年的差異。對打造產品的用戶來講選擇哪家甚至是個不用考慮的問題，一邊是有開放 API 很多第三方用戶，一邊是沒有開放 API 只有一個第三方用戶。換你也會這麼選吧！（把軟硬打通，API 封裝到這個程度還是很費勁的，如果你不信，看看這裡的文件吧。）

小結

Google 的業務最依賴雲端，但事實上在雲端服務敗於亞馬遜，Google 自動駕駛啟動最早，但看趨勢似乎會起個大早趕晚集；Google 人工智慧投入最多，但從現在的進展來看，很可能會再次敗給亞馬遜。

如果說前兩次失敗不動搖根本，那這次很不一樣，因為在 AI 這裡互動即是搜尋，它其實輸不起，輸了就會變成另一個微軟。

（本文由 36Kr 授權轉載，首圖來源：shutterstock）

語音助手上的大 PK

亞馬遜做對了什麼？

小結

延伸閱讀：