DeepMind 語音生成模型 WaveNet 正式商用：效率提高 1,000 倍

7 年前

10 月 4 日，DeepMind 在部落格發文稱，一年前提出的生成初始聲訊波形的深層神經網路模型 WaveNet 已正式商用於 Google Assistant，該模型比一年前的初始模型效率提高 1,000 倍，且比目前方案更能模擬自然語音。

以下為 DeepMind 部落格的詳細資訊，編譯如下。

一年前，我們提出一種用於生成初始聲訊波形的深層神經網路模型 WaveNet，可產生比目前技術更好和更逼真的語音。當時，這個模型是一個原型，如果用在消費級產品，計算量就太大了。

過去 12 個月，我們一直努力大幅度提高這模型的速度和品質，今天，我們驕傲地宣布，WaveNet 的更新版本已整合到 Google Assistant，用於生成各平台上所有英語和日語語音。

新的 WaveNet 模型可為 Google Assistant 提供更自然的聲音。

為了理解 WaveNet 如何提升語音生成，我們需要先了解目前字檔到語音（Text-to-Speech，TTS）或語音合成系統的工作原理。

目前的主流方法是基於所謂的銜接 TTS，使用單個配音演員的高品質錄音的大資料庫，通常有數小時的資料。這些錄音分割成小塊，然後將其組合以形成完整的話語。然而，這方法可能導致聲音在連線時不自然，且難以修改，因為每當需要一整套改變（例如新的情緒或語調）時，就要用到全新的資料庫。

另一方案是使用參數 TTS，該方案不需要用諸如語法、嘴型行動的規則和參數來指導電腦生成語音並銜接。這種方法即便宜又快捷，但這種方法生成的語音不那麼自然。

WaveNet 採取完全不同的方法。初始論文中，我們說明一個深層的生成模型，可以每秒處理 16,000 個樣本、每次處理一個樣本檔的方式構建單波形，達成各聲音之間無縫轉換。

WaveNet 使用卷積神經網路構建，用大量語音樣本資料集訓練。在訓練階段，網路確定語音的底層架構，比如哪些音調相互依存，什麼樣的波形是真實的以及哪些波形不自然。訓練好的網路每次合成一個樣本，每個生成的樣本都考慮前一個樣本的屬性，產生的聲音包含自然語調和如嘴唇形態等參數。它的「口音」取決於它接受訓練時的聲音口音，而且可從混合資料集建立任何獨特聲音。與 TTS 系統一樣，WaveNet 使用字檔匯入來告訴它應該產生哪些字以回應查詢。

初始模型以建立高傳真聲音為目的，需要大量的計算。這意味著 WaveNet 理論上可做到完美模擬，但難以現實商用。過去12個月，團隊一直在努力開發一種能更快生成聲波的新模型。該模型適合大規模部署，並且是第一個在 Google 最新 TPU 雲端基礎設施應用的產品。

▲ 新模型 1 秒鐘能生成 20 秒的聲音訊號，比初始方法快 1,000 倍。

WaveNet 團隊目前正在準備一份詳細介紹新模型背後研究的論文，但我們認為，結果自己會說話。改進版的 WaveNet 模型仍然生成初始波形，但速度比初始模型快 1,000 倍，每建立 1 秒鐘的語音只需要 50 毫秒。該模型不僅速度更快，且傳真度更高，每秒可產生 24,000 個取樣波形，同時我們還將每個樣本的解析度從 8bit 增加到 16bit，與光碟使用的解析度相同。

這些改進使新模型在人類聽眾的測試中發聲顯得更自然。新的模型生成的第一組美式英語語音得到的平均意見得分（MOS）為 4.347（滿分 5 分），而真實人類語音的評分只有 4.667。

新型態還保留了初始 WaveNet 的彈性，使我們在訓練階段更能利用大量資料。具體來說，我們可以使用多個語音的資料來訓練網路。這可以用於生成高品質和具細節層次的聲音，即使在所需匯出語音中幾乎沒有訓練資料可用。

我們相信對 WaveNet 來說只是開始。我們為世界所有語言的語音介面的無限可能興奮不已。

WaveNet launches in the Google Assistant

（本文由雷鋒網授權轉載；首圖來源：pixabay）

延伸閱讀：