由於少子化與高齡化,老人獨居現象將愈來愈明顯,為因應未來社會樣貌,各國政府絞盡腦汁,如新北市政府試辦青銀共居,盼一次解決空屋、高房價、獨居 3 大問題即是一例。智慧家庭應用也可望減輕長照壓力,加州新創公司 Brain of Things 宣布正在加州 3 地開發「機器人家園」,這些公寓配有大量感測器和自動化燈具和電器,透過電腦伺服器收集數據,使用機器學習演算法構建行為模型,能夠學習,適應居民的習慣和偏好。麻省理工科技評論(MIT Technology Review)報導形容這個機器人家園的學習能力到「幾乎令人毛骨悚然的程度」。Brain of Things 創辦人 Ashutosh Saxena 是史丹佛大學研究人員,聲稱「機器人家園能夠知道居住者在做什麼,如看電視或睡覺,隨著追蹤居住者在房裡的活動,還可以知道更多。」譬如,居住者早上起床上班時,公寓的百葉窗會自動拉起,晚上在正確的時間自動關上;如果公寓感覺到居住者晚上起床喝水,會自動點亮夜燈;如果週末晚上晚回家,或有朋友來家裡聚會,機器人家園甚至會在星期天早上晚一點啟動日常任務。有些人可能會質疑智慧家庭的必要性,但是對家庭裝置增加更多智慧化技術、聯網和溝通能力是不可否認的趨勢。Nest 恆溫器可學習辨識用戶的加熱偏好,而 Smart Things 等公司的產品可透過網路使用現有設備,並透過程式使裝置更智慧化。Saxena 的學術研究側重於機器人學習和分享資訊的方式,他認為,雖然近來已經對汽車自動化給予極大關注,但自動化家庭可能更為重要,原因是人們花 5.5% 的時間在汽車上,但花在家裡的時間高達 68.7%。Brain of Things 的機器人家園配有約 20 個運動感測器,以及燈具、家電、娛樂系統、暖氣和空調,連管道都是聯網和自動化,還有寵物專用的自動化監測和餵食系統。居住者可使用一般開關,也可以使用語音命令或智慧手機應用程式來控制,隨著時間累積,公寓會學習一個人的偏好,並嘗試預先提供服務。這套系統需要維護以便提早發現問題,至於隱私考量,Saxena 表示臥室不會有感測器,且每個公寓收集的數據都不會離開建築物。Brain of Things 與加州聖羅莎的房地產開發公司合作開發機器人公寓,現在已經有幾個人住在裡面,這項技術讓每月租金增加 125 美元,物業主每月要花費 30 美元維護。維吉尼亞大學研究智慧建築科技的教授 Kamin Whitehouse 承認人們會擔心隱私問題,但是老人或殘疾人的需求應該會超過對隱私的擔憂,他認為目標受眾是真正需要的人。Saxena 認為,人們每天平均開燈關燈 100 次,每個人都會認識到自動化的好處。他說,「有一天,人們會認為起床開燈這個動作非常愚蠢。」 A Robotic Home That Knows When You’re Hungover (首圖來源:Flickr/Franck Michel CC...
由 3 位中國研究人員撰寫的學術報告發現,Google 人工智慧(AI)比蘋果 Siri 聰明近兩倍,不過兩者都比不過 6 歲孩童的智商。報告指出 Google AI 的 IQ 值領先所有科技同業,2016 時 Google AI 的 IQ 值達 47.28,同期間中國百度的 IQ 值有 32.92、微軟搜尋引擎 Bing 有 31.98,蘋果 Siri 對比之下最笨,IQ 僅有 23.94。(CNBC.com)Google AI 雖然打敗同業,但仍低於一個 6 歲小孩的智商(55.5),更遠不及一個 18 歲青年(97)。儘管如此,包含 Google、微軟與蘋果都持續砸錢研發,未來 AI 肯定會越來越聰明,應用領域也會擴大。應材執行長 Gary Dickerson 日前受訪曾預言,AI 競賽不久後將成為科技業景氣循環的主要推手,包含運輸、健康照護、娛樂等領域,未來都會出現驚人改變,預料能創造數兆美元的經濟價值。(本文由 MoneyDJ新聞 授權轉載;首圖來源:shutterstock)延伸閱讀: AI 需求湧現,晶片將有變革!外媒:台積電/應材成夯股 LINE:AI 不只是機器學習,而應該是生活中的虛擬助理
人心惶惶的危機當前,Google 搜尋結果的置頂資訊一定完全可靠、可信嗎?槍手根本不是他!Google 成為假消息散布幫兇?美國時間星期日(10 月 1 日),賭城拉斯維加斯露天音樂節發生嚴重槍擊事件,一名槍手從 Mandalay Bay 飯店 32 樓朝音樂節觀眾開槍掃射,造成至少 58 人喪命、超過 200 名民眾受傷的慘劇;外媒稱這是自 2001 年 911 恐怖攻擊以來,美國本土發生最血腥的攻擊事件。慘劇發生後全球關注,各地電視台、媒體不斷更新消息,網友、鄉民也在網路世界討論著,美國警方隨後證實槍擊案的嫌疑人為 64 歲來自內華達州的史蒂芬‧帕多克(Stephen Paddock)。 This man, Stephen Paddock, has just killed 50 and wounded 200 people in Las Vegas. Media still not calling this a Terrorist Attack! ? pic.twitter.com/0QoEb3cShf — Phil Kgopolo Mphela (@PhilMphela) 2017年10月2日但在更早之前有網友在論壇 4chan,錯誤指稱槍手是另一名男子 Geary...
麻省理工學院(MIT)的科學家開發出一款名為 CodeCarbonCopy(CCC)的新工具,其中一名開發成員 Stelios Sidiroglou-Douskos 表示:「CodeCarbonCopy 能實現軟體工程界夢寐以求的目標之一:自動重用程式碼。」透過 CodeCarbonCopy,開發人員可先選 A 軟體一段程式碼,再選 B 軟體的插入點,系統就能自動完成必要變更,如改變參數名稱等,以確保程式碼妥善植入 B 軟體。且移植程式碼時,CodeCarbonCopy 還能執行靜態分析,移除 A 軟體必要但對 B 軟體毫無作用的功能。CodeCarbonCopy 之所以能夠做到這些,第一是有基本變數移植的能力,使用 CodeCarbonCopy 意味著從抓取和導入程式碼片段的兩個地方並列執行程式,CodeCarbonCopy 可辨識完成同一角色的變數,並幫作業人員將它們列出來。它還能顯示無法符合的變數,這樣一來,程式設計師可以手動關聯變數或將變數從移植過去的程式碼去除。另外,CodeCarbonCopy 還能考慮兩個程式在內部如何表示資料,相應調整移植過去的程式碼。這參照每個程式庫如何處理資料(比如兩種不同的色彩格式 RGB 和 BGR 之間調整)、以什麼順序處理。也正因如此,CodeCarbonCopy 目前僅適用處理的資料採固定格式的應用程式間移植,比如圖像、影片、音訊、PDF 及其他格式。據悉,該工具沒有正式對外釋出,還在內測和完善階段。研究團隊透露,他們已成功使用 CodeCarbonCopy 在 6 款流行的開源影像處理程式之間移植程式碼。團隊進行了 8 次試驗,其中 7 次成功,接受端程式成功執行移植過去的程式碼,沒有錯誤。測試的軟體分別為:MPlayer、VLC、mtPaint、cwebp、bmp2tiff 與 ViewNIOR。當然,這不是麻省理工學院(MIT)第一次嘗試程式設計界的革命。之前,他們還設計開發了一款兒童程式設計工具 ScratchJr。使用者可以不認識英文單詞,也可以不會使用鍵盤。構成程式的指令和參數透過積木形狀的模組達成,用滑鼠拖曳模組到程式編輯欄就可以了。此外,MIT 開放的影像標注工具來源碼 LabelMe 也是一款非常實用的圖像輔助工具。眾所周知,電腦視覺需要用到大量標註圖片,這款工具能幫助用戶建立自訂化標注工作或執行圖片標註,進而提升效率。(本文由 36Kr 授權轉載;首圖來源:pixabay)延伸閱讀: ScratchJr:讓孩子在程式設計中學習
人工智慧(Artificial Intelligence,AI)是指人類製造出來的機器所表現出來的智慧,它從早期是以更聰明的機器手臂取代工廠裡的勞工,到機器學習過濾垃圾郵件,分析我們的行為並且投放相關的廣告,近來年由於深度學習技術的突破,無人車即將取代司機,甚至靠腦力的白領工作都岌岌可危,到底什麼是機器學習?什麼又是深度學習呢?我們常常聽到的「機器學習」(Machine learning)是屬於人工智慧的一部分,另外「深度學習」(Deep learning)又屬於機器學習的一種,如下圖所示。▲ 人工智慧、機器學習、深度學習的範圍。(參考:nVidia)機器學習(Machine learning)顧名思義機器學習就是要讓機器(電腦)像人類一樣具有學習的能力,要了解機器學習,就先回頭看看人類學習的過程,人類是如何學會辨識一隻貓的?大致上可以分為「訓練」(Training)與「預測」(Predict)兩個步驟:訓練(Training):小時候父母帶著我們看標註了動物名字的圖片,我們看到一隻小動物有四隻腳、尖耳朵、長鬍子等,對照圖片上的文字就知道這是貓,如果我們不小心把老虎的照片當成貓,父母會糾正我們,因此我們就自然地學會辨識貓了,這就是我們學習的過程,也可以說是父母在「訓練」我們。預測(Predict):等我們學會了辨識貓,下回去動物園看到一隻有四隻腳、尖耳朵、長鬍子的小動物,我們就知道這是貓,如果我們不小心又把老虎當成貓,父母會再次糾正我們,或者我們自己反覆比較發現其實老虎和貓是不同的,即使父母沒有告訴我們,這個是我們判斷的過程,也可以說是我們在「預測」事物。機器的訓練與預測要讓機器(電腦)像人類一樣具有學習與判斷的能力,就要把人類大腦學習與判斷的流程轉移到機器(電腦),基本就就是運用數據進行「訓練」與「預測」,包括下列 4 個步驟:獲取數據:人類的大腦經由眼耳鼻舌皮膚收集大量的數據,才能進行分析與處理,機器學習也必須先收集大量的數據進行訓練。分析數據:人類的大腦分析收集到的數據找出可能的規則,例如:下雨之後某個溫度與濕度下會出現彩虹,彩虹出現在與太陽相反的方向等。建立模型:人類的大腦找出可能的規則後,會利用這個規則來建立「模型」(Model),例如:下雨之後某個溫度與濕度、與太陽相反的方向等,就是大腦經由學習而來的經驗,機器學習裡的「模型」有點類似我們所謂的「經驗」(Experience)。預測未來:等學習完成了,再將新的數據輸入模型就可以預測未來,例如:以後只要下雨,溫度與濕度達到標準,就可以預測與太陽相反的方向就可能會看到彩虹。機器學習的分類機器學習和人類學習的過程類似,要先進行「分類」(Classification),才能分析理解並且進行判斷,最後才能採取行動,分類的過程其實就是一種「是非題」(Yes 或 No),例如:這一張照片「是」貓或「非」貓。機器學習是由電腦執行程式自行學習,一邊處理大量資料,一邊自動學會分類方式,就如同人類在學習一樣,因此機器學習就是在進行資料處理。機器學習的種類監督式學習(Supervised learning):所有資料都有標準答案,可以提供機器學習在輸出時判斷誤差使用,預測時比較精準,就好像模擬考有提供答案,學生考後可以比對誤差,這樣聯考時成績會比較好。例如:我們任意選出 100 張照片並且「標註」(Label)哪些是貓哪些是狗,輸入電腦後讓電腦學習認識貓與狗的外觀,因為照片已經標註了,因此電腦只要把照片內的「特徵」(Feature)取出來,將來在做預測時只要尋找這個特徵(四肢腳、尖耳朵、長鬍子)就可以辨識貓了!這種方法等於是人工「分類」,對電腦而言最簡單,但是對人類來說最辛苦。非監督式學習(Un-supervised learning):所有資料都沒有標準答案,無法提供機器學習輸出判斷誤差使用,機器必須自己尋找答案,預測時比較不準,就好像模擬考沒有提供答案,學生考後無法比對誤差,這樣聯考時成績會比較差。例如:我們任意選出 100 張照片但是沒有標註,輸入電腦後讓電腦學習認識貓與狗的外觀,因為照片沒有標註,因此電腦必須自己嘗試把照片內的「特徵」取出來,同時自己進行「分類」,將來在做預測時只要尋找這個特徵(四隻腳、尖耳朵、長鬍子)就可以辨識是「哪類動物」了!這種方法不必人工分類,對人類來說最簡單,但是對電腦來說最辛苦,而且判斷誤差比較大。半監督式學習(Semi-supervised learning):少部分資料有標準答案,可提供機器學習輸出判斷誤差使用;大部分資料沒有標準答案,機器必須自己尋找答案,等於是結合監督式與非監督式學習的優點。例如:我們任意選出 100 張照片,其中 10 張標註哪些是貓哪些是狗,輸入電腦後讓電腦學習認識貓與狗的外觀,電腦只要把照片內的特徵取出來,再自己嘗試把另外 90 張照片內的特徵取出來,同時自己進行分類。這種方法只需要少量的人工分類,又可以讓預測時比較精準,是目前最常使用的一種方式。【延伸閱讀】機器學習的種類還有增強式學習與馬可夫決策過程,都是機器學習重要的觀念,有興趣的人可以參考〈知識力專家社群:機器學習(ML:Machine learning)〉。人工神經網路(ANN:Artificial Neural Network)人工神經網路(ANN)又稱為「類神經網路」,是一種模仿生物神經網路的結構和功能所產生的數學模型,用於對函式進行評估或近似運算,是目前人工智慧最常使用的一種「模型」。科學家模仿人類大腦的神經網路,提出了「赫布理論」(Hebbian theory),用來解釋學習過程中大腦神經元變化的神經科學理論,突觸上一個神經元向突觸下一個神經元持續重複的刺激,可以導致突觸傳遞效能的增加,也就是人工神經網路上的「權重」(Weight)。人類大腦的「神經元」(Neural),如下圖(a)所示,我們把人類大腦複雜的神經元簡化成一個圓圈和一個箭號,如下圖(b)所示,圓圈內的數字代表這個神經元的神經衝動強度,箭號旁的數字代表這個神經元突觸傳遞效能,也就是「權重」,則大腦內複雜的神經網路就可以簡化成人工神經網路,如下圖二(c)所示,一層層的連結起來,以手寫辨識數字為例,「輸入層」就是我們手寫的數字,「輸出層」就是辨識的結果數字 0~9。▲ 人工神經網路示意圖。【延伸閱讀】機器學習的單層感知器(SLP)與神經網路模型的計算方式,都是機器學習重要的觀念,有興趣的人可以參考〈知識力專家社群:人工神經網路(ANN:Artificial Neural Network)〉。符號與意義如果電腦可以自行分析資料找出特徵值,那就更接近我們想要的人工智慧,也就是人工創造出來可以思考的電腦。這個時候電腦能夠自己分析資料理解「有斑紋的馬」這個特徵,只要人類告訴電腦這個特徵所使用的符號叫「斑馬」,就把符號與它所代表的意義相互連結(接地)了!符號「貓」或「Cat」,意義是指尖耳朵、尖眼睛、長鬍子很可愛的一種動物,這些就是「特徵值」。人工智慧面臨許多問題就是因為電腦無法自行理解符號的「意義」,而最近發展的「深度學習」已經可以讓電腦自行分析資料找出「特徵值」。▲ 符號「貓」與「特徵值」示意圖。深度學習(Deep learning)深度學習(深度神經網路)是讓電腦可以自行分析資料找出「特徵值」,而不是由人類來決定特徵值,就好像電腦可以有「深度」的「學習」一樣。而深度學習使用多層神經網路,理論上隱藏層愈多自由度與精確度愈高,但是結果相反,因為誤差反向傳播(EBP)很難傳遞回更上一層的神經元,就好像主管經由員工提供的資訊進行判斷,正確的資訊是由下(員工)向上(主管)提供(反向傳播),而修正時由上(主管)向下(員工),當階層太多時效果不佳。因此深度學習不但使用多層神經網路,同時使用「自動編碼器」(Autoencoder)來進行「非監督式學習」(Un-supervised learning)。Google 貓臉辨識計畫Google 公司 2012 年做了一個實驗,由 YouTube 的影片中取出 1,000 萬張圖片,使用具有 100 億個神經元的深度學習神經網路,由 1,000 台電腦(16,000 個處理器),運算 3 天才完成。 將 1,000 萬張圖片輸入深度學習神經網路,經由數層神經網路使電腦自行學習找出「特徵值」而能夠辨識「對角斜線」,如下圖(a)所示。 再經由數層神經網路使電腦能夠辨識「人臉」,如下圖(b)所示,以及「貓臉」,如下圖(c)所示,形成抽象度愈高的「特徵值」,最後經由特徵值理解這個東西的「意義」。 此時只要我們告訴電腦具有下圖(b)這個特徵值的東西稱為「人」(符號);具有下圖(c)這個特徵值的東西稱為「貓」(符號),電腦就能夠將符號與意義產生連結了! 未來只要我們輸入其他照片,電腦就能夠自動判斷這個是人,那個是猫,這個學習的過程其實和人類學習過程是類似的。...
進入 2017 年 9 月,智慧手機晶片行業發生了新變化。先是月初華為在德國柏林國際消費類電子產品展覽會發表全球首款人工智慧晶片麒麟 970,接著蘋果在新品發表會宣布 A11 Bionic 晶片的誕生。一時間,智慧手機行業也擁抱人工智慧,行動 AI 晶片成為業界關注的焦點。大勢當前,無論是這個行業的先行者還是後來者,都絲毫不敢怠慢。華為:借用外力先走一步麒麟 970 在 CPU、GPU 等傳統晶片項目的更新自不必說,我們關心的是它之所以稱為全球首款人工智慧晶片的部分,也就是內建那塊 NPU(Neural Processing Unit,神經網路處理單元)。▲ 華為於德國柏林 IFA 2017 發表全球首款人工智慧晶片麒麟 970。(Source:華為)雖然華為並沒有在發表會時重點強調,但我們要指出,華為口中的 NPU 實際上就是中國科學院計算基數研究所旗下的寒武紀公司自主研發的「寒武紀 1A 深度學習處理器」( Cambricon-1A Processor),寒武紀對它的介紹是「國際首個商用深度學習處理器產品,在人工智慧應用達到 4 核 CPU 25 倍以上性能和 50 倍以上效能」。做為專門為深度學習客製的模塊,NPU 在特定任務的表現令人吃驚。比如說在圖片辨識任務中,NPU 每分鐘可辨識 2,005 張,CPU 每分鐘 95 張,前者比後者多了 20 倍;當然在功耗上,也有飛躍式的提升。當然為了配合 NPU,華為也在麒麟 970 採用 HiAI 行動技術架構,來使效能最大化。華為也在推出麒麟 970 同時推出一個開放 AI 生態環境,支持 Tensorflow...
只要看走路的姿態,就可以認人不需看臉?中國科學院最近在電視節目披露一種新興的生物特徵辨識技術,利用人走路的姿態來辨別身分。這個技術利用高解析度攝影鏡頭進行,辨識距離可達 50 公尺,在 200 亳秒內,就能準確辨識特定對象;就算遮住臉部,都可辨識身分,不需目標人物配合。中國科學院自動化所副研究員黃永禎介紹,以往的虹膜辨識技術需要 30 公分內才能辨識,人臉辨識就要在 5 公尺內,這種步態辨識技術,在超高清鏡頭輔助下,辨識距離可達 50 公尺。即使一個人在幾十公尺外戴面具,且背對監控鏡頭隨意走動,步態辨識技術算法都可判斷其身分。這套技術更可在大範圍人群應用,以運算技術來說,可對 100 平方公尺內 1,000 人即時運算。科學院稱此技術可廣泛應用於安防、公共交通與商業。中國正建立一個擁有 2,000 萬個監控鏡頭的「中國天網」大數據工程,如果配合這種新技術,通輯犯走到天涯海角都逃不掉。但另一方面,是否會監控一般市民、侵犯個人隱私,這都是值得關心的課題。(本文由 Unwire HK 授權轉載;首圖來源:影片截圖)
得益於各種套件,今天的機器學習門檻越來越低。但 Google 顯然不滿足,新推出 Teachable Machine 專案,讓用戶無需程式設計就可用手機、平板、電腦等裝置的鏡頭採集資料來機器學習。這專案是 Google 的 A.I. Experiment 一部分,來源碼已公布在 Github。簡單的說,Teachable Machine 是一個基於瀏覽器的機器學習示範實驗,用一個叫 Deeplearn.js 的程式庫構建,網頁開發者可編寫一個簡單的視覺匯入,並設定匯出和 3 個訓練分類器,在瀏覽器訓練新的神經網路。示範影片裡 Google 沒有詳細說明更深的機器學習工作原理,但足以讓大多數人對機器學習有最基礎的概念。如下圖所示,網頁中可呼叫鏡頭獲得不少於 30 幅的影像資訊,作為訓練的「匯入」;中間的學習框包括 3 個分類器,用 Green、Purple、Orange 表示,機器透過你做的動作學習,進而「學會」辨識相應動作;最後是匯出部分,分類器根據不同匯入,按照訓練結果分類出最右側的結果。首先訓練 Green 分類器,如圖所示,訓練者抬起手,按下「Train Green」按鈕,鏡頭自動生成一個包含若干個抬手圖的訓練集。我們可以看到,分類器可 100% 辨識抬手的動作並與貓關聯。類似可訓練其他分類器,例如放下手訓練 Purple 分類器並對應到狗的匯出。然後我們就可以開始調戲機器了:如果你半舉手,機器認為你有 64% 可能是抬手,35% 可能是不抬手,對應仍然匯出貓;如果舉另一隻手呢?機器雖然沒有見過你舉另一隻手的圖,但還是能 100% 確定應該匯出貓。匯出可設定為圖片、音檔或語音,開發者可方便地將這些匯出調換成自己需要的素材。對機器學習一無所知的讀者來說,該實驗可直覺地展示機器學習的基本概念。這專案執行在基於 Java 的 deeplearn.js 框架,可在大多數硬體(據回饋目前不支援 iPad Pro)大多數瀏覽器順暢執行。完整的影片在這:看了那麼多,你是否已迫不及待想試一下?感興趣的讀者可在 Github 檢視來源碼,自己動手試一下。(本文由 雷鋒網 授權轉載;首圖來源:Teachable Machine)延伸閱讀: 翻轉人類未來的...
機器不只會拍照,還會分析眼前所見,採取行動。晶片廠紛紛投入研發電腦視覺(computer vision),預期未來將帶來可觀營收。維基百科解釋,電腦視覺是研究如何讓機器「看」的科學,用攝影機和電腦代替人眼辨識目標、跟蹤和測量等機器視覺,並進行圖像處理。華爾街日報 4 日報導,電腦視覺是新萌芽的市場,自駕車和機器人等將帶動發展。IDC 稱,去年電腦視覺的市值為 10 億美元,估計 2021 年將增至 26 億美元。IDC 分析師 Michael Palma 說,電腦視覺的應用瀕臨成功邊緣,就算不是大規模的成功,也非常非常接近。以英特爾(Intel)的 Myriad 晶片為例,這系列晶片在安控攝影機和無人機找到利基市場,如今更切入醫療領域。新創企業 Doctor Hazel 運用 Myriad 晶片開發出工具,搭配醫療相機使用,可以現場診斷出患者是否罹患皮膚癌。Doctor Hazel 表示,正確率為 85%,繼續運用更多影像資料訓練,準確率還會提高。投入電腦視覺的晶片業者包括 Nvidia、高通、英特爾、安霸(Ambarella)等。Benzinga 報導,摩根士丹利(大摩)向來極為看好美國影像處理晶片大廠安霸,分析師 Joseph Moore 和 Craig Hettenbach 9 月底報告上修安霸目標價至 115 美元。和 10 月 4 日收盤價 49.50 美元相比,有 132% 的上行空間。大摩稱,看好機器視覺晶片的發展,要是安霸最終產品一如預期,將大有可為。(本文由 MoneyDJ新聞 授權轉載;首圖來源:shutterstock)延伸閱讀: 電腦視覺讓農業裝置會「看」了,施肥除草更精準 從種植到收穫都不需人力,英團隊完成首個無人農場計畫
10 月 4 日,DeepMind 在部落格發文稱,一年前提出的生成初始聲訊波形的深層神經網路模型 WaveNet 已正式商用於 Google Assistant,該模型比一年前的初始模型效率提高 1,000 倍,且比目前方案更能模擬自然語音。以下為 DeepMind 部落格的詳細資訊,編譯如下。一年前,我們提出一種用於生成初始聲訊波形的深層神經網路模型 WaveNet,可產生比目前技術更好和更逼真的語音。當時,這個模型是一個原型,如果用在消費級產品,計算量就太大了。過去 12 個月,我們一直努力大幅度提高這模型的速度和品質,今天,我們驕傲地宣布,WaveNet 的更新版本已整合到 Google Assistant,用於生成各平台上所有英語和日語語音。新的 WaveNet 模型可為 Google Assistant 提供更自然的聲音。為了理解 WaveNet 如何提升語音生成,我們需要先了解目前字檔到語音(Text-to-Speech,TTS)或語音合成系統的工作原理。目前的主流方法是基於所謂的銜接 TTS,使用單個配音演員的高品質錄音的大資料庫,通常有數小時的資料。這些錄音分割成小塊,然後將其組合以形成完整的話語。然而,這方法可能導致聲音在連線時不自然,且難以修改,因為每當需要一整套改變(例如新的情緒或語調)時,就要用到全新的資料庫。另一方案是使用參數 TTS,該方案不需要用諸如語法、嘴型行動的規則和參數來指導電腦生成語音並銜接。這種方法即便宜又快捷,但這種方法生成的語音不那麼自然。WaveNet 採取完全不同的方法。初始論文中,我們說明一個深層的生成模型,可以每秒處理 16,000 個樣本、每次處理一個樣本檔的方式構建單波形,達成各聲音之間無縫轉換。WaveNet 使用卷積神經網路構建,用大量語音樣本資料集訓練。在訓練階段,網路確定語音的底層架構,比如哪些音調相互依存,什麼樣的波形是真實的以及哪些波形不自然。訓練好的網路每次合成一個樣本,每個生成的樣本都考慮前一個樣本的屬性,產生的聲音包含自然語調和如嘴唇形態等參數。它的「口音」取決於它接受訓練時的聲音口音,而且可從混合資料集建立任何獨特聲音。與 TTS 系統一樣,WaveNet 使用字檔匯入來告訴它應該產生哪些字以回應查詢。初始模型以建立高傳真聲音為目的,需要大量的計算。這意味著 WaveNet 理論上可做到完美模擬,但難以現實商用。過去12個月,團隊一直在努力開發一種能更快生成聲波的新模型。該模型適合大規模部署,並且是第一個在 Google 最新 TPU 雲端基礎設施應用的產品。▲ 新模型 1 秒鐘能生成 20 秒的聲音訊號,比初始方法快 1,000 倍。WaveNet 團隊目前正在準備一份詳細介紹新模型背後研究的論文,但我們認為,結果自己會說話。改進版的 WaveNet 模型仍然生成初始波形,但速度比初始模型快 1,000 倍,每建立 1 秒鐘的語音只需要...

