星期六, 24 1 月, 2026

旅 TRIVEL

據美國白宮高層表示,川普政府對於人工智慧(AI)將採取不干涉的立場,讓產業自由發揮,即使已知 AI 未來會取代部分工作亦然。白宮週四舉辦科技高峰會,出席的企業包含 Google、Facebook、亞馬遜等 30 多家科技大廠。路透社報導,川普科技政策顧問克拉席歐斯(Michael Kratsios)在會中明白表示,對於 AI 的研發,川普政府將不插手過問,以給予產業最大的空間。克拉席歐斯也指出隨著 AI 應用普及化,就業機會流失在所難免,但即使如此,美國也不能故步自封。相反的,克拉席歐斯認為,現在最該做的是學習適應,就像過去的美國人一樣。在承諾最少法規限制的同時,克拉席歐斯還同時建議在沒有危害隱私或國安疑慮的前題下,開放聯邦政府的數據庫,以協助 AI 產業發展。(本文由 MoneyDJ新聞 授權轉載;首圖來源:shutterstock)
Facebook 人工智慧研究院的研究員 Dhruv Batra 和 Devi Parikh 共同撰寫,介紹 Facebook 關於自主智慧體的最新研究成果──目標驅動自主學習──近日公開,並宣布開源 EmbodiedQA 和 House3D 資料集,以下根據原文編譯供讀者參考。大多數能與人類互動的自主智慧體(Autonomous agents)都有一些共同點:它們並不是那麼自給自足(Self-sufficient)。如智慧喇叭(Smart speaker)雖然可以透過語音介面與人類交流並採取一些動作(如訂購產品),但它卻無法感知周圍環境。另一方面,割草機器人雖然具備動作(割草)和感知(透過感測器)能力,但除了不斷閃燈或傳送錯誤資訊,還無法達成與主人自由交流。如果不同時具備 3 個重要的關鍵因素──感知、溝通和動作,那麼自主智慧體就無法成為全面助理,而這其中的空白代溝還需要人類彌補。這個問題對目前的智慧體來說似乎並不是什麼大毛病,如 Roomba 機器人如果不通知你有把椅子阻礙它的清潔路線,這只是一點小困難而不是什麼大災難。但為了讓下一代智慧體融入並改變我們的生活,自主系統需要更自給自足。訓練人工智慧系統時要扔下嬰兒車為了給幫對人類微觀管理依賴程度較低且更具通用性的系統鋪平道路,Facebook 人工智慧研究院(FAIR)開發了一系列用於訓練和測試自主智慧體的虛擬環境,以及能學習智慧探索環境的新型智慧體。這些智慧體將用做模擬機器人,是 Facebook 與喬治亞理工學院的研究員合作建立。使用虛擬智慧體和虛擬環境比起將真實機器人送到現有的室內場所要來得有效率,因為這需要花費數千台機器來符合基於 AI 訓練的執行速度。Facebook F8 會議關於透過 AI 提高內容可存取性的主題演講,簡單介紹過這項工作。FAIR 的目標是指導系統根據長期計畫採取多種動作,同時還要努力完成給定的工作。為了取得成功,這些智慧體必須在環境中行動,綜合使用感知、導航和溝通能力搜尋問題的答案,然後使用簡單自然的語言傳達這些答案。對 AI 來說,這是極具挑戰性的問題,一旦達成,就是朝著自治邁出了一步,並且該智慧體的適應性也將足以在非架構化的人造世界發揮作用。為了測試這種目標導向(Goal-driven)方法,FAIR 和喬治亞理工學院聯合提出一個多步驟 AI 工作,稱為「具體化問答」(Embodied Question Answering)或「EmbodiedQA」。與聊天機器人或智慧喇叭相比,此智慧體必須在物理環境(儘管是虛擬環境)學習和執行,因此稱為「具體化的」(Embodied)。當智慧體被問及單一問題時,例如「車子是什麼顏色?」或「我的鑰匙在哪個房間?」智慧體必須能理解書面語言,然後用第一人稱相機感知周圍環境,探索 3D 的室內環境直到找到答案。且為了使智慧體自主性更完善,還將透過自然語言的方式回覆該答案以完成使命。▲ FAIR 提出一項新的 AI 工作──具體化問答(Embodied Question Answering)。圖為一 3D 環境的某個隨機位置產生一個智慧體,並給它一個問題(車是什麼顏色),為了回答這個問題,智慧體必須藉助智慧導航以探索環境,透過第一人稱(以自我為中心)視覺收集資訊,然後回答問題(橙色)。FAIR 相信這些是第一個要求 AI 系統綜合展示感知、交流和動作以達成目標的實驗。將完全自主(智慧體在沒有人類啟動和干預的情況下做到自主活動)和不熟悉的環境結合,增加工作的挑戰性。智慧體要在隨機的、數以百計的不同樓層平面圖(每個平面都是仿照現實家庭建模)執行,且不具該環境中實踐執行過的增益,也不曾在類似地圖執行。更難的是,為了回答問題,智慧體必須行動,因為問題裡的物品也許無法立即看到。工作中學習為了訓練和評估這些智慧體,所需的虛擬環境不僅具備互動功能,還要具備多樣化和數量充足的特徴,以避免智慧體在相同環境反覆執行,這對自主智慧體的發展而言是更巨大的挑戰。FAIR 的解決方案稱為 House3D,是由 45,000 個手動建立的模擬室內環境組成。House3D 是基於普林斯頓大學的 SUNCG 資料集建立,但 House3D 為一完全可導航的位置集合(Fully navigable set...
軟銀願景基金(SoftBank Vision Fund)大手筆投資未來科技產業,據傳賓士母公司和日本三大銀行看好前景,同意注資。納入這筆資金後,願景基金募款 1,000 億美元的目標達成在望。金融時報、日經新聞報導,願景基金是史上最大規模的科技私募基金,計劃籌款 1,000 億美元,投資人工智慧(AI)、次世代運輸系統等。內情人士透露,德國車廠戴姆勒(Daimler)、三菱日聯金融集團(MUFG)、瑞穗銀行(Mizuho)、三井住友銀行(Sumitomo Mitsui Banking)是願景基金最後一批投資人之一。據稱甲骨文共同創辦人 Larry Ellison 和中東國家巴林的主權基金也加入注資行列。另外,軟銀創辦人孫正義將加碼投資。計入這些資金之後,願景基金可望成功募得 1,000 億美元。軟銀內部已經開始討論,是否成立第二個願景基金,預定名稱為「Vision Fund II」。願景基金最主要投資者是軟銀、沙烏地阿拉伯、阿布達比,這三者出資 880 億美元。其他投資人還有鴻海、夏普、蘋果、高通等。(本文由 MoneyDJ新聞 授權轉載;首圖來源:Flickr/MIKI Yoshihito CC BY 2.0)延伸閱讀: 中投公司傳想投資視野基金,軟銀憂染「紅」問題多
在 Google 人工智慧研究團隊 DeepMind 的努力下,AI 似乎又要在一個領域打敗人類的專業,只是這次並不是什麼困難的棋類,而是常見的迷宮遊戲。雖然遊戲需要的定位與找路能力或許聽來簡單,但實際作用方式卻非常複雜。 2005 年,科學家在動物身上發現網格細胞(grid cells),並透過這項研究贏得諾貝爾獎。透過研究揭示的內容,普遍認為網格細胞便是動物能自動導航、尋找路徑的關鍵所在,這些細胞就像在特定空間裡畫上無數六角形網格,如同座標系統反應前進的軌跡路線,幫助我們在空間中繞過障礙,計算前往目的地路徑並找到捷徑前往。但這麼多年以來,科學家都並未能確定網格細胞與生物導航間的詳細機制,如今 DeepMind 團隊透過訓練 AI 在虛擬迷宮空間定位,成功發現 AI 自發性的發展出類似網格細胞的功能。《衛報》報導指出,團隊在建構出深層神經網路(DNN)後,透過編碼出大鼠覓食時的方向與速度來教導程式導航的基本知識,隨著時間過去,AI 在虛擬環境移動時定位的情況變得越來越好。訓練中,團隊發現近四分之一 DNN 的人造神經元開始像生物的網格細胞一樣活動,換句話說,AI 在導航找到了同樣的策略──就像人類大腦很久以前就開始做的那樣。「我們很驚訝 AI 運作得這麼好,這與原先機制的相似程度絕對很驚人。」▲ 上方為 AI 製造的網格單位,下方為大鼠的網格細胞。(Source:DeepMind)在發現 AI 製造的網格單位(grid units)之後,DeepMind 研究人員稍微改進了程式,而 AI 持續在遊戲測試中擊敗有經驗的人類玩家,甚至速度更快,還能在捷徑出現時立即判斷出路徑。DeepMind 高級研究員 Dharshan Kumaran 表示,AI 所做的,就是像各種動物一樣盡可能採取直接路線,並在有可用路線時採用捷徑,而透過網格細胞的模擬,AI 找路的性能顯著增強,已能超越專業的人類玩家。網格細胞對生物的導航定位來說至關重要。雖然人們往往將找路視為一件稀鬆平常的事,但其中的機制我們仍未完全了解,透過這項研究,人腦自動導航背後的神經機制將有望更清楚的揭露出來。這項研究也意味著 AI 領域的另一個里程碑,儘管 AI 技術已證明能在圖像辨識和棋類遊戲超越人類,但像人腦導航所面對的認知挑戰則完全不同。這項研究等於開創了 AI 技術全新的可能性。在 AI 可以探索類似大腦活動的情況下,除了能用來製作更聰明的程式,也為電腦工程師找到工作的全新目標:透過打造 AI 模型協助神經科學家更理解人類的大腦,而不需要透過動物或人體實驗進行。▲ 像人腦一樣的導航定位對 AI 來說是不同於下棋的挑戰。(Source:pixabay)約翰霍普金斯大學 AI 和神經科學專家 Francesco Savelli 表示,在他看來 AI...
艾陽科技是家小公司,走進位於新北市新店區民權路工業區的辦公室,尚未就位的辦公桌椅與會議室,不到 10 人埋首工作的場景,要不是入口漆上 ioNetworks 橘紅字的企業識別,很難篤定地踏入展開採訪工作。「從自己默默耕耘,突然間,受到各界的矚目,有點不習慣。」執行長林鼎自嘲地說。創業至今 4 年,艾陽剛獲得 2018 年智慧城市展系統整合輸出獎,名號在業界受到普遍關注,加上遷入新辦公室算是雙喜臨門。林鼎也不禁欣慰地說:「我們從成立以來,從未向外募資,就已經賺錢了!」2018 年智慧城市展,艾陽整合了國內數位攝影機大廠利凌,以及通關閘門供應商眾陽機械,推出具備人工智慧臉部辨識的追蹤攝影機通關系統,能在黑名單經過時,1 秒迅速追蹤鎖定。得獎後,艾陽接到來自全球的國境通關、大型企業門禁等領域系統整合商進一步深度洽談的邀請。智慧臉部辨識通關系統 黑名單出現立即鎖定林鼎認為,艾陽在臉部辨識引擎及影像管理平台的優勢,在不同應用領域中,與既有安控軟硬體系統整合輸出是一貫的策略,在泰國航空全球商務據點、科威特機場、南非 MTN 財團、中東地區的電信公司的物聯網中央安控等案皆是如此。「雖然已具備含金量相對高的臉部辨識引擎與影像管理技術,但艾陽仍專注在安控市場,從門檻高的軟硬整合解決方案切入。」合作多年的利凌公司策略長許家雄說:「台灣在全球主流規格 IP CAM 的市場,無論是價格或品質,早已無法與紅色供應鏈競爭;深度整合到不同垂直領域的應用中,從初期的建置及費用,長期以軟體更新與服務費用的模式,才能獲利與紮根。」此外,區域及應用市場的選擇,也是艾陽這家小公司的戰略性布局。林鼎認為,公用雲的市場是亞馬遜網路服務(AWS,Amazon Web Service)與阿里雲等大型企業的天下,目前已廣布各項應用服務的工具,儼然是廣大的市集;而另一正在崛起的則是擁有自建頻寬與機房優勢的全世界電信廠商,後者,正積極地尋求各式人工智慧應用服務的合作夥伴,臉部辨識引擎能夠應用在軍事、金融、醫院、大型企業及安控多重領域,就成為艾陽科技心目中的藍海市場。再者,林鼎認為,國際上對中國的安控解決方案有高度戒心,以臉部辨識及安控產業而言,具有高度政治經濟敏感性,其他國家在國境通關系統、境內安全管制等攸關國土安全系統建置案,大都刻意排除中國廠商的主導或參與。如果能在產品、介面、架構及高辨識率與中國廠商有所區隔,專注在中高與高階市場,這正是艾陽近年投注大量資源深耕中亞、中東與東南亞地區市場的主要原因。中國具政治經濟敏感性 台廠突圍市場擁利基「刷臉領薪」,近年是台灣大型企業在中國、東南亞地區設廠時的新興應用。林鼎笑說:「這實在有其必要,經過深入盤點廠商們的需求發現,這些地區的例行發薪日都需要一一確認身分,以現金發放,且人數眾多,經常有冒領的風險,臨時性人力的調度及領薪等,也都讓人力資源部門困擾不已。臉部辨識正好幫他們解決了這些問題,如果能再串聯後端的人資及薪資系統,效益就更明顯了。」他提到,這部分艾陽已經是鴻海中國廠的合作夥伴,在智慧城市展中,也有電腦大廠提出比照辦理的需求,突顯出利基市場的突圍是一條可行的路。(本文由 財訊 授權轉載)
美國開發出一個名為 DRESS 的智慧著裝系統,可幫助老年癡呆症(認知障礙)患者獨立穿衣。穿衣是日常生活非常有隱私性的動作,即便是獨立生活能力不足的癡呆症患者,也需要這份讓人安全的隱私和尊嚴。(Source:紐約大學)紐約大學一個研究專案,注意到癡呆症患者獨立完成穿衣動作特別難。如果在護理人員或子女的幫助下穿衣,原有的隱私性將失去,患者和護理人員都感到緊張不安。這款名為 DRESS 的智慧著裝系統,致力於解決尷尬的穿衣難題。(Source:紐約大學)DRESS 系統使用感測器和影像辨識組合追蹤穿衣過程,衣服上的條碼可辨識衣服類別、位置和方向。患者配戴的「手鐲」,即皮膚電導感測器,可監測患者的壓力值和相關挫折感。護理人員可提前錄製語音,啟動患者穿衣,鼓勵、安慰患者,穿衣過程中系統偵測到問題或患者壓力過大,系統會提醒護理人員到場幫助。(Source:紐約大學)該研究的主要貢獻者紐約大學 Rory Meyers 護理學院副教授 Winslow Burleson 說:我們的目標是幫助癡呆症患者,幫助他們更優雅地老去,同時最理想的是確保系統完善,可在患者需要幫助時提醒的情況下,讓護理人員在患者穿衣服時休息一下 。全球人口高齡化越來越嚴重,對醫護衛生服務造成壓力,醫護人手也出現短缺。家居品牌和智慧家居研究紛紛關注生活不便人士的需求,新科技新產品的出現,可能幫助減輕養老壓力。有幸生於科技時代,或許未來我們能擁有智慧的老年生活。(本文由 愛范兒 授權轉載;首圖來源:shutterstock)
曾經許下宏願,要把旗下 9 萬 8 千名員工,半數換成機器人的德意志銀行執行長克萊恩(John Cryan),近日被拔除職銜,未來這項重責能否完成,已經沒有人會再去追問他了;但銀行業想靠人工智慧(AI)改善金融風暴之後毫無起色的獲利情況,聲音仍處處可聞。推廣金融科技不遺餘力的花旗集團前執行長潘迪特預測,30% 銀行工作在未來 5 年可能被 AI 淘汰。日本瑞穗金融集團表示,2027 年時,該銀行將有 1 萬 9 千名員工(約為員工總數三分之一)被 AI 取代。幾乎每家大顧問公司都發表過 AI 將如何改變銀行業的研究。畢馬威(KPMG)更進而提出「無形銀行」,爾後「智慧的虛擬助理」在與客戶互動各端都將取代人類員工。科技落後  遲早成為輸家西班牙桑坦德(Santander)集團 2010 年推出紅色機器人擔任銀行訪客中心解說員、瑞士聯合銀行將亞馬遜的數位助理 Alexa 運用在客戶服務、摩根大通使用(隱形)機器人執行交易、摩根士丹利有 AI 詐欺偵測團隊,最近匯豐也表示會仿效摩根士丹利利用 AI 來偵測洗錢、詐欺和恐怖主義融資。負責荷蘭荷寶集團(Robeco)歐洲金融科技基金的范歐爾表示:「長期而言,我認為 AI 與科技進化之下,贏家和輸家立見分曉。」他說:「要在未來占有一席之地,銀行必須建置有效的後端作業,同時也要為客戶量身訂製產品;未來若無法提供這類服務,輸的會是你。」這種說法有點打高空,實際情形當然更為複雜。《金融時報》訪談 30 家使用 AI 的大銀行後發現,銀行業對可以削減開支、提高回報的科技前景感到非常樂觀,其中一家銀行甚至預測 50%~70% 的工作會被 AI 取代。然而,AI 如何應用於銀行業,目前不僅缺乏共識,而且許多應用機器學習的努力也只是聊備一格;銀行業只是在摸索前進,而非奔向以 AI 為基礎的未來。加拿大皇家銀行的人工智慧研究部門主管艾格拉菲特說:「太多人發表關於成本和工作影響的樂觀言論,其實我們目前能解決的問題都是非常小的問題;大家誤以為機器與人類表現已旗鼓相當,但我們還有很長的路要走、很多挑戰要解決,機器才能在近似人類思維的水準作業。」麻省理工學院 AI 實驗室前負責人溫斯頓和艾格拉菲特的看法一樣保留。「有太多需要創造出來取代人類思維的東西,不是今天所謂的 AI 系統能夠做到的;其實,現在的 AI 感知力大於認知能力。」溫斯頓說,「AI 認知能力何時出現?總有一天會,但我的水晶球出現的時機不明朗。今天的 AI 研究者做認知方面研究的沒有幾人。」整體來說,銀行都認為 AI 重要,但每家使用的策略卻大為不同。一家受訪的歐洲銀行宣稱,有 500~800 人在...
在 Google I/0 2018 中 Google 執行長桑德爾·皮蔡(Pichai Sundararajan)為大家介紹了 Google Assistant 新的語音功能,接近真人的語法應答方式讓人驚豔,而根近最新的消息,Google 已決定於今年(2018)把這系統帶到 30 個語系中的 80 個國家,其中也包含台灣。這個消息是經由 Google Assistant 工程副總裁 Scott Huffman 於 Google I/O 2018 於 Keynote 簡報場上親口說出的,雖然在場中他透出了地圖顯示將支援的國家,不過他並未一一的製表,所以一般也不清楚到底即將在哪個國家推出。不過 Android Authority 很努力的從地圖中把 Google 即將支援的國家一一列出,不過他們數了一下只能列出 71 個國家,之所以會有這個誤差可能是有些地區的範圍太小如盧森堡、新加坡與巴林,以至於難以算出。當然還有另一種可能是 Google 當時公開的地圖並非最終完整版。而在他們列出的地區中,讀者最關心的莫過於亞太地區的狀況,按 Android Authority 的列表,在年底前 Google Assistant 將會支援澳洲、印度、印尼、日本、馬來西亞、緬甸、紐西蘭、巴基斯坦、巴布亞紐幾內亞、菲律賓、南韓、台灣、泰國與越南。在亞洲地區中可以很明顯的看出中國並未在列表中,由於 Google 目前的諸多服務無法在中國使用,因為無法支援應也不致於在意外,至於香港與澳門兩地由於地圖標示並不明顯,顯然因此 Android Authority 並未名列其中,因此這兩個地區極有可能是會於年底加入的地區。Google Assistant 採用的 Google Duplex 新的 AI 語音技術由於完全模擬真的口語風格,除了讓各人大感吃驚,一方面除了訝異於語音技術的進步外,一方面也擔心這種真偽難辨的語音技術是否會產生其他的問題。科技評論家...
電商、零售、服裝、食品、智慧家電……還有哪一行是亞馬遜還沒涉足的?這一次是住宅行業,亞馬遜宣布與全美最大的住宅建築商之一 Lennar 合作,共同打造亞馬遜 Alexa 智慧家居樣品屋,就像「科技版的 IKEA」。智慧住宅是什麼狀態?《黑鏡:白色聖誕節》虛擬了智慧家居透過意識複製達成家庭物聯網,全屋智慧家電由類似智慧音箱中的「代碼」管家控制。這個管家了解主人的一切喜好,可以完美安排主人的生活,因為「她」是主人意識資料的複製。馴服並勞役虛擬自我(即自我意識的複製體),只為讓真實自我生活舒適,是多麼讓人不舒服的科技幻想。當然啦,亞馬遜與 Lennar 合作推出的智慧家居樣品屋還沒這麼誇張,主要是目前的科技還複製不了意識。亞馬遜的智慧家居到底「智慧」在哪?根據亞馬遜官方說明,智慧家居生活主要是 Alexa、Prime 和電商平台的共同協作提供: Alexa:透過語音控制電燈、電視、調節恆溫器,查看前門的來訪者、查天氣,並根據交通狀況提供最新通勤時間的資訊。 Prime:亞馬遜可為會員免費提供 Prime Music 超過 200 萬首歌曲及 Prime Original 電影和連續劇。 亞馬遜訂購服務:安排家庭必需品自動補充或自動續訂,也可以透過亞馬遜預訂上門服務。 ▲ 家中的設備。(Source:亞馬遜)不需運動,不用出​​門,娛樂資源充足,生活物資自動補給。這個智慧家居房真的不是專為「宅宅」設計的嗎?▲ 英特爾智慧小屋。(Source:techomebuilder)透過樣品屋提供智慧家居體驗,這不是新點子。2015 年,英特爾就推出了名為「設計 2025 年智慧家居的未來」智慧家居樣品屋。英特爾的智慧小屋,面積為 210 平方英尺(約 19.5 平方公尺),功能包括透過聲控或軟體調節室內的燈光、臉部辨識的門禁系統、家居故障提示。2014 年,蘋果舉行全球開發者大會(WWDC),發表智慧家居管理應用軟體 HomeKit,正式踏入智慧家居市場。2016 年,蘋果在美國推出樣品屋,KB Home(KBH)正式公布對外銷售帶有預裝蘋果 HomeKit 相容設備的物業。與幾年前英特爾的智慧小屋和蘋果的 Homekit 智慧家居平台相比,亞馬遜的優勢是擁有 Prime 會員體系和電商平台服務。以智慧音箱為入口,智慧語音中樞打開亞馬遜在智慧家居領域的思路。家電硬體、智慧音控、電商物流多者結合,能提供解決生活需要的「宅宅快樂生活」。(Source:亞馬遜)儘管各大流派要解決的麻煩都不少,但可以肯定的是,智慧家居這個蛋糕越來越大,人人都想分一塊,競爭勢必越來越激烈。亞馬遜智慧家居樣品屋目前暫定在美國西雅圖、舊金山、邁阿密等 8 個城市推出,未來還可能在更多城市推出。(本文由 愛范兒 授權轉載;首圖來源:亞馬遜)
美國時間 5 月 8 日,Google 在 2018 年度開發者大會(Google I/O 2018)介紹了智慧語音助手 Google Assistant 新增的 Duplex,可以打電話給餐廳、髮廊等店家,幫用戶預約時間。AI 語音助手與人交流、完成指令已不是新鮮事。如果你常跟 Siri 對話,或你有一台亞馬遜 Echo、LINE 熊大等智慧喇叭,你會發現,跟 AI 對話實在太費勁,需要字正腔圓,還要一次次說喚醒詞,無法連續對話。Duplex 讓人驚訝的是:它不僅用自然流暢的詞句和電話另一頭的人類交流,且對方根本沒有意識到打電話來的居然是個 AI。這是因為 Google Duplex 達成連續對話、加入人在對話時通常會使用的語助詞 emm、uha 等,能理解對話內文,此外還具備主動提供語料的功能。這樣的雙向對話,一直是微軟、蘋果、亞馬遜、Facebook 這些做對話式人工智慧的公司努力的方向。Google 這次放了大招,獲得很高的關注,微軟顯然坐不住了,趕緊站出來說,且慢,我們才是先做到這項技術突破的。關於這件事,微軟發了一篇技術聲明。以下為聲明全文:全雙工語音技術(Full Duplex)的意義在於,它能使「人機互動」進化為「人機交流」。二字之差,價值巨大。今年 4 月 4 日,我們正式在美國和中國同步發表了 Full Duplex 感官,並預言工業將意識到這技術的價值,加快向這方向集中。我們很高興看到越來越多同業者加入。其實,人類歷史上第一次與人工智慧進行全雙工語音電話,並不是發生在美國,而是發生在中國。我們很榮幸能將這一桂冠奉獻給中國。自 2016 年 8 月起,微軟(亞洲)網路工程院透過人類用戶主動發起的方式,已讓小冰與人類用戶累計完成了超過 60 萬通電話。今天,我們公布其中一通發生在兩年前的實際電話錄音,為珍貴的資料,奉獻給全世界說中文的華人。這技術已經完成產品落地。兩年來,正是在人類的訓練下,小冰已不局限於任何封閉域,而是可針對開放域進行全雙工語音對話。目前,微軟已落地的對話場景包括傳統電話、VoIP 電話和智慧喇叭裝置,微軟小冰的車載路試正在進行。如果您想要體驗 Full Duplex 全雙工語音,不需等待數週,今天就能。在微軟小冰已落地的產品中,我們建議您使用我們與小米合作的米家生態鏈 Yeelight 智慧硬體產品。在隨附的用戶真實使用影片,您將體會到: 一次喚醒之後的連續對話 微軟小冰對用戶的預測模型 幫助用戶輕鬆完成多重工作 小冰的內容創造能力 以及最重要的:人機情感交流 人工智慧時代已來,讓我們持續創新。微軟的聲明有了 3 個關鍵點:首先,在技術層面上,微軟今年 4 月 4 日正式發表「全雙工語音互動」技術;其次,事件事實上,微軟在兩年前就達成 AI 與人類通電話;最後,產品落地上,微軟的全雙工語音互動已具備多個場景,且搭載全雙工語音互動技術的微軟小冰已經出現在智慧喇叭──米家生態鏈 Yeelight 智慧硬體產品。微軟所說的全雙工語音互動技術(Full-Deplex Voice)與 Google Duplex 的技術框架和達成功能應該類似。微軟對「全雙工語音互動技術」的定義是:與既有的單輪或多輪連續語音辨識不同,這項新技術可即時預測人類將說出的內容,生成因應並控制對話節奏,能理解對話場景在訴說者/傾聽者之間角色轉變,還可以辨識說話人的性別、有幾個人在說話。也就是說,與只能做到單輪語音的智慧語音助手不同,能連續對話的全雙工語音互動能達成和人類雙向交流,而這種雙向交流最常見的場景就是通電話。因為通電話是短時間內持續對話的過程,對通話雙方的即時反應要求最高。3 月 28 日,微軟也在北京召開媒體交流會,詳細介紹過「全雙工語音互動技術」。全雙工語音互動背後主要有兩個關鍵技術:一個是預測模型,邊聽邊想;例如,當用戶說出一句話,小冰會先回答「嗯,你說」,然後再完成指令,這樣就可以填補完成指令的空白時間。另一個是生成模型(LSTM),能理解場景,自動生成回覆。正常的對話都不是單向的一問一答,小冰也會在適當的時候主動提供內容,並能知道用戶完成指令沉默幾秒後自動結束對話。現在運用全雙工語音互動技術的微軟小冰所有回覆都是自己生成的,有別於傳統的基於模組、搜尋的回覆。Google Duplex 的技術分析也提到,Duplex 的核心是 RNN(迴圈神經)網路,由 TensorFlow Extended(RFX)構建,Google 用匿名電話對話資料訓練 Duplex 的 RNN 網路,這個網路會使用 Google 自動語音辨識(ASR)的辨識結果文字檔,同時也會使用音檔的特徵、對話歷史、對話參數(比如要預定的服務、目前時間)等。匯入語音先經過自動語音辨識系統(ASR)處理,生成的文字檔會與內文資料及其他一起匯入 RNN 網路,生成的回應文字再透過文字轉語音(TTS)系統讀出來。Google 用的生成模型是 RNN,微軟用的是 LSTM,從體驗來看,兩者的效果很接近。跟 Yeelight 的微軟小冰對話時,能做到一次喚醒連續對話長達 20 分鐘,有適當的語氣詞,能主動提供預料,主動結束對話。Google I/O 大會最後一天,獲得年度圖靈獎的 Alphabet 新任董事長 John Hennessy 宣布:「在預約領域,Google Duplex 通過了圖靈測試。」也就是說,目前 Google Duplex 與人類對話,人類無法辨識其是機器人。這個消息,確實令人振奮。與搭載微軟全雙工語音互動技術的微軟小冰相比,Google Duplex 的一大特色是音色和語調與真人幾乎一致,這是他們花費數月採集真人聲音訓練的結果。Google 稱,今年夏天會開始基於 Google Assistant 測試 Duplex,從預訂餐廳、預訂髮廊、詢問假日的營業時間這種事項開始。微軟小冰則將人工智慧助手和聊天機器人結合起來,努力進入各場景,包括傳統電話、VoIP 電話和智慧喇叭裝置,微軟小冰的車載路測也在進行。微軟全雙工語音技術已在做產品落地,卻被還在測試的 Google Duplex 搶占鋒頭,難免有點著急。然而如果回想技術發展的歷程,我們會記得,1844 年,莫爾斯從華盛頓到巴爾的摩拍了人類史上第一封電報,說的是:「上帝呀,你究竟幹了些什麼?」1876 年,貝爾發明世界第一台電話,他說的第一句話「沃森先生,快來幫我」成為人類第一句透過電話傳輸的語音。然而,人工智慧助手與人類的第一通電話顯然難以定義了,畢竟我們在人工智慧的發展上,還有很長的路要走。(本文由 雷鋒網 授權轉載;首圖來源:shutterstock)延伸閱讀: 會打電話的 AI 背後:Google Duplex 技術解析 Google 的 AI 又進化了!像真人一樣打電話訂位、回郵件...