星期六, 17 1 月, 2026

旅 TRIVEL

亞馬遜(Amazon)創辦人 Jeff Bezos 日前在公開會議上宣告,現在是人工智慧(AI)應用的黃金時代,是人工智慧復興時期,聲稱電腦運算已經準備改變所有的商業模式。事實上,現在人工智慧幕前幕後都戰況激烈,Nvidia、Intel、Google 等大廠在晶片領域也都虎視眈眈。MIT 報導,Nvidia 為遊戲和圖形製作使用的繪圖晶片,過去幾年促成許多機器學習的突破性應用,大幅推升企業利潤和股價,但未來的路可能不會這麼順遂,因為幾家晶片龍頭都在主打新產品可加速人工智慧應用,連軟體大廠也都在自己打造適合自家軟體的硬體核心。由於保險和金融等許多行業的公司,正在投資機器學習基礎設施,因此 Google、亞馬遜和微軟都認定,未來許多企業會向他們購買人工智慧軟體,因此在硬體上也必須砸大錢來支持軟體運作。報導認為,Nvidia 佔有人工智慧晶片市場優勢是運氣好,因為電腦圖形所需的基本數學運算,與被稱為人工神經網絡的機器學習方法相同。從 2012 年開始,研究人員發現,將新技術置於這種技術之上,繪圖晶片可讓軟體在解釋圖像或語音等任務上變得聰明很多。隨著人工智慧市場成長,Nvidia 已調整晶片設計以支持神經網絡,本週宣布的新 V100 晶片是這一努力的頂峰,並具專門用於加速深入學習數學的新核心。Nvidia 強調其電力和能源效率將有助於企業或雲供應商大幅提升使用人工智慧的能力,聲稱「可以將數據中心的吞吐量提高 15 倍,而不必建立新的數據中心。」而 Nvidia 的新競爭對手認為,他們可以直接為加速處理人工智慧軟體的硬體運算能力與效率來從頭設計晶片,而不是調整繪圖晶片技術。例如英特爾去年購併 Nervana 之後,承諾今年會發表深度學習晶片。英特爾花了 167 億美元購併全球可程式邏輯(FPGA)晶片製造商拓朗半導體(Altera),準備藉 FPGA 技術發表加速深度學習的產品。微軟也是以 FPGA 為機器學習軟體提供動力,並將其做為雲端平台 Azure 的核心部分。Google 也在去年夏天表示已經在使用內部開發,為人工智慧訂製的晶片 TPU,去年已經替 AlphaGo 贏得棋盤遊戲冠勝利,Google 表示不會出售 TPU,但使用 Google 雲服務企業將會獲得 TPU 的電力和能源效率的好處。打造 Google 晶片的幾名工程師已經離職,成立一家擁有 1 千萬美元資金的創業公司 Groq,製作專門的機器學習晶片。其他類似的新創公司包括 Wave Computing,表示其產品已經在客戶測試階段。不過 Nvidia 執行長黃仁勳趁機批評競爭對手的技術,他說如 Google TPU 這種自定義晶片的靈活性不夠,無法在不同種類的神經網絡上達到同樣運算水準,認為這是一個重大缺點,而微軟與英特爾青睞的 FPGA 則太耗能。黃仁勳聲稱 Nvidia 正在為深度學習創造最有成效的平台,且現在已經比競爭對手更快到達技術甜蜜點,但其他競爭廠商今年也將在人工智慧晶片上有大動作,這一戰場勢必將受到市場密切關注。 Battle...
今年的 GTC 2017(GPU Technology Conference 2017)中,Nvidia CEO 黃仁勳帶來了全新的 GPU 架構 Volta。1.5 倍的雙精度浮點數計算效能提升,以及採用特化架構所帶來的 12 倍人工智慧計算效能提升,為計算市場帶來震撼的消息。Nvidia 在 2016 年的 GTC 中,便發表了新的 GPU 架構 Pascal。其中,讓人印象最深刻的,莫過採用 8 張 Tesla P100 的人工智慧訓練機 DGX-1。一台機器便帶來以往需要數台伺服器才能達到的效能,為人工智慧發展帶來新氣象。然而,短短的一年間,Nvidia 又帶來新消息──新的 GPU 架構 Volta。強悍的 R&D 團隊,將其主要競爭對手遠遠拋在後頭。同時,也讓世人見識到,在後莫爾定律的年代,GPU 將承接 CPU 的發展速度,推進電腦的計算效能。新技術突破,奠定 Volta 於人工智慧的王者之姿這次 Volta 架構帶來數個新技術。 其中,最重要的莫過 Tenser Core。其他還有細部硬體架構調整、第 2 代 NVLink 以及新軟體支援,讓 Nvidia 在人工智慧領域扮演領導者。首先,從硬體架構來看,這次 GPU 架構和前一代 P100 相比,V100 將整數計算單元和浮點數計算單元獨立出來,讓整數計算和浮點數計算可同時運行,物盡其用。此外,每個...
微軟 CEO Satya Nadella 於 10 日晚上在美國華盛頓會展中心舉辦的微軟 Build 2017 開發者大會上發表主題演講,除了介紹 AI、智慧雲、Windows 系統、EDGE、聊天機器人等最新研究開發成果及未來發展方向,他還對科技帶給人類的社會影響表示擔憂,在現場向所有技術開發人員發出了警告。無處不在的 AI微軟年度 Build 大會伊始,就展示了其新型人工智慧應用程式,可以接進網路「雲」服務,甚至是利用附近機器進行運算。人工智慧執行副總裁及研究員 Harry Shum 表示,微軟會將其所有產品和服務與人工智慧相接,從而使平台上的開發者在產品中加載客製功能。他說,「二十多年來,我們為當前 AI 技術取得的突破奠定了基礎。」微軟的研究已經深入到機器學習、語音辨識、機器辨識等領域。他還說,「我們現在處於得天獨厚的地位,可以利用過去幾十年來取得的研究突破。」微軟的競爭對手亞馬遜、蘋果、Google 和 IBM 都在積極兌現自己在人工智慧領域許下的承諾,並最大限度發揮自己的潛力。人工智慧正逐漸在人類家居中立足,數位助手為你解答問題,控制家電或燈泡等連網裝置。數位助手早就可以根據用戶事先在日曆上的設定提醒用戶按時赴約,如果交通可能堵塞的話還會提醒用戶早點動身出門。「AI 對社會有何意義」這問題在科技界有過很多討論,尤其是從它快速帶來的改變來看──很多就業機會消失,無人車和聊天機器人接管很多技能型工作。Gartner 負責應用程序開發的研究主管 Jason Wong 問:「藍領階級會受到什麼影響呢?」「AI 的突然崛起,導致反烏托邦也可能出現這種情況;不出 30 年,我們就能在日常生活中見到無人車這類技術。」無處不在的雲微軟本次會議的目標人群是企業和軟體開發者,既包括開發手機遊戲的學生,也包括專業的技術團隊。Moor Insights 戰略首席分析師 Patrick Moorhead 說,「微軟正嘗試使用人工智慧為企業解決業務問題,幫助應用程序開發者做出更好的應用程式。」「和 Amazon、Facebook 還有 Google 不同的是,他的主要商業模式是利用人工智慧收集的個人資訊賣東西給你,或者向你推送廣告。」他還說,微軟讓開發者定製手勢指令和語音辨識等,而不是讓它們符合「現成的」AI 設置。微軟高層描繪了一個不遠的未來:聯網人工智慧設備,如建築工地的鏡頭,可以線上向工人提示危險、哪些工具可用,或者哪些活動未經授權。智慧監控鏡頭、智慧手機或工廠車間的機器等設備被稱為「edge 計算」,和「雲端計算」合作,可以提高地面生產協調性以及安全性。Windows 新進展近期,使用微軟最新的 Windows 10 操作系統裝置已達 5 億,微軟開發的軟體用戶也大大增加。微軟在線 Office 365 服務每月約有 1 億商業用戶使用,而 Cortana 數位助理每月約有...
Facebook 的使命是讓世界變得更加開放,讓每個人都能以最高的準確性和最快的速度使用自己喜歡的語言來發帖子和影片互動,語言翻譯對此十分重要。10 日,Facebook 的人工智慧研究團隊發表了他們的研究成果 Fairseq,使用一種新型卷積神經網路做語言翻譯,比循環神經網路的速度快了 9 倍,且準確性也是現有模型中最高的。此外,FAIR 序列建模工具包的源代碼和訓練好的系統都已經在開源平台 GitHub 上公布,其他的研究者可以在此基礎上建立自己的關於翻譯、文本總結和其他任務的模型。為什麼選擇卷積神經網路?卷積神經網路在數十年前由 Yann Lecun 提出,已經在諸如圖像處理之類的領域取得了成功。循環神經網路卻是文本領域的現有技術,並且由於其極高的效率而成為語言翻譯的首選。儘管循環神經網路以前在語言翻譯上比卷積神經網路表現更好,但是其設計具固有的局限性,這可以透過它們怎麼處理資訊來理解。電腦一句一句翻譯一個文本,然後預測另外一種語言具有相同意思的單詞序列。循環神經網路以嚴格的從左到右或從右到左運算,一次處理一個單詞。這和現在高度並行的 GPU 硬體有點不符合。由於單詞只能一個接著一個進行處理,計算不能完全並行。而卷積神經網路可以同時計算所有的元素,充分利用 GPU 的並行性。CNN 的另一個優點是它對信息進行分層處理,這可以更容易獲得數據之間的複雜關係。雷鋒網獲悉,在先前的研究中,卷積神經網路在翻譯任務上的表現要差於循環神經網路。然而,由於卷積神經網路架構上的潛力,FAIR 開始研究,發現所設計的翻譯模型顯示了 CNN 在翻譯方面的優異性能。CNN 優異的計算性能將有可能會擴展可翻譯的語言,將包括全球 6,500 種語言。最快最好的結果Facebook 團隊的結果表明,在廣泛應用的標準測試數據集(WMT 會議提供)上,其比 RNN 表現更好。尤其是卷積神經網路比先前在 WMT 發表的結果都要好。在英語─法語任務上提高了 1.5 BLEU,在英語─德語任務上提高了 0.5BLEU,在 WMT 2016 的英語─羅馬尼亞語任務上,提高了 1.8BLEU。對神經機器學習實際應用考慮的一個方面在於翻譯一個句子所需要的時間。FAIR 的卷積神經網路模型計算相當快速,比循環神經網路快整整 9 倍。許多研究都透過量化權重或其他方法來加速神經網路,這也同樣可以用於卷積神經網路。用多跳注意和門控來獲得更好的翻譯效果團隊的架構重要部分就是多跳注意。注意力的機制類似一個人在翻譯句子的時候會把句子分開翻譯,而不僅看一次句子然後直接寫下完整的翻譯。設計的網路會重複掃描句子來決定要翻譯的下一個單詞。多跳注意是這種機制的加強版,讓網路更多掃描句子產生更好的結果。每一次掃描間都相互影響。舉個例子,第一次掃描會注意到一個動詞,然後第二次掃描會注意到相關聯的助動詞。在下面這幅圖中,Facebook 團隊展示了一個系統是怎麼閱讀法語短語然後再翻譯成英語。首先,用卷積神經網路生成每個法語單詞的對應向量,在此同時進行計算。然後解碼的 CNN 再生成對應的英語單詞。每一步都掃描一下法語單詞,看一下哪些詞語與下一個要翻譯的英文單詞關係最密切。在解碼器中有兩層,下面的動畫說明了每層的注意力機制是怎麼完成的。綠線的強度表現網路對每個法語單詞的注意力。當網路訓練好之後,也就可以翻譯了,英文單詞的計算也可以同時進行。系統的另一個方面是門控,其控制神經網路裡的訊息流。在每個神經網路中,訊息都流過所謂的隱藏單元。門控機制精確控制傳向下一單元的訊息,一個好的翻譯才因此產生。例如,當預測下一個單詞的時候,網路會把前面的翻譯部分考慮進去。門控允許翻譯放大特定方向──這一切都取決於網路認為其在上下文中合不合適。以後的發展這種方法是機器翻譯的一種替代框架,也給其他文本處理任務提供新思路。例如,多跳機制在對話系統中允許網路注意對話的不同部分。例如對兩個沒有聯繫的事實,可以把它們聯繫在一起,以回答複雜的問題。 A novel approach to neural machine translation (本文由 雷鋒網 授權轉載,圖片來源:Facebook)延伸閱讀: 一分鐘看懂 Facebook、Nvidia...
醫療一直是大家重視的行業,不論是從業人員的素質,還是投注的資源都是名列前矛的狀況。如今進入資訊時代,病人資料也變成電子病歷資料的一部分,但其他可電子化處理的資料,在醫療場所上面的使用情況就沒那麼普及,到底是有什麼限制。微軟亞洲醫療事業部副總經理(Microsoft Asia Healthcare Lead)Danny Yang(楊啟平)要來談微軟在智慧醫療這一塊,究竟有什麼獨到的看法。比爾‧蓋茲的遠見:醫療方案群在 2008 年時,比爾蓋茲相當看重健康資訊,於是微軟這家軟體公司,在 2009 年組成 Health Solution Group 這個相當不傳統的部門,直屬比爾蓋茲,類似孵化器角色。Health Solution Group 找來不少曾在醫療現場的醫生參與。微軟也曾推出完整 HIS(Health Information System)方案團隊,專門販售相關方案,但後來經過重整,重新調整重心。其中最重要的一點是重視 Health Care Security。蓋茲相當注重醫療資訊,但當年還處於剛萌芽,因此用特別的方式,讓 HIS 不必歸在微軟一般業務單位下。如今大家越來越重視醫療資訊這一塊,雲端方案也越來越成熟,漸漸 HIS 變成微軟的一般業務單位。前面提到健康資訊安全,標準就是即便國家要求資料,平臺業者不能、也沒辦法弄到資料。儘管醫療機構還沒碰到國家要求案例資料,但也不是檢察官、警察隨意要求就可以拿到資料。由於醫療是相當因地制宜的產業,醫療資訊要符合各地的醫療法規規範,還有資料保護法規。隨著雲端應用越來越普及,醫療資訊可能被雲端存取、運算,仍然需監管誰能存取病人的資料。醫療資訊的規範,有相當嚴格的 ISO-27002,美國有 HISPA,新加坡有 MTSC(The Multi-Tier Cloud Security),微軟都有通過這些規範。除了分析大量病人的資訊,找出跟特定疾病的關聯之外,醫療場所的數據,還能幫助病人有更好的就醫體驗。像是從長期數據分析,找出病人就醫的高峰時間,協調更多醫護人員和行政人員。AI 協助人找出保險詐騙和即早預測患病機率不少國家由政府或公司提供醫療保險,難免有詐騙狀況發生。醫療保險提供者藉由機器學習,抓出可能的保險詐騙狀況。以往是由 30~40 人的團隊抓詐騙,轉由教 AI 怎麼找詐騙的方法,從 1,000 個保險申請案,由 20 個抓出有詐騙的申請案,從中抽出 10 個案子交給 AI 辨識。經過一段時間訓練 AI,變成先由 AI 抓保險詐騙,再人工覆核方式確認,省下不少時間。AI 用在醫療本身也有相關例子。小孩辨識文字有困難,叫做失讀症(Dyslexia),常常要到小孩進入學校後才會發現,往往已經太遲了,需要花很多時間才能改善。用 AI 看小孩的眼球運動模式,能偵測小孩是否得到失讀症的機率,及早發現就能早期採取補救措施。印度也有用 AI 判斷小孩散光的機率,不必做所有的散光測驗,就能預測小孩散光,能在低成本的狀況下,幫忙印度貧窮小孩及早找出有散光徵狀。談到各國的狀況對醫療資訊的影響,政府往往在法規的解讀比較保守,因此對比較新的技術沒那麼快採用。新加坡曾進行一項實驗,將新加坡的醫療管理分成東西兩邊,西邊由企業背景的人掌舵,東邊由醫療背景的人來執掌。經過幾年後,發現西邊的醫院運作有效率,而東邊有相當先進的醫療技術。兩邊各有長處,因此新加坡分成 6 塊,保持每一地區都有強項,確保整體有多樣性的醫療表現。此外聊天機器人技術用在不少場域上,在醫療方面,醫療...
MindMeld 是一家能夠為任何應用程式、裝置或網站提供智慧會話的雲端平台公司。企業客戶使用這個平台快速創建智慧會話助理,以了解用戶的需求。MindMeld 之前也叫 Expect Labs,成立於 2012 年,其最早業務是利用 iPad 上的應用提供類似「Siri」的智慧語音服務。隨後為了不僅停留在 iPad 生態內,MindMeld 將產品標準化並隨之開發了一套擁有語義解析、語義推理和語言生成的智慧 API,幾乎所有主流平台和作業系統都能適配。MindMeld 之前曾獲得來自 IDG Ventures USA、KPG Ventures、Samsung Ventures、GV 等 16 家機構總計 1,540 萬美元的風險投資。近期在矽谷,會話類 AI 成了收購熱門標的,三星 2016 年為 Vivv 支付了 2.15 億美元,目的是將其產品與技術整合進三星的私人助理 Bixby 中。同樣的,思科近期在收購領域的表現也頗亮眼。截至今日,思科從 2016 年起共完成 10 起收購案,除去未透露的金額,總計達 67.08 億美元。思科表示,MindMeld 團隊將與思科團隊組成一個新的人工智慧語義認知專案組,這一舉動被外界認為將會是向 IBM 的 Waston 發起挑戰的一個舉動。 Cisco acquires conversational AI startup MindMeld for $125 million (本文由 36Kr...
很多人都不確定到底什麼才是機器學習。但是事實上機器學習已經成了我們日常生活的一部分。機器學習是人工智慧的一種,透過機器學習,電腦可以從例子中學習而不需要一步步執行指令。英國皇家學會(The Royal Society)認為機器學習對人們生活的影響會越來越大,並號召大家在這方面做更多研究以確保英國充分抓住並利用這個機會。機器學習已是很多系統的「動力系統」,從平凡到可以改變生活所有。以下是一些例子:1. 手機運用語音指令命令手機完成搜尋和撥打電話等功能,就是依賴機器學習相關的技術。虛擬人工助理,如 Siri、Alexa、Cortana 或 Google Assistant 能執行指令也是因為有語音辨識技術,處理人類語言,符合相關指令並以越來越自然的方式反應。虛擬語音助理透過學習大量的對話及其他各種各樣的方式學習人類語言。它們也許會問詢具體資訊,如怎麼稱呼你,或一家人中每個人的聲音分別是如何。所有用戶產生的大量對話資料也被用做學習例子進而幫助虛擬人工助理辨識多音詞,以及學習如何自然討論。2. 購物很多人都非常熟悉購物建議,回想一下線上超市提醒你購買東西的場域,或 Amazon 向你建議你可能喜歡的書。機器學習就是透過所謂的建議系統來進行。透過分析消費者的購物歷史資料以及消費者表現的消費喜好,建議系統可在購物歷史中總結出規律,預測你可能喜歡的產品。3. 電視相似的建議系統同樣也用於電影或電視等串流媒體,比如 Netflix 就有這樣的建議系統。建議系統利用機器學習分析觀看習慣,根據每個人看過什麼、喜歡看什麼分析出偏好形態。了解觀眾喜歡的電影類別、點播歷史和高分評價以後,建議系統就可分析出看電影的個人偏好。在 Spotify 等音樂類串流媒體同樣有建議系統,Facebook 也透過這樣的機制為用戶推送廣告。4. 電子郵件機器學習同樣可用於區分不同種類的物品或專案。這點用來從一堆電子郵件中挑出你想看的郵件。垃圾郵件探測系統利用一組示範郵件辨識出垃圾郵件──透過偵測特定的詞語、發件人以及其他特徵判定是否為垃圾郵件。一旦設定好,系統就可以直接將相關郵件放進特定檔案夾中。隨著用戶標注郵件或在檔案夾間移動郵件,該系統持續學習。5. 社群網路你想過 Facebook 是怎麼知道你的照片裡有誰並自動標註的嗎?Facebook 及其他社群媒體採用的自動標註影像辨識系統也是基於機器學習。當用戶上傳照片並標注朋友和家人後,影像辨識系統就會辨識重複出現的元素並將其分類或指向特定人物。6. 銀行透過大量資料分析和型態認證,人工分析員無法辨識的行為都可以解析。這種能力最常見應用就是打擊金融卡和信用卡詐欺行為。機器學習系統可訓練辨識典型的消費型態及交易特徵(如地點、數目或時間),或多或少降低詐欺可能性。當一單交易看起來不規則時就會觸發警報,隨後用戶就會收到一條相關資訊。7. 醫院醫生開始考慮使用機器學習來做更好的診斷,比如發現癌症和眼疾。透過學習醫生記號過的圖片,電腦分析認證新的病人視網膜圖、皮膚斑點或顯微鏡下的細胞圖。透過這種方式,機器可發現疾病存在的視覺線索。此類影像辨識系統在醫療診斷領域越來越重要。8. 科學機器學習同樣也為科學家探索新發現提供了助力。特別是在粒子物理領域,機器學習幫助電腦從 Cern 的大型強子碰撞型加速器收集到的海量資料集中發現型態。機器學習在希格斯玻色子(Higgs Boson)的發現中有重要作用,現在機器學習應用於任何人都沒有想過的「新物理」探索。同時,還被用於發現新藥,比如透過搜尋新型小分子或抗體來對抗疾病。未來將會怎麼樣?未來的發展將聚焦於製造出能夠出色完成特定工作的系統,並使這些系統成為人類的助手。在學校,機器學習可以追蹤學生的表現,制定個人學習計劃。可以幫助我們有效利用資源,降低能耗;透過幫助人們發現更多有意義的人際接觸,加強對老人的關懷。在交通領域,機器學習推動無人駕駛。各行各業都可利用演算法提高效率。金融服務的自動化程度更高,律師事務所利用機器學習完成基本的調查。常規工作更快完成,這將挑戰依賴於按工作時間收費的商業型態。在未來十年,機器學習科技將越來越多滲透到我們的生活中,改變我們工作和生活的方式。 Eight ways intelligent machines are already in your life (本文由 36Kr 授權轉載;首圖來源:shutterstock)
知名統計軟體大廠 SAS 在 4 日與玉山銀行及台灣大學電資學院宣布將進行正式的技術合作,期望在台灣建立能夠自我學習的預測分析法,以領先業界完成高度個人化的金融服務設計,預計 2017 年底系統能正式引進。 美國 SAS 公司一直深耕於大數據及機器學習領域,在台灣也持續推動有關統計及資料科學等產學合作,而此次與台大將共同為金融業聯手打造最適化的普惠金融。台大電資學院副院長陳信希指出,所謂的普惠金融是希望能夠照顧到客戶的所有需求,透過各種不同異質化的資料來源,做到使用者意圖分析、意見探勘甚至是情感分析,打造能預測顧客需求的演算模型。圖形辨識完成度高台大資工系副主任張智星表示,雖然台灣金融業在精準行銷上一直有在努力,但數據演算其實相當複雜,要如何準確的辨識及細部貼標是一個很大的挑戰,何況部分的重要資料是以圖片形式存在。SAS 台灣總經理陳愷新指出,就算是難度較高的圖形辨識,也已與台灣科技業者進行合作研發演算法,經過不斷的訓練之後,距實際商業運用已有一半的完成度,可望年底能有實質的展示。陳愷新強調,其實不管是將大數據應用在行銷抑或是機器人理財等其他金融科技上,其背後所需要的演算有相通之處,所以 SAS 也有與 UBS 及美林銀行等合作,致力打造一個大數據演算法平台,以讓業者進行各種服務應用。關於個資蒐集的問題,他也表示,此次合作的數據主要是由玉山銀行提供,不過仍有需要透過網路爬蟲等工具蒐集一些個人的社群資料,其實公開社群的資料蒐集已經是各廠商行銷運作的常態,目前法規尚未構成障礙。新零售也是同理機器學習的運用其實也不僅在金融業,同理在零售業的應用也是如此,如馬雲提出的新零售概念。SAS 台灣創新中心資深顧問林輝倫表示,傳統的行銷做不到即時及個人化,很難正確的投放資訊,而這背後必須要仰賴機器學習的演算才有辦法達到最佳化。目前台灣的零售業者,雖然還沒有人能達到理論上的人工智慧行銷,不過也在逐漸地改進中。林輝倫強調,實務上,讓業者引進機器學習技術的障礙主要還是成本問題,不僅是要有軟體,也要聘用專業的工程師與資料學家,才有辦法實現,尤其是不涉及網路的實體廠商意願就很低,因為他們比較偏重報表的總體營業數字,如果投資回報率不夠就不太有意願進行改革。不過除了大規模的電商之外,規模太小的網拍工作室等,也頂多只願意使用外包服務。(首圖來源:科技新報)延伸閱讀: 機器學習已悄悄潛入生活,你可能還沒發現 搭起學界與業界橋樑,趨勢科技與國網中心合作機器學習平台 T-brain 台灣電子支付扶不起,人工智慧才是金融科技業良方? IBM Watson 機器學習技術導入 z Systems,助企業運用資料洞察先機
每天,Google 地圖都為成千上百萬的人們提供方位指示、即時路況資訊以及商業資訊。為了提供最佳的用戶體驗,地圖資訊需要不斷根據現實世界的變化調整。街景車每天收集數百萬張圖片,如果用人工分析每天超過 800 億張高清晰圖片,找出其中的新變化或更新地圖資訊,顯然不可能。因此,Google 地面實況團隊(Ground Truth team)的目標之一,就是從地理位置圖像自動提取資訊來升級 Google 地圖。在「從街景圖像中提取基於注意機制的結構化資訊」(Attention-based Extraction of Structured Information from Street View Imagery)一文中,Google 描述了採用的方法──怎樣在街景視圖中使用深度神經網路自動且準確無誤地讀出街道名稱。演算法系統在挑戰「法國街道名稱識別數據集」(French Street Name Signs(FSNS)dataset)中達到 84.2% 的正確率,明顯優於之前的最優系統。重要的是,Google 的系統在提取其他類型資訊也很容易擴展。比如現在幫助 Google 自動提取商店前面的商戶名稱。目前該模型已經開源。▲ 法國街道名稱標識數據集中的一個例子,被 Google 的系統正確辨識。上圖為同一標識的 4 種不同視角。自然環境中的文本辨識在電腦視覺和機器學習上是一個非常具有挑戰性的問題。傳統的光學字符辨識(OCR)系統,主要側重於從掃描的文檔中提取文本。在自然場景中由於視覺偽影,如失真、閉塞、定向模糊、雜亂的背景或不同的角度給提取文本提升了難度。Google 從 2008 年開始致力於解決這一問題,使用神經網路模糊了街景圖像中的臉和車牌,以保護 Google 用戶的隱私。從最初的研究中,團隊意識到經過足夠的標記數據訓練後,機器學習不僅能保護用戶的隱私,而且還可以自動升級 Google 地圖相關的最新資訊。2014 年 Google 地面實況團隊在街景門牌號數據集(SVHN)上公布了讀取街道號碼的方法,隨後暑期實習生 Ian Goodfellow(現為 Google 員工)進行了運用。這個工作不僅是出於對學術的興趣,而且也是使 Google 地圖更為精確的關鍵。如今得益於這個系統,超過三分之一的全球地址已經在 Google 地圖上有了自己的位置。在一些國家,如巴西,這個演算法增加了超過 90% 的 Google 地圖地址,大大提高了 Google 地圖的可用性。下一步是將這些技術擴展到街道名稱。為了解決這個問題,Google 創建和發布了法國街道名稱標誌(French Street Name Signs,FSNS),有超過 100 萬的街道名稱訓練數據集,旨在提高人們對 OCR 模型在實際使用情況下的認識。FSNS 是 Google 經過多年努力而構建的,它比 SVHN 數據集更加龐大,也更具挑戰性,因為如果要準確辨識某個街道標識,可能需要對各個角度所拍攝的圖片進行整合處理。▲ 上圖是辨識起來很有難度的一些標識,也被 Google 系統透過對圖像的理解而正確判斷了。尤其是第二個,不過這個模型在之前學習了語言模型,使其能夠消除歧義,並正確識別出街道名。值得一提的是,在 FSNS 數據集中,同一路標在少於 4 個獨立視圖的情況下會增加隨機雜訊。Google 實習生 Zbigniew Wojnazai 在 2016 年夏天用這個數據集開發了一個深度學習模型,它能夠自動標註新的街景視圖。這個新模型的一個優點是,它可以根據日常的命名習慣進行文本規範。▲ 上圖的例子中,可以將「AV.」轉化為「Avenida」,「PRES.」轉化為「Presidente」這是我們期望看到的結果。▲ 在這個圖中,模型沒有被圖中的兩個街道名稱迷惑,將「AV.」正確轉化為「Avenue」,同時也辨識出數字「1600」。儘管這個模型非常精確,它依然有 15.8% 的序列錯誤率。不過,在分析錯誤樣本後,團隊發現,其中 48% 是由於地面實況錯誤,也就是說,模型與標記質量呈現的準確度基本一致。這個新系統結合了提取街道號碼技術,能夠直接從圖像創建新的地址。現在,每當一輛街景車在新建的道路上行駛時,系統可以捕捉上千萬張圖像,提取街道名稱和數字,並自動在 Google 地圖上創建和定位新地址。但自動為 Google 地圖創建地址是不夠的。此外,還希望能夠為商業提供導航。2015 年,Google 發表了「從街景圖像中進行大規模的商業發現」(Large Scale Business Discovery from Street View Imagery)一文,文中提出一種方法可以準確地檢測商店外牆的標誌。然而,檢測到商店外牆,仍然需要準確地提取它的有用名稱。模型必須找出哪個文本是商戶名稱,哪些文本是不相關的。Google 稱這種提取為「結構化文本」信息的提取。它不只是文字,而是具有語義意義的文本。使用不同的訓練數據,用來讀取街道名稱的模型結構也可以用來準確地提取商業名稱。在這種特殊情況下,如果已經知道這個商戶在 Google 地圖的位置,可以只提取商業名稱來進行驗證,使之能夠更準確地更新商業列表。▲ 如上圖所示,雖然沒有從圖片中獲得任何有關真實地址的資訊,但系統還是正確辨識出了商戶的名字 Zelina Pneus,而且沒有被旁邊的輪胎品牌所騙。模型需要處理 800 多億個街景圖像,需要強大的計算能力。這就是為什麼 Google 地面實況團隊採用 TPU,可以大幅減少推理計算成本。人們依賴於 Google 地圖的精準性來協助他們工作和生活。同時,在景觀、道路和商業不斷變化的情況下,Google 地圖的更新所面臨的技術挑戰,遠遠還沒有解決。為超過十億的 Google 地圖用戶創造更好的用戶體驗,一直是 Google 地面實況團隊追求的目標。 Updating Google Maps with Deep Learning and Street View (本文由 雷鋒網 授權轉載;首圖來源:Flickr/J K THORNE (J K THORNE) CC BY 2.0)
在仿冒品氾濫的現今,二手名牌商品的買賣總是存有許多隱憂,微小的差距讓人難以識別,但或許問題就要找到解決的辦法。美國的一家企業發明了一款具有深度學習(Deep Learning)功能的掃描工具,幾秒鐘的時間就能讓假貨無所遁形。CNBC 報導,當消費者想以較便宜的價格購買保存良好的二手名牌商品,往往傾向在網路商店尋找,並試圖從布料拼接、字體大小和內部標籤來辨別真假,但根據經合組織(OECD)的數據來看,在有 4,600 億美元產值的仿冒「產業」存在的情況下,這十分難以辦到。為了解決這個問題,紐約一些企業最近開始使用一種攜帶型掃描工具 Entrupy,透過拍攝細節圖片來快速偵測名牌商品。Entrupy 會針對材料、加工細節、序列號及損傷的部分進行偵測,再透過深度學習將其與數據庫比對,如果商品被 Entrupy 判定是真品,持有者能夠馬上得到證書。Entrupy 在 2016 年 9 月推出付費服務,執行長 Vidyuth Srinivasan 表示,目前公司有超過 130 家付費客戶,其中多數都是美國企業,設備使用至今,準確率約達到 97.1%。Srinivasan 指出,公司選擇從二手銷售商著手推廣,因為他們發現人們對二手名牌商品總是缺乏信任,尤其又以網路購物的情況最明顯。在 Entrupy 的投資者中,除了包含紐約大學、Facebook 人工智慧研究團隊(FAIR)領導者 Yann LeCun、日本創投公司 Accord Ventures,還有新加坡時尚電商平台 The Fifth Collection。(Source:Entrupy)The Fifth Collection 主要在販售二手名牌商品,創辦人夫妻 Nejla Matam-Finn 和 Michael Finn 表示,他們大約是在 2015 年開始投資 Entrupy,當時公司才剛以自有資金成立,甚至還不能支付自己的薪水。兩人表示,投資 Entrupy 幾乎是不用太多思考便決定進行,「對於公司業務來說,商品認證是非常重要的核心,我們一直試圖在改善產業現況,這和 Entrupy 對未來的目標一致,我們認為這非常值得。」身為亞洲地區唯一使用 Entrupy 的企業,The Fifth Collection 認為 Entrupy 很好的保障了商品的真實性,但並不打算藉此向客戶收取額外的驗證服務費用,他們覺得多收費用十分不公平。The Fifth...