蘋果在自家機器學習日報(machinelearning.apple.com)自爆功法,發表論文《基於深度神經網路的裝置端人臉辨識》(An On-device Deep Neural Network for Face Detection),披露臉部辨識技術演變。2017 年 9 月 13 日(美國時間 12 日),蘋果在賈伯斯劇院發表智慧手機 iPhone X。這款搭載 64 位元架構 A11 神經處理引擎、採用臉部辨識解鎖方式(Face ID)的全螢幕手機,號稱 iPhone 10 週年紀念之作,售價新台幣 35,900 元起。事實上,蘋果 iOS 10 就開始使用深度學習技術用於臉部辨識,目前已向開發者開放視覺框架,支援相關應用程式開發。下文將著重討論電腦視覺技術在隱私保護遇到的挑戰,及基於深度學習的終端機人臉辨識技術實現方案。一、終端機深度學習模型的挑戰蘋果最早發表的臉部辨識 API 是透過 CIDetector 達成,一種針對靜態影響的特徵資訊(包括人臉、幾何圖形、條碼等)辨識的影像處理單元。最早版本的 CIDetector 基於維奧拉─瓊斯目標偵測框架(Viola-Jones),蘋果將其以傳統方式最佳化。後來,隨著深度學習出現、電腦視覺領域的應用,人臉辨識的準確性得到大飛躍,啟發了蘋果。相比傳統的電腦視覺方案,深度學習演演算法能有更好的模型,也要求更多記憶、儲存/磁碟和可計算資源(Computatioal resource)。矛盾點來了:以目前終端機(智慧手機)的硬體條件來看,基於深度學習的視覺模型似乎並不是可行方案,而大多數企業的解決方案是提供雲介面(Cloud-Based API),先將圖片傳給能執行大型深度學習框架的伺服器,然後用深度學習偵測臉部。而雲服務往往需要強大的桌機系統級 GPU,需要大量記憶體。介面方案雖然可行,但違背了蘋果的隱私保護理念,因此,蘋果只提供照片和影片雲服務,所有照片、影片上傳之前需得到帳戶許可;針對電腦視覺指令,上傳雲端被認為是不太合適的方法。最終,蘋果還是找到了在終端機,也就是 iPhone 上的深度學習方案,並完成高度臉部辨識準確性(state-of-the-art accuracy)。這中間需要解決的挑戰包括:將深度學習模型整合到作業系統,使用寶貴的 NAND 儲存空間(一種非揮發性儲存技術,即電源切斷後仍能儲存資料);還要將其加載到 RAM(隨機存取記憶體),利用 GPU 和/或 CPU 達到合適的計算時間;此外,和雲端深度學習模型不同的是,終端機深度學習還需要解決執行電腦視覺指令的同時,還有其他的背景程式。總言之,終端機深度學習模型要求的是:針對大型的照片資料庫,用極短的時間執行指令,並使用不多的功耗或說不發燙。二、從維奧拉─瓊斯到深度學習2001 年,Paul Viola 和 Michael Jones 基於哈爾特徵和方向可變濾波器,提出了基於簡單特徵的對象辨識技術,此即維奧拉─瓊斯目標偵測框架,這個方法在 OpenCV 中實現為...
全球最大社群網站臉書今天表示,臉書在美國測試時成功辨識出有輕生念頭的用戶,如今將把這套人工智慧(Artificial Intelligence,AI)軟體推廣到其他國家。路透社報導,臉書(Facebook)是今年 3 月在美國開始測試這套模式辨識軟體,開始掃描貼文內容與留言,找出可能隱藏即將輕生的詞語。Facebook 沒有透露許多計畫技術細節,但表示軟體可以搜尋可能含有自殺徵兆的特定用語,像是「你還好嗎?」、「我能幫你什麼嗎?」如果軟體偵測到用戶可能自殺,便會提醒 Facebook 專門處理這類通報的團隊,接著向使用者或用戶好友提供協助資源,像是求救電話。Facebook 工作人員有時會通報地方當局介入。Facebook 產品管理副總裁羅森(Guy Rosen)表示,由於測試成功,Facebook 開始將軟體推廣到美國以外地區。他說,過去一個月,在 Facebook 軟體偵測到用戶有自殺意念後,第一線應變人員查看用戶狀況超過 100 次。Facebook 表示,試圖讓公司隨時都有專業人員提供援助,以當地語言通報相關當局。羅森說:「速度真的很重要。我們必須及時伸出援手。」法新社報導,Facebook 執行長祖克柏(Mark Zuckerberg)年初發了關於建立全球社群的貼文時表示:「如果有人察覺到底發生了什麼事且早一點通報,可能就可防止糟糕的悲劇發生,像是自殺,有時候還是直播……人工智慧可協助提供較好的辦法。」(首圖來源:Facebook)
人工智慧(AI)發展可以提升許多產業的效率,增加生產力,降低人性缺陷造成的影響,現在人工智慧還可以簡化冗長的面試流程,優化人才招聘的結果,讓企業與求職者找到更適合的職位。麻省理工科技評論(MIT Technology Review)報導,求職是一條辛苦的道路,對企業人資部門來說也是一項沈重的負擔,尤其是現在網路媒體管道眾多,人資部門除了看求職者履歷之外,有時還要參考求職者的社群網站,如 Facebook、YouTube、LinkedIn 等,加上一關關的面試、考試,再做綜合評估,由於同一個工作可能有非常多人應徵,因此查看資料是一個重複性的工作,這時人工智慧就可以派上用場。求職網站 Enter Woo 使用人工智慧做職業配對,執行長 Liran Kotzer 表示,過去面試的時候,通常都是在缺乏雙方資訊的情況下進行,因此需要多次面試,若知道所有事情的機器可以知道求職者的過去經驗、計畫、文化,機器就可以知道求職者最適合什麼樣的工作,也幫企業找到最適合的人選,可以節省掉非常多面試時間。Enter Woo 稱這套獵人頭軟體叫做 Helena,配對成功率達 52%,比人類執行招聘的成功率高 2 倍。印度也有一家公司叫做 Belong 使用人工智慧在網路上收集求職者的所有資訊,根據職位需求為企業條列出最適合人選。 但是雖然使用演算法來簡化招募流程對那些要節省成本與時間的公司來說很有吸引力,但是人工智慧也會有偏見,而人工智慧的偏見是來自人類匯入的資料,報導指出,人類有一個不幸的習慣,就是無法擺脫性別和種族偏見,如果我們要讓人工智慧保持客觀中立,人類必須時常保持警覺確保人工智慧不要受到人性弱點所影響。 An AI Recruiter Could Find You Your Next Job (首圖來源:Flickr/COD Newsroom CC BY 2.0)
三星電子的語音助理「Bixby」表現遜色,市場反應冷淡。三星為了挽救顏面,收購南韓人工智慧(AI)業者,確保 Bixby 2.0 版能讓眾人滿意。Investor、Engadget 報導,三星 28 日宣布買下南韓 AI 新創業者 Fluenty,Fluenty 研發聊天機器人和助理服務,能給用戶個人化的智慧回應。Fluenty 創始成員多出自南韓科技大廠,如 Naver、Kakao、LG 電子等。Fluenty 運用 7 億條公開對話紀錄,尋找人們最常見的回應模式,建立深度學習模型。該公司過去兩年來極力縮短載入時間,從原本的 7 秒減至 50 毫秒。最新一代版本還有個人化答覆,會依據用戶習慣用語,做出回應,更具人性。不僅如此,Fluenty 還會依據用戶訊息,猜測所需資訊,開啟導航、叫車、或餐廳定位應用程式。若和 Bixby 整合,可望讓三星語音助理更有智慧。三星去年才收購美國 AI 新創業者 Viv Labs,不過買下時間太晚,Viv 未參與第一代 Bixby 研發。(本文由 MoneyDJ新聞 授權轉載;首圖來源:Flickr/Samsung Newsroom CC BY 2.0)延伸閱讀: 三星為「Bixby」鋪路,低價收購模擬真人聲音的公司 三星 Bixby 遇危機,缺乏足夠資料無法理解英語 AI 戰火升高,三星買蘋果 Siri 之父公司 Viv 加碼投入
現代科技的輔助之下,要將黑白舊照片上色、「還原」成彩色照片已不是難事,但多數方式仍須花上一些時間才能還原一張照片,但隨著神經網路出現,未來照片要彩色還原可能只是幾秒的事。之所以會這麼說,是因為近期推特(Twitter)出現了一個機器人 Colorise Bot,願意免費幫任何人將黑白老照片還原成彩色照,而且用戶只需花費數秒時間便能得到結果。人們所要做的,只是上傳黑白照片,並且標記 @Colorise Bot。 I colorized your image using #openfaas in 5.4 seconds #dockercon pic.twitter.com/Wbh3nolkTa — Colorise Bot (@colorisebot) 2017年11月5日從上面案例可看到,Colorise Bot 還原的照片顏色並不能說完全真實,但仍為照片人物和景象帶來一些不同的「氣息」,讓我們能以其他角度欣賞這張照片。Colorise Bot 的開發並不複雜,事實上,這是歐洲兩名年紀才 18 歲左右的少年 Oli Callaghan 和 Finnian Anderson 合作打造,使用的神經網路模型甚至並非出自他們之手。原先 Callaghan 打算用自己寫的神經網路來開發,但由於過程碰上許多問題,他們最終決定使用柏克萊大學博士生建立的模型來進行,由於模型原先就已在 ImageNet 進行過近 450 萬張的圖片訓練,因此成效非常好。 I colorized your image using #openfaas in 4.2 seconds #dockercon pic.twitter.com/0Qq2wbcnt1 — Colorise Bot (@colorisebot) 2017年11月5日雖然...
日前,Google 發表自然語言框架語義分析器 SLING,它能以語義框架圖(semantic frame graph)形式,將自然語言字檔直接分析為字檔語義表示。這系統避免了級聯效應,另外還減少了不必要的計算開銷。編譯整理如下:直到最近,大多數實際的自然語言理解(NLU)系統都採用從詞性標籤和依存句法分析(dependency parsing)到計算匯入字檔語義表示的分析。雖然這使不同分析階段易於模組化,但前期錯誤會在後期和最終表示產生層疊效應,中間階段的匯出也可能與這階段不相關。例如,一個典型的 NLP 系統可能在早期執行依存句法解析的工作,在結束階段執行共指分析(coreference resolution)工作,早期依存句法分析階段出現的任何錯誤都會產生級聯效應,影響共指分析匯出。今天我們發表 SLING 實驗系統,它能以語義框架圖(semantic frame graph)形式,將自然語言字檔直接分析為字檔語義表示。匯出框架圖能直接擷取用戶感興趣的語義標注(semantic annotation),因為沒有執行任何中間階段,所以避免上述那種導管系統的缺陷,另外還減少了不必要的計算開銷。SLING 使用具特殊用途的迴圈神經網路模型,透過框架圖的增量編輯作業(incremental editing operation)計算匯入字檔的匯出表示。框架圖夠靈活,可擷取大家感興趣的許多語義工作(下面有更多介紹)。SLING 的分析器(parser)只使用匯入詞來訓練,不需要其餘再生成標注 (如依存句法分析)。SLING 透過提供高效、可延伸的框架儲存實現(frame store implementation)和 JIT 編譯器來生成高效程式碼來執行迴圈神經網路,進而推理(inference)時能快速分析句法。儘管 SLING 還處於實驗階段,但得益於高效的框架儲存和神經網路編譯器,它在桌機 CPU 能實現超過 2,500 象徵式/秒的分析速度。SLING 使用 C++,目前可在 GitHub 下載。這個系統在技術報告有詳細說明。框架語義句法解析(Frame Semantic Parsing)框架語義表示字檔的含義(例如一句話),是一套正規表述。每個正規表述都稱為一個框架,可看作是知識或語義的一個單元,還包含與與它相關的概念或其他框架的相互作用。SLING 將框架組織成屬性槽(slot)清單,其中每個屬性槽都有對應名稱(角色)和值(可能是 literal 或是到另一個框架的連結)。下面是一例句:很多人都宣稱自己預測到黑色星期一。(Many people now claim to have predicted Black Monday.)下圖是 SLING 辨識提到的實體(例如人物、地點或事件)、度量(例如日期或距離)和其他概念(例如動詞),並將它們放置在正確語義角色的說明。上面例子相當簡單,框架圖的功能強大到可模擬各種複雜的語義標註工作。對初學者來說,這種框架可非常方便地將語言的內外部資訊類(例如知識程式庫)結合起來。這可以用於處理複雜的語言理解問題,例如參照、隱喻、轉喻等。這些工作的框架圖只在框架類別、角色和連結約束條件上有所不同。SLINGSLING 透過最佳化語義框架來訓練迴圈神經網路。網路隱藏層學到的內部表示,取代了前面那種導管系統的手工特徴組合和中間表示。解碼器使用伴隨反覆出現的特徵一起的表示,來計算用於框架圖更新的一連串過渡,以獲得匯入敘述的預期框架語義表示。SLING 中用 TensorFlow 和 DRAGNN 來訓練模型。下面動圖展示使用過濾作業將框架和角色逐漸添加到框架圖的構建過程。正如一開始討論的簡單例句,SLING...
今年早期,宜家(IKEA)的創意實驗室 Space10 發表了一份關於 AI 的調查問卷。其中,問卷提出一個非常有趣的問題:你是否希望 AI 有性別?此項活動的參加者跨越 139 個國家,大約有 1.2 萬人。據 Fastcodesign 報導,宜家如今公布了調查結果:44% 的人希望 AI 是中性的。如果按照性別劃分人們的回覆,結果就會變得有所不同。大約 8,000 名男性參與此項活動,其中,27% 的人認為 AI 應該是女性;36% 的人認為 AI 應該是男性,剩餘 36% 的人認為 AI 應該是中性。至於女性,62% 的人認為 AI 應該是中性,11% 的人認為 AI 應該是男性,27% 的人認為 AI 應該是女性。▲ Space10 外觀。(Source:IKEA)調查結果並不具科學性。首先是參與者的男性更多,其次是網上調查無法控制年齡層,或進行更有意義的抽樣。不過,這項調查仍然揭示了一些有趣的現象,比如,許多參與者認為 AI 應該是中性。但是,從目前科技公司提供的智慧助手來看,人們仍然只能選擇男性或女性,沒有中性選項。或許,以後的智慧助手也可以是中性的吧。此次調查還發現了另一件有趣的事。參與者中,69% 的人希望 AI 與自己的世界觀和價值觀相同。世界觀、價值觀是一個比較模糊的概念,但對設計師來說,這卻是一個值得思考的問題。AI 是否應該贊同使用者的世界觀?如果是,這樣的 AI 要如何設計?或者,認同用戶的任何想法,未必是一個好的設計決定?如今,宜家正在試驗各種科技性產品。透過此次調查,Space10 想要激發大眾的討論,也想引發公司內部思考:AI 究竟該是什麼形式?設計 AI 產品時,設計師如何克服自己的盲點或偏見?(本文由 愛范兒 授權轉載;首圖來源:shutterstock)
16 日的百度世界大會,李彥宏說已收到第一張無人車罰單,而無人車最快將於 2018 年量產。就在同一天下午,騰訊也攜手廣汽發表雙方合作後的首款智慧網聯車 iSPACE。11 月 16 日,新一屆廣州國際車展前夕,騰訊與廣汽召開「智‧享未來──騰訊廣汽戰略合作發表會」。騰訊董事會主席兼 CEO 馬化騰和廣汽集團董事長曾慶洪共同揭曉了雙方合作以來在智慧網聯領域的最新成果,並全球首發由廣汽集團自主研發的 iSPACE 智聯電動概念車。相比百度和阿里,騰訊在網路汽車領域的佈局要晚。今年 9 月 18 日晚上,廣汽集團發公告,稱與騰訊簽訂「戰略合作框架協定」,未來將在車聯網、雲端平台、大資料等領域深入合作。目前 iSPACE 等只算是階段性成果,雙方還將會合作更多汽車產品。發表首款搭載 AI in Car 系統的概念車,未來將合作推出更多車型11 月初的騰訊全球合作夥伴大會,騰訊宣布推出車聯「AI in Car」系統。同時,騰訊還宣布開放智慧語音服務、場域化服務、內容服務、社群服務、和營運加值服務五大 AI 能力。並且與廣汽、長安、吉利、比亞迪、東風柳汽 5 家汽車廠商合作共建 AI in Car 生態系統。這次推出的智聯電動概念車,就是騰訊車聯「AI in Car」系統落地的代表產品。據騰訊介紹,這次與廣汽合作發表的 iSPACE 智聯電動概念車,也是首款搭載騰訊車聯「AI in Car」系統的概念車。未來,該系統還將應用於 GS4、GS3、GM8 等量產車及廣汽未來上市的多款車型。另據廣汽集團的產品開發規畫,廣汽與騰訊將在汽車前端和後端展開自訂化開發,計劃於 2018 年量產。對於這款新車,馬化騰表示:「iSPACE 智聯電動概念車非常超前,代表了汽車未來的發展方向。傳統車企仍將是未來汽車產業的主角,透過與網路公司深度合作,不斷進化,擁抱汽車智聯網時代。」他還說道,騰訊將把人工智慧、大資料、雲端、地理位置、獨有的內容資源等優勢能力對廣汽開放,賦能於車,讓人與車的互動更智慧、讓我們的駕駛體驗和交通更智慧,智慧交通讓社會執行更高效、讓科技更服務民眾生活。騰訊在智慧網聯汽車產業扮演什麼角色?騰訊將在網路汽車領域扮演什麼樣的角色,馬化騰也有自己的解釋。他表示,「騰訊要做中國智慧網聯汽車產業的賦能者,而非顛覆者,透過與車企協同打造智慧網聯生態平台,以『去中心化』、全方位的平台能力,為車企提供一個更為包容、創新和具有可持續性的智慧解決方案,讓汽車成為未來生活的慧型終端機。」騰訊車聯繫統的優勢有哪些,其實在全球合作夥伴大會已有很多介紹。在與人的互動和用車場域辨識方面,「AI in Car」系統使用騰訊叮噹智慧語音平台構建了完整的車載語音技術鏈,實現了 「能聽清、能聽懂、能滿足、會回饋」。同時,搭載「AI in Car」系統的廣汽汽車,將智慧辨識感知多種交通場域,包括通勤、約會、機場接送、購物停車、自駕出遊等,未來還會包含車況場域和汽車周邊場域。另外,車主還可以享受「智慧聽」服務,騰訊車聯「AI in Car」系統將基於 10 億級用戶標籤,為用戶提供個性化內容推送,如 QQ 音樂、企鵝...
知名深度學習專家吳恩達和他在史丹佛大學的團隊一直在醫療方面努力。之前,吳恩達團隊研發出一種深度學習演算法,可診斷 14 類別的心律失常。近日,該團隊又出新成果,他們提出一種名為 CheXNet 的新技術。研究人員表示:新技術已在辨識胸部透視圖中肺炎等疾病準確率超越了人類專業醫師。研究人員開發的全新演算法,能從胸部透視圖偵測肺炎,且水準超越專業放射科醫生。此演算法稱為 CheXNet,是一個 121 層的卷積神經網路。該網路在目前最大的開放式胸部透視圖資料庫「ChestX-ray14」訓練。ChestX-ray14 資料庫包含 14 種疾病的 10 萬張胸部前視圖 X 光影像。 Our full paper on Deep Learning for pneumonia detection on Chest X-Rays. @pranavrajpurkar @jeremy_irvin16 @mattlungrenMD https://t.co/BxUuObRErS pic.twitter.com/6aAoiw4iSj — Andrew Ng (@AndrewYNg) 2017年11月16日背景據了解,僅在美國,每年就有超過 100 萬成年人因為肺炎住院,5 萬人因為該病死亡(CDC,2017)。目前,胸部 X 光檢查是診斷肺炎的最佳方法(WHO,2001),這種方法在臨床護理和流行病學研究發揮重要作用。然而,透過 X 光片診斷肺炎是一個具挑戰性的工作,需要放射科醫師具備專家級的判斷能力。吳恩達團隊的最新成果中,電腦科學院和醫學院的研究人員共同提出一種新的機器學習模型,可讓電腦透過胸部透視圖自動診斷肺炎,其診斷準確率超過了放射科醫師。▲ 圖一:ChexNet 是一個 121 層的卷積神經網路,匯入胸部透視圖,匯出患病機率。在這個例子中,CheXnet 準確探測到肺炎,同時定位圖中最有可能患病的位置。CheXNet 可匯出肺炎可能性的熱區圖。研究人員在最近發表的 ChestX-ray14 資料庫(Wang et al., 2017)訓練了 CheXNet。該資料庫包含...
11 月 16 日,2017 百度世界大會在北京舉行。百度會上發表了手機百度 10.0 和全新人工智慧硬體「raven H」等軟硬體產品。百度董事長兼首席執行長李彥宏在主題演講時表示,12 年前首屆百度世界大會,百度透過「更懂中文」讓人們抓取資訊越來越便捷,而世界越來越複雜的今天,人工智慧技術讓「百度更懂你」,百度將實現用科技讓複雜的世界更簡單的偉大使命。▲ 百度 raven H 智慧喇叭,由渡鴉科技團隊研發。李彥宏首先談到自動駕駛相關問題──「從那次開發者大會到現在,人們問我最多的問題是什麼?你有沒有吃到罰單?我在這裡統一回覆,我們無人車確實吃到一張罰單,但我想說的是,如果無人駕駛罰單已經來了,無人車量產還會遠嗎?」李彥宏談到,從 7 月正式開放無人駕駛技術平台 Apollo 到現在,已經有 6,000 多個開發者投票支持 Apollo 專案;有 1,700 多家合作夥伴加入 Apollo,開始使用 Apollo 的開源碼;有 100 多個合作夥伴申請使用 Apollo 的開放資料。它已變成非常活躍的開放平台,很多人都能從中受益。前不久,百度剛宣布和金龍汽車合作,生產一款無人駕駛小巴,小巴將在 2018 年 7 月量產。發表會公布的影片來看,這台小巴沒有方向盤、沒有駕駛座,是一台真正的無人車。李彥宏說,明年開始營運時,會先在封閉道路運行。百度認為人工智慧不僅對汽車工業是巨大的改變,對整個人類社會各方面都會有非常大的改變。李彥宏還宣布百度很快會發表和雄安的戰略合作,希望能幫助將雄安打造成為一個沒有塞車、交通效率最高,沒有各樣安檢、各種身分認證都非常簡單,不需要有繁雜流程的新「千年大計」城市。不僅是雄安,百度和很多城市都有類似合作,比如保定、蕪湖、重慶的兩江新區、北京亦莊開發區、上海汽車城都在做類似合作。李彥宏說,他希望未來城市和今天大家感受到的城市很不一樣,沒有塞車、沒有霧霾、沒有排隊、沒有繁雜行政流程。從去年到現在,百度大腦已開放超過 80 個核心的 AI 能力,主要是透過 API 形式供大家使用,有 37 萬多個合作夥伴加入百度大腦開放平台,在使用百度各種能力。「使用的頻率如何?每天,百度大腦各種能力呼叫次數是 2,188 億次。」李彥宏說。「它的準確率已經很高了,在會場環境下,文字的辨識能力達 95%。英文翻譯其實也非常不錯,至少你能看懂,到什麼程度呢?我們如果拿大學英語六級翻譯考題來測試,總共 15 分的翻譯題,百度大腦可得 13.6 分。這個成績已遠遠超過普通大學生六級考試的平均成績。」百度展示 DuerOS 的電視影片,電視不用學習那麼多遙控器按鈕的使用方式,但是它的聰明程度已比學會使用所有遙控器按鈕更有能力,更符合人類的需求。影像方面,百度認為 AI 同樣大有可為。百度為大家展示 Apollo 的疲勞駕駛監測系統,這個監測系統可監測用戶處於重度疲勞駕駛時,會自動偵測並提供導航到最近的休息區。系統也配備紅外線偵測,司機戴上墨鏡、當人看不清楚他眼睛時,疲勞監測系統依然能持續工作。李彥宏最後提到,12...