眼睛看到的不一定可靠!過去,我們用 Photoshop 修出各種「照騙」,但最新 AI 技術,連影片中談話者的嘴形和聲音都可以修改,甚至逼真到難以從影片中察覺異狀。該研究可將聲音檔轉換為說話嘴形,並套用在其他影片中,改變影片主角原本的說話內容;也就是,雖然影片片段是真的,但說話的內容是假的。僅分析 17 小時歐巴馬演講影片,所需資料量較過去小華盛頓大學研究團隊發表一篇名為「同步歐巴馬:學習如何用聲音同步嘴形」的研究,而研究成果就是一系列美國前總統歐巴馬的「造假」影片。該研究透過深度學習演算法,讓軟體從歐巴馬過去的演講影片中,學習如何將聲音檔轉換為嘴形變化,因此,當替影片配上新配音時,這套軟體可將新配音轉換為嘴形變化,再將嘴形移植到既有影片中。▲ 該研究透過神經網路技術,從歐巴馬過去的演講影片中學習如何將聲音檔轉換為嘴形變化,再將嘴形移植到既有影片中。(Source:UW News)雖然影片中的音檔確實來自歐巴馬過去說過的話,但說話場景卻完全不同。就像示範影片中,左邊是音檔來源,右邊是另一場完全不同的演講,但研究者透過演算法,將兩者結合成全新的影片。研究者表示,之所以選擇歐巴馬為實驗對象,原因在於網路上可輕易取得大量歐巴馬公開談話的高畫質影音檔,適合用來訓練人工智慧。和過去研究不同的是,該軟體不需要掃描大量的演講影音資料,也不需要分析不同人說出相同句子的嘴形,才能學會轉換聲音;其僅需要既有的影音素材即可,所需成本和規模更小。研究者指出,該研究僅分析 17 小時的歐巴馬演講影片就達到此成果,希望未來可以將分析所需影片長度壓縮到 1 小時。希望用於優化歷史影音檔案和視訊工具研究者表示,希望這款軟體可幫助優化歷史紀錄的影音檔案,或是用於改善 Skype 這類的視訊工具品質。例如,用戶可以收集他們自己說話的影片,並用以訓練軟體,之後當他們使用視訊工具時,影像便能自動符合說話內容,因此就算網路連線品質不佳,也能讓視訊畫面保持順暢。不過,外界也擔心,這套軟體若遭惡意人士利用,後果不堪設想。例如,可先利用聲音合成技術模仿出歐巴馬的聲音,再加上這套已經訓練好、可將歐巴馬聲音轉換為嘴形的模型,即可讓歐巴馬說出從未說過的話。事實上,人工智慧新創 Lyrebird 已經透過機器學習開發出聲音模擬技術。該公司號稱,只要 1 分鐘的聲音樣本,即可模仿任何人說話。 New AI research makes it easier to create fake footage of someone speaking AI Lip-Syncing Could Make Fake News Look Real UW’s lip-syncing Obama demonstrates new technique to turn audio clips into...
三星電子(Samsung Electronics)18 日宣布增產 8 GB 第 2 代高頻寬記憶體(HBM2),以滿足包括人工智慧(AI)、HPC(高效能運算)、先進繪圖、網路系統、企業伺服器在內等多項應用迅速成長的市場需求。三星 8GB HBM2 提供業界最高等級的 HBM2 效能、可靠性以及能源效率。HBM2 是在 2016 年 6 月首度對外發表,數據傳輸速度達到每秒 256GB,較 GDDR5 DRAM(數據傳輸速度達到每秒 32GB)高出 8 倍。三星預估 2018 年上半年 8GB HBM2 將佔旗下 HBM2 產量超過 50% 的比重。根據 6 月 19 日公布的 Green500 名單,全球前 500 名節能效率最高超級電腦當中,前 13 名全部都是採用 NVIDIA Tesla AI 超級電腦平台。這 13 台皆採用 NVIDIA Tesla P100 數據中心 GPU 加速器、當中有 4...
DoNotPay 是一個很實用的法律機器人,它以幫助倫敦和紐約司機處理停車罰單而出名。不過最近它的服務範圍擴大了,除了可以對停車罰單提出上訴,還能為美國和英國居民提供一千項法律服務。DoNotPay 用起來其實更像搜尋引擎,只需輸入問題,它就能提供一系列建議。它被稱為律師機器人,普通人遇到技術或法律相關的問題,都可以問它要怎麼辦,比如有建商要在我家旁邊蓋房子怎麼辦?怎麼從房東那取回押金?自 2015 年開始處理停車罰單以來,機器人已發展到包括為愛滋病患提供法律服務、為難民申請庇護、為無家可歸的青少年申請住房、幫航空公司乘客申請賠償等服務。在金融領域,DoNotPay 能幫忙處理詐欺指控,或提升信用報告分數。它還能幫你申請產假和陪產假,保護你免受工作職場的歧視。DoNotPay 的開發者 Joshua Browder 稱,「兩年前我開始開發 DoNotPay,是為了處理停車罰單,當時看到一些律師總會趁人之危。在一些悲劇中,似乎唯一受益於不公正的人是少數律師。我希望 DoNotPay 能透過幫助解決問題,最終賦予每個人平等的法定權力。」DoNotPay 能在地理上擴張,是因為大約 6 個月前,公司聘了 4 名律師,以支援美國 50 個州和英國各地區的機器人。DoNotPay 現在可以根據地理位置提供建議。如果 DoNotPay 滿足不了某人的具體法律問題,Browder 及小組律師仍可將某人轉介給願意幫助他的機構,比如律師事務所或慈善機構。他說:「這對用戶非常好,因為這意味著每個來我們網站的人都能獲得一些幫助,這對我們來說非常有用,因為可以弄清楚將來應在哪些方面開展工作。」DoNotPay 是一個具利他主義目標的機器人,不過它的持續經營能力一直是個問題。但 Browder 表示,公司也考慮營利。「一種方式是透過贊助獲利,我也在和大型公司討論。比如,如果你是洛杉磯最大的汽車經銷商,為什麼不贊助洛杉磯的停車罰單機器人來幫助建立品牌?我認為有很多品牌合作機會,但我永遠不想收用戶的錢。」(本文由 雷鋒網 授權轉載;首圖來源:DoNotPay)延伸閱讀: 不只幫忙申訴違停罰單,英國機器人律師再為街友爭取住處 又被亂開單?英國大學生開發聊天機器人成功替市民申訴數十萬罰單
看到一張張令人驚歎的風景照,都很佩服攝影師捕捉到這些大自然美景,不過 Google 快要讓這些大自然攝影師失業了。Google 正在研發一種全新人工智慧系統,利用 Google 街景的龐大資料庫,自動生成壯大的大自然風景照。這次 Google 就發表了一些成品。Google 正在研發的大自然相片生成系統,將使用 Deep Learning 人工智慧技術,學習哪些風景相片人類認為是漂亮的,進而在 Google 街景龐大的相片資料庫中,生成專業攝影師等級的風景相片。▲ Google 發表利用人工智慧系統「拍攝」的一些作品,圖片上半是完成品,下半是 Google 街景的原圖。這個人工智慧系統最核心的問題,是要分辨哪些畫面以人類的審美觀來說是漂亮的。AI 可以在 Google 街景的相片中,將最佳構圖的相片抽選出來。它更可為斷斷續續的風景照合成、後製修色,製成一張完美的風景照。Google 把這個 AI 系統稱為「Google Photographer」。這次發表的作品,是從加拿大賈斯珀國家公園、美國黃石國家公園的 4 萬張全景相片中抽取而成。AI 可將斷片式的相片合而為一,而且從構圖、彩度、HDR 等級等要素進行詳細分析、修圖,製作出最終成品。▲ 利用人工智慧裁剪、合成與後製風景相片(a)→(b)→(c)→(d)。 Using Deep Learning to Create Professional-Level Photographs (本文由 Unwire HK 授權轉載;首圖來源:pixabay)
各方預期人工智慧(AI)將成未來科技主流,晶片廠 Nvidia 沾光,股價一路暴衝。不過近來新對手逐漸浮現,日廠富士通(Fujitsu)準備參戰,替該公司 AI 微處理器設下超高目標,預期效能為競爭對手的 10 倍。MarketWatch、Top500 報導,富士通在發展晶片方面經驗豐富,該公司是超級電腦「京」的共同開發者,替超級電腦和 SPARC 伺服器生產處理器。富士通自 2015 年開始研發 AI 專用的微處理器「Deep Learning Unit」(DLU),但一直未曾多談發展情況,上個月該公司 AI 平台資深主管 Takumi Maruyama 才透露更多內情。Maruyama 表示,該款晶片包含 16 個「深度學習執行單位」(Deep Learning Processing Element,DPEs),每個內含 8 個執行單位(見下圖),預定 2018 年上市。DLU 目標效能為對手的 10 倍。(Source:富士通)當前 AI 晶片以 Nvidia 為市場龍頭,不過對手日益增加。英特爾(Intel)將推出「Lake Crest」處理器,專為深度學習節點設計。超微(AMD)也準備以「Radeon Instinct」GPU 搶攻相同市場,預料兩款晶片會在未來 6~12 個月內問世。(本文由 MoneyDJ新聞 授權轉載;首圖來源:shutterstock)
人口高齡化、經濟水平提升帶動醫療需求上升,而龐大的醫療支出與醫療人力資源短缺也是世界各國共同面臨的挑戰,全球市場研究機構 TrendForce 指出,資通訊技術(ICT)在醫療健康領域的應用,可由應用目的分類為預防醫學、數位醫療以及精準醫療等三大部分,目前最積極導入人工智慧(AI)為預防醫學領域。TrendForce 生技產業分析師蔡尚燐指出,AI 在數位醫療健康領域的應用中,將扮演著樞紐或齒輪的角色。觀察常規醫療活動,病患的病歷、檢驗數據與醫療影像,以及在不同臨床場域、醫療照護模式中,所產生的這些大量臨床數據資訊,未來皆有機會藉由 AI 技術協助下,在短時間內處理與分析大量繁複、重複且精密的訊息資料,並進一步協助醫師進行判斷、分類與處理,以增加臨床反應的時間與協助病患照護的精確度。在這三大類別中,目前以預防醫學導入 AI 的發展最快速,由於預防醫學這類應用,處於法規約束的範圍之外,穿戴式裝置配合 App 或是網站所提供的自我健康紀錄系統,皆非涉及醫療行為,都可藉由使用者主動授權資料的約定,進而提供與大數據比對後反饋的即時服務。反觀數位醫療與精準醫療領域,由於牽涉醫療行為、數據與個人基因數據,屬於醫療行為及高敏感度個人資料保護,存在著高度的專業技術門檻與法規驗證限制,故要將各個應用整合將是相當大的挑戰。儘管法規尚未明朗,全球軟體大廠皆已率先投入然而,由於醫療照護產業的高毛利、高附加價值且剛性需求等特性,使得即便相關監管法規尚未完全明朗,也已經吸引國際級軟體大廠投入,包含 IBM、Google、Microsoft、阿里巴巴以及百度等科技巨擘,皆已投入相當大量的應用研發,為的就是未來能在AI醫療應用領域中,佔有一席之地。觀察台灣醫療發展 AI 的機會,蔡尚燐表示,台灣臨床醫學能力不亞於其他先進國家,而全民健保資料庫從 2000 年建置至今已逾 15 年,此龐大且完整的數據規模對於導入大數據分析與人工智慧應用開發,實是非常有利的先天資源,若能與台灣優秀的 ICT 骨幹產業產生鏈結應用合作,實是相當有利的機會。不過,由於開發數位醫療領域所需投注的資金,並不亞於在新藥與醫療器材的投資,而台灣廠商跨領域合作並不頻繁,加上法規監管尚未明朗的不確定性,再加上台灣法規單位對於個人資料保護、全民健保資料庫以及人體生物資料庫使用的侷限等種種因素,實為台灣廠商投入 AI 醫療應用的困難與挑戰。TrendForce 將在 2017 年 7 月 28 日,於台北市進出口商業同業公會 IEAT 會議中心 8 樓會議室(台北市松江路 350 號 8 樓)舉辦「第三波人工智慧發展浪潮」研討會。活動網址:http://seminar.trendforce.com/Campaign/AISeminar2017/TW/index/。(首圖來源:shutterstock)
技術發展至今,機器人能夠自主檢查核電廠,處理海洋中的石油洩漏事件,協助戰鬥機進行空戰,或是探索火星表面,但對它們來說,有些能力還是無法與人類比擬。其中一項人所特有的,就是辨識 3D 物體的能力,儘管機器人能輕易透過相機、感測器來「查看」物體,但它們還是難以像人類一樣,能從短暫一瞥中解讀出看到的東西。即使是世界上最複雜的機器人,也都無法做到這項多數孩子都能自動做到的事,但杜克大學的研究生 Ben Burchfiel 和他的論文顧問 George Konidaris,已經快要找到這個問題的解決方案。R&D Magazine 報導,為了使機器用更人性化的方式解讀 3D 物體,Burchfiel 兩人開發了一項新技術,讓機器人成功達成在混亂的桌面上分辨不同尺寸、形狀碗盤的任務。或許你不曾注意過自己的這項能力,但人類辨識 3D 物體的能力十分出色,不論從何種角度,物體顛倒與否,看見全貌或部分被遮蔽,人們都可以從短暫一瞥中大致分辨出看到的新物體,大腦會在想像中自動填補看不到的地方。研究團隊也希望賦予機器人這項能力,透過設計的感知算法讓機器人也能不用從多角度看見新物體,而學會猜測新物體的面貌和用途,「想像」出任何不在視野中的部分。一旦機器人具備這項技術,就不需要從每個角度觀察茶壺,也可以知道這個物體可能有把手、蓋子和出水口,也可以分辨它是否適用於何種爐子。Burchfiel 指出,比起實驗室或工廠車間,現實世界並非可控制的環境,事物也並非總是有序或可預測,對於要在日常與人類一起運作的機器人來說,這是相當重要的一步。12 日在劍橋舉辦的機器人科學與系統大會上,研究團隊表示,他們目前已經讓機器人在有限數量的訓練下,成功辨識新看見的 3D 物體,速度較以往最好的情況還要再快上 3 倍。(Source:Ben Burchfiel 個人網站)據了解,研究人員先用近 4,000 筆普通家庭物品的完整 3D 掃描數據訓練機器人的演算法,包含床、桌椅、梳妝台、監視器等,每個掃描再轉換為成千上萬的小立方塊,像樂高一樣堆疊在一起,讓系統更好處理。之所以這麼做,Burchfiel 解釋,是因為團隊認為,替每個可能的特定物體設定詳細的 3D 模型非常不切實際。透過分析這些掃描數據的範例,演算法開始學會使用稱為「機率主成分分析」(Probabilistic PCA)的技術,了解範例數據中的變與不變。運用這個演算法,機器人發現新物品時不再需要觀察全貌,就能基於從前的知識,像人們一樣概括分辨出兩個物體的不同,同時又能理解其中相同的部分,讓這兩個物體都同樣屬於特定類型的家具。為了測試這個方法的實用性,研究人員挑選了 10 種新的家庭用品,提供機器近千張從頂部拍攝的 3D 範例,讓機器從單一角度猜測對象是什麼,完整 3D 形狀又該是如何。結果發現包含隱藏部分,機器大概可以猜中物體 3D 形狀的 75%,較過去最好情況下猜中 50% 的比率大幅提升,不僅如此,它也能辨識各種方式旋轉的物體,這是過去其他演算法無法做到的。但在目前的情況中,演算法仍舊容易被物體在特定角度的形狀所迷惑,像是從上方看到一張桌子,而將其誤認為一個梳妝台,但研究團隊認為整體來說,這還是很大的進步,只是還不到能在實際生活運用的程度。儘管如此,研究團隊已成功讓機器人辨識一些 3D 物體,並透過「想像」填補視野中的盲點、重建未知的部分,Burchfiel 表示,「這在許多機器人應用中可能是無價的。」 Helping Robots Learn to See in 3D Bayesian Eigenobjects: A Unified...
蘋果一出手就要解決人工智慧的瓶頸問題,野心不算小,但是效果也不算不好。最近蘋果機器學習研發團隊一篇機器學習方面的論文,就巧妙地解決了訓練數據收集方面的大問題,不僅已經被頂級學術會議 CVPR 2017(IEEE國際電腦視覺與模式辨識會議)收錄,剛剛上線的 Apple Machine Learning Journal(機器學習日記)網站上的第一篇部落格,也就是這篇論文的介紹。7 月 19 日剛剛上線的「蘋果機器學習日記」網站,相比其他矽谷 IT 公司的 AI 研究院 Blog 可謂姍姍來遲,大家等待蘋果正式加入知識開放、動作迅速的 AI 研究大家庭已經很久了。不過讓人欣喜的是,第一篇部落格文章就能幫苦於沒有大量訓練數據的研究者解決不小的麻煩。以下就來介紹論文的主要內容。蘋果要降低準備訓練數據的成本對於現階段的各種人工智慧來說,用數據對它們進行訓練是一個必不可少的環節,且數據的品質會影響人工智慧的表現極大。比如以 4:1 擊敗李世乭的 AlphaGo 是用大量人類棋譜訓練的,李世乭當時也評價 AlphaGo 棋風有一些人類的影子;近兩個月前以 3:0 戰勝柯潔的 AlphaGo Master 版就是用大量 AlphaGo 高品質自我對局訓練的,讓 2016 年拋出「狂言」的柯潔今年只能甘拜下風。▲ 人工智慧要先看過很多貓的照片,同時還要告訴它每張照片都是貓。圍棋之外還有一個典型的人工智慧應用是圖像辨識,人工智慧要先學習過成千上萬張人類分好的、已經標註「貓」的貓咪照片,才能學會辨識其他圖片裡的貓。業內訓練圖像辨識系統一般用的都是 100 萬張等級的帶標註圖像,而財大氣粗的 Google 上週剛剛雄辯地證明,如果用別人的 300 倍那麼多的圖像(3 億張),可以讓辨識正確率進一步上升。只是如此數量的圖像已經沒辦法人類親自標註了,Google 也是用各種手段才湊出這麼多圖像。「湊更多的圖像」或說數據增補,有一種常見的方法是設計一個圖像模擬器,讓它仿照已有的、分好類的真實圖像,生成同類的圖像,新生成的圖像就帶有標註,可用於人工智慧模型的訓練。這種方法的成本就比人工低多了,但用圖像模擬器生成的圖像往往不如原有的圖像真實,訓練出的模型效果就不理想。選對思路很重要:提高圖像真實性所以蘋果的機器學習研發團隊就琢磨,既然能輕鬆生成帶標註的圖像,但它們的真實性不夠好,那我直接在這些圖像的基礎上提高真實性行不行呢?整篇論文要解決的就是這個問題。基於提高真實性的思路,他們仿照 GANs(對抗性生成式網絡)的模式,設計了一種提高圖像真實性的美化網路。這種美化網路裡包含一個「美化器」R 和一個「鑑別器」D,美化器要想辦法把現有生成的圖像變得更真實,然後把經過美化的圖像拿給鑑別器看;鑑別器則掌握一批真實圖像,參考真實圖像鑑別美化後的圖像是不是真的。美化器的目的是輸出更真實的圖像來騙過鑑別器,讓它分不出真偽;鑑別器則要不斷提高自己的水準,不能被美化器騙過。這兩個角色會交替更新,美化器輸出的圖像越來越逼真,鑑別器的鑑別能力也水漲船高。最終等到鑑別器怎麼樣都分不出真實和美化後的圖像,這個美化網路就學習完成了。 ▲ 美化網路的示意圖,圖像模擬器生成的圖像經過美化器 R 的處理以後變得更真實,鑑別器 D 發揮促進美化器 R 進化的作用。蘋果論文中的美化網路形式與 GANs 有類似之處,都是利用鑑別器...
AI 已從技術概念實際走入工廠應用中。日本 IT 大廠 NEC 推出「AI Visual Inspection」視覺檢測,運用機器學習技術,逐一檢測生產線上的產品影像,像是金屬、人工樹脂、塑膠等產品加工業的生產線,都能用 AI 進行高速檢查,進一步找出不良品,提升生產線效率,並改善勞動力。NEC 表示,過去當產品在生產線上完成時,最後一關多採用人眼目測的方式檢查,而這項工作必須由對產品非常熟悉、經驗老到的專家進行,因此面臨了人力不足、技能傳承的課題。NEC 表示,透過 AI 協助作業人員以肉眼檢查,可大幅減少一半的工作量,也能使產品品質更為均一,進一步往 IoT 的「Process Innovation」、「Product Innovation」邁進。機器學習技術「RAPID」NEC 將其機器學習技術命名為「RAPID」,其搭載深度學習機能,透過 GUI(圖形使用者介面)的方式,呈現對範例影像的標籤、學習、判斷結果,最終可像人類一樣辨識、理解圖像與影片資料,在影像辨識領域的業界最常被採用。▲ NEC 在「NEC Industrial Iot」中,新增以 AI 協助作業員肉眼檢查的解決方案「AI Visual Inspection」。(Source:NEC)在實際操作上,首先,製造業工廠現場在進行品檢時,會拍攝一系列的產品影像,NEC 將這些影像儲存保管在 IoT 平台「NEC the WISE Iot Platform」雲端上。當儲存的影像資料達到一定的量後,雲端的 AI 會運用這些數據,自動抽出與分析良品與不良品的特徵,並根據分析結果,進一步歸納出良品與不良品的判別模式,並將判別模式從雲端傳輸到工廠現場裝設的設備上。在工廠端,則會運用現場設備內建的 AI,以接收到的判別模式為基礎,在短短數秒內,完成判別產品是否為不良品。而當生產線要追加製造新的產品時,雲端的 AI 也會自動學習新產品的特徵資訊,並同步更新判別模式,進而有效降低追加設計、研發的工作量。(本文由 數位時代 授權轉載;首圖來源:Flickr/Robert Scoble CC BY 2.0)
紐約時報 10 日報導,英特爾(Intel Corp.)現在正面臨可能對其數據中心晶片主導地位和獲利能力構成挑戰的新競爭力量。IDC 分析師 Matthew Eastwood 指出,英特爾擁有數據中心伺服器處理器高達 96% 的市佔率。人工智慧(AI)的興起,讓專門用來處理大量雜亂數據與複雜機器學習軟體的新運算硬體變得炙手可熱。英特爾的通用晶片尚未針對最苛刻的任務進行調整,專用晶片則是在執行影像/語音辨識、語言翻譯的 AI 軟體時提供較好的效能。Bernstein Research 半導體分析師 Stacy Rasgon 指出,英特爾太晚搭上 AI 列車。英特爾則是認為 AI 仍屬新興科技,公司已做出重大投資。英特爾於 2016 年斥資逾 4 億美元購併一家名為 Nervana Systems 的 AI 新創企業。它將於美國時間 7 月 11 日在紐約舉辦號稱是近 10 年來最大規模數據中心發表會,揭露最新策略並公布 AI 計畫。英特爾正在測試中的「Lake Crest」晶片是專門為類神經網路(neural network)的 AI 軟體所打造,藉由分析大量數據能學習處理特定工作。道瓊工業平均指數暨費城半導體指數成分股英特爾 7 月 10 日下跌 0.68%、收 33.65 美元,今年迄今下跌 7.22%;盤中最低跌至 33.23 美元,創 2016 年 7...