星期四, 9 1 月, 2025

科技新知 人工智慧

日前蘋果的資料科學家於一場會議曾首次指出,他們將會公佈自家的 AI 研究成果,同時允許旗下學者自由參與學術活動。不過,蘋果目前苦心投入的 AI 技術,究竟會拿來做什麼?會議中,蘋果大概透露了他們製作的機器學習有幾個方向:圖像與人臉辨識,預測使用者的行為,智慧型助理的語言能力,同時設法強化演算法的可靠性。其中,稍微引人注意的,是蘋果也再次「證實」他們已經在開發自駕技術,指出自家機器學習技術將會用在光學雷達(LiDAR)與量體建模── 一項當前業界用於讓自駕車「理解」現實障礙物的主流技術。不過據外媒表示,與會的蘋果學者僅願意就「AI」的部份提出說明,不打算透露產品的內容。另一項則是類神經網絡的研發。據蘋果所述,他們的技術可以在維持同樣精準度的前提下,增加兩倍的演算速度,卻同時比原型小了 4.5 倍。一般來說,類神經網絡主要是用來模擬生物神經元的反應,在不需要主動輸入資料的前提下,讓一個「學生」類神經網絡,獲得另一個「教師」類神經網絡的技能。目前,蘋果主要希望把這種技術用到 iOS,讓裝置不需要伺服器就能自主運算,處理像是圖片與臉孔辨識之類的事。這種技術也能幫助蘋果不需要另外費工加密資料,再上傳到自己的雲端。為了因應圖像處理,蘋果也強化了 GPU 的運算效能。蘋果自稱,假如都在亞馬遜的雲端平台跑的話,他們的機器學習在掃描圖像的效能,比 Google 快了兩倍──確切來說,是每秒能掃 3,000 張,而 Google 只能跑 1,500 張。實際上也有消息指出,蘋果目前也已經大幅接手了 iOS 裝置的 GPU 設計,距離完全自主僅有一步之遙。不過,蘋果並沒有公開如何訓練類神經網絡來辨識圖片的技術,而且還申請了專利。目前,蘋果儘管宣誓會開放自家的 AI 與機器學習團隊,同時讓合作學者能繼續與學術機構互動,但並沒有透露詳細的規定與界線。至於下一代 iOS 的重大變化,依目前的資訊除了底層的檔案格式將置換成統一的 Apple File System,也可能會首次加入 AR,推出與 Google Daydream 類似的平台。 Inside the secret meeting where Apple revealed the state of its AI research (首圖來源:蘋果)延伸閱讀: 不再堅持保密,蘋果的 AI 團隊將與外界共享研究成果 蘋果通過 VR 頭戴專利,設計與 Google...
在過去的 10 年裡,Google 翻譯(Google Translate)從最初僅支持幾種語言發展到今天的 103 種,每天翻譯的字詞超過 1,400 億個。為了做到這一點,在任意兩種語言之間,Google 翻譯都要執行多個翻譯系統,這帶來巨大的計算成本。如今,許多領域都正在被神經網路技術顛覆。Google 確信他們可以利用神經網路進一步提升翻譯品質。這要求 Google 重新思考 Google 翻譯的演算法架構。今年 9 月,Google 發表聲明,基於神經機器翻譯的 Google 翻譯(Google Neural Machine Translation,GNMT)全新上線。神經機器翻譯是端到端的學習架構,它能從數百萬的實例中學習,提供大幅提升的翻譯效果。雖然功能得到了改善,但是讓 Google 翻譯把當下支持的 103 種語言全部採用神經機器翻譯技術,卻是一項巨大的挑戰。一周前,Google 的工程師們發表了一篇論文《Google 的多語言神經機器翻譯系統:使 Zero-Shot 翻譯成為可能》(Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation),其中,Zero-Shot 翻譯是指在完成語言 A 到語言 B 的翻譯訓練之後,語言 A 到語言 C 的翻譯不需要再經過任何學習。它能自動把之前的學習成果轉化到翻譯任意一門語言,即便工程師們從來沒有進行過相關訓練。透過 Zero-Shot,Google 解決了把神經機器翻譯系統擴展到全部語言的難題。有了它,一套系統就可以完成所有語言的互翻。從前兩種語言之間都需要多個翻譯系統的情況,從此成為了歷史。這套架構在翻譯其他語言時,不需要在底層 GNMT 系統做任何改變。只需在輸入語句的開頭插入一個輸出語種標記,就可以把結果翻譯為任意語言。下圖是該 Zero-Shot 系統如何運作的示意圖。假設 Google 訓練該系統做日語英語、韓語英語的互譯,圖中用藍色實線來代表。GNMT 系統就可以分享這 4 組翻譯(日英、英日、韓英、英韓)的參數。這允許它把任意一組語言的翻譯經驗轉到其他語言上去。學習成果轉移和多語言翻譯的要求,迫使該系統更好地使用建模的能力。這啟發了工程師們思考:我們能否讓系統翻譯一組它從來沒有翻譯過的語言?這可以用韓語日語互譯的例子來說明。雖然該系統從未處理過韓日互譯,但它利用之前的韓英、日英翻譯學習成果,能進行水平不錯的韓日互譯。Google 把這個過程稱為「zero-shot」翻譯,圖中用黃虛線表示。Google 宣稱,這是世界上首例應用在機器翻譯上的學習成果轉移。Zero-shot 翻譯的成功帶來了另外一個重要問題:這個系統是否在學習語言的通用表達(不管是翻譯成什麼語種,相同含義的語句都被系統使用相似的表達方式?)──類似於「國際語」或者中介語言?工程師們使用了 3D 圖像展示系統的內部網路數據,以了解它在處理日、韓、英的任意互譯組合時是如何運作的。上方圖片 a 部分(左)展示了這些翻譯的幾何結構。意義一致的語句用顏色相同的點代表。比方說,英譯韓和日譯英的兩句話如果意思一致,就會是圖上顏色相同的兩個點。透過這種方式,我們可以很容易地區分不同顏色(含義)的點。b 部分放大了紅色區的點,c 部分則對源語言進行區分。在同一組顏色的點裡,我們看到含義相同但從屬不同語種的句子。這意味著該系統必然對句子的語義進行了編碼,而不是記憶一個短語到另一個短語的翻譯。Google 的工程師把這看做是系統中存在中介語言的標誌。Google 在論文裡面展示了更多的分析結果。他們希望這些發現不但對機器學習和機器翻譯的研究人員們有用處,也能對語言學家和對單一系統怎麼處理多語言學習感興趣的人帶來價值。美國時間 11 月 22 日,基於 Zero-Shot 的多語言神經機器學習系統正式登陸 Google 翻譯。它目前被應用於新增加的 16 個語言組中的 10 個,帶來更高的翻譯品質和簡化的系統架構。我們可以期待在不久的將來,該系統會逐步支持更多的 Google 翻譯語種。 Zero-Shot Translation with Google’s Multilingual Neural Machine Translation System (本文由 雷鋒網 授權轉載)
隨著人工智慧的不斷發展,它似乎已經在很多方面趕超了人類──臉部辨識、物體辨識,還有象棋、圍棋、各種影像遊戲。 人們不禁要問,還有什麼事是 AI 做不好的呢?它在哪方面比不過人類?現在,馬里蘭大學帕克分校(UMCP)的一項研究告訴你,讀漫畫可能就是其中之一。據國外媒體報導,馬里蘭大學 Mohit Iyyer 教授對 AI 讀漫畫書的能力進行了測試。結果顯示 AI 在這一領域遠遠比不過人類。漫畫由一系列單獨的圖畫構成,每部分都搭配文字解釋,圖文符合度很高。這樣一來,如果單獨看某一張圖片或是某一句文本是很難理解到漫畫意思的。除此之外,不同作者的繪畫風格、語言風格不同,排版也存在巨大的差異。而且漫畫與影片不同,每張圖畫之間的時間和空間是不連貫的,中間的大量情節需要讀者發揮想像力去腦補,這種對人類是輕而易舉的事情,對 AI 卻是難如登天。Iyyer 教授用 4,000 本漫畫書創造了一個由 120 萬張漫畫畫格組成的圖庫,每張畫格配有對應的文本對話框。由於涉及版權問題,圖庫中的漫畫全部來源於 20 世紀 30 年代到 50 年代的作品。為了弄清楚 AI 理解漫畫的能力如何,研究人員進行了讓人工智慧程式依靠之前見過的圖畫預測下一個畫格的實驗。首先研究小組先讓 AI 學習漫畫的創作過程,將漫畫中的一個畫格及其對應的文本投給不同的機器演算法,讓它們學習一組漫畫中的每個畫格之間是如何相互關聯的。在大量訓練之後,研究人員把一組 AI 之前沒有見過的短篇漫畫集對它進行測試,並要求它預測出下一張圖畫或者文本的內容。結果發現,人類預測的正確率高達 80%,而 AI 卻與人類水準相差甚遠。Iyyer 教授解釋,「雖然如今的 AI 已經在圖像辨識、文本辨識上取得了不凡的成就,但是對於看漫畫這種需要人類大腦進行邏輯推理和想像力思考的活動,它還是遠遠不及人類。不過,這也是我們今後努力的方向。」 AI Machine Attempts to Understand Comic Books … and Fails (本文由 雷鋒網 授權轉載;首圖來源:Flickr/Jess CC BY 2.0)
俗語「賊眉賊眼」是形容賊人生得一副「賊相」,但這到底有沒有科學根據?最近上海交通大學就有研究員編寫了演算法,透過人臉辨識技術去判斷照片裡的人是否為罪犯。研究論文宣稱有 89% 準確率,不過受到犯罪學專家質疑。「賊眉賊眼」是否成立?有些演員總是被安排做壞人角色,全因一般人都對壞人有些刻板印象,即所謂的「賊形賊相」。正常人都知道相貌跟人品應該沒有任何直接關係,不過上海交通大學就有兩名研究員在網上發表論文,宣稱其演算法能從人臉特徵辨識出罪犯,而且準確率有九成,莫非真的有「賊眉賊眼」?據 BBC 報導,研究員編寫了演算法,可透過人臉辨識技術去判斷照片裡的人是否為罪犯。研究員利用 1,865 張中國一般市民及罪犯的護照照片給演算法學習,其中約 730 張是罪犯的照片,照片裡的人介乎 18 至 55 歲,但報導沒有提及這些照片如何取得。1,865 張照片中有九成用於演算法學習,餘下一成則用於實際測試。結果據論文宣稱準確率達到 89%,論文指罪犯有共通的關鍵臉部特徵,例如上唇的彎曲程度及雙眼距離。論文宣稱該演算法可用於執法及防範罪案,但顯然不獲犯罪學專家買帳。犯罪學教授直斥歧視、缺乏理論基礎英國愛丁堡大學定量犯罪學教授 Susan McVie 直斥該研究違反倫理,因犯罪學不應助長偏見,如果因為一個人的樣貌就判斷他可能是罪犯,只會讓社會更重視人的外表,而且更助長人們,尤其是陪審員偏向只看疑犯的樣貌或衣著方式就下判斷將人定罪。Susan McVie 認為這研究本身就缺乏理論基礎,一個人的外表不會讓他變成罪犯,這研究的出發點本身已經有很大的誤差,其研究結果自然也會有很大的誤差:「如果你用這個演算法去預測一個人會否成為罪犯,成功率一定不會高。」以色列初創研究人臉辨別恐怖份子雖然這研究被學者評得一文不值,但其實這類研究從來沒少過。最受恐怖份子困擾的以色列,就有初創公司 Faception 研究用人臉辨識技術去找出恐怖份子。Faception 行政總裁 Shai Gilboa 就表示他們的人工智慧可根據 15 項關於性格特徵與類型的預測參數,判斷照片裡的人是怎樣的人,例如是天才、外向的人或者罪犯。Faception 相信「DNA 決定性格」,因此相信可憑人的樣子來推測他的未來,並試過從 50 人的撲克比賽中預測 4 名優勝者,其中 2 人就進入前三名。而該公司更宣稱已與某國的國土安全局簽立合約,把該技術用於找出社會中潛在的危險,鞏固國家的社會安全。到底這種理論及技術是否真的站得住腳,可能還需時間證明,但就肯定違反倫理道德。「Your face, Your fate」只是助長優生學的流行,而且更可能是最傷人的歧視。如果因為懼怕罪犯和恐怖份子就藥石亂投,不僅是文明倒退,更是遂了恐怖份子所願而已。 Convict-spotting algorithm criticised Faception can allegedly tell if you’re a terrorist just by analyzing your face...
據外媒 BI 報導,根據職業社群網站 LinkedIn 上的消息,Google 旗下人工智慧部門 DeepMind 近期招募了一群人工智慧專家,希望減少人工智慧可能帶來的毀滅性危險。這些專家中包括 Viktoriya Krakovna、Jan Leike 和 Pedro Ortega 等人。Krakovna 會成為 DeepMind 的研究科學家,她是哈佛大學科學博士,曾聯合創建過生命未來研究所(FLI),未來會負責人工智慧安全方面的技術研究。Leike 也會成為研究科學家,他是牛津大學人類未來研究所(FHI)的研究助理,主要興趣方向是讓機器學習更高效,讓人類受益。Ortega 與上面兩位的職位相同,他是劍橋大學機器學習博士,研究領域是資訊理論和統計機械學在序貫決策中的應用。這些人會組成一個新的部門:人工智慧安全部門。目前對這一部門的確切成立日期還不確定。自從 Alphago 戰勝人類後,DeepMind 的一舉一動都受到外界的關注。目前,它一直在打造能自主學習和擁有思考的智慧電腦系統。雷鋒網曾報導,現在研究人員已經讓電腦學會了圍棋和電子遊戲。除了 DeepMind,如物理學家霍金和艾隆‧馬斯克都擔憂人工智慧可能會在未來成為人類威脅,甚至是毀滅人類。(本文由 雷鋒網 授權轉載;首圖來源:shutterstock)
聖誕節快要到了, 每年的這個時候都是美國各大商場的打折旺季,當然也是民眾的購物熱潮。為了抓住這個能賺飽飽的機會,應對潮水般湧來的訂單,亞馬遜、沃爾瑪、UPS 等物流公司都提前招攬大量員工,以便於在這場聖誕銷售大戰上贏取先機。其中,亞馬遜就為美國倉庫增加了 12 萬名的臨時工,這相當於增加了 40% 的員工。 為了讓大量新員工快速地熟悉業務,亞馬遜採取了一系列措施,用機器人來快速培訓入職員工。據亞馬遜全球營運副總裁 John Olsen 介紹,亞馬遜的新倉庫大規模地引入自動化技術,包括觸控螢幕、機器人、智慧掃描儀等,以此提高員工的工作效率。一般來說,新員工熟悉倉庫的工作需要大約 6 周的時間,而在觸控螢幕,機器人等新技術的幫助下,培訓時間縮短為 2 天。除此之外,縮短新員工的培訓時間可以為亞馬遜省下一大筆開支,以便用更高的工資吸引更多的勞動力。在倉庫的樓層上,新員工正在學習如何打包發貨,他們的「老師」是一個螢幕。「老師」會告訴新人應該使用多大尺寸的盒子,並且還會提供合適長度的膠帶。在以前的老倉庫,新員工入職前幾天大多是在培訓教室中度過的。▲ 亞馬遜機器人的移動速度比人快得多,它們將裝滿商品的貨架送到工作站,員工可以從工作站上拿到商品。顯示螢幕會告訴員工需要的商品外觀長什麼樣子、它們的位置又在哪裡,這樣一來員工就可以快速準確地找到對應商品。事實上,在引進新技術之前,亞馬遜的傳統倉庫設置了裝載區。每當假期將至,員工白班夜班交替工作,倉庫 24 小時營運,商品在 8 英里長的傳送帶上連續不斷地傳輸。而新倉庫不同,裡面到處都是機器人,工作效率更高。除此之外,在老倉庫裡,員工必須記住商品的存放位置,如果有必要還要費力去尋找;而在新倉庫內,機器人會抱起架子,員工在上面找到商品然後掃描一下,閃爍的光線就會告訴員工應該將商品放進哪個盒子,然後再發貨。業界對亞馬遜的模式十分看好。物流人力資源公司 ProLogistix 的高級副總裁 Brian Devine 表示,亞馬遜的新技術也許會為該公司率先贏得優勢,縮短員工學習曲線,減少勞動力的流動性;同時,零售顧問公司 Kurt Salmon 的倉庫專家 Steve Osburn 也認為亞馬遜的倉庫統一度很高,因此可以在多個地方引進類似的訓練項目,更大規模地提高倉庫的工作效率。(本文由 雷鋒網 授權轉載)
今年 6 月,新一期全球超級電腦 500 強榜單公布,使用中國自主晶片製造的「神威太湖之光」取代「天河二號」登上榜首,該機器浮點運算速度為 93 PFLOPS,全面超過美國。而日本在全球超級電腦競賽中,則多年在於中美的較量中落敗,這也使得日方開始重視超級電腦。29 日,據日本媒體報導,日本經濟產業省將拿出巨額投資來製造一部超級電腦。根據計畫,該專案投資金額大約在 1.73 億美元左右,這個新的超級計算平台將被命名為「人工智慧橋接雲基礎設施(AI Bridging Cloud Infrastructure,簡稱 ABCI)」,這個將被製造出來的超級電腦浮點運算速度為 130 PFLOPS。而之前全球超級電腦 500 強中,日本排名最好的則是富士通公司的「Oak forest-PACS」,運算速度只有 13.55 PFLOPS。日本政府方面宣稱,這個超級電腦專案的目的是大力推動人工智慧的進步,促進「深度學習」、雲端計算的快速發展,並為創業公司、大企業及科研機構提供運算處理能力支援。相關應用將具體落實到改善無人駕駛、工業自動化、機器人產業以及醫療應用等多個方面。目前對 ABCI 專案的招標已經正式開始,將在今年 12 月 8 日關閉,項目具體實施時間將在明年春天開始,屆時在世界超級電腦領域,各國肯定又是一場腥風血雨的爭鬥,中美是否能拿出更先進的招數,還得到時候再看。(本文由 雷鋒網 授權轉載;首圖來源:shutterstock)延伸閱讀: 全球前十名的超級電腦都長什麼樣?
還記得 AlphaGo 嗎?DeepMind 這家專門研究人工智慧的英國公司,於 2014 年被 Google 收購,經 過 AlphaGo 與職業棋師的圍棋大戰勝利後一炮而紅。而近期,他們與牛津大學的研究員利用人工智慧設計出史上最精準的讀唇語軟體。究竟他們是如何辦到的?DeepMind 研究員訓練一個神經網路系統(稱為 Watch, Listen, Attend, and Spell),讓它看上千小時的 BBC 政論節目,涉及 118,000 條句子還有 17,500 個特殊詞彙,再來解讀每一支影片的唇語,準確率可達 46.8%。這個數據看起來好像沒有很好,但相比專業讀唇師僅有 12.4% 的準確率而言,人工智慧真的厲害多了。▲ 就算是人類,也僅能讀出 12.4% 的唇語。(Source:New Scientist)這項研究後來被牛津大學拿去研究並開發出新的一套技術,稱之為 LipNet,在測試中竟然可以達到 93.4% 的準確率,高出真人讀唇 40 個百分點。但要聲明的是,這項測試是牛津大學研究員請志願者讀出制式化的句子,並錄製下來給系統及專業讀唇人士看的,而且該影片涉及到的特殊詞彙僅有 51 個。而 DeepMind 的實驗則是拿更生活化的影片給系統看,當然準確度也就沒有那麼高。DeepMind 的研究員表示,這項研究可以用來幫助聽力受損的人們理解他人的對話,同時也可被利用來替影片下字幕。另外,像是 Siri 或是 Alexa 這類語音助理,也可利用這項技術擴充,讓使用者只要對著鏡頭說話,不用出聲語音助理也能辨識,之後大家總算不用在大庭廣眾之下對著手機下指令了。▲ DeepMind 開發出的 AlphaGo 先前與職業棋師大比棋藝,以全勝的姿態一舉成名。(Source:Nerdist) Google’s AI can now lip read better...
盜獵問題極為嚴重,估計全球每年瀕危與受保護動物遭盜獵販售貿易額估計高達 70~100 億美元,然而許多非洲國家的國家公園巡守員人力嚴重不足,無法巡邏大片領域,讓盜獵防不勝防,若分散巡邏,遇上兇殘的武裝盜獵者,巡守員又有殉職風險,2015 年有超過百名工員巡守員殉職,為了協助保護瀕危動物不受盜獵,如今軍事級紅外線攝影加上人工智慧成為一大助力。盜獵者每年殘殺的無辜動物數量驚人,過去 10 年來非洲大象慘遭屠殺僅存 11 萬隻,2015 年南非有 1,175 隻犀牛遭盜獵,在全亞洲,犀牛更遭到廣泛盜獵,導致全球野生犀牛總數降到 3,900 隻,面對盜獵猖獗的迫切危機,只靠人力巡守顯然已經有所不足。Google 在 2012 年 12 月時捐贈世界自然基金會(World Wildlife Fund)500 萬美元,希望發展以科技打擊盜獵的辦法,世界自然基金會以這筆資金啟動「科技打擊野生動物犯罪計畫」(Wildlife Crime Technology Project),第一階段計畫主要與那密比亞環境部與觀光部合作,採用隼鷹公司(Falcon)的無人機來巡守犀牛與大象。2014 年計畫進入第二階段,擴大所使用的技術,採用科巴姆(COBHAM)的監視系統,全天候拍攝並串流納米比亞野生河馬的影像;在印度,設立大象音響警報系統,當野生大象逼近人類村莊時,可提早發出警告,讓村民能安全驅離大象,以免大象闖入村中發生嚴重人象衝突而使得大象送命。同時,自 2015 年 6 月起,開始測試紅外線攝影技術,拍攝紅外線影像後,以深度學習技術來辨識紅外線影像是何種動物或人類;之後,在南非測試虛擬紅外線圍牆技術,在馬拉威與辛巴威測試無人機攝影偵測盜獵。而在 2016 年 6 月起,則與肯亞野生動物保護部,以及馬賽馬拉國家保護區的馬拉保育局(Mara Conservancy)合作,在兩處關鍵地帶,布置紅外線攝影與深度學習辨識的偵測系統。增加巡守效率這項計畫的紅外線攝影裝置部分與全球最大商用紅外線攝影廠商 FLIR 合作,FLIR 專營高階軍事及其他政府用途紅外線攝影,民用應用包括建築視察、安控以及特殊應用包括海底紅外線攝影等,FLIR 的軍用等級紅外線技術對公園巡守員來說有莫大幫助,因為盜獵最常發生在夜間,而紅外線攝影可看穿煙霧、塵埃,因此能一次監視廣大區域。兩套紅外線攝影機系統中,一套設置在一輛荒原路華(Land Rover)越野車上,機動移動到最常發生盜獵的地區,巡守員用帆布罩住越野車,遮住車內發出的亮光,如此一來盜獵者就不會察覺而心生警惕,巡守員在車內以搖桿操縱攝影機拍攝,可監測達 1 英里遠。車載系統具備機動性,最常配置在肯亞與坦尚尼亞邊界,馬賽馬拉國家保護區與坦尚尼亞的賽倫蓋提國家公園交界處。另一套系統則設置在未透露的國家公園邊界,以太陽能供給電腦系統的電力。系統拍攝到的紅外線影像,由電腦以深度學習技術來判斷是人類還是動物,若發現是人類,就對巡守員發出通知。車載系統找到人影時,車上的巡守員就通知同僚,人影可能是盜獵者,也可能是巡守員,但巡守員知道自己同僚的位置,排除後剩下的就是盜獵者,一發現盜獵者,就召集同僚前往圍捕,如此一來巡守員可輕鬆監控半徑 1 英里區域,大為增加巡守效率。過去巡守員觀察夜間的火光來逮捕盜獵者,但是 8 年前開始,盜獵者已經學會不用火把,巡守員只能仰賴夜視裝備來逮人,但效果很有限,如今新系統試用幾個月下來,就已經順利逮捕數十起盜獵,讓巡守員士氣大振,現在巡守員要是沒有紅外線攝影系統的幫助,就覺得跟瞎了眼沒兩樣。保育對上盜獵,過去都是勝少敗多,如今,在科技的幫助下,保護瀕危野生動物的行動,終於露出一線曙光。世界自然基金會目前正計畫將有效的技術推廣到多國,肯亞以外,還包括印度、納米比亞、尼泊爾、南非、馬拉威以及辛巴威。 FLIR AND WORLD WILDLIFE FUND TARGET ILLEGAL POACHING Wildlife Crime...
大家的兒時記憶不知有沒有這樣的印象:以前的科幻電影或動畫裡,總是會有個好像「導師」功能的機器人,引導著主人翁認識世界。比如說《星際大戰》的 C3PO、《魔鬼終結者 2》裡的阿諾終結者、哆啦 A 夢(舊譯小叮噹)等,隨著年紀漸長,應該會覺得這種幻想的東西做不出來吧?不過現在有人把這樣的機器人導師實現了!這個想法的契機有兩點,第一點,是這幾年機器人從只有專業人士才能掌握的科技,漸漸普及,而且有可能運用到學習的領域,成為幫助學生發展認知與社交技能的有利工具。特別是在孩童的早期教育中,在教室裡運用機器人導師有潛力大為提高學習效率。第二點,現代的新科技主導了學生的生活,直接影響了現代教育的兩個基本目標:知識的傳播和社會化。教師們終究必須學習如何運用這些科技而非排拒之,以在教室和家庭中達成學生最好的學習效果。由於我們越來越多地使用電子設備和社群媒體,學生不再像過去那樣只用紙、筆與書本學習,教師也要相應地調整他們的方法(每個學生都看著螢幕控制著滑鼠跟鍵盤使用 CAI 教學軟體,一名老師要如何知道每個學生有沒有在「專心」在上課?)機器人導師可以幫得上忙嗎?來自西班牙馬德里的遠距離教育大學(Universidad Nacional de Educación a Distancia)人工智慧系的一組研究人員,就針對此,開發了一套用於小學教育軟體的「有效機器人導師整合環境」(Affective Robot Tutor Integrated Environment,ARTIE),且在計算神經科學邊界期刊(Journal Frontiers in Computational Neuroscience)上發表了他們的論文。機器人導師如何帶動教室裡的學習熱情?在軟硬體方面,ARTIE 整合了 Nao 機器人跟電腦上的 Scratch 平台,他們提供了豐富的函式庫連貫了用 Scratch 製作的教學軟體,與 Nao上面該團隊開發的導師機器人軟體 MONICA 。這幾年 Scratch 很紅,用來學程式語言或者用來輔助正式課程的應用都有,筆者在這邊就不多說。關於 Nao ,可能台灣熟悉的人比較少,筆者稍微介紹一下,它來自法國,是一個可跟人類溝通互動的機器人,本身其實就是一台會走動的「電腦」,在市場上分有研究型(提供給研究單位)跟家用型。以前其實已經有著不少以 Nao 當「老師」的應用(請看參考影片),不過多半只是噱頭性的簡單教學,甚至是非正規的教學(「快樂學、快樂成長」的那種)。然而 Luis-Eduardo Imbernón Cuadrado 博士和他的團隊開發的這套系統,跟以往不同的是:他們是拿 Nao 來作國小正式教學裡的「導師」工作。 這個導師系統的核心專注於學童的注意力上,他們歸納孩童的注意力狀態為:注意力集中、注意力分散、無反應,作為影響學習的三種認知。學童操作用 Scratch 做的學習軟體時,系統會監測學生的注意力狀態,然後用 Nao 機器人以言語或者動作來提點。整個機制運作流程分兩部份,第一個部份是分析孩童的互動狀態,主要是鍵盤使用和滑鼠游標控制,這個機制會精確量測教學軟體丟出一個「訊號」以後,到學童用滑鼠與鍵盤做出回應的時間差(latency),以判定孩子當下的注意力狀態甚至是可能的情緒;第二個部份,是分析收集到的數據,比對這個學生的類型以及過去的反應紀錄,推斷可以採用的最佳引導策略,由機器人導師來執行,包括發言提到特定的觸發詞以及使用手勢,來鼓勵學生達成特定學習標的。第二部份其實也就是一個專家系統,在設計階段,匯集了一群國小老師的顧問團整理的各種指導策略與技巧,也實際在一個小班兩組共10位學生的電腦教學時,錄製全程的學習影片以及所有的滑鼠、鍵盤動作,整理、歸納出不同類型學生的反應模型資料庫,以及對應的可能教學策略。 ▲ (照片經過父母同意重製傳播)機器人導師實戰指導研究人員開發了 ARTIE...