這大概是世界上最聰明的一塊玻璃,它可以用來(lái)識(shí)別數(shù)字,并且無(wú)需耗電,也不用傳感器,只要光亮即可。
這個(gè)玻璃 AI 研究將人工智能嵌入了一個(gè)非計(jì)算機(jī)的物理裝置中,自帶科幻色彩。它能夠?qū)崟r(shí)區(qū)分手寫數(shù)字,也就是說(shuō),一塊小小的玻璃實(shí)現(xiàn)了傳統(tǒng) AI 的相機(jī)、傳感器和深度神經(jīng)網(wǎng)絡(luò)的功能整合。當(dāng)數(shù)字變換時(shí),系統(tǒng)能及時(shí)作出反饋。
圖 | 從左到右分別為:喻宗夫、Ang Chen 和 Efram Khoram。他們開(kāi)發(fā)了這款智能玻璃。 (來(lái)源:SAM MILLION WEAVER)
核心算法:光的散射
光學(xué)神經(jīng)計(jì)算最重要的特點(diǎn)是,幾乎不消耗能量,且因其有內(nèi)在的并行性可大大加快計(jì)算速度。與此前光學(xué)神經(jīng)計(jì)算不同,喻宗夫團(tuán)隊(duì)的研究沒(méi)有遵循數(shù)字神經(jīng)網(wǎng)絡(luò)架構(gòu),也不采用分層前饋網(wǎng)絡(luò),而是利用光學(xué)反射連接各個(gè)激活單元。正是這種光反射作為反饋機(jī)制,從而導(dǎo)致了豐富的波動(dòng)結(jié)果。
這是一種無(wú)需分層的連續(xù)人工神經(jīng)計(jì)算系統(tǒng)。這套系統(tǒng)利用了特意嵌入玻璃中的石墨烯和小氣泡。當(dāng)目標(biāo)圖像的光線穿過(guò)玻璃 AI 時(shí),其路徑就會(huì)被這些氣泡和石墨烯反射或折射而造成彎曲,彎曲后的光線會(huì)聚焦到玻璃另一側(cè) 10 個(gè)點(diǎn)中的某個(gè)點(diǎn)上。
圖丨玻璃 AI 的原理。(a)傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)架構(gòu),其中信息只能向前傳播; (b)玻璃 AI 系統(tǒng)的光學(xué)神經(jīng)網(wǎng)絡(luò),采用通過(guò)具有線性和非線性散射體的光進(jìn)行神經(jīng)計(jì)算。
圖丨玻璃 AI 的工作過(guò)程。(a)系統(tǒng)經(jīng)過(guò)訓(xùn)練以識(shí)別手寫數(shù)字,輸入波將圖像編碼為光能強(qiáng)度分布。(b)數(shù)字 2 的兩個(gè)樣本。 可以看出,兩個(gè) 2 的光能場(chǎng)分布不同,但是它們被識(shí)別為 2。(c)兩個(gè) 8 的光能場(chǎng)分布不同,它們都被識(shí)別為 8。(來(lái)源:喻宗夫)
這 10 個(gè)點(diǎn)對(duì)應(yīng)了從 0 到 9 這 10 個(gè)數(shù)字。就像一把鑰匙開(kāi)一把鎖,如果某個(gè)數(shù)字的光線沒(méi)有對(duì)焦到相應(yīng)的數(shù)字,研究者就調(diào)整系統(tǒng)中的雜質(zhì)大小和位置。研究者對(duì)此進(jìn)行了成千上萬(wàn)次訓(xùn)練,最終玻璃 AI 學(xué)會(huì)了精確的數(shù)字對(duì)應(yīng)。即使手寫數(shù)字風(fēng)格不同,這套系統(tǒng)也能準(zhǔn)確聚焦、識(shí)別。
這是一種以簡(jiǎn)單結(jié)構(gòu)獲得復(fù)雜行為表現(xiàn)的研究。在機(jī)器學(xué)習(xí)的過(guò)程中,研究人員訓(xùn)練的是物理材料,而不是數(shù)字代碼。也就是說(shuō),光傳播的波動(dòng)力學(xué)實(shí)現(xiàn)了人工神經(jīng)計(jì)算的功能。相對(duì)于數(shù)字計(jì)算,這是顛覆性的觀念。
研究人員認(rèn)為,這套系統(tǒng)在現(xiàn)實(shí)中的應(yīng)用還不確定,但理論上可以制作成生物識(shí)別鎖,進(jìn)行人臉識(shí)別。只是這個(gè)系統(tǒng)還缺乏計(jì)算上的靈活性,以及面對(duì)多線程或不同的任務(wù)。
顯然,這個(gè)玻璃 AI 看起來(lái)和我們此前認(rèn)識(shí)的 AI 系統(tǒng)不一樣,它為何會(huì)被稱為 AI 系統(tǒng)?這個(gè)系統(tǒng)有人臉識(shí)別的潛力嗎?研究者下一步會(huì)如何開(kāi)發(fā)這個(gè)系統(tǒng)?帶著諸多問(wèn)題,DeepTech 專訪了作者喻宗夫。
模糊識(shí)別很難,是 AI 的體現(xiàn)
DeepTech:能不能介紹你們課題組的工作內(nèi)容以及你們的研究目標(biāo)?利用光來(lái)做 AI 系統(tǒng),這個(gè)思路是怎么產(chǎn)生的?
喻宗夫:我們希望在納米光學(xué)技術(shù)和機(jī)器學(xué)習(xí)的交叉口創(chuàng)新,希望對(duì)光敏材料、傳感器件、光學(xué)成像系統(tǒng)和機(jī)器學(xué)習(xí)全棧優(yōu)化。以前硬件和軟件的研究比較分立,我們希望把軟硬件看作一個(gè)整體,以具體應(yīng)用為目標(biāo)導(dǎo)向,從新整體考慮視覺(jué)感知。在這個(gè)大方向下面,我們組成員們展開(kāi)思路,不拘泥于現(xiàn)有光感、成像、識(shí)別的架構(gòu)體系,于是 Erfan 和其他組員就想出了這個(gè)點(diǎn)子。
DeepTech:與其他的光計(jì)算相比,你們這個(gè)研究是怎樣的特點(diǎn)?
喻宗夫:以前的光計(jì)算本質(zhì)上還是數(shù)字計(jì)算,只是把電子換成了光子,從電路改成了光路。用光作為載體來(lái)計(jì)算有幾十年歷史了,這次我們利用的是結(jié)構(gòu)材料本身特性。
首先第一點(diǎn),我們的玻璃 AI 不存在以前神經(jīng)網(wǎng)絡(luò)的分層概念,它整個(gè)就是一體化的。另外,我們整個(gè)優(yōu)化方法的過(guò)程也不是按照模擬數(shù)字神經(jīng)網(wǎng)絡(luò)的思路,而是優(yōu)化麥克斯韋方程,去控制光的物理散射過(guò)程。
從實(shí)現(xiàn)的結(jié)果上來(lái)說(shuō)更不一樣。就是說(shuō)我這個(gè)裝置可以做得非常小,也不需要用任何能量,因?yàn)橐郧暗慕Y(jié)構(gòu)需要分層,體積和能耗就比較大。
DeepTech:這個(gè)玻璃 AI 看起來(lái)和我們此前認(rèn)識(shí)的 AI 系統(tǒng)不一樣,它為何會(huì)被稱為 AI 系統(tǒng)?能不能說(shuō),這只是一套數(shù)字密碼系統(tǒng)?
喻宗夫:模式識(shí)別是典型的 AI 應(yīng)用。這和密碼系統(tǒng)完全相反,我們需要這個(gè)玻璃有很大的容錯(cuò)性:一個(gè)數(shù)字誰(shuí)來(lái)寫,都要認(rèn)出來(lái),這種模糊識(shí)別很難,是 AI 的體現(xiàn)。 相反,密碼則要一個(gè)比特也不能差,卻容易實(shí)現(xiàn)多了。
DeepTech:這個(gè) AI 系統(tǒng)與計(jì)算機(jī)是什么關(guān)系呢?該系統(tǒng)的訓(xùn)練學(xué)習(xí)過(guò)程是一個(gè)調(diào)整玻璃內(nèi)石墨烯雜質(zhì)的過(guò)程,而不是其他 AI 系統(tǒng)那樣在計(jì)算機(jī)輸入數(shù)據(jù)、在終端輸出結(jié)果那樣的過(guò)程,對(duì)嗎?
喻宗夫:光在玻璃里面?zhèn)鞑ゾ褪且粋€(gè)偏微分方程控制的波動(dòng)過(guò)程,而神經(jīng)網(wǎng)絡(luò)和偏微分方程有很大的相似性。我們利用這種相似性,以波動(dòng)方程為載體實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的計(jì)算效果。
光打到玻璃里的小孔上,就會(huì)被散射開(kāi)。小孔就像數(shù)字神經(jīng)網(wǎng)絡(luò)里的節(jié)點(diǎn),它們把輸入混合起來(lái),產(chǎn)生輸出。我們這個(gè)訓(xùn)練過(guò)程,就要去做和神經(jīng)網(wǎng)絡(luò)一樣的梯度下降,去調(diào)整玻璃里面的小孔和非線性材料的位置與大小。
DeepTech:這個(gè)思路很出奇,做出這樣的系統(tǒng)需要哪些研究基礎(chǔ)呢?
喻宗夫:其實(shí)做這個(gè)事情需要很多領(lǐng)域的配合。我們不是僅僅把數(shù)字改換成光子,我們還要去解電磁場(chǎng)方程。所以對(duì)機(jī)器學(xué)習(xí)、電磁場(chǎng)方程這兩塊領(lǐng)域都要熟悉。 我們希望在這個(gè)交叉領(lǐng)域繼續(xù)研究創(chuàng)新。
DeepTech:似乎這個(gè) AI 系統(tǒng)不需要那么巨量規(guī)模的訓(xùn)練,是這樣理解嗎?
喻宗夫:不是,我們也需要很多訓(xùn)練。因?yàn)檫@個(gè)是在電磁場(chǎng)介質(zhì)里面?zhèn)鞑?,我們要仿真整個(gè)電磁場(chǎng)傳播的過(guò)程,然后在這個(gè)基礎(chǔ)上要對(duì)偏微分方程整體做優(yōu)化,所以計(jì)算量其實(shí)是非常大的。我們用的是機(jī)器學(xué)習(xí)的方法,但解的是電磁場(chǎng)的優(yōu)化問(wèn)題,所以這兩塊結(jié)合起來(lái)很有挑戰(zhàn),需要從頭寫整個(gè)訓(xùn)練工具。
一個(gè)新的概念
DeepTech:這個(gè)研究是一個(gè)怎么定位?是技術(shù)的突破,還是說(shuō)創(chuàng)造了一個(gè)新的工具?
喻宗夫:我覺(jué)得這是一種新的概念。我們是用玻璃本身來(lái)實(shí)現(xiàn)人工智能的計(jì)算,而以前的人工智能都是用計(jì)算機(jī)完成的,那么現(xiàn)在是利用非數(shù)字模擬的物理作用就可以實(shí)現(xiàn)這件事情,所以說(shuō)在這方面是一個(gè)突破。如此引申的話,很多其他物理作業(yè)比如聲波也可以這樣操作。
DeepTech:能說(shuō)這是一個(gè)計(jì)算機(jī)嗎?
喻宗夫:對(duì)。通用的計(jì)算機(jī)可以做很多事情,我們這個(gè)系統(tǒng)只能做一件事情,所以在這一點(diǎn)上它跟計(jì)算機(jī)是有差別的。但是目前來(lái)說(shuō),計(jì)算機(jī)的發(fā)展也漸漸地趨向于只做一件事情。比如說(shuō)挖比特幣的礦機(jī)。
我覺(jué)得,這個(gè)不是為了取代已有的圖像識(shí)別系統(tǒng),更多的可能是一些更廣闊、以前沒(méi)有應(yīng)用的方式。比如說(shuō),雖然說(shuō)我們現(xiàn)在有了數(shù)字鎖,但是沒(méi)電或者斷網(wǎng)就不能用。我們這個(gè)人臉識(shí)別鎖就像傳統(tǒng)物理鎖,只要有鑰匙它就一直可以用。
所以可能是在這種更加特殊的時(shí)候,如果你擔(dān)心 AI 系統(tǒng)被攻擊的話,那么這個(gè)系統(tǒng)完全沒(méi)有可能從外界去攻擊或干擾,它對(duì)安全性很有保障。
DeepTech:除了數(shù)字識(shí)別,這個(gè)系統(tǒng)如果用來(lái)開(kāi)發(fā)人臉識(shí)別的話,還需要做哪些工作?以及其挑戰(zhàn)有多大?
喻宗夫:人臉識(shí)別在概念上的可行性已經(jīng)可以通過(guò)現(xiàn)在的工作證明。人臉識(shí)別的應(yīng)用需要不少工程工作,可能超出一個(gè)學(xué)術(shù)問(wèn)題了。比如訓(xùn)練的樣本的光場(chǎng)建模需要大量的計(jì)算。
DeepTech:你們下一步會(huì)如何開(kāi)發(fā)這個(gè)系統(tǒng)?這個(gè)系統(tǒng)將來(lái)如何能便捷應(yīng)用到普通民眾中,能成為一款便攜式的智能產(chǎn)品嗎?
喻宗夫:這個(gè)概念為我們自己打開(kāi)了一個(gè)思路:不一定要有數(shù)字和芯片才能智能。智能可以無(wú)所不在,我們稱之為物理驅(qū)動(dòng)智能。 我們今天證明玻璃可以識(shí)別圖像,就是麥克斯韋電磁場(chǎng)定律賦予的。還有很多物品可以利用物理定律的來(lái)智能化。
數(shù)字芯片是人類的智能產(chǎn)品,物理定律的智能產(chǎn)品一定更廣闊。我們覺(jué)得利用物理來(lái)做智能計(jì)算很有意思,而且有廣泛的應(yīng)用價(jià)值。
專家點(diǎn)評(píng):
阮智超(浙江大學(xué)物理學(xué)系教授):本研究原創(chuàng)性較高,與 2018 年一篇 Science 研究有異曲同工之妙,后者創(chuàng)造了一種 3D 打印的全光學(xué)衍射深度神經(jīng)網(wǎng)絡(luò)架構(gòu)。在喻宗夫研究中,如要應(yīng)用到如人臉識(shí)別等復(fù)雜場(chǎng)景,需要進(jìn)行復(fù)雜的調(diào)參,這對(duì)于這種玻璃 AI 裝置有挑戰(zhàn)性。
喻宗夫簡(jiǎn)介:
喻宗夫(ZongFu YU),威斯康星大學(xué)麥迪遜分校電子及計(jì)算機(jī)工程系副教授。2004 年本科畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)物理學(xué)系,博士畢業(yè)于美國(guó)斯坦福大學(xué),主要研究領(lǐng)域是微納光子學(xué)、機(jī)器視覺(jué)和新能源。他是非互易納米光子學(xué)開(kāi)創(chuàng)人之一,提出了納米太陽(yáng)能電池的效率理論,并開(kāi)發(fā)了多模視覺(jué)相機(jī),應(yīng)用于下一代的機(jī)器視覺(jué)。