跟著一名邊裁,時不時來張“C位”特寫。原來,AI攝像機誤將這名裁判的光頭識別成足球,所以瘋狂追了一整場。
在家觀看這場90分鐘比賽的球迷,大部分時間不是看球,而是在圍觀光頭。不少網(wǎng)友打趣:這場球賽實打?qū)嵉?ldquo;看了一個寂寞”。
為什么AI攝像機會把光頭看成了足球?為避免AI犯類似失誤,我們需要做些什么?出現(xiàn)“翻車”事件,能就此認為AI“弱爆”了嗎?
來自光頭裁判的無意識“挑釁”
從直接參與體育賽事到記錄運動員表現(xiàn),再到直播比賽現(xiàn)場、分析運動員健康狀況,AI正成為體育界的寵兒。幾個月前,巴塞羅那足球俱樂部(巴薩)還攜手視頻技術(shù)公司Pixellot,打造了人工智能教練解決方案。
沒想到,在體育界一路高歌猛進的AI,這次出人意料地遭遇了一名光頭邊裁無意識的“挑釁”。由于這名邊裁光頭太亮,加之陽光照射,AI攝像機根本分不清哪個是球,哪個是頭。此前,因弗內(nèi)斯隊表示,他們使用的AI跟蹤技術(shù),可以將直播畫面清晰地傳輸?shù)矫恳晃患酒辟徺I者家中,讓因新冠肺炎疫情而無法前往主場的球迷不錯過任何一場比賽。
據(jù)悉,此次比賽直播使用的攝像機正是與巴薩合作的Pixellot所提供的多攝像機系統(tǒng)。該系統(tǒng)由英偉達的圖形處理器(NVIDIA GPU)提供動力支持,捕獲的視頻分辨率可達8K。這些攝像機可以安裝在固定位置,無需攝像機操作員進行操控。為捕獲關(guān)鍵時刻畫面,Pixellot收集了數(shù)十萬個小時的體育視頻,用于在本地工作站的NVIDIA GPU上訓練其算法。
擁有海量的可用數(shù)據(jù),使用了深度學習算法,加上高性能GPU計算加持,具備推動AI前行的三大動力,Pixellot的這款AI攝像機為何“翻車”呢?
活動結(jié)束后,相關(guān)俱樂部和制造攝像頭的技術(shù)公司進行了反思,問題似乎非常清楚:足球的大小、形狀與人的腦袋差不多,加上陽光直射,讓AI攝像頭陷入了“迷茫”。因弗內(nèi)斯隊回應稱已知曉了問題,并且將為下一場比賽進行改進,給觀眾帶來更好的體驗,希望這種情況不會再發(fā)生。
Pixellot公司也表示解決這個問題并不難?,F(xiàn)有的目標檢測與追蹤技術(shù)已比較成熟,Pixellot在設計階段沒考慮到光頭的影響,需要收集一些足球和光頭的數(shù)據(jù)對算法進行微調(diào),以排除來自光頭的干擾。
有技術(shù)人員表示,在訓練直播球賽的AI攝像機時,需要的不僅“這是球”數(shù)據(jù)集,還需要一個“這不是球”數(shù)據(jù)集。光頭、足夠亮的白鞋、燈光、比賽場地旁訓練場上的球、球員用來熱身的球,都是訓練AI時需要考慮的干擾因素。
AI“視力差”才是常態(tài)
盡管可以通過加大數(shù)據(jù)“投喂量”,加強訓練和改進算法改善AI攝像機性能,但有專業(yè)人士認為,隨著AI應用場景逐步拓展,此類“翻車”事件還將長期存在。
“AI‘翻車’是常態(tài),不‘翻車’才奇怪。”北京大學信息科學技術(shù)學院教授、北京智源人工智能研究院院長黃鐵軍接受科技日報記者采訪時直言。
黃鐵軍認為,表面上看,這次AI攝像機出現(xiàn)失誤可能是因為前期訓練不夠,但最主要的原因是現(xiàn)在的計算機識別系統(tǒng)還只是用特定的數(shù)據(jù)訓練出來的,例如在上述例子中,使用大量足球視頻訓練的神經(jīng)網(wǎng)絡在識別足球方面已超越人類,但卻忽視了這個網(wǎng)絡對光頭更敏感,對
沒見過的對象胡亂識別或“視而不見”,這種問題普遍存在。
機器視覺就是將視覺感知賦予機器,使機器具有和生物視覺系統(tǒng)類似的場景感知能力,涉及到光學成像、圖像處理、分析與識別、執(zhí)行等多個組成部分。
“把攝像機作為AI的‘眼睛’,在現(xiàn)實場景中,讓AI像人眼一樣去識別足球和光頭,還有很長的路要走。”黃鐵軍表示。
什么時候能走完這條路,甚至實現(xiàn)AI之眼超越人眼?
這取決于機器視覺何時彌合與生物視覺的差距。“顱骨之中的大腦通過三百多萬根神經(jīng)纖維實時感知外部世界,其中每只眼睛后面就有一百多萬根。”黃鐵軍表示,“發(fā)展至今天的機器視覺,與花費億萬年進化而來的生物視覺系統(tǒng)相比,還是小巫見大巫。”
人眼適應性很強,能在復雜及變化的環(huán)境中識別目標,具有高級智能,能運用邏輯分析、推理能力去識別變化中的目標,并總結(jié)規(guī)律。而反觀機器視覺,雖然可以利用人工智能神經(jīng)網(wǎng)絡技術(shù),但不能很好識別變化的目標,受硬件條件制約,目前一般的圖像采集系統(tǒng)色彩分辨能力較差。
“與生物視覺神經(jīng)網(wǎng)絡相比,人工智能的視覺神經(jīng)網(wǎng)絡在結(jié)構(gòu)、規(guī)模上相距甚遠,所以功能也要差很多。”黃鐵軍表示,“在現(xiàn)實應用中,機器視覺‘翻車’不是偶然事件,把光頭識別成足球,只是個案,類似問題其實大量存在。”
黃鐵軍說:“這一次,技術(shù)提供方可以把光頭誤認為足球的漏洞補上,但還有更多的漏洞,用對抗性圖片訓練騙過人臉識別系統(tǒng)只是揭開機器視覺不足的冰山一角。”
不同技術(shù)路線在賽跑
“基于深度學習的機器視覺在圖像識別等方面取得重大進展,但并未真正解決感知問題。”黃鐵軍認為,深度學習遠未抓住人類視覺系統(tǒng)的復雜性。
深度學習建立在圖像和視頻大數(shù)據(jù)的訓練基礎(chǔ)上,和主動感知動態(tài)世界的生物視覺相距甚遠,而且仍未脫離算力需求。例如,如果把視頻幀率從30提高到3萬,深度學習的算力就需要提高1000倍。
而生物神經(jīng)網(wǎng)絡是脈沖神經(jīng)網(wǎng)絡,更適合完成視覺信息處理。黃鐵軍認為,借鑒生物視覺系統(tǒng)的神經(jīng)網(wǎng)絡結(jié)構(gòu)和信息加工機理,建立一套新的類腦視覺信息處理理論和技術(shù),是重啟機器視覺的希望所在。
專家表示,發(fā)展人工機器視覺,目前有兩條主要技術(shù)路線,一是通過收集更多數(shù)據(jù)、增加數(shù)據(jù)量,加大訓練力度,構(gòu)造出強大的智能系統(tǒng);二是模仿生物神經(jīng)系統(tǒng),照葫蘆畫瓢,將生物神經(jīng)系統(tǒng)的結(jié)構(gòu)甚至機理搞清楚,以此為基礎(chǔ)發(fā)展未來智能。
黃鐵軍認為,第二條路徑要比第一條路徑更有效。“短時間來看,第一條更易取得成果。但長遠來看,從生物神經(jīng)網(wǎng)絡入手更為直接,實現(xiàn)目標也更有把握。”
目前,AI學界多數(shù)支持第一條路徑,即通過“大數(shù)據(jù)+大算力”的方式,發(fā)展機器視覺在內(nèi)的人工智能。黃鐵軍踏上少數(shù)人走的那條路,是因為他堅信生物視覺神經(jīng)網(wǎng)絡有巨大潛能可以挖掘。“生物大腦是億萬年進化的產(chǎn)物,是最好的先驗結(jié)構(gòu)。強大智能必須依托復雜結(jié)構(gòu),站在進化肩膀上,看似艱難,實則最快。”
“計算機科學之父”圖靈早就表達過對生物大腦的推崇。1943年初,香農(nóng)提議,可以把“文化的東西”灌輸給電子大腦,圖靈有一次在大庭廣眾之下反駁:“不,我對建造一顆強大的大腦不感興趣,我想要的不過是一顆尋常的大腦,跟美國電報電話公司董事長的腦袋瓜差不多即可。”
發(fā)展機器視覺,抑或是人工智能,是重起爐灶,是模仿生物神經(jīng)網(wǎng)絡,還是另有他法?暫無定論。在不同的賽道上,人工智能都在加速前進。
盡管AI“翻車”案例不在少數(shù),比如谷歌AI眼部疾病診斷系統(tǒng)的實用性在泰國大打折扣,騰訊AI翻譯在2018年博鰲論壇上鬧出笑話。但AI時代正加速到來,勢不可擋。
“必須承認,AI確實解決了不少現(xiàn)實問題,它將逐步替代人的部分功能。但不能過分夸大,它距離我們想象中的智能還有很多不足,還需要更多突破。”黃鐵軍說,要保持開放的思維,跨越“實驗模擬”與“真實世界”之間的鴻溝,AI技術(shù)發(fā)展任重而道遠。 (實習記者 代小佩)