近年來(lái),隨著技術(shù)日益進(jìn)步,天文學(xué)研究中產(chǎn)生了海量數(shù)據(jù)。天文學(xué)家要想從郭守敬望遠(yuǎn)鏡、“中國(guó)天眼”FAST、LSST大型綜合巡天望遠(yuǎn)鏡等遍布世界的大型望遠(yuǎn)鏡捕獲的海量數(shù)據(jù)中找出有價(jià)值的信息以資研究,無(wú)異于大海撈針。
如何高效地處理這些數(shù)據(jù),已成為現(xiàn)代天文學(xué)面臨的一項(xiàng)重要挑戰(zhàn)。由于人工智能在海量數(shù)據(jù)分析和處理方面所具有的突出優(yōu)勢(shì),它也很自然地走入了天文學(xué)家的視野。
日前,中國(guó)科學(xué)院云南天文臺(tái)麗江天文觀測(cè)站龍潛研究員與云南大學(xué)中國(guó)西南天文研究所宇宙學(xué)研究組爾欣中教授團(tuán)隊(duì)合作,利用人工智能深度學(xué)習(xí)的方法,發(fā)現(xiàn)了38個(gè)新的強(qiáng)引力透鏡候選體,為研究天體物理學(xué)問(wèn)題提供了新的可靠的“宇宙探針”候選體。英國(guó)《皇家天文學(xué)會(huì)月刊》發(fā)表了這項(xiàng)研究成果。
天文觀測(cè)產(chǎn)生海量數(shù)據(jù) 用機(jī)器學(xué)習(xí)給天體分類(lèi)已十分普遍
隨著下一代大規(guī)模測(cè)光巡天項(xiàng)目的開(kāi)展,人們期待發(fā)現(xiàn)數(shù)以萬(wàn)計(jì)的強(qiáng)引力透鏡系統(tǒng)。但如何在海量天體圖像中快速地找到強(qiáng)引力透鏡候選體?近年來(lái),人工智能的快速發(fā)展,給人類(lèi)提供了一種新的可能。
以2009年發(fā)射升空的世界首個(gè)用于探測(cè)太陽(yáng)系外類(lèi)地行星的飛行器開(kāi)普勒太空望遠(yuǎn)鏡為例,僅在起初3年半的任務(wù)期內(nèi),就監(jiān)控了超過(guò)15萬(wàn)個(gè)恒星系統(tǒng),同時(shí)也產(chǎn)生了海量數(shù)據(jù)。這些數(shù)據(jù)通常要經(jīng)由計(jì)算機(jī)處理,但當(dāng)計(jì)算機(jī)識(shí)別出一定的信號(hào)時(shí),又必須依靠人類(lèi)分析,判斷其是否是行星軌道所產(chǎn)生的,這項(xiàng)巨大的篩查工作單靠美國(guó)國(guó)家航空航天局(NASA)的科學(xué)家或科學(xué)小組,是無(wú)法有效完成的。
“如此大的數(shù)據(jù)量,人工分析在很多時(shí)候已經(jīng)達(dá)不到所需要的速度。借助人工智能的優(yōu)勢(shì),我們可以極大地提升對(duì)數(shù)據(jù)的分析速率。”龍潛向科技日?qǐng)?bào)記者介紹,人工智能展現(xiàn)出來(lái)的效率和準(zhǔn)確性遠(yuǎn)高于傳統(tǒng)方法。
龍潛研究員長(zhǎng)期從事人工智能深度學(xué)習(xí)方面的研究。近期,他與爾欣中教授團(tuán)隊(duì)合作,構(gòu)建并訓(xùn)練了一個(gè)卷積神經(jīng)網(wǎng)絡(luò),用來(lái)尋找強(qiáng)引力透鏡系統(tǒng)。他們把這個(gè)網(wǎng)絡(luò)應(yīng)用到歐洲南方天文臺(tái)2.6米巡天望遠(yuǎn)鏡(VST)千平方度巡天數(shù)據(jù),并找到了38個(gè)新的強(qiáng)引力透鏡候選體。此次構(gòu)建的神經(jīng)網(wǎng)絡(luò),也可應(yīng)用于其他大型望遠(yuǎn)鏡的巡天數(shù)據(jù)。
“在這項(xiàng)工作中,我們用計(jì)算機(jī)分別模擬了強(qiáng)引力透鏡圖像和非強(qiáng)引力透鏡圖像,從而來(lái)訓(xùn)練計(jì)算機(jī)。我們發(fā)現(xiàn),在準(zhǔn)備訓(xùn)練計(jì)算機(jī)的圖像時(shí),非強(qiáng)引力透鏡圖像比強(qiáng)引力透鏡更加重要。”爾欣中說(shuō),開(kāi)始的分析中,他們使用簡(jiǎn)單的規(guī)則星系圖像作為非強(qiáng)引力透鏡訓(xùn)練樣本,發(fā)現(xiàn)結(jié)果正確率非常低。只有把各種可能的非引力透鏡圖像都考慮進(jìn)來(lái)之后,才能得到比較好的結(jié)果。
“這就像在教電腦認(rèn)識(shí)什么是狗的時(shí)候,還要告訴它貓、羊、牛等都不是狗。而如果你只告訴它貓不是狗,電腦有非常大的概率把羊、牛認(rèn)成狗。”龍潛說(shuō),目前利用機(jī)器學(xué)習(xí)來(lái)對(duì)天文學(xué)中各種天體分類(lèi)已經(jīng)非常普遍,最簡(jiǎn)單的是把恒星和星系分開(kāi),或者把不同行態(tài)的星系進(jìn)行分類(lèi),以及利用星系的多重顏色來(lái)估計(jì)星系的距離等。
每秒可識(shí)別上萬(wàn)張照片 新型神經(jīng)網(wǎng)絡(luò)便于實(shí)時(shí)修改、訓(xùn)練和測(cè)試
人眼看強(qiáng)引力透鏡系統(tǒng)的圖像,最快就是每秒鐘看一張圖。而計(jì)算機(jī)每秒鐘可以識(shí)別成千上萬(wàn)張圖片。
龍潛研究員和爾欣中教授團(tuán)隊(duì)此番訓(xùn)練的這個(gè)卷積神經(jīng)網(wǎng)絡(luò),可以充分利用GPU進(jìn)行并行加速,通過(guò)裝備更多或更強(qiáng)的GPU,系統(tǒng)可以根據(jù)實(shí)際需要極大提升搜索速度和效率。
“這個(gè)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,主要使用模擬數(shù)據(jù),只使用了很少的人工標(biāo)注數(shù)據(jù),由于模擬數(shù)據(jù)可以任意生成,因此多樣性遠(yuǎn)大于人工標(biāo)注數(shù)據(jù),進(jìn)一步根據(jù)數(shù)據(jù)的特點(diǎn)調(diào)節(jié)訓(xùn)練參數(shù)和訓(xùn)練算法,使神經(jīng)網(wǎng)絡(luò)的泛化能力得到了極大的提高。”龍潛說(shuō),此外,研究人員使用新型科學(xué)計(jì)算語(yǔ)言Julia完全自定義網(wǎng)絡(luò)結(jié)構(gòu),由于Julia語(yǔ)言兼具速度和靈活性,使得神經(jīng)網(wǎng)絡(luò)在CPU和GPU上都有良好的性能,并且可以任意切換,因此非常有利于研究人員實(shí)時(shí)修改、訓(xùn)練和測(cè)試。
“我們還通過(guò)對(duì)引力透鏡數(shù)據(jù)的研究,定制了有針對(duì)性的小型網(wǎng)絡(luò),有效地抑制了過(guò)擬合現(xiàn)象,同時(shí)實(shí)驗(yàn)證明該網(wǎng)絡(luò)具有與大型網(wǎng)絡(luò)相似的準(zhǔn)確率。相比大型網(wǎng)絡(luò),小型網(wǎng)絡(luò)在普通計(jì)算機(jī)終端就可以訓(xùn)練和測(cè)試,不需要依賴(lài)大型GPU集群,這為天文工作者使用和改進(jìn)網(wǎng)絡(luò)提供了便利。”龍潛說(shuō)。
目前,隨著技術(shù)與裝備水平快速發(fā)展,人工智能在天文學(xué)上的應(yīng)用還會(huì)越來(lái)越多。“我們計(jì)劃對(duì)一些變?cè)吹亩嗖ǘ喂庾兦€(xiàn)來(lái)進(jìn)行機(jī)器的快速分類(lèi),這樣在實(shí)施大樣本巡天的時(shí)候,電腦可以自動(dòng)對(duì)所發(fā)現(xiàn)的變?cè)催M(jìn)行篩選,并對(duì)我們感興趣的天體做出提示,以便進(jìn)一步開(kāi)展后續(xù)研究工作。”爾欣中說(shuō),正因?yàn)槿斯ぶ悄艿膸椭煳难芯空叩靡詮暮臅r(shí)單調(diào)的數(shù)據(jù)篩查分析中解脫出來(lái),當(dāng)人力“大海撈針”難以招架之日,正是人工智能大顯身手之時(shí)。(趙漢斌 通訊員 陳艷)