來源標(biāo)題:AI發(fā)展不能只靠“力大磚飛”
在航空領(lǐng)域,有個說法叫“力大磚飛”,往往用來形容某種戰(zhàn)斗機氣動外形設(shè)計一般,依靠強大的發(fā)動機推力獲得較好的飛行性能。
近日,馬斯克旗下人工智能企業(yè)xAI推出Grok3系列大模型,稱其在數(shù)學(xué)、科學(xué)和編碼等領(lǐng)域擊敗了OpenAI的GPT-4o,以及深度探索公司的DeepSeekV3等“前輩”。馬斯克稱Grok3為“地球上最聰明的AI”。Grok3在訓(xùn)練中使用了20萬張高性能GPU,遠超GPT-4的2.5萬張和DeepSeek的2048張。有報道稱,Grok3使用的算力是GPT-4的20倍、DeepSeek的263倍。
難道說,AI的發(fā)展趨勢將要呈現(xiàn)為“算力大”而“模型飛”嗎?
毫無疑問,算力是推動AI發(fā)展最關(guān)鍵的推動力之一。DeepSeek通過創(chuàng)新算法大幅節(jié)約算力令人驚艷,但算力的重要性不應(yīng)因此被貶低。2月初,美國蘭德智庫在評論中寫道,如果DeepSeek可以使用更多的芯片,它就可以訓(xùn)練出更強大的AI模型,更早地做出某些發(fā)現(xiàn)。
Grok3使用了更復(fù)雜的推理模型,訓(xùn)練時長達到2億GPU小時,但訓(xùn)練卻只用了8個月,主要歸功于其前所未有的算力支撐。更強的算力既能夠滿足更復(fù)雜模型、更大量數(shù)據(jù)的訓(xùn)練需求,又可以加快計算速度、縮短訓(xùn)練時間,促進AI模型的快速迭代和進步。
但是,AI的發(fā)展也不應(yīng)完全依靠算力,單純走“力大磚飛”的技術(shù)路線。
對Grok3的一些對比測試發(fā)現(xiàn),算力優(yōu)勢似乎沒有帶來碾壓式的性能優(yōu)勢。2月19日,號稱“印度最大的數(shù)據(jù)科學(xué)社區(qū)”的AnalyticsVidhya發(fā)表文章稱,對比使用Grok3和DeepSeek-R1處理Python代碼編程等五個特定問題時發(fā)現(xiàn),DeepSeek-R1對四個問題的回答優(yōu)于Grok3。無獨有偶,專門研究ChatGPT等AI工具使用技巧、網(wǎng)名“AlexPrompter”的X用戶也使用Grok3、DeepSeek-R1和ChatGPTo3-mini處理五個特定問題,結(jié)果Grok3僅在兩個問題中獲勝。
更值得關(guān)注的是,算力在推動AI進步的同時,支撐算力的芯片產(chǎn)能和維持算力的能源消耗也開始遇到壁壘。AI發(fā)展趨勢研究機構(gòu)EpochAI統(tǒng)計發(fā)現(xiàn),2019年至今,用于AI模型訓(xùn)練的算力約每6個月翻一番,每年增長4—5倍,而同期英偉達出貨的GPU芯片計算能力10個月才能翻一番。今年1月,蘭德智庫預(yù)測,到2028年,單個數(shù)據(jù)中心AI訓(xùn)練耗電量可能達到1吉瓦,需要一座核電站供電;到2030年,則需要8座核電站。芯片產(chǎn)能和電力需求正在成為制約算力提升的瓶頸問題。
AI發(fā)展的歷史也表明,即使在算力蓬勃發(fā)展的近10年,算法的貢獻也功不可沒。EpochAI和MITFutureTech的聯(lián)合研究認為,從2014年到2023年,在對AI性能提升的貢獻中,算力約占65%、算法占35%,這還是DeepSeek發(fā)布前的結(jié)果。研究還發(fā)現(xiàn),算法的改進通常具有不可預(yù)測性和間歇性,有可能長期研究沒有結(jié)果,也有可能一個靈感帶來AI性能的大幅提升。
去年8月,EpochAI發(fā)表報告指出,在芯片、電力等制約下,到2030年,美國的AI模型算力仍有潛力提升10000倍,但需要數(shù)千億美元的投入。巧合的是,特朗普上臺伊始就宣布了“星際之門”計劃,投資5000億美元建設(shè)人工智能基礎(chǔ)設(shè)施。
因此,在一段時間內(nèi),算力堆砌不會停止,也很可能仍是AI發(fā)展的重要引擎,絕不能忽視。但是,DeepSeek的橫空出世也足以告訴人們,在AI算法領(lǐng)域,同樣需要加強投入,而且要堅持不懈地摸索,哪怕經(jīng)歷漫長的沉默。