身為英偉達(dá)公司CTO,Kagan解釋了AI計(jì)算需求如何推動(dòng)半導(dǎo)體技術(shù)突破摩爾定律的邊界。
英偉達(dá)正積極擁抱一種新的計(jì)算范式,利用大規(guī)模并行計(jì)算機(jī)系統(tǒng)為新一代應(yīng)用程序提供服務(wù)。而這場(chǎng)變化的開(kāi)端,主要始于以色列。
英偉達(dá)公司CTO Michael Kagan指出,“雖然計(jì)算元件隨著發(fā)展而尺寸愈小,但21世紀(jì)的計(jì)算設(shè)備本體卻向著大小兩極延伸——小至智能手表、大至超大規(guī)模數(shù)據(jù)中心。”
“數(shù)據(jù)中心本身就相當(dāng)于一臺(tái)計(jì)算機(jī),而英偉達(dá)正在建立數(shù)據(jù)中心架構(gòu)。我們正在打造幾乎一切的必要元素,包括調(diào)整芯片、框架乃至應(yīng)用程序,以便讓這臺(tái)21世紀(jì)機(jī)器上的一切都高效執(zhí)行?!?
Kagan居住在以色列海法區(qū),三年前經(jīng)由Mellanox Technologies收購(gòu)案正式加入英偉達(dá),目前擔(dān)任公司CTO。英偉達(dá)創(chuàng)始人兼CEO黃仁勛對(duì)Kagan寄予厚望,任命他督導(dǎo)一切系統(tǒng)架構(gòu)事宜。
超越摩爾定律著名的摩爾定律,源自戈登·摩爾 (Gordon Moore) 1965 年撰寫(xiě)的一篇論文《在集成電路上塞入更多元件》。這位后來(lái)?yè)?dān)任英特爾CEO的技術(shù)先驅(qū)在文中預(yù)測(cè),隨著技術(shù)與經(jīng)濟(jì)的雙重驅(qū)動(dòng),未來(lái)半導(dǎo)體行業(yè)每年都將在同樣大小的空間內(nèi)將晶體管的布置數(shù)量翻倍,而且這種情況將持續(xù)10年。
他的觀察和總結(jié)后來(lái)被稱為摩爾定律,且10年后稍做修改就繼續(xù)適用。1975年,摩爾表示發(fā)展的速度將變成約每?jī)赡攴环?。他還提到,在可預(yù)見(jiàn)的未來(lái),這樣的情況將一直持續(xù)下去。直到2005年左右,芯片制造商都始終保持著這樣的發(fā)展速度,但之后情況開(kāi)始變化——無(wú)論是在經(jīng)濟(jì)還是在物理特性上,各晶體管元件間的距離已經(jīng)太小,每過(guò)兩年將相同空間內(nèi)的晶體管數(shù)量增加一倍將難以實(shí)現(xiàn)。
為此,芯片制造商想出了各種辦法來(lái)提高算力水平。其一就是增加核心數(shù)量,另一種則是用網(wǎng)絡(luò)替代容易引發(fā)性能瓶頸的共享總線,將不同組件間直接互連以改善多芯片/處理器和內(nèi)存之間的通信能力。
半導(dǎo)體制造商還發(fā)明了其他提升計(jì)算能力的新方法,包括研究算法、加速器和新的數(shù)據(jù)處理方式。加速器是一類(lèi)專(zhuān)用組件(通常采取芯片形式),能夠以極快速度執(zhí)行特定任務(wù)。一旦系統(tǒng)遇到此類(lèi)任務(wù),就會(huì)將其交由加速器處理,從而實(shí)現(xiàn)整體性能提升。
廠商們還特別關(guān)注人工智能(AI)。與計(jì)算機(jī)行業(yè)慣用的馮·諾依曼架構(gòu)相比,AI用例中的數(shù)據(jù)處理方式可謂截然不同。
Kagan解釋稱,“AI基于神經(jīng)網(wǎng)絡(luò),這是一種與馮·諾依曼架構(gòu)大相徑庭的數(shù)據(jù)處理方式。馮·諾依曼架構(gòu)的本質(zhì),是一種執(zhí)行指令、查看結(jié)果、再?zèng)Q定下一步做什么的串行機(jī)器。”
“而處理數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型則受到人腦研究的啟發(fā)。向神經(jīng)網(wǎng)絡(luò)提供數(shù)據(jù),它就會(huì)從中學(xué)習(xí)。其工作原理類(lèi)似于向三歲的小孩展示狗和貓,最終讓對(duì)方學(xué)會(huì)區(qū)分這兩者。在神經(jīng)網(wǎng)絡(luò)的幫助下,我們得以解決眾多以往在馮·諾依曼架構(gòu)上不知該如何處理的問(wèn)題?!?
AI與數(shù)字孿生等新型應(yīng)用也加快了對(duì)于計(jì)算性能的需求,新需求自然需要搭配新的范式。以往,軟件開(kāi)發(fā)只需要很少算力,主要算力需求都集中在程序的運(yùn)行過(guò)程上。相比之下,AI則需要大量算力來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),但訓(xùn)練完成之后的運(yùn)行成本卻要低得多。
單個(gè)GPU或CPU都不足以訓(xùn)練大型AI模型。例如,ChatGPT的訓(xùn)練就需要使用約1萬(wàn)個(gè)GPU。所有GPU并行工作,彼此之間也自然需要相互通信。除了大規(guī)模并行處理之外,新的計(jì)算范式還要求使用新型專(zhuān)用芯片,名為數(shù)據(jù)處理單元(DPU)。
黃氏定律Kagan談到,“2003年時(shí),世界上最快的計(jì)算機(jī)器是Earth-Simulator地球模擬器,性能為每秒萬(wàn)億次浮點(diǎn)運(yùn)算。而當(dāng)今最快的計(jì)算機(jī)是Frontier,運(yùn)算速度已經(jīng)達(dá)成百億億級(jí)別,是當(dāng)初的100萬(wàn)倍。是的,20年間從萬(wàn)億級(jí)提升到了百億億級(jí)?!?
他補(bǔ)充道,“在1983年至2003年這20年間,計(jì)算性能則提高了數(shù)千倍。從數(shù)千倍到數(shù)百萬(wàn)倍,這種計(jì)算性能的飛躍就是很多人說(shuō)的「黃氏定律」。即我們英偉達(dá)CEO黃仁勛觀察到的,GPU加速計(jì)算性能每隔一年就會(huì)翻一番?!?
“事實(shí)上,算力的增長(zhǎng)速度還不止每年倍增?,F(xiàn)在我們討論的是AI工作負(fù)載和數(shù)據(jù)處理的新方法。如果把目光轉(zhuǎn)向這一代英偉達(dá)Hopper GPU上運(yùn)行的應(yīng)用程序,就會(huì)發(fā)現(xiàn)與上代Ampere相比,速度的增幅超過(guò)了20倍?!?
Kagan表示,這種計(jì)算速度的提升主要源自算法和加速器的雙重加持:“每推出新一代GPU,都會(huì)添加更多、更強(qiáng)的加速器,以及更復(fù)雜的數(shù)據(jù)處理方式?!?
“新設(shè)計(jì)完全取決于如何在不同部件之間劃分功能。現(xiàn)在我們面對(duì)三大計(jì)算要素——GPU、CPU和DPU,外加連通彼此的網(wǎng)絡(luò)。是的,網(wǎng)絡(luò)本身也執(zhí)行一部分計(jì)算。在英偉達(dá)收購(gòu)的Mellanox公司,我們引入了網(wǎng)絡(luò)內(nèi)計(jì)算技術(shù),能夠在數(shù)據(jù)流經(jīng)網(wǎng)絡(luò)時(shí)執(zhí)行一部分計(jì)算?!?
從當(dāng)初每?jī)赡曜尵w管數(shù)量倍增、從而令計(jì)算性能翻一番的摩爾定律,到如今依靠GPU加速計(jì)算實(shí)現(xiàn)每年翻番的黃氏定律,半導(dǎo)體行業(yè)仍在不斷突破新的極限。但目前來(lái)看,即使是黃氏定律恐怕也跟不上AI應(yīng)用不斷增長(zhǎng)的需求。畢竟AI應(yīng)用已經(jīng)給出了明確的性能需求:每年算力提升10倍!