隨著圖形處理單元(GPU)已成為訓(xùn)練和運行AI工作負(fù)載的關(guān)鍵設(shè)備,越來越多的云服務(wù)提供商現(xiàn)在推出云GPU實例——即配備GPU的云服務(wù)器。對于希望避免在自有硬件中部署GPU的高昂成本和復(fù)雜性的企業(yè)來說,這是個好消息。
然而,鑒于目前可用的GPU實例選擇眾多,確定哪一種最適合特定工作負(fù)載可能是個挑戰(zhàn)。為了提供指導(dǎo),本文將詳細(xì)介紹當(dāng)今云環(huán)境中可用的GPU實例類型以及各種選項的優(yōu)缺點。
什么是云GPU實例?
云GPU實例是配備GPU的云服務(wù)器。
企業(yè)可以像訪問任何其他類型的基于云的基礎(chǔ)設(shè)施即服務(wù)(IaaS)資源一樣"租用"云GPU實例:他們從云提供商那里選擇所需的實例,啟動它,然后遠(yuǎn)程連接到它。
云GPU實例允許組織訪問GPU——其大規(guī)模并行處理能力在訓(xùn)練和部署AI模型時非常有價值——而無需直接購買昂貴的GPU硬件或擔(dān)心設(shè)置和維護(hù)問題。
提供云GPU的平臺有時被稱為GPU即服務(wù)提供商——盡管從技術(shù)上講,并非所有GPU即服務(wù)產(chǎn)品都是云GPU實例,因為有些(如GPU-over-IP選項)僅提供對GPU的訪問,而不是配備GPU的完整云服務(wù)器。
云GPU實例類型
支持GPU的云服務(wù)器實例可以通過多種方式分類:
1. 超大規(guī)模云提供商與專業(yè)云提供商
GPU實例可從大型超大規(guī)模云提供商獲得,如亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)、微軟Azure和谷歌云平臺(GCP)。同時,越來越多專門從事GPU服務(wù)器的小型云供應(yīng)商,如Lambda Labs和CoreWeave,正在進(jìn)入市場。
2. 通用實例與專用實例
一些GPU云服務(wù)器配置為支持可從GPU受益的各種工作負(fù)載。其他則針對特定用例,如訓(xùn)練AI模型或在模型訓(xùn)練后運行模型。
通常,服務(wù)器類型之間的差異歸結(jié)為服務(wù)器內(nèi)GPU的類型,盡管其他資源(如服務(wù)器上可用的內(nèi)存量)也可能是一個因素。
3. 共享服務(wù)器與專用服務(wù)器
在某些情況下,支持GPU的云服務(wù)器與其他用戶共享。這意味著多家公司可以在同一服務(wù)器上運行工作負(fù)載。在其他情況下——通常標(biāo)記為"專用"或"裸機(jī)"GPU實例——每個客戶都可以獨占訪問服務(wù)器。后者解決方案通常更昂貴,但可以獲得更好的性能,因為多個工作負(fù)載不會競爭相同的資源。
如何選擇云GPU
要決定哪種云GPU服務(wù)器最適合您的需求,請考慮以下因素:
工作負(fù)載類型:如上所述,一些云GPU服務(wù)器針對特定類型的工作負(fù)載進(jìn)行了優(yōu)化,如果您需要運行這些類型的工作負(fù)載,這使它們很有吸引力。如果您需要支持多種類型的工作負(fù)載,請考慮通用云GPU。
GPU類型:一般來說,所有GPU型號都可以支持所有需要GPU的工作負(fù)載。區(qū)別在于它們的運行速度。也就是說,某些類型的工作負(fù)載可能需要僅在某些GPU上可用的硬件功能;如果是這種情況,請確保在承諾之前確定云服務(wù)器提供的GPU類型。
成本:云GPU的成本差異很大。如果您想最小化支出,請考慮針對成本優(yōu)化的GPU實例。如果性能是您的首要任務(wù),您可能會發(fā)現(xiàn)支付得越多,就越能訪問最強(qiáng)大的GPU。
延遲:延遲(即數(shù)據(jù)在網(wǎng)絡(luò)上移動的速度)對于一些受益于GPU的工作負(fù)載通常很重要,如服務(wù)AI模型(其中模型對用戶的響應(yīng)性取決于最小化GPU延遲)。對于其他工作負(fù)載,如模型訓(xùn)練(網(wǎng)絡(luò)延遲通常不是問題),延遲就不那么重要了。如果您需要最小化延遲,請選擇盡可能靠近用戶或?qū)⑴c之交互的資源的云GPU服務(wù)器。
控制:雖然所有云GPU服務(wù)器都提供對配備GPU的硬件的訪問,但用戶可用的控制級別有所不同。您通??梢詮膶I(yè)云GPU提供商提供的專用服務(wù)器實例獲得最多控制;超大規(guī)模云平臺上的共享GPU服務(wù)器通常成本較低,但在操作系統(tǒng)和網(wǎng)絡(luò)配置等領(lǐng)域不提供那么多選項。
在哪里找到云GPU
一旦您知道想要哪種類型的云GPU實例,您就需要找到提供它的云提供商。
一些GPU供應(yīng)商,如NVIDIA,提供可以將企業(yè)連接到多個提供支持GPU服務(wù)器的云提供商的中央門戶。當(dāng)然,問題是它們只鏈接到其生態(tài)系統(tǒng)內(nèi)的云合作伙伴和提供其硬件的合作伙伴。
如果您選擇不通過這些中心之一定位云GPU實例,您可以直接連接到云提供商。所有主要的超大規(guī)模云服務(wù)商——AWS、Azure、GCP、IBM和阿里巴巴——都提供支持GPU的服務(wù)器。您還可以從專門從事GPU的云中找到選項,如Lambda Labs、CoreWeave、RunPod、Vast.ai和Paperspace(現(xiàn)在是DigitalOcean的一部分)。