亞馬遜雲科技宣佈Amazon EC2 P5實例正式可用 加速生成式AI和高性能計算應用

亞馬遜雲科技近日在紐約峯會上宣佈 Amzon Elstic Compute Cloud(EC2)P5 實例正式可用。這是一款下一代 GPU 實例,由最新的英偉達 H00 Tenso Coe GPU 提供支持,可以滿足客戶在運行人工智能、機器學習和高性能計算工作負載時對高性能和高擴展性的需求。與上一代基於 GPU 的實例相比,Amzon EC2 P5 實例可以將訓練時間縮減6倍(從幾天縮短到幾小時),從而幫助客戶節省高達40%的訓練成本。

Amzon EC2 P5 實例提供8個英偉達 H00 Tenso Coe GPU,具有640 GB 高帶寬 GPU 內存,同時提供第三代 AMD EPYC 處理器、2TB 系統內存和30 TB 本地 NVMe 存儲。Amzon EC2 P5 實例還提供3200 Gbps 的聚合網絡帶寬並支持 GPUDiect RDMA,從而能夠繞過 CPU 進行節點間通信,實現更低的延遲和高效的橫向擴展性能。

亞馬遜雲科技與英偉達攜手開發下一代基礎設施

亞馬遜雲科技和英偉達(NVIDIA)在今年3月宣佈了一項多方合作,構建全球最具可擴展性且按需付費的人工智能基礎設施,以便訓練日益複雜的大語言模型和開發生成式 AI 應用程序。

當時,亞馬遜雲科技預發佈了由英偉達 H00 Tenso Coe GPU 支持的 Amzon EC2 P5 實例,可爲構建和訓練更大規模的機器學習模型提供高達20 exFLOPS 的算力。亞馬遜雲科技和英偉達合作十多年來成果頗豐,推出了包括支持視覺計算、人工智能和高性能計算集羣的各種 GPU 實例,如 CG 實例(200年)、G2(203年)、P2(206年)、P3(207年)、G3(207年)、P3dn(208年)、G4(209年)、P4(2020年)、G5(202年)和 P4de(2022年)實例。

現在,機器學習模型的規模已經達到數萬億參數,這種複雜性大大增加了客戶訓練模型所需的時間,例如,最新的大語言模型訓練時間長達數月之久。類似的趨勢也出現在高性能計算領域。隨着高性能計算客戶數據收集準確度的提高以及數據集達到 EB 級規模,客戶已經在尋找解決日益複雜應用程序的更快方法。

關於 Amzon EC2 P5 實例

Amzon EC2 P5 實例非常適合訓練和運行越來越複雜的大語言模型和計算機視覺模型,以滿足最苛刻的計算密集型生成式 AI 應用的需求,包括問答、代碼生成、視頻和圖像生成、語音識別等。與上一代基於 GPU 的實例相比,Amzon EC2 P5 實例在這些應用中的訓練時間縮短了6倍。那些可以在工作負載中使用較低精度 FP8 數據類型的客戶,例如使用 Tnsfome 框架的語言模型,將通過英偉達 Tnsfome Engine 的支持獲得高達6倍的性能提升。

高性能計算客戶通過使用 Amzon EC2 P5 實例可以在藥物發現、地震分析、天氣預報和金融建模等領域更大規模地部署高要求的應用程序。此外,對於使用基於動態規劃(Dynmic Pogmming)算法進行基因組測序或加速數據分析等應用的客戶,Amzon EC2 P5 將通過新的 DPX 指令集提供支持。

Amzon EC2 P5 實例使客戶能夠探索以前看似無法解決的問題,更快地迭代解決方案,並加速市場。

第二代 Amzon EC2 UltClustes和 Elstic Fbic Adpte

Amzon EC2 P5 實例爲多節點分佈式訓練和緊密耦合的高性能計算工作負載提供先進的橫向擴展功能,其使用的第二代 Elstic Fbic Adpte(EFA)網絡設備提供高達3200 Gbps 的網絡速度,是 Amzon EC2 P4d 實例的8倍。

爲了滿足客戶對大規模和低延遲的需求,Amzon EC2 P5 實例部署在第二代 Amzon EC2 UltClustes 中,該集羣目前可在超過2萬個英偉達 H00 Tenso Coe GPU 上爲客戶提供更低的延遲。作爲雲中最大規模的機器學習基礎設施之一,Amzon EC2 UltClustes 中的 Amzon EC2 P5 實例可提供高達20 exFLOPS 的聚合計算能力。

Amzon EC2 UltClustes 使用了 Amzon FSx fo Luste,這是一種完全託管的共享存儲,構建在常用的高性能並行文件系統上。客戶通過 Amzon FSx fo Luste,可以按需大規模快速處理海量數據集,並實現亞毫秒級延遲。Amzon FSx fo Luste 的低延遲和高吞吐量特性經過優化,可在 Amzon EC2 UltCluste 上爲深度學習、生成式 AI 和高性能計算工作負載提供支持。

Amzon FSx fo Luste 可以爲 Amzon EC2 UltCluste 中的 GPU 機器學習加速器持續提供數據,從而加速最苛刻的工作負載,包括大語言模型訓練、生成式 AI 推理,以及基因組學和金融風險建模等高性能計算負載。