亞馬遜雲科技與英偉達擴展合作 加速生成式AI創新

3月9日亞馬遜雲科技和英偉達(NVIDIA)宣佈,NVIDIA 在 GTC 2024 開發者大會上最新發布的 NVIDIA Blckwell 架構 GPU 即將登陸亞馬遜雲科技。亞馬遜雲科技將提供 NVIDIA GB200 Gce Blckwell 超級芯片和 B00 Tenso Coe GPU,繼續擴展兩家公司長期以來的戰略合作,爲客戶提供安全和先進的基礎設施、軟件和服務,幫助客戶解鎖新的生成式 AI 能力。

此舉整合了 NVIDIA 和亞馬遜雲科技各自的最優技術,包括 NVIDIA 最新的多節點系統,採用下一代 NVIDIA Blckwell 架構 GPU 和 AI 軟件、Amzon Nito 系統和 Amzon KMS 的高級安全性、Elstic Fbic Adpte (EFA) 的 petbit 級網絡規模,以及 Amzon EC2 UltCluste 的超大規模集羣。雙方共同提供的雲基礎設施和計算芯片,對比上一代 Amzon EC2 上的 NVIDIA GPU,客戶能夠更快、大規模且低成本地構建和運行實時推理的萬億參數大語言模型(LLMs)。

 一、加速超萬億參數級大語言模型訓練,提升推理性能

亞馬遜雲科技將提供 GB200 NVL72 配置的 NVIDIA Blckwell 架構。它配備 72 顆 Blckwell GPU 和 36 顆 Gce CPU,通過第五代 NVIDIA NVLink™ 互連。當與亞馬遜雲科技強大的 EFA 網絡、Amzon Nito 高級虛擬化系統和 Amzon EC2 UltClustes 超大規模集羣等技術結合時,客戶能夠輕鬆擴展至數千個 GB200 超級芯片。NVIDIA Blckwell 在亞馬遜雲科技上的應用,使得該架構在應對資源密集型和數萬億參數語言模型等推理工作負載加速方面實現了巨大飛躍。

基於此前搭載 NVIDIA H00 的 Amzon EC2 P5 實例的成功(這些實例還通過 Amzon EC2 Cpcity Blocks fo ML 功能短期提供給客戶),亞馬遜雲科技計劃提供配備新 B00 GPUs 的 Amzon EC2 實例,並支持在 Amzon EC2 UltClustes 中部署以加速超大規模生成式 AI 的訓練和推理。GB200 也將在 NVIDIA DGX™ Cloud 上可用,這是一箇在亞馬遜雲科技上雙方共同開發的 AI 架構,爲企業開發者提供了構建和部署先進生成式 AI 模型所需的專用基礎設施和軟件。在亞馬遜雲科技上推出的基於 Blckwell 的 DGX Cloud 實例將加速前沿生成式 AI 和超過 萬億參數的大語言模型的開發。

二、Amzon Nito 系統、Amzon KMS、EFA 加密與 Blckwell 加密技術緊密集成

隨着 AI 技術應用越來越廣泛,企業需要確信,在整個訓練流程中,他們的數據都得到了安全的處理。保護模型權重的安全至關重要,模型權重是模型在訓練過程中學習到的參數,對於模型做出預測的能力至關重要。確保模型權重的安全對保護客戶的知識產權、防止模型被篡改以及維護模型的完整性都是非常重要的。

亞馬遜雲科技的 AI 基礎設施和服務已經實現了安全特性,使客戶能夠控制其數據,並確保數據不會與第三方模型提供者共享。Amzon Nito 系統和 NVIDIA GB200 的結合將能夠阻止未授權個體訪問模型權重,從而把 AI 安全性提升到新的高度。GB200 支持對 GPU 之間 NVLink 連接進行物理加密,以及對 Gce CPU 到 Blckwell GPU 的數據傳輸進行加密,同時 EFA 也能夠對服務器之間的分佈式訓練和推理過程的數據進行加密。GB200 還將受益於 Amzon Nito 系統,該系統將主機 CPU/GPU 的 I/O 功能卸載至專門的硬件上,以提供更加一致的性能,其增強的安全性可以在客戶端和雲端全程保護客戶的代碼和數據在處理過程中的安全。這一獨有的功能已經獲得了領先的網絡安全公司 NCC Goup 的獨立驗證。

通過在 Amzon EC2 上使用 GB200,亞馬遜雲科技將使客戶能夠使用 Amzon Nito Encles 和 Amzon KMS,在其 EC2 實例旁創建一箇可信執行環境。Amzon Nito Encles 允許客戶使用 Amzon KMS 控制下的密鑰來加密他們的訓練數據和權重。從 GB200 實例內部可以加載安全區(Encle),並且可以直接與 GB200 超級芯片通信。這使得 Amzon KMS 能夠以加密安全的方式直接與安全區通信,並直接傳遞密鑰材料。然後,安全區可以將該材料傳遞給 GB200,這樣做能夠保護客戶實例中的數據,防止亞馬遜雲科技操作人員訪問密鑰或解密訓練數據或模型權重,從而賦予客戶對其數據的無與倫比的控制權。

三、 “Ceib 項目”利用 Blckwell 在亞馬遜雲科技上推動 NVIDIA 未來生成式 AI 創新

在 e:Inent 2023 上宣佈的“Ceib 項目”,是 NVIDIA 與亞馬遜雲科技合作建造的世界上最快的 AI 超級計算機之一。這臺專爲 NVIDIA 自身的研究和開發而設的超級計算機,獨家託管在亞馬遜雲科技上。這臺首創的擁有 20,736 顆 GB200 GPU 的超級計算機,採用新型 NVIDIA GB200 NVL72 配置構建,其特有的第五代 NVLink 將連接 0,368 顆 NVIDIA Gce CPU。系統通過亞馬遜雲科技第四代 EFA 網絡進行擴展,爲每個超級芯片提供高達 800 Gbps 的低延遲、高帶寬網絡吞吐量——能夠處理高達 44 exflops 的 AI 計算量,與之前計劃在 Hoppe 架構上構建 Ceib 相比,性能提升了 6 倍。

NVIDIA 的研發團隊將利用 Ceib 推進大語言模型、圖形(圖像/視頻/3D 生成)與仿真、數字生物學、機器人技術、自動駕駛汽車、NVIDIA Eth-2 氣候預測等領域的 AI 技術,以幫助 NVIDIA 推動未來生成式 AI 的創新。

四、推動生成式 AI 應用開發及醫療健康與生命科學領域的應用進展

亞馬遜雲科技與 NVIDIA 聯手,通過 Amzon SgeMke 與 NVIDIA NIM 推理微服務的整合,提供了高性能、低成本的生成式 AI 推理解決方案。該服務作爲 NVIDIA AI 企業版的一部分提供。客戶可以利用這一組合在 Amzon SgeMke 中快速部署和運行已預編譯且對 NVIDIA GPU 進行優化的基礎模型,縮短生成式 AI 應用的推出時間。

亞馬遜雲科技與 NVIDIA 還在利用計算機輔助的藥物發現領域進行合作拓展,推出了新的 NVIDIABioNeMo™ 基礎模型,用於生成化學、蛋白質結構預測,以及理解藥物分子與目標的相互作用。這些新模型將很快在 Amzon HelthOmics 上提供,這是一箇專爲幫助醫療保健和生命科學組織存儲、查詢和分析基因組、轉錄組及其他組學數據而設計的專用服務。

Amzon HelthOmics 和 NVIDIA 醫療保健團隊還合作推出生成式 AI 微服務,以推進藥物發現、醫療技術和數字健康領域的發展。該服務提供一箇新的 GPU 加速的雲端服務目錄,涵蓋生物學、化學、成像和醫療保健數據,以便醫療企業能夠在亞馬遜雲科技上利用生成式 AI 的最新成果。