配4608顆H100 GPU!NVIDIA首度公開AI超級電腦Eos

2024.02.27

  NVIDIA 發布了一段影片,首次公開展示其最新的資料中心規模超級電腦 Eos。輝達指出,Eos 是由 576 個 NVIDIA DGX H100系統、NVIDIA Quantum-2 InfiniBand網路和軟體構建而成,提供總共 18.4 exaflops 的 FP8 AI 效能。
 
  其中,每個 DGX H100 系統均配備 8 個 NVIDIA H100 Tensor核心GPU,也就是說,Eos 共搭載了 4608 個 H100 GPU,造價不菲。在效能上,Eos 在全球最快超級電腦 TOP500 排行榜中排名第 9。Eos 是超大型 NVIDIA DGX SuperPOD,開發人員利用加速運算基礎架構和全面最佳化的軟體來實現 AI 突破,Eos 可以處理最大的AI工作負載,以訓練大型語言模型、推薦系統、量子模擬等。
 
  Eos 在2023 年11月的Supercomputing 2023大會(SC23)上亮相,以希臘女神Eos命名,傳說中她每天打開黎明的大門,凸顯NVIDIA對推進AI技術的承諾。人們正在利用生成式AI改變世界,從藥物探索到聊天機器人,再到自主機器等等。為了實現這些突破,需要的不僅僅是AI專業知識和開發技能,還需要一個AI工廠,一個隨時可用的專用AI引擎,而Eos展示了 NVIDIA 技術在大規模應用時的能力,有望加速實現能為每個組織提供動力的AI驅動應用進程。
 
  Eos 效能在全球最快超級電腦 TOP500 排行榜中排名第 9,突破了AI技術和基礎設施的極限。它包含了NVIDIA先進的加速運算和網路技術,以及諸如NVIDIA Base Command和NVIDIA AI Enterprise等先進的軟體產品。
 
  Eos 的架構針對需要跨越大型加速運算節點叢集實現超低延遲和高吞吐量互連的AI工作負載進行了最佳化,使其成為尋求擴展AI功能企業的理想解決方案。Eos 的核心是由 NVIDIA DGX H100 系統所驅動的突破性 DGX SuperPOD 架構。該架構旨在為AI和運算領域提供緊密整合、能夠進行龐大規模運算的全端系統。
 
  基於採用網路內運算(In-Network Computing)技術的NVIDIA Quantum-2 InfiniBand,其網路架構支持高達400Gb/s的資料傳輸速度,有助於快速移動訓練複雜AI模型所需的大型資料集。