請輸入網(wǎng)站標題

取消

清空記錄

歷史記錄

清空記錄

歷史記錄

清空記錄

歷史記錄

當前位置：

產品詳情

NVIDIA A100 Tensor Core GPU

nVidia A100 Tensor Core GPU

NVIDIA A100 采用雙精度 Tensor Core，實現(xiàn)了自 GPU 推出以來高性能計算性能的巨大飛躍。結合 80GB 的超快 GPU 顯存，研究人員可以在 A100 上將 10 小時雙精度仿真縮短到 4 小時以內。HPC 應用還可以利用 TF32 將單精度、密集矩陣乘法運算的吞吐量提高高達 10 倍。

18929376664

產品詳情

加速當今時代的重要工作

NVIDIA A100 Tensor Core GPU 可針對 AI、數(shù)據(jù)分析和 HPC 應用場景，在不同規(guī)模下實現(xiàn)出色的加速，有效助力更高性能的彈性數(shù)據(jù)中心。A100 采用 NVIDIA Ampere 架構，是 NVIDIA 數(shù)據(jù)中心平臺的引擎。A100 的性能比上一代產品提升高達 20 倍，并可劃分為七個 GPU 實例，以根據(jù)變化的需求進行動態(tài)調整。A100 提供 40GB 和 80GB 顯存兩種版本，A100 80GB 將 GPU 顯存增加了一倍，并提供超快速的顯存帶寬（每秒超過 2 萬億字節(jié) [TB/s]），可處理超大型模型和數(shù)據(jù)集。

深度學習訓練

針對大型模型提供高達 3 倍的 AI 訓練速度

DLRM 訓練

DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.

當今的 AI 模型面臨著對話式 AI 等更高層次的挑戰(zhàn)，這促使其復雜度呈爆炸式增長。訓練這些模型需要大規(guī)模的計算能力和可擴展性。

NVIDIA A100 Tensor Core 借助 Tensor 浮點運算 (TF32) 精度，可提供比 NVIDIA Volta 高 20 倍之多的性能，并且無需更改代碼；若使用自動混合精度和 FP16，性能可進一步提升 2 倍。與 NVIDIA? NVLink?、NVIDIA NVSwitch?、PCIe 4.0、NVIDIA? InfiniBand? 和 NVIDIA Magnum IO? SDK 結合使用時，它能擴展到數(shù)千個 A100 GPU。

2048 個 A100 GPU 可在一分鐘內成規(guī)模地處理 BERT 之類的訓練工作負載，這是非常快速的解決問題速度。

對于具有龐大數(shù)據(jù)表的超大型模型（例如深度學習推薦模型 [DLRM]），A100 80GB 可為每個節(jié)點提供高達 1.3TB 的統(tǒng)一顯存，而且吞吐量比 A100 40GB 多高達 3 倍。

NVIDIA 的領先地位在 MLPerf 這個行業(yè)級 AI 訓練基準測試中得到印證，創(chuàng)下多項性能紀錄。

詳細了解 A100 的訓練性能

深度學習推理

A100 引入了突破性的功能來優(yōu)化推理工作負載。它能在從 FP32 到 INT4 的整個精度范圍內進行加速。多實例 GPU (MIG) 技術允許多個網(wǎng)絡同時基于單個 A100 運行，從而優(yōu)化計算資源的利用率。在 A100 其他推理性能增益的基礎之上，僅結構稀疏支持一項就能帶來高達兩倍的性能提升。

在 BERT 等先進的對話式 AI 模型上，A100 可將推理吞吐量提升到高達 CPU 的 249 倍。

在受到批量大小限制的極復雜模型（例如用于自動語音識別用途的 RNN-T）上，顯存容量有所增加的 A100 80GB 能使每個 MIG 的大小增加一倍，并提供比 A100 40GB 高 1.25 倍的吞吐量。

NVIDIA 產品的出色性能在 MLPerf 推理測試中得到驗證。A100 再將性能提升了 20 倍，進一步擴大了這種性能優(yōu)勢。

詳細了解 A100 的推理性能

與 CPU 相比，AI 推理性能提升
高達 249 倍

BERT-LARGE 推理

BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100：采用稀疏技術的 NVIDIA TensorRT? (TRT) 7.2, precision = INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8。

與 A100 40GB 相比，AI 推理性能提升
1.25 倍

RNN-T 推理：單流

MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16。

高性能計算

為了獲得新一代的發(fā)現(xiàn)成果，科學家們希望通過仿真來更好地了解我們周圍的世界。

NVIDIA A100 采用雙精度 Tensor Core，實現(xiàn)了自 GPU 推出以來高性能計算性能的巨大飛躍。結合 80GB 的超快 GPU 顯存，研究人員可以在 A100 上將 10 小時雙精度仿真縮短到 4 小時以內。HPC 應用還可以利用 TF32 將單精度、密集矩陣乘法運算的吞吐量提高高達 10 倍。

對于具有超大數(shù)據(jù)集的高性能計算應用，顯存容量增加的 A100 80GB 可在運行材料仿真 Quantum Espresso 時將吞吐量提升高達 2 倍。極大的顯存容量和超快速的顯存帶寬使 A100 80GB 非常適合用作新一代工作負載的平臺。

四年來 HPC 性能提升 11 倍

HPC 應用的性能提升高達 1.8 倍

Quantum Espresso

Quantum Espresso measured using CNT10POR8 dataset, precision = FP64。

高性能數(shù)據(jù)分析

相較于 A100 40GB，在大數(shù)據(jù)分析基準測試中速度提升 2 倍

大數(shù)據(jù)分析基準測試 | 針對 10TB 數(shù)據(jù)集的 30 次分析零售查詢、ETL、ML、NLP | V100 32GB，RAPIDS/Dask | A100 40GB 和 A100 80GB，RAPIDS/Dask/BlazingSQL

數(shù)據(jù)科學家需要能夠分析和可視化龐大的數(shù)據(jù)集，并將其轉化為寶貴見解。但是，由于數(shù)據(jù)集分散在多臺服務器上，橫向擴展解決方案往往會陷入困境。

搭載 A100 的加速服務器可以提供必要的計算能力，并能利用大容量顯存、超過 2 TB/s 的顯存帶寬以及通過 NVIDIA? NVLink? 和 NVSwitch? 實現(xiàn)的可擴展性，處理這些工作負載。通過結合 InfiniBand、NVIDIA Magnum IO? 和 RAPIDS? 開源庫套件（包括用于執(zhí)行 GPU 加速的數(shù)據(jù)分析的 RAPIDS Accelerator for Apache Spark），NVIDIA 數(shù)據(jù)中心平臺能夠加速這些大型工作負載，并實現(xiàn)超高的性能和效率水平。

在大數(shù)據(jù)分析基準測試中，A100 80GB 提供的見解吞吐量比 A100 40GB 高兩倍，因此非常適合處理數(shù)據(jù)集大小急增的新型工作負載。

詳細了解數(shù)據(jù)分析

為企業(yè)提高資源利用率

借助多實例 GPU (MIG)，推理吞吐量可提升高達 7 倍

BERT Large 推理

BERT Large 推理 | 采用稀疏技術的 NVIDIA TensorRT? (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8。

A100 結合 MIG 技術可以更大限度地提高 GPU 加速的基礎設施的利用率。借助 MIG，A100 GPU 可劃分為多達 7 個獨立實例，讓多個用戶都能使用 GPU 加速功能。借助 A100 40GB，每個 MIG 實例可分配多達 5GB，而隨著 A100 80GB 顯存容量的增加，此大小可翻倍至 10GB。

MIG 與 Kubernetes、容器和基于服務器虛擬化平臺的服務器虛擬化配合使用。MIG 可讓基礎設施管理者為每項作業(yè)提供大小合適的 GPU，同時確保服務質量 (QoS)，從而擴大加速計算資源的影響范圍，以覆蓋每位用戶。

詳細了解 MIG

數(shù)據(jù)中心 GPU

適用于 HGX 的 NVIDIA A100

性能出色，輕松處理各種工作負載。

PCIe 版 NVIDIA A100

十分適合處理各種工作負載。

規(guī)格

	A100 80GB PCIe	A100 80GB SXM
FP64	9.7 TFLOPS
FP64 Tensor Core	19.5 TFLOPS
FP32	19.5 TFLOPS
Tensor Float 32 (TF32)	156 TFLOPS \| 312 TFLOPS*
BFLOAT16 Tensor Core	312 TFLOPS \| 624 TFLOPS*
FP16 Tensor Core	312 TFLOPS \| 624 TFLOPS*
INT8 Tensor Core	624 TOPS \| 1248 TOPS*
GPU 顯存	80GB HBM2	80GB HBM2e
GPU 顯存帶寬	1935 GB/s	2039 GB/s
最大熱設計功耗 (TDP)	300W	400W ***
多實例 GPU	最大為 7 MIG @ 5GB	最大為 7 MIG @ 10GB
外形規(guī)格	PCIe 雙插槽風冷式或單插槽液冷式	SXM
互連	NVIDIA? NVLink? 橋接器 2 塊 GPU：600 GB/s ** PCIe 4.0：64 GB/s	NVLink：600 GB/s PCIe 4.0：64 GB/s
服務器選項	合作伙伴及配備 1 至 8 個 GPU 的 NVIDIA 認證系統(tǒng)?	NVIDIA HGX? A100 合作伙伴和配備 4、8 或 16 塊 GPU 的 NVIDIA 認證系統(tǒng) 配備 8 塊 GPU 的 NVIDIA DGX? A100

* 采用稀疏技術
** SXM4 GPU 通過 HGX A100 服務器主板連接；PCIe GPU 通過 NVLink 橋接器可橋接多達兩個 GPU
*** 400W TDP（適用于標準配置）。HGX A100-80 GB 自定義散熱解決方案 (CTS) SKU 可支持高達 500W 的 TDP

NVIDIA A100 Tensor Core GPU

18929376664

上一個

AIC-9311 (Jetson XAVIER NX)

下一個

ARK-2400

產品詳情

加速當今時代的重要工作

深度學習訓練

針對大型模型提供高達 3 倍的 AI 訓練速度

DLRM 訓練

DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.

當今的 AI 模型面臨著對話式 AI 等更高層次的挑戰(zhàn)，這促使其復雜度呈爆炸式增長。訓練這些模型需要大規(guī)模的計算能力和可擴展性。

2048 個 A100 GPU 可在一分鐘內成規(guī)模地處理 BERT 之類的訓練工作負載，這是非?？焖俚慕鉀Q問題速度。

NVIDIA 的領先地位在 MLPerf 這個行業(yè)級 AI 訓練基準測試中得到印證，創(chuàng)下多項性能紀錄。

詳細了解 A100 的訓練性能

深度學習推理

在 BERT 等先進的對話式 AI 模型上，A100 可將推理吞吐量提升到高達 CPU 的 249 倍。

NVIDIA 產品的出色性能在 MLPerf 推理測試中得到驗證。A100 再將性能提升了 20 倍，進一步擴大了這種性能優(yōu)勢。

詳細了解 A100 的推理性能

與 CPU 相比，AI 推理性能提升
高達 249 倍

BERT-LARGE 推理

與 A100 40GB 相比，AI 推理性能提升
1.25 倍

RNN-T 推理：單流

MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16。

高性能計算

為了獲得新一代的發(fā)現(xiàn)成果，科學家們希望通過仿真來更好地了解我們周圍的世界。

四年來 HPC 性能提升 11 倍

HPC 應用的性能提升高達 1.8 倍

Quantum Espresso

Quantum Espresso measured using CNT10POR8 dataset, precision = FP64。

高性能數(shù)據(jù)分析

相較于 A100 40GB，在大數(shù)據(jù)分析基準測試中速度提升 2 倍

大數(shù)據(jù)分析基準測試 | 針對 10TB 數(shù)據(jù)集的 30 次分析零售查詢、ETL、ML、NLP | V100 32GB，RAPIDS/Dask | A100 40GB 和 A100 80GB，RAPIDS/Dask/BlazingSQL

在大數(shù)據(jù)分析基準測試中，A100 80GB 提供的見解吞吐量比 A100 40GB 高兩倍，因此非常適合處理數(shù)據(jù)集大小急增的新型工作負載。

詳細了解數(shù)據(jù)分析

為企業(yè)提高資源利用率

借助多實例 GPU (MIG)，推理吞吐量可提升高達 7 倍

BERT Large 推理

詳細了解 MIG

數(shù)據(jù)中心 GPU

適用于 HGX 的 NVIDIA A100

性能出色，輕松處理各種工作負載。

PCIe 版 NVIDIA A100

十分適合處理各種工作負載。

規(guī)格

	A100 80GB PCIe	A100 80GB SXM
FP64	9.7 TFLOPS
FP64 Tensor Core	19.5 TFLOPS
FP32	19.5 TFLOPS
Tensor Float 32 (TF32)	156 TFLOPS \| 312 TFLOPS*
BFLOAT16 Tensor Core	312 TFLOPS \| 624 TFLOPS*
FP16 Tensor Core	312 TFLOPS \| 624 TFLOPS*
INT8 Tensor Core	624 TOPS \| 1248 TOPS*
GPU 顯存	80GB HBM2	80GB HBM2e
GPU 顯存帶寬	1935 GB/s	2039 GB/s
最大熱設計功耗 (TDP)	300W	400W ***
多實例 GPU	最大為 7 MIG @ 5GB	最大為 7 MIG @ 10GB
外形規(guī)格	PCIe 雙插槽風冷式或單插槽液冷式	SXM
互連	NVIDIA? NVLink? 橋接器 2 塊 GPU：600 GB/s ** PCIe 4.0：64 GB/s	NVLink：600 GB/s PCIe 4.0：64 GB/s
服務器選項	合作伙伴及配備 1 至 8 個 GPU 的 NVIDIA 認證系統(tǒng)?	NVIDIA HGX? A100 合作伙伴和配備 4、8 或 16 塊 GPU 的 NVIDIA 認證系統(tǒng) 配備 8 塊 GPU 的 NVIDIA DGX? A100