人工智慧

CUDA Core 與 Tensor Core

CUDA Core 是 NVIDIA GPU 中的基礎計算單元,用於執行通用的浮點與整數運算。在沒有 Tensor Core 之前,機器學習均依賴其計算效能進行訓練。這個傳統架構直到 2016 年,隨著深度學習的興起, Pascal 系列開始有了改變,NVIDIA 此時導入初代 NVLink 技術,FP32 Cuda Core 也開始具有處理 FP16 的能力。

然而這樣還不夠,由於 Cuda Core 每個時脈週期只能進行一次計算,但是 CUDA Core 數量無法無止盡的堆疊。因此 NVIDIA 別出蹊徑,開發出了 Tensor Core,應用在下一代 Volta 系列上。它允許混合精度運算,並可動態調整運算,在加速傳輸量的同時保持精準度。使得 Volta 提供了比 Pascal 高數倍的訓練和推理效率。

此後,NVIDIA 在 Volta 架構的基礎上,對 Tensor Core 進行了更深度的設計,新增對更低精度計算的加速支援。自 Volta 系列問世以來,現今 Tensor Core 已發展至第五代,最低精度已經允許支援 FP4 精度。因此,在比較顯卡的 AI 計算效能時,通常以 Tensor Core 的加速效率作為主要判斷依據。

Tensor Core 支援精度

|

Gen |

Architecture | Tensor Core TF32 | Tensor Core FP32 | Tensor Core BF16 | Tensor Core FP16 | Tensor Core FP8 | Tensor Core INT8 | Tensor Core FP6 | Tensor Core INT4 | Tensor Core FP4 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 1st | Volta | No | No | No | Yes | No | No | No | No | No | | 2nd | Turing | No | No | No | Yes | No | Yes | No | Yes | No | | 3rd | Ampere | No | No | Yes | Yes | No | Yes | No | Yes | No | | 4th | Ada Lovelace | Yes | Yes | Yes | Yes | No | Yes | No | Yes | No | | 4th+ | Hopper | Yes | Yes | Yes | Yes | Yes | Yes | No | No | No | | 5th | Blackwell | Yes | Yes | Yes | Yes | Yes | Yes | Yes | No | Yes |

(不紀錄 FP64、INT1 … 等主流 LLM 不常使用的資訊)

NVIDIA 顯示卡

在 LLM 領域中,開發者及一般愛好者常用的顯示卡涵蓋 Pascal 至 Ada Lovelace 系列,而今年推出的 Blackwell 2.0 系列正蓄勢待發。

不過 Pascal 系列自發售以來已歷經 9 年,目前各大 AI 相關函式庫對其的支援逐漸進入維護階段,甚至對 Turing 系列的支援也開始出現類似趨勢。因此,若預算允許,建議從 Ampere 系列的 RTX 3060 12G 開始入門。

基本資訊

以下表格為目前 NVIDIA 大部分可用於 AI 領域的計算卡。

<aside> 📢

GPU Database