The Intel Gaudi 3 AI accelerator features two compute dies, which together
contain 8 MME engines, 64 TPC engines and 24x 200 Gbps RDMA NIC ports.
In addition, the total of 8 HBM2e chips comprise a 128 GB unified High Bandwidth
Memory (HBM).
The Intel Gaudi 3 AI accelerator excels at training and inference with 1.8 PFlops of
FP8 and BF16 compute, 128 GB of HBM2e memory capacity, and 3.7 TB/s of HBM bandwidth.
Specifikace zajímavá, ale nějak se mi nechce zabývat se tím, jak se pro to vlastně programuje. 3.7TB/s není špatný bandwidth, ale i nějaká silnější GPU může dosáhnout kolik, 2TB/s? Takže je to opravdu takové terno, když to je vyrobené 5nm TSMC procesem?