Vlákno názorů k článku
AVX-512 s AMD Strix Halo: výkon o polovinu vyšší, spotřeba stejná od linuxák - Můžeš použít třeba 8-bit VNNI a dopadne to...

29. 5. 2025 10:19

linuxák

Můžeš použít třeba 8-bit VNNI a dopadne to úplně stejně jako FP32. Bottleneck při inferenci neuronek jsou FMA jednotky a hrubý výpočetní výkon a i takový 8-bit kvantizovaný model bude se dvěma FMA jednotkami 2x rychlejší než s jednou FMA jednotkou.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
29. 5. 2025 12:03

cc

8-bit VNNI je ale ALU, to nemá s FMA nic společného.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
29. 5. 2025 12:35

linuxák

Ani náhodou.

VNNI instrukce jako např. VPDPBUSD jsou FMA operace (fused multiply add) a provádí ji FMA jednotka na 64 osmibitových číslech paralelně v plné šířce 512-bitů. Přidání další FMA jednotky na Intel CPU zvýší výkon VNNI instrukcí 2x, mám to prakticky ověřeno.

Dále u nás najdete