Můžeš použít třeba 8-bit VNNI a dopadne to úplně stejně jako FP32. Bottleneck při inferenci neuronek jsou FMA jednotky a hrubý výpočetní výkon a i takový 8-bit kvantizovaný model bude se dvěma FMA jednotkami 2x rychlejší než s jednou FMA jednotkou.
VNNI instrukce jako např. VPDPBUSD jsou FMA operace (fused multiply add) a provádí ji FMA jednotka na 64 osmibitových číslech paralelně v plné šířce 512-bitů. Přidání další FMA jednotky na Intel CPU zvýší výkon VNNI instrukcí 2x, mám to prakticky ověřeno.