V tom kódu používají "_mm512_mask_compressstoreu_epi32/64" - jedna z mála instrukcí, která je v Zen 4 microcoded když je výsledek uložený rovnou do paměti (a je to fakt pomalé).
Dá se to celkem jednoduše fixnout, ale nevím jestli to zrovna Intel chce :)
Toto je ale spíš problém AMD - z nějakého nepochopitelného důvodu udělali tuto instrukci celkem nepoužitelnou.
17. 2. 2023, 11:04 editováno autorem komentáře