Asi nikdy neimplementoval HPC model fireballu gama záblesků, pak by si AVX-512 pochvaloval :) Ale vážně, ty instrukce původně vznikaly pro GPU (Larrabee nebo jak se to jmenovalo) a je pravda, že zabírají spoustu křemíku a že je Intel neumí efektivně implementovat. V Xeonech pro servery ještě dávají smysl, ale proč jsou xakru i v mobilních procesorech (třeba těch v Surfacech), kde kromě rychlého vybití baterky absolutně nic nepřináší, neb mají jen jednu FMA jednotku.
Připadá mi, že hlavní přínos AVX512 není ani tak délka vektoru. Normální AVX s 256 bity umožňuje mít vektor se čtyřmi FP hodnotami ve dvojí přesnosti a 99% consumerským aplikacím to plně vyhovuje. Zajímavé je spíš rozšíření instrukční sady včetně nových kontrolních registrů k0-k7. Kdyby místo toho implementovali nějaké AVX3 s 256bit vektory a těmito novými vlastnostmi s tím, že by jelo na plný výkon bez zpomalování taktu, tak by to podle mne byl mnohem záslužnější počin.
To je pravda — mimochodem ty “nové vlastnosti” jdou používat i s 256-bitovými registry, ale je třeba říct, že i AVX2 výrazně snižuje takt a žere spoustu energie (MacBook Pro vybije například při konverzi videa klidně během půl hodiny). AMD prý takt nesnižuje a v nových procesorech už umí aspoň těch 256 bitů naráz. Nicméně s rozmachem ARM i v počítačích (nebo zpočátku aspoň v laptopech) možná bude celé AVX méně relevantní, ARM má své vektorové instrukce.