Instrukce typu movntdq/vmovntdq bych ani neporovnával. Jejich použití je tak specifické, že na typický workload o nich nemá smysl přemýšlet. Setkal jsem se i s tím, že programátor právě použitím těchto instrukcí běh programu zpomalil.
Jinak já si ještě pamatuju movntq z dob MMX, kdy byla obecně cache malá a právě tyto instrukce mnohdy znamenaly zrychlení 2x/3x (linux je tehdy používal pro čištění stránek).