SIMD na X86 nabízí hodně, ale toto je nuda :) Chce to trochu shuffling, permutace, speciální instrukce, a potom rychle přejít k AVX2 a AVX-512. Tam jsou zajímavé věci (VPCOMPRESSx, GFNI, VBMI2, atd...). Staré věci většinou hodně používají [V]PSHUFB, atd...